中文短信数据集带标签

data.txt: 原始数据集，每行为一条短信，格式为“标签\t短信内容”。标签为0表示正常短信，标签为1表示垃圾短信。
train.csv: 拆分后的训练集。
test.csv: 拆分后的测试集。
train_test_split.py: 用于将原始数据集拆分为训练集和测试集的代码。
stopwords.txt: 使用的停用词列表。

2020-06-03

中文短信数据集-带标签

本数据集是一个用于自然语言处理实验的中文短信数据集，包含80万条短信，并带有标签。数据集可用于文本分类、信息检索等任务。

0	商业秘密的秘密性那是维系其商业价值和垄断地位的前提条件之一
1	《依林美容》三．八．女人节倾情大放送活动开始啦！！！！超值套餐等你拿，活动时间x月x日一x月xx日，详情进店咨询。美丽热线x

欢迎对该数据集进行改进和扩展，如有任何问题或建议，请提交Issue或Pull Request。

本数据集遵循 MIT许可证。