中文短信数据集-带标签
数据集描述
本数据集是一个用于自然语言处理实验的中文短信数据集,包含80万条短信,并带有标签。数据集可用于文本分类、信息检索等任务。
数据集结构
- data.txt: 原始数据集,每行为一条短信,格式为“标签\t短信内容”。标签为0表示正常短信,标签为1表示垃圾短信。
- train.csv: 拆分后的训练集。
- test.csv: 拆分后的测试集。
- train_test_split.py: 用于将原始数据集拆分为训练集和测试集的代码。
- stopwords.txt: 使用的停用词列表。
示例
0 商业秘密的秘密性那是维系其商业价值和垄断地位的前提条件之一
1 《依林美容》三.八.女人节倾情大放送活动开始啦!!!!超值套餐等你拿,活动时间x月x日一x月xx日,详情进店咨询。美丽热线x
相关文章
使用说明
- 数据集下载: 直接从本仓库下载所需的数据文件。
- 数据预处理: 使用
train_test_split.py
脚本将data.txt
拆分为训练集和测试集。 - 实验: 根据需求使用
train.csv
和test.csv
进行文本分类或信息检索实验。
注意事项
- 数据集仅供学习和研究使用,请勿用于商业用途。
- 数据集中的短信内容可能包含敏感信息,请谨慎处理。
贡献
欢迎对该数据集进行改进和扩展,如有任何问题或建议,请提交Issue或Pull Request。
许可证
本数据集遵循 MIT许可证。