中文短信数据集带标签

2020-06-03

中文短信数据集-带标签

数据集描述

本数据集是一个用于自然语言处理实验的中文短信数据集,包含80万条短信,并带有标签。数据集可用于文本分类、信息检索等任务。

数据集结构

  • data.txt: 原始数据集,每行为一条短信,格式为“标签\t短信内容”。标签为0表示正常短信,标签为1表示垃圾短信。
  • train.csv: 拆分后的训练集。
  • test.csv: 拆分后的测试集。
  • train_test_split.py: 用于将原始数据集拆分为训练集和测试集的代码。
  • stopwords.txt: 使用的停用词列表。

示例

0	商业秘密的秘密性那是维系其商业价值和垄断地位的前提条件之一
1	《依林美容》三.八.女人节倾情大放送活动开始啦!!!!超值套餐等你拿,活动时间x月x日一x月xx日,详情进店咨询。美丽热线x

相关文章

使用说明

  1. 数据集下载: 直接从本仓库下载所需的数据文件。
  2. 数据预处理: 使用 train_test_split.py 脚本将 data.txt 拆分为训练集和测试集。
  3. 实验: 根据需求使用 train.csvtest.csv 进行文本分类或信息检索实验。

注意事项

  • 数据集仅供学习和研究使用,请勿用于商业用途。
  • 数据集中的短信内容可能包含敏感信息,请谨慎处理。

贡献

欢迎对该数据集进行改进和扩展,如有任何问题或建议,请提交Issue或Pull Request。

许可证

本数据集遵循 MIT许可证

下载链接

中文短信数据集-带标签

下载链接

中文短信数据集-带标签