文本分类(情感分析)——中文数据集汇总
本资源文件汇总了多个用于中文文本分类和情感分析的数据集,涵盖了新闻、评论、社交媒体等多种类型的文本数据。这些数据集可用于训练和评估文本分类、情感分析等自然语言处理任务的模型。
数据集列表
- THUCNews数据集
- 包含74万篇新闻文档,涵盖14个分类类别,如财经、彩票、房产、股票等。
- 今日头条新闻数据集
- 包含382688条新闻,分布于15个分类中。
- 全网新闻(SougouCA)和搜狐新闻(SougouCS)数据集
- 处理起来比较繁琐,不推荐使用。
- ChnSentiCorp_htl_all数据集
- 包含7000多条酒店评论数据,其中正向评论5000多条,负向评论2000多条。
- waimai_10k数据集
- 包含某外卖平台收集的用户评价,正向4000条,负向约8000条。
- online_shopping_10_cats数据集
- 包含10个类别(书籍、平板、手机、水果、洗发水、热水器、蒙牛、衣服、计算机、酒店),共6万多条评论数据,正、负向评论各约3万条。
- weibo_senti_100k数据集
- 包含10万多条带情感标注的新浪微博,正负向评论约各5万条。
- simplifyweibo_4_moods数据集
- 包含36万多条带情感标注的新浪微博,包含4种情感,其中喜悦约20万条,愤怒、厌恶、低落各约5万条。
- dmsc_v2数据集
- 包含28部电影,超70万用户,超200万条评分/评论数据。
- yf_dianping数据集
- 包含24万家餐馆,54万用户,440万条评论/评分数据。
- yf_amazon数据集
- 包含2万件商品,1100多个类目,142万用户,720万条评论/评分数据。
- Datahub数据中心
- 包含文本分类、情感分析以及知识图谱的数据集。
- AI_challenger情感分析数据集
- 数据集分为训练、验证、测试A与测试B四部分,评价对象按照粒度不同划分为两个层次。
使用说明
这些数据集可用于训练和评估文本分类、情感分析等自然语言处理任务的模型。部分数据集需要先进行处理才可以进行训练,具体处理方法可参考相关文献或教程。
贡献与反馈
如果您有其他中文文本分类或情感分析的数据集,欢迎补充。如果您在使用过程中发现任何问题或有任何建议,请在评论区留言。