情感分析数据集正面10000条负面5000条

2024-07-14

情感分析数据集(正面10000条,负面5000条)

简介

本仓库提供了一个情感分析数据集,包含10000条正面评论和5000条负面评论。该数据集是通过吸收谭松波非平衡酒店评论语料库(7000条正面,3000条负面,有部分重复数据),并结合从携程上抓取的数据,经过繁简转换、去重、去掉4字以下过短评论等处理后形成的。每条评论以单独一行的形式存储在文本文件中。

数据来源

  • 谭松波非平衡酒店评论语料库:包含7000条正面评论和3000条负面评论,部分数据存在重复。
  • 携程评论数据:从携程网站上抓取的评论数据,经过初步筛选和人工校验。

数据处理

  1. 繁简转换:将所有评论统一转换为简体中文。
  2. 去重:去除重复的评论数据。
  3. 过滤短评论:去掉字数少于4字的评论。
  4. 人工筛选:对初步分类的评论进行人工校验,剔除归类错误的数据。

数据格式

数据集以文本文件的形式提供,每行包含一条评论。正面评论和负面评论分别存储在不同的文件中。

使用说明

  1. 下载数据:您可以直接下载本仓库中的数据文件进行使用。
  2. 数据校验:由于数据经过人工筛选,难免会有错误,欢迎您在使用过程中进行修正,并将修正后的数据反馈给我们。
  3. 联系方式:如有任何问题或建议,请通过邮箱358473546@qq.com联系我们。

注意事项

  • 数据集中的评论归类是基于携程上的“值得推介”和“有待改善”栏目进行初步区分,并经过人工筛选,但仍可能存在分类错误。
  • 欢迎您在使用过程中对数据进行进一步的校验和修正,并将修正后的数据反馈给我们,以便不断完善数据集的质量。

感谢您的使用和支持!

下载链接

情感分析数据集正面10000条负面5000条