基于IMDB评论数据集的情感分析LSTMPytorch

2021-06-22

基于IMDB评论数据集的情感分析/LSTM/Pytorch

项目简介

本项目基于IMDB评论数据集,使用LSTM模型和Pytorch框架进行情感分析。IMDB评论数据集是一个广泛用于自然语言处理任务的数据集,包含5万条电影评论,其中2.5万条用于训练,2.5万条用于测试。本项目通过构建LSTM模型,对这些评论进行二元情感分类,即判断评论是正面还是负面。

数据集介绍

IMDB评论数据集包含以下内容:

  • 训练集:2.5万条评论,其中1.25万条为正面评论,1.25万条为负面评论。
  • 测试集:2.5万条评论,其中1.25万条为正面评论,1.25万条为负面评论。
  • 未标注数据集:另外5万条评论,没有任何评级标签,可用于无监督学习。

研究方法

本项目采用了以下方法进行情感分析:

  1. 文本预处理:包括分词、建立字典、将文本转换为索引序列等步骤。
  2. Word Embedding:使用词嵌入技术将文本转化为向量表示。
  3. 全连接层网络:使用全连接层进行分类。
  4. LSTM模型:使用LSTM模型进行情感分类,LSTM模型能够捕捉文本中的长期依赖关系。

实验结果

经过6个Epochs的训练,LSTM模型的准确率达到了80.7%,而全连接层网络的准确率为66.0%。LSTM模型在情感分类任务中表现优于全连接层网络。

结论

通过增加LSTM网络,情感分析的准确率提高了14%,达到了显著的效果。LSTM模型在处理文本情感分类任务中具有较高的性能,未来还有进一步提升的空间。

使用说明

  1. 下载本仓库中的资源文件。
  2. 按照README.md中的指导进行环境配置和数据预处理。
  3. 运行训练脚本进行模型训练。
  4. 使用测试脚本评估模型性能。

依赖环境

  • Python 3.6+
  • Pytorch 1.10.2
  • torchtext

参考文献

致谢

感谢CSDN博客作者cucjing提供的代码和实验数据。

下载链接

基于IMDB评论数据集的情感分析LSTMPytorch