基于IMDB评论数据集的情感分析/LSTM/Pytorch
项目简介
本项目基于IMDB评论数据集,使用LSTM模型和Pytorch框架进行情感分析。IMDB评论数据集是一个广泛用于自然语言处理任务的数据集,包含5万条电影评论,其中2.5万条用于训练,2.5万条用于测试。本项目通过构建LSTM模型,对这些评论进行二元情感分类,即判断评论是正面还是负面。
数据集介绍
IMDB评论数据集包含以下内容:
- 训练集:2.5万条评论,其中1.25万条为正面评论,1.25万条为负面评论。
- 测试集:2.5万条评论,其中1.25万条为正面评论,1.25万条为负面评论。
- 未标注数据集:另外5万条评论,没有任何评级标签,可用于无监督学习。
研究方法
本项目采用了以下方法进行情感分析:
- 文本预处理:包括分词、建立字典、将文本转换为索引序列等步骤。
- Word Embedding:使用词嵌入技术将文本转化为向量表示。
- 全连接层网络:使用全连接层进行分类。
- LSTM模型:使用LSTM模型进行情感分类,LSTM模型能够捕捉文本中的长期依赖关系。
实验结果
经过6个Epochs的训练,LSTM模型的准确率达到了80.7%,而全连接层网络的准确率为66.0%。LSTM模型在情感分类任务中表现优于全连接层网络。
结论
通过增加LSTM网络,情感分析的准确率提高了14%,达到了显著的效果。LSTM模型在处理文本情感分类任务中具有较高的性能,未来还有进一步提升的空间。
使用说明
- 下载本仓库中的资源文件。
- 按照README.md中的指导进行环境配置和数据预处理。
- 运行训练脚本进行模型训练。
- 使用测试脚本评估模型性能。
依赖环境
- Python 3.6+
- Pytorch 1.10.2
- torchtext
参考文献
致谢
感谢CSDN博客作者cucjing提供的代码和实验数据。