Python爬虫大作业爬取豆瓣影评

2020-05-10

Python爬虫大作业：爬取豆瓣影评

项目描述

本项目是一个Python爬虫程序，旨在从豆瓣网站上爬取最受欢迎的影评数据，并将这些数据保存到Excel表格中。此外，程序还会生成词云图，以便更直观地展示评论中的关键词。

数据描述

数据来源

豆瓣最受欢迎的影评：本项目爬取的数据来源于豆瓣网站上最受欢迎的影评。

数据获取

信息获取：程序会爬取影评的相关信息，包括评论链接、电影名、电影详细地址、评论标题以及评论正文等。
数据存储：获取的数据将被写入Excel表格中，并生成词云图。

数据获取步骤

获取页面信息：
- 调用函数获取页面信息，并保存为HTML文件。
- 使用html.parser解析器解析HTML页面，查找符合要求的字符串。
- 对电影的HTML代码再次使用BeautifulSoup解析，将电影信息加入datalist。
创建Excel表格：
- 创建workbook对象，并创建工作表。
- 建立列名，将评论链接、电影名、电影详情地址、评论标题、评论正文写入数据并保存。
生成词云：
- 对评论文本进行分词。
- 使用matplotlib库展示词云图片，并保存到文件。
数据库操作：
- 打开或创建数据库文件。
- 执行SQL语句，提交数据库操作，关闭数据库连接，成功建表。
数据保存：
- 将获取到的数据保存到Excel表格，并保存到数据库。

使用说明

环境准备：
- 确保已安装Python环境。
- 安装所需的Python库：requests, beautifulsoup4, pandas, matplotlib, jieba, openpyxl等。
运行程序：
- 运行主程序文件，程序将自动爬取豆瓣影评数据，并生成Excel表格和词云图。
查看结果：
- 生成的Excel表格和词云图将保存在指定目录下，可以直接查看。

注意事项

请确保在合法范围内使用爬虫程序，遵守豆瓣网站的Robots协议。
由于豆瓣网站的页面结构可能会发生变化，程序可能需要根据实际情况进行调整。

贡献

欢迎大家提出改进建议或提交Pull Request，共同完善这个项目。

许可证

本项目采用MIT许可证，详情请参阅LICENSE文件。

下载链接

Python爬虫大作业爬取豆瓣影评

← 上一篇下一篇 →