Python爬虫大作业爬取豆瓣影评

2020-05-10

Python爬虫大作业:爬取豆瓣影评

项目描述

本项目是一个Python爬虫程序,旨在从豆瓣网站上爬取最受欢迎的影评数据,并将这些数据保存到Excel表格中。此外,程序还会生成词云图,以便更直观地展示评论中的关键词。

数据描述

数据来源

  • 豆瓣最受欢迎的影评:本项目爬取的数据来源于豆瓣网站上最受欢迎的影评。

数据获取

  • 信息获取:程序会爬取影评的相关信息,包括评论链接、电影名、电影详细地址、评论标题以及评论正文等。
  • 数据存储:获取的数据将被写入Excel表格中,并生成词云图。

数据获取步骤

  1. 获取页面信息
    • 调用函数获取页面信息,并保存为HTML文件。
    • 使用html.parser解析器解析HTML页面,查找符合要求的字符串。
    • 对电影的HTML代码再次使用BeautifulSoup解析,将电影信息加入datalist
  2. 创建Excel表格
    • 创建workbook对象,并创建工作表。
    • 建立列名,将评论链接、电影名、电影详情地址、评论标题、评论正文写入数据并保存。
  3. 生成词云
    • 对评论文本进行分词。
    • 使用matplotlib库展示词云图片,并保存到文件。
  4. 数据库操作
    • 打开或创建数据库文件。
    • 执行SQL语句,提交数据库操作,关闭数据库连接,成功建表。
  5. 数据保存
    • 将获取到的数据保存到Excel表格,并保存到数据库。

使用说明

  1. 环境准备
    • 确保已安装Python环境。
    • 安装所需的Python库:requests, beautifulsoup4, pandas, matplotlib, jieba, openpyxl等。
  2. 运行程序
    • 运行主程序文件,程序将自动爬取豆瓣影评数据,并生成Excel表格和词云图。
  3. 查看结果
    • 生成的Excel表格和词云图将保存在指定目录下,可以直接查看。

注意事项

  • 请确保在合法范围内使用爬虫程序,遵守豆瓣网站的Robots协议。
  • 由于豆瓣网站的页面结构可能会发生变化,程序可能需要根据实际情况进行调整。

贡献

欢迎大家提出改进建议或提交Pull Request,共同完善这个项目。

许可证

本项目采用MIT许可证,详情请参阅LICENSE文件。

下载链接

Python爬虫大作业爬取豆瓣影评