Python之红楼梦词频统计并生成图云

2021-04-26

Python之红楼梦词频统计并生成图云

本仓库提供了完整的Python脚本和指南，帮助您分析古典名著《红楼梦》中的词频，并自动生成美观的词云图像。这份资源非常适合学习Python数据分析、自然语言处理（NLP）的初学者，以及对中国文学有兴趣的数据爱好者。

功能概述

词频统计：通过使用jieba分词库，对《红楼梦》文本进行精确分词。
停用词过滤：剔除常见停用词，专注于有意义的词汇分析。
个性化处理：对特定词汇进行合并（如将不同称呼统一），增强分析的准确性。
词云生成：采用wordcloud库，根据统计结果生成视觉化的词云图，展示高频词汇。
字体配置：支持中文显示，需指定正确的中文字体文件路径（如simhei.ttf）。
代码示例：提供了详细的代码段，涵盖了从读取文本、分词、统计词频到生成词云的全过程。

快速入门

准备材料：确保拥有《红楼梦.txt》文本文件和包含停用词的stop_words.txt。
环境需求：安装必要的Python库，包括jieba, wordcloud, 和 matplotlib。
执行步骤：
- 导入所需模块。
- 加载文本和停用词列表。
- 应用分词，并根据规则清理词频数据。
- 设置词云样式，包括字体、尺寸等。
- 生成并显示词云图像。

示例代码片段

import jieba
from wordcloud import WordCloud
import matplotlib.pyplot as plt

def wordFreq(filepath, text, topn):
    # 分词与初步处理
    words = jieba.lcut(text.strip())
    stopwords = [line.strip() for line in open('stop_words.txt', 'r', encoding='utf-8').readlines()]
    # 统计并返回处理后的词列表
    ...

def gen_cloudword(txt):
    # 初始化词云
    wcloud = WordCloud(font_path='simhei.ttf', width=1000, height=860)
    wcloud.generate(txt)
    # 保存并显示词云
    wcloud.to_file("红楼梦cloud.png")
    plt.imshow(wcloud)
    plt.axis('off')
    plt.show()
    
# 主流程
if __name__ == "__main__":
    with open('红楼梦.txt', 'r', encoding='utf-8') as f:
        text = f.read()
    words_clear = wordFreq('红楼梦.txt', text, 10)
    gen_cloudword(' '.join(words_clear))

注意事项

确保所有必需的文件（文本、停用词列表及中文字体文件）位于正确的位置。
根据实际环境调整字体路径。
分析结果受文本处理逻辑的影响，可适当调整以适应不同需求。

开始您的《红楼梦》数据探索之旅，发现隐藏在文字间的秘密吧！

下载链接

Python之红楼梦词频统计并生成图云