2750个中文通用资源表

基于频率: 优先选取在语料库中出现频率较高的词语作为资源词。
基于信息量: 避免选取具有较强语义信息或歧义性的词语。
基于目标任务: 根据具体的文本分析任务，针对性地选取或排除特定词语。

2020-06-10

简介

本文档提供了一个包含 2750 个中文通用资源词的列表，适用于中文文本处理和自然语言处理任务。资源词是指在文本分析中被认为没有特定含义或不重要的词语，如“的”、“是”、“和”等。

使用该资源词列表可以帮助过滤掉常见的无意义词语，从而提高文本分析的效果和准确性。适用于关键词提取、文本分类、情感分析等任务。

该资源词列表以文本文件的形式提供，每个资源词以换行的形式分割。

资源词的选取并非一成不变，随着语言的发展和社会的变化，一些新的词语可能需要加入该列表。建议根据具体的应用场景和需求，对资源词表进行适当的调整和更新。

欢迎大家在使用的同时不断完善该资源词表，并根据不同的应用给出不同的版本，以促进相关研究和应用的发展。

为了提高资源词表在不同应用场景中的适用性，建议根据以下原则对其进行优化：