手写中文数据集

2023-08-30

简介

本资源文件提供了一个手写中文数据集，适用于手写汉字识别、OCR（光学字符识别）等领域的研究和开发。该数据集包含了大量的手写汉字样本，涵盖了多种字体和书写风格，能够为相关研究提供丰富的数据支持。

该数据集主要包含以下几个部分：

中科院自动化研究所-手写中文数据集：
- 数据来源：中科院自动化研究所
- 数据简介：包含在线和离线两类手写数据，HWDB1.0~1.2总共有3895135个手写单字样本，分属7356类（7185个汉字和171个英文字母、数字、符号）。HWDB2.0~2.2总共有5091页图像，分割为52230个文本行和1349414个文字。所有文字和文本样本均存为灰度图像。
华南理工大学-手写中文数据集(SCUT-EPT Dataset)：
- 数据来源：华南理工大学
- 数据简介：SCUT-EPT数据集适用于手写文档和字符识别的模型训练，从2986位志愿者试卷中提取得到，总共包含5万张文本行图片，分属4250类（4033个常见汉字、104个符号和113个生僻字）。生僻字是指字符不在CASIA-HWDB1.0-1.2字符集合中的字。SCUT-EPT数据集中总字符数为1,267,161，每个文本行大约25个字符。
NIST手写单字数据集-英文(NIST Handprinted Forms and Characters Database)：
- 数据来源：NIST
- 数据简介：NIST19数据集适用于手写文档和字符识别的模型训练，从3600位作者的手写样本表格中提取得到，总共包含81万张字符图片。

本数据集将持续更新，欢迎各位小伙伴贡献数据集。如果您有新的手写中文数据集或改进建议，请随时联系我们。

本数据集遵循CC 4.0 BY-SA版权协议，转载请附上原文出处声明。