手写中文数据集
简介
本资源文件提供了一个手写中文数据集,适用于手写汉字识别、OCR(光学字符识别)等领域的研究和开发。该数据集包含了大量的手写汉字样本,涵盖了多种字体和书写风格,能够为相关研究提供丰富的数据支持。
数据集内容
该数据集主要包含以下几个部分:
- 中科院自动化研究所-手写中文数据集:
- 数据来源:中科院自动化研究所
- 数据简介:包含在线和离线两类手写数据,HWDB1.0~1.2总共有3895135个手写单字样本,分属7356类(7185个汉字和171个英文字母、数字、符号)。HWDB2.0~2.2总共有5091页图像,分割为52230个文本行和1349414个文字。所有文字和文本样本均存为灰度图像。
- 华南理工大学-手写中文数据集(SCUT-EPT Dataset):
- 数据来源:华南理工大学
- 数据简介:SCUT-EPT数据集适用于手写文档和字符识别的模型训练,从2986位志愿者试卷中提取得到,总共包含5万张文本行图片,分属4250类(4033个常见汉字、104个符号和113个生僻字)。生僻字是指字符不在CASIA-HWDB1.0-1.2字符集合中的字。SCUT-EPT数据集中总字符数为1,267,161,每个文本行大约25个字符。
- NIST手写单字数据集-英文(NIST Handprinted Forms and Characters Database):
- 数据来源:NIST
- 数据简介:NIST19数据集适用于手写文档和字符识别的模型训练,从3600位作者的手写样本表格中提取得到,总共包含81万张字符图片。
使用建议
- 数据为单字,白色背景,可以大量合成文字行进行训练。
- 白色背景可以处理成透明状态,方便添加各种背景。
- 对于需要语义的情况,建议从真实语料出发,抽取单字组成文字行。
贡献与更新
本数据集将持续更新,欢迎各位小伙伴贡献数据集。如果您有新的手写中文数据集或改进建议,请随时联系我们。
版权声明
本数据集遵循CC 4.0 BY-SA版权协议,转载请附上原文出处声明。