手写中文数据集

2023-08-30

手写中文数据集

简介

本资源文件提供了一个手写中文数据集,适用于手写汉字识别、OCR(光学字符识别)等领域的研究和开发。该数据集包含了大量的手写汉字样本,涵盖了多种字体和书写风格,能够为相关研究提供丰富的数据支持。

数据集内容

该数据集主要包含以下几个部分:

  1. 中科院自动化研究所-手写中文数据集
    • 数据来源:中科院自动化研究所
    • 数据简介:包含在线和离线两类手写数据,HWDB1.0~1.2总共有3895135个手写单字样本,分属7356类(7185个汉字和171个英文字母、数字、符号)。HWDB2.0~2.2总共有5091页图像,分割为52230个文本行和1349414个文字。所有文字和文本样本均存为灰度图像。
  2. 华南理工大学-手写中文数据集(SCUT-EPT Dataset)
    • 数据来源:华南理工大学
    • 数据简介:SCUT-EPT数据集适用于手写文档和字符识别的模型训练,从2986位志愿者试卷中提取得到,总共包含5万张文本行图片,分属4250类(4033个常见汉字、104个符号和113个生僻字)。生僻字是指字符不在CASIA-HWDB1.0-1.2字符集合中的字。SCUT-EPT数据集中总字符数为1,267,161,每个文本行大约25个字符。
  3. NIST手写单字数据集-英文(NIST Handprinted Forms and Characters Database)
    • 数据来源:NIST
    • 数据简介:NIST19数据集适用于手写文档和字符识别的模型训练,从3600位作者的手写样本表格中提取得到,总共包含81万张字符图片。

使用建议

  • 数据为单字,白色背景,可以大量合成文字行进行训练。
  • 白色背景可以处理成透明状态,方便添加各种背景。
  • 对于需要语义的情况,建议从真实语料出发,抽取单字组成文字行。

贡献与更新

本数据集将持续更新,欢迎各位小伙伴贡献数据集。如果您有新的手写中文数据集或改进建议,请随时联系我们。

版权声明

本数据集遵循CC 4.0 BY-SA版权协议,转载请附上原文出处声明。

下载链接

手写中文数据集分享