大规模连接手写汉字认别数据库整理、总括和实验探析

论文价格:免费 论文用途:其他 编辑:mjt1985 点击次数:195
论文字数:46400 论文编号:sb201301191544355924 日期:2013-01-20 来源:硕博论文网

第一章绪论

研究背景和发展现状

    近年来,伴随着智能手机、平板电脑为代表的智能移动设备越来越多的进入人们的生活,伴随着触摸屏的广泛使用,使得汉字手写输入成为了人机交互方式中最便捷、最自然的方式,同时也促进了联机手写汉字识别技术(On-Line  Chinese CharacterRecognition)的快速发展。近十年来,在众多学者、研究人员的推动下,提出了以人工神经网络(Artificial Neural Network、支持向量机(Support Vector Machine SVM),二次线性判决函数(Modified Quadratic Discriminant Function } MQDF)等为核心的高性能手写识别分类器,以及最近几年提出的基于Android和云计算的手写识别系统,借助网络将云计算平台上强大、快速、准确、个性化的手写识别服务提供给移动终端使用,从而解决了很多具有高准确率的识别分类器,由于自身的模型参数十分复杂,对CPU和内存的要求较高,识别时间较长,在移动设备上的应用受到了限制的问题。因此,联机手写汉字识别吸引了越来越多的学术和工业上的注意,越来越多的人开始投入到联机手写识别系统的研究和开发之中。
    我们知道建立手写汉字数据库是研究和开发手写汉字识别技术的基础。然而,伴随着汉字手写识别分类器和算法的不断发展,与之相关联的手写汉字数据库的发展相对缓。到目前,真正可以使用的数据库,屈指可数。而且早期的数据库还存在样本字体单一(工整楷书)、样本不足(每字几百个样本)的等问题,不过随着近几年的发展,汉字手写识别数据库的发展己经从单一字体的楷书发展为楷书、行书、简体、繁体等多种样本集,样本空间不断扩大,个性化程度、通用性方而得到了很大改善。人们越来越注意到了手写汉字数据库研究的重要性,不断有新的数据库和数据库相关的文献发表出来。
    从最早,1993年的UNIPEN项目开始,到最近十年里,也己经发布了许多手写数据库相关的文献。有些是用脱机数据库命名的,例如:英国的CENPARMh3]和CEDER数据库,法国的IRONOFF数据库,印度的ISI数据库,日本的ETL-8/ETL-9数据库,中国的IAAS4M, HCL2000和HIT-MW。有的是联机数据库,例如:日本的联机数据库Kuchibue和Nakayosi,和最近公布的联机汉字手写数据库以SiA-OLHWDB 和SCUT-COUCH200醉,结果对手写识别产生了强力的促进和迅速发展。特别是最近几年越来越多得注意力聚集到构建公开可利用的基于不同语言的基础数据库上,例如:联机手写汉字字符数据库,脱机阿拉伯语字符手写数据库,脱机西班牙文本数据库波斯手写文本数据库等。
    目前,在联机汉字手写数据库方而,主要有日本电子技术实验室的ETL-8/ETL-9中国科学院自动化研究所的IAAS-4M,清华大学的THO CR-HC,华南理工的S CUT-IRAC台湾工业技术研究所的ITRI,北京邮电大学的HCL2000,哈尔滨工业大学的HIT-MW和香港大学的HK2002。这些数据库有的己经在汉字识别领域得到广泛的应用。本文采用数据库来源于华南理工大学HCII实验室开发的一款SCUT gPen联机手写汉字识别系统通过网络采集到的,数据库具有大规模、联机、无约束的特性。

2研究目的和意义

    一个标准和良好的有代表意义的手写汉字样本库,是开展手写汉字识别研究的前提和基础,建立一个大规模的、广泛的、无约束的汉字数据库将推动我国汉字识别的发展,其直接意义在于:

 

第三章 SCUT GPEN 数据库简介......... 28-35
    3.1 SCUT gPen 数据库......... 28-29
    3.2 SCUT gPen 总体架构......... 29-31
    3.3 gPenDataCleanUp 软件......... 31-32
    3.4 gPen 数据库整理算法......... 32-33
    3.5 置信度的基本原理......... 33-34
    3.6 本章小结......... 34-35
第四章 SCUT GPEN 数据库统计......... 35-42
    4.1 gPen 数据样本在 GB1 和 GB2......... 35
    4.2 gPen 数据样本在 GB1 子集.........布 35-36
    4.3 gPen 数据样本的笔画......... 36-39
    4.4 整理过程中几种样本......... 39-41
    4.5 本章小结......... 41-42
第五章 实验分析与结果......... 42-51
    5.1 gPen 数据库训练的测试......... 42-43
    5.2 其他数据库训练的测试......... 43-44
    5.3 具体类别的测试与......... 44-47
        5.3.1 书写频率最高的前......... 44-45
        5.3.2 识别率最低的 20 ......... 45
        5.3.3 实验结果分析......... 45-47


总结与展望
    本文通过对SCUT gPen数据库样本进行整理、统计并做了大量的实验,实验结果证明了网络采集的gPen数据库的大规模的、广泛性和无约束性的特点,同时整理后的数库还具有很强的实验和测试价值,实验结果也证明了系统的识别率得到大幅提高。
    针对本文所完成的主要工作,总结如下:
    (1)论述了联机手写汉字识别数据库的研究背景和发展状况,阐述了建立一个标准的、良好的具有大规模、无约束性数据库的目的和意义。
    (2)论述了联机手写汉字识别的方法及研究。简单介绍了汉字识别的分类、联机手写汉字识别的难点,联机手写汉字识别的国内外的发展概况,汉字识别的预处理技术,特征提取以及分类器的设计等。


参考文献
[1]Lianwen Jin, Yan Gao, Gang Liu, Yunyang Li, Kai Ding.:SCUT-COUCH2009一a  comprehensive online unconstrained Chinese handwriting database and benchmark  evaluation, IJDAR14,pp.53-64 (2011).
[2]   The UNIPEN Project
[3]   Suen, C.Y., Nadal, C., Legault, R, Mai, T.A., Lam, L.:Computer recognition of  unconstrained handwritten numerals. In: Proceedings of the IEEE, 80(7), 1162-1180 (1992).
[4]   Hull, J.:Adatabase for handwritten text recognition research. IEEE Trans. Pattern Anal. Mach. Intell. 16(5), 550-554 (1994).
[5]   Viard-Gaudin, C., Lallican,    P.M., Knerr, S., Binter, P.:The IRESTE On/Off (IRONOFF) dual handwriting database. In: Proceedings of the fifth International Conference on Document Analysis and Recognition,ICDAR99, pp. 455-458 (1999).
[6]   Bhattacharya, U., Chaudhuri, B.B.:Databases for research on recognition of handwritten characters of Indian scripts. In: Proceedings of the eighth International Conference on Document Analysis and Recognition, ICDAROS, pp. 789-793(2005).
[7]   Mori, S., Yamamoto, K., Yamada, H., Saito, T.:On a hand printed kyoiku-kanji character database. Bull. Electrotech. Lab 43(11一12),752-773 (1979).
[8]   Liu, Y.J., Tai, J.W., Liu, J.:An introduction to the 4million handwriting Chinese character samples library. In: Proceedings of the International Conference on Chinese Computing and Processing of Orient Language, ICCPOL89, pp. 94-97 (1989).
[9]   Ge, Y., Huo, Q.:A comparative study of several modeling approaches for large vocabulary offline recognition of handwritten Chinese characters. In: Proceedings of the 16th International Conference on Pattern Recognition, ICPR02, pp. 85-88 (2002).
[10] Su, T.H., Zhang, T.W., Guan, D.J.:Corpus-based HIT-MW database for offline recognition of general-purpose Chinese handwritten text. Int. J. Document Anal. Recogn IJDARO710(1), 27-3 8 2007.


QQ 1429724474 电话 18964107217