本文是一篇工程硕士论文,本文分析中药药单的文字书写特征,针对中药药单图像的文字特征,尤其是在识别生僻字、潦草字时,研究使用一种动态拆分与识别技术,更好地对检测到中药药单字符做拆分及合并。
1 绪论
1.1 研究背景及意义
中医药学是中国古代科学的一项伟大创造,同时也是世界的瑰宝,中医药学为中华民族的生生不息奠定了基础,同时对全球的生命发展影响深远。党中央自十八大以来,不断提高中医药学的地位,为中医药学提供了良好的发展环境,也促进了中医药学的蓬勃发展。但是,自从明末清初西医引入中国之后,对中医药学有了一定的冲击,导致中医药学传承有限,再加上中医见效慢,药材参差不齐,中医药学发展缓慢。目前,时代赋予了中医药学更好的发展条件,需要迫切地采取相关措施,深入发展中医药学,将祖先的伟大创造发扬光大,一代一代地传承下去。
从神农尝百草开始,到伤寒杂病论、本草纲目的问世,再到现在科技化、智能化的中医系统,中医的发展都是经过历史经验积累的。国家大力提倡坚持守正创新,推进中医药开放发展,加强科技创新,利用信息数据切实推进中医药传承。通过有效加强地方学术流派、各方名老中医学术思想的整理、挖掘,创新现代中医技术、理论。建设各门各派中医学术研究院(所);开展中医药古籍、文献等相关普查登记;基于临床需求开展中医典籍研究;建设中医药知识数据库、数字图书馆等,推进数字化保护工作。
同时,依托高校、企业、医疗机构的力量,建设更多的民间中医药技术中心,收集民间的中药药单,推广中药技术[1]。中药药单正是这些宝贵经验的重要载体,中药药单在文化传承上具有十分重要的地位。
工程硕士论文怎么写
.........................
1.2 国内外研究现状
文字识别(OCR)的实质就是将文字图像转为机器语言从而识别出相应的字符。德国科学家Tausheck在1929年首次提出OCR的概念,而美国科学家Handel后来提出了通过技术来识别字符的想法。第一个研究书面汉字识别的研究人员是IBM公司的凯西(Casey)和纳吉(Nagy)。他们使用模板匹配的方法成功地识别了1000个印刷汉字,在1966年发表了第一篇关于汉字识别的文章。1970年后,日本学者开始研究汉字的识别问题。中国在OCR技术方面的研究起步较晚,对数字、英文字母及符号的识别研究到了20世纪70年代末才开始涉及,到了80年代后期才有实质性的突破。到现在,文字识别已经成为计算机视觉一个重要的研究分支。
本文研究的中药药单识别实质为手写体文字识别,通过计算机视觉对中药药单领域的信息识别研究不多,但是对于手写文字、草书汉字、手写英文等方面,国内外的研究数不胜数,究其根本,都是对于复杂书写体进行信息识别。喻[3]通过最大稳定极值区域算法与数学形态学相结合,基于几何特征的启发式过滤规则,优化算法提升识别效率。杨[4]通过使用Gabor小波方法和haar-like算法从文本图像中提取特征,产生了良好的分类和识别结果。华[5]进行了一系列的预处理步骤,包括对图像文本图像进行归一化和二值化,提取图像文本骨架,并对文本骨架进行冗余分支修剪和多边形逼近。然后得到关键点,包括文本笔画的端点、转折点和分支点,作为图模型的节点,再根据图像文本的特点构建节点之间的连接。图形模型代表了文本的结构信息。Sun等[6]构建了亲和矩阵用以作为文字识别的预测依据,它的原理就是采用图匹配算法,从而根据局部特征计算结果选择最为相似的字符。
......................
2 相关理论知识介绍
2.1 深度学习
梳理清楚AI(人工智能)、Machine Learning(机器学习)、Deep Learning(深度学习)三者之间的关系才能更好地掌握深度学习。
首先,我们介绍人工智能[25]和机器学习[26]。“机器学习”是对人工智能方法的总称。IBM的工程师在1956年的达特茅斯会议上提出:机器学习,可以被认为是一门类似于数学和物理学的学科,它不仅是实现人工智能的手段,也是研究如何发展人工智能的领域。
为了提高系统的性能指标,机器会在过去的数据中探索规律。事实上,人类的行为也是通过观察和模仿来学习的,因此我们期望计算机能够像人类一样从过去的数据和行为中学习,以实现人工智能。简而言之,机器学习探索历史规律并将其应用于当下。
随着探索和研究的深入发展,传统的机器学习算法无法实现人们想要的“智能”。为了解决深度网络训练中梯度消失的问题,加拿大多伦多大学的教授Geoffrey Hinton[27]在2006年改进了经典的神经网络方法。在这项工作的基础上,他随后提出了深度神经网络的概念。Geoffrey Hinton的教学团队表示,由CNN构建的AlexNet在2012年夺得了ImageNet图像识别比赛冠军。深度学习因此引起了业界的关注,后续逐步应用到工业行业上。
与传统机器学习相比,深度学习技术明显更加“智能”。在图片识别、语义理解、语音识别等领域显得尤为突出。深度学习将人工智能和机器学习提高到一个全新的水平。
............................
2.2 神经网络
深度学习是基于神经网络算法的,上文提到的Geoffrey Hinton教授团队提出Deep Learning,其核心实际上就是人工神经网络算法。1943年,科学家McCulloch[28]和Pitts提出了最经典的MP神经元模型[29]。
由于神经网络是仿生的,所以首先对其结构和工作机制有一个初步的认识。一个神经元是一种能接收并发出脉冲信号的细胞,它的核外面有树突状和轴突,这些突状突起接收其它神经元的脉冲信号,并把这些脉冲信号传递到其它神经元;同一神经元向各个神经元发送的信号也是一样的,而在这些神经中,信息的交流也会在突触部位进行。由无数的生物神经元按照一定的层级连在一起,构成了一种生物神经网络,该网络系统能够对多种复杂的数据进行综合分析。
人工神经网络的工作原理类似于生物神经网络,他们的工作原理基本相同,神经网络的基础是神经元,本质是由多个神经元组成;以某种规则将神经元串联起来。
工程硕士论文怎么写
............................
3 中药药单图像预处理 .................................. 20
3.1 中药药单图像二值化 ............................. 20
3.2 中药药单图像去噪 ............................. 21
3.3 本章小结 ................................... 27
4 基于深度学习的中药药单文字检测 .................. 28
4.1 网络结构概述 ................................ 28
4.2 特征提取优化 ..................................... 29
4.3 双线性池化模块 ..................................... 29
5 基于深度学习的中药药单文字识别 ............................ 35
5.1 中药药单文本行识别 ...................................... 35
5.2 中药药单串识别模型 .............................. 36
5.3 实验 ................................. 41
5 基于深度学习的中药药单文字识别
5.1 中药药单文本行识别
传统的中药药单最直观的印象和体会就是部分中医书写的药单潦草、字符粘连严重,需要用到串识别,通过这种方式就不需要基于单个字符的逐个识别,提高了中药药单的识别效率,但是在拆分过程中,难免会遇到部分样本中字符粘连严重的情况,这种情况下机器可能会误操作将其拆分到不同的串里,造成字符识别有误。本文提出两条拆分原则避免上述问题:
(1)设置识别串的高宽比,当满足识别的高宽比要求时,拆分的准确率得到提高,当字符的高度一定,就要对字符的高宽比进行分析,一般来说如果比值较大,里面实际有的字符个数超过了串可识别的情况,导致中药药单的检测效果不如预期;
(2)严格服从拆分规则,避免同一个字符被拆分到两个串中。
采用投影方法找到可拆分的位置,更好地满足上述两条拆分原则,依照投影方法找到的拆分位置可以有效避免同一个字符被拆分成两部分,针对传统的中药药单可以采用水平投影的方法,同时因为传统中药药单图像杂质、噪声有影响,对水平投影的效果有较大干扰,因此需要去除噪声更好地进行水平投影。将中药药单进行二值化处理和去噪处理,计算出所有地连通域及所有连通域块地高度,取高度的中位数作为参考高度。一般而言参考高度会经验性地设置为20(如果该中位数小于20),基于参考高度搭建判断规则,判断连通域地尺寸是否符合,如果不符合,则定义为噪声并作出滤除处理,对于剩下符合要求地连通域块进行水平投影。传统中药药单行切分水平投影切可以将中药药单中每行切分出来。
工程硕士论文参考
...............................
6 总结与展望
6.1 总结
中药作为我国历史传承的一个瑰宝,在我国源远流长。其中,中药药单则为其重要的载体,凝结着无数中医学家们的宝贵经验。受限于保存条件、中药药单字体等影响,它的存储、辨认都存在较大的困难。中药药单的数字化、信息化留存、记录,对于整个中医药产业的发展具有重要的意义。
本文通过分析中药药单的特殊性,提出基于深度学习的中药药单文字识别研究,意在对中药药单信息化留存、记录。在研究模型中,使用要了CTPN算法、ResNet图像特征提取、双向学习网络、CTC序列对齐等方法,经过实验说明了这些方法的组合使用能够有效提高中药药单辨认的准确率。主要的研究成果如下:
(1)针对中药药单的图像特征,全卷积神经网络(FCN)的方式加强图像二值化的效果,使用基于BM3D降噪,引入维纳收缩,使得图像去噪的效果更佳。研究一种基于CTPN改进文本检测算法,使用ResNet50残差网络进行特征提取,有效提高了文字检测能力。为了能够让模型有效区分手写体和印刷体,提取出高阶特征,为此在卷积神经网络的池化层选择双线性池化模块。在2000份数据集的实验下,文字检测准确率达到95.54%,召回率88.09%,综合评价指标91.67%。通过对比使用VGG16模型,本文所使用的模型三种指标都展现出明显优势。
(2)针对中药药单的文字书写特征,尤其是在识别生僻字、潦草字时,研究使用一种动态拆分与识别技术,更好地对检测到中药药单字符做拆分及合并。
(3)提出一种神经网络文字识别模型,结合CNN与RNN两种神经网络,构建基于残差网络(ResNet)和双向长短时记忆循环神经网络(Bi-LSTM)的模型,经过实验验证,字符识别正确率89.95%,错误率控制在10.05%,对比使用注意力机制Attention方法做消融实验,经过实验结果证明了加入CTC方法后,更加适用于中药药单中文字粘连、重叠度大等现实问题。
参考文献(略)