藏文陈述句复述生成之计算机研究

论文价格:免费 论文用途:其他 编辑:硕博论文网 点击次数:
论文字数:58544 论文编号:sb2019120511421028772 日期:2019-12-30 来源:硕博论文网

第一章 绪论

1.1 复述概述
从 80 年代开始,藏文信息处理的研究已经经历了 40 年左右,过去几十年里不断放射着奇光异彩,吸引着众多藏文语言学家、藏文自然语言研究者,并取得了很好成绩。从语言构成的视角看,它包括语音、语法、语义三个部分。过去主要研究集中在语音和语法层面,近年来,语义成为藏文自然语言处理研究的热点,如:语义词典、知识图谱、表示学习等。复述在传统语言发展和语言理解层面起到了重要的作用,为了使复述在自然语言理解研究领域发挥更好地作用,有必要进行面向机器自动理解和生成的复述研究,为人机交互和机器理解做出新的贡献。 
1.1.1 复述定义

............................

1.2 藏文复述句生成的研究目的和意义
这一节主要介绍藏文复述句生成研究的目的和意义。众所周知,自然语言处理的最终目的是机器理解人类语言。复述根植于语义,且在传统语言中复述更好地为近代人理解古书架设了阶梯和桥梁,帮助我们轻松通晓文意。自然语言处理中复述更好地为机器理解提供了基础和方法,使机器学会语言的多样性和复杂性。同时,复述技术在问答系统(QA),信息检索(IR),机器翻译(MT),自动文摘(Auto Text Summarization)等诸多领域具有非常重要的研究意义。
1.2.1 藏文复述研究目的
在信息化社会中,语言信息化处理技术水平和每年所处理的信息总量已成为衡量一个民族或国家现代化水平的重要标志之一。 在这样的社会需求下,语言本身的任务也发生了巨大的改变,过去,语言是人与人之间的交际工具,现在,语言正在成为人与机器之间的沟通工具。如今,人类已经进入了信息化时代,且随着人工智能的发展,人机交互的需求日益增长,因此,自然语言处理的研究日渐显得重要,好比人类学习一种新语言,机器也需要具备各种语言的“听说读写”能力,机器的“听说”能力属于语音处理研究领域,“读写”能力的研究则属于藏文自然语言处理研究任务范畴。自然语言理解是人工智能研究的一个分支,它包括自然语言理解和自然语言生成,前者是让机器理解人类的语言,类似于人的阅读,后者是让机器通过学习后生成符合某种语言语法语义规律的文本,类似于人的写作。实现人机交互意味着计算机既能理解自然语言文本的意义,也能以自然语言文本来表达给定的意图、思想等。
藏文信息处理大约已有 40 年的历史,它在藏语言信息化和藏文化的传承和发扬方面做出了重要的贡献。语言按语言学的结构可以分为语音、语法、语义,而这三个是自然语言处理的主要研究对象,过去的藏文信息处理的研究成果集中在语音与语法层面。语音主要表现在语音合成和语音识别、文语传换、语音翻译等领域;语法则表现在分词、词性标注、命名实体识别等词法分析、句法分析、信息检索及机器翻译等方面。 近年来,藏文自然语言研究任务也转向了语义层面,如:词义研究、句义分析、相似度计算及自动文摘等。从语言的颗粒度视角看,语言包括字、词、短语、句子、段落及篇章等研究内容,过去,藏文信息处理研究对象主要集中于前三个方面,现在则转移到句子层面。
...........................

第二章 基于循环卷积神经网络的句类识别

2.1 引言
藏文信息处理从 20 世纪 80 年代开始对字、词处理进行了大量的研究,如藏文编码、字库、输入法等。到 2000 年左右对分词、词频、词性、词类、词义等研究都取得了较好的成果[46-47]。从 2010 开始对藏文句子结构[48]、句子边界识别[49-52]、句子对齐[53-54]、句子相似度[55-56]等方面进行了卓有成效的研究工作。近年来,藏文信息处理从词法、句法研究提升到了句义研究,而以机器理解为中心的研究日益突出。为了满足藏文句子在语义分析和不同自然语言处理任务中的需求,藏文句子需要进行进一步细化和研究,藏文句类识别的研究凸显了其重要的价值。
在传统语言学中,句类是按语气划分的[57]。在英文和汉文中,根据不同的语调可以将句子分为陈述句、疑问句、祈使句、感叹句。但对藏文而言,句子的分类在传统文法和现代藏文信息处理工作中一直是一个薄弱的环节,没有得到足够的重视。
因此,藏文句类分类需要引入一种新的分类依据,使之满足藏语自然语言处理中句法分析和句义研究的需要。到目前为止,藏文句类的自动分类及识别问题很少受到关注,而藏文因它独有的语言特性,则无法自动识别句类。藏文句类分类与文本分类、情感分类、问题分类等分析方法因为藏文句类分类是以语境为核心,而其他则是以语义关联为中心,虽然这两者研究内容有差异,但分类方法上可以相互借鉴。本文提出了以语境、语义关联和功能特征词相融合的语义信息分类方法,本方法采用循环卷积神经网络模型来分类不同藏文句子,同时对比多种分类模型对藏文句类分类效果,实验表明,循环卷积神经网络模型优胜于其他分类方法,该模型中藏文句类识别准确率较高,比传统机器学习模型和独立神经网络分类模型识别结果更为突出。这一研究为将来藏文句子的语义解析、句子级的复述生成,以及不同句类之间的内部类型转换等研究具有很好的参考价值。
..............................

2.2 相关工作
随着自然语言处理技术的发展,根据民族地区语言信息化、舆情监测、网络安全等方面的需求,在藏文的分类任务中文本分类、情感分析和问题分类等方面也有一些研究成果。
在藏文文本分类方面,赵虎[59]在数据内容为政法、经济、文学、生活等七大领域语料上进行文本分类,技术上采用了浅层机器学习方法。胥桂仙[60]等人提出了一种简单、快速的藏文网页文本分类方法,对于构建多类别藏文语料库有重要作用。贾会强[61]根据藏文特点和藏语语法结构,通过 KNN 算法进行文本类。李艾林和李照耀[62]提出了一种基于朴素贝叶斯分类器的藏文文本分类。他们[63]首先使用最大熵模型标记文档的 POS(Part-of-Speech),然后仅选择名词和动词作为关键特征,最后一个文档由词的权重表示,这种模型比传统藏文文本分类方法相比,F-measure 提高了 9%。    
在藏文情感分析方面,江涛等[64]提出利用汉藏双语情感特征,进行了藏文微博情感倾向性分析研究,正确率可达 79.8%。普次仁等[65]将递归自编码算法引入情感分析中,以深层次地提取了藏文语义情感信息,比传统机器学习算法相比语义空间模型提升约 8.6%。袁斌等人[66]用一种基于语义空间的藏文情感分析,该方法先用藏文句法树生成,句法结构和语义特征向量相结合,再用基于簇的 TF-IDF 值作为最终的分析结果,最后效果均优于 SVM+TF-IDF 模型。文献[67-68]将分类任务分为三个标签,用一种极地词典的藏文情感分析方法。
在藏文问题分类方面,孙丽萍[69]参考汉英问题分类方法以及结合藏文的特点,在公共信息服务语料为数据,采用朴素贝叶斯方法进行过研究。文献[70-71]对提出问题分类方法和每个不同类的特征进行过分析。
....................................
第三章 藏文陈述句语义分割方法 ..................................... 33
3.1 引言 ...................................... 33
3.2 句义分割相关研究 ............................................. 34
3.3 藏文陈述句概述 ............................................... 35
第四章 构建藏文复述句语料库 ....................................... 49
4.1 引言 ................................. 49
4.2 复述生成相关技术分类 ......................................... 50
4.3 构建复述句库生成方法 ......................................... 51
第五章 基于注意力机制的藏文复述句生成 ............................. 71
5.1 引言 ............................. 71
5.2 基于注意力的序列到序列模型 ................................... 71

第六章 藏文新词释义自动生成方法

6.1 引言
自然语言处理是人工智能的一个分支,包括自然语言理解与生成,前者在自然语言处理领域研究工作较多,包括词法分析、句法分析、语义分析等内容,后者计算机具有人一样的表达能力和写作功能,如生成对话[153]、自动文摘[154]、机器翻译[155-156]、主题生成[157]等内容。自然语言生成以数据分析和理解为基础,满足特定目标的自然语言生成过程。该研究按照不同的任务划分,可以分为文本到文本的生成、意义到文本的生成、数据到文本的生成以及图像到文本的生成等研究任务。目前已在机器作诗,机器作词,生成小说,生成新闻等研究方面取得了显著的成果。对于藏文自然语言生成研究来说是一个崭新的研究领域。目前只有在藏文律诗生成[158]、藏文复述生成[159]、藏文自动文摘生成[160]等方面有一些基础研究,而对藏文名词释义自动生成方面的研究还没有相关文献报道。
随着社会的变迁和生活水平提升必然产生了很多新产品,而为了描述这些新产品必然会产生新词,这对人们理解新词和编纂这些新词带来了挑战。对新词汇的及时理解和运用对社会生活、经济、文化和语言的发展具有重要的意义,一旦语言跟不上时代的步伐,脱离现实社会,会对民族文化、经济和语言的可持续发展带来了阻碍,人们希望利用机器来自动生成新词释义,解决这一问题是我们的研究内容。
...........................

第 7 章 总结与展望

7.1 总结
复述生成是指先理解自然语言后用不同的表达方式再生成原文意思的一种技术。复述技术是解析语义信息的一种手段,它表现着人类语言的多样性和复杂性。自然语言处理的复述研究目前主要包括复述抽取、复述识别、复述生成和复述应用等研究内容。从语言学角度而言,语言复述的发展和应用已有几百年或几千年的历史。其中,藏文复述方法在不同的颗粒度层面有着不同的复述技术。而很多藏文释义作品对后人理解古代经典著作搭建了很好的沟通桥梁。近年来,自然语言处理技术的飞速发展为人机交互和自然语言理解带来了很大的便利。古人们代代相传的藏语言复述技术,将来用机器来为自然语言理解、文本复述自动生成实现而服务。
语言是不同语义单元组合的符号序列串,字词组合后成句子、句子组合后成段落、段落组合后成篇章,语言理解是解析不同语言单元组合规律和挖掘语义表示问题。本论文是关于藏文陈述句复述生成研究,主要的研究对象为藏文句子级复述生成研究。在传统藏文复述技术中针对句子级复述方法很多,但本论文主要应用了“语序、同义词、词典释义”三种方法,让机器学习并实现对原句的复述。同时,对藏文机器理解层面也提出了句子语义分割方法和语义块向量表示学习、语义组合分析等相关研究。
藏文陈述句复述生成过程主要包括五个步骤。第一步,从藏文句库需要筛选陈述句,所以通过深度学习对藏文句类自动分类。第二步,在获得陈述句数据后对藏文句子做语义分割,即用词义和语义块两种不同的语义单切分句子。第三步,构建藏文复述句实例资源,它主要采用语序、语义词典、经典著作释义版资源。第四步,将以上复述实例资源为语料库的基础上利用注意力机制让复述自动生成,而这个属于等长复述生成研究。第五步,藏文词典释义自动生成,为词到句的不等长藏文复述句生成研究。
参考文献(略)

如果您有论文相关需求,可以通过下面的方式联系我们
点击联系客服
QQ 1429724474 电话 18964107217