神经机器翻译数据增强方法之计算机研究

论文价格:免费 论文用途:其他 编辑:硕博论文网 点击次数:
论文字数:33655 论文编号:sb2019122515343929014 日期:2020-01-17 来源:硕博论文网

1. 绪论

1.1 研究背景
机器翻译技术在这些年经历了快速的更新迭代,最早是基于规则的机器翻译,完全依靠人工写规则和知识库来提高翻译性能,人力成本极高,而且面临规则管理复杂、规则与语言强依赖等问题,更加剧了工作量。之后出现了以统计知识为背景建立起来的机器翻译,主要包括三大组件:翻译规则模型、语言模型和调序模型。翻译规则模型主要通过统计的方法从双语数据中学习短语翻译规则;语言模型主要是从目标语言中学习连续序列的出现概率,来评估生成语言的流畅度;调序模型主要是双语数据中学习调序规则,来保证生成目标语言顺序的准确性。在这三部分组件的基础上,适当地融合其他自定义的特征,通过对数线性模型将特征融合,采用合理的调优算法在验证集上学习参数,以达到理想的收敛值。最后,是近几年不断发展壮大的,在学术界和产业界都广泛应用的,基于神经网络的机器翻译。无论在性能上还是质量上,相比于前两代机器翻译都有了质的飞跃。它主要由一个编码器、一个解码器和注意力机制构成,编码器主要负责对源语表示进行学习建模,解码器主要负责对生成目标语进行建模,注意力机制主要负责在生成一个目标词时决定每个源语对生成该词的贡献度。总的来说,基于神经网络的机器翻译是深度学习在自然语言处理领域中的一项成功应用,取得了具有实际意义的效果。
自神经机器翻译(NMT)方法引入以来,大量的研究者投入到其中,不同结构的翻译模型层出不穷,推动机器翻译快速发展,同时也取得了突破性的成绩。正因如此,人们对机器翻译性能也提出了更高的要求。人们不再满足于机器对句子的直接转译,译文的准确性、流畅性以及专业性都成为了评估一个翻译系统好坏的重要指标。面对这些需求,需要更加细致地、具有针对性地发现问题,分析问题并解决问题。目前,序列-序列模型的编码和解码已经具备了可观的能力,但训练数据的利用方式仍比较单一。数据,作为用于模型学习的蕴含着大量知识的语料,善于利用,它可以发挥出更多样更多彩的价值。本文就研究中发现的两项不足,从训练数据增强的角度提供新方法予以优化。
.........................

1.2 研究现状
本文对数字翻译和机器翻译中文本数据增强以及单语数据的利用方式等展开了详细的调查,分析了近年来相关问题的研究现状和解决方案。下面逐步展开介绍。
数字是命名实体中的一类,“命名实体”这个术语词汇普遍使用在信息抽取、问答系统和其他一些自然语言处理任务中。命名实体的识别与翻译,是识别待翻译原文中出现的实体信息并转义的过程,然而此过程中会出现语义上模棱两可的实体信息,在数字类别中尤为常见,如“2000 年”,既可以是时间类的实体信息,也可以是数量词的实体信息。自 20 世纪 90 年代起,国内外出现过许多命名实体评测活动,这些活动使得命名实体识别技术得以快速发展。庞薇等在统计机器翻译中提出了一种基于多特征分层次的从双语语料库中抽取命名实体对的方法[3],并将规则和统计相结合翻译数字短语,有效地改进了统计机器翻译模型的数字翻译性能;郑宏等通过有限自动机理论和正则表达式对汉英的时间数字和数量词进行识别与翻译[4];进入神经机器翻译以后,翻译任务的计算复杂度剧烈增长,词表受限的情况下,OOV 问题和命名实体一样难以处理。Luong 等人[5-8]曾提出字符集神经机器翻译方法来解决此类问题,字符级方法大大降低了词表大小并减少了未登录词的发生,但也一定程度的破坏了部分句意;2015 年 Sennrich等人提出了子词单元序列模型和子词切分方法,将原有单词拆解为高频子词单元,扩展了原有系统中词汇表的大小,从而使系统中未登录词大大减少,同时又完整地保留了高频词和高频子词,取得了很好的效果。只是由于数字类实体信息的不对称性,造成了一定程度的不适用。
...........................

2. 相关工作

2.1 机器翻译概述
机器翻译(Machine Translation,MT)是利用计算机将一种自然语言转换成另一种自然语言的过程[19]。其中最重要的部分就是构造出一个已经学习了大量语料的翻译模型,这个模型的优劣直接影响机器翻译的翻译质量。机器翻译的研究,自计算机诞生开始从未停止过,这是一段悠久的历史,经历了三个发展阶段。第一阶段是以规则为主的基于规则的机器翻译系统,第二阶段是基于统计的机器翻译系统,第三阶段是基于深度学习的神经机器翻译系统。
机器翻译实际上是一个门多学科交叉的研究,这其中包括语言学、数学、计算机等多门学科。同时机器翻译技术的发展也一直与这些学科的发展相辅相成。从这个角度来看,想彻底掌握机器翻译这门技术并不容易。在语言学中,需要掌握语法和语义相关知识,将这些知识进行总结后转化为计算机语言,让机器学习这些知识后,辅助完成翻译工作。数学中的理论周密且严谨,为知识表示提供了强有力的论证。总而言之,这些知识是从事机器翻译工作的必备品,掌握好这些基础知识,才能投入到机器翻译的研究中去。
机器翻译与计算机的发展密切相关,早期计算机的计算能力相对较弱,机器翻译的研究方法主要是基于规则的机器翻译系统。这些规则主要包括使用的词典资源和手工编写的大量翻译规则,工作量非常大,劳动力成本也很高。随着计算机硬件水平的不断提高,计算机的计算能力发展迅速。此后,基于语料库的机器翻译方法逐渐兴起,其思想是从现有的大规模语料库中自动学习翻译知识。但也由于当初计算机能力的限制,实现的可能性很小。目前,基于语料库的翻译方法已经占据了主导地位,无论是统计机器翻译还是神经机器翻译,从本质上看,都是基于大规模语料库来实现的。
...........................

2.2 神经机器翻译
随着机器翻译研究的深入及机器学习等相关学科的进步,人们逐渐发现统计机器翻译存在着许多难以回避的问题,比如,翻译过程依赖隐藏结构的假设、翻译特征的定义需要人工设计等。对于这些问题,人们又尝试了一种全新的思路 –神经机器翻译(Neural Machine Translation,简称 NMT)。
准确地说,与传统的基于规则和统计的机器翻译方法相比,神经机器翻译技术[23-27]本质上是一种完全不同的思想和方法。简单地说,基于规则的翻译方法和SMT 方法在一定程度上是模拟我们人工翻译文本的过程,他们认为整个翻译过程是有一系列的步骤可以遵循的,最终通过将这些步骤整合在一起完成整个句子的翻译。例如,在 SMT 中,可以假设翻译是以词或短语为基础的,并且在翻译过程中考虑句法结果,从而实现由词到句的翻译过程。对于人们来说,理解基于规则的方法和 SMT 的方法的翻译过程是非常容易和直观的,因为这与人工进行翻译时的思路和操作步骤非常相似。不过仍有一个明显的区别,那就是人工译者在翻译前先通读整个句子,所以对于一个好的译者“信译”是最低要求,“达译”是基本要求,“雅译”是最高要求。但使用规则和统计的机器翻译只遵循原句的相应片段,类似于“信译”,而没办法考虑整句。所以在应用中,对于一些句法不是特别规范或稍有省略的句子,这两种翻译机制往往都表现欠佳。
神经机器翻译技术走的是另外一条路,它采用神经网络直接实现两个句子之间的自动翻译,完全没有规则方法和 SMT 方法中的从小片段翻译组装成大片段翻译的过程,所以该方法一直为人诟病的是其不易理解性,也就是,人们还无法理解通过这种方法生成最终译文的具体细节。但是,从翻译结果上来看,神经机器翻译的翻译结果最大特点就是流畅,特别像母语人说的话,因为 NMT 解码本质上是携带源语信息的目标语语言模型。有些人开玩笑说,NMT 翻译结果就是错了也是错得非常漂亮,就算译文内容与原文内容无关,但译文句子读起来非常通顺。理论上讲这个问题是存在的,但从实验结果分析来看,不是特别严重。
..............................
3. 数字短语数据增强...................................17
3.1 数字短语优化策略................................17
3.2 数字短语增强....................................17
4. 单语语料数据增强.......................................30
4.1 语料扩充.....................................30
4.2 领域适应....................................34
5. 总结与展望......................................50
5.1 工作总结.................................50
5.2 未来展望...................................51

4. 单语语料数据增强

4.1 语料扩充
机器翻译中根据语言转换的方向,训练数据可分为源语端和目标端,分别在编码过程和解码过程中起着重要作用。
1.目标端单语
目标端单语数据在基于短语的统计机器翻译系统中扮演者重要角色,用于提高译文流畅度。基于词或基于短语的翻译模型具有很强的独立性假设,词或短语作为预测的独立单元,翻译单元的概率估计是独立于语境的。而语言模型通过大规模的单语数据计算出不同的独立性假设,可以一定程度地模拟这些独立的翻译单元之间的搭配程度。在神经机器翻译的编码-解码架构中,解码器同样可以看作以上下文为条件的语言模型,模型预测译文的流畅度与目标端语言紧密相关。
2.源端单语
编码端将输入的可变长度的句子通过词向量以及其他运算映射成上下文向量表示,模型训练过程中根据解码端的反向传播和梯度下降进行参数调优,从而实现模型对输入句子的编码。尽管加强神经机器翻译的编码器模型是有效的,但当平行训练语料不充足时,源端的单语数据根本没有被充分利用。
.........................

5. 总结与展望

5.1 工作总结

参考文献(略)

如果您有论文相关需求,可以通过下面的方式联系我们
点击联系客服
QQ 1429724474 电话 18964107217