第 1 章 绪 论
1.1 课题研究背景及意义
语言是人类社会交流的最重要的工具,它是人与人之间交往沟通的桥梁。当今世界,随着信息量的急剧增加和国际交流的日益频繁、计算机网络技术迅速普及和发展,语言障碍愈加明显和严重,人们对于获得本国语言之外的信息的潜在需求越来越大。在此背景下,统计机器翻译成为自然语言处理领域的一个研究热点。自 Brown 在 90 年代初期提出机器翻译的噪声信道模型[1][2]奠定了统计机器翻译的理论基础以来,经过二十多年的发展,统计机器翻译取得了很大进步,目前已经成为机器翻译中的主流方法。统计机器翻译的主要思想是对翻译过程建立数学模型,从双语平行语料中自动的获取翻译所需的统计知识,然后利用得到的知识对输入的新的句子进行翻译。在早些时期,由于机器硬件条件的限制,统计机器翻译的实际应用较少。近年来,由于科技的突飞猛进,技术的不断更新换代,硬件的计算能力得以不断提高。一些基于统计的机器翻译的系统陆续被开发出来并应用于实际,取得不错效果。其中包括国外著名的 Google 在线翻译系统[3]以及国内的百度在线翻译系统[4]。 Google 凭借其强大的技术优势及人才储备,在机器翻译领域里保持着领先水平。尽管如此,其翻译质量也并不尽如人意。其中原因是多方面的,但是一个很主要的原因就是领域问题,例如在把“吃了很多粉丝”这句话翻译成英文时,粉丝一词应为“ vermicelli ”,表示一种食物,但是 Google 翻译却将其译为“eat a lot of fans”,很显然这犯了领域相关词汇翻译的错误。类似的例子还有很多,例如“bank”一词,在经济领域表示“银行”的意思,而在一般领域则表示“河岸”的意思。很显然,在翻译这些领域不同而导致意思相差甚远的词汇时,如果选择了错误的翻译,会直接导致最后的翻译性能的下降。
……………
1.2 相关工作研究现状
1.2.1 国外研究现状
国外已有不少研究人员从事领域自适应的统计翻译方法研究,取得了不少研究成果。Eck 等人[7]在 2004 的相关工作中从语言模型的角度出发提高系统的自适应能力,他们将测试集语句的初始翻译作为 query,从大规模单语语料库中检索出相似的句子组成新的集合,在这个集合上训练处新的语言模型,替换原有的语言模型,重新进行解码。与将测试集语句的初始翻译作为 query 相比,Zhao 等人[8]则扩展了查询的策略,他们使用 n-gram 作为查询单位。其中 n-gram 可以来自初始翻译句子,也可以是短语翻译列表中源语言端的所有 n-gram 所对应的翻译。他们在检索出的单语语句上训练新的语言模型,与原有的语言模型进行插值使用。实验结果有显著提高。与 Eck 和 Zhao 的工作相似,Hildebrand 等人[9]采用相同的思想,在双语平行语料中检索出与测试集相似的句子加入到训练集中,训练处一个新的翻译模型,与原有翻译模型进行插值使用,提高系统的自适应能力。Ueffing 等人[10][11]在 2007 和 2008 年的工作中则是人工的构造了双语句对加入到训练集中,他们将测试语句与系统得到的翻译作为平行句对加入到训练集中,重新对测试集进行翻译,然后重复上述过程,直到系统的性能不再提升。
……………
第 2 章 基于主题模型的平行语料聚类研究
2.1 引言
统计机器翻译中,双语平行语料用来训练翻译模型,绝大部分翻译所需的知识都来自于双语平行语料,如何处理平行语料对最后系统的翻译性能有很大影响。一般情况下,平行语料尤其是从互联网上自动获取的平行语料来自多个领域,例如军事、经济、教育等。已有的工作[24]表明,简单的将这些语料混合在一起,不加区分的训练一个翻译模型,往往达不到最佳的翻译效果。如何充分利用双语平行语料,自动的挖掘语料里蕴含的领域信息,对于搭建领域相关的翻译模型,提高系统的自适应性能具有重要的基础意义。因此,本章将主要探讨平行语料中领域相关知识自动准确获取的问题。与单语文本相比,双语平行语料具有自身的特点,它同时包含了两种语言的信息,在挖掘语料中的领域信息过程中,如何有效利用双语知识提高领域识别的准确性,是一个值得研究的问题。本文将使用常用的隐含狄利克雷分配(Latent Dirichlet Allocation, LDA)模型来分析平行语料里蕴含的主题信息,得到的每个主题将被视为一个领域,这样对于每个平行句对我们都将得到它属于不同领域的概率,这个概率将在后续工作中得以应用。传统的 LDA 模型只能挖掘单语文本里蕴含的主题信息,并不能直接应用于双语平行语料上。对此,本章在传统 LDA 基础上提出了了两种不同的融入双语信息方式的主题模型,分别为双语 LDA 和 projected-LDA。尽管已有些工作研究了双语 LDA 的问题[30-32],但是本文区别在于将双语 LDA 应用在句子级别,并应用于统计机器翻译这一特定的任务。另外,针对平行句对中两个句子互为翻译的特点,本文结合词对齐的技术提出了 projected-LDA 的方法,通过将目标主题空间的知识映射到源语言空间中,达到融合两种语言信息的目的。
…………
2.2 LDA 模型
隐含狄利克雷分配是由伯克利大学的博士生 David Blei 在 2003 年提出来的,它是一种有效的离散数据集合的建模方法,能够自动有效的挖掘大规模语料库中蕴含的主题信息。LDA 基于一篇文档由一定数量的主题(Topic)组成的假设,将文档视为这些主题的不同比例的混合,其中每个主题是词表(Vocabulary)上的一个多项式分布(Multinomial distribution)。LDA 是一个三层的生成式概率模型在图模型表示法中,阴影圆圈表示可观测的变量(Observed variable),非阴影圆圈表示隐含变量(Latent variable),箭头表示变量之间的依赖关系,矩形框表示重复采样,方框右下角表示重复采样的次数。本例中,可观测的变量就是文档中的单词 w,其他变量是隐含变量。主题 z 和单词 w 之间的箭头表示,文档中的每个单词都有属于自己的一个主题。外围矩形框中的 D 表示语料库总共有D 篇文档组成,里层的矩形框中 N 表示一片文档包含 N 个单词。图中,α 和 β是两个 Dirichlet 分布的先验参数,α是用来产生 doc-topic 分布的,也就是在主题分布的空间中采样出某一个具体的 topic 分布;β是用来产生某个 topic 在词表上的分布,也就是在词表上的所有多项式分布中采样出某一个具体的多项式分布。θ表示一篇文档d中由α得到具体的主题分布参数, 表示每个主题下单词分布的参数。z 表示某一个具体主题,w 表示一个单词,文档中总共有N个单词。
…………
第 3 章 自适应词对齐模型构建......26
3.1 引言...... 26
3.2 对齐模型介绍 ........ 27
3.3 自适应词对齐 ........ 30
3.4 实验与分析 ...... 33
3.4.1 自适应词对齐结果对比........ 33
3.4.2 词对齐结果对翻译性能影响...... 35
3.5 本章小结.... 37
第 4 章 多翻译模型解码策略研究........39
4.1 引言...... 39
4.2 解码基本原理及算法介绍...... 39
4.3 多翻译模型解码.... 42
4.4 实验与分析...... 43
4.4.1 翻译模型动态选取与随机选取比较...... 43
4.4.2 通用模型与自适应翻译模型比较.... 44
4.5 本章小结.... 45
第 4 章 多翻译模型解码策略研究
4.1 引言
在前两章中,本文介绍了如何利用领域混杂的平行语料搭建不同领域翻译模型的方法,在搭建好翻译模型,训练完系统参数后,接下来的工作就是解码。顾名思义,解码就是对输入的测试语句进行翻译,它是翻译系统中关键的一部分。解码策略的选择,尤其是存在多个翻译子模型时如何选取翻译模型,对最后翻译系统的性能有很大影响。根据输入的待翻译的句子,如何选取不同的翻译模型或者自适应的调整模型参数,提高翻译系统的性能,是本章研究的主要问题。一种简单的方法是对于待翻译的语句,随机的选择翻译模型进行翻译,该策略很显然不能达到最佳的翻译效果。对此,本章将探讨多翻译模型下的解码方法,首先使用主题模型对待翻译的句子进行主题挖掘,然后根据其中的主题分布选择最相似的翻译模型进行翻译,这样在解码的过程中动态的选择翻译模型以达到最佳的翻译效果。本章首先介绍了基于短语的统计翻译解码的基本原理,并且主要介绍了柱搜索解码算法;接着对本文提出的解码策略进行了描述;然后分别使用此种策略进行了翻译实验,并对实验结果进行了对比和分析;最后,总结了本章的工作。
……………
结论
统计机器翻译是自然语言处理中一个重要研究方向,它综合了自然语言处理各方面的技术,具有重要的学术研究价值。同时 Google 翻译、百度翻译的推出,极大的方便了人们对他国语言知识的获取,展现出机器翻译潜在的巨大应用前景。在统计机器翻译中,领域问题对翻译性能的影响很大,对不同领域的句子选取不同的翻译模型,最终的翻译性能具有很大差别。因此,研究领域自适应问题,具有重要的学术价值和应用意义。近年来,随着机器翻译理论的不断成熟,也出现了一些相关的研究工作。随着互联网技术的快速发展,越来越多的平行语料来自于网络,这些数据的特点是领域混杂、领域边界不明确。这个时候,充分有效利用这些数据,对提高翻译系统的性能具有重要意义。本文的研究工作即是在此研究背景下展开的,具体来说,本文的研究内容和研究成果如下:探讨了平行语料中的主题挖掘实验,提出了句子级的双语 LDA 和projected-LDA 两种融入双语语言信息的主题模型,其中双语 LDA 直接对平行语料生成过程进行建模,而 projected-LDA 是基于主题映射的。实验表明,两种模型能够很好的挖掘平行语料中的主题信息。同时我们还探讨了 4 种不同的平行语料的表示方法,分别是基于单语主题模型和双语主题模型的。实验结果表明,双语主题模型能够更好的对平行语料进行刻画。
……………
参考文献(略)