维吾尔语统计语言模型中建模基元研究

论文价格:免费 论文用途:其他 编辑:lgg 点击次数:168
论文字数:35860 论文编号:sb201402101249549583 日期:2014-02-14 来源:硕博论文网

第一章 绪 论


1.1 研究背景
语言在自然语言处理过程中占据着重要的地位,统计式的语言模型是借由一个机率分布,而指派机率给字词所组成的字串。语言模型经常使用在一些自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,目前维吾尔语语言模型的研究尚处于起步探索阶段,因此构建一个可靠的语言模型对于维吾尔语自然语言处理系统很关键。建模就是建立模型,是研究系统的重要手段和前提。凡是用模型描述系统的因果关系或相互关系的过程都属于建模。 基元指局部区域构成特征性序列以适应元素之间相互结合(或吻合)的基本结构单位。本文中建模基元就是指用模型来找出语素间的共性,提高大词汇量连续语音识别系统的识别率。近几年来,维吾尔语语言模型作为维吾尔语自然语言处理中最重要的技术之一,正在被广泛应用,以维吾尔语为主的少数民族语言自然语言信息处理(比如维吾尔语语音合成、语音识别等)受到越来越多的关注。经过几十年的发展,统计语言模型[4]的相关理论已经比较成熟,早在上个世纪80 年,Fred Jelinek 教授在研究连续语音识别[5]的时候,提出了统计语音识别的框架结构。在此之前,语音识别问题一直被当做是人工智能问题和模式匹配问题。而 Fred Jelinek 把它抽象成通信问题,并用两个隐马尔科夫模型(即声学模型和语言模型)将语音识别的过程描述的独到透彻。
近年来,随着语音识别、机器翻译、信息检索等自然语言处理技术的发展方兴未艾,越来越多的人着手于研究统计语言模型。统计语言模型是使用分布函数和概率函数的模型,是通过数理概率学中的统计方法,对自然语言中的短语、句子、词以及词组等这些语言单位,进行展现他们之间关系和性质的方法。从目前国内外的研究现状来看,声学模型已经发展的较为成熟,而语言模型还有极大的可发展空间。语言模型的出现是在计算机高速发展下,面临着自然语言被计算机自动识别亟待解决的问题,计算机对这一问题的解决,是人们使人与计算机能够相互交互这个梦想的第一步,而这种目的也就进一步刺激了计算机的发展,使得越来越多的学者对其进行研究,希望能够解决这个问题,而计算语言学就由此而生,这一学科是自然语言信息处理的一门学科。计算语言学对自然语言进行详细地描述,总结语言本身的内在规律,进而发展为众人熟知的语言模型的核心。而初始提出的语言模型是基于规则的语言模型,此模型虽然给人们一种启示和方法,但是它的可靠性与准确性并没有满足现实中人们的要求,尤其是对大量词汇的识别更是不能满足众人的期望。在这种情况下基于统计的语言模型的出现,在某种程度上解决了上述问题。对于任何一种语言都存在着非常巨量的词汇,另外句子的数量、句法的复杂度,每一个都是统计语言模型建立一个困难,但是当一个标准和准确的语言模型被提出,对于语音识别系统的识别至关重要。所以,一个可靠的语言模型对于提高大词汇量连续语音识别系统的识别率,起着至关重大的作用。


1.2 选题意义
新疆维吾尔自治区是多民族聚居区,其中维吾尔族人口占总少数民族人口的60%。使用维吾尔语的语言和文字,其中维吾尔文中字母有 32 个, 其中辅音字母有 24 个和元音字母有 8 个, 由于字母出现的位置不同,其具有几种不同的形式,例如形式前、后、中、单独等,这样计算下来 32 个字母,根据情形共有 126 种不同的写法。此外,在哈萨克斯坦、乌兹别克斯坦、吉尔吉斯斯坦等国家境内也有使用者。近几年来,新疆的经济、文化快速的发展,新疆的少数民族人民对计算机和网络的学习与使用也得到了快速的发展,在互联网上以维吾尔语语言形式出现了大量的文化交流信息,尤其是中亚使用维吾尔语的国家,与我疆维吾尔族的文化、经济交流密集,而从这些数据信息中,提取有用信息,对我国的经济、政治、文化的快速健康的发展有极大的帮助,所以以维吾尔语为主的少数民族语言自然语言信息处理(比如维吾尔语语音合成、维吾尔语语音识别[8]等)受到越来越多的关注。虽然近年来语音识别、机器翻译等自然语言处理技术的研究,在英语、汉语等语料资源丰富的语言上发展很快,也比较成熟。语音识别中的语言模型[9]是自然语言的数学模型,它主要描述自然语言的统计和结构方面的内在规律。可分为两大类:一类是基于语言学知识文法的规则语言模型,另一类是基于统计的语言模型。统计语言模型[10]是用概率统计的方法来揭示语言单位内在的统计规律,其中N-Gram 简单有效,被广泛使用。语言模型的性能通常用交叉熵和复杂度(Perplexity)来衡量。交叉熵的意义是用该模型对文本识别的难度,或者从压缩的角度来看,每个词平均要用几个位来编码。复杂度的意义是用该模型表示这一文本平均的分支数,其倒数可视为每个词的平均概率。平滑是指对没观察到的 N元组合赋予一个概率值,以保证词序列总能通过语言模型得到一个概率值。通常使用的平滑技术有 Good-Turing 平滑算法、Katz 平滑算法、线性插值平滑算法、Witten-Bell 平滑算法以及 Kneser-Ney 平滑算法。起初,统计语言模型只被应用于语音识别问题中,但随着统计自然语言处理的不断发展,以概率论为基础的统计学理论不断渗入到自然语言处理的各个应用领域,机器翻译、信息检索、文本挖掘等研究方向也开始采用统计语言模型,它们的发展的程度与应用的方式,根据各自的领域与特点各有不同,它们之间的具体应用方式如图 1-1 所示。


第二章 维吾尔语的语音学与形态学概述


2.1 维吾尔语简介
目前,维吾尔语主要在中国的新疆维吾尔自治区及其周边国家和地区广为使用,具体的分布范围如图 2-1 中深灰色及黑色部分所示。维吾尔语的方言有中心方言、和田方言、罗布方言三类,其中标准语以中心方言为基础,以伊犁-乌鲁木齐语音为标准音。维吾尔文字共有 32 个字母,包括 8 个元音字母和 24 个辅音字母。每个字母按照出现在单词中词首、词中、词末的位置不同会有不同的写法,32 个字母一共有 126 种书写形式。维吾尔语的构词、构形都是通过在词干后面缀接不同的词尾来实现的,可以不断的缀接。词法形态变化丰富是维吾尔语的一个特点,它还有另外一个特点是词序非常自由。词序是由语义变化决定,而非严格的语法规则。例如,下面几个句子含有相同的单词,从语法规则上来说均是正确的,但从语义来看就有些差异。形态变化非常丰富, Dyer 曾对世界上各种语言的形态学的复杂程度做过调查(见下图)。维吾尔语和土耳其语(Turkish)同属阿尔泰语系突厥语种,是非常接近的两种语言,都是形态学非常丰富的语言如图所示。


第三章 统计语言模型及算法分析与研究...... 20
3.1 统计语言模型综述...... 20
3.1.1 统计语言模型的缘起 ........ 20
3.1.2 统计语言模型的应用前沿 ...... 21
3.1.3 统计语言模型的衡量指标 ...... 22
3.2 基于 N 元语法的统计语言模型......... 23
3.3 平滑算法.... 24
3.4 本章小结.... 33
第四章 维吾尔语语言模型改进分析........ 34
4.1 传统的基于词的语言模型...... 35
4.2 改进的不同模型粒度的语言模型...... 36
4.2.1 基于词素的维吾尔语语言模型 .... 36
4.2.2 基于音节的维吾尔语语言模型 .... 39
4.3 本章小结.... 40
第五章 语料处理及实验分析........ 41
5.1 语料库收集...... 41
5.2 语料加工.... 43
5.2.1 实验工具介绍 ........ 43
5.2.2 预处理 ........ 44
5.3 N 元词串抽取 ....... 46
5.4 分词...... 47
5.5 统计语言模型构建..... 52
5.6 不同语言模型的相关实验...... 53
5.7 本章小结.... 59


结论


本文介绍了统计语言模型的研究历史与现状,探讨了研究维吾尔语语言模型的意义对基于 N-gram 的统计语言模型和主要的平滑算法技术进行了研究。具体工作有:
1)详细讨论了语言模型的相关理论与技术。首先介绍统计语言模型的同时给出统计语言模型的评价标准,然后详细描述了基于词的 N-gram 模型的基本原理以及目前存在的主要问题。接着研究了建立维吾尔语统计语言模型时涉及到的几种经典的解决数据疏问题的平滑算法。最后给出了这几种数据平滑技术的比较与总结。
2)围绕维吾尔语的语音学特征和形态学特征介绍了维吾尔语的特点,并从音律角度研究了维吾尔语的语法规则。在此基础上研究了 3 种不同粒度的维吾尔语语言模型,分别是基于词的维吾尔语语言模型、基于词素的维吾尔语语言模型、基于音节的维吾尔语语言模型,并比较了这三种语言模型的优缺点。
3)构建维吾尔语统计语言模型时语料的收集、选择与加工,同时研究了一种优化选择语料的方法,并介绍了本文中用到的两种维吾尔语分词方法。在将训练语料切分成词素的基础上,建立了基于词素的维吾尔语语言模型。并运用不同的平滑算法分别做了对比实验,检验几种语言模型的降低困惑度的效果。


参考文献
[1] 易坤琇,高士杰 维吾尔语语法 北京:中央民族大学出版社. 1998.
[2] 王晓龙,关毅等. 计算机自然语言处理[M]. 北京:清华大学出版社. 2005.
[3] 宗成庆. 统计自然语言处理[M]. 北京:清华大学出版社, 2008.
[4] 黄昌宁. 统计语言模型能做什么?[J]. 语言文字应用, 2002 (1): 77-84.
[5] Frederick Jelinek. Continuous speech recognition by statistical methods[J]. Proceedings ofIEEE, 1976,64(4): p532-556
[6] 韩纪庆,张磊,郑铁冉. 语音信号处理[M]. 北京:清华大学出版社. 2004
[7] Stanley F.Chen, Joshua Goodman. An empirical study of smoothing techniques for languagemodeling[J]. Computer Speech and Language,1999, 13(4): p359-393.
[8] 彭祥伟.基于 HMM 的维吾尔语连续语音识别研究[D].北京:中科院研究生院,2010.
[9] Ronald Rosenfeld. Two decades of statistical language modeling: where do we go fromhere?[J]. In Proceedings of the IEEE, 2000,88(8):1270-1278.
[10] 邢永康,马少平. 统计语言模型综述[J]. 计算机科学, 2003, 30(9):22-26.


QQ 1429724474 电话 18964107217