第 1 章 绪论
1.1 研究背景和意义
1.1.1 研究背景
在互联网蓬勃发展的今天,海量的异构信息,以新闻文章、电子邮件、博客、问答论坛等形式出现在我们生活中。如何快速有效地分析这些信息,帮助人们去理解它们成为当前亟待解决的问题。一种可行的方案是通过标注语义信息将非结构化的信息转化为结构化的数据。然而,由于数据规模的宏大,以及数据结构的多样性,人工标注数据的做法变得不太可行。通常来说,人们更为关注的是实体(例如,人、组织、地理位置)之间关系。现有的先进命名实体识别工具(Named Entity Recognition, NER)[1,2]已经能够达到高精度的标注实体,而这个对于整个关系抽取任务来说,仅仅是完成了初步的预处理。更为重要的是,我们需要去根据给定的文本信息识别出实体之间的语义关系。因此,挖掘出实体之间的语义关系是实现自然语言理解的极为关键步骤[3]。
1.1.1 研究背景
在互联网蓬勃发展的今天,海量的异构信息,以新闻文章、电子邮件、博客、问答论坛等形式出现在我们生活中。如何快速有效地分析这些信息,帮助人们去理解它们成为当前亟待解决的问题。一种可行的方案是通过标注语义信息将非结构化的信息转化为结构化的数据。然而,由于数据规模的宏大,以及数据结构的多样性,人工标注数据的做法变得不太可行。通常来说,人们更为关注的是实体(例如,人、组织、地理位置)之间关系。现有的先进命名实体识别工具(Named Entity Recognition, NER)[1,2]已经能够达到高精度的标注实体,而这个对于整个关系抽取任务来说,仅仅是完成了初步的预处理。更为重要的是,我们需要去根据给定的文本信息识别出实体之间的语义关系。因此,挖掘出实体之间的语义关系是实现自然语言理解的极为关键步骤[3]。
关系抽取的发展历程最早可以追溯到上世纪 70 年代,即 FRUMP 项目。而真正受到人们的关注是在 90 年代,由美国国防高级研究计划局(Defense Advanced Research Projects Agency, DARPA ) 发 起 并 资 助 的 信 息 理 解 会 议 ( Message Understanding Conference, MUC)(1987 年-1998 年)。MUC 的重要性并不在于会议本身,而是会议组织的一系列信息抽取方面的竞赛,以及各种比赛的评价标准。具体而言,会议的组织者们会为所有的参赛者定义各种抽取任务,准备该任务所需要的数据集以及测评的框架[4]。而参赛者们则需要为每个任务给出最优的解决方案。由此,随着 MUC 会议的召开,信息抽取中的各种任务得到长足的发展。
第 3 章 基于特征方法的稀疏特征间联系的发现 .................................... 22
美国国家标准技术研究所(National Institute of Standards and Technology, NIST)举办的自动文本抽取会议(Automatic Content Extraction, ACE)(2000 年-2008 年)接替了 MUC 的任务,定位于从政府和国际事务文档中提取实体、关系以及事件。后期的 ACE 会议主要的研究方向是多语言的信息抽取,例如,英语、中文、阿拉伯语等。
近年来,知识库填充(Knowledge Base Population, KBP)(2009 年-至今)作为文本分析会议(Text Analysis Conference, TAC)的一部分,继续促进信息抽取任务的发展。随着大数据的兴起,TAC-KBP 会议关注于大规模文本的信息抽取,鼓励开发出能够将自然文本中提到的实体与出现在知识库中的实体匹配的系统,并从文档集合中提取关于实体之的相关信息,将其添加到新的或现有的知识库中,以此实现扩充知识库的目的。
近年来,知识库填充(Knowledge Base Population, KBP)(2009 年-至今)作为文本分析会议(Text Analysis Conference, TAC)的一部分,继续促进信息抽取任务的发展。随着大数据的兴起,TAC-KBP 会议关注于大规模文本的信息抽取,鼓励开发出能够将自然文本中提到的实体与出现在知识库中的实体匹配的系统,并从文档集合中提取关于实体之的相关信息,将其添加到新的或现有的知识库中,以此实现扩充知识库的目的。
.......................
1.2 国内外研究现状
现有的关系抽取任务根据训练数据以及关系标签的来源不同分为监督方法、半监督方法、无监督方法、开放信息抽取方法和远程监督方法。
1.2.1 监督方法
监督方法的训练数据是由人工标注生成的,每个标注信息都是基于语句级别的,即每条语句都会被标注一个预先定义的关系类型。另外,标签会用一个特殊的关系类型 NONE 来表示该条句子描述的实体对之间的关系并不属于预先定义的集合中。由于所有的关系都是预先定义的(除了 NONE),通常情况下,监督的关系抽取任务可以视为一个多标签的分类问题。另外,依据不同类型的特征工程,监督方法可分为基于特征的方法、核方法和神经网络方法。
1.2 国内外研究现状
现有的关系抽取任务根据训练数据以及关系标签的来源不同分为监督方法、半监督方法、无监督方法、开放信息抽取方法和远程监督方法。
1.2.1 监督方法
监督方法的训练数据是由人工标注生成的,每个标注信息都是基于语句级别的,即每条语句都会被标注一个预先定义的关系类型。另外,标签会用一个特殊的关系类型 NONE 来表示该条句子描述的实体对之间的关系并不属于预先定义的集合中。由于所有的关系都是预先定义的(除了 NONE),通常情况下,监督的关系抽取任务可以视为一个多标签的分类问题。另外,依据不同类型的特征工程,监督方法可分为基于特征的方法、核方法和神经网络方法。
1. 基于特征的方法
基于特征的方法的研究重点在于如何选取合适的特征集合,将结构化的表达形式转化为特征向量,使得抽取器的精度得到提升[14]。
1998 年,Miller 等人[15]开发了第一代基于监督方法的关系抽取器,称为 SIFT系统。SIFT 系统使用一个统一的概率过程将单词映射到语义结构上,在同一个流程中实现词性标注、实体发现、语义解析以及实体关系发现。而这些任务之间也会相互影响与作用,以此达到最优的效果。
2000 年,Miller 等人[16]将一个词汇化并且概率化的,带有 head 规则的上下文无关解析器(LPCFG-HR) 应用到关系抽取任务。这个简单的模型拥有充分的能力,去解析语句中有用的语法以及语义信息。而且,无需额外的句法训练数据,他们直接使用 Penn TREEBANK 去进行句法的参数估计。最终解析获取的语义标注作为唯一的信息资源来构建整个抽取模型。
基于特征的方法的研究重点在于如何选取合适的特征集合,将结构化的表达形式转化为特征向量,使得抽取器的精度得到提升[14]。
1998 年,Miller 等人[15]开发了第一代基于监督方法的关系抽取器,称为 SIFT系统。SIFT 系统使用一个统一的概率过程将单词映射到语义结构上,在同一个流程中实现词性标注、实体发现、语义解析以及实体关系发现。而这些任务之间也会相互影响与作用,以此达到最优的效果。
2000 年,Miller 等人[16]将一个词汇化并且概率化的,带有 head 规则的上下文无关解析器(LPCFG-HR) 应用到关系抽取任务。这个简单的模型拥有充分的能力,去解析语句中有用的语法以及语义信息。而且,无需额外的句法训练数据,他们直接使用 Penn TREEBANK 去进行句法的参数估计。最终解析获取的语义标注作为唯一的信息资源来构建整个抽取模型。
2004 年,Kambhatla[17]使用最大熵模型,结合了多样性的词法特征、句法特征以及语义特征,来提取实体之间的关系。该模型的优势在于,它具有良好的扩展性,可以轻松地使用来自多源化的特征来实现,例如 WordNet、地名辞典和其他语义标签的输出。
............................
第 2 章 远程监督关系抽取方法
第 2 章 远程监督关系抽取方法
2.1 基本概念
(1)命名实体(简称为实体):指现实世界中一个能够用某个合适名字表示的真实对象,它可以是抽象的或者物理存在的1。 例如 Donald Trump、New York Times、United States 等等。
(2)关系:指实体之间的语义关系。本文主要研究二元关系,形式化表示 r(e1, e2),其中 r 表示关系,e1 和 e2 表示实体。例如 Place_of_birth(Donald Trump, United States)表示实体 Donald Trump 和 United States 具有出生地的关系。
(3)包(语句包):指文本集中所有包含具有某种关系的实体对的语句集合。形式化地,所有包含具有关系的实体 e1和 e2 的语句构成一个包,表示为 B={(e1, e2), (r1, …, rl), {S1, …, Sn}}.其中,(r1, …, rl)是该实体对在知识库中具有的关系,{S1, …, Sn}是文本集中所有包含该实体对的语句集合。
(1)命名实体(简称为实体):指现实世界中一个能够用某个合适名字表示的真实对象,它可以是抽象的或者物理存在的1。 例如 Donald Trump、New York Times、United States 等等。
(2)关系:指实体之间的语义关系。本文主要研究二元关系,形式化表示 r(e1, e2),其中 r 表示关系,e1 和 e2 表示实体。例如 Place_of_birth(Donald Trump, United States)表示实体 Donald Trump 和 United States 具有出生地的关系。
(3)包(语句包):指文本集中所有包含具有某种关系的实体对的语句集合。形式化地,所有包含具有关系的实体 e1和 e2 的语句构成一个包,表示为 B={(e1, e2), (r1, …, rl), {S1, …, Sn}}.其中,(r1, …, rl)是该实体对在知识库中具有的关系,{S1, …, Sn}是文本集中所有包含该实体对的语句集合。
.............................
2.2 远程监督关系抽取的基本流程
如图 2.1 所示,远程监督关系抽取任务的基本步骤分为:1)启发式匹配;2)特征提取;3)训练分类器。接下来的部分将对每个步骤进行具体的介绍:

2.2 远程监督关系抽取的基本流程
如图 2.1 所示,远程监督关系抽取任务的基本步骤分为:1)启发式匹配;2)特征提取;3)训练分类器。接下来的部分将对每个步骤进行具体的介绍:

1. 启发式匹配
在远程监督方法中,启发式匹配的基本假设条件:若知识库中的某两个实体具有某种关系,那么所有包含这两个实体的句子都描述了这种关系[69]。例如,知识库存在关系实例:President_of (Donald Trump, United States),那么根据基本假设条件,文本集中包含 Donald Trump 和 United States 的语句:

........................
在远程监督方法中,启发式匹配的基本假设条件:若知识库中的某两个实体具有某种关系,那么所有包含这两个实体的句子都描述了这种关系[69]。例如,知识库存在关系实例:President_of (Donald Trump, United States),那么根据基本假设条件,文本集中包含 Donald Trump 和 United States 的语句:

........................
3.1 引言 ........................................... 22
3.2 研究动机 ....................................... 22
3.3 研究的难点 ........................... 23
第 4 章 基于词注意力和属性特征的神经网络关系抽取 .................................... 40
4.1 引言 .................................. 40
4.2 研究动机 ................................... 40
第 5 章 基于强化学习的神经网络关系抽取 ..................................... 55
5.1 引言 ........................................ 55
5.2 研究动机 ...................................... 55
第 6 章 神经网络方法的多事实抽取
6.1 引言
先前的工作抽取任务主要是基于假设:在一个语句中最多只存在一个事实关系12。然而,这种假设有时并不符合人们日常的表达习惯。换句话说,为了方便,我们通常习惯在一个句子中描述多个事实关系。以如下的句子为例:
S: Holthuis was born in Probolinggo, East Java and obtained his doctorate from Leiden University on 23 January 1946.
一个理想的关系抽取器能够提取出如下的三元组:born_in(Holthuis, Probolinggo)和 educated_in(Holthuis, Leiden University). 显然,由于多种事实关系同时存在一个语句中,这种现象对关系抽取任务造成了巨大的挑战。需要我们需设计新的方法来面对这些挑战。
....................6.1 引言
先前的工作抽取任务主要是基于假设:在一个语句中最多只存在一个事实关系12。然而,这种假设有时并不符合人们日常的表达习惯。换句话说,为了方便,我们通常习惯在一个句子中描述多个事实关系。以如下的句子为例:
S: Holthuis was born in Probolinggo, East Java and obtained his doctorate from Leiden University on 23 January 1946.
一个理想的关系抽取器能够提取出如下的三元组:born_in(Holthuis, Probolinggo)和 educated_in(Holthuis, Leiden University). 显然,由于多种事实关系同时存在一个语句中,这种现象对关系抽取任务造成了巨大的挑战。需要我们需设计新的方法来面对这些挑战。
第 7 章 总结与展望
7.1 本文总结
远程监督方法是关系抽取任务中最有前景的研究方法,本文针对远程监督关系抽取任务存在的若干关键问题,进行了相关的研究并提出了对应的解决方案。具体的工作如下:
1. 基于特征的方法
基于特征方法通常使用基于词袋的特征表示,该表示忽略了位于不同维度的特征间的相互联系,造成特征空间的极度稀疏,并且无法掌握复杂的语言表达特性。为了发现特征之间的联系,使得相关的特征连接得更加紧密,我们设计了多种方法来处理不同类别的特征。对具有相同边际窗口大小的词法特征,提出了嵌入式方法,并提供三种的可选策略:平均池化,最大池化和自注意力机制。对具有不同边际窗口大小的词法特征,提出了产生式方法。对句法特征,我们调整了 MSK 方法,来计算句法特征之间相似度。通过上述方法,可以获取大量的特征联系。为了在其中寻找有益的特征联系,提出了联系蒸馏法,包括经验条件熵的变体和主投票关系标签的验证这两个部分。实验结果表明,嵌入式方法和产生式方法能够发现词法特征之间的联系,而 MSK 方法可以发现句法特征之间的联系。另外,联系蒸馏法有效地过滤无用的特征联系,最终保留有效的特征联系,显著地提升了现有的基于特征方法的抽取效果。
2. 神经网络方法
(1)现有的神经网络方法在语句编码过程中,存在异构语句问题。另外,远程监督方法的某些语句包中存在文本稀疏问题。为了解决异构语句问题,提出了词级别的注意力机制。具体地,在语句编码时,为预测关系起到关键作用的单词赋予更高的注意力权重,同时减轻非重要单词在特征构成中的比例。针对文本稀疏问题利用实体的嵌入式表示中暗含的特性,提出了属性特征,与语句特征一起构成了关系抽取器的特征输入。实验结果表明,词级别注意力机制可以识别出异构语句中的关键词语线索,为抽取器提供了更加合理的语句特征表示。另一方面,属性特征可以弥补文本信息缺失问题,为关系抽取器提供更加丰富的特征表示,提升了抽取器的抽取效果。
(1)现有的神经网络方法在语句编码过程中,存在异构语句问题。另外,远程监督方法的某些语句包中存在文本稀疏问题。为了解决异构语句问题,提出了词级别的注意力机制。具体地,在语句编码时,为预测关系起到关键作用的单词赋予更高的注意力权重,同时减轻非重要单词在特征构成中的比例。针对文本稀疏问题利用实体的嵌入式表示中暗含的特性,提出了属性特征,与语句特征一起构成了关系抽取器的特征输入。实验结果表明,词级别注意力机制可以识别出异构语句中的关键词语线索,为抽取器提供了更加合理的语句特征表示。另一方面,属性特征可以弥补文本信息缺失问题,为关系抽取器提供更加丰富的特征表示,提升了抽取器的抽取效果。
(2)针对基于远程监督的神经网络方法中的粗粒度信号和噪音问题(多实例多标签),提出了强化学习模型,实现动态的语句选择和标注过程。具体地,扩展了“至少被表达一次”至多标签级别,并提出了“至多表达一个”。在此基础上,设计基于价值的强化学习模型,使得不同的标签之间相互竞争,最终为语句包中的每个关系标签选择出具有较强表达力的语句,生成了语句级别的标注信息,作为关系抽取器的训练实例。实验结果表明,所提出的方法可以有效地缓解多实例多标签问题,同时解决了粗粒度监督信号问题。
参考文献(略)