基于知识图谱嵌入的多跳问答方法思考

论文价格:150元/篇 论文用途:硕士毕业论文 Master Thesis 编辑:硕博论文网 点击次数:
论文字数:28545 论文编号:sb2023090212143150962 日期:2023-09-10 来源:硕博论文网
本文是一篇工程硕士论文,本文提出了基于路径的嵌入知识图谱的多跳问答模型,针对知识图谱中数据不完整和问题中的复杂语义以及多跳路径建模的问题,设计了知识图谱嵌入模块,问题嵌入模块、关系路径提取模块、答案选择模块。
第1章 绪论
1.1  研究背景和意义
随着信息技术的迅猛发展,数据量正以惊人的速度增长。人们对于快速准确地获取信息的需求越来越迫切,而问答系统可以通过非结构化数据或者结构化数据获取信息进行回答,成为人工智能领域和信息检索领域的一个重要分支和新兴的研究热点。早期的问答系统[1]是基于规则的方法构建的,虽然有一定的问答功能,但是灵活性较低,回答的问题比较有限。随着人工智能技术的进步,知识图谱[2](Knowledge Graph,KG)的出现,知识图谱问答系统已经成为学术界和工业界的热门话题,并且受到越来越多的关注。
知识图谱以三元组的形式存储信息,能够对丰富的实体和关系进行建模,并通过图形结构高效地组织数据。知识图谱是一种结构化的知识表示方式,这种结构化表示方法不仅可以为问答系统提供更加丰富和精确的数据源,而且还可以应用于许多其他领域,如智能推荐[3]、自然语言处理[4]、机器翻译[5]等。当前,已有多个大型知识图谱如Freebase[6]、DBpedia[7]、YAGO[8]等被广泛使用,并在各自领域产生了重要的应用和研究价值。同时,随着深度学习、知识图谱补全[9]等技术的不断发展,知识图谱在未来将会有更广泛的应用和发展前景。 
根据问题在知识图谱上推理路径的长度可以将知识图谱问答分为单跳问答和多跳问答。单跳问答是指只需在一个三元组上推理就能找到答案,这种问答比较简单,不能满足人们日常生活所需。多跳问答推理需要通过建模多个相关联的三元组,形成复杂的多跳路径,才能准确回答多跳问题。这种问答对算法的设计和实现提出了更高的要求,需要解决实体识别和路径推理等问题。同时知识图谱存在稀疏性和不完备性,任意一个三元组中的信息缺失都会影响多跳问答推理建模中的找不到正确的答案,所以目前的研究热点就是如何在缓解知识图谱稀疏性和在知识图谱上进行多跳推理。
..............................
1.2 国内外研究现状与问题
1.2.1 知识图谱问答研究现状
目前,常见的知识图谱多跳问答方法可以分为基于语义解析的方法和基于答案排序的方法这两种。基于语义解析的方法是将自然语言问题转化成结构化的逻辑形式,进而转化为知识图谱的语义查询,然后在知识图谱中进行多跳推理得出答案。基于答案排序的方法则是根据自然语言中的相关信息,直接从知识图谱中提取候选答案,并通过答案排序的方式进行最优答案的选取。这两种方式各有优缺点。
(1)基于语义解析的方法
基于语义解析的方法主要可以分为两大类,分别是基于规则的方法和基于机器学习的方法。
基于规则的方法首先将解析自然语言问题,将其转换为一系列正式的逻辑形式,如SPARQL[15]、λ-DCS[16]和GraphQL[17]等,然后在知识图谱上执行查询得到问题对应的答案。在2015年,Yih等人提出了一个分阶段查询图生成(Staged Query Graph Generation,STAGG)模型[18]。其中定义了查询图,通过生成查询图,可以直接将问题与逻辑形式相匹配,然后使用查询语句在知识图谱中查询答案。这一方法在问答系统中有重要的意义,具有非常强的可解释性。随后Das等人提出了一种神经符号CBR方法(CBR-KBQA)[19]。CBR-KBQA由一个存储案例的非参数储存模块和一个参数模型组成,其中非参数储存模块中包含问题和逻辑形式库。这种方法通过检索与之相关的案例来为新问题生成逻辑形式,然后在知识图谱上推理得到答案。这些工作在很大程度上与知识图谱解耦,转换后的查询很可能是无效的。在此基础上,Jiao等人提出了一个数据驱动的语义解析框架gMatch[20],通过提取知识图谱的子图来建模输入问题的查询意图和通过匹配知识库中的语义查询图,可以提取出SPARQL查询图,以便在解析输入问题时更紧密地利用知识图谱,解决知识图谱解耦问题,避免了无效查询。针对知识图谱上缺乏程序注释的资源对的问题,Cao等提出了一种程序转移的方法[21],设计了一种新的两阶段解析框架,利用本体引导剪枝策略修剪收缩空间,这种方法可以利用资源丰富的知识图谱上有价值的程序注释作为外部监督信号,帮助缺乏程序注释的低资源知识图谱上的程序诱导。
................................
第2章 相关技术与理论基础
2.1  知识图谱概述
2.1.1 知识图谱
传统的搜索引擎和自然语言处理技术往往只能通过关键词匹配来检索信息或理解语句的意思,无法理解实体、关系和上下文之间的语义关系,这限制了信息检索和自然语言处理的效果。2012年,谷歌发布了知识图谱[2](Knowledge Graph,KG)的概念,旨在解决语义理解问题,当时主要被用来提高搜索引擎的质量。知识图谱的宣传口号“Things not strings”意味着不要只看字符串,而是要理解字符串背后的实体或事物。例如,在智能搜索中,知识图谱能够识别用户的关键词,返回关键字的相关信息,最后展现用户所需要的更丰富、更全面的信息。 知识图谱通过构建实体、关系和上下文的语义连接网络,将结构化和非结构化数据整合起来,提供更智能、精准和个性化的信息检索和自然语言处理服务。知识图谱使用结构化形式表示知识,可以看作是一个有向图结构的知识库,其中每个节点表示一个实体,每条边表示一种关系。多个三元组相互连接建模更加复杂的关系,形成一个知识图结构。一个知识图谱可以表示为????=(ℰ,ℛ,ℱ),其中ℰ表示实体的集合,ℛ表示关系的集合,ℱ是事实的集合。一个三元组(????,????,????)∈ℱ,????表示头实体,????表示为尾实体,????表示为头实体和尾实体之间的关系。
知识图谱的本质是一个大规模的语义网络,并且知识图谱的表达能力强且扩展性好。目前已经有各种类型的大规模知识图谱被构建,包括通用型知识图谱(如FreeBase[6]、YAGO[8]和Wikidata[50])和针对某一领域的问题所构建的领域知识图谱。这些知识图谱的构建有利于许多应用领域,例如智能搜索、自然语言处理、人工智能等。知识图谱的优点在于能够更全面、准确地理解人类语言和行为,从而为人工智能的发展提供了有力的支撑。
..................................
2.2 知识图谱嵌入方法
知识图谱嵌入(Knowledge Graph Embedding,KGE)是将知识图谱中的实体和关系映射到低维向量空间的过程。时序知识图谱嵌入则是对知识图谱中的实体和关系的时间变化进行建模,即考虑实体和关系在不同时间点的演化,可以看作是知识图谱中实体、关系和时间戳信息映射到低维向量中的过程。知识图谱和时序知识图谱的嵌入过程可以将知识图谱中的结构化信息转化为向量表示,从而方便进行机器学习和深度学习等任务,可以提高知识图谱的可解释性和推理能力。简单来说,嵌入技术将知识图谱中的复杂高维信息转化为低维向量表示,使得计算机可以更加高效地处理和分析知识图谱。知识图谱嵌入技术可以广泛应用于知识推理、知识发现、问答系统、信息检索等领域。它能够帮助计算机更好地理解知识图谱中实体和关系之间的语义关联,从而提高知识图谱的精度和效率。接下来,将分别介绍常见的知识图谱嵌入技术和时序知识图谱嵌入技术。
2.2.1 知识图谱嵌入
知识图谱嵌入技术通过学习知识图谱中实体和关系之间的相互关系来生成嵌入向量,据评分函数类型的不同,知识图谱嵌入模型可以分为以下两类:平移距离模型和语义匹配模型。接下来详细介绍这两类的经典模型。
(1)平移距离模型的主要思想是三元组中头实体和尾实体通过中间关系进行平移,评分函数是对三元组中的实体之间的距离进行评分来验证三元组的合理性。基于距离模型中最经典的是TransE[26]以及它的各种变体,Borders等人受到相同关系的实体向量空间内的平移不变形的启发,于2013年提出了TransE,如图2.1所示。

工程硕士论文怎么写

工程硕士论文怎么写
...............................
第3章 基于关系路径的嵌入知识图谱多跳问答模型 .......................... 22
3.1 引言................................... 22
3.2 问题描述................................... 23
3.3 基于关系路径的嵌入知识图谱多跳问答模型.................................... 24
第4章 基于时序知识图谱嵌入的多跳问答模型 .............................. 31
4.1 引言................................. 31
4.2 问题描述................................. 32
4.3 基于时间知识图谱嵌入的多跳问答模型........................... 32
第5章 总结与展望 ...................................... 44
5.1 总结............................. 44
5.2 未来展望............................ 45
第4章 基于时序知识图谱嵌入的多跳问答模型
4.1  引言
知识图谱问答使用知识图谱来检索问题的答案,知识图谱以<实体,关系,实体>三元组的形式储存事实信息,实体之间通过关系相互连接,构成了网状的知识库。知识图谱能够存储了结构化的信息,同时能够被机器理解,是目前自然语言处理研究方向的一个热点。对于许多事实的描述而言,时间信息是不可或缺的,时序知识图谱应运而生。
时序知识图谱(Temporal Knowledge Graph ,TKG)通过在知识图谱中的每条边上增加时间信息来扩展知识图谱,将三元组信息扩展成四元组信息,具体来说,时序知识图谱可以看作是一种多关系图,其中每条边都与一个时间持续时间相关联,也可以和一组不连续的时间间隔相连,这与没有时间注释的常规KG形成了对比。例如,一个普通的KG可能包含一个事实,如(奥巴马,担任职位,美国总统),而一个时间的KG也将包含开始和结束时间(奥巴马,担任职位,美国总统,[2008,2016])。时序知识图谱不仅包含事件的时间信息,还隐含着事件的发展规律和演化模式,有着更大的研究和应用价值。
时序知识图谱问答(Temporal Knowledge Graph Question Answer,TKGQA)是知识图谱问答的一个细化,其中的自然语言问题包含了时间约束信息,问题的答案是实体或者时间信息。时序知识图谱问答是对于包含隐式时间约束的问题,识别出问题中的时间约束条件和推理关系,从给定的时序知识图谱中检索出答案。时序问题可以被分为两类:(1)简单问题,只需要一个事实四元组来回答,与知识图谱单跳问答类似,问题的答案通常是一个实体或者时间;(2)复杂问题,需要通过多个事实四元组来进行推理回答,复杂问题中通常含有隐式的时间约束信息。
工程硕士论文参考
工程硕士论文参考
................................
第5章 总结与展望
5.1  总结
当前信息数据的数量十分巨大、信息数据之间多维关联且形式多样化,同时,数据冗余的现象也很多。知识图谱可以通过图的形式对数据进行管理,可集成不同数据源中的数据,由此构建了知识图谱,方便用户共享和利用,从而提升信息的利用价值。各行各业都开始建立相应的知识图谱,方便管理和使用信息。由于许多事实都需要时间信息,如商品保质期等,时序知识图谱也随之提出。虽然这些知识图谱数据量很大,但是它们仍然存在数据缺失的问题。基于知识图谱的问答系统成为近几年的研究热点,这种问答系统可以准确、快速的回答用户用自然语言提出的问题。针对目前知识图谱问答研究中存在的问题,本文分别提出基于知识图谱的多跳问答模型和基于时序知识图谱的多跳问答模型,主要内容如下:
(1)本文提出了基于路径的嵌入知识图谱的多跳问答模型,针对知识图谱中数据不完整和问题中的复杂语义以及多跳路径建模的问题,设计了知识图谱嵌入模块,问题嵌入模块、关系路径提取模块、答案选择模块。其中问题嵌入由递归神经网络和自注意机制组成,用自注意力机制对问题提取关键信息,特征进行学习获得权重分布,有更好的表现能力,能够使模型能够理解复杂语义信息。然后再通过一个连接层将问题与知识图谱映射到相同的向量空间进行链路预测来缓解知识图谱不完备的问题,最后通过嵌入打分函数和关系语义评分机制选择答案。在完整的数据集和不完整的数据集上进行实验,本文所提出的模型具有不错的准确率。
(2)本文提出了基于时序知识图谱嵌入的多跳问答模型,针对目前时序知识图谱在多跳问答上准确率不佳的问题,缺乏时间约束的能力等问题。该模型可以分为四个模块:时序知识图谱聚合嵌入模块、问题处理模块和路径推理模块以及答案选择模块。时序知识图谱聚合嵌入模块中考虑到了时间信息对实体和关系不同的影响,使用图注意力机制对邻居信息进行聚合增强实体信息表示,使用神经网络得到带有时间信息的关系信息表示。问题处理模块中提取问题中的时间约束关系以及时间约束,最后在问题表示中融合上下文信息、实体信息和时间信息,得到了一个带有增强信息的问题表征表示。路径推理模块使用时间约束和时间约束得到有助于回答问题的关系路径信息。最后使用答案预测模块得到最终答案。实验表明本文所提出的模型取得了良好的结果,模型中的四个模块都有助于提高整体框架的性能。
参考文献(略)

如果您有论文相关需求,可以通过下面的方式联系我们
点击联系客服
QQ 1429724474 电话 18964107217