基于神经网络的知识图谱链接预测方法探讨

论文价格:150元/篇 论文用途:硕士毕业论文 Master Thesis 编辑:硕博论文网 点击次数:
论文字数:49555 论文编号:sb2023122911580251650 日期:2024-01-02 来源:硕博论文网

本文是一篇软件工程论文,本文站在知识图谱链接预测的出发点,分类别研究了现有常用的基于知识图谱嵌入完成链接预测的模型方法,指出现有基于神经网络的知识图谱链接预测方法存在的不足之处,并且为改进这些不足之处,论文设计实现了两种不同的模型算法,并用实验验证了模型的链接预测改进效果。
第一章绪论
1.1研究背景及意义
随着互联网的飞速发展,数据规模呈现爆发式增长,为更好地组织、管理海量数据信息,利用数据中隐藏的知识,知识图谱(knowledge graph,KG)应运而生。知识图谱的原型是Web之父Berners-Lee提出的语义网(Semantic Web,SW)[1],语义网就是一张由数据构成的网络,当用户查询信息时,会以图形的方式向用户返回一定的结果。2012年,在语义网的基础上,互联网头部企业Google首次提出了知识图谱的概念,初始的目的是提高信息搜索能力,提升搜索质量,优化用户搜索体验。因为之前的搜索引擎技术主要是根据用户查询的关键字快速检索、排序网页,但是这样的结果并不一定准确,用户可能还需要在检索结果中进行人工排查与筛选才能获得想要的答案[2]。为了更好地满足用户获得准确信息的需求,知识图谱改进与升华了传统语义网,它比语义网的规模更大、语义更丰富、质量更优、结构更好,应用也更加广泛。
本质上,知识图谱是一个展现实体间关系的有向图,它用图中的节点表示现实世界中的某个实物、概念、事件等,称作实体,用节点间的有向边表示其间关联,称作关系。一般地,使用(h,r,t)形式的三元组来表示一个知识,h是头实体,t是尾实体,r是他们之间的关系。例如,如图1-1所示,对于小李子出演电影《泰坦尼克号》这一事实,小李子这个人就可以作为知识图谱中的一个节点,电影《泰坦尼克号》也视作一个节点,两个节点之间的关系就是出演,即形成(小李子,出演,《泰坦尼克号》)这一三元组。将现实世界成千上万的不同事实都转化为这样的三元组,即可形成知识图谱。

软件工程论文怎么写
软件工程论文怎么写

................................
1.2国内外研究现状
给定一个不完整的知识图谱,知识图谱链接预测(Link Prediction)[12]旨在推理出缺失的三元组事实,即利用知识图谱中已经存在的显性知识来预测尚未存储的隐性知识。链接预测可以分为关系预测和实体预测,前者指已知头尾两个实体h和t,预测其间关系,使之形成完整三元组;后者指在已知关系和其中一个实体(头或尾实体)的情况下,预测缺少的那个实体,即在已知(h,r,?)的情况下推断t或已知(?,r,t)的情况下推断h[13]。因为是对知识的补充,故而链接预测也可称作知识图谱补全(Knowledge Graph Completion,KGC)[13]。
伴随着网络数据的愈发繁杂,通过人工筛查缺失和错误信息、补充和修改知识图谱的方式,显得费时费力且收效甚微。以往基于符号表示的知识图谱,用符号表示知识,直观简洁,易于刻画离散、显性的知识,具有较好的可解释性[14]。但符号逻辑不易于刻画连续、隐性的知识,不能有效挖掘分析实体间的语义关系,对符号三元组进行统计关系学习也不具备良好的泛化能力,在处理大规模知识图谱时还会存在数据稀疏性的问题,因此该方法不利于完成知识图谱链接预测任务。借鉴自然语言处理中的词向量[15]技术,思考将知识图谱中的实体和关系映射到连续向量空间中,并包含更多语义信息,从而引入了知识图谱嵌入(Knowledge GraphEmbedding,KGE),也称作知识表示学习(Knowledge Representation Learning,KGRL)[16]。知识图谱嵌入技术旨在将图谱中的实体和关系映射到连续低维稠密向量空间[17],以计算机容易理解和处理的形式——向量表示实体和关系,便于通过数值计算挖掘潜在的三元组知识和信息,同时又保留了图结构语义,高效又准确,可以很好地解决链接预测任务,促进大规模图谱上的推理分析,推动图谱在下游任务上的广泛应用。目前,基于知识图谱嵌入做链接预测的方法正成为主流方法之一。
知识图谱嵌入应用于链接预测[12],往往先将实体和关系表示为低维特征嵌入向量,再根据向量,通过定义好的计算方法预测、评估每个三元组(ℎ,????,????)的置信度(即该三元组为事实成立的可信度),置信度值愈大,三元组被视为事实的概率也随之提高。实体和关系的嵌入表示可以通过优化算法进行迭代更新,其中,优化的过程旨在分别提高和减小正确三元组与错误三元组被判断为真实事实的可能性。目前,学术界和工业界广泛关注的基于知识图谱嵌入的模型大致可分为三类:基于翻译的模型、基于张量分解的模型以及基于神经网络的模型[3,18]。
.................................
第二章相关概念与关键技术
2.1知识图谱定义与发展历程
通常定义:知识图谱(Knowledge Graph),是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系[4,14]。事实上,知识图谱以一种图的形式描述客观现实世界中的事物、抽象概念及其间关系,将海量信息表示成人们更易于认知的图的形式,更好地组织和管理繁多的互联网数据。
知识图谱通常被表示为????=(E,R,T),其中E表示实体集合,R表示关系集合,T则表示对应于实体集和关系集的事实三元组的集合。“实体-关系-实体”三元组是图谱的基本构成,实体是基本元素,人类、物品、地点等都可以作为实体,实体间通过关系相互联结,构成网状结构。通常用小写字母表示一个三元组(tuple/triple),以h(head)代表头实体,t(tail)代表尾实体,r(relation)代表头实体指向尾实体的关系,即(ℎ,????,????)。粗体小写字母形式h∈R????、r∈R????和t∈R????分别代表h、r和t的嵌入向量,d是嵌入的维度数。E∈R????×????表示实体嵌入矩阵,R∈R????×????表示关系嵌入矩阵。另外,知识图谱还包含“实体-属性-属性值”,用于描述实体对象可能具有的属性或特性,如人这个实体具有生日属性。成千上万的三元组汇聚起来就形成了知识图谱。
语义网络(Semantic NetWork,SN)[57]可以说是知识图谱的原型。20世纪五十年代至六十年代,M.Ross Quillian等人提出了语义网络的概念,将其定义为一种可存储知识的图数据结构。随后约十年间,语义网络成为研究热点。1977年,E.A.Feigenbaum在IJCAI会议上给出知识工程(knowledge Engineering,KE)的概念,人工智能研究重点转向专家系统和知识工程,基于语义网络的推理和表示得到了进一步发展[14]。20世纪末,万维网(World Wide Web,WWW)的创始人Berners-Lee提出语义网(Semantic Web,SW)的概念,基于万维网构建链接数据,并进行知识表示与推理,为谷歌知识图谱的出现奠定了良好的基石。2012年,谷歌正式提出知识图谱的概念,用于提高搜索引擎的智能性和可用性。知识图谱和早期语义网络的主要区别在于,知识图谱更依赖于自动或半自动方式而非人工方式进行构建,更强调不同来源知识的融合,数据规模也因此而更大,是对语义网络的一种升华。
............................
2.2知识图谱链接预测任务
尽管现在已经有众多大型知识图谱包含成千上万的实体、上亿的事实三元组,但是这些信息基本都是从互联网各个渠道上通过自动或者半自动的方式抽取得来的,故这些知识存在较大可能是不完整的。例如,含有约24亿个三元组的大规模知识图谱Freebase也存在约七成的人这一实体缺少出生地关系,接近八成的人这一实体的国籍信息也有缺失。这极大地影响了知识图谱的准确率,限制了其下游应用。这一问题激发了人们对知识图谱链接预测的相关研究。
知识图谱链接预测也称为知识图谱补全,顾名思义,就是根据知识图谱中已经存在的实体和关系(已知事实)补全其缺失的实体或关系(未知事实),如图2-1所示,图中的实线表示已经存在的关系,虚线则表示根据图中的已有信息预测出的原本不存在的关系。链接预测任务包括头实体预测、关系预测和尾实体预测,尾实体预测就是已知一个三元组的头实体和关系,去预测能满足条件的尾实体,例如(白炽灯,被发明,?),尾实体预测就是要预测出问号处的实体使得该三元组成立。另外两类与此类似,这里不再赘述。链接预测应用广泛,在社交网络中,可以用于推荐用户或商品;在引文网络中,可以用于判断两篇论文之间是否有引用关系;在生物网络中,可以用于辅助判断两种蛋白质之间未知的作用关系,等等。链接预测可以实现知识的精准推理与发现,完善知识图谱,提高知识质量,解决图谱中数据有误或缺失的问题,进而支撑图谱在各类下游应用上的使用,是当前的研究重点。
.............................
第三章关系嵌入参数生成的图注意力网络链接预测模型.................................29
3.1动机..................................29
3.2相关工作................................29
3.3关系嵌入参数生成的图注意力网络模型.........................30
第四章融合自注意力机制的卷积神经网络链接预测模型........................44
4.1动机..................................44
4.2相关工作.............................45
4.3融合自注意力机制的卷积神经网络模型...........................47
第五章基于医疗知识图谱的智能问答系统的设计与实现........................57
5.1系统可行性分析..........................57
5.2需求分析.....................................57
第五章基于医疗知识图谱的智能问答系统的设计与实现
5.1系统可行性分析

软件工程论文参考
软件工程论文参考

系统可行性分析是指在每一个项目开发初始阶段,从技术、经济和社会因素等多方面对系统进行分析的过程。它是为了避免出现费时费力却研发出具有高风险或可能产生社会不良影响的系统的情况。
(1)技术实现可行性:本系统开发工具是PyCharm和Neo4j-Community图数据库,开发语言是Python,各类框架与开发工具Flask、py2neo、Echart和jQuery以及图数据库查询语言是Cypher,开源且简单灵活,使用方便,可快速上手实现。因此,在技术方面,该系统是可行的。
(2)经济实现可行性:本系统实现用到的平台和工具都是熟知的、高可靠的且开源的,可以保证低成本与短周期的开发实现,因此实现这个系统具有经济可行性。
(3)社会实现可行性:本系统的实现,可以为医生提供医疗辅助服务,并且构建的医疗知识图谱在后续也可以被借鉴使用,具有一定的现实意义。并且该系统的实现不会造成任何对个人、国家、社会或环境的不利影响,因此实现这个系统,在社会因素方面是可行的。综上,本系统的实现具有可行性。
............................
第六章总结与展望
6.1工作总结
为了适应信息技术与人工智能的发展,以节点和边构成关系图来描述现实中事物的知识图谱被提出。知识图谱这种具有丰富关联关系的图结构决定了它具有丰富的潜在知识,可以被广泛应用于譬如搜索推荐、机器问答、反欺诈和医疗决策支持等众多下游人工智能任务。但是知识本身是无限且可随时更新的,这导致知识图谱通常是不完整的,为了更好地利用知识图谱,打破其完整性限制,有利于其在下游任务上的应用,知识图谱链接预测任务相关技术得到了空前关注与发展。本文站在知识图谱链接预测的出发点,分类别研究了现有常用的基于知识图谱嵌入完成链接预测的模型方法,指出现有基于神经网络的知识图谱链接预测方法存在的不足之处,并且为改进这些不足之处,论文设计实现了两种不同的模型算法,并用实验验证了模型的链接预测改进效果。在本论文中:
(1)首先阐述了知识图谱相关的研究背景及意义,然后研究对比了基于翻译的链接预测模型、基于张量分解的链接预测模型和基于神经网络的链接预测模型三个类别模型的核心思想与优缺点,思考模型可以改进的点,为后续研究做好准备工作。
(2)提出一种基于编码器-解码器框架的关系嵌入参数生成的图注意力网络链接预测模型(PGGAT)。针对现有基于图神经网络的模型只充分更新实体表示而未充分学习关系周围信息的问题,新模型在实体通过图注意力机制融合邻域信息的同时,将实体嵌入和关系嵌入互相用于对方的更新,即关系嵌入也通过邻域上下文进行增强。特别的,该思路通过引入参数生成器来实现关系嵌入的动态更新,参数生成器的实现方式可以根据具体模型有不同的实现,只为提供有一种框架和模板。相对于基线模型,该模型既在实验数据集上有较大的效果提升,又具有强大的可扩展功能,可以随着技术的发展而不断改进。
参考文献(略)


如果您有论文相关需求,可以通过下面的方式联系我们
点击联系客服
QQ 1429724474 电话 18964107217