本文是一篇计算机论文,本研究基于异构学术网络进行社区检测,当前社区检测模型存在一些问题。由于隐私和安全等问题导致的信息缺失使得模型在处理不完整性信息时表现不佳。有些网络增强模型过于专注于节点属性,而忽视了网络的拓扑结构,或者反之,存在片面性。
第1章 绪论
1.1 研究背景及意义
现实世界中,各种实体之间的复杂关系可以建模为图,如社交网络图、生物分子图、网络通信图,学术网络图等等[1]。近年来,随着科技的发展以及“学术大数据时代”的到来,大规模的学术论文之间的引用关系以及学者之间的合作关系等组成了学术网络[2],学术网络属于复杂网络的一个分支,包含丰富文本和结构信息。了解学术网络底层结构并将学术论文划分到不同社区可以帮助学生快速定位文章分类,可以把同一主题下的论文推荐给学生,为学生进行学术研究带来便利[3]-[4]。此外,对学术网络社区检测还有助于发现科学边界,检测出的社区可以对应不同的学科或研究领域,对应的社区边界可以表示学科之间的交叉或边界[5],有助于理解学科的分类与组织结构。不同社区之间的链接可能代表跨学科或研究话题的合作与交叉,可以用于理解不同领域知识的融合与交互,是促进跨学科发展的有利条件。社区可以对应不同的研究话题或热点[6],社区内的节点与链接可以反映该话题的研究者与研究成果,有利于跟踪研究前沿与发展方向。社区核心或重要节点的学者可以代表该社区的中心与骨干,其在社区内的影响力与作用较大,有利于分析不同学者的学术影响力与地位[7]。社区内稳定且影响力较大的节点可能代表社区的发展趋势与方向,未连接到这些节点的其他节点可能是社区未来的发展目标或方向,可以用于预测社区的未来演化轨迹[8]。学术网络所蕴含的信息对学生学习学科现状和创造前沿技术有着至关重要的作用,在某种程度上促进了学术成果的流动和科研的发展。然而,现有的数据集通常由于数据获取受限,作者隐私和安全等问题,通常不能涵盖全面的信息,使得数据集中有大量的节点存在属性缺失的问题,甚至数据集中的关系可能是不完整的,这导致模型不能学习到足够多有价值的信息,会极大地限制了模型的表现力。
计算机论文怎么写
............................
1.2 国内外研究现状
1.2.1 图神经网络研究现状
图神经网络是一种基于深度学习的处理图结构数据的方法,它通过在图中的节点和边之间进行信息传递和聚合,从而学习图的拓扑结构和节点属性信息的表示。图神经网络在各种领域,如社交网络分析、推荐系统、知识图谱、生物信息、计算机视觉等领域,都有广泛的研究和应用。图神经网络的研究可以从不同的角度进行分类,如网络结构、信息传递方式、图类型、应用领域等。
根据网络结构,图神经网络可以分为图卷积神经网络(GCN)、图循环神经网络(GRN)[31]、图注意力网络(GAT)、图自编码器(GAE)[32]、图生成网络(GGN)[34]和图时空网络(STGNN)[35]等。图卷积神经网络的本质是用来提取拓扑图的空间特征,受启发于图像的卷积,图卷积神经网络通过在空间上的卷积用来提取节点的邻居特征,通过构建拉普拉斯矩阵,实现图的聚合和信息的传递。而图卷积神经网络可以视作图循环神经网络的一种特殊情景,即在图循环神经网络中去除双向循环神经网络层,图循环神经网络中的池化操作将接近于向所有邻居进行归纳学习。图卷积神经网络通过层对层实现节点交互,而图循环神经网络允许节点和属性类别在同一个双向循环层内交互,而且图卷积神经网络的层不宜堆叠过厚,会导致过平滑,而图循环神经网络没有这样的问题。为了有选择地聚合邻居信息,图注意力神经网络问世,其主要思想是为节点的邻居分配不同的权重,从而能够实现节点的邻居信息能够自适应地信息聚合,可以动态地调整节点之间的关系。这些操作是通过隐藏的自注意力层来完成的,通过隐式地为邻居中不同的节点指定不同的权重,不需要任何复杂的矩阵操作也不依赖于需要预先知道图结构信息。在图表示学习中图自编码器占有相当大的比重,图自编码器是一种基于自编码器的图神经网络模型,通过将图编码为低位向量,然后再从低位向量中重构图,从而实现图的无监督学习。通过重构图的结构信息(如图的邻接矩阵)来学习潜在节点表示。图编码器在图聚类任务中能够取得良好的表现效果。时空图神经网络旨在从时空图中学习隐藏模式,其核心思想是同时考虑空间依赖性和时间依赖性。许多当前的方法将图卷积与循环神经网络或者卷积神经网络集成来捕获空间依赖性来建模时间依赖性。
...........................
第2章 相关理论知识
2.1 网络表示理论知识
2.1.1 理论基础
网络表示学习是一种通过学习网络中节点的低维嵌入表示来捕捉网络结构和节点属性的方法。这个领域的理论基础涵盖了图论、概率图模型以及深度学习等多个方面。图论是网络表示学习的基础,它研究图结构和图中的节点关系。图中的节点和边可以用于表示实体和它们之间的关系。网络表示学习的目标之一是通过学习节点嵌入,将图中的结构信息编码为低维向量。概率图模型是一种用于表示和推断概率分布的工具。在网络表示学习中,节点嵌入的学习可以被视为对图的概率分布建模的问题。概率图模型的一些思想可以用于设计网络表示学习的目标函数,以最大化观测到的数据的似然性。深度学习方法在网络表示学习中得到了广泛应用。深度学习模型,特别是图神经网络(GNN)[65]-[68]、自编码器(Auto-encoders)等,能够学习具有更强表达能力的节点嵌入。这些模型通过多层次的非线性变换来捕捉网络中的复杂模式。随机游走是一种在图中探索结构的方法,即通过随机游走产生节点序列,然后输入特定的嵌入模型中,可以得到节点的嵌入向量。这些方法被广泛用于网络表示学习,通过生成节点序列或子图来捕捉节点的上下文信息。
网络表示学习旨在找到一种有效的方式来捕捉和表示复杂网络中的结构和属性信息,为各种应用(如社交网络分析等)提供更好的数据基础和表达。在这个领域的研究中,对理论基础的深入理解和应用对于设计新的网络表示学习方法至关重要。
..........................
2.2 异构图神经网络理论知识
异构图也称为异构信息网络,在现实世界场景中无处不在;异构图中的表示学习旨在为每个节点生成有意义的向量表示,同时保留下游任务(例如,节点/图分类、节点聚类、链接预测)的异构结构和语义。异构学术网络中蕴含丰富的信息,通过考虑不止一种的关系可以增强网络的语义和结构信息。然而对模式丰富的异构学术网络而言,建模其高阶关系给学者增加了难题。异构图嵌入旨在学习将输入空间映射到低维空间同时保留异构结构和语义的函数,近年来引起了相当大的关注。尽管在同构图嵌入、属性图嵌入以及图神经网络方面已经做出了大量的努力,但是这些方法很难直接应用到异构图信息的处理中。一些研究者们提出了针对异构图的方法。
一些文献[69][74]通过预定义的元路径对异构图建模,Sun[75]等人利用预定义的元路径计算节点的相似性,定义一种新的相似度度量,能够在网络中找到对等对象,例如,寻找在相似领域和具有相似声誉的作者;Zhang[76]等人提出了七类“网络内社交元路径”和四类“网络间社交元路径”。利用这些“社交元路径”覆盖网络中各种各样的连接信息,帮助解决多网络链路预测问题。Chen[77]等人提出一种新的时间元路径的可解释推荐方法,利用注意力机制在动态知识图上对可解释推荐的动态用户—项目演化进行建模。张程东[78]等人提出传统的定义元路径的方式只考虑节点之间是否存在边,而异构图中的节点可能由不同类型的边连接,只考虑这种方式将图抽象化会因忽略边的类型而导致学习的嵌入不准确,他们提出一种在异构图上把边的类型融入元路径的方法,使节点在不同场景下得到单独训练,从而得到更准确的嵌入。孟祥福[79]等人提出一种多重注意力指导下的异构图一些文献[69][74]通过预定义的元路径对异构图建模,Sun[75]等人利用预定义的元路径计算节点的相似性,定义一种新的相似度度量,能够在网络中找到对等对象,例如,寻找在相似领域和具有相似声誉的作者;Zhang[76]等人提出了七类“网络内社交元路径”和四类“网络间社交元路径”。利用这些“社交元路径”覆盖网络中各种各样的连接信息,帮助解决多网络链路预测问题。Chen[77]等人提出一种新的时间元路径的可解释推荐方法,利用注意力机制在动态知识图上对可解释推荐的动态用户—项目演化进行建模。张程东[78]等人提出传统的定义元路径的方式只考虑节点之间是否存在边,而异构图中的节点可能由不同类型的边连接,只考虑这种方式将图抽象化会因忽略边的类型而导致学习的嵌入不准确,他们提出一种在异构图上把边的类型融入元路径的方法,使节点在不同场景下得到单独训练,从而得到更准确的嵌入。孟祥福[79]等人提出一种多重注意力指导下的异构图
.......................
第3章 基于自适应采样的异构图增强模型 ............................ 20
3.1 相关定义和符号说明 ................................................ 21
3.2 异构图自适应采样 ............................................. 24
第4章 基于定量采样和结构感知注意力的社区检测算法 ................................... 34
4.1 相关定义和符号说明 .................................. 36
4.2基于定量采样和结构感知注意的社区检测模型 ........................................ 37
第5章 实验与分析 ............................................ 44
5.1实验环境简介 ......................................... 44
5.2实验数据集 ............................. 44
第5章 实验与分析
5.2实验数据集
我们选取了2个具有代表性的异构学术网络数据集来评估模型的社区划分性能,分别为DBLP和ACM。两个数据集分别包含四种和三种类型的节点,以及三种类型的边,它们的统计数据如表5-1。
计算机论文参考
首先我们对两个数据集进行介绍:
DBLP[62]:本文实验中所使用的数据集之一是从DBLP数据库中提取的一个子集,由一组不同的学术资源组成。它包括来自20个不同学术场所的4,057位作者的14,328篇研究论文。该数据集还包含8,789个关键字,每个关键字代表该论文中讨论的基本概念。
ACM[62]:该数据集是从ACM数据库中提取的一个子集,由不同的学术资源集合组成。它包括4,019篇研究论文,由7,167名学者撰写,涵盖60个不同的研究主题。为了提供论文和作者的全面表示,数据集中包含了各种属性。每篇论文的属性使用词袋方法表示,有效地捕获定义其内容本质的关键字。同样,对于作者来说,他们的属性也被表示为词袋,包括来自他们的从属关系、论文标题和从他们发表的作品中提取的关键字的有价值的信息。
..........................
第6章 总结和展望
本研究基于异构学术网络进行社区检测,当前社区检测模型存在一些问题。由于隐私和安全等问题导致的信息缺失使得模型在处理不完整性信息时表现不佳。有些网络增强模型过于专注于节点属性,而忽视了网络的拓扑结构,或者反之,存在片面性。异构图神经网络通常有两种方式处理异构图,基于元路径和不使用元路径的方法。元路径选择的主观性以及随节点类型增多而指数增长的问题导致了模型复杂性的增加,限制了其应用范围。而不使用元路径的模型虽然采用了不加选择的方式聚合邻居节点,但由于在计算节点的重要性时仅考虑属性关系,而忽略了结构相关性,也存在繁琐性和片面性。
为解决上述问题,我们提出了基于自适应采样的异构图增强模型,与基于定量采样和结构感知注意的社区检测模型。本文主要分为四个部分:
1)自适应采样信息增强:用自适应采样的方式为每个目标节点采样到与本身强相关的邻域节点,通过对信息缺失的异构学术网络进行属性信息补全以及拓扑结构增强,使得网络包含更丰富和完整的语义信息。
2)学术网络结构增强:通过计算某一类型的节点与目标节点的相关性,与目标节点诱导的 n 阶子图中计算的该类型节点与目标节点的平均相关性得分进行比较,以决定是否增加虚拟边,从而实现网络拓扑的增强。
3)定量采样模块信息聚合:选择与目标节点关联最密切的前k个邻居进行信息聚合,以便有效地整合更有价值的邻居节点信息。
4)基于结构感知的注意力模块:同时考虑属性相关性和结构相关性,计算它们的联合注意力系数,从而在最终的信息聚合中实现属性和结构的平衡。在聚合节点属性的时候加入残差单元以缓解由于层的堆叠引起的过平滑问题。
参考文献(略)