基于最大池化的图双注意力网络计算机研究及应用

论文价格:免费 论文用途:其他 编辑:硕博论文网 点击次数:
论文字数:33636 论文编号:sb2020072216365232319 日期:2020-07-28 来源:硕博论文网
本文是一篇计算机论文,本文针对 H 省 X 运营商所处的移动通信市场经营环境与竞争状况,通过对用户数据库中的用户数据进行数据整理和分析,对 X 运营商客户离网原因进行了初步分析,挖掘影响因素并联合将其构成网状图。利用基于图卷积的网络表示学习方法将网络信息结构和网络拓扑结构信息输入到神经网络中用以解决图节点分类任务。

1 绪论

1.1 研究背景及意义
电信运营商拥有海量的数据资源,例如 CDR 数据、客户资料数以及客户位置数据等,如何有效的分析这些数据是电信运营商面临的主要挑战。因为一旦有客户退出运营商服务,不再产生利润,运营商的营业收额就会逐渐降低。由于获得新客户的成本远高于保留现有客户的成本,因此电信行业面临的最大挑战可能是客户流失问题。在这种情况下,电信运营商迫切需要构建客户流失预测模型,以预测最可能发生流失的客户,然后制定相应的对策对客户进行挽留。
对于数千万的客户而言,降低 1%的客户流失率将带来显著的利润增长。经过几年的建设,电信运营商已经成功构建了支撑经营业务的数据仓库,存储了大量的企业信息和客户信息。经营分析系统已成功应用了数据挖掘技术来对自己的业务进行服务支撑。但目前应用的相关技术存在一定局限性,导致大量的信息隐含在数据当中不能被充分的挖掘出来,运营商的需求仍然得不到满足。在许多业务已有相关数据挖掘技术进行拓展的情况下,如何从海量的电信运营数据中深层次的挖掘出有用的信息为运营商提供有效的指导成为相关技术人员面临的迫切问题。传统意义上对电信数据的数据挖掘是对用户个人的属性进行分析挖掘,然而现实世界中这些数据大部分伴随着人和人之间的交互产生,例如:手机呼叫、短息以及利用通讯工具的互动。现在信息社会这样的信息交换无处不在,如万维网上个人博客之间评论和回复;科研论文的引用;微博的转发、评论、点赞等,数据实体不仅有自己的属性,实体之间还存在着这种联系。如果将这些独立的实体看做图中的节点,实体之间的关系看做边,那么可以用网络模型或者图模型来描述这种联系。
图作为一种常见的数据结构,描述数据实体和实体的关系具有天然优势,在图中,节点可以用来表示实体,边可以用来表示实体之间的关系。图在现实中的体现为实体(物体)和实体(物体)之间的联系(关系),理论上,图能够表达和描述任何结构的数据。
.............................

1.2 国内外研究现状
近年来,网络表示学习成为数据挖掘和网络分析领域的一个重要的研究课题,其主要任务是学习包含结构语义和属性语义的网络节点低纬度表示以便开展下游任务[12]。传统的机器学习方法依赖于用户定义的启发式方法来提取对图的结构信息进行编码的特征(例如,度统计或内核函数)。但是,近年来,使用基于深度学习和非线性降维的技术自动学习将图结构编码为低维嵌入的方法激增。在这里,本文对代表性领域的主要进展进行一些内容回顾。
DeepWalk[13]利用 Word2Vec[14]思想,把文本中的单词对应成网络中的节点,将文本中的词嵌入方法应用到网络中,在网络上重复不断地进行随机游走,最终形成一条网络中的游走路径,得到随机游走序列。然后利用窗口采样节点的上下文节点,最大化当前节点来预测上下文节点的概率来学到节点在网络中的低维向量表示。该方法能够较好的保持网络节点的邻域结构,Node2vec[15]在随机游走序列的生成方式方面进一步扩展了DeepWalk 算法。随机游走在随机序列的选取过程中选取当前节点的下一个节点的概率是随机分布的。对此,Node2vec 通过添加 p 和 q 两个参数,在随机游走序列的生成过程中引入宽度优先搜索方法和深度优先搜索方法来改变选取当前节点的下一节点的概率分布,通过刻画中心节点的邻居节点的方差,以捕获到更高层面上节点间的同质性,使学到的网络中的节点低维表示能更好的保留网络邻域结构信息。Line 模型通过保留网络中节点的一阶相似性和二阶相似性来使学到的节点表示能够保留住网络的局部结构信息和全局结构信息[16]。Gra Rep[17]是通过对网络节点的 K 阶相似性进行建模,对于给定的邻接矩阵 A,通过kA 计算 k 阶概率转移矩阵,再对kA 进行 SVD 分解,得到包含节点 K 阶相似性的低维向量表示。SDNE[18]提出网络表示学习的半监督深度模型,该模型具有多层非线性函数,从而能够捕获网络的高度非线性。它利用深度自编码技术编码节点的一阶邻近度和二阶邻近度来保留网络的结构,从而得到节点的向量表示。以上这些方法只考虑了网络的结构信息,但真实世界中的网络,不仅有网络的结构,网络中的节点也是具有属性的。如何找到一种方法能同时编码网络的结构信息和网络节点的属性信息成为网络表示学习任务的研究重点内容。
............................

2 研究基础

2.1 问题来源
2.1.1 电信客户离网问题
各个电信运营商为争夺客户资源竞争越来越激烈,客户流失是当前运营商面临的主要问题。相关文献表明客户挽留与电信公司的利益息息相关,因为:(1)收购新客户的成本是挽留现有客户的五到六倍;(2)在网时间长的客户不仅能产生更高的利润,还能降低营销成本,因为在网时间长的客户对竞争性营销活动不会太敏感,并且能够提供正面的口碑,拓展新用户;(3)销售减少,失去客户会导致机会成本;(4)客户保留率小幅度的提升,会显著的提高收入利润[36-39]。
客户流失预测的目的是找出那些即将把业务转移给竞争对手的客户。由于发展一个新客户的成本远远大于留住客户的成本,因此深入分析和整合数据能使运营商减少收入损失,并增加企业利润。图 2.1 是 2018 年 1 到 12 月份三大运营商 4G 用户净增量展示图(数据来源 C114 通信网),从图 2.1 中可以看到中国移动 4G 用户增量不定,甚至出现负增长现象。这对运营商来说并不是一个好的现象,为防止客户出现负增长,运营商首先要做的就是挽留住现有客户,在挽留住现有客户的前提下发展新客户,实现利润收入。
图 2.1 2018 年三大运营商 4G 用户增量
.............................

2.2 传统的客户流失预测模型及其不足
经过多年的研究,国内外的学者在电信客户流失预测领域提出过许多经典方法。但目前普遍观点是将客户流失预测看做是机器学习中的分类问题,相关的流失预测流程定义为:根据已知是否为流失类别客户的相关属性特征数据,利用现有的机器学习方法去判别未知类别客户。传统预测电信客户流失的机器学习方法有决策树算法、随机森林算法(RondomForest)、XGBoost 算法(Extreme Gradient Boosting)、支持向量机(SVM)算法等。其中决策树算法不需知道很多邻域知识和设置很多参数,但容易产生过拟合现象。另外通话数据属性具有多样性,如用户上网时长和缴费金额等这些属性数据输入到决策树中时,属性之间的相关性容易被忽略。随机森林算法对于具有不同取值属性的数据,取值划分多的属性会对预测的结果有较大的影响。XGBoost 在迭代之前会对节点的特征做预排序,在数据量大时比较耗时。SVM 算法对大规模的样本数据会耗费大量的机器内存和运算时间,不适应在大规模的通话数据中应用。
另外这些算法普遍的缺点就是训练过程仅使用客户的属性信息作为机器模型的输入,但现实中的移动用户之间是存在通话这种联系的。最近的一些工作表明,通过评估最近流失客户的社交环境来分析客户的互动可以改善流失预测的准确性。文献[41,42]将个人在社交网络中的性质作为特征加入到模型训练中。文献[43]发现用户流失的倾向取决于已经流失者的朋友数量,提出基于 SPA(Spreading Activation)[44]技术的扩散模型应用到通话构成的网络上进行客户流失预测,但不足的是该方法只利用了网络结构而忽略了节点的属性信息。
表 3.1 数据表包含的部分信息
..............................
 
3 数据分析及数据预处理................................... 17
3.1 数据概述..................................17
3.2 数据基本分析............................. 18
3.3 数据选取与准备................................ 21
4 图双注意力神经网络..................................... 27
4.1 研究动机..................................27
4.2 注意力机制优势分析........................................ 27
4.3 双注意力模型................................. 28
5 基于最大池化的图双注意力网络及应用............................. 37
5.1 研究动机.........................37
5.2 图的池化操作........................................ 37
5.3 基于最大池化的图双注意力网络............................. 39

5 基于最大池化的图双注意力网络及应用

5.1 研究动机
图卷积神经网络在图节点分类任务上取得了当前最佳的结果,但因其平面化的局限,所以存在图形不能分层表征的缺陷。现实应用中,很多图形信息都是层级表征的,例如地图、概念图和流程图等。捕获层级信息能更加完整高效地表征图形,获得更高的应用价值。然而,现有图卷积网络模型应用的主要限制在于太过平坦,因为它们仅通过图形的边传播信息,无法以分层的方式推断和聚合信息。另外,图数据集节点数量大,节点特征复杂,直接采用图卷积神经网络会需要较长的训练时间。这对图节点分类任务而言尤成问题。
在图节点分类任务中应用图卷积神经网络,标准的方法是针对图中所有的节点生成嵌入。然后对这些节点嵌入进行全局池化,如简单地求和或在数据集上运行神经网络。这种全局池化方法忽略了可能出现在图中的层级结构,进而阻碍了研究人员建立有效的图节点分类模型。为了有效解决以上问题,并进一步增加模型的泛化能力,本章将最大池化操作应用到图卷积神网络模型中。在保留图几何结构的同时减少计算量,增强网络的泛化性能,并从一定程度上解决了图卷积神经网络由于缺少分层结构导致的过平滑问题。
.........................
 
6 总结与展望

6.1 工作总结
自网络时代开始,社交网络越来越复杂,其主要表现在网络结构更加复杂,数据属性更加繁多,网络中的用户增多,网络数据就会越稀疏。对如此庞大的网络数据进行挖掘,这给已有的数据挖掘方法带来巨大的挑战。网络表示学习任务对具有属性的网络能够同时保留网络的结构信息和属性信息,对如此复杂的结构能够进行有效的数据挖掘任务。本文针对 H 省 X 运营商所处的移动通信市场经营环境与竞争状况,通过对用户数据库中的用户数据进行数据整理和分析,对 X 运营商客户离网原因进行了初步分析,挖掘影响因素并联合将其构成网状图。利用基于图卷积的网络表示学习方法将网络信息结构和网络拓扑结构信息输入到神经网络中用以解决图节点分类任务。因此,本文在图卷积神经网络的基础上,完成了以下研究:
(1)对电信通话详细记录和客户数据进行相关分析和数据预处理工作,并利用通话详情数据构建通话社交网络,分析了客户流失前后网络特性的变化,并构建了属性网络模型,以便下文将图神经网络方法成功应用到属性网络图中。
(2)提出图双注意力网络模型。在原有的图注意力网络模型(GAT)基础上增加纵向注意力,即在求解注意力时通过归一化第一维的数据,来增强原有的注意力系数,强制节点学到更多注意力信息来使学到的模型能够精度更高,收敛速度更快。
(3)提出基于最大池化的图双注意力网络模型。针对已有的图神经网络模型,在原来双注意力的基础上加入最大池化操作,来改善模型的泛化能力。基于图结构的特殊性增加图池化操作,来改善图卷积网络的泛化能力。实验结果表明了池化操作增加了模型的泛化能力,提升了模型检测的准确率。
(4)将本文的图神经网络模型应用到真实的通话数据中去,将通话数据构成通话社交网络,应用两个基于属性特征的方法和两个图神经网络方法与本章提出的方法进行对比,经实验验证发现本方法效果更好。
参考文献(略)

如果您有论文相关需求,可以通过下面的方式联系我们
点击联系客服
QQ 1429724474 电话 18964107217