移动社交网络中用户行为分析和位置预测计算机研究

论文价格:免费 论文用途:其他 编辑:硕博论文网 点击次数:
论文字数:35554 论文编号:sb2020040317252430270 日期:2020-04-06 来源:硕博论文网
本文是一篇计算机论文,本文通过移动社交网络中真实的用户行为历史轨迹数据,通过数据挖掘和深度学习的手段,研究了用户的移动行为、时空特征提取、多特征融合的方法,提出了一种 SSTAN 网络结构并基于它提出了一种 GLP-SSTAN 用户位置预测算法,利用云上的计算平台和上述位置预测算法实现了一个原型系统 NUPT ST-Data Miner。

第一章 绪论

1.1 研究背景和意义
由于 LBSNs 中数据存在 5V 的特点,即 Volume(体量大)、Velocity(速度快)、Variety(模态多)、Veracity(真伪难)和 Value(价值)[2],包含了丰富的多重维度特征,使得我们可以发现群体和个体的移动规律,理解人类的移动行为。其中,时间和空间信息直接反映用户以往的移动行为,从中可以挖掘出用户的行为模式。这种行为模式在一定程度上直接影响着用户下一步的移动行为;社交关系和评论信息则反映了用户偏好,间接影响用户的移动行为倾向。综合以上两方面的因素,在 LBSNs 数据挖掘的过程中,进一步展开用户移动行为分析的研究,分析用户移动行为决策成因;通过对 LBSNs 中异构数据的特征融合方法,对用户的移动行为进行建模和用户位置预测。
随着网络的发展和变迁,当下网络已由虚拟关系的传统网络发展成为数据爆炸式增长的移动社交网络,其中移动用户的位置数据和行为轨迹数据海量式增长的背后,可以挖掘出每个用户的时空特征信息和用户行为规律信息,通过这些信息的深入挖掘和利用,不仅有可能发现个体用户的日常行为规律和群体用户共性的行为特征,甚至还有可能预测出用户的移动行为。针对移动社交网络中的大数据,本文是一种结合了数据挖掘和深度学习的探索性研究,以移动社交网络中海量的用户移动轨迹为数据基础,从中挖掘和分析了人们的移动规律,针对移动社交网络中的大规模数据,采用分布式计算通过机器学习的方法提出并实现了一种高效的位置预测算法。
对比传统的社交网络,当下的 LBSNs 网络不但含有社交关系和评论信息等,还涵盖有用户时空耦合的签到信息数据(Check-in Data)和位置数据(GPS Data),LBSNs 的优势体现在把现实世界的时空特征关联到了虚拟网络,便于用户的特征提取和特征分析。通过对 LBSNs中的大数据进行用户行为分析和位置预测,我们可以揭示“什么人在什么时间去了什么位置做了什么事情”,同时,对广告等媒体和商家等大众的个性化推荐服务而言拥有着重要意义。通过面向用户和面向地理空间的研究,更好地理解用户移动行为,从而改进移动商业市场中与位置相关的服务,能够提高城市规划的管理水平,优化智能交通的设计,个性化的服务推荐和异常行为监测分析。
.....................

1.2 论文的研究内容及创新点
本小节主要论述研究的三个方面的问题及本文的创新点:在大数据背景下,如何高效的对 GPS 轨迹数据进行信息提取,并基于时空聚类的方法对用户行为进行分析;如何通过对没有文本签到信息的轨迹数据进行语义化的信息提取,并结合语义强化和时空特征关注机制构建一个基于循环神经网络结构和位置预测算法;如何设计一个架构合理的原型系统把移动社交网络中的用户行为分析、城市“热区”分布、用户位置实时预测、用户服务推荐等以可视化的形式展示出来,同时,用户使用起来十分方便。本文将从如下的 3 个方面描述我们的工作和创新点: 
(一)  提出了一种停留点语义化的算法和城市“热区”挖掘算法用于分析移动社交网络中的用户行为。本文的用户行为分析主要分为三个步骤:首先,通过停留点提取算法提取每个用户的停留点,一定程度的降低 GPS 精度带来的影响;其次,使用城市“热区”挖掘算法对时空数据做聚类,利用群智慧得到具有代表性的城市“热区”,将代表性的“热区”根据其所属范围内的语义权重进行功能分类;最后,根据不同用户对“热区”内停留点的访问时间和类型进行分析,结合用户移动的一般时空规律和位置之间的关联规则,发现并分析用户对相关地点的用户行为。相对其他工作而言,本文的创新点在于:1、提出了一种过去缺少的停留点语义化算法。2、本文提出了一种改进的城市“热区”挖掘算法,它较过去聚类的效果更好。
(二)  针对移动社交网络中缺乏文本签到信息情况下的位置预测,过去的研究没有考虑时空特征和停留点语义信息之间的特征融合。本文提出了一种基于轨迹大数据分析用户行为的语义强化和时空关注机制特征融合网络 SSTAN(Semantic  Reinforcement  Spatial-Temporal Attention  Networks)和一种基于语义强化和时空特征关注机制移动社交网络中用户位置预测的 算 法 GLP-SSTAN(Geographical  Location  Prediction  Algorithm  Based  On  Semantic Reinforcement and Spatial-Temporal Attention Networks)。特征融合网络 SSTAN 的提出是在改进的双向循环神经网络基础上,结合移动社交网络时空特性和语义特性、天气特征等多源异构特征融合的一种创新。GLP-SSTAN 算法则是在 SSTAN 网络基础上,针对移动社交网络中用户位置预测的一种创新算法。相对其他工作而言,本文的创新点在于:1、提出了一种移动社交网络中的多特征融合网络 SSTAN。2、基于 SSTAN 网络本文提出了一种位置预测算法GLP-SSTAN,它较过去的同类算法预测更准,普适性更好。
............................

第二章 相关背景知识介绍

2.1用户行为分析相关研究
在 LBSNs 数据的用户行为分析方面,GPS 轨迹数据是一种重要的数据源。微软研究院对这类数据分析做出了杰出的贡献,郑宇等[3]对移动社交网络数据挖掘进行了综述,指出了在这个新领域中值得关注的一些研究热点,并介绍了用户行为分析的基本理论;Noulas A.等人[4]曾经发表研究成果,说明了人类活动在全世界各大城市都拥有相似的模式,城市结构与布局的差异并没有明显地影响到人们的活动规律。 
2.1.1 用户行为分析在时间维度的研究现状
时间规律在分析用户的日常行为规律中扮演着非常重要的角色[5]。在 LBSNs 中,用户的时间行为规律反映了用户随着时间的签到等行为。Cheng 和 Malmi 等[6-7]通过实验论证了人类活动并非随机行为,而是具有高度时间和空间规律性的可再现行为。因此,我们可以通过对用户在时间维度上的历史记录进行分析、挖掘并利用这些时间维度的用户行为规律结合群体智慧对用户的位置进行预测和推荐。例如:在午夜,许多用户会去酒吧喝酒,相对而言则少有午夜去图书馆的用户。因此,在午夜时分进行位置预测和位置推荐时,结合用户的偏好和行为规律,我们应当给予酒吧等场所更高的位置预测偏好偏重和推荐优先级。基于对上述研究工作的总结和思考后,发现过去的研究由于模型对时间特征学习能力的制约影响了时间特征的提取,因此本文在第 3.2 节和第 4.2 节着重增加了时间特征提取粒度的工作,以提高模型对时间特征的学习能力。
2.1.2 用户行为分析在空间维度的研究现状
空间维度的特征提取和分析在移动社交网络用户行为分析中扮演着举足轻重的角色,近年来的研究也越来越凸显其重要性。Lee I.等人[8]借助聚类算法和关联规则挖掘算法,找到了用户感兴趣的各个地点之间的关联模式;Lorenzo 等[9]通过聚类、概率模型和序列模式挖掘等方法,发现了用户的移动行为中存在聚集现象和区域特征。Renso 等人[10]基于归纳推理发现运动模式和基于演绎推理为用户行为建模。Chen 等人[11]提出将大的热点区域分成若干子区域和一种基于双向概率的扩展算法,实现了候选轨迹线路的自动生成;  Wei L. Y.等 [12]  提出了基于集体知识的路线推测框架对出行计划、动物行为研究、交通流分析等应用的理论基础。Bermingham[13]通过挖掘大量的带有地理标记的照片数据,发现了兴趣点的对应区域,提出了移动序列行为的模型框架。在基于对上述研究工作的总结和思考后,发现过去的工作往往采用传统机器学习方法对空间序列特征进行训练学习,但考虑到神经网络对空间序列数据预测的高适用性和移动社交网络的多领域特征后本文在第 4.2 节采用了一种改进的神经网络,以提高模型对空间序列特征的学习能力。
.....................

2.2 用户位置预测相关研究
在 LBSNs 数据的位置预测建模方面,用户移动位置预测是一个重要的研究方向,以微软亚洲研究院为例,该团队一直在移动轨迹挖掘领域的前沿开展研究[14],根据给定的查询位置序列和修剪的搜索空间,提出了计算最小匹配距离和最小顺序敏感匹配距离的移动位置预测算法。微软亚洲研究院[15]通过分析最近的稀疏历史数据,实现了在一条路径上运动时间的估计。Moreira-Matias[16]提出了基于历史时间序列的位置预测方法,提高了出租车司机的智能管理;Yu, Z 等描述了路线打包推荐算法和轨迹预测等应用[3]。Trasarti 等人利用个人信息资料对移动行为建模,提出一种用户位置预测的算法[17]。Yoon 等人[18]通过学习已有多个用户行为,生成具有经验性的数字轨迹,如居民和旅行专家的 GPS 轨迹,从而得到一个预测出的行程;Yu[19]在文中介绍了 JG T- Pattern 挖掘方法。中科院 Liu 等提出了一种可以融合社交网络和移动轨迹的新型融合神经网络模型[20];南加州大学 Bahadori 则为位置预测提供了一种时空序列嵌入级模型[21]。
2.2.1模式匹配位置预测
移动模式挖掘技术是寻找并结合当下和历史数据进行预测的一种预测方案。位置预测需要高度关注用户的偏好和意图,因此推荐算法也常常根据用户访问的最有兴趣的地方进行推荐。Jeung[22]通过预定义的意图功能模型,结合线性或者是非线性的模型提取出移动的模式,进行了将来的位置预测。Giannotti[23]  根据位置序列和生成的时空模式预测出旅游时长。Li提出了两类轨迹模式:时间规律性行为模式和群体模式[24]。通过从原始的轨迹数据中提取出经常访问的区域,存在多种模型进行预测。Lathia[25]提出了一种时间敏感的邻近关注模型,
对最近访问的位置进行强关注,并逐步减少对时间间隔越来越远的位置关注。Mathew[26]提出了一种复合的隐马尔科夫模型(HMM),利用轨迹数据经聚类转换成模式数据,并利用该 HMM模型去训练转化后的模式数据。过去的模式匹配位置预测研究往往采用传统或改进的马尔科夫模型进行序列化的位置预测,而本文采用了一种改进的神经网络进行位置预测并在 6.4 节中与传统的马尔科夫模型进行了比较。
..............................

第三章 移动社交网络中的用户行为分析......................................... 9
3.1用户的空间分布特征分析与提取 ................................... 9
3.2用户的时间规律特征分析与提取 ................................... 10
第四章 移动社交网络中的位置预测算法................................... 19
4.1SSTAN 网络结构 ............................................... 19
4.1.1  语义信息提取和强化 ............................... 20
4.1.2  关注机制的引入和运用 .................................... 20
第五章 验证实验及原型系统...................................... 30
5.1实验配置 .......................................... 30
5.1.1  实验数据集简介 ........................................... 30
5.1.2  实验平台介绍 .................................. 32

第五章 验证实验及原型系统

5.1实验配置
5.1.1 实验数据集简介
本课题所用的数据是从基于微软亚洲研究院的真实 GPS 轨迹,包含 182 个用户超过 5 年的时间(2007 年 5 月到 2012 年 8 月)所积累的数据,命名为 Geo-life,一条 GPS 轨迹代表着一段带有时间戳的坐标序列,数据集内的数据格式如图 5.1 Geo-life 数据展示和分布(a)所示,其中包含用户号、经度、维度、日期、时间等信息,并且每 5 秒记录一个点,数据集的整体大小为 1.56GB。尽管数据集覆盖了的空间范围涵盖了全球,其中包含有中国的多个省市和欧美的部分城市。但数据集的大部分轨迹数据依然分布于北京及其周边,由图 5.1 Geo-life 数据展示和分布的子图(b)热力图可知,五环范围的亮度高表明其轨迹密集,且由于在空间特征上本文采用了 Bi-LSTM 双向长短神经网络,需要不断训练停留点之间的上下文信息,轨迹筛选的过程中本文选取北京的中心(故宫附近)以北京到天津的距离为半径的参考划分出北京范围内的轨迹数据以供后续的特征提取使用。
图 5.1   Geo-life 数据展示和分布
................................

第六章 总结与展望

6.1研究工作总结 本文通过移动社交网络中真实的用户行为历史轨迹数据,通过数据挖掘和深度学习的手段,研究了用户的移动行为、时空特征提取、多特征融合的方法,提出了一种 SSTAN 网络结构并基于它提出了一种 GLP-SSTAN 用户位置预测算法,利用云上的计算平台和上述位置预测算法实现了一个原型系统 NUPT ST-Data Miner。
用户在移动社交网络中的移动行为过程中呈现的是从一个<位置,时间>到另一个<位置,时间>序列的状态模式,由于不同用户会呈现出其个性化的轨迹序列模式,同时现有研究很少在课题中考虑到语义和天气等特征及其融合后用神经网络进行预测。针对该问题,本文提出了基于聚类的“热区”挖掘算法,该算法通过预处理数据的方法对原始数据进行筛选和停留点提取,找到具有语义的用户停留位置,然后通过聚类算法挖掘出该城市的“热区”,最后通过特征工程提取出用户的移动行为特征送入本文提出的 SSTAN 网络结果进行训练,得到一个基于上述网络的位置预测模型 GLP-SSTAN,它可以对用户进行位置预测等服务。本文的工作和贡献在对比之前工作的基础上有如下几方面:
(1)首先,本文提出了一种新的“热区”挖掘算法,基于聚类过程中会出现过于庞大无法体现一个大分类下内部各个特性的情况,不利于很好的体现城市“热区”的合理性,因此,本文提出了一种改进的城市“热区”挖掘算法。这种挖掘算法经过 6.3 章小节的评价实验表明,进一步提高了“热区”挖掘的合理性,更好的为移动社交网络中的位置预测提供了特征基础。 
(2)其次,论文提出了一种语义强化和时空关注机制的网络结构 SSTAN 和基于该网络结构的位置预测算法 GLP-SSTAN。该 SSTAN 网络结构的构成由以下几方面构成:对时空特征采用基于双向长短神经网络 Bi-LSTM 的双向循环神经网络进行处理;对语义特征使用神经网络学习多维度的语义相关特征对用户的下一个位置进行预测;同时关注天气特征对于人群移动的影响,放入融合模型中进行特征学习与训练,它们最终构成了 SSTAN 网络结构。基于这种 SSTAN 网络结构本文通过训练得到 GLP-SSTAN 位置预测模型,通过实验对比的结果,表明模型在用户位置预测的准确率,召回率,TOP-3 预测准确率上都拥有很好的表现。
参考文献(略)

如果您有论文相关需求,可以通过下面的方式联系我们
点击联系客服
QQ 1429724474 电话 18964107217