基于差分隐私的轨迹数据保护方法探讨

论文价格:150元/篇 论文用途:硕士毕业论文 Master Thesis 编辑:硕博论文网 点击次数:
论文字数:35666 论文编号:sb2022010920301342565 日期:2022-01-21 来源:硕博论文网
本文是一篇计算机论文,本文的主要工作如下:(1)以往的大量研究成果虽然可以很好的保护轨迹数据的隐私信息,但是却降低了数据的可用性,针对这一问题,给出一种新的轨迹数据隐私保护方法FCMBTDPP算法,该方法不仅能够保护轨迹数据的隐私信息,还可以保证轨迹数据具有良好的可用性。这是由于FCMBTDPP方法首先选择了轨迹数据中停留时间较长的位置点即停留点,对于剩余的其他位置点进行模糊C均值聚类,选择出聚类中心,然后再对停留点和聚类中心添加噪声。

1 绪论

1.1 研究背景及意义
近些年来,随着移动互联网和智能穿戴设备的飞快发展,各种各样的信息、数据充斥着人们的生活,基于位置的服务(Location-Based Services, LBS) [1,2]也使得人们的生活变得越来越便捷。为了得到自己的实时位置信息,人们可以在移动智能设备上安装提供LBS服务的应用程序,然后通过将自己的位置信息发送给第三方服务提供商(即具有LBS功能的服务提供商),由服务器将相应的服务(例如查询附近的餐馆)返回给移动对象,大量的轨迹数据信息也随之产生。轨迹数据中通常都会包含许多用户的个人敏感信息,通过对轨迹数据进行分析和研究,可以解决许多问题,例如检测道路拥堵情况进行合理规划路段、挖掘热点地区分析客流量、对人口密度进行查询了解居民生活模式等等。与此同时,轨迹数据信息中也存在着巨大的安全隐患问题,攻击者通过所了解到的背景知识对已经发布的轨迹数据进行分析和研究,可以推断出用户的真实身份,从而会对用户的个人隐私信息有一定程度的泄露,例如家庭住址、工作单位、政治观点、宗教信仰以及身体状况等,更严重的可能会危害到用户的人身安全。例如,2020年4月,青岛某医院泄露六千余名患者信息,该信息涉及就诊人员的个人信息,对他们的个人生活造成了极其严重的影响,更甚者被谣传感染了新冠肺炎。2019年2月,中国某公司的数据库没有设置任何访问限制,在互联网上完全公开,导致250万余人的人脸数据泄露,其中包括个人的详细信息,对用户的安全造成了极大的影响。不仅在国内,国外也有许多数据泄漏事件发生,例如,2019年10月,美国某数据公司的数据库被暴露,其中近12亿的个人敏感信息被泄露。2019年5月,印度某公司的服务器未做任何保护限制,导致大约2.75亿的公民个人详细信息被泄露。由此可见,虽然LBS能给我们带来更便利的生活,但是轨迹数据信息直接公开后,移动对象的个人安全问题也会受到影响,所以,轨迹数据的隐私保护问题越来越受到国内外研究人员的关注。
为了有效地保护用户的个人隐私信息,可以对轨迹数据添加噪声来保护隐私信息。在传统的轨迹数据保护隐私信息的方法中最常用的一种技术是k-匿名技术[3]。虽然该方法在一定程度上已经能够保护和处理用户的轨迹数据信息,但是仍然具有以下的一些缺点[4]:
(1)使用k-匿名模型对其进行隐私信息保护,隐私信息的保护效果会比较容易受到数据分布的影响,如果数据的分布太过稀疏,那么数据隐私被保护后,可用性就会迅速降低;.
(2)利用k-匿名模型对轨迹数据隐私信息进行保护时,需要了解到攻击者具备什么样的背景知识,然后根据所了解的设计出相应的隐私保护算法,如果不能够确定攻击者已经了解到的背景知识,那么就不能够保证可以保护数据的隐私信息。
.........................

1.2 国内外研究现状
在之前的研究中,轨迹数据隐私保护方法使用的技术主要包括:假数据法[6],通过实现对原始轨迹数据的干扰添加一定的假轨迹数据到原始轨迹中,确保即使原始轨迹数据发生了干扰,其结果也不会出现太大的数据失真;抑制法[7],通过对真实位置的敏感程度或者是否频繁访问来有选择的发布轨迹数据;泛化法[8],通过对轨迹数据中每个时刻的真实位置进行泛化,得到匿名区域,以此来保护轨迹数据隐私。
近些年来,随着越来越多的国内外学者对轨迹数据的隐私保护问题进行研究,因此越来越多的研究成果被发表出来。霍峥[9]和胡兆玮[10]等人通过对现有的一些轨迹隐私保护方法进行综述,总结了一些极具特点的方法,并且对现今的轨迹隐私保护方法的一些不足之处进行说明,指出将来的轨迹数据隐私保护研究的方向。
Chen等人[11]最早使用差分隐私将符合拉普拉斯分布的随机噪声添加到真实支持度计数中来保护轨迹数据,并构造前缀序列树。Chen等人[12]针对轨迹序列纬度影响数据挖掘的结果的问题,使用N-Gram算法来控制轨迹序列的最大长度。霍峥等人[4]首先提出两种攻击模型:第一种是稀疏位置攻击,第二种是最大运行速度攻击,其次,提出两种保护轨迹数据的发布方法:一是构造噪声四分树,二是构造噪声R-树,通过对移动对象计数值添加满足拉普拉斯分布的随机噪声来保护轨迹数据。Zhao等人[13]通过使用差分隐私技术,提出基于R-树的序列R(SR)-树结构,首先使用轨迹序列来替代R-树的最小包围矩形来构造SR-树,然后利用差分隐私在轨迹序列的位置数据以及非位置敏感数据中加入噪声保护轨迹数据的隐私。Zhao等人[14]提出一种新的轨迹隐私保护方法,该方法通过使用前缀树结构,利用树的节点存储轨迹段,将拉普拉斯噪声添加到轨迹段的位置数据中,并使用马尔可夫链来限制添加到数据中的噪声的大小。Fatemeh Deldar等人[15]提出了轨迹数据库的个性化位置差分隐私(PLDP)概念,并设计了一种称为PLDP- TD的差分隐私算法来实现,PLDP-TD利用个性化噪声轨迹树,以差分隐私方式回答统计查询,提出了一种新的隐私级别分配策略和个人隐私预算分配策略。
.................................

2 相关理论和背景知识

2.1 轨迹数据隐私保护模型
轨迹数据隐私是一种比较特殊的个人隐私[66],它通常是指移动对象自身的轨迹序列中所包含的个人敏感信息或攻击者由轨迹数据中推断出来的其他个人隐私信息。因此,在保护移动对象的轨迹数据时,不仅要重点保护移动对象自己的敏感信息,而且要确保攻击者不能根据所了解到的背景知识推断出移动对象其他关联的敏感信息。
2.1.1 基于假数据的轨迹数据隐私保护
基于假数据的轨迹数据隐私保护方法是指为了不使将要发布的轨迹数据的一些统计特性丢失,通过向将要发布的原始轨迹中加入一定量的虚假的位置进行扰动,以此保护轨迹隐私。该方法的实现比较简单,而且效果显著,不过利用添加假数据的方法向服务器请求服务,轨迹数据的精度会比较容易受到限制。虽然基于假数据的方法的实现过程不需要进行太过复杂的处理,但是由于需要一直向轨迹数据库中添加假的轨迹数据,所以将会导致轨迹数据库中的数据量过大,从而占用大量的数据库存储空间,那么数据库存储空间的利用率会有一定程度的下降,轨迹数据的可用性也会随之下降。
You等人[37]提出了两种能够产生假轨迹的方案:第一种是随机生成法,将基准点设为移动对象轨迹的起点和终点,根据真实轨迹的运行模式,随机产生假轨迹;第二种是旋转生成法,将轴点设为真实轨迹中随机选择的位置点,通过旋转真实轨迹得到假轨迹。雷凯跃等人[38]把轨迹作为无向图,利用每个位置点的出度和入度以及时间可达性来辨别假轨迹,说明现在使用的假轨迹法具有缺点,针对这一问题,提出了一种新的可以产生假轨迹的方法。Dai Jiazhu等人[39]提出了一种新的轨迹隐私保护方法,该方法根据分割假轨迹的道路网络,首先通过为真实轨迹在不同时间下的采样位置点生成假轨迹,然后生成基于不同的时间间隔划分的分段假轨迹,生成的分段假轨迹必须满足隐私要求,再根据时间的先后顺序,将其连接起来,生成完整的假轨迹,该方法能够保证道路网络和轨迹的L-多样性。刘向宇和陈金梅等人[40]首先设计了一种能够将真实轨迹和敏感的位置点都隐藏的启发式规则,该规则主要被用来生成假轨迹序列,然后提出了一种优化策略,该策略主要使用轨迹有向图和基于网格对地图进行划分的方法,提高了算法的执行效率。
............................

2.2 差分隐私
差分隐私保护是一种基于数据扰动的隐私保护模型[5]。其基本思想是向原始数据中添加符合特定分布的随机噪声,使得添加随机噪声后的数据仍然具有可用性,进而实现对移动对象轨迹数据的保护。与其他的隐私保护方法相比,差分隐私具有严谨的数学模型,是公认的最严谨的隐私保护机制。差分隐私模型不关心背景知识与其他先验知识,因此,即使攻击者具备足够多的背景知识,差分隐私也可以很好的保护移动对象的隐私信息,降低隐私泄露的风险。另外,不论数据集中的数据量多少,都可以使用差分隐私添加随机噪声保护数据,因此,差分隐私可以保护不同规模的数据集。
图 2-1 描绘的是在邻近数据集上添加满足差分隐私的随机噪声后数据隐私被泄露的概率曲线。随机算法 M 作用在任何两个相邻数据集上,输出结果相同的概率比控制在e范围内,隐私预算参数 反映了随机算法 M 提供的满足差分隐私的保护强度。隐私参数越大,隐私保护强度越低,隐私参数 越小,隐私保护强度越高,但当添加的噪声越大时,将有可能造成数据的偏移量过大,数据的失真严重,从而会降低数据的可用性。
计算机论文怎么写
计算机论文怎么写
.............................

3 基于模糊 C-均值聚类的轨迹差分隐私保护方法......................................... 15
3.1 问题提出................................................ 15
3.2 基于模糊 C-均值聚类的轨迹差分隐私保护方法............................. 16
4 基于位置距离的轨迹数据差分隐私保护方法.................................. 27
4.1 问题提出............................................ 27
4.2 基于位置距离的轨迹数据差分隐私保护方法..................................... 28
5 总结与展望.......................................... 45
5.1 本文总结..................................... 45
5.2 研究展望............................... 45

4 基于位置距离的轨迹数据差分隐私保护方法

4.1 问题提出
在移动对象与服务器进行交互的场景中,移动用户通常是向服务端提供自己的实时位置来获取相应的服务信息。但是在上传位置数据到服务器的过程中,如果对位置数据不添加任何保护,那么移动对象的位置信息就会被公开,造成隐私泄露。移动对象和服务端的交互过程如下:假设移动对象的位置信息是一条由n 个位置数据组成的轨迹序列。首先,移动对象将自己的第一个位置信息1L 上传到服务端,服务端根据该位置计算出相应的服务信息,然后将结果返回给移动对象,用户接收到该结果后,会继续上传第二个位置信息2L 给服务端,服务端将继续根据移动对象的第二个位置信息计算出相应的服务结果,并将结果返回给移动对象,以此类推,直到移动对象的所有位置信息全部上传至服务端并获取到相应的服务信息,此时,移动对象和服务端之间的数据交互过程结束。
在这个交互过程中,如果移动对象直接上传自己的真实位置,由于服务端是不受信任的第三方,数据上传到服务端之后就是公开的,因此在此过程中,会严重的泄露移动对象的隐私信息。Andrés等人[30]提出了地理不可区分性的概念,通过基于地理不可区分性的平面拉普拉斯机制保护轨迹数据的隐私信息。朱马克[63]基于地理不可区分性,提出了预测测试机制,即PTM机制,该机制首先使用地理不可区分性机制对轨迹数据添加隐私保护,然后根据提出的预测测试机制判断下一个上传至服务器的位置点即预测点,判断与根据地理不可区分性机制生成的位置点之间的距离,满足设定的条件便将预测点上传至服务器,否则将根据地理不可区分性机制生成的轨迹位置点上传至服务器获取相应的服务信息。但是,若移动对象与服务器交互的过程中,轨迹数据中位置点不确定或过多,相应的隐私预算也会随着位置点的增加而不断累加,造成添加的噪声过小,隐私保护程度下降。针对这个问题,提出了一个新的轨迹数据差分隐私保护方法:基于位置距离的轨迹数据差分隐私保护方法(Trajectory Differential Privacy Preserving based on Location Distance, TDPPLD),在上传轨迹数据之前,通过判断当前真实位置与前一个真实位置之间的距离,选择将要上传至服务端的位置点,然后对该位置点添加随机噪声后再上传至服务端获取相应的服务,用来保护移动对象的隐私信息。
计算机论文参考
计算机论文参考
.............................

5 总结与展望

5.1 本文总结
随着大量用户的个人轨迹数据被第三方服务商收集到轨迹数据库中,越来越多的轨迹数据被发布出来,对轨迹数据进行分析和研究后,社会中的各个部门可以得到自己想要的信息从而进行相应的研究。但是由于轨迹数据中包括许多移动对象的个人隐私信息,假如对轨迹数据不做任何保护措施就直接发布,移动对象的个人隐私信息会被泄露,更甚者会威胁移动对象的自身安全。因此,在直接公布轨迹数据时,就必须要先保护移动对象的个人隐私信息。所以,如何在不泄露移动对象的个人隐私信息的同时使用轨迹数据,得到了国内外学者的广泛关注。本文对现有的轨迹数据隐私保护继续研究,对影响数据可用性的主要因素进行分析,提出了新的轨迹数据隐私保护的方法,本文的主要工作如下:
(1)以往的大量研究成果虽然可以很好的保护轨迹数据的隐私信息,但是却降低了数据的可用性,针对这一问题,给出一种新的轨迹数据隐私保护方法FCMBTDPP算法,该方法不仅能够保护轨迹数据的隐私信息,还可以保证轨迹数据具有良好的可用性。这是由于FCMBTDPP方法首先选择了轨迹数据中停留时间较长的位置点即停留点,对于剩余的其他位置点进行模糊C均值聚类,选择出聚类中心,然后再对停留点和聚类中心添加噪声。这种通过比较轨迹数据中位置点的重要性选择部分位置点添加噪声的方法,不仅可以保护轨迹数据的隐私信息,而且还在一定程度上提高了数据的可用性。最后通过在真实数据集上进行实验验证,与interestArea方法和CNoise方法分别进行对比,证明了FCMBTDPP方法不仅保护轨迹数据的隐私信息,而且能够提升数据的可用性。
(2)在移动对象与服务器进行实时交互的场景中,移动对象不断将自身的位置上传至服务器请求服务,服务提供商通过移动对象上传的位置数据得出相应的结果并返回给移动对象。但是在移动对象将位置数据上传到服务器之前对位置数据进行隐私保护时,隐私预算会随着位置点个数的增加而不断累加,造成添加的噪声过小,隐私保护强度降低。针对这个问题,提出了一种可以应用于无限个位置点的基于位置距离的轨迹数据差分隐私保护方法TDPPLD算法,该方法可以同时适用于静止、低速运行、高速运行三种应用场景,并且可以保护轨迹数据的隐私信息,提高数据的可用性。最后在两个真实数据集:Geolife数据集(低速运行场景)和T-drive数据集(高速运行场景)进行实验验证,证明了本方法的准确性。
参考文献(略)

如果您有论文相关需求,可以通过下面的方式联系我们
点击联系客服
QQ 1429724474 电话 18964107217