第 1 章 绪论
1.1 研究的背景、意义及目的
近些年来,云计算[1]技术在政府、商业、医疗、国防以及军事领域得到了广泛使用。云计算由于具有分布式计算和存储的特点,从而可以实现对业务的负荷分担,同时利用资源共享技术和分时共享技术,提高了资源的利用率。随着各行各业对云计算日益增长的需求,国内外各大 IT 公司从多种角度出发,利用多种形式的云技术建立了云计算平台,为客户提供了云部署及管理应用所需的基于云环境下的开发和应用场景,不仅包含基础设施服务,还能够为提供用户一个开源软件与硬件相结合的应用程序开发平台和大数据存储数据中心。目前,国内外主流的云计算开发平台主要有:微软的 Windows Azure、Google App Engine、Red Hat OpenShift、Baidu App Engine、Aliyun Cloud Engine 以及 Sina App Engine 等。
云计算作为新一代的 IT 模式,在后端规模庞大、高自动化和高可靠性的云计算中心的支持下,主要具有如下三个特点:
1.它可以根据用户当前对资源的需求量,按需将资源分配给用户,实现资源的弹性提供,而用户也可以根据自身的需求,在云中选择合适自己的资源类型,
1.它可以根据用户当前对资源的需求量,按需将资源分配给用户,实现资源的弹性提供,而用户也可以根据自身的需求,在云中选择合适自己的资源类型,
做到提高效率,避免资源的浪费。
2.云计算作为一种资源,不仅具有快速的纵向扩展与横向扩展能力,而且在存储和处理数据方面,云计算将资源以整合的形式提供给用户,有效的避免了资源的重复计算与重复存储。
3.对用户而言,用户不需要考虑底层硬件的复杂性和网络协议的多样性,只需根据资源消耗量,通过按需付费、按需配置硬件和应用程序的方式,便可以享受云计算服务提供的极强的计算能力和规模化的存储空间。
与传统网络服务相比,正是由于云计算具有这样鲜明的特点,越来越多的企业用户,个人用户将服务和数据迁移到云平台上。
...........................
第 3 章 差分隐私模型中隐私参数ε的选取..................... 232.云计算作为一种资源,不仅具有快速的纵向扩展与横向扩展能力,而且在存储和处理数据方面,云计算将资源以整合的形式提供给用户,有效的避免了资源的重复计算与重复存储。
3.对用户而言,用户不需要考虑底层硬件的复杂性和网络协议的多样性,只需根据资源消耗量,通过按需付费、按需配置硬件和应用程序的方式,便可以享受云计算服务提供的极强的计算能力和规模化的存储空间。
与传统网络服务相比,正是由于云计算具有这样鲜明的特点,越来越多的企业用户,个人用户将服务和数据迁移到云平台上。
...........................
1.2 相关研究工作
云计算环境下的数据安全与隐私保护是衡量云计算、大数据产业发展的重要条件。没有网络的安全就没有数据的安全,没有数据的安全就没有信息的安全,没有信息的安全就没有云服务的安全。因此,本节分别从云计算安全的国内外研究现状,隐私保护技术的国内外研究现状以及数据发布的隐私保护的国内外研究现状三个方面进行了研究。
1.2.1 云计算安全国内外研究现状
云计算环境下的数据安全与隐私保护是衡量云计算、大数据产业发展的重要条件。没有网络的安全就没有数据的安全,没有数据的安全就没有信息的安全,没有信息的安全就没有云服务的安全。因此,本节分别从云计算安全的国内外研究现状,隐私保护技术的国内外研究现状以及数据发布的隐私保护的国内外研究现状三个方面进行了研究。
1.2.1 云计算安全国内外研究现状
云计算服务除了提供计算服务之外,还提供了一项重要的服务—存储服务。而用户自身在使用云计算平台的同时,平台也在记录并存储了用户自身相关的数据。并且当前的云计算服务大多数由私人企业(机构)所垄断,而这些企业、机构为用户提供的仅仅是商业信用,这样,用户的数据不可避免的处在一种不可控状态之下,用户的数据可能被云端服务器盗用以牟取其他的利益,用户的隐私也被暴露给云端服务器,以至于用户的数据以及隐私极有可能被泄露,尤其类似于政府机构、银行机构等持有较多敏感数据的商业机构。
近年来,由于技术缺陷以及服务商提供的云计算服务不完善导致云事故的频频发生。例如 2016 年 10 月,互联网性能管理公司 Dyn 的服务器基础设施遭到网络攻击,导致包括 AWS 在内的多家云服务提供商及依赖于 Dyn 流量管理和优化服务的流行网站出现中断或者其他问题;2017 年 2 月,由于技术原因,云安全服务商 Cloudflare 将服务器内存里的部分内容缓存在网页上,导致包含用户私密信息可被随机分发以及被搜索引擎抓取;同年 6 月,美国大规模选民信息泄露事件导致大约 2 亿美国选民的个人信息遭到泄露,其原因是由于选民信息被存放在了一个错误配置的公共云服务器数据库中,该数据库可以被任何人访问。如此种种用户隐私数据泄露事故,也使得民众更加担忧使用云计算服务出现的各种安全问题。从国内 2018 年—2024 年中国云计算市场竞争现状及市场前景预测报告[6]中也可以看到,64%的用户从安全性的角度出发选择云模式。云安全联盟(Cloud SecurityAlliance)于 2017 年发布的最新版本的《12 大顶级云安全威胁:行业见解报告》[7]中,有八项威胁都与数据有关,按照调查结果的严重程度,数据泄露威胁位列报告之首。
...............................

根据 RightScale 公司 2017 年 1 月份对全球云计算市场 1000 多个企业用户调查分析报告[5]显示:95%被调查的企业正在运行应用程序,或者正在试验性地使用基础架构即服务(IaaS),使用多云策略的企业的百分比从 2016 年的 82%增长到 85%。图 2.1 展示了近 4 年来云计算服务在企业中的使用情况,从图中可以看到,各企业对云接受的程度始终保持在 95%左右,从 2015 年至 2016 年,私有云的使用率从63%上升到 77%,这使得混合云的使用从 58%同比上升到 71%,2017 年私有云使用率虽然有所下降,但整体所占比例仍和 2016 年持平。由此可见,云计算的不断发展使得更多的企业用户认识到云计算带来的便利,从而将其本地服务、数据迁移到虚拟云端。
...............................
第 2 章 相关概念及相关技术
2.1 云计算的概念
中国电子学会云计算专家委员会对云计算定义[4],云计算是一种基于互联网的大众参与的计算模式,其计算资源(含计算能力、存储能力和交互能力等)是动态、可伸缩、被虚拟化的,以服务的方式提供,可以方便的实现分享和交互,并形成群体智能。根据云计算的应用模式,将其划分为三类:①基础架构即服务(IaaS,Infrastructure as a Service),为用户提供包含虚拟机租用、云盘、网络、计算、存储、机房、环境等基础服务;②平台即服务(PaaS,Platform as a Service),为技术开发者提供应用服务器、应用框架、编程语言等服务;③软件即服务(SaaS,Software as a Service),为终端用户提供各种在线软件服务。而从云计算的部署模式划分,则可以将其分为私有云(Private Cloud)、公有云(Public Cloud)、混合云(Hybrid Cloud)以及社区云(Community Cloud)四种模式。
2.1 云计算的概念
中国电子学会云计算专家委员会对云计算定义[4],云计算是一种基于互联网的大众参与的计算模式,其计算资源(含计算能力、存储能力和交互能力等)是动态、可伸缩、被虚拟化的,以服务的方式提供,可以方便的实现分享和交互,并形成群体智能。根据云计算的应用模式,将其划分为三类:①基础架构即服务(IaaS,Infrastructure as a Service),为用户提供包含虚拟机租用、云盘、网络、计算、存储、机房、环境等基础服务;②平台即服务(PaaS,Platform as a Service),为技术开发者提供应用服务器、应用框架、编程语言等服务;③软件即服务(SaaS,Software as a Service),为终端用户提供各种在线软件服务。而从云计算的部署模式划分,则可以将其分为私有云(Private Cloud)、公有云(Public Cloud)、混合云(Hybrid Cloud)以及社区云(Community Cloud)四种模式。

根据 RightScale 公司 2017 年 1 月份对全球云计算市场 1000 多个企业用户调查分析报告[5]显示:95%被调查的企业正在运行应用程序,或者正在试验性地使用基础架构即服务(IaaS),使用多云策略的企业的百分比从 2016 年的 82%增长到 85%。图 2.1 展示了近 4 年来云计算服务在企业中的使用情况,从图中可以看到,各企业对云接受的程度始终保持在 95%左右,从 2015 年至 2016 年,私有云的使用率从63%上升到 77%,这使得混合云的使用从 58%同比上升到 71%,2017 年私有云使用率虽然有所下降,但整体所占比例仍和 2016 年持平。由此可见,云计算的不断发展使得更多的企业用户认识到云计算带来的便利,从而将其本地服务、数据迁移到虚拟云端。
...............................
2.2 云计算数据发布的隐私保护
随着云计算和大数据的不断发展,云上大数据也成为了许多 IT 公司关注的重点。通常云数据中心会收集和存储大量的用户数据信息,后交由给第三方对这些数据进行分析,从而得到一些有价值的信息,为公众服务。另外,一些数据中心还会把收集到的数据提供给研究者研究使用。例如发布人口普查数据可以间接了解一个地区的经济状况,地理状况甚至文化;发布临床数据可以为医学研究提供有利支撑。然而,在云中存储的数据中包含了用户大量的敏感信息,若不对这些数据进行预处理会导致用户的个人隐私产生无法挽回的损失。由于云计算数据中心存储了大量的用户数据、存储业务,无论是云服务提供商、第三方还是用户自身对数据进行发布处理,或其他涉及到数据隐私的操作时,由于隐私对数据拥有者具有十分的重要性,因此,在对数据进行发布之前需要对数据进行一定的处理,以确保数据的隐私信息不被泄露。
随着云计算和大数据的不断发展,云上大数据也成为了许多 IT 公司关注的重点。通常云数据中心会收集和存储大量的用户数据信息,后交由给第三方对这些数据进行分析,从而得到一些有价值的信息,为公众服务。另外,一些数据中心还会把收集到的数据提供给研究者研究使用。例如发布人口普查数据可以间接了解一个地区的经济状况,地理状况甚至文化;发布临床数据可以为医学研究提供有利支撑。然而,在云中存储的数据中包含了用户大量的敏感信息,若不对这些数据进行预处理会导致用户的个人隐私产生无法挽回的损失。由于云计算数据中心存储了大量的用户数据、存储业务,无论是云服务提供商、第三方还是用户自身对数据进行发布处理,或其他涉及到数据隐私的操作时,由于隐私对数据拥有者具有十分的重要性,因此,在对数据进行发布之前需要对数据进行一定的处理,以确保数据的隐私信息不被泄露。
2.2.1 隐私信息
在实际应用当中,为不失一般性,可认为关系 R 上每一个隐私元组唯一对应一个用户记录。如表 2.1 所示,是一张关系表 R(Name,ID code,Sex,Salary,Disease),ID code={A1,A2,…An}能够唯一确定一条用户记录,为显示标识属性 Q;敏感属性 S分别是 Salary,Disease。

...........................

...........................
3.1 隐私参数ε的相关研究.................................... 23
3.2 隐私模型分析................................24
3.3 攻击模型..................................26
第 4 章 满足差分隐私的云计算数据发布算法.....................................33
4.1 差分隐私直方图发布相关内容..............................33
4.2 基础算法..............................34
第 5 章 实验设计与结果分析...................45
5.1 实验环境......................................45
5.1.1 实验平台..................................45
5.1.2 实验数据.....................................45
第 5 章 实验设计与结果分析
5.1 实验环境
为了方便读者对实验结果有更清晰的认识,下面将从实验平台、实验数据、实验方案三个方面介绍相关的实验环境。
5.1.1 实验平台
如表 5.1 所示为实验平台的相关配置信息。

5.1.2 实验数据
本章实验采用两类真实数据集,第一类数据集来自于通过结合谷歌趋势数据及美国在线公司记录的用户搜索日志得到的数据集 Search Logs,该数据集一共包含了 32768 条记录,每一条记录保存了从 2004 年 1 月 1 日到 2009 年 8 月 9 日期间,以 90 分钟为时间间隔,用户对关键字‘奥巴马’的搜索次数,这个数值介于 1到 496 之间。假设用户是否搜索关键字‘奥巴马’是隐私信息,那么该记录集上运用差分隐私保护机制的目标是,任何攻击者都不能推测出某一用户是否在特定时间内对关键词‘奥巴马’进行了搜索;
.....................
第 6 章 总结与展望
6.1 总结
在老师的指导以及同学们的帮助下,我们通过对云计算中的差分隐私模型进行详细分析与研究,并结合相关差分隐私直方图发布算法优秀研究成果,总结出以下几点研究成果:
1.对差分隐私模型拉普拉斯实现机制进行了研究,首先利用添加满足拉普拉斯噪音的概率密度函数与概率分布函数的特点,将其转换为函数图像模型,然后对概率分布函数中噪音值在图像上分布的区间概率范围进行划分,提出了三种类型的噪音值选取区间,最后利用公式推导得出差分隐私模型中隐私参数ε在三类不同选取区间下的定量表达式。
2.通过分析 Boost 算法,在直方图发布数据的过程中,提出将给定直方图转换为一种新的树形结构(类似于线段树模型)。然后对树中的节点权值添加满足拉普拉斯的噪音值进行扰动,最后基于最优线性无偏估计对节点权值进行优化,目的是在根节点与叶子节点之间建立满足一致性约束条件的关系,并通过实验验证了我们提出算法的有效性,在区间计数查询下,查询误差相比于对比算法,得到了明显降低,并且在算法运行效率上也有所提升。
参考文献(略)