基于区块链的多方可验证隐私保护记录链接机制计算机研究

论文价格:免费 论文用途:其他 编辑:硕博论文网 点击次数:
论文字数:35852 论文编号:sb2020051809333131094 日期:2020-05-22 来源:硕博论文网
本文是一篇计算机论文研究,本文提出的基于区块链的多方可验证隐私保护记录链接方案,在不泄露数据源敏感数据的情况下,能够安全以及高效的完成数据匹配的任务。本文首先提出基于区块链的多方可验证隐私保护记录链接方案能够高效的从多个数据源中识别来自同一实体的所有记录信息。该方案能抵抗频率攻击,使得攻击者难以推断出源明文信息。此外,由于单个数据源的数据记录信息可能会被攻击者利用差分攻击得到,在基础方案之上引入差分隐私技术保障数据源之间存在的半可信问题。同时利用功能加密技术,提出一种指定链接者模型从而实现链接者对隐私信息处理的权限不同。与现有的大部分方案相比,本文提出的方案不仅能抵抗频率攻击,也能有效的解决差分攻击问题,这使得在隐私保护数据链接过程中有更强的安全性。

第 1 章 绪论

1.1 本课题研究背景与意义
1.1.1 本课题研究背景
随着从多个数据源聚合和集成大量的数据,以促进行政、医疗和金融系统中,链接多源异构的数据记录信息以进行数据挖掘变得越来越重要。记录链接,也可以称作数据匹配、重复检测或者实体识别,是为了实现从不同的数据源中识别与现实生活中与实体相对应的同一实体[1]。为了最大限度的利用集成的数据存储库,多个集成数据源链接的结果对于挖掘数据信息以提供临床决策支持、日常护理保障、公共卫生应用以及学术研究等方面至关重要[2]。
现在,个体患者的护理和康复需要来自多个数据源综合和多样化的临床信息[3]。例如,健康信息交流系统是一个新兴的患者数据来源系统。通常,系统中的数据是由不同的医疗机构、保险公司或者是公共卫生机构收集的。这些机构通常使用患者不同的公共标识符,例如患者编号、患者姓名以及邮政编码等,从而维护自己独立的数据库。然而,这些公共属性的缺失严重阻碍了多个数据源个人信息的聚合以及限制了有前景的应用场景[4]。更严重的是,链接过程中出现的攻击,例如频率攻击和差分攻击等,对多方隐私保护数据链接是一个巨大的威胁。因此,考虑敏感数据信息的隐私安全,需要使用安全和健壮的隐私保护数据链接工具来从多个数据源链接患者的记录信息。
目前的记录链接方法能够大致划分为确定性和概率性两种记录链接方法[5-6]。确定性记录链接方法,是一种基于规则分类的方法,通常使用一组确定的规则来分类链接的记录对。确定规则是一个漫长且复杂的过程,需要人为的努力去构建规则系统并进行维护。逻辑运算操作,比如与运算、或运算和非运算等等,通常被应用到记录链接中确定链接属性的规则建立。这些建立的规则通过与相似度函数结合能够将要链接的数据记录信息分为匹配、不匹配和可能匹配三种结果[7-9]。
............................

1.2 本课题国内外研究状
近年来,隐私保护数据链接记录方案在学术界得到了广泛的研究。在本小节中,将对国内外现有的隐私保护数据链接方案进行综述。早期的隐私保护记录链接方案采用了嵌入空间技术[2],[15],[16],各数据源将要链接的记录信息嵌入到度量空间中,同时也保护了数据属性之间的相似度距离值。这一技术背后的思想是能够有效解决数值型数据链接的隐私问题,如年龄、薪水、身高等数值型属性信息。下一代是基于布隆滤波器编码的隐私保护数据链接技术。由于其提供的隐私性优点被广泛应用在隐私保护数据链接过程方案中,如方案[4],[10],[23]。在论文[4]中,Durham 等人提出了一种布隆滤波器编码技术来消除频率攻击,能够使得在数据的安全性和链接的准确性之间进行权衡。在该方案中,他们介绍了一种统计信息方法来产生布隆滤波器编码从而使得从多个数据字段中整合比特位数。这种方法能够找到一个最优的属性集合中找到每个属性字段对应的比特频数。然而,为了保证链接属性的安全性,该方案牺牲了链接效率来实现两者之间的权衡,是该方案的一个缺点所在。在论文[11]中,提出了一种使用布隆滤波器编码的多方隐私保护记录链接方案。在该方案中,作者结合使用布隆滤波器编码技术、安全合计和戴斯相似度方法来从识别多个数据源中同一实体的所有数据记录信息。在链接过程中,任何数据源都不了解其他数据源敏感的记录信息。但是在他们的方案中,数据记录之间的相似度计算完全依赖于一个假想可信第三方。基于论文[10]的基础之上,在论文[23]中,Randall 等人扩展了布隆滤波器编码协议,结合同态加密方法来抵抗布隆滤波器编码技术易受到的频率攻击问题。在该方案中,加密后的记录信息将被发送给第三方链接者并完成相似度计算。然而,由于使用了计算复杂的加密函数,较低的链接效率使得该方法在大型数据库中有很大的局限性。
............................

第 2 章 预备知识概述与模型建立

2.1 预备知识概述
2.1.1  区块链
区块链起源于比特币,最早是在 2008 年由中本聪提出[25]。区块链是从比特币底层技术衍生出来的新型技术体系,且仍然在发展演变。通常认为,区块链是分布式数据库、点对点传输和加密算法等计算技术的新型应用模式。区块链是由若干个数据块串联而成,每一个数据块中包含交易信息,时间戳和下一区块地址。每个区块头部的信息是由前一区块数据的哈希计算而得。网络中的任何节点都可以访问这个有序的数据块列表,读取交易信息并形成新的区块信息。区块链数据结构如图 2.1 所示。
图 2.1 区块链数据结构图
区块链因其去中心化、公开透明以及可责任追溯而被广泛应用于物流[26-27]、智能交通[28-29]以及医疗[30-31]等领域。区块链技术的应用,可以去除第三方中介的作用,实现点对点的直接对接,同时在区块链上存储的信息,可靠并且不可篡改,交易信息公开透明,
方便用户监督。
...........................
 
2.2 本课题提出的系统模型
本文设计的隐私保护记录链接方案主要包含三种角色,即数据库(数据保管员)、链接者(云服务器)和解密者。本方案构建的系统模型如图 2.2 所示。
图 2.2 系统模型
.............................

第 3 章 基于区块链的多方可验证隐私保护记录链接方案............................12
3.1 基础方案....................................12
3.1.1 基础方案总体思想...............................12
3.1.2 基础方案详细描述..............................14
第 4 章 安全性分析........................................31
4.1 安全分析.............................................31
4.2 游戏证明...........................................32
4.3 本章小结......................................39
第 5 章 性能分析..........................................40
5.1 数据集及其他相关陈述..................................40
5.2 实验结果分析.....................................41
5.3 本章小结....................................54

第 5 章 性能分析

5.1 数据集及其他相关陈述
为了实现跨多个数据源的记录链接方案,本文分别从采用的数据集中分别提取5000,10000,20000,30000,40000,50000,100000 和 500000 条记录分别给每个数据源进行保管。同时在实验时,分别选取不同数量的云服务器参与链接的过程,选取的数量分别是 3,5,7,10。为了保证链接的质量,本文在数据集处理过程中,保证不同大小的数据源至少有一半左右的记录是各个数据源共有的记录。同时,本文在原始的数据集上,生成了三个扰乱数据集,使得每个数据源中的每条记录至多存在一个拼写错误(Mod-1),至多存在两个拼写错误(Mod-2)和至多存在三个拼写错误(Mod-3)。数据集中的这些拼写错误主要包括字符插入、恶意删除和随机替换字符等比较常见的错误。
为了实现对跨多个数据源的记录链接方案的评估,本文从目前主流的评估手段入手:运行时间(Runtime)、查准率(Precision)、查全率(Recall)和 F 指数。运行时间是用来评估本文提出的方案可扩展性的主要衡量标准,其他三个方面:查准率、查全率以及 F指数用来评估本文提出的方案的链接质量。为了证明本文提出的方案的改善之处,首先定义相关的评估指数。
...........................

第6章 总结与展望

6.1 研究总结
本文提出的基于区块链的多方可验证隐私保护记录链接方案,在不泄露数据源敏感数据的情况下,能够安全以及高效的完成数据匹配的任务。本文首先提出基于区块链的多方可验证隐私保护记录链接方案能够高效的从多个数据源中识别来自同一实体的所有记录信息。该方案能抵抗频率攻击,使得攻击者难以推断出源明文信息。此外,由于单个数据源的数据记录信息可能会被攻击者利用差分攻击得到,在基础方案之上引入差分隐私技术保障数据源之间存在的半可信问题。同时利用功能加密技术,提出一种指定链接者模型从而实现链接者对隐私信息处理的权限不同。与现有的大部分方案相比,本文提出的方案不仅能抵抗频率攻击,也能有效的解决差分攻击问题,这使得在隐私保护数据链接过程中有更强的安全性。
所提出的方案提出了一个新的存储机制 OSBT,用来存储要链接的数据记录信息。该机制能够使得 OSBT 上的每一个左节点存储某一固定加密的布隆滤波器的记录值,右子树存储其他加密的布隆滤波器的记录值。负责计算的云服务器能够使用汉明距离去计算两个布隆滤波器记录对之间的距离值。由于这种存储特性,本文方案构建的 OSBT 机制能够有效减少汉明距离计算和比较的次数。因此,汉明距离计算开销在所提出的方案中显著地降低。
所提出的方案支持对第三方结果的验证和审计。借助区块链的可责任追溯性,在本文提出的方案中,区块链上各个参与的节点能够对云服务器或者是指定链接者计算出来的距离值和识别成功的记录集合进行审计,从而判断该云服务器或者是指定链接者是否是恶意的。
参考文献(略)

如果您有论文相关需求,可以通过下面的方式联系我们
点击联系客服
QQ 1429724474 电话 18964107217