云环境中高效密文排序检索技术思考

论文价格:150元/篇 论文用途:硕士毕业论文 Master Thesis 编辑:硕博论文网 点击次数:
论文字数:38112 论文编号:sb2022050610372646931 日期:2022-05-26 来源:硕博论文网

本文是一篇计算机论文,本文以传统可搜索加密方法为基础,介绍了本文的研究背景以及当前密文排序检索领域的相关工作,并且对比讨论了现有检索方案的检索效率和安全性。本文重点研究了基于多关键词的云端密文排序检索技术的相关进展,同时比较各类索引机制的优缺点。此外,本文还阐述了实现高效检索对于云端数据隐私保护的重要性。
第一章  绪论
1.1  研究背景与内容
云计算[1]-[3]被认为是一种新型的 IT 基础设施模式,它对各种资源、数据进行融合,并根据用户所需向多种类型的终端提供动态、易于扩展的虚拟化资源。在这种模式下,用户能够很好得共享数据信息。数据共享[4]无疑是大数据时代最为重要的主题之一。利用这种共享方式,用户可以不受空间和自有终端数据处理能力的限制,完成一系列海量数据的分析、处理和存储等工作。显然,云计算技术不仅给用户带来了经济上的节省,还增强了管理上的灵活性。
由于云计算技术的日趋成熟,云存储[5]-[6]衍生而出,简言之,它是网络环境中各种存储设备的集合体,可向用户提供多种便捷服务,例如数据存储、数据管理等。云存储并不单独依赖于某一台存储器,实现了存储管理的自动化与智能化,相较于传统的存储方法,更加易于管理,节省了更多的本地存储空间,提升了数据存储的性能。
然而,尽管用户获取了便利并可以享受到服务,但外包的云端数据并不能完全确保安全,用户也面临着隐私安全的困扰[7]-[8]。基于当前云计算的“即服务”模式,为了完全发挥云存储的优势,用户必须把自己的隐私数据“委托”给云服务提供商,并且只要用户将其数据外包至云中,他们就不能再享有这些数据的物理控制权[9]-[12]。这些脱离用户掌控的数据不可避免地面临被窃取或篡改的潜在威胁,尤其是在公共云服务器上。虽然云计算技术仍处于不断地发展和完善中,但由于云端服务器的不可信以及外部黑客攻击等因素的影响,云安全事故依然接连发生,数据泄露发生在各行各业。例如,在 2019 年年末,美国短信服务商 TrueDialog管理的一个数据库被意外暴露,泄露了 10 亿条数据;在 2020 年年初,万豪酒店又一次遭到黑客入侵,破坏了多达 520 万名客人的个人详细信息。数据泄露有可能涉及任何用户不愿意公开的信息,一旦隐私信息丢失或被窃取,对用户而言是致命的,这不仅导致了数据资产的严重损失,同时,还引起不容忽视的社会影响,已经严重限制了云存储的发展[13]-[16]。
...........................
1.2  课题研究现状
可搜索加密技术[17]-[20]使用户可以将加密数据迁移至云端存储,并以密文形式实现关键词检索。近年来,国内外对可搜索加密技术的研究取得了一定进展。由于采取了不同的密码体制,可搜索加密方案可以划分为两种:一种是对称可搜索加密,另一种是非对称可搜索加密。本文重点研究的内容是对称可搜索加密,因此将对其重点介绍
(1)对称可搜索加密方案
对称可搜索加密技术是一种用于解决云端服务器不可信问题的技术,能在用户与云端服务器的不断交互过程中有效保护数据安全性,从而在一定程度上防止了数据泄密问题的发生,该技术能进行高效地加密与检索。Song  等人[21]第一次定义了云端加密搜索的问题模型,采取两层加密技术,可以保证查询陷门的正确性。虽然 Song  等人的方案已经被证明具有安全性,但是此方案是基于一个弱安全模型的。针对 Song 等人的不足,一系列新的可搜索加密的方案相继被提出[22]-[24]。在所提的方案中,使用加密索引来执行检索,而并非直接对密文数据执行检索。Curtmola 等人[23]引入了两种新的可搜索加密对抗模型,分别被定义为选择关键词攻击(CAK1)与自适应选择关键词攻击(CAK2),这两种对抗模型是迄今为止被广泛使用的标准定义,规范了密文检索应当实现的安全目标。此外,针对 CAK1、CAK2,还分别提出了两个对应的安全方案 SSE-1、SSE-2。Kamara 等人[24]设计出一种新的动态可搜索加密方案,该方案能满足更为严格的安全定义要求,并且支持动态操作,使得检索更为灵活。
以上的方案只能支持单关键词检索,虽能快速检索,却限制了解决方案的应用范围。用户更倾向于多关键词检索,而不是单关键词检索,除此之外,多关键词检索对于提升检索准确性至关重要。因此,近年来多关键词检索受到了广泛的关注与研究[25]-[27]。
但上述所有的关键词检索方案都不支持排序检索,也就是说云服务器并不是按照与检索请求的相关性返回最相关的 k 个文档,而是返回所有的相关文档。在“按需付费”的云服务模式中,排序检索是非常必要的,不仅是因为排序检索可以提高云端检索的准确性与效率,还因为其能够有效地减少网络流量。一些早期的排序检索方案[28]-[30]已经利用保序技术实现了排序检索,但只支持单关键词检索。为了满足用户的检索需求,研究者们也提出了针对多关键词的排序检索方案[31]-[35]。Cao 等人[31]建立了首个用于多关键词排序的检索方案(MRSE),该方案利用“协同匹配(Coordinate Matching)”来计算相关度得分。然而,MRSE 的检索耗时与数据集中的文档数量成线性关系,这是因为即使某些文档不包含任何检索关键词,检索时依然需计算每一个文档与检索请求的相关度得分。为了提高检索效率,Sun 等人[32]引入了一种基于树的全新索引结构,加入向量空间模型以帮助计算相关度得分。虽然该方案有效提升了检索效率,但也在一定程度上降低了检索精度。Chen 等人[34]首先将聚类算法应用在了密文检索中(MRSE-HCI),通过检索结构的优化使得云端密文多关键词排序检索更加高效。但是,MRSE-HCI 中的检索树本身非常不平衡,这容易导致检索效率的不稳定,并且 MRSE-HCI只对最相关子集聚类簇进行检索,降低了检索结果的准确性。
.............................
第二章  相关工作
2.1  预备知识
本节简要介绍了云安全领域的相关基础知识,主要有常见的威胁模型、攻击方式以及问题描述等。 2.1.1  威胁模型 在基于密文的云端检索领域中,云端服务器本身并不是完全受信任的,云端服务器的可信性不同,威胁模型也不尽相同。在本文中,重点介绍两种类型的威胁模型:
(1)诚实且好奇(Honest-but-curious)模型
基于此威胁模型,云端服务器以“诚实”的方式运行,即能正确执行协议中规定的指令,并不会删除或篡改外包的云端数据,却会对用户存储的数据本身产生好奇,当执行加密数据的多关键词检索时,云端服务器可能窥探数据,并试图从检索者的检索请求中获得其他额外信息,进而推断出数据的明文信息,引起数据泄露。针对此模型建立起实现隐私保护的检索方案,能够显著提升检索性能,优化用户体验,所以,本文所讨论的隐私保护均围绕此威胁模型。
(2)恶意攻击(Malicious Attack)模型
基于此威胁模型,云端服务器极有可能会主动攻击用户迁移至此的加密数据,此时,云端服务器的可信性极低。在该模型中,由于黑客攻击或云端服务器中的恶意内部人员非法访问敏感数据,用户获得检索结果并不一定总是正确的。此威胁模型适用于云端密文检索领域中的一致性验证问题。
2.1.2  攻击模型
为了实现有效的可搜索加密,用户期望自己迁移到云端的数据是安全的。本文主要讨论“诚实且好奇”中的数据安全问题。基于这种威胁模型,根据云端服务器所了解的信息,其常见的攻击模型主要分为以下两种:
(1)已知密文攻击(Known-ciphertext attack)模型
在此攻击模型中,除了用户提交的密文文档、加密的索引以及每一次检索时用户发送的检索陷门外,云端服务器对这些内容的明文信息一无所知。但云端服务器会利用这些密文信息推测相应的明文信息,即云端服务器会实施唯密文攻击。
(2)已知背景攻击(Known-background attack)模型
在此攻击模型中,  云端服务器除了具有获得已知密文模型中所有信息的能力外,还能够获得更多的知识,例如已知关键词的词频分布,这个统计信息可以用作该关键词的标识。因此,在执行检索请求时,云端服务器可以利用此类信息实施统计攻击,进而确定在这次检索中是否存在某些特定的关键词。
........................
2.2  关键技术
本节主要介绍本文涉及到的部分常用关键技术,主要包括:向量空间安全模型、文档相关度计算、安全 KNN 技术以及二分 k-means 聚类模型。
2.2.1  向量空间模型
向量空间模型 VSM(Vector Space Model)[56]可以用于完成多关键词的排序检索,其基本思想是采用数学方法将文档及检索关键词分别映射成向量,并利用计算向量间内积的方式来度量文档与文档之间、文档与检索关键词之间的相关度。
设文档集 D 包含 n 个文档,即 D = {d1, d2, …, dn} 
其中 di 表示文档 D 中的第 i 个文档。假设 D 中包含 m 个预设的关键词,则这些关键词可以看成 m 个互相正交的向量,从而构成一个 m 维的向量空间,此时 D 中的每一个文档 di 都可以视为 m 维向量空间里的一个向量,即 di = {d1, d2, …, dm} 
同理,查询关键词组 WQ 也可以表示为 m 维空间中的向量{q1, q2,…, qm}。这样,查询关键词和文档的相关度、文档间的相关度就能够采用向量间的内积度量,内积越大表示两个向量在向量空间中的距离越近,即相关度越大。VSM 在涉及测量单词,短语和文档之间的含义相似性的任务上表现良好。大多数搜索引擎使用 VSM 来测量查询和文档之间的相似性或是测量语义相关性。
原始的向量空间模型仅仅根据关键词的有无,将文档向量按位取 1/0,为了更为精确的描述某关键词在某文档中的重要性权重,目前的映射方法多采用 TF-IDF 模型。TF-IDF 模型是一种特征加权算法[57],它结合术语频率权重和逆文档频率来计算文本中要素项的权重。基本思想是文本中要素项的权重与其出现于当前文本中的频率成正比,同时与文本集当中含有该要素项的文本数值的大小成反比。权重计算主要由术语频率 TF 和逆文档频率 IDF 组成。

计算机论文怎么写
计算机论文怎么写

..............................
第三章  基于 HCB-Tree 的多关键词密文排序检索方法 ......................... 15
3.1  模型与设计目标 ........................................ 15
3.1.1  系统模型 ............................................... 15
3.1.2  检索框架 ................................ 16
第四章  基于过滤阈值选取的检索效率优化方法 ........................ 33
4.1  模型与设计目标 .......................... 33
4.1.1  系统模型 ................................ 33
4.1.2  检索框架 .............................................. 34 
第五章  实验系统 ............................ 50
5.1  需求分析 ............................................. 50
5.2  系统设计 ......................................... 51
第五章  实验系统
5.1  需求分析
本章描述的实验仿真系统主要由三个主体构成,分别是:数据拥有者 DO、外包云服务器CS 及数据使用者 DU。图 5.1 是该系统的功能设计流程图。DO 首先进行文档预处理操作,向量化初始的文档数据集,生成文档向量;其次 DO 采用二分 k-means 算法实现对文档的聚类,此过程中由各数据向量节点创建索引树,该索引树包含的叶子节点都用于存储文档向量,同时为每一个叶子节点建立起相邻节点的前驱和后继关系,所有叶子节点形成一个双向链表;DO 利用矩阵加密技术对文档与索引树分别加密,然后把已加密的文档与索引树一并外包至CS。当 DU 提出检索请求时,对请求进行向量化处理,同样利用矩阵加密技术对检索向量实施加密,建立对应的检索陷门;其次 DU 把检索陷门和检索需要的目标文档数一并发送给 CS,然后等待 CS 返回有序的检索结果。CS 在接收到由 DU 上传的检索陷门后,执行基于锚节点的深度优先搜索算法检索,并返回排序检索的最终结果。为了支持在密文环境中安全、有效地执行针对多关键词的检索,本系统基于已知密文的攻击模型,需要实现以下的设计目标:
(1)隐私保护:本系统中涉及的检索方案,能够充分维护有关文档的明文、索引、检索关键词以及检索陷门链接关系的隐私性,有效应对数据泄露问题。
(2)多关键词排序检索:本系统中涉及的检索方案,针对多关键词检索,具有对检索结果排序的功能。
(3)检索效率:本系统中涉及的检索方案,当对同一文档数据执行检索时,相比同类基于多关键词的密文排序检索方案,该检索机制具有更优的检索效率,整个检索过程简洁、快速。

计算机论文参考
计算机论文参考

...............................
第六章  总结与展望
6.1  工作总结
在信息爆炸的时代,用户将庞杂的数据与繁琐的计算任务全部交付到云端进行存储与处理,以便于享用高质量的数据服务,同时有效减轻本地的管理开销。然而,数据外包引起了不容忽视的隐私安全问题。在云环境中,应对隐私安全威胁最直观、最有效一种方式是在外包数据前先对其实施加密,之后再将密文数据上传至云端存储。可是,复杂的加密算法致使云端数据的利用性大幅下降。因此,为了在云环境中高效检索密文数据,一系列可搜索加密方法被提出。
本文针对基于密文的云端排序检索方法中的效率问题,重点探讨各类索引机制多方面的性能,建立一种可以有效地实现高性能的多关键词检索方法 MRSE-HCB。该技术方案不仅可以维护隐私数据的机密性,而且可以有效地实现高性能的多关键词检索。同时,优化初始过滤阈值的选取,提出基于过滤阈值选取的检索效率优化方法 OFT,在不损失精度的前提下进一步提升密文检索性能。本文的主要贡献如下:
(1)本文以传统可搜索加密方法为基础,介绍了本文的研究背景以及当前密文排序检索领域的相关工作,并且对比讨论了现有检索方案的检索效率和安全性。本文重点研究了基于多关键词的云端密文排序检索技术的相关进展,同时比较各类索引机制的优缺点。此外,本文还阐述了实现高效检索对于云端数据隐私保护的重要性。
(2)提出一种基于 HCB-Tree 的多关键词密文排序检索方法 MRSE-HCB,考虑不同文档间的相关性,使用二分 k-means 聚类算法生成改进的聚类树索引结构 HCB-Tree,利用二叉平衡树的特性优化了索引树结构,使得索引树 HCB-Tree 的高度更为平衡,从而提高了检索的稳定性,该索引树结构是实现 MRSE-HCB 方法的关键。MRSE-HCB 方法利用深度优先算法检索最相关文档,通过检索该文档所在叶子节点的相邻节点来寻找其他高相关文档。该方法既维护了数据隐私性,还有效提升了整体检索效率和检索准确性。
参考文献(略)


如果您有论文相关需求,可以通过下面的方式联系我们
点击联系客服
QQ 1429724474 电话 18964107217