1绪论
数据网格的特点和研究现状1.1.1数据网格的特点网格(Grid),作为上世纪%年代出现的新概念,开辟了一个新的研究领域。网格计算的思想来源于电力网,网格的最终目的是希望提供给用户和地理位置无关、与具体的设施无关的通用的计算能力,就如同现在使用电力一样方便。全球网格计算研究的领军人物IanFoste:曾在1999年这样描述网格[’]:“网格是构造在互联网上的一组新兴技术,它将高速互联网、高性能计算机、大型数据库、传感器、远程设备等融为一体,为科技人员和普通百姓提供更多的资源、功能和交互性。互联网主要为人们提供电子邮件、网页浏览等通信功能,而网格的功能则更多更强,它能让人们透明地使用计算、存储等其他资源。”由此可见,传统的互联网实现了计算机硬件的联通,Web实现了网页的联通,Web服务实现了程序和程序之间的共享,而网格则试图实现互联网上所有资源的全面联通。网格的提出突破了计算能力,地理位置,传统共享、协作等方面的限制。
网格的巨大资源使人们解决问题的能力迅速提高,可以完成许多以前无法完成的工作。而且,对于稀缺、无法异地使用的资源,网格突破了传统限制,可以随时随地使用资源,而不用考虑资源的实际位置。因此对网格相关问题的研究是一个必然的发展趋势[[2l0所谓数据网格,可以定义为:一种分布式的数据分析与管理体系,在动态的跨组织域的虚拟组织中实现协同的数据分析、管理以及数据资源的存储与共享。由以上对数据网格的定义可知,数据网格的核心是对其中存在的海量数据信息的管理,具体的任务包括数据分析、数据管理以及协同的数据问题求解等[[3],而本文所要研究的副本一致性问题是数据管理模块中副本管理的一个组成部分。数据网格与传统的计算网格的主要区别在于:从系统角度看,数据网格中除了计算资源外,还包括各种类型的数据库、文件系统以及数据采集器等数据资源,此外,为了提高数据的高可用性,同一份数据会在数据网格系统中有不同的复制备份;从应用角度看,数据网格应用一般涉及对海量数据的共享、访问和处理,而且这些数据存在异构性和分布性。在现代科学研究和应用领域中,大量的数据是重要的资源,例如全球气候模拟、高能物理、生物计算、战场仿真、核模拟、数字地球等应用,其数据量将达到PB到TB的级别。地理上广泛分布的该领域的科研工作者或用户都希望能够访问和分析这些庞大的数据,但其分析方法往往是计算复杂、计算量大,许多数据分析处理要求千亿次或万亿次规模的计算能力。
而现有的数据管理体系结构、方法和技术已经不能满足人们对高性能大容量分布存储和分布处理能力的要求。因此,在计算网格的基础上人们提出了数据网格(DataGrid)的构想[[4],以解决上述应用所面临的问题[[5]01.1.2网格数据的研究现状在数据网格研究领域,美国和欧洲处于领先地位,他们的研究范围和规模都比较大,并且已经推出了一些试验系统,其中最著名的是以欧洲数据网格项目、美国的国际虚拟数据网格实验室IVDGL和PPDG项目,而最著名的数据网格系统工具是Globus中的数据网格支撑模块和SDSC的SRB系统。Globus是全球著名的网格计算研究项目。Globus项目由美国Argonne国家实验室进行研发,对信息安全、资源管理、信息服务、数据管理以及应用软件开发环境等网格计算的关键理论和技术进行了广泛的研究,开发出能在多种平台上运行的网格计算工具包软件GlobusTookit。该工具包能够用来帮助规划和组建大型的网格试验和应用平台,开发适合大型网格系统运行的应用程序。
目前,一些著名的数据网格研究项目,如欧洲数据网格、GriPhyN,PPDG等项目都采用了GlobusToolkit作为网格基础设施。GlobusToolkit的多数功能组件己成为相关领域的标准。美国SanDiego超级计算机中心开发的SRB存储资源代理系统是用途较广的数据网格软件之一。SRB为用户提供了一个访问文件系统、档案系统、数据库系统等多种异构存储系统的统一接口,屏蔽了存储系统的异构特性。它支持广域网环境下多种数据源的访问。提供了数据复制、副本的访问、文件的汇集、分布文件的逻辑集合等功能。除此之外,还有很多项目已经或正在开发之中,包括IBM,SUN,COMPAQ,LSF等十多家著名计算机公司都己经投资研究网格计算技术。1.2数据管理技术网格数据管理工具主要关心的是分布在网格中的数据的互连、访问、查找、传输、管理功能。从数据互连的角度来讲,GlobesToolkit主要提供GridFTP和OGSADAIo其中GridFTP用来连通网络上的所有网格节点上的文件系统资源,OGSADAI则是用来访问和集成网格节点上的结构化和半结构化的数据资源。从数据管理的角度,GlobesToolkit提供了具有数据移动和数据复制功能的部件,它们分别是GridFTP,RFT.RLS和DRS,其中GridFTP和RFT用来完成数据传输,DRS用来完成数据复制。
参考文献
[1] Ian Foster, Carl Kesselman. The Grid:Blueprint for a New Computing Infrastructure. San Francisco, CA: Morgan Kaufmann, 1999. http://mkp. tom/grids/, http://www. gridforum. org/, http://~.ccgri.d. org;}
[2」田荣阳,数据网格中副本定位及选择服务〔D].重庆:重庆大学,2006.
[3〕武秀川,胡亮,鞠九滨.数据网格的数据管理策略〔J].小型微型计算机系统,2004, 25 (1): 98-102.
[4] A. Chervenak, I. Foster, C. Kesselman, C. Salisbury, and S. Tuecke. The Data Grid:Towardsan Architecture for the Distributed Management and Analysis of Large ScientificDatasets[J].Journal
[5〕孙海燕,王晓东,肖侬.数据网格中的数据复制技术研究【J].计算机科学,2005, 32 (7) :13-16.
[6] Allcock B, et al. Secure, Efficient Data Transport and Replica Management forHigh-Performance Data-Intensive Computing[C].In: Mass Storage Conf,2001.
[7〕刘浩,黄力.基于网格的数据传输模型设计与实现【J].微计算机信息,2007, 23 (2) :140-141.
[8〕吴军建.网格数据管理系统的研究与实现〔D].北京:北京交通大学计算机系,2007http://sblunwen.com/wlcbx/
[9] Mathematics and Computer Science Division, Argonne National Laboratory. Response fromGlobus Team to EDG WP2’s Proposed Design for a Distributed Replica catalog[C/OL].
[10」孙海燕.数据网格副本管理关键技术研究【D].长沙:国防科技大学,2005.
[11〕梁鸿,张春明,高元涛.数据网格下副本一致性问题的研究【J].计算机系统应用,2008 (01):41-44.
[12] Stockinger H. Database Replication in World-wide Distributed Data Grids:[D]. Austria:University of Vienna, 2001.
[13了杨瑜萍.数据网格环境下基于存储的副本管理策略的研究〔D].南京:河海大学计算机及信息 程学院,2007.
[14〕刘萍芬,马瑞芳,王军.分布式数据库系统及其一致性方法研究[J].微电子学与计算机,2007,24 (10):137-I43.
[15〕贾艳燕,娄燕飞,杨树强等.分布异构多数据库中多副本一致性维护研究与实现〔JJ.计算机科 学,2006, 33 (11):I84-186.
[16〕高改梅,白尚旺,党伟超一种分布式数据网格副本定位机制的研究【J],太原科技大学学报,2007, 28 (4):262-265.
摘要 4-5
Abstract 5
1 绪论 8-16
1.1 数据网格的特点和研究现状 8-9
1.1.1 数据网格的特点 8-9
1.1.2 网格数据的研究现状 9
1.2 数据管理技术 9-12
1.2.1 文件传输 10
1.2.2 开放服务体系数据访问集成(OGSA-DAI) 10-11
1.2.3 副本定位服务 11-12
1.3 研究目的和意义 12-16
1.3.1 研究目的 12-13
1.3.2 研究意义 13-16
2 副本管理的关键技术 16-23
2.1 数据复制技术 16-19
2.1.1 数据复制技术的特点 16-17
2.1.2 数据复制服务 17-18
2.1.3 副本复制管理 18-19
2.2 副本管理机制 19-23
2.2.1 副本创建 20
2.2.2 副本删除 20-21
2.2.3 副本选择 21-22
2.2.4 副本一致性 22-23
3 副本一致性框架的改进 23-27
3.1 一致性框架改进的基础 23-24
3.2 一致性框架的改进 24-27
4 副本一致性算法的改进 27-39
4.1 副本一致性算法 27-31
4.1.1 一致性算法 27-28
4.1.2 aggressive-copy算法 28-29
4.1.3 lazy-copy算法 29-31
4.2 lazy_agg-copy算法 31-38
4.2.1 lazy_agg-copy算法框架 32-33
4.2.2 lazy_agg-copy算法 33-38
4.3 新算法的复杂性分析 38-39
5 实验模拟 39-52
5.1 OptorSim简介 39-41
5.1.1 OptorSim的体系结构 39-40
5.1.2 OptorSim现有算法 40-41
5.2 算法性能评价标准 41-42
5.3 模拟环境及参数 42-47
5.3.1 软件配置 42-43
5.3.2 模拟环境及参数 43-47
5.4 模拟结果及分析 47-52
5.4.1 模拟结果 47-49
5.4.2 模拟结果分析 49-52
结论 52-54
参考文献 54-56