第一章绪论
1.1概念
1.数字图书馆的概念怎样合理有效地对各类海量数字信息进行组织、检索、访问、利用?怎样有效利用互联网的优势向用户提供海量数字信息服务?针对这些问题,美国科学家在90年代初提出了数字图书馆(disitallibrary)这一概念11一21,力图为高速宽带互联网做好应用准备。数字图书馆是一个驱动多媒体海量数字信息组织与互联网应用问题各方面研究的技术领域。简单地说,数字图书馆是以电子格式去存储海量的多媒体信息并能对这些信息资源进行高效的操作,如插入、删除、修改、检索、提供访问接口和信息保护等。
1.2数字图书馆的功能
随着信息技术的发展,需要存储和传播的信息量越来越大,信息的种类和形式越来越丰富,传统图书馆的机制显然不能满足这些需要。因此,人们提出了数字图书馆的设想。数字图书馆是一个电子化信息的仓储,能够存储大量各种形式的信息,用户可以通过网络方便地访问它,以获得这些信息,并且其信息存储和用户访问不受地域限制。
........
第二章预备知识
第2章预备知识
2.1数据库技术发展状况
数据库是一门应用计算机进行数据处理的技术,用以研究如何科学地组织和存储数据,如何高效地获取和处理数据。数据库所管理和存储的数据是社会各个部门宝贵的信息资源,在信息化时代来临、Iniemet高速发展的今天,信息资源的经济价值和社会价值越来越明显。建设以数据库为核心的信息系统和应用系统,对于提高企业的效益、改善部门管理、改进人们的生活均具有实实在在的意义。正因为数据库技术与经济、社会的发展和信息化建设有着密切的关系,这门学科才获得了巨大的源动力和深厚的应用基础。
2.2机群并行计算机系统
机群并行计算机系统就是把一群计算机(例如工作站、PC机、服务器、大型机等)用网络某种拓扑结构互联起来,充分利用计算机资源,统一调度、协调处理,实现高效率并行计算。机群并行计算机系统中的每台计算机成为一个节点。如果机群并行计算机系统中的所有节点都是PC机,则称为PC机群。与向量计算机和并行计算机相比,机群并行计算机系统具有如下七个主要特点:(l)性能价格比高。性能价格比高于商品化的并行计算机系统。例如,美国Oakridge国家实验室的一组实用并行程序测试表明,基于网络的n台IBMRS/6000工作站组成的并行系统的浮点运算速度可达到0.7Gnops。此运算速度接近某些巨型计算机的速度,但价格却远远低于巨型计算机系统。
.......
第3章多线程文本并行加载算法···········24
3.1数据结构·················24
3.2文本数据并行加载算法············26
3.3本章小结·················49
第4章并行数字图书馆系统中数据的维护·······50
4.1并行数字图书馆系统中数据的维护一添加类····52
4.2并行数字图书馆系统中数据的维护一添加文本····58
4.3并行数字图书馆系统中数据的维护一删除类·····62
4.4并行数字图书馆系统中数据的维护一删除文本····65
4.5并行数字图书馆系统中数据的维护一修改类名····68
4.6并行数字图书馆系统中数据的维护一修改元数据···68
4.7本章小结····················70
第5章实验结果
本文作者对本文中描述的一部分算法进行了实验,并且本文对并行算法和串行算法在多处理机的环境下进行了比较性实验,以求使读者能对算法的性能有更为直观的了解,并验证算法的理论分析。顺序的算法可以用并行算法稍加改动来实现,有兴趣的读者可自行设计。在以下的描述中,时间的单位为秒,使用的数据量为兆。
5.1试验一
试验一:多线程并行文本加载算法与串行算法在查询处理机个数固定,数据量变化时的实验结果在第一组实验中,我们使用的后端机包括二台数据采集机,四台查询处理机,每台后端机的配置是IG内存,70G硬盘。这组实验的数据量是不断变化的,而后端机的个数固定。实验的目的是比较一下串行和并行算法在数据量增加时的效率。
........
结论
本文提出了基于一种新的并行数字图书馆中的数据操作算法,并在原型系统中实现了所有的数据操作算法。本文在提出了至今没有研究成果的多线程并行文本数据加载操作和维护算法。通过大量的实验表明,本文提出的算法比目前现有的算法高效,具有较高的实用价值。从性能价格比的角度来考虑,并行算法具有很高的实用价值和效益。作者认为该方向是一个仍有大量问题尚未解决的领域,有很多的研究工作要做,希望专家学者给予足够的关注和重视。
..........
参考文献(略)