您当前的位置：硕博论文网 > 论文范文 > 计算机论文 > 查询接口匹配技术中应用DeepWeb的研究

查询接口匹配技术中应用DeepWeb的研究

论文价格：免费论文用途：其他编辑：www.sblunwen.com 点击次数：194

论文字数：30000 论文编号：sb201208171717262185 日期：2012-08-17 来源：硕博论文网

Tag：

查询接口匹配技术中应用DeepWeb的研究

第一章绪论

问题提出目前Web技术不断发展，带来了信息的飞速增长，其中蕴含着海量的有价值信息。最新调查显示[’]，目前整个Web超过了200,000TB的信息量，而且仍在快速的增长。Web中的信息主要通过网页的形式对外发布，不同网页的形式和内容差异很大，而且分布在Internet网上任何一个角落，造成了Web数据的异质性和缺乏结构性。由于以上的这些原因，使得自动从海量的Web信息中获取有价值的信息和数据变成一项很具有挑战性的任务。在Web领域的研究目的在于发展新的技术可以有效地从Web中获取有用的信息。到目前为止，为了有效利用Web上信息，所涉及的Web技术有数据挖掘、机器学习、自然语言处理、统计分析、数据库和信息检索等。一图1.1存储在数据库中丰富的DeepWeb信息整个Web按照信息所蕴含的深度分为两类:SurfaceWeb和DeepWeboSurfaceWeb指能被普通搜索引擎利用爬虫程序通过超链接所检索到的信息，这些信息对搜索引擎是可见的。

而对于DeepWeb而言，目前还没有一个统一的定义，一般是指Web中在线可访问的数据库，称为Web数据库。这些内容是由用户通过特定的查询接口提交查询，由后台数据库动态创建返回给访问者的，由于没有超链接指向这些动态页面，因而搜索引擎不能检索到。DeepWeb页面与SurfaceWeb页面在本质上有很大不同，DeepWeb页面内容存储在可访问的数据库中，如图1.1所示。DeepWeb之所以被人们备受关注，主要因为其信息的海量性和专业性。2000年7月，Brightplanet对DeepWeb做了一次较为全面的宏观统计，发布了DeepWeb的白皮书，指出整个Web中大约有43,000-96,000个Web数据库。UIUC大学在2004年4月对整个DeepWeb做了一次较为准确的估算[f21，推测整个Web中有307000个提供Web数据库的网站、450000个Web数据库，比Brightplanet在2000年估计的数据库网站数目增长了3-7倍。以下是从宏观上对DeepWeb做了定量的调查统计，结果表明:(1)整个DeepWeb覆盖了世界的各个领域，例如商业、教育、政府等。但就单个DeepWeb而言，有超过50%的DeepWeb内容是特定于某个领域的，即领域专一化;(2)DeepWeb中的后台数据库大多是结构化的，其中结构化的数据库是非结构化的3.4倍之多;(3)Web数据库查询接口往往位于站点浅层，94%之多的大量Web数据库查询接口可以在站点前3层发现;(4)对DeepWeb的数据访问量比SurfaceWeb要高出15%，其信息质量远远高于SurfaceWeb;(5)DeepWeb上95%的信息是可以公开访问的，即可以免费获取。

目前一些DeepWeb目录服务已经开始索引Web数据库，但是它们的覆盖率比较小，仅为0.2%一15.6%0尽管DeepWeb信息具有如上众多优点，但是由于目前Web数据库存在规模大、自治性、异质性、动态性等问题，要想全面而准确地利用DeepWeb信息并不是一件容易的事，因此对于DeepWeb的研究日益成为研究热点。目前在DeepWeb这个领域，己经建立了一个DeepWeb信息集成系统框架。查询接口匹配是查询接口集成至关重要的一步，也是整个DeepWeb信息集成系统的基础，因此查询接口匹配技术在Deepweb研究领域有着重要地位。目前国内这方面的研究很少。

参考文献

[1] Fetterly D, Manasse M, Najork M, et al. A large-scale study of the evolution of web pages[C]//Proceedings of the 12th International World Wide Web Conference, Budapest, 2003:669-678

[2] Chang K. C, He B, Li C, et al. Structured databases on the web: Observations andImplications [J]. SIGMOD Record, 2004, 33(3): 61-70

[3] Deep Web Technology汇EB/OL]. (2005-10). http://www.deepwebtech.com

[4] Invisiable.com [EB/OL]. (2005-10). http://www.invisiable.com

[5] M. K. Bergman. The Deep Web: Surfacing Hidden Value [J]. The Journal of Electronic Publishing, 2001，7( I ): 8912-8914

[6] MetaQuerier Research Group [EB/OL]. (2006-06). http://metaquerier.cs.uiuc.edu/

[7] Hasan Davulcu, Juliana Freire, Michael Kifer, et al. A layered architecture for queryingdynamic Web content[C]//Proc of International Conference on Management of Data. NewYork: ACM Press, 1999:

[8] S. Raghavan, H. Garcia-Molina. Crawling the hidden Web[C]//Proceedings of the 27thInternational Conference on Very Large Data Bases, Roma, Italy, 2001:129-138

[9] QProber Research Group [EB/OL]. Accessible at http://qprober.cs.columbia.edu/Oct 2005

[10] Robert B.Doorenbos, Oren Etzioni, Daniels Weld. A scalable comparison shopping agentfor the World-Wide Web[CJ//Proc of the First International Conference on Autonomous

[11]L.Barbosa, J.Freire. Siphoning hidden-web data through keyword-based interfaces[CJ//Procof the Brazilian Symposium on Database, New York: ACM Press, 2004: 309-321

[12]Michael K. Bergman. Deep Web White Paper [EB/OL]. (2004-10). http://brighplanet.com

[13]Chris Sherman, Gary Price. The Invisible Web: Uncovering Information Sources SearchEngines Can't See [J]. Library Trends. 2003(2): 282-298

[14]中国互联网络信息中心((CNNIC)，第23次中国互联网络发展状况统计报告〔R].2009,23-25

[15] Cope J., Craswel N., Hawking D. Automated discovery of search interfaces on the Web

摘要 5-7

ABSTRACT 7-8

第一章绪论 11-20

1.1 问题提出 11-13

1.2 研究现状 13-18

1.3 论文研究内容 18

1.4 论文结构安排 18-20

第二章查询接口匹配技术 20-35

2.1 Deep Web信息集成系统 20-24

2.2 查询接口匹配技术 24-32

2.2.1 基于模式的匹配技术 25-29

2.2.2 基于实例的匹配技术 29-31

2.2.3 现有技术的不足 31-32

2.3 本文研究框架 32-34

2.4 本章小结 34-35

第三章基于关联挖掘的成组属性生成方法 35-46

3.1 工作流程 35

3.2 数据预处理 35-36

3.3 关联挖掘 36-43

3.3.1 相关度度量标准 38-40

3.3.2 属性矩阵 40-43

3.4 实验步骤与结果分析 43-45

3.4.1 实验步骤 43

3.4.2 结果分析 43-45

3.5 本章小结 45-46

第四章基于语义聚类的同义属性生成方法 46-55

4.1 工作流程 46

4.2 语义聚类 46-50

4.2.1 语义相似度 47-49

4.2.2 数据域相似度 49-50

4.3 匹配筛选 50-52

4.3.1 排序 51-52

4.3.2 选择 52

4.4 实验结果分析 52-54

4.5 本章小结 54-55

第五章面向图书领域的Deep Web集成系统 55-69

5.1 系统目标 55-57

5.1.1 性能目标 55-56

5.1.2 功能目标 56-57

5.2 系统总体设计 57-58

5.3 系统详细设计 58-62

5.3.1 检索模块设计 58-59

5.3.2 配置模块设计 59-62

5.4 系统实现 62-68

5.4.1 检索模块实现 62-65

5.4.2 配置模块实现 65-68

5.5 本章小结 68-69

第六章总结与展望 69-71

6.1 工作总结 69

6.2 工作展望 69-71

致谢 71-72

上一篇：根据信息ICMP荫蔽通道检测研讨
下一篇：形式匹配算法研讨和其在IDS中的使用

相关计算机论文论文

基于知识图谱的档案智能语义检索关键技术研	云计算系统中的资源分配技术研究
计算机视角下微服务相关技术研究与应用实践	基于信誉评分计算机算法的僵尸网络自动化检
基于机器视觉的布料瑕疵检测若干关键技术研	基于万有引力搜索算法的测试用例生成技术研
FPGA的物理不可克隆函数计算机关键技术研究	基于计算机雷达图像道路地下病害识别技术研
基于特征的图像被动取证计算机技术研究	基于RFID地理信息的计算机机器人群调度技术
进程网的仿真与可达图技术研究	面向测试和模型检测需求的程序建模技术研究