查询接口匹配技术中应用DeepWeb的研究

论文价格:免费 论文用途:其他 编辑:www.sblunwen.com 点击次数:194
论文字数:30000 论文编号:sb201208171717262185 日期:2012-08-17 来源:硕博论文网

查询接口匹配技术中应用DeepWeb的研究

第一章绪论

 
        问题提出目前Web技术不断发展,带来了信息的飞速增长,其中蕴含着海量的有价值信息。最新调查显示[’],目前整个Web超过了200,000TB的信息量,而且仍在快速的增长。Web中的信息主要通过网页的形式对外发布,不同网页的形式和内容差异很大,而且分布在Internet网上任何一个角落,造成了Web数据的异质性和缺乏结构性。由于以上的这些原因,使得自动从海量的Web信息中获取有价值的信息和数据变成一项很具有挑战性的任务。在Web领域的研究目的在于发展新的技术可以有效地从Web中获取有用的信息。到目前为止,为了有效利用Web上信息,所涉及的Web技术有数据挖掘、机器学习、自然语言处理、统计分析、数据库和信息检索等。一图1.1存储在数据库中丰富的DeepWeb信息整个Web按照信息所蕴含的深度分为两类:SurfaceWeb和DeepWeboSurfaceWeb指能被普通搜索引擎利用爬虫程序通过超链接所检索到的信息,这些信息对搜索引擎是可见的。
 
        而对于DeepWeb而言,目前还没有一个统一的定义,一般是指Web中在线可访问的数据库,称为Web数据库。这些内容是由用户通过特定的查询接口提交查询,由后台数据库动态创建返回给访问者的,由于没有超链接指向这些动态页面,因而搜索引擎不能检索到。DeepWeb页面与SurfaceWeb页面在本质上有很大不同,DeepWeb页面内容存储在可访问的数据库中,如图1.1所示。DeepWeb之所以被人们备受关注,主要因为其信息的海量性和专业性。2000年7月,Brightplanet对DeepWeb做了一次较为全面的宏观统计,发布了DeepWeb的白皮书,指出整个Web中大约有43,000-96,000个Web数据库。UIUC大学在2004年4月对整个DeepWeb做了一次较为准确的估算[f21,推测整个Web中有307000个提供Web数据库的网站、450000个Web数据库,比Brightplanet在2000年估计的数据库网站数目增长了3-7倍。以下是从宏观上对DeepWeb做了定量的调查统计,结果表明:(1)整个DeepWeb覆盖了世界的各个领域,例如商业、教育、政府等。但就单个DeepWeb而言,有超过50%的DeepWeb内容是特定于某个领域的,即领域专一化;(2)DeepWeb中的后台数据库大多是结构化的,其中结构化的数据库是非结构化的3.4倍之多;(3)Web数据库查询接口往往位于站点浅层,94%之多的大量Web数据库查询接口可以在站点前3层发现;(4)对DeepWeb的数据访问量比SurfaceWeb要高出15%,其信息质量远远高于SurfaceWeb;(5)DeepWeb上95%的信息是可以公开访问的,即可以免费获取。
 
        目前一些DeepWeb目录服务已经开始索引Web数据库,但是它们的覆盖率比较小,仅为0.2%一15.6%0尽管DeepWeb信息具有如上众多优点,但是由于目前Web数据库存在规模大、自治性、异质性、动态性等问题,要想全面而准确地利用DeepWeb信息并不是一件容易的事,因此对于DeepWeb的研究日益成为研究热点。目前在DeepWeb这个领域,己经建立了一个DeepWeb信息集成系统框架。查询接口匹配是查询接口集成至关重要的一步,也是整个DeepWeb信息集成系统的基础,因此查询接口匹配技术在Deepweb研究领域有着重要地位。目前国内这方面的研究很少。
 
 
参考文献
[1]  Fetterly D, Manasse M, Najork M, et al. A large-scale study of the evolution of web pages[C]//Proceedings of the 12th International World Wide Web Conference, Budapest, 2003:669-678
[2]   Chang K. C, He B, Li C, et al. Structured databases on the web: Observations andImplications [J]. SIGMOD Record, 2004, 33(3): 61-70
[3]   Deep Web Technology汇EB/OL]. (2005-10). http://www.deepwebtech.com
[4]   Invisiable.com [EB/OL]. (2005-10). http://www.invisiable.com
[5]   M. K. Bergman. The Deep Web: Surfacing Hidden Value [J]. The Journal of Electronic Publishing, 2001,7( I ): 8912-8914
[6]   MetaQuerier Research Group [EB/OL]. (2006-06). http://metaquerier.cs.uiuc.edu/
[7]   Hasan Davulcu, Juliana Freire, Michael Kifer, et al. A layered architecture for queryingdynamic Web content[C]//Proc of International Conference on Management of Data. NewYork: ACM Press, 1999: 
[8]   S. Raghavan, H. Garcia-Molina. Crawling the hidden Web[C]//Proceedings of the 27thInternational Conference on Very Large Data Bases, Roma, Italy, 2001:129-138
[9]   QProber Research Group [EB/OL]. Accessible at http://qprober.cs.columbia.edu/Oct 2005
[10] Robert B.Doorenbos, Oren Etzioni, Daniels Weld. A scalable comparison shopping agentfor the World-Wide Web[CJ//Proc of the First International Conference on Autonomous
[11]L.Barbosa, J.Freire. Siphoning hidden-web data through keyword-based interfaces[CJ//Procof the Brazilian Symposium on Database, New York: ACM Press, 2004: 309-321
[12]Michael K. Bergman. Deep Web White Paper [EB/OL]. (2004-10). http://brighplanet.com
[13]Chris Sherman, Gary Price. The Invisible Web: Uncovering Information Sources SearchEngines Can't See [J]. Library Trends. 2003(2): 282-298
[14]中国互联网络信息中心((CNNIC),第23次中国互联网络发展状况统计报告〔R].2009,23-25
[15]   Cope J., Craswel N., Hawking D. Automated discovery of search interfaces on the Web
 
 
摘要 5-7 
ABSTRACT 7-8 
第一章 绪论 11-20 
    1.1 问题提出 11-13 
    1.2 研究现状 13-18 
    1.3 论文研究内容 18 
    1.4 论文结构安排 18-20 
第二章 查询接口匹配技术 20-35 
    2.1 Deep Web信息集成系统 20-24 
    2.2 查询接口匹配技术 24-32 
        2.2.1 基于模式的匹配技术 25-29 
        2.2.2 基于实例的匹配技术 29-31 
        2.2.3 现有技术的不足 31-32 
    2.3 本文研究框架 32-34 
    2.4 本章小结 34-35 
第三章 基于关联挖掘的成组属性生成方法 35-46 
    3.1 工作流程 35 
    3.2 数据预处理 35-36 
    3.3 关联挖掘 36-43 
        3.3.1 相关度度量标准 38-40 
        3.3.2 属性矩阵 40-43 
    3.4 实验步骤与结果分析 43-45 
        3.4.1 实验步骤 43 
        3.4.2 结果分析 43-45 
    3.5 本章小结 45-46 
第四章 基于语义聚类的同义属性生成方法 46-55 
    4.1 工作流程 46 
    4.2 语义聚类 46-50 
        4.2.1 语义相似度 47-49 
        4.2.2 数据域相似度 49-50 
    4.3 匹配筛选 50-52 
        4.3.1 排序 51-52 
        4.3.2 选择 52 
    4.4 实验结果分析 52-54 
    4.5 本章小结 54-55 
第五章 面向图书领域的Deep Web集成系统 55-69 
    5.1 系统目标 55-57 
        5.1.1 性能目标 55-56 
        5.1.2 功能目标 56-57 
    5.2 系统总体设计 57-58 
    5.3 系统详细设计 58-62 
        5.3.1 检索模块设计 58-59 
        5.3.2 配置模块设计 59-62 
    5.4 系统实现 62-68 
        5.4.1 检索模块实现 62-65 
        5.4.2 配置模块实现 65-68 
    5.5 本章小结 68-69 
第六章 总结与展望 69-71 
    6.1 工作总结 69 
    6.2 工作展望 69-71 
致谢 71-72 
 

上一篇:根据信息ICMP荫蔽通道检测研讨
下一篇:形式匹配算法研讨和其在IDS中的使用
QQ 1429724474 电话 18964107217