根据网站目录结构及链接形式分析的Spider爬行策略研究与实现

论文价格:免费 论文用途:其他 编辑:www.sblunwen.com 点击次数:191
论文字数:30000 论文编号:sb201208222234122463 日期:2012-08-27 来源:硕博论文网

 

第一章引言  
 
        1.课题研究目的和意义近年来,随着WWW的飞速发展,根据最近调查报告显示,截至2008年6月,中国网站数量已经达到191万个,半年内增加了41.5万个,比2007年同期增加了60.7万个,年增长率达到43.6%。其中增长最快的是CN域名下的网站,目前.CN下网站数已达137万,年增长率达到137.5[1]。除了不断有新的网页出现外,旧的网页也可能会因为各种原因删除,有研究[f21指出:50%网页的平均生命周期大约为50天。在网页数量激增,大量网页不稳定的情况下,网页之间也存在链接关系,这种链接关系是:网站内部是有序的、层次清晰的;网站外部之间的链接关系则是复杂的、随意的、层次不清晰的。如果把Web页面看作节点,页面间的超链接看作边,那么整个万维网可以看作一个巨大的有向图,也称之为网络图。整个Web图中大约有92%的节点是相互连通的[3],在这种情况下如何才能高效快捷地为用户找到自己所需要的内容,就成为当今搜索引擎要解决的一个重要问题。通过对Web的结构挖掘能够获得比较好的爬行效果。Web结构挖掘的主要内容在于超链接分析,即通过分析页面的链接关系来研究网页的引用关系,从而发现有用模式,提高搜索质量[[4,5]0面对数量庞大的网页,如何快速高效的获取用户所需要的信息就是当前搜索引擎要解决的一个重要课题。
 
        1.2搜索引擎的发展历程及现状1.2.1搜索引擎发展历程90年初当时万维网(WorldWideWeb)还未出现,为了查询散布在各个分散的主机中的文件,曾有过Archie}Gopher等搜索工具,随着互联网的迅速发展,基于HTTP访问的web技术的迅速普及,他们就不再能适应用户的需要[[6]。在1994年1月,第一个既可搜索又可浏览的分类目录EINetGalaxy(TradewaveGalaxy)上线,它还支持Gopher和Telnet搜索。同年4月,Yahoo目录诞生,随着访问量和收录链接数的增长,开始支持简单的数据库查询。这就是我们说的早期的,目录导航系统,他们的缺点网站收录/更新都是要考人工维护,所以在信息量剧增的条件下,就不是非常受用了。1994年7月,Lycos推出了基于robot的数据发现技术,并支持搜索结果相关性排序,并且他第一个开始在搜索结果中使用了网页自动摘要。Infoseek也是同时期的一个重要代表,他们是搜索引擎史上一个重要的进步。1995年,一种新的搜索引擎工具出现了—元搜索引擎,第一个元搜索引擎是华盛顿大学的学生开发的Metacrawler。用户只需提交一次搜索请求,由元搜索引擎负责转换处理后提交给多个预先选定的独立搜索引擎,并将从各独立搜索引擎返回的所有查询结果,集中起来处理后再返回给用户。1995年12月AltaVista推出了大量的创新功能使它迅速到达当时搜索引擎的顶峰,它第一个支持自然语言搜索的搜索引擎,具备了基于网页内容分析,智能处理的能力,第一个实现高级搜索语法的搜索引擎(如AND,OR}NOT等),同时A1taVista还支持搜索新闻群组(Newsgroups,搜索图片等具有划时代意义的功能。同时期还有inktomi}HotBot等搜索引擎。1997年8月Northernlight公司正式推出搜索引擎,它第一个支持对搜索结果进行简单的自动分类,也是当时拥有最大数据库的搜索引擎之一。1998年10月,Google诞生。它是目前最流行的搜索引擎之一,具备很多独特而且优秀的功能,并且在界面等实现了革命性创新。
 
        1999年5月,Fast(Alltheweb)公司发布了自己的搜索引擎Al1TheWeb,它的网页搜索可利用ODP(OpenDirectoryAddress)自动分类,支持Flash和pdf搜索,支持多语言搜索,还提供新闻搜索、图像搜索、视频、MP3、和FTP搜索,拥有极其强大的高级搜索功能。它曾经是最流行的搜索引擎之一,后在2003年2月被Overture收购。在中文搜索引擎领域,1996年8月成立的搜狐公司是最早参与作网络信息分类导航的网站,曾一度有“出门找地图,上网找搜狐的”美誉。由于其人工分类提交的局限性,随着网络信息的暴增,逐渐被基于robot自动抓取智能分类的新一代信息技术取代。台湾中正大学吴升教授所领导的GAIS实验室1998年1月创立了Openfind‘中文搜索引擎,是最早开发的中文智能搜索引擎,采用GAIS实验室推出多元排序((PolyRankTM)核心技术,截止2002年6月,宣布累计抓取网页35亿,开始进入英文搜索领域。北大天网是教育网最流行的搜索引擎,它由北大计算机系网络与分布式系统研究室开发,于1997年10月29日正式在CERNET上提供服务,2000年初成立天网搜索引擎新课题组,由国家973重点基础研究发展规划项目基金资助开发,收录网页约6000万,利用教育网优势,有强大的ftp搜索功能。百度中文搜索由超链分析专利发明人、前Infoseek资深工程师李彦宏和好友徐勇2000年1月创建,目前支持网页信息检索、图片、Flash、音乐等多媒体信
 
参考文献
[1]中国互联网信息中心.第22次中国互联网络发展状况统计报告[[oL]. 2008,
[2]uploadfiles/doc/2008/7/23/170424.doc
[3]Cho J, Garcia-Molina H. The evolution of the web and implications for an incrementalcrawler[A]. Proceedings of 26`" International ConferenSeptember 10-14, 2000: 200-209
[4]Gordon S, Linoff Michael J, A Berry等著,沈钧毅,宋擒豹,燕彩蓉,等,译.Web数据结构挖掘:将客户数据转化为客户价值[M].北京:电子一I:业出版社,2004
[5]张佳,梁少华.Web结构挖掘与其基于超链接结构的算法[[J].计算机与信息技术,2007年第二期:20-53
[6]Dell Zhang, Yisheng Dong. An efficient algorithm to rank web resources[J]. ComputerNetwoks, 2000, 33: 449-455
[7]周琦任.搜索引擎的发展概况与趋势[[J].湖南第一师范学,2006年6月第二期:152-154
 
 
摘要 4-6 
ABSTRACT 6-7 
第一章 引言 12-18 
    1.1 课题研究目的和意义 12 
    1.2 搜索引擎的发展历程及现状 12-15 
        1.2.1 搜索引擎发展历程 12-14 
        1.2.2 搜索引擎分类 14-15 
    1.3 搜索引擎的基本框架及工作原理 15-18 
第二章 基于链接分析的网络爬虫算法 18-26 
    2.1 网络爬虫介绍 18-19 
        2.1.1 网络爬虫概述 18 
        2.1.2 网络爬虫的基本组成及工作原理 18-19 
    2.2 网络爬虫搜索策略的发展及现状 19-21 
    2.3 注重网页质量的网络爬虫搜索策略 21-26 
        2.3.1 Pagerank 21-22 
        2.3.2 HITS 22-23 
        2.3.3 Backlink和OPIC 23 
        2.3.4 几种搜索策略的分析比较 23-26 
第三章 理论基础及相关技术 26-32 
    3.1 数据库的选择 26 
    3.2 Jeff Heaton Spider介绍 26-29 
        3.2.1 Jeff Heaton Spider体系结构 27 
        3.2.2 各功能模块说明 27-28 
        3.2.3 系统优缺点分析 28-29 
    3.3 其他技术 29-32 
        3.3.1 多线程 29 
        3.3.2 连接池及声明池 29-32 
第四章 爬行策略设计及实现 32-50 
    4.1 Web的结构分析 32-35 
        4.1.1 超链的分析及分类 32-34 
        4.1.2 Web的网站目录组织形式 34-35 
    4.2 数据库设计 35-36 
    4.3 爬行策略设计 36-41 
    4.4 Spider的详细设计与实现 41-50 
        4.4.1 本策略Spider的体系结构 41 
        4.4.2 爬行模块 41-43 
        4.4.3 数据处理模块 43-46 
        4.4.4 数据记录模块 46-50 
第五章 实验结果 50-52 
    5.1 实验环境 50 
    5.2 实验结果及分析 50-52 
第六章 总结与展望 52-54 
    6.1 总结 52 
    6.2 展望 52-54 
参考文献 54-56 

QQ 1429724474 电话 18964107217