鉴于知网的多关键字检测探析

论文价格:免费 论文用途:其他 编辑:mjt1985 点击次数:107
论文字数:58400 论文编号:sb201211171201534269 日期:2012-11-18 来源:硕博论文网

绪论

1.1课题目的和意义

1.1.1搜索引擎的重要性
    目前,随着INTERNET网络的迅速发展以及存储设备价格的不断下降,网络上的信息正在以爆炸指数增长,网络也就成为全球取之不尽,用之不竭的信息资源基地,其信息内容涉及广泛,几乎包括文化艺术、科技教育、商业、工农业生产、娱乐休闲等诸多方面。人们也就越来越依赖在网络上查找对自己有用的信息,信息检索逐渐成为我们上网主要目的之一。2007年CNNIC搜索引擎市场调查报告显示搜索频率的变化将在很大程度上显示网民在网络生活中对搜索的依赖程度。调查的总体样本中有44.71%的用户经常使用搜索(每天多次使用),每天都会使用一次搜索的用户占到17.2%,这意味着超过60%的用户每天都会搜索互联网。
    在互联网发展初期,网站相对较少,查找信息比较容易。但是,当前Internet上的信息检索系统正经历着从“数量累积阶段”句“质量精炼阶段”的变革,网络信息浩如烟海,大量信息垃圾也混杂其中,要想准确获取准确的信息,并非十分容易。如何向用户提供质量好目_数量适当的检索结果成为信息检索技术发展的方向之一。搜索引擎作为网络信息搜索的主要工具,它以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务。在一定程度上,搜索引擎为人们查找需要的准确信息提供了便利。

1.1.2当前搜索引擎存在的问题
    虽然搜索引擎已为人们检索信息提供了很大方便,但当前,搜索引擎还是存在以下的不足:
    ①大部分搜索引擎索引包含的网页只占全世界所有Web网页的一小部分,CNNIC调查结果也显示,我国同时使用两个及以上搜索引擎的用户占总用户数的76.3%,这表明大部分用户在使用搜索引擎时,单个搜索引擎无法满足其全部需要,用户还需要选择一个或多个其他搜索引擎来实现其搜索目的,这就需要一个具有统一人机界面的搜索引擎(即兀搜索引擎),以便将各搜索引擎的信息融合起来,避免大家花了大量时间选择不同的搜索引擎进行逐个查询;
    ②搜索引擎在面对“富数据,穷信息”的问题上,往往采用基十关键词的搜索技术,这在处理单一关键词时虽然可以缓解“找信息难”的问题,但也不可避免的出现只将内容作为字符串匹配而不检查语义关系这样导致结果信息中包含大量不相关信息的尴尬。这样的检索结果在数量上远远超出了用户的吸收和使用能力,让人感到束手无策,这也就是现在经常谈论的“信息过载”、“信息超载”现象。而这种技术在面对多关键词的时候,问题尤为突出。首先,由十只是基十字符串匹配,使得位置靠后的查询关键词很可能被忽略。再者,即使多个关键词都匹配到,但由十没有深究它们的语义关系和考虑各关键词的权重,从而导致检索结果与用户意图不符,并列出大量的无关搜索结果。
    因此,如何更好的理解关键词信息、改进搜索关键词、进行语义关系联想已经成为新一代智能中文搜索引擎系统堕待解决的核心问题。而成功的智能搜索引擎基础和核心技术就在十知识库。一个良好的知识库构架,以及基十这种知识库的语义和关联关系处理直接影响智能搜索引擎的成功与否,因此如何选择知识库和知识库的认知研究也就成为了智能搜索引擎技术的当务之急。
      《知网》是面向计算机的双语常识知识库,它提出了语义研究以及大规模语义词典或大规模知识库建设的新的思路。它着力反映概念的共性和个性,以及概念之间和概念的属性之间的各种关系。因此,《知网》是面向计算机的智能构件。若能在《知网》的基础上,建立合理的结构以及研究其各种语义关系、词语相关度等等,并提供多关键词语义关系的识别并自动设置权重的功能,将会使得《知网》在智能信息处理方面有着很大的优势,也能进一步理解用户的实际查询需求,使得搜索结果更接近用户预期目标。
    鉴十上述问题,本文提出基十知网的多关键词知晓模型,用以计算多关键词的语义关系,并设置不同关键词的权重,最终实现提高搜索结果的准确度和搜索质量,满足用户的真实需要。论文课题的研究对十信息检索向自然语言处理发展具有一定的科学意义和研究价值。

1.2本文的组织结构

    本文的组织结构如下:
    第一章是介绍课题的背景、研究意义。
    第二章是分析搜索引擎的发展历史与现状,着重介绍了智能搜索引擎以及兀搜索引擎的概念、原理、分类和进展。
    第二章对《知网》的基本概念、组织结构、基本思想和概念描述做了简单的介绍,并讨论了现有的一些语义计算,包括义原的相似度和词语的相似度。
    第四章给出一个基十知网的多关键词的知晓模型。在此模型中提出了新的消除歧义的方法,初步解决的知网中复合词(未登录词)的义原表示项,重点给出了多关键词的基十语义关系的分级权重思想,它基十不同的语义关系提出这些关系中的核心关键词,并对核心关键词赋予一级权重。

 

    2.4 智能元搜索...............21-23
3 知网简介............... 23-35
    3.1 知网的提出............... 23-24
    3.2 知网的结构............... 24-26
    3.3 知网的指导............... 26-29
    3.4 知网的描述............... 29-31
        3.4.1 知网的知识............... 29
        3.4.2 知网的描述............... 29-31
    3.5 基于知网的语义............... 31-35
        3.5.1 义原相似............... 31-33
        3.5.2 词语相似............... 33-35
4 基于知网的多关键词知晓............... 35-53
    4.1 多关键词检索的...............35
    4.2 多关键词分析............... 35-37
    4.3 最佳义原表示项............... 37-44
        4.3.1 现有的基于知网的............... 37-39
        4.3.2 基于知网的消歧............... 39-44
    4.4 多关键词的语义关系............... 44-49
        4.4.1 多关键词的............... 44-45
        4.4.2 多关键词的............... 45-47
        4.4.3 核心关键词的............... 47-49
    4.5 复合词的知晓............... 49-53
        4.5.1 分解复合词............... 49-50
        4.5.2 复合词语义............... 50-53


结论
    网络已经成为一个全球最大的信息库,人们也越来越享受信息共享带来的好处,但是随着信息的口益爆炸式增长,人们享受信息共享的同时也出现了想要找到准确的信息难的问题。搜索引擎技术作为人们获取信息的一种工具,虽然能够缓解这种问题,但是在面对多关键词时,传统的搜索引擎却有点力不从心,较低的查准率直接影响了信息检索的质量,提高了检索代价。人们迫切需要一种能处理多关键字的信息工具来提高信息的准确度,本文主要就多关键字检索进行分析研究,重点从理论上研究提出了基十知网的多关键字检索模型。
    本文的主要工作可以概括为以下几个方面:
    ①分析了当前传统搜索引擎与兀搜索引擎的发展及现状。根据搜索引擎的不足,提出多关键词检索的重要性,即认为多关键字的检索是面向自然语言检索的过渡。并深入研究《知网》系统,从知网的组织结构和基本思想认为其作为知识库进行多关键字分析的可行性。


QQ 1429724474 电话 18964107217