军事理论论文参考范文:军事敏感资讯搜索体系的研究

论文价格:免费 论文用途:其他 编辑:linbingkun 点击次数:147
论文字数:24332 论文编号:sb201308292122567949 日期:2013-08-30 来源:硕博论文网
概述
 
1.1 研究背景
现代社会不断增长的信息,使人们在海量信息中获取自己想要的信息成为一种新的挑战。从而也造成搜索引擎的不断发展,并成为人们用于寻找信息的首选工具,最常用的搜索引擎如:谷歌,百度等。随着谷歌的成功,全世界好象都突然关注了搜索引擎这个领域,很智的时间内,各种搜索的服务横扫整个互联网。在不断的发展中,随着搜索引擎的市场经济值不断增加,许多公司都着力进行自己搜索引擎的开发,从刚开始的谷歌,雅虎搜索引擎,到现在已经很普及的百度,Sougu,MSN,8848 购物搜索等等各种各样的搜索引擎几乎在同一时间出现。特别是由于 Web2.0 的不断普及,网络中的信息量更是加倍的迅速膨胀,用户对于搜索引擎的需求越来越大,也造成几乎每一网站都加入了满足自身功能的搜索功能。这也是搜索引擎技术已经各类技术人员关注的焦点的重要原因。
同时,在信息时代存在着的海量信息,通常都采取各种不同的形式存在,比如:信息报告,电子邮件,文章,记录等等,如何在有需要的信息中提取有用信息的敏感信息资源,已成为一个热门的研究内容[1]。特别是在信息化建设过程中军队,信息化是领先的战争,信息,高效,准确的或不畅通的生命线,直接影响经营决策,指挥,通信和其他重要环节。但是考虑到军事应用本身的特殊性,在正常满足一般搜索引擎能够准确对信息进行获取功能的同时,必须应满足以下几个条件
:第一,即时性。在军事信息系统中,其对敏感信息的时间性能有着较苛刻的要求。不仅要求系统可以快速地对网络信息进行索引的创建,而且还能够及时提供所需要的查询;
第二,独立性。对系统而言,其建立的索引库应该相对独立。
特别同业务库独立。由于对索引的创建要对大量资源的消耗,不具备独立性,就会对业务库的性能产生消极影响;
第三,扩展性。在军事的各种应用中,信息可能存在的格式是多种多样的,绝不可能仅仅是 WORD、PDF 等人们十分熟悉的格式化文档。完全可能存在着一些特殊文件格式,最为典型的如:复杂的网页格式等。系统必须要能够实现对这些不同格式的信息实现有效地检索;
第四,专业性。在军队进行信息化的过程中,由于不断的发展,逐渐产生了许多新词汇,这些词汇往往具备较强的专业性。系统也应该能够对这些新词进行较为准确地识别:
第五,跨平台。由于信息系统处于网络化的环境中,面对着不同的平台系统。因此系统应该对不同的平台实现支撑,以便实现查询,以满足部队的联合,以及在合成做战的各种需要。
 
1.2 研究现状
对于搜索引擎的研究,在现行网络中最为常见的通常都是面向 Internet 的各种各样的检索系统。这类系统的典型特点在于,其实现索引的库同系统自身的业务库是区分开的,这一特点完全能够被利用起来,从而实现军事系统所需要的独立性。与此同时,这类系统的基本工作方式是依靠网络蜘蛛,或者机器人在网络上对网页信息的不断获取,由于网页量的巨大,必然给系统建立索引带来难度,使其更新往往都比较慢。这一点上又无法对军事应用的即时性进行满足。除了面向Internet 的检索系统外,存在着另一种所谓面向数据库的检索方法,由于其索引往往都在数据库中进行存放,无法达到即时性需求,尽管能够采取一定的机制来改善其即时性,但系统在创建索引时必然会对数据库的效率带来实质性的影响,失去了独立性。除此之外,数据库检索构件由于数据库自身的特点也无法很好的满足扩展性和专业性。另外,那些基于传统的手工检索,包括在图书馆中普遍存在的文献检索方法更不能满足信息发展所带来的检索需要。
正是考虑到上述的因素,逐渐形成并发展了全文检索技术[1]。其技术的核心是全文搜索,基本意思是对所有文件的索引数据库中记录的信息的出现,是各基本要素的来源。另外,中文和英文全文搜索相比,作为不同的索引机制,自然语言系统是不一样的。英文以词为单位,建立索引英文单词,无关的字母,而中言语最小的单位是字。此外,英语单词用空格和标点符号作为分隔符点,以及中国文字之间没有天然的分隔符。因此,中文和英文全文搜索实现比困难多。
中文系统,有两个基本指标数据库结构,也就是索引词表在图书馆和图书馆为基础的词汇索引为基础。双方各有优势和劣势的索引组织,国内学者研究的重点,前者是实用,容易建立直观,但检索速度不高,罢免,精度不能令人满意,后者检索速度,精度高,但是当中国词容易产生歧义,而需要建立和维护词库。整个索引技术在近几年的发展,在全文检索索引中引入了控制技术和人工智能技术,智能理论的研究分为两个方面介绍检索的基础上,一个是智能化生产,其机制主是指采取智能的方式形成和指导具体的研究工作;另一方面则是对人工模拟如何自动的实现,特别对于情报的延伸和扩展。
 
第二章 关键技术分析..............5
2.1 搜索引擎技术分析 ............ 5
2.2 Lucene 技术分析 ............. 7
2.3 全文检索技术分析 ............ 8
2.4 中文分词技术分析 ............ 11
2.5 本章小结 .............. 12
第三章 军事敏感信息搜索系统的需求分析...................13
3.1 总体需求分析 ............ 13
3.2 用户界面模块需求分析............. 17
3.3 本章小结 ........... 17
第四章 军事敏感信息搜索系统的设计.................18
4.1 总体设计 ............. 18
4.2 用户界面及 Web 模块设计 .............. 22
4.3 数据库设计 .............. 28
 
总结与展望
本文通过对建立军事敏感信息搜索系统涉及到的技术进行了较为全面的研究。着重从搜索引擎技术的发展历史,全文检索技术和中文分词技术三个方面进行了较为深入的研究。通过对 Lucene 技术,全文检索中的索引技术,中文分词算法及面临的问题等关键技术的研究,为下一步建立军事敏感信息搜索引擎系统建立了理论和技术基础。
然后在此基础之上,通过对该系统的需求分析,特别是对用户界面和 Web 模块的需求分析,确定了进行设计的基础。并在此基础之上给出了系统的总体设计,和所需数据库表的设计,并着重对所负责的用户界面模块和 Web 模块进行了设计,为下一步的具体实现奠定了基础。
 
参考文献
[1] 邱哲,符滔滔.Lucene2.0+Heritrix 开发自己的搜索引擎,第 2 版,人民邮电出版社,2007.
[2] 车东.在应用中加入全文检索功能-基于 Java 的全文索引引擎 Lucene 简介 2003.
[3] The Apache Jakarta http://sblunwen.com/jslllwdx/ Project;Lueene.2005
[4] 张校乾,金玉玲,侯丽波.一种基于 Lucene 检索引擎的全文数据库的研究与实现.信息检索技术,2005(2):40-43
[5] 郎小伟,王中康.基于 Lucene 的全文检索系统研究与开发.计算机工程,2006,32(4):94-96.
[6] 李刚,宋伟,邱哲著.Ajax+Lucene 构建搜索引擎.第 1 版.人民邮电出版社,2006
[7] 中文全文检索网.
[8] 周文帅,冯速.汉语分词技术研究现状与应用展望.山西师范大学学报(自然科学版),2006,20(1):25-29
[9] 王知津,贾福新,郑红军等译.现代信息检索.第 1 版.北京:机械工业出版社,2005
[10] 曹元大,贺海军.全文检索字索引技术的研究与实现.计算机工程,2002,28(6):260-262

QQ 1429724474 电话 18964107217