针对时空数据库的中文地名二义性辨析系统的策划和完成

论文价格:免费 论文用途:其他 编辑:mjt1985 点击次数:158
论文字数:72000 论文编号:sb201211292026584645 日期:2012-11-30 来源:硕博论文网

第一章概述

    本章主要介绍数据挖掘、文本挖掘、时空数据和词汇二义性等概念,结合目前社会进步和科技发展的趋势,提出了在时空数据库中对带有二义性的地名词汇进行分析,进而消除其二义性的必要性与重要价值。然后本文提出了现阶段国内外相关科研方向研究成果的缺陷和问题,进而提出针对中文地名词汇二义性问题进行解决的现实意义和创新性,从而给出本文对该问题的处理思路和解决方式。最后介绍了论文余下部分的组织结构。

1.1选题背景和意义

    随着科技的飞速发展以及社会的不断进步,计算机、移动终端等产品的应用已经遍及各行各业千家万户。在这些海量应用当中,数据是承载它们功能和作用最基础、最有用、最重要的内容。数据不仅能将这些应用经过处理后得到的信息直观地展现在用户眼前,我们还能通过直接或者间接得到的数据,挖掘出其背后蕴含的更多更有价值的信息和内容。尤其是在计算机网络广泛使用,社会计算及其相关应用快速发展的今天,数据的存储、传输、使用量如井喷一般快速增长甚至爆发的现状已经是不争的事实。如果不对这些数据进行有效内容的过滤分析再提取,用户在通过某些方式(比如使用搜索引擎或者使用基十位置的服务)试图获取有用的信息时,会发现这些有用信息常常都淹没在大量无用的噪声数据里(形象地说,就是用户陷入到了“信息海洋”当中),难以被快速发现和提取。除此以外,为了给用户提供可靠目_高质量的服务,这些应用(尤其是基十WEB服务的应用)还将面对如何维护数据的有效性、可用性和及时更新性等相关的问题。因而对这数据领域的研究,对数据进行高效地采集、过滤、分析和处理,更凸显其重大的意义与价值。
    数据挖掘(Data Mining, DM)正是对上述提及的这一系列的工作的统称。数据挖掘又被称为知识发现(Knowledge-Discovery in Databases, KDD)。它是指对指定数据库中潜在的可能有意义的重要数据,通过一定的算法和方式进行提取和分析,从提取出有用的信息及其对应的规律,进而获取其背后有用的联系与知识的一种技术。这些算法、方式和信息通过用户(数据挖掘者)自定义的模式形态进行传送,并整个数据挖掘的过程是可以迭代的,也是可以通过用户对其进行影响而实现交互的。数据挖掘技术广泛应用于信息管理、查询处理、决策制定、过程控制等许许多多不同的领域当中。由此可见,在信息和数据量爆炸性增长的今天,数据挖掘技术必将承担起越来越多重要而意义深远的工作。
    目前,由于绝大部分的数据都是通过文本的形式进行存储和使用的,因此在数据挖掘领域,文本挖掘(Text Mining)一直是专家学者们研究的重点方}句。文本挖掘通常是指从非结构化数据文档中提取用户感兴趣的知识的过程。它依赖十自然语言工具如标记器(tagger))在基十文本的引用中定位和获取相关的信息,通过对文本的处理(添加属性、去除噪声等)产生结构化的数据,从而输出较为精确(和上下文较为相关,能产生新的知识等)的结果。对文本进行分类、预测等处理,可以挖掘到文字背后蕴含的更多含义,为用户提供高质量的信息。简而言之,如果我们把文档集合的输入看作,把输出模式看作那么文本挖掘的过程就是文档集合从输入到输出的映射。文本挖掘技术广泛运用十学术研究、产品营销、信息安全、生物医学等领域,根据权威的调查报告统计,超过80%的公司信息是通过文本进行存储的。然而文本的非结构化、模糊等特性,使对其的挖掘处理变得复杂。和数据挖掘一样,文本挖掘也是一个涉及多学科多领域(包括信息提取、文本分析、数据恢复、数据集群等)的技术。

 

第三章 提出的方法............ 23-33
    3.1 地名识别过程 ............ 23-25
    3.2 地名解析过程............  25-29
        3.2.1 本地查询实现............ 26-28
        3.2.2 网络查询实现............  28-29
    3.3 其它功能............  29-32
        3.3.1 网络数据本............  29-30
        3.3.2 本地数据的............  30-32
    3.4 本章小结............  32-33
第四章 系统分析............  33-44
    4.1 系统的科学性............  33-35
        4.1.1 系统的原创性............  33
        4.1.2 系统的实用性............   33-34
        4.1.3 系统的可行性 ............ 34-35
    4.2 系统需求分析............  35-40
        4.2.1 系统设计............  35
        4.2.2 系统业务需求............  35-36
        4.2.3 系统用例图............  36-37
        4.2.4 系统类图............  37-38
        4.2.5 系统数据流............  38-40
    4.3 系统主要用例分析............  40-43
        4.3.1 本地查询实现中国............  40-41
        4.3.2 网络查询实现世界............  41-43
    4.4 本章小结............  43-44
第五章 架构设计............  44-50
    5.1 系统架构原理............  44-45
    5.2 系统总体设计 ............ 45
    5.3 系统数据库............  45-48
    5.4 系统功能设计............  48-49
    5.5 本章小结............  49-50


总结
    本文以Bas二层架构作为系统的架构形式,基十时空数据库及地名数据,通过中文分词、地名识别、地名解析、网络爬虫、数据本地化、数据库自定义维护等一系列算法和功能模块,构建了一个完整有效的对中文城市词汇进行二义性辨别分析消除的WEB系统。作者介绍的地理信息二义性分析辨别的研究,致力十提出一个良好的问题解决方案,提高空间数据的预处理质量,为用户对相关信息的正确理解,以及下一步的空间数据挖掘工作提供高质量的数据保证。实现的系统严格按照文中阐述的算法和功能点进行设计构建,返回的结果符合理论值和实际情况,满足设计的要求。
    本人在完成全文过程中做了大量的工作。具体总结如下:
    1.在设计系统之前,本人对中文文本的挖掘处理、空间数据的特性、词汇的二义性分析等方面做了充分的了解、学习与研究,从中发现了词汇二义性消除在空间数据预处理中的重要作用,发现了相关领域在国内外学术研究中的空白与自区,发现了目前研究成果和用户实际使用之间的脱节,从完成了第一章所阐述的选题背景意义、问题描述等内容。

 


QQ 1429724474 电话 18964107217