领域本体理论下公安案情文本发掘方法探究

论文价格:免费 论文用途:其他 编辑:jingju 点击次数:54
论文字数:40000 论文编号:sb201211221318324412 日期:2012-11-24 来源:硕博论文网

第1章序言

   1.1课题背景及研究意义

    随着经济的发展和网络普及,公安执法领域信息化系统也大量应用,使得公安执法领域已基本实现信息互连,互通,这在一定程度上提高了办案的效率,有效的打击了违法犯罪行为,维护了社会的稳定。但当面对海量的案件文本信息时,执法人员如何及时准确地分析和处理案件成为迫切需要解决的问题。通常情况下,公安法制科办案人员主要是依据自身的经验处理案件,但是,由于执法人员的办案经验及对法律法规的熟悉程度良莠不齐,就产生了很多判决有失偏颇的问题,而现有的公安信息系统的应用基本停留在查询、统计等一些简单的应用,不能满足案件处理的需求,所以,本文釆用文本挖掘的相关技术对案情文本深入分析,提取关键信息,自动分类,查找对应法律条款,为办案人员提供法律支持。
    文本挖掘的研究涵盖了多个领域,如自然语义处理、统计、信息检索、数据挖掘等。文本挖掘过程中首要解决的问题是文本在计算机中的形式化表示,因为它需要从计算机不能直接处理的,无确定形式的文本资源中抽取出系统所需的信息模型,形成结构化数据,再对这些数据按照系统的要求进行分析处理。目前,文本挖掘技术己经成功用于多个领域,包括:科技情报中的应用、信息检索中的应用、医学研究中的应用以及互联网信息统计中的应用。公安领域案情文本就是属于一种非结构化的自由文本,利用文本挖掘技术可以帮助办案人员提取出案情关键信息,包括:案发时间、地点、涉案人员、违法行为等,并且可以实现案件的自动分类,聚类,帮助办案人员利用以往的案件的信息,分析当前案情,串并案件,已达到快速的分析和处理案件的目的,大大减轻办案人员的工作量,提高案件处理效率,并在一定程度上保证了案情处理的公平、公正性。
    此外,本文通过构建法律领域本体模型,实现对法律知识的表达与推理,同时也为案情文本的挖掘提供背景知识,从而提高了案情文本挖掘的准确性,弥补了传统的文本挖掘模型中,文本被当做是一些基本的语言单位所组成的集合,而忽略了领域的背景知识的缺点。..............
................

第2章文本挖掘相关技术介绍

   2.1概述

    文本挖掘技术是用于在自然语言描述的文本信息中抽取用户感兴趣的信息,并能进行相关的处理分析它与数据挖掘类似,文本挖掘中的很多研究方向都来源于数据挖掘,只不过它们的研究对象不同,数据挖掘的处理对象是已经结构化存储的数据,而文本挖掘的对象是结构化或无结构化的文本集合。研究对象的不同也导致它们的预处理过程的不同,数据挖掘的预处理过程主要是清除数据噪音,规范数据,和创建连接表。而文本挖掘的预处理过程中首要解决的问题是文本的形式化表示,所以文本挖掘的预处理过程主要是采用自然语言处理技术,如中文分词、语法分析、句法分析等,识别和抽取文本特征,把文本对象结构化的存储在计算机中。
    文本挖掘过程中涉及到很多方面的技术,首先要用自然语言处理技术,对文本进行中文分词,对数字、日期进行处理,还需要进行词性标注,实体识别,然后再进一步进行句法分析,语义分析等操作,从文本中提取有意义的词语作为代替文本的元数据。最常采用的是特征项空间模型来表示文本,针对文本向量中特征项过多的问题,我们可以根据不同文本的特点釆用不同的特征选择或抽取算法来实现文本向量的降维,然后,计算特性向量的权重,接着依据文本挖掘的目标选择合适的文本挖掘算法,再对这种方法进行评估比较,最后把结果可视化输出,帮助用户用于解决实际的问题。

2.2中文分词方法

    中文分词是指利用计算机把文本切分成词的集合,由于中文的特殊性,词语之间不像英文一样存在空格,也没有词形变化,所以中文分词方法较之英文更复杂。下文中简单的介绍几种常用的中文分词方法。

  1)基于词表的分词方法
    首先需要建立一个词表,然后找到词典中词长最长或最短的词条M,再用M长度的滑动窗口正向或逆向扫描文本,用窗口中对应的子串匹配词典中的词条,如果匹配成功,那么该子串则是一个己识别出的词,把它从文本中分离出来,接着移动滑动窗口继续匹配,直到移到文本末尾,则让滑动窗口的值减1或增1继续前面的匹配方法。.........
.............

第3章法律本体模型...................................15
3.1 本体概述.............................................15
3.2 本体构建...............................................15
3.3 法律本体的构建.................................18
3.4 本章小结..............................................22
第4章案情文本挖掘的关键技术......................23
4.1 概述...........................................................23
4.2 案情文本预处理过程...........................24
4.3 案情文本表示模型...................................25
4.4 案情文本分类方法...................................31
4.5 案件文本检索相关法律条文......................39
4.6 方法分析和总结...............................................39
4.7 本章小结...........................................................40
第5章案情文本挖掘的实验结果及分析.......................41
5.1开发平台与工具.......................................................41
5.2 评价指标 ...................................................................44
5.3实验结果及分析..........................................................45
5.4 本章小结 ...............................................................49
第6章 总结与展望......................................................50

总结

     本文主要针对非结构化的案情文本到法律条文的映射问题进行探讨,涉及到了法律本体的构建和文本挖掘的相关技术,利用法律领域本体为案情文本挖掘提供领域知识,以提高文本挖掘的效率,目前,基于本体的文本挖掘研究成为了文本挖掘研究的热点方向,但是大多数都集中在常识本体上,对于领域本体的研究方面还是不够深入,究其原因应该在于本体构建还没有一个标准的构造方法,本体构建过程中缺少规范性,还缺乏本体的评价标准,再加上需要领域专家的参与,所以导致目前的领域本体通常只是为某个系统专门而设的,忽略了本体的共享和可重用性,这也加大了领域本体构建难度。此外,近年来,由于网络的飞速发展,电子文本数量急剧增多,信息膨胀,文本挖掘技术也受到越来越多的关注,各种文本挖掘算法不断改进,取得比较好的文本挖掘效果。本文就是采用文本挖掘相关技术用于法律案情文本的分析处理中,取得比较好
的实验结果。主要做的工作如下所述。
  1、通过分析现有法律本体模型,结合本文所涉及到的法律知识的特点,借鉴了 Stanford大学的“七步法”构建了用于本系统的法律领域本体模型。  
  2、构建了基于法律本体的案情文本表示模型。在对案情文本的分词过程中,通过在分词组件中添加自定义的关键词库,改进了对案情文本的分词效果。此外,利用法律本体的领域知识,改进了传统文本“词袋”表示模型中用特征词作为文本特征向量,而忽略了文本的语义的问题,提出了用法律本体中的概念代替特征词,从而很好的解决了案情文本中的同义词、多义词的问题。
  3、釆用近邻算法实现了对案情文本的分类处理,利用本体概念树计算概念间的相似度,调整概念权值,进而改进了案情文本相似度计算方法,提高案情文本分类的准确性,然后计算案情文本与其所属类别中的法律条文的相似度,输出相似度最大的法律条文。


QQ 1429724474 电话 18964107217