第一章数据挖掘技术概述
1. 1数据挖掘的意义
在当今信息化的社会中,我们接触到的都是海量的数据,往往我们只需要其中的部分有用信息,采用一些特定的数学或者是统计的方法及模式,从而可以发现数据件存在的关系和规则,从中提取潜在的、非平凡的信息,根据现有的数据模式可以预测到未来的数据趋势,那么这些数据就可以成为管理者的参考。可以说,数据挖掘是一项涉及面非常广泛、并且交叉于各个领域的技术,涉及到诸如科学研究、数据仓库、广告业、新闻、金融业、电子商务、教育业、政府部门、军事机构等多个领域,针对不同的特定应用问题,采用具体不同的数据挖掘方法,比如关联规则挖掘、分类聚类技术、时间序列分析、路径分析等技术。
1. 2数据挖掘的过程
一个完整的数据挖掘过程应该是分五个步骤的:原始数据的获取(采集)、数据准备和预加工、发现可识别数据模式(信息知识)、模式的分析及评估(过滤)、知识的总结表达。各步骤如下图:
1.2.1数据采集
根据当前的目标和原则有针对性地从海量原始数据中获取各种数据的过程,它是计算机和外部自然界的一个联系的桥梁。被采集的信号可以是各种形式的电讯号,可以是数字信号,可以是模拟信号,但是前提是被采集的数据必须准确,因为我们采集到的数据可能是某个时刻的瞬间值,也可能是某一段时间内的特征值。采集的方法一般使用采样方式,每隔一段时间(即采样周期)对同一数据进行多次重复采集。
1.2.2预处理
现实世界中的数据没有我们想象中的那么完整和一致,无法直接进行挖掘,因此,要对我们采集得来的原始数据进行重加工和重组等,这样可以大大提高挖掘的质量。预处理主要要完成以下操作:
(1)数据的清理
数据清理的任务主要是要删除掉那些非正常的数据,所谓异常数据,即指那些噪声数据、冗余数据、无关联数据等,并进行纠正其中的错误等等。随着数据的不断累积,人们更多的想从这些大量数据中得到更有效、有用的信息供使用,但是由于各种原因,比如输入数据一开始就错误、各种数据表示方法不同,各种数据属性可能不一致等,就会造成数据中存在着脏数据、垃圾数据。所以这个步骤就是要清除掉那些无效数据,提高数据的质量和可利用性。
(2)数据的集成
随着近代科技的高速发展以及信息化技术的推进,人类己经采集到大量的数据,甚至超过前5000年的总和,这些数据有时需要实现不同单位、不同部门间的共享,使得更多的人可以使用参考这些数据,也可以避免很多不必要地重复得劳动,大大提高了数据的使用率。
当然在具体实施的过程中肯定会出现难题,比如各种数据来源不同,数据采集方式的不同,数据的内容不同、格式不同等等,这样就会造成数据共享中阻碍的问题。
数据集成是将多个数据源中的数据在逻辑上或者物理上有机合并,结合起来并统一存储,建立数据仓库的过程实际上就是一种典型的数据集成方法。这样就可以方便的实现数据间的共享了。
(3)数据转换
正是由于大量数据的出现,那原本这些数据的结构就显得不够合理,实用性显得不足,不能满足各方面的共享需求,因此就必须把自身更换成新的适用的数据,包括内容、结构、数据库。
数据转换就是指通过将数据格式规范、概化等方法使其呈现为易于供数据挖掘的形式。
第二章 综合评价的.......... 17-24
2.1 综合评价技术.......... 17-19
2.1.1 层次分析法.......... 18
2.1.2 模糊综合评判.......... 18
2.1.3 数据包络分析.......... 18-19
2.1.4 人工神经网络.......... 19
2.1.5 主成分分析.......... 19
2.2 综合评价指标体.......... 19-22
2.2.1 建模.......... 21-22
2.2.2 挖掘.......... 22
2.2.3 指标综合法.......... 22
2.3 关于复杂指标体.......... 22-24
第三章 树状概要数据.......... TSD 24-37
3.1 流数据技术.......... 24
3.1.1 流数据的.......... 24
3.1.2 流数据相关.......... 24
3.2 OLAP多维数据.......... 24-30
3.2.1 维.......... 25-26
3.2.2 多维.......... 26-27
3.2.3 多维数据库.......... 27-30
3.3 基于数据仓库的指.......... 30-32
3.4 TSD的定义.......... 32-33
3.4.1 维度.......... 32-33
3.4.2 度量.......... 33
3.5 TSD特性分析.......... 33-35
3.6 TSD的RDF描述.......... 35-37
第四章 基于TSD的计算.......... 37-41
4.1 TSD平台结构.......... 37-38
4.2 应用.......... 38-41
总结
面对态势统计、指标计算这一类特殊的数据挖掘应用领域的挑战,本文以网络安全事件监控技术及系统课题的需求为牵引,从实际出发,基于流数据技术和OLAP提出了一个适用于海量数据综合评价问题的概要数据结构,用RDF来实现该概要数据结构的一般描述,构建了基于该描述的建模工具、挖掘系统,并由此实现了一系列配套工具和计算平台,可以解决综合评价问题中面临的多维度、多层次、多变性困难,最后通过应用案例验证该树状概要结构及其实时挖掘系统的有效性及实用性。其中,采用RDF来描述TSD模型,是为了便于进行语义相关的数据挖掘及智能建模。
5.2展望
下一步需要完善的研究工作主要有:如何针对海量文本数据的语义挖掘进行建模以及如何使建模过程更加简易便捷。