第一章 绪论
聚类是一种能够从数据中获取有用信息的重要手段,是非常重要的数据挖掘技术。它的重要性体现在:首先,由于数据库中的数据通常不含有类标志,没有训练样本数据使得分类难以实现,而聚类是一种处理属性众多的、大量的、繁杂的且没有类标志数据的有效方法。其次,在知识发现的过程中,聚类经常被作为其他的数据挖掘任务的前奏。通过使用聚类分析技术把整个数据集合分成不同的子集,然后在聚类结果的基础上使用现有的数据挖掘工具挖掘出潜在有用的规则和知识[25]。关联规则的研究重点主要是:如何确定数据中不同领域之间的关系,从而找出满足给定条件下的多个领域之间的依赖关系。关联规则还可以用于序列模式发现,其最初的动机是针对购物篮分析问题提出的,如顾客在购买商品时,除了具有相关的感兴趣的规律,还有时间上和序列上的模式可循,这种购物之间的相关性正是关联规则挖掘所要研究的内容。 随着关联规则挖掘技术的不断创新和进步,它的应用范围也由最初的购物篮分析扩展到网络入侵检测、软件bug 挖掘、网站路径优化、设备故障诊断、网络行为挖掘等等。关联规则挖掘技术有着广泛的应用背景和良好的理论基础,所以由于在不同领域内的需求和情境的推动下,得到了持续深入的研究。
目前存在很多关联规则挖掘算法,但其中以Apriori 算法最具影响力,其他多数算法或是它的扩展,或是它的变种。该算法使用了一种逐层搜索迭代方法: 在第一次扫描数据库时, 对项集I 中的每个数据项目计算其支持度,找出满足 min_sup条件的所有频繁1 -项集。然后用1L 生成频繁2-项集2L 。 在后续的第k次 扫描中, 首先把k -1次扫描生成的频繁(k-1)-项集作为种子集k 1L ,连接产生潜在的候选k-项集kC 。然后再次扫描数据库, 重新计算中所有项的支持度kC ,最后从kC 中找出满足k min_sup条件的所有频繁k-项集L, 并将作为下一次扫描的子集kL 。上述过程不断重复直到不再有新的频繁项集产生为止。为了更好的支持模糊关联规则挖掘算法的挖掘感兴趣流的工作,本文提出了一种基于数据驱动FCM 算法的对原始数据集预处理方法(DD-FCM)。通过DD-FCM 方法可以得到原始数据集的模糊分区以及模糊记录,从而可以得出原始数据集的模糊版本。通过实验验证了:① 使用DD-FCM 预处理方法对原始数据集聚类划分模糊分区的性能要优于BIRCH(基于层次聚类)算法和CLARANS(基于K-medoids)算法。②DD-FCM 方法可以很好的对定量属性产生模糊分区,并且证明了数据驱动产生(基于数据驱动的方法)的模糊隶属度函数 可以在没有专家根据先验知识预先给出(基于专家驱动的方法)的情况下正常工作。本文共分六个章节,主要组织结构如下:第一章 介绍了研究背景,然后分别介绍了数据挖掘、聚类技术与关联规则的研究现状;最后介绍了课题研究的目的和意义、本文的主要工作与文章的组织安排。第二章 主要详细介绍了一些预备知识:数据挖掘与聚类概述。第三章 首先对为什么要对原始数据集进行预处理阐明了原因。随后,介绍了模糊C-均值算法的原理流程。最后,在对FCM 算法进行深入研究的基础上提出了基于数据驱动的FCM预处理方法—DD-FCM,并给出了模糊隶属度、模糊分区以及原始数据集的模糊版本的产生过程。第四章 针对Apriori 算法的局限性,以及它在处理大型数据库时存在耗时、容易产生大量冗余频繁项集的缺点,引入DD-FCM 方法,在Apriori 算法的基础上提出了一种基于DD-FCM 的Apriori 算法(DD-FCMA)。第五章 针对加权关联规则带来的不满足向下封闭性以及算法需要依赖领域专家预先给出模糊隶属度的问题,引入DD-FCM 方法,在加权模糊关联规则挖掘算法的基础上提出了一种基于DD-FCM 的加权模糊关联规则挖掘算法(DD-FCMW)。第六章 总结与展望。
第三章 基于数据驱动FCM 预处理方法.................. 17
3.1 问题的提出..................................................................... 17
3.2 模糊C 均值算法研究与性能分析................................ 18
3.3 基于数据驱动FCM 预处理方法(DD-FCM).................................... 21
3.3.1 模糊隶属度函数和模糊分区的产生过程................................ 21
3.3.2 原始数据集的模糊版本产生过程...................................... 23
3.3.3 实验结果与分析............................................. 25
3.4 本章小结............................................................. 27
第四章 基于DD-FCM 的Apriori 算法.................................. 28
4.1 关联规则的研究与分析.................................................... 28
4.2 基于DD-FCM 的Apriori 算法...................................... 32
4.2.1 DD-FCMA 算法基本原理................................................... 33
4.2.2 DD-FCMA 算法流程............................................................ 34
4.2.3 实验结果与分析.................................................. 35
第五章 基于DD-FCM 的加权模糊关联规则挖掘算法.................... 37
5.1 加权模糊关联规则模型..................................... 37
5.2 基于DD-FCM 的加权模糊关联规则挖掘算法............................... 42
5.3 本章小结............................. 47
总结
首先介绍了数据挖掘的概念,包括数据挖掘技术的起源,现状和发展等,并对模糊聚类算法和关联规则挖掘算法进行了详细研究,结合传统的关联规则挖掘Apriori 算法,在此基础上提出了自己的研究内容。(1) 提出了一种基于数据驱动的FCM 预处理方法。传统的关联规则挖掘算法只能用来处理布尔属性的值,如果要处理数值属性通常是引入尖锐分区来把数值属性的值转换成布尔属性的值。但是,这样会带来边界值过硬而导致数据集丢失信息从而增加了数据的不确定性,尤其是在分区的边界这种现象更佳明显。在这种情况下,引入了模糊集理论,通过模糊分区的方法把定量属性的值转变成二值属性的值,这样就可以解决由尖锐分区所带来的感兴趣流丢失的问题。本文使用FCM 算法来产生模糊分区,该方法克服了由硬聚类算法(CLARANS和BIRCH)所带来的计算时间长,间接复杂以及会得到冗余的分区等缺点。通过这个操作可以把定量属性转换为二进制属性值,继而就会得到原始数据集的模糊版本(由模糊分区和模糊属性构成)。(2) 提出了模糊隶属度函数和模糊分区的产生过程及其算法。为了产生模糊分区,首先要做就是要得出每个数值属性的模糊隶属度函数。本文提出一种基于FCM 算法使用数据驱动的方式来产生模糊隶属度函数,该方法克服了由基于专家驱动的方法产生隶属度函数所带来的不确定性以及计算量大的缺点,并详细介绍了产生过程以及相应的算法。(3) 提出了原始数据集的模糊版本产生过程及其算法。整个预处理的过程包括两步:第一步就是通过FCM 对每个数值属性的值产生模糊分区;第二步的目的就是要对原始数据集进一步进行处理,继而得到它的模糊版本。
参考文献
[1] 毛国君, 段立娟等. 数据挖掘原理与算法[M] 北京: 清华大学出版社, 2005
[2] 韩家炜, 孟小峰等译. 数据挖掘概念与技术(第二版)[M] 北京: 机械工业出版社, 2007
[3] 郭崇慧, 田凤占等. 数据挖掘教程[M] 北京: 清华大学出版社, 2005
[4] 陈安, 陈宁, 周龙骧等. 数据挖掘技术与应用[M] 北京: 科学出版社,2006
[5] Pang-Ning Tan, Michael Steinbach, Vipin Kumar. 数据挖掘导论[M] 北京:人民邮电出版社, 2006.
[6] Ming-Syan Chen, Jiawei Han and Philip S.Yu. Da ta Mi http://sblunwen.com/ssbylw/ ning: An Overview from a Database Perspective[J].IEEE Transactions on Knowledge and Data Engineering, 1996:866-883.
[7] Huang Z. Extensions to k-means algorithm for clustering large data sets with categorical values[J]. DataMining and Knowledge Discovery, 1998: 283-304.
[8] U.Fayyad, G. Piatetsky-Shapiro,and PadhraicSmyth. Knowledge Discovery and Data Mining: Towards aUnifying Framework[C]. Proceedings of the 2nd International Conference on Knowledge Discovery andData Mining (KDD-96), CA,AAI Press,1996: 82-88.
[9] 刘红岩, 陈剑. 数据挖掘中的数据分类算法综述[J]. 北京: 清华大学学报, 自然科学版, 2002:727-730.
[10] R. Agrawal, T.Imielinski, and A.Swami. Mining Association Rules Between Sets of Items in LargeDatabases[C].ACM SIGMOD Int Conf. Management of Data. 1993: 207-216.