第1章绪论
1.1研究背景
近年来,随着计算机和网络技术的发展,数据库技术也得到迅猛的发展,数据库管理系统也被广泛应用。人们需要处理的数据量急剧增大,为此,人们提出了数据挖掘技术。数据挖掘⑴就是从大量模糊的、随机的、有噪声的数据中,提取蕴涵的、无人所知但是有潜在用途的知识的过程。数据挖掘技术包括数据分类、数据聚类、统计分析、数据可视化、关联规则挖掘以及回归算法等。数据分类是数据挖掘中的一个重要过程,是通过分析数据找出其中存在的关系,赋予数据以某种意义和关联。分类算法,也称分类模型或分类器,可以是基于统计的,也可以是基于规则的。常见的分类算法有k近邻算法、贝叶斯、决策树、神经网络、演化计算等。这些算法都属于机器学习方法。
在统计学习理论的框架下产生了支持向量机一种新的机器学习方法。支持向量机根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度)和学习能力(即无错误地识别任意样本的能力)之间寻求最佳折中,以求获得最好的推广能力。由于支持向量机具有良好的推广能力,己被广泛应用在各个领域如手写字体数字识别、文本分类、图像识别、在地球物理反演当中解决非线性反演问题、天气预报等。
由于支持向量机的实际应用价值,国内外学者对其进行深入研究,并取得了很多优秀成由于支持向量机的性能只要受其参数的影响,支持向量机参数优化成为SVM研究中一个备受关注的研究课题。
1.2研究意义
学习算法决定于参数,参数控制着假设空间的规模以及假设空间的搜索方式。对支持向量机参数优化的研究可以提高支持向量机的性能,从而扩大其应用范围,因此,本课题的研究具有一定的实际应用价值。同时,对优化算法的研究也利用支持向量机与其它智能优化算法取长补短,对算法本身的结构研究也有促进作用,因此,本课题的研究也具有一定的理论意义。
第2章支持向量机及参数优化算法
支持向量机是在统计学习理论的框架下发展起来的一种机器学习方法。支持向量机不是以经验风险最小化原则为基础,而是以结构风险最小化原则为基础,这样不仅很好的解决了有限数量样本的构造模型问题,而且构造的模型具有很好的泛化能力。本章主要介绍统计学习理论、支持向量机基本理论和支持向量机参数优化的常用算法。
2.1统计学习理论
传统的统计学理论是建立在大样本理论之上的,而现实生活中,大部分样本数目都是有限的。为此,Vapnik和他的团队提出了统计学习理论。统计学习理论是研究利用经验数据进行机器学习的一种一般理论,研究训练样本有限情况下的机器学习规律。它可以看作是基于数据的机器学习问题的一个特例,即有限样本情况下的特例。统计学习理论从一些观测(训练)样本出发,从而试图得到一些目前不能通过原理进行分析得到的规律,并利用这些规律来分析客观对象,从而可以利用规律来对未来的数据进行较为准确的预测。统计学习理论避免了过学习和欠学习以及局部最小等问题,被认为是目前针对小样本最成熟的学习理论。支持向量机是在统计学习理论的基础上发展起来的一种机器学习算法。
统计学习理论系统地研究了经验风险最小化原则的学习过程以及经验风险与实际风险的关系等。主要内容包括:经验风险最小化原则,VC维理论,推广性的界和结构风险最小化原则。
但是实际中训练样本的数目一般较少,与趋近无穷大还相差甚远,用经验风险最小化原则得到的结果并不能使实际风险最小化。例如,在早期的神经网络研究中,使训练误差小的结果在测试未知样本时并不一定能得到好的正确率。在某些情况下,训练误差过小反而会导致测试正确率的下降,也就是说经验风险下降反而导致真实风险的增加,这就是“过学习”问题。
2.2支持向量机
支持向量机简称是由Vapnik领导的AT&T Bell实验室研究小组在1995年提出的一种基于统计学习理论的分类方法。SVM采用统计学习理论的结构风险最小化原则和VC维理论,通过核函数将输入样本从原空间非线性映射到高维特征空间,并在这个高维特征空间中构造最优分类超GU 面,使得SVM具有拟合精度高、学习能力强、训练时间短、选择参数少、泛化能力好、推广能力强和全局最优等优势,为解决小样本、高维数和非线性等问题提供了有效的工具,并能够推广到函数拟合等其他机器学习问题中。
SVM在高维空间中构造最优分类超平面,较好的实现了结构风险最小化原则。SVM的基本原理是将低维空间中的线性不可分的点映射到高维空间中,使它们成为线性可分的,然后再利用线性可分时构造最优超平面的方法,通过核技巧简单的用高维空间的超平面来完成分类。
第3章支持向量机参数优化.........26
3.1需要优化的参数........26
3.1.1惩罚因子.........26
3.1.2核函数参数........26
第4章SVM在UCI数据集分类中的应用.........32
4.1数据集描述........32
4.2基于遗传算法参数寻优的SVM分类结果.......33
第5章结论..........60
第4章SVM在UCI数据集分类中的应用
本章介绍将参数优化后的支持向量机用于数据分类,并对分类结果进行分析。
4.1数据集描述
本文从UCI数据库中选择了6个数据集,利用参数优化后的支持向量机对其进行分类实验。下面是关于数据集的特定描述。
1.Wine Data Set
Wine数据集是根据酒的化学成分分析判断酒的品种。数据来自意大利同一个地区三种不同品种的酒。主要分析的化学成分有酒精、苹果酸、灰、黄酮等,共13个。数据集的特性如下:
样本点数目m=178;每个样本点属性个数n=13;属性均为实整数;属性数据没有缺失;类别的个数s=3。
2.Spect Heart Data Set
Spect Heart数据集中是根据对心脏单质子发射计算机断层显像((SPECT)的图像,判断患者的心脏图像是否正常。数据集的特性如下:
样本点数目m=267;每个样本点属性个数n=22;,属性取值为(-1,1),属性数据没有缺失;类别的个数s=2。
第5章结论
本文利用遗传算法、粒子群算法和网格搜索算法优化支持向量机的惩罚参数C和高斯核函数中的参数。然后,将参数优化后的支持向量机用于分类问题。通过UCI数据库中6个数据集分类,结果不仅可以体现出支持向量机参数设置对分类结果的影响,也能反映出三种参数优化方法的优缺点。
首先,K重交叉验证中K的值越大,一般测试的分类正确率越高,但是运行时间较长,一般K的值不宜设置太大值,但是必须大于等于2。
最后,当数据集包含的样本点数目较少时,利用网格搜索算法优化支持向量机的参数比较理想,可以节省时间而且分类正确率较高。当数据集包含样本点的数目较多时,利用遗传算法和粒子群算法优化支持向量机参数比较好。遗传算法优化支持向量机参数虽然在运行时间上不如粒子群算法,但是在分类正确率上占优势。
关于支持向量机的研究,还有很多问题有待进一步研究。比如,核函数构造以及更有效的参数优化方法。
参考文献(略)