探究医学数据降维做法对比

论文价格:免费 论文用途:其他 编辑:jiuzhiqin 点击次数:103
论文字数:40250 论文编号:sb201307291709107249 日期:2013-07-29 来源:硕博论文网

第一章 绪 论

 

1.1 课题研究背景

随着计算机和信息通信技术的高速发展,出现了海量的高维数据。比如生物数据、医学数据、网络数据、航天遥感数据、金融交易数据等。伴随着海量数据的快速增长,甚至是指数级的膨胀,数据的测量和存储已不成问题,问题是数据的处理方法并没有获得相应的提高,并不能很容易的从海量数据中获取对我们有用的信息,因此科技的发展给人类带来“维数福音”的同时,也带来了“维数灾难”。因为我们获得的高维数据中可能会含有许多新的潜在信息,这些信息对我们研究问题会起到很大的帮助作用,但是这些蕴含在高维数据集中的有效信息,需要我们利用一定的数据挖掘方法才能从中获取。实际上,对研究问题有用的信息也只是高维数据中的较少一部分。比如在人脸识别中,一张人脸图像是由全部的象素点组成,我们取一个象素点作为一个维度,这样就可以把一张图片表示成一个高维向量,其中向量的每个元素则认为是图像的灰度值。例如32*32 的图片可以表示成1024 维向量,这样我们要完成对这张图片的识别就需要对1024 个象素点进行比较。而实际中常常并不需要用到所有的象素点就可以对这个人脸进行识别,即图像中真实维数只有很少的一部分,远低于真实的象素点数。所以我们想到如何对原始图像中高维数据进行维数约减,提取其中决定图像本质特征的有效象素点,即把高维数据约减到仅包含原始数据中主要信息的低维空间,减少后面识别过程的计算复杂度,简化处理过程,提高识别效率。数据挖掘和模式识别

主要是对数据建立一个分类器或者估计函数,然后依据所建立的学习算法或者分类器模型去挖掘存在于数据中的一些潜在的规律信息。虽然增大数据集可以提高算法的泛化能力,但是海量的高维数据会提高计算的复杂度,影响执行效率,同时大的数据集中会存在很多不相关的噪音信息,这又会影响最终结果的准确度,导致分类器或者学习算法的性能低下。所以如何有效的从采样获得的高维数据中挖掘出潜在的低维本真有效信息便成了特征提取的核心问题。有效的特征提取方法直接关系着分类器和机器学习方法的性能,特征提取是对原数据进行重新组合(可以是线性组合也可以是非线性组合),得到新的少数指标或者用新的低维坐标体系来重构高维空间,用低维特征代替高维数据集。提取的特征尽可能涵盖了高维数据中大部分的有效信息。

 

1.2 课题研究意义

随着网络和科学技术的发展,各个领域的科研工作者都会面临一个很严重的问题:如何能从获取的海量数据中较准确的提取我们所需要的信息,随着数据挖掘、知识发现、特征提取等相关概念的提出,高维数据的降维成了整个问题的焦点。针对全局为线性的数据集,线性降维方法的降维效果很好,操作方便,理论也很成熟,在科研和社会工作中已被广泛应用,对于高度非线性的数据集,人们提出了非线性的降维方法,流形学习是其中较为经典的一个分支。虽然流形学习的提出为非线性数据降维提供了一个很好的框架,但是其核心依然是基于线性的降维理论。并没有完全脱离线性的降维方法。同时,经典流形学习算法都是在理想的数据集中获得相对线性方法有较为理想的降维效果,但对数据集有很高的要求。比如LLE 算法要求数据的采样是稠密的,数据集在局部要求是线性的,且算法本身对噪音很敏感,同时算法中对降维结果有较严重影响的参数(近邻参数k)的确定并没有明确准则;Isomap 算法要求流形所对应的低维空间的子集是凸的,该方法仅仅适用于内部较平坦的流形,且对噪音敏感,算法中参数(近邻参数k)的确定同样没有明确的准则。针对现实中我们获得的具有非线性的真实数据,流形学习的降维效果是否一定优于非线性的方法呢?

 

第二章 维数约减方法与BP 神经网络

 

2.1 几种经典的线性与非线性维数约减方法

数据挖掘的目的在于寻找数据内在的规律性和其分布情况,其中极其重要的一点就是降维。具体来说降低维数等效于特征提取,即从海量高维数据中提取有效特征,把握数据所能传达的有效信息,方便我们做出决策。从数据是线性还是非线性的角度来看,可分为线性和非线性维数约减方法。线性维数约减是找出高维数据中低维线性变量,来模拟原始数据集,一般计算较为简单,无需设定参数。经典的线性方法主要有:主成分分析(PrincipalComponent Analysis, PCA)、线性判别分析(Linear Discriminant Analysis,LDA)和多维尺度分析(Multidimensional Scaling, MDS)。考虑到经典的Fisher LDA 中存在的小样本问题(样本点少,样本维数高),实际中求解广义特征方程时经常出现病态问题。MDS 中样本间的差异矩阵如果采用欧式距离,那么MDS 就等效于PCA。所以线性方法中,本文采用PCA 进行仿真实验。同时针对高维医学数据的特点,本文提出了大相关性PCA(BR—PCA)算也进行了仿真实验。非线性维数约减中一个最具代表性的方法为流形学习。流形学习以保持原始数据点的局部近邻结构不变为前提,把高维空间映射到低维空间,与以往的非线性降维方法不同的是,它基本上保留了线性降维的简单算法。经典的流形学习方法有:等距映射法(Isometric Mapping, Isomap)、局部线性嵌入法(Locally Linear Embedding, LLE)、拉普拉斯映射法(Laplacian Eigenmap,LE)、海赛局部线性嵌入法(Hessian Eigenmap, HE)、局部切空间排列法(Local Tangent Space Alignment,LTSA)等。考虑到几种流形学习算法的核心思想具有近似性,本文主要仿真了Isomap 和LLE 两种算法。

 

第一章 绪 论...............................................1

1.1 课题研究背景............................................. 1

1.2 课题研究意义................................................... 3

1.3 研究现状....................................................... 3

1.4 本文主要工作与结构................................ 4

第二章 维数约减方法与BP 神经网络.................6

2.1 几种经典的线性与非线性维数约减方法.............. 6

2.2 BP 神经网络及相关参数的选择....................... 15

 

总结

数据降维技术在数据挖掘和模式识别等相关学科中已经越来越成为一个极其重要而又必不可少的工作和方法,其主要思想是从高维度数据集中运用一定的规则和函数来抽取主要信息,发觉蕴含于高维数据中的低维空间结构,降维后的低维数据集尽量的保持高维数据原来的空间几何结构。维数约减技术的应用已经深入我们生活的很多角落,尤其在网络、科研、金融、经济等领域,它不仅可以简化数据,方便后续工作,同时可以提高人类认识高维数的能力,最重要的是实现可视化。从数据变换的方式可以把数据降维分为线性降维和非线性降维。线性降维方法目前已经较成熟,也获得了很多广泛的应用。从线性降维的理论来看,在解决现实中复杂的非线性流形的数据集方面,非线性的方法有着传统线性降维方法所无法超越的优势,因为现实非线性数据集中有效信息并不能通过线性方法中特性的简单线性组合来获得。流形学习作为一个新兴的非线性降维方法,通过样本间距离关系,并结合线性的处理方法,把高维空间映射到低维空间,在低维空间中尽量保持原高维数据的空间结构,实现维数约减。

因为线性方法一直被用来处理全局为线性的数据,而流形学习的方法一直只是在理论上在理想数据集中取得了很好的降维效果。本文首先介绍了几种经典的线性降维方法和流形学习方法,并从原理方面对几种方法进行了较全面的比较分析,然后通过在实际复杂的数据集(肠癌数据集)中分别采用线性降维方法和流形学习方法进行仿真检验,再利用BP 神经网络进行评估检验,最后对结果进行分析,获得结论:在现实的具有噪音且样本采样分布不是很稠密的高维非线性数据集,经典的流形学习方法在去除噪音和保留有效信息方面并不优于传统的线性降维方法,其中参数的确定没有具体准则,计算复杂度较高,对噪声敏感,同时降维的结果把原属性模糊化,不便于对降维结果进行解释。

 

参考文献

[1] 夏火松.数据仓库与数据挖掘技术[M].北京:科学出版社,2004

[2] Angela Bonifati,Fabiano Cattanco,StefanoCeri,Alfonso Fuggetta,Stefanoparabosehi Desing Data Martsfor Data 从arehouses.ACM Transaetionson Software Engeerin And Methodology(TOSEM)[C].2001.10

[3] 边肇棋,张学工等.模式识别(第二版)[M]。北京:清华大学出版社,2000.

[4] I T Jolliffe.Principal component http://sblunwen.com/yxyxx/  analysis.In:Springer-Verlag,New York,2002.

[5] Borg I and Groenen P Modem.Multidimensional Scaling.Theory and Applications,NewYork:Springer-Verlag,1 997.

[6] K Fukunaga.Introduction to Statistical Pattern Recognition.California:Academic Press,1990.

[7] Penio S Penev .Local feature analysis :a statistical theory for information representation and transmission.New York:Rockefeller University,1998.

[8] Vladimir N Vapnik.统计学习理论[M].张学工,译.北京:电子工业出版社,2004.

[9] Scholkopf B .,Nonlinear Component Analysis as a Kernel Eigenvalue Problem[J].Neural Computation,1998.10:1299-1319.

[10] Tenebaum J B,Silvam V D。Langford J C。A global geometric framework for nonlinear dimensionality reduction.Science,2000,290:23 1 9.2323


上一篇:探析WEB2.0的网络教学系统的研发使用
下一篇:热连轧计算机监控软件开发
QQ 1429724474 电话 18964107217