第一章绪论
1.1选题背景与研究意义
随着人秀认识世界的不断深入、现代信息技术的迅猛发展以及数据存储能力的极大提高,自然科学和社会科学的许多领域不断涌现出大量形式各异复杂难辨的海量数据,如(超)高维数据、(超)高频数据、不等观测时点数据、非平衡数据等,标志着人类进入一个全新的时代——大数据时代。“数据爆炸”和“知识匮乏”是大数据时代的典型特征,一方面,数据采集技术的进步和存储成本的下降使得数据容量的起始单位由GB变为ZB?;数据类型不仅有数字、符号等结构化数据,而且还有视频、图片等非结构化数据。另一方面,数据维度容量的庞大和类型结构的复杂使得传统的数据分析技术凸显诸多局限,甚至完效。因此,如何从浩瀚复杂的数据海洋中及时有效地挖掘出潜在的深层次信息,给现代统计学的发展带来了挑战、机遇和紧迫感。大数据时代,数据的丰富性和多样性对高效的数据分析技术提出了更高的要求。传统数据分析技术的研究重点主要集中在时间序列数据、横截面数据(Cross-sectional Data)或者二者的综合一多指标面板数据(Multivariate Panel Data),从线性模型到非线性模型、从低维空间到(超)高维空间、从等间隔观测的平衡数据到不等间隔观测的非平衡数据等,理论方法和实践应用的研究成果都是有针对性地处理某类特定的数据类型,诸多的理论假设条件导致模型应用的普适性较差。主要表现在:一是以线性结构为模型变量之间的主要形式,限制了复杂系统的非线性、非平稳等不规则变化描述,不能真实地反映系统运行的真实情况;二是过分依赖大量的经典假设,如变量的平稳性、独立性、数据等间隔观测等,一旦假设条件遭到破坏则模型应用的有效性急剧下降,依据模型结果得出政策建议的可靠性有待商榷。
……………
1.2国内外相关研究现状
“函数型数据分析”(Functional Data Analysis, FDA)的基本概念和分析思想始由 Ramsey 1.(1982)⑴在 “When the data are functions" 一文中提出,随后Ramsey J.和Dalzell C.(1991)[2]初步给出了函数型数据分析的常规统计方法,后经Silverman B.(1997)、Ferraty F.(2006)[4]、Hall P.(2012)等世界知名统计学家进一步对函数型数据的分析框架进行了系统总结和完善。函数型数据类型的特殊性需要建立和发展相应的统计推断方法进行研究,就目前的研究进展来看,尽管国外关于函数型数据分析的方法研究已经取得了较为丰硕的成果,但相对传统的统计分析发展上仍处于起步阶段,而国内更是仅仅处于对函数型数据分析的方法介绍和简单应用阶段。综合现有关于函数型数据分析的研究文献,研究重点和进展现状大致可以总结为以下几个方面。通常需要考察函数集合变化的共同特征。比如,同一类型函数集合中尽管具体的函数变化模式有所差异,但存在共同的整体变化趋势,而函数型主成分分析则可以题别共同变化模式的具体形式。除此之外,如果将函数型数据在时间维度上的取值视作多元数据的维度,则函数型数据的“维灾”更为严重,基于维度转换角度考虑则主成分分析在函数型数据的降维处理中更为关键。国外的理论研究方面,DuxoisJ.et al. (1982) [6]对函数型主成分分析做了基础性的介绍,之后Brumback B.和RiceJ. (1998) [7]、Cardot H. (2000) [8]、Boente G.和 Fraiman R. (2000) [9]从不同角度对函数型主成分的计算进行了推广和拓展,特别的是HallP. (2006)和BenkoM.era/. (2009)研究了纵向数据中函数型(共同)主成分的统计特征,研究的出发点是随机过程的Karhunen-Lodve展开,其本质思想是协方差算子的线性分解;针对纵向数据的稀疏分布特征。
…………
第二章函数型数据分析
2.1函数型数据的概念与内涵
“函数型数据分析”(Functional Data Analysis,FD A )的概念始由加拿大统计学家Ramsey J.和Dalzell C.于 1991 年在其论文 “When the data are funetions"与“ Some tools for functional data analysis ” 正式提出,之后Ramsey J.和Silverman B.(1997、2002、2005)分三次总结了函数型数据统计分析的理论基础与分析方法,其研究内容侧重于离散观测数据的基函数修匀、线性模型和微分方程的函数化推广和拓展。继RamseyJ.和SilvermanB.的著作出版后,国际统计学界掀起了函数型数据分析研究的热潮,取得了许多有价值的研究成果。例如,函数型线性回归、非参数和半参数模型(FerratyF?和ViewP.,2006)、单指数模型、函数型数据的检验问题研究(HorvathL.和KokoszkaM.,2012) [77]等。基于所研究问题的切入点和结论观点的异同,关于函数型数据分析的研究方向大致可以划分为三个学派:法国学派(French school),主要以Ferraty R和View R为代表性学者,该学派认为每个函数都是实可分Hilbert空间随机过程的具体实现,主张基于泛函分析角度的研究思路;英美学派(Englishschool),主要以Ramsay J.和Silverman B.为代表性学者,该学派注重离散数据的函数化技术处理、模式结构对齐以及线性模型的函数化推广;随机学派(Stochasticschool),主要以MullerH.和BosqD.为代表性学者,该学派侧重于协方差算子的分解与主成分应用,研究出发点多是随机过程的Karhunen-Lo6ve展开。尽管三个学派研究的角度不同,但都致力于将经典的统计方法在函数型数据下进行拓展,并且有效地解决了实际应用中的许多函数型问题。与国外蓬勃的研究热潮相比,国内关于函数型数据分析的研究还处于起步阶段,所研究的内容主要是对国外已有函数型数据分析方法的应用和进一步改进,主要研究者严明义(2007, 2008,2010)、苏为华(2013)、朱建平(2007,2009,2013)等。
…………
2. 2函数型数据的统计描述
应用函数型数据分析解决实际问题之前,为了深入分析函数型数据的统计特征和内在变化规律,往往需要通过描述性统计量对函数型数据的变化规律进行最基本的探索性分析。因此,本节首先给出函数型数据统计特征的描述方法。在一般的基函数展开函数化处理中,通常假定每一时点的观测值信息对于估计函数的本征形式同等重要,但事实上函数在不同区间的取值对于反映函数的本质特征往往存在差异。例如,在取值正负发生转换时点的数据信息往往要多于函数平缓变化区间的信息,但(2.2)式的函数化处理过程并没有突出数据信息的上述差异。因此,为了在利用离散数据估计本征函数时充分体现观测时点信息含量的差异,本节介绍局部加权平滑法。
………
第三章基于自造应权重的两步法聚类分析........ 33
3.1问题的提出 ........33
3.2离散角度的函数型聚类分析评述........ 34
3.3自适应赋权主成分聚类分析........ 36
3.4新方法优良性的实证检验........ 38
3.5两步法聚类分析的连续角度拓展........ 41
3. 6本章小结........ 44
第四章基于曲线形状特征的函数型聚类分析........ 45
4.1基于函数型秩相关的曲线形状聚类分析........ 45
4.2基于极值点属性特征的函数型聚类分析........ 47
4.3考虑时间因素的极值点属性聚类分析........ 51
4.4基于函数综合形状特征的聚类分析........ 53
4.5不同形状聚类模型的分类效果对比........ 57
4. 6本章小结 ........64
第五章基于随机模型的函数型参数聚类分析........ 65
5.1自适应权重迭代更新聚类分析 ........65
5.2函数型数据旳概率密度........ 69
5.3基于概率密度的参数聚类分析........ 71
5.4模型有效性的检验与应用........ 73
5.5本章小结........ 81
第七章面板数据的聚类分析及其函数化拓展
7.1问题的提出
面板数据(Panel Data)是描述现实世界最常用的数据形式之一,兼具横向空间和纵向时间两个维度,横截面上是由若干个体在某一时刻的静态数据,纵剖面上是多个指标时间序列的动态数据。自20世纪70年代末以来,关于面板数据计量建模的理论方法研究日趋成熟,涌现了大量理论分析和经验应用的研究成果,构成了现代计量经济学相对独立且重要的分支。纵观近年来关于面板数据模型研究的文献来看,绝大多数的研究成果都是着重面板数据的计量建模,从线性模型到非线性模型,从单方程模型到联立方程模型,从固定效应模型到随机效应模型等,都是侧重于面板数据计量模型的参数估计,鲜有文献基于方法论框架下对面板数据进行深层次的信息挖掘。面板数据是一种形式复杂、结构多样的数据结构,从样本量与时期跨度的对比看,可以分为长面板和短面板;从样本跨期长短的一致性角度看,可以分为平衡面板和不平衡面板;从描述样本的指标数目看,可以分为单指标面板和多指标面板。上述不同角度的划分方式相互交叉则又可以进一步划分形式更为复杂的面板数据类型。通常情况下,对面板数据分析是依据原始观测数据选择最优的计量模型,但不加验证地计量建模具有一定的盲目性,依此所得结论在反映实际问题时往往存在一定的偏差[67]。事实上,诸如面板数据的聚类分析、噪音消除等预处理可以面板数据中挖掘出必要的先验信息,为面板数据的深入计量分析提供多角度思路和奠定理论基础。针对上述问题的认识与思考,本章引入面板数据数字特征的统计描述,在科学定义面板数据的相似性测度的基础上,着重讨论单指标面板数据、多指标面板数据及基于模型的面板数据聚类分析。
…………
结论
大数据时代,数据不仅容量浩輸庞大,而且结构复杂难辨,传统的数据分析技术在大数据的信息挖掘中面临诸多局限。方法本身的优势及分析思路的普遍适用性使得函数型数据挖掘逐渐成为国内外统计学界的热点关注。广义上讲,函数型数据不仅是大数据时代的一种典型数据,而且是大数据挖掘的一种新颖视角,对其进行信息挖掘既需要新方法、新理论的推陈创新,也需要经典理论模型的推广和拓展。本文以“函数型数据挖掘的统计分类方法研究”为主题,在综合对比现有函数型分类方法优势与不足的基础上,对函数型数据挖掘的统计分类方法进行了修正、推广和拓展,并结合统计模拟和实际案例应用检验了新方法的必要性、合理性和优良性。综观全文内容,本文的研究工作可以总结为以下几个方面。经典的统计分类技术并不能直接推广至函数型数据,而多种模型的融合拓展必须明确方法有效应用的前提假设。相对于传统的统计分析技术,函数型数据分析的显著特征是以连续的函数整体为分析对象,能够从动态多角度挖掘静态数值背后的深层次信息。具体到函数型聚类分析,将原始的观测数据视作函数无噪音的离散实现,然后调用传统的聚类分析尽管可以大大简化分类过程的数据运算量,但这种基于数据转换角度的函数型聚类分析过于理想化,解决实际问题的普遍适用性不强。
…………
参考文献(略)