带有缺失数据之非线性回归模式-关于经验似然统计诊断

论文价格:免费 论文用途:其他 编辑:lgg 点击次数:197
论文字数:38600 论文编号:sb2014071011565710069 日期:2015-04-14 来源:硕博论文网

1引言


1.1缺失数据情况的研究现状
经典的统计方法与理论大都建立在完全数据分析的基础上,然而在许多实际应用中,常常会因为各种原因使得一些数据不能获得,导致收集到的数据缺失,所以在统计分析中,数据缺失的现象是非常普遍的。例如,在临床实验时,病人不愿意配合进一步研究;在社会调查中,被调查者可能拒绝回答自己的经济来源以及收入情况;在问卷调查中,调查结果记录不完整等。类似这样的一些不可控的因素产生信息损失及调研者本身的原因不能收集正确的信息等都可能导致数据缺失。由此可见数据缺失大量发生在调查研究、医学研究、工业实验、问卷调查、社会经济研究等科学实验中,因此近年来缺失数据问题在应用生活领域已经受到人们的高度重视。在大容量的抽样调查中,常常会遇到大量数据中的不完全的样本,在数据缺失的条件下,传统的统计分析方法就不能直接应用到不完全数据的统计分析中,一个简便的方法是把有缺失数据的个体排除,只分析有完全观察的个体,就是Complete-case (CC)分析。然而,通常情况下利用这种方法的分析结果都会产生严重偏差,还会因为那些有缺失数据的个体被删除而产生不必要的信息损失,致使推断无效。事实上,缺失数据机制决定了缺失数据统计分析方法的有效性和合理性。如果从缺失机制与方式上来划分的话,多数情况下可以划分为完全随机缺失、随机缺失和非随机缺失三类。
…………


1.2非线性回归模型概述
在实际生活中,严格的线性模型并不是很多,或多或少都具有一定程度的近似。伴随着科学技术和近代统计学的蓬勃发展,线性回归模型已经不能满足人们的需要。经济、农业、工程、生物等各行各业都出现了一系列不能简单的转化为线性回归模型的问题,所以在六十年代初期人们开始对非线性回归模型进行研究,但在最初的二十年中发展缓慢。随着70年代计算机技术的高速发展,统计学的发展也进入了一个新的时期,一些复杂的问题在快速的计算机的作用下也能够得到解决,所以到八十年代,美加统计学家Bates和Watts致力于统计曲率度量的研究以后,非线性回归模型的研究才得到了突飞猛进的发展并成为一门重要的统计学科。例如要考察影响的因素解释变量)与对象响应变量)之间的关系。传统的线性模型在假定模型成立的情况下,它有很高的推断精度,但当参数假定与实际背离时,其拟合情况就不理想,所以我们扩展和自然推广线性模型是时发表展的要求和必然发展趋势。
…………


2基于经验似然的参数估计及置信区间估计


2.1经验似然方法与主要结论
在统计学的发展中,经验似然的研究是一个全新的领域,这种思想方法最少可追溯到 Thomas 与 Gnmkemeier(1975)? 在文献 中,Thomas 与 Grunkemeier 为 了构造生存概率置信区间,他们在随机删失的情况下发展了非参数似然比方法,即经验似然这种思想实际上始于随机删失数据的统计分析。他们的方法是把生存概率分解为条件概率的乘积,使用乘积型约束条件下非参数似然比,但是乘积型约束条件限制了这一方法运用到其他情形,如:直接推广使用这一方法到生存分布函数泛函的推断就有困难,原因是乘积型约束条件在此情况下难以找到。然而经验似然方法的正式提出却是在1988年,文献i2iOwen将经验似然的思想方法应用到完全独立同分布样本下总体均值的统计推断,进一步提出了经验似然比,其方法一经提出就受到了许多生物统计学、计量经济学研究者的青睐,他们迅速将经验似然方法应用到各种领域,如光滑函数的均值、广义线性模型、回归模型、估计方程、核光滑、单变量均值的置信区间及非参数数据问题。然而值得注意的是,这些研究都是在完全样本下进行的。在完全样本数据集下,Owen (1988)提出的非参数统计推断方法,即经验似然。它含有与bootstrap相类似的抽样特性。它比经典的或现代的统计分析方法有更多的良好特征。如经验似然方法具有域保持性、置信域的形状由数据自行决定、对数经验似然比检验统计量渐近服从卡方分布(该性质称为非参数Wilks性质)、Bartlett纠偏性、参数变换不变性及无需构造轴统计量等优点。此外经验似然方法还可以利用辅助协变量中的信息来提高推断效率。须知实践中数据通常不是完全的,主要表现在数据被随机删失、数据测量有误差、数据缺失。虽然经验似然的思想起源于不完全数据,但是经验似然在不完全数据中的应用却直到本世纪初才有所触及,如何将经验似然方法推广到不完全数据的统计分析是一项重要且困难的任务,尽管经验似然方法有很多优点,但它很难应用到一些比较复杂数据的统计分析。
……………


2.2统计诊断的内容和意义
以往大多数经典的统计方法,例如线性回归、参数估计、假设检验、多元分析等的研究,很多是受到了计算方法较慢且计算费用昂贵的限制。有些统计方法需要较大的计算量才能完成,如Jackknife,随机模拟等方法,尽管提出来了,但由于受当时计算条件的限制,往往得不到人们的足够重视。70年代在高速计算机的有力支持下,统计学蓬勃发展,达到了一个新的高峰期,引起了统计学观念上的更新,伴随而来的是很多新的方法的出现,诸如统计图形法,统计诊断等就应运而生,并快速的发展成为统计学的新的分支。我们己经进入了统计学与计算机紧密联系的新时代。通常我们从一个数据集出发来对统计学进行研究,该数据集是把实际工作中积累的资料或者就一个特定项目收集起来的数据加工整理后形成的。我们想利用数据集D来研究实际问题,普遍的做法是把数据集£>放在一个有效的统计模型M中来研究。但是,无论任何统计模型只能近似描述客观问题的复杂过程,这样就无法避免的要进行一些假设,其实就统计模型自身来说,它也是一种假定。这时人们自然有理由要问:为了更确切的反应我们所要研究的实际问题,那么我们选用的统计模型M真的合理有效吗?数据集D中大部分的数据与模型M—致吗?是否会因为数据收集或整理过程中的人为因素而使数据集£)中的个别数据出现很大的偏差?其中的错误数据会严重影响和干扰问题的结论吗?数据集£>中所有数据点对统计推断的影响一致吗?会出现影响特别大的数据点吗?等等问题。为了得到与实际情况相符合的统计分析结果,我们应该重视并慎重思考诸如上述的一系列问题,只有这样在解决具体问题的过程中,才不会与实际情况相背离。
……………


3模型的影响分析........... 23
3.1模型的数据删除度量........ 23
3.2模型的局部影响分析........ 26
3.3模型的伪残差分析........ 28
4实例分析 ........30
4.1红鳟蛙鱼数据分析........ 30
4.1.1参数估计........31
4.1.2影响分析........ 31
4.2 Duncan数据分析........ 32
4.2.1参数估计........ 33
4.2.2影响分析........ 33


4实例分析


4.1红鳟蛙鱼数据分析
本章的目的是通过实例分析,验证带有缺失数据的非线性回归模型的统计诊断的有效性。在验证过程中主要得出模型参数的估计,然后通折线图来判定数据集中的异常点或强影响点。从图4.1.1可以直观的看到第12号点异与其他的点,这个点可以被认为是强影响点。进而从图4.1.2标准化伪残差7,,的散点图中也可以直观的看到第12号点也明显异于其他的点,所以再次可以认为这个点是强影响点。综合分析可知第12号点即为强影响点。从图4.2.1可以直观形象的看到第9号点异与其他的点,可以说这个点为强影响点。进而从图4.2.2标准化伪残差&的散点图中同样可以看到第9号点也明显异于其他的点,所以再次认为这个点是强影响点。综合分析可知第9号点即为强影响点。


…………


结论


本文在响应变量随机缺失的假定下,首先基于经验似然的方法对参数进行估计,得到了参数的渐近置信区间,并通过随机模拟得到如下结论:在缺失情况p(x)相同的情况下,若样本容量《越大,则覆盖率越大,平均区间长度越短。在样本容量《相同的情况下,若缺失情况越大,则覆盖率越大,平均区间长度越短。通过与一般方法进行比较可以看出,在平均区间长度差别不大的情况下,经验似然方法明显提高了覆盖率。其次对模型进行影响分析,提出了经验Cook距离、经验似然距离以及标准化伪残差等诊断统计量。然后通过两个实例验证统计诊断方法的有效性和可行性。最后,由于本人学术水平有限,论文中还有许多不足之处有待改进,例如在第二部分可以在多维情况下来分析和讨论覆盖率和置信区间的平均长度,突出经验似然方法在统计分析中的优越性。
……………
参考文献(略)


QQ 1429724474 电话 18964107217