1 引 言
1.1 论文研究的背景及意义
在统计检验中,要降低错误出现误判概率的方法即是增加样本量,但是抽样理论告诉我们,但样本量不可能没有限制,否则会使抽样调查失去意义。同时,在实际情况中,要增加样本量,意味着增加成本,时间等方面的投入,必然要导致试验成本的增加,很多情况下,并没有增加样本量,在做假设检验时,仍然选择了一个传统意义上比较小的显著性水平 α 值(如 α=0.01、0.05、0.1 等),造成误判率的机会增大,使我们的结果的可信度大打折扣。此时,我们要想降低检验中出现错误的概率,只有适时的调整 α 的取值,以此达到更好的检验效果。为统计分析做此类的假设检验时提供科学的方法和重要参考。
1.2 国内外相关文献综述与总结
1.2.1 显著性水平选择的有关综述
近年来,国内外学者对假设检验中显著性水平 α 的有关问题做了大量的研究,并对显著性水平 α 的如何选择的问题进行了一系列的探讨:刘云哲(1987)认为选择显著性水平时应该考虑两类错误,如果第一类错误造成的损失比第二类错误的损失更小,则应使第一类错误出现的概率更高是合理的;但是第一类错误发生的概率应比第二类错误发生的概率高多少, 或低多少,只能决定于两者造成的期望损失总和,必须在计算不同概率组合下总损失的条件下, 然后对比分析, 选择期望总损失最小的那一组概率或对应的显著性水平作为检验的标准。王继勋(1990)提出了在试验成本不增加的条件下,通过计算在显著性水平α 下期望损失额 L(α)=Mα+Nβ,通过求解 L(α)的最小值来确定 α 的取值,并用数学方法进行了证明。张亚明、岳德权(1995)为了选择合适的显著性水平 α 的临界值,以每次检验的期望损失值为目标,对正态总体参数的假设检验的情况分别对 α 的取值情况进行了求解,以此对 α 进行了最优控制。徐浪、马丹(2001)对一个案例进行了分析,分别选择在 0.01、0.05 水平下的假设检验情况,并简单说明了:如果‘取伪’代价大, 则取较大 α。如果‘弃真’代价大, 则取较小 α,容忍较大 β。林乐明(2003)则讨论了两类错误的关系,如何选择显著性水平,通常可根据可靠性的要求而取 0.01、0.05、0.1、0.2、0.5 等等,同时要选择适当的样本容量,使之符合给定的 α 及 β 值。信愉平(2005)认为显著性水平 α 并不是取的越小越好,在今天利用计算机和统计软件进行假设检验,总要计算一个“假设检验的 p 值”,利用 p 值可以判断原设定的 α 值下的假设检验是不是值得保留。并通过例子说明显著性水平不要拘泥于传统意义上的 0.01、0.05 等。刘莲花、罗文强(2006)为了探讨假设检验有意义的条件,通过一个实例,分析了产生在原假设不同的条件下可能得到完全相反的统计推断结果的原因,给出了假设检验有意义的条件。在给定 α 的情况下,选择合适的样本量,尽量采用单侧检验,来使得抽样成本和第二类错误达到一个最佳平衡状态。刘绪庆(2008)讨论了传统意义上的“置信度”或“显著性水平”,发现这个传统意义上的规律存在着一定的缺陷,通过对原始样本数据作一个正交变换,提出了现有观测数据关于期望的可靠度、最大可靠度、最小最大可靠度及现有观测数据关于方差的最大可靠度、最小最大可靠度的概念,并通过实例及数据模拟支撑了作者的观点。励晶晶、郭文(2010)探讨了两类错误与样本容量的关系,并在控制了 α、β的取值条件后,分别就均值检验、方差检验、成数检验给出了样本容量的确定公式。与此同时,国外也有一些学者对假设检验显著性水平的有关问题作了探讨,Gordon Douglas Menzies、Daniel John Zizzo(2008)、Molly Hort(2008)、B. Dimitrov、D. Green、Jr.V.Rykov、P. Stanchev(2009)通过计算机模拟技术模拟了在一定的样本量下假设检验中显著性水平的临界值,分析了不同显著性水平 α 下的假设检验的结果。Joseph F. Mudge、Leanne F. Baker (2012) 为了选取合适的 α 值,使假设检验的显著性检验的误差最小。主要通过设计一种新的 α 与 β 的关系式,以此确定α 的真实值,发现 α 的取值在 0.191、0.266、0.323 比传统意义上的 0.05 检验所造成的误差更小。
2 有关的基础知识
2.1 显著性水平α的含义
显著性水平是一个统计学中专有名词,通常把 α 称为显著性水平(significance level)。在假设检验中,它的含义是当原假设正确时却被拒绝的概率或风险,其实这就是假设检验中犯‘弃真’错误的概率,其概率一般用 α 表示,α 可取单尾也可取双尾,它是由人们根据检验的要求确定的,假设检验时需要研究者根据实际情况选择 α 临界值的大小,传统意义上通常选择 α=0.01 或 0.05 等,也即是说,当作出接受原假设的决定时,其正确的概率为 99%或 95%。
2.2 P-值的有关含义
P-值检验的思想方法是 Gossett 于 1908 年提出的,至今已经有一百多年。P-值检验方法是频率学派处理假设检验问题方法的一种,P-值检验思想在数理统计中起着很重要的地位。我们知道,假设检验就是根据备择假设构造一个拒绝域。而构造拒绝域是利用检验统计量的观察值与此统计量分布的某一分位点所形成的一个关系式决定的。而分位点与显著性水平有关。因而显著性水平(控制犯第一类错误的概率)的大小会影响决策者的判断。这里给出的 P-值是在原假设为真的条件下某一统计量的取值以其观察值为最小值或最大值的事件的小概率,或说某一统计量的取值以其观察值为最小值或最大值是一个小概率事件,此小概率就是 P。对于检验的 P-值,可以这样定义:在一个假设检验问题中,利用观测值能够做出拒绝原假设的最小显著性水平称为 P-值。
3 显著性水平与样本量及样本比例之间的关系.........9
3.1 显著性水平α与样本量的关系 ....9
3.2 显著性水平α与样本比例的关系 .......12
3.3 小结 .......18
4 α分布表的编制及模型的建立....21
4.1 α分布表的编制 .........21
4.1.1 模拟参数的设置 ....21
4.1.2 α分布表的模拟....21
4.1.3 三维图的绘制......28
4.2 模型的建立与分析........29
4.3 案例分析 .........32
4.3.1 案例........33
4.3.2 结果分析....34
5 结论及未来的工作....35
5.1 本文结论 .........35
5.2 本文研究的不足及进一步工作 .........35
结论
通过模拟给定样本量下,选择传统的显著性水平α值,随着样本比例的变化,对原假设检验结果出现错误的可能性;在给定样本比例下,选择传统的显著性水平α值,随着样本量的变化,对原假设检验结果出现错误的可能性;对上述两种情况进行了分析,分析得到:样本量越大,假设检验的结果出现错误的可能性越小,精确度越高;样本比例越远离0.5即半数时,检验结果出现错误的可能性越小,越接近0.5时,结果出现错误的可能性越大,精确度越差,误判的可能性越大。通过计算机,利用统计模拟,模拟出了在一定显著性水平下的不同组合的误判度,并据此模拟选择合适的显著性水平α值,建立样本量n、抽样比例pi、显著性水平α值三者之间的模型,为选择合适的显著性水平α给出了参考的方法和依据。
(1)本文设定的样本容量n在区间[100,2000]内,并不是任意一个样本量值,对于n<100的小样本及n>2000的大样本,同时设定的样本抽样比例pi在区间[0.4,0.6]内,并不是区间[0,1]内任意一个抽样比例,对于此类情况需要以后进一步的探讨。
(2)对于任意样本量n、样本比例pi下显著性水平α值的选择问题还需要进一步的探讨和完善,以给予更完善和科学的依据。
(3)在给定显著性水平α时,为确保P-值的准确性,进一步研究中可以对P-值进行修正,来提高P-值的精度,确保原假设检验的准确性。
(4)本文研究中主要是基于正态分布的假设条件下,通过统计模拟所作的探讨和研究,并没有考虑其他分布情况下(比如T-分布等其他分布)下是否依然存在这种选择传统的显著性水平α,存在误判的可能性。针对其他分布的假设下,也是下一步需要研究的问题。
参考文献
[1]John W. Fraas:Testing for Statistical and Practical http://sblunwen.com/tjzylw/ Significance: A SuggestedTechnique Using a Randomization Test[J].Annual Meeting of the Mid WesternEducational Research Association, 2000(10):25-28
[2]Sim,S.,Johnson R.A.New Tests for multivariate ordered alternatives[J].Communi-cations in statistics Theory and Methods,2004(33):227-239
[3]GR IF FEE D T..Research in practice:Understanding significance testing programevaluation [ J].Journal of Developmental Education,2004(3):29-31
[4]Mood A M.Graybill E A. Introduction to the Theory of Statistics [M].New York:McGraw- Hill, 1963
[5]B. Dimitrov.D.Green.Jr.V.Rykov.P.Stanchev.On statistical hypothesis testing viasimulation method [J]. Information Theories & Applications, 2009(10):404-413.
[6]Clark Glymour, David Madigan: Statistical Inference and Data Mining[J].Communications of the ACM,1996(11):36-41
[7]A,M.Law.WD.Kelton.SimulationModelingandAnalysis[J].3dedition,McGraw-Hill,N.Y,2000
[8]Amy L. Baylor.Ph.D..Yanghee Kim. Pedagogical Agent Design: The Impact ofAgent Realism, Gender, Ethnicity, and Instructional Role [J].National ScienceFoundation Grant,2010(8):47-53
[9]Liu Leping.Zhang Long.Cai Zhenggao.A Multiple Hypothesis Test and It’sapplication in Econometrics [J].Statistical Research, 2007, VOI.24, No.4
[10]Gordon Douglas Menzies. Daniel John Zizzo.Do Only Economists Rely onStatistical Significance [J].Social Research Network Discussion Paper, 2008(8)