APP下载

非参数统计的简单应用

2020-03-17

福建质量管理 2020年6期
关键词:差值位点人口

(广东财经大学 广东 广州 510320)

一、对于非参数统计的心得

以往的所有课程中,对于参数统计我们有着详细的方法去估计,参数估计,假设检验,大样本正态分布,计算它的一系列样本参数来推断信息。例如,我们首先假设收入是服从正态分布的,于是我们就去计算样本的期望、方差、峰度等来以此此来刻画这一数据,再通过这些收集到的数据去做推断。但是现实中的统计工作我们是不知道怎么分布情况的,不是t检验,方差分析也做不了,线性回归也不行,时间序列分析等等都不行,简单来说,我们对于分布一无所知,甚至数据是残缺的,不完整的,这时候我们就只能用非参数统计方法去处理这些处理不了的问题。常用的非参数统计方法有:符号检验,Wilcoxon秩和检验。

二、方法介绍

(一)符号检验

符号检验是最基本的非参数统计方法,获取到样本X1,…Xn之后,不知道这是不是正态分布,因而就用不了t检验。在非参数检验里,用符号检验要熟知分位点以及广义的分位点性质意义。简单的二项分布,与分位点结合就形成了符号检验。对于符号二字的理解呢,则是这样定义的:

检验原假设是H0:Qπ=q0(Qπ是针对连续变量的π分位点)

备择假设则可以是大于也可以是小于,或者是不等,随统计问题的具体而定。

假设都已经做好的,样本收集过来,记大于样本的点数为N+,小于的则记为N-,用小写的n+和n-代表对应的实现值。n=n++ n-。如果此时零假设是成立的,则应该有n-与n之比约为π,或者说n-是大约nπ。于是这样就得到了,在零假设成立的情况下,N-是服从二项分布Bin(n,π)的(要么是大于,要么是小于,于是是二项分布)。这里的符号意思N+就是样本中所有减去q0之后的,这个差值还是为正的个数,同理,负号就是差值为负值的个数。更加深入一点可以构建卡方统计量:(|n_+-n_- |-1)2/(n++n-) 。这就是符号检验,不需要知道分布,只需要计算所谓的“符号”即可了,是非参数统计中最基本的一个方法。

(二)Wilcoxon秩和检验

用于多组数据的比较,对样本数据进行统一的编秩,求出备组秩和,再以各组秩和的平方与例子推算的比值求得的总和来计算z值,类似的,在符号检验基础上更加利用信息,减去要检验的数值,得到差值,再对其取绝对值,再排序,求秩(相同的取一样的秩),令W+为差值为正的秩和,W-为差值为负的秩和。再去计算p值或者查询临界值。比符号检验更加高明的是利用到了差值多少的信息,符号检验只区分了正负,秩和检验可以理解为对不同距离的差值赋予了不同的权数。

三、非参数估计的优点总结

1.减少模型误差是必然的,用到了更多样本中的信息,传统的参数发放就是基于分布的假定上,然而实际统计工作往往是满足不了这些分布形式的,导致传统模型与现实相背离产生模型上的偏差。而非参数估计的则是完全更多的,尽可能的去利用样本数据的信息,不需要总体分布强加条件。可以去选择与数据匹配的模型,而不是摁死了模型去让数据削足适履,具有较好的稳健性。

2.适用范围广。从数据的角度来看的话,可以处理定距、定比数据,也可以处理定类、定序数据。而实际上呢,定类和定序则是大量存在社会科学和计算机科学领域的,应用范围更加广。从模型角度来看,假定条件没有那么苛刻,适用范围更加广阔。

3.简单易操作。秩在非参数统计来说是最关键的一个东西,我们在不知道样本分布情况下,秩就是唯一我们能够依靠从样本里面提取出来的信息,从小到大排列,也非常易于理解。

四、秩和检验人口政策目标

十二大国家制定的控制人口目标是本实际末人口总量不超过12个亿,虽然已经在很早的计划生育国策下,人口还是增长,为此,我们需要做出预测趋势是否会达到人口目标。其《纲要》指出人口的自然增长率控制在12.5%以内,可以用Wilcoxon秩和检验。

注:数据来源国家统计局(人口资料).中国统计年鉴.

基于两个假设:1)总体分布连续 2)总体是对其中位数是对称的

zi=|xi-q0|,自然的,q0是目标值,对z做秩和检验。在这里以正秩和检验统计量。

H0:人口自然增长率为12.5% H1:人口自然增长率小于12.5%

检验结果,这是1978年到1989年的

差值-0.5-0.89-0.632.051.99-0.96绝对值0.50.890.632.051.990.96符号秩-1-3-21211-4差值-1.69-1.271.581.891.71.83绝对值1.691.271.581.891.71.83符号秩-7-561089

正秩和为56,当n12时候,取显著性水平为0.005时候,查表得知道临界值为17,故拒绝原假设。不认为由足够的证据证明可以控制人口自然增长率可以控制在12.5%之内,人口目标需要重新调整,人口政策需要重新规划。

五、小结

非参数统计方法与参数统计很大不同就是假定的基础不一样,或者说条件更加的宽松,参数化更加的书本化,非参数统计在实际统计工作往往用的比参数统计多太多了。但是两者的核心思想是一样的,做出检验统计量去进行检验。这是至关重要的,两者的长短处不同,应用范围也是不同的。在解决不知道总体分布情况下,对总体信息知道的不是非常明确条件下,非参数统计无疑是好过参数统计的。

猜你喜欢

差值位点人口
《世界人口日》
人口转型为何在加速 精读
镍基单晶高温合金多组元置换的第一性原理研究
CLOCK基因rs4580704多态性位点与2型糖尿病和睡眠质量的相关性
差值法巧求刚体转动惯量
二项式通项公式在遗传学计算中的运用*
一种改进的多聚腺苷酸化位点提取方法
人口最少的国家
1723 万人,我国人口数据下滑引关注
枳壳及其炮制品色差值与化学成分的相关性