利用中心差排秩法和聚类分析法计算切尾均值
2019-03-08文小波
文小波
摘 要:该文首先依托样本与中位数构造了中心差,研究了中心差、中心差绝对值、中心差平方和的相关性质,并予以了论证。然后将非参数假设检验的一些思想引入切尾均值的计算中,利用中心差绝对值排秩法来切除数据,利用剩下的数据来计算切尾均值。最后引入了聚类分析的方法来计算切尾均值。对于中心差绝对值排秩法和聚类分析法举例计算了某班成绩的切尾均值。
关键词:中心差 排秩法 聚类分析 切尾均值
中图分类号:O211.1 文献标识码:A 文章编号:1672-3791(2019)12(a)-0216-03
在切尾均值的计算时,当数据为对称数据时,一般采用等尾切尾就可以达到较好的效果,此时的切尾均值就能较好地体现数据的平均情况。但当数据为非对称数据时,如此时依然采用等尾切尾就可能会造成一些较大的误差。此时对数据一般采用非等尾切尾,在确定切尾率不变的情况下,两边分别取截尾率为和,利用剩下的数据来计算切尾均值。此时和的比例的确定方法不唯一,常用图像观察法来确定两端切尾的比例。图像法虽然直观,但有时不够严谨。总体来说,切尾率的确定以及切尾方式的确立都是一个较为困难的问题。该文提出中心差绝对值排秩法和聚类分析法来研究切尾均值,在一定程度上简化问题的思考与计算。
1 中心差及其结论
定义1 从某总体中抽取样本,将所得样本按照从小到大排列为有序样本,找出中位数m0.5,称为中心差。
当n为奇数时,,当n为偶数时,,中位数具有稳健性,可以代表数据的中心。利用样本和中位数计算中心差,这样算的中心差会出现正负抵消的情况,所以一般在研究距离的时候算的都是正值,即,但由于绝对值利用的复杂性,经常考虑使用。关于中心差、中心差绝对值、中心差平方有如下的一些结论。
定理1 中心差,则有。
证明
特别的,当时,。
定理2 中心差绝对值,则有:
即,在形如的函数中,是取值最小
的,其中c为任意给定的常数。
证明 当n为奇数时,,当n为偶数时,,
不妨设此时n为奇数时,则有,进一步设,其中,则存在这样的j,使得j+1≤k,且。
由于,则有n=2k-1,则有j-(n-k)=j-k+2,
又由于,所以
[j-(n-k)](c-m0.5)=[k-j-l](m0.5-c)=(k-j)(m0.5-c)+(c-m0.5)
从而
得证此时是同类型函数中取值最小的。
同理可证明 当n为奇数时,时亦有此结论。
同理可证明 当n为偶数时,也是同类型函数中取值最小的。
定理3 中心差平方,则有:
证明,,
特别的,当时,,由于样本S2是同类型函数中取值最小的,所以有在形如的函数中,是取值最小的,其中α为任意给定的常数。
2 利用中心差排秩
引入非参数假设检验的一些方法来思考切尾均值问题,m0.5为中位数,中心差出现的正负号几乎是一樣多的,所以利用符号检验的思想,只关注正负号的个数是很难起到效果的,可以利用符号秩和的思想来思考。虽然中心差出现的正负号几乎一样多,但是正负中心差的绝对值大小不一样,分别计算其正秩和和负秩和,一般来说数据较为均衡的时候,其正负秩和应该大小一致,总秩和越接近零,两端相对均衡,当秩和离零较远,说明中位数两端部分不均匀。当然由于从非参数方法中引入的符号秩和的结论有时精度不是特别高,故还是进一步寻求排秩法来研究切尾均值。
在考虑切尾的时候,可以对中心差绝对值排秩,秩次越小说明μi越接近零,数据离中位数越近。对于相同秩次,即结的问题,可以借鉴一般非参数假设检验的处理方式,为了计算的需要该文中采用平均秩次的表示方式,即两个并列第一的话,按照1.5名来计算其秩次,这样保证了其秩和为3。将排秩后的数据按照切尾比例(一般为10%)切除数据。这样思考的优势是不用考虑两边分别的切尾率,只需算一个总体的切尾率,将较大部分的|μi|按照切尾率切除即可。完全由数值大小来决定切除的数据。将离中位数较远部分的数值切除,可能是单侧切尾,也可能是双侧切尾,可能是等尾切尾,也可能是非等尾切尾,完全由数据与切尾率来决定切除的数值,简化了运算与思考。通过下面例题来使用中心差绝对值排秩法来求解切尾均值。
例1 某班有51个同学,获得其某次考试成绩如下所示,利用中心差排秩法,切尾率α=0.1,来计算其切尾均值。
69 69 73 61 55 76 59 40 66 48 42 56 54 68 70 55 67 71 42 67 78 83 67 67 49 79 68 66 62 71 60 66 48 62 78 75 62 76 82 70 61 65 60 72 65 65 70 65 81 85 80
解 将数据录入SPSS软件之中,通过个案排秩,将数据排序,并找出中位数=67,通过计算变量选项计算,得出中心差μi,然后计算中心差绝对值|μi|,然后将中心差绝对值|μi|进行个案排秩,按照预先给定的切尾率α=0.1,切除|μi|较大的10个数据,其较小部分切除的是4个数,较大数字部分切除的是6个数,由数据本身的特点决定了其非等尾切尾的情况,利用剩下的41个数据来计算切尾均值。数据较多,在此不一一呈现其具体软件操作步骤了。给出其最终结果=66.9756。
利用中心差绝对值排秩法可以在一定程度上简化切尾均值的计算,可以推广到其他需要运算切尾均值的地方。
3 利用聚类分析计算切尾均值
聚类分析是一种常用的多元统计分析方法,主要用于处理高维数据。该文将聚类分析的思想和方法引入切尾均值之中,而一般情况下切尾均值所研究的数据多为一维数据。K-均值聚类法是一种可以将样本指定聚为几类的一种快速聚类方法,将样本聚为3类,选取其中最具代表性的第二类(中间类)来计算其切除数据后剩下样本的均值。通过如下例题来加以分析。
例2 依然采用例1中的51个同学的英语成绩的数据,利用聚类分析法来计算其切尾均值。
解 将数据录入SPSS软件之中,通过K-均值快速聚类分析,将样本分为3类,在此给出其最终的聚类中心和聚类案例数。
通过分析操作得出中间类别的案例数为26个,利用其算得切尾均值=63.5769,与中间类的聚类中心较为一致。当然此算法中样本切尾率将近50%了,切除较多,可能会影响到数据真实的结论。
当然也可以利用系统聚类法,将数据聚类,利用其聚类图或者冰柱图,来分析其数据聚集形式,切除离群较远的类别或者数据,利用剩下的数据来计算切尾均值。
利用聚类分析来研究切尾均值,由数据本身来决定切尾部分,可能会使得切除部分过大,一般难以按照预先的切尾率来切除数据。如在指定切尾率的情况下,可以指定m0.5以为聚类中心,将离聚類中心较近的保留水平下的数据聚为一类,其余的数字为其他部分,类似于高等数学中的一维数轴上的邻域的思想。可以用分段函数的调用完成数据的筛选,最后利用保留的数字来计算切尾均值。在此不予赘述。
4 结语
通过中心差的计算,利用个案排秩来计算切尾均值,是把假设检验的思想引入了切尾均值的计算之中,利用聚类分析来计算切尾均值是引入了多元统计分析方法的聚类分析思想。同样,可以思考将其他的一些分析方法与切尾均值的计算相结合,相信亦可得到较好的结论。将该文所研究的方法推广到更广范围的切尾均值的计算,亦会有良好的结果,在实际运用中要注意传统切尾均值的计算方法与新方法的对比,挑选出合适的切尾均值计算方法。
参考文献
[1] 茆诗松,程依明,濮晓龙.高等数理统计[M].北京:高等教育出版社,2006.
[2] 杜强,贾丽艳,严先锋.SPSS统计分析从入门到精通[M].北京:人民邮电出版社,2014.
[3] 盛骤,谢式千,潘承毅.概率论与数理统计[M].4版.北京:高等教育出版社,2010.
[4] 茆诗松,程依明,濮晓龙.概率论与数理统计教程[M].北京:高等教育出版社,2011.
[5] 胡晓华.解析显著性水平及应用[J].统计与决策,2017(13):88-91.
[6] 罗葵,马学敏,马志伟,等.随机切尾均值及其自举的统计分析[J].数学杂志,2015(2):237-251.