APP下载

偏态分布下多样本变异系数比较的平方秩检验*

2018-09-20王北琪周基元

中国卫生统计 2018年4期
关键词:错误率样本量正态分布

王北琪 汪 鹏 尹 平 周基元△

【提 要】 目的 提出一种适用于偏态分布的多样本变异系数比较的平方秩检验,并与现有的D’AD与SRT方法进行模拟比较。方法 借鉴Levene检验的构造思想,对原始数据做一种新的变换,由此构造出一种适用于偏态分布的多样本变异系数比较的MSRT检验统计量。在不同参数设置下,经过Monte Carlo模拟,比较新提出方法与现有方法的第一类错误率。同时,将新提出方法与现有方法应用于铅致肝损伤指标的数据,对这些方法做进一步的比较。结果 MSRT方法可以避免D’AD方法对样本正态分布假设的依赖;相比于SRT方法,在偏态分布下,MSRT方法可以更好地控制第一类错误率。在对铅致肝损伤指标γ-GT与ALT的变异系数的比较分析中,三种方法对两个指标的分析结果存在差异。结论 MSRT方法是一种稳健且普遍适用的可靠方法。

为消除数据间量纲不同的影响,通常使用变异系数(coefficient of variation,CV)比较两组或多组数据间的离散程度[1-2]。在医学指标的筛选中,一般认为变异系数大的指标更加重要,因此可以通过比较多样本变异系数来判断指标的稳健性与敏感性[3]。目前,比较多样本变异系数是否存在差异的方法主要有三种:D’AD方法[4]、LRT方法[5]和SRT方法[6],其中D’AD方法与LRT方法均要求样本服从正态分布,并且D’AD方法由于其形式简单而且检验效能高,因而比LRT方法使用更广泛。然而,当数据不是严格服从正态分布时,D’AD方法与LRT方法的第一类错误率可能会膨胀。因此,Miller提出了SRT方法[6],虽然该方法适用于服从偏态分布的数据,但是其第一类错误率仍然偏高,从而非常有必要提出一种适用于偏态分布数据而且能很好地控制第一类错误率的多样本变异系数比较的方法[7]。因此,本文将提出一种适用于偏态分布数据的多样本变异系数比较的方法,并与现有的D’AD、SRT方法的第一类错误率进行模拟比较,同时将这些方法应用于铅致肝损伤指标数据,对这些方法做进一步的比较。

原理和方法

用于做方差齐性检验的Levene检验被证实是一种稳健的方法[8]。多样本变异系数比较的SRT方法就是基于Levene检验的构造思想构建出来的。具体而言,设X为随机变量,则由变异系数的定义可得

(1)

模拟研究

通过改变正态分布μ、σ2的值来获得不同的CV值;通过改变均匀分布a、b的值来获得不同的CV值;类似地,shiftχ2分布χ2(n,δ)中固定n值为4,shift gamma分布G(k,λ,δ)中固定k= 4、λ= 1,改变形状系数δ取值以得到不同的变异系数CV值。模拟数据分别从正态分布、均匀分布、shiftχ2(4)分布与shift gamma(4,1) 分布中进行抽样。

模拟结果

四种方法在四种分布下针对不同样本量和变异系数设置的第一类错误率结果见表1。由表1知,在正态分布下,D’AD方法能很好地控制第一类错误率;对均匀分布,D’AD方法的第一类错误率偏保守。对Shiftχ2(4)分布与Shift gamma(4,1)分布,当CV≤0.20时,D’AD方法的第一类错误率会膨胀;当CV=0.50时,其第一类错误率又偏保守。当CV=0.50且分布为Shiftχ2(4)分布与Shift gamma(4,1)分布时,SRT方法能很好地控制第一类错误率,其他情况下其第一类错误率会膨胀。对于新提出的MSRT方法,当分布为对称分布时,MSRT1方法的第一类错误率均被控制在0.05附近;当分布为偏态分布时,所有方法中MSRT2方法的第一类错误率控制得最好,然而部分情况下其第一类错误率仍会偏保守。

实例分析

在铅中毒导致肝损伤研究中[9],为评价铅致肝损伤的最佳诊断指标,采用平行对照的动物实验。将65只小白鼠随机分为4组,分别为阴性对照组、10mg/kg铅组、30mg/kg铅组和60mg/kg铅组,样本量分别为17、16、16和16。获取小白鼠γ-GT与ALT指标数据,其描述统计量见表2。由于样本量较小,且原始数据变异较大,所以考虑截取两侧10%的数据后用样本均数估计位置参数。分别用D’AD、SRT和MSRT1方法比较两指标组间变异系数,结果见表3。

表1 不同CV值D’AD、SRT、MSRT1和MSRT2方法第一类错误率模拟比较

表2 铅中毒大鼠血清肝酶活力(nkat/L)变化

表3 γ-GT与ALT组间变异系数检验结果

结果显示,D’AD方法在γ-GT的组间变异系数比较中结果最为保守(χ2=1.12,P=0.772),而在ALT的结果中最为敏感(χ2=46.59,P=4.250×10-10)。对γ-GT指标,SRT方法的P值小于0.05(χ2=9.13,P=0.028),MSRT1方法的P值大于0.05(χ2=7.22,P=0.065);对ALT指标,SRT方法与MSRT1方法的P值均小于0.05。根据以上三种方法的结果,ALT的变异系数在不同剂量组间差异有统计学意义,但是尚不能认为 γ-GT变异系数在各组之间存在差异。接下来使用MSRT1方法对γ-GT与ALT的变异系数在组内是否存在差异进行检验,结果见表4。由MSRT1方法的检验结果可知,除了60mg/kg铅组内γ-GT与ALT的变异系数之间差异无统计学意义外 (χ2=1.32,P=0.250),其余各组的γ-GT与ALT变异系数之间差异均有统计学意义。

表4 γ-GT与ALT在不同组别内的变异系数比较的检验结果

讨 论

多样本变异系数的比较可以广泛应用于医学、经济学等领域。现有的方法中,目前应用较多的是D’AD方法与SRT方法,然而当样本服从偏态分布时,其第一类错误率会膨胀。因此,本文提出适用于各种分布的多样本变异系数比较的MSRT方法。模拟结果显示,MSRT方法对所有对称分布,不论变异系数和样本量的大小,其第一类错误率都可以控制在预设的检验水平附近;在偏态分布下用中位数估计位置参数的MSRT2方法的第一类错误率被控制得最好。因此,本文提出的MSRT2方法适用于各种分布,是一个较为稳健、可靠的比较多样本间变异系数的方法。

猜你喜欢

错误率样本量正态分布
关于n维正态分布线性函数服从正态分布的证明*
医学研究中样本量的选择
生活常态模式
样本量估计及其在nQuery和SAS软件上的实现*——均数比较(十一)
样本量估计及其在nQuery和SAS软件上的实现*——均数比较(十)
偏对称正态分布的若干性质
小学生分数计算高错误率成因及对策
正视错误,寻求策略
正态分布及其应用
解析小学高段学生英语单词抄写作业错误原因