基于Monte Carlo模拟的非参数多重比较方法评价

2011-07-27滨州医学院264003孙红卫韩春蕾

中国卫生统计 2011年5期

滨州医学院(264003) 孙红卫王玖韩春蕾

在实际工作中，经常要用Kruskal-Wallis检验对多于2组的数据进行比较，如果有统计学意义，需要采用非参数的多重比较方法(multiple comparison procedures，MCP)来鉴别到底哪两组有差异。相比参数检验的MCP，非参数MCP研究较少，提供的方法不多，且统计软件没有直接调用的过程可供实现。本文收集了在实际中常常采用的5种非参数MCP，用Monte-Carlo模拟来考察这些方法的第一、二类错误和判对率，并对实际中应用MCP提出建议。

非参数多重比较方法

1.Dunn_z

这是Dunn〔1〕在1964年提出的一种用于非参数多重比较的方法。第i组和第j组进行比较的统计量为:

z服从正态分布。要对检验水准进行调整，α'=2α/k(k-1)，z与za'比较。为两对比组中第i组、第 j组的平均秩和;ni、nj为 i组、j组的样本含量;N为总例数。

2.扩展的t检验法

扩展的t检验法是卫生统计学第6版教材〔2〕中介绍的方法。第i组和第j组进行比较的统计量为:

t服从自由度为N-k的t分布。其中，Ri、Rj、ni、nj、N的意义同上，k为组数，H为Kruskal-Wallis检验所得的统计量。这种方法也需要编程实现。

3.秩次转换之后的LSD(R_LSD)、SNK(R_SNK)和Bonferroni(R_BON)

Conover和 Iman〔3〕认为，对于非参数多重比较的问题，可以对数据取秩次之后，再对秩次用参数多重比较的方法来解决。这也是实际工作中经常采用的方法。本文考察了R_LSD，R_SNK和R_BON三种方法的性能。

在以上五种方法中，经过证明，R_LSD与扩展的t检验法是等价的。所以，本文主要考察了四种非参数多重比较方法，即Dunn_z，R_LSD，R_SNK和R_BON。

评价指标

理想的多重比较方法不但控制第一类错误在一定的检验水准下，而且能够尽量减少第二类错误，提高检验效能。

1.第一类错误〔4〕

(1)CER(comparisonwise error rate)，指在单个的假设检验中犯第一类错误的概率大小

(2)FWE(familywise error rate)，为实验的第一类错误。在检验集合的所有假设检验中出现第一类错误的概率，即检验集合中至少发生了一个CER错误的概率。这是多重比较方法需要控制的指标。

2.第二类错误〔5〕

(1)CP(complete power)，即完全效能，指在检验集合的比较中发现所有的差异的能力。

(2)PP(proportional power)，即比例效能，指在一次两两比较中发现差异的能力。

3.TM(true model)〔6〕

判对率指对于检验集合的统计推断完全正确的概率，其同时考察了犯第一、二类错误的概率。

模拟实验设计

由于非参数多重比较主要用于不满足参数检验的条件时，比如不符从正态分布，或者虽然正态分布但是方差不齐时，所以考虑了两种分布，一是对数正态分布，二是正态分布但是方差不齐。

考虑到多重比较方法的性能受到多个因素的影响，比如样本含量、组数等，还有就是均数间的差异、方差大小等。为了尽量模拟实际应用情况，实验设计见表1、表2。

表1 正态分布方差不齐时的实验参数设定

表2 对数正态分布时的实验参数设定

在不同组合下根据对应的分布产生随机数，并用4种多重比较方法进行检验，考察4种方法的一类错误，二类错误以及判对率。随机数的产生在SAS8.2上实现，4种多重比较方法及各种指标的计算均利用SAS的宏功能。每种组合下均模拟1000次。结果的分析使用SAS8.2和SPSS13.0实现。

结果

本文两种分布皆考虑了总体均数全部相等，总体均数部分相等和总体均数全部不等三种情况。经过分析发现，正态分布方差不齐和对数正态分布的结果相似，所以两种分布的结果合在一起分析。

1.总体均数全部相等

由于所有总体均数全部相等，不可能犯第二类错误。这里要考察的指标只有FWE。

从表3可以看出，Dunn_z和R_BON对FWE的控制在0.1以下，而R_SNK的FWE超过了0.1的部分占17.4%，且当样本量小于20时，其检验水准都控制在0.1以内。而R_LSD的FWE失去了控制。

表3 总体均数全部相等时FWE的模拟结果

2.总体均数部分相等

由于总体均数部分相等，这里要考察的指标有FWE，CP，PP及 TM(结果见表4～6，图1～4)。

表4 总体均数部分相等时FWE的模拟结果

表4和表3的结果相近，但是在部分相等时，四种方法的FWE都减小了。其中Dunn_z控制在FWE在0.1以下，而R_BON超过0.1的部分只有2.8%，R_SNK超过0.1的部分有23.5%，但当样本量小于20时，其FWE超过0.1的部分只有7.4%，而这时R_LSD的FWE超过0.1的部分有19.8%。

从图1可以看出，Dunn_z法FWE中位数随样本量的增长变化不大，R_BON次之，而R_SNK和R_LSD增长较大。

图1 总体均数部分相等时FWE的中位数随样本量的变化情况

图2 总体均数部分相等时FWE的中位数随组数的变化情况

从图2可以看出，Dunn_z和R_BON的FWE在组数增大时变化不大，这由于两种方法都根据组数来调整了检验水准。R_SNK的FWE变化不大，而R_LSD的FWE随组数的增长而增大。

表5 总体均数部分相等时CP和PP的模拟结果

从表5可以看出，R_LSD和R_SNK的完全效能和比例效能接近，都较高，R_BON次之，Dunn_z的检验效能最低。

从图3可以看出，四种方法的检验效能都随着样本量的增长而增大，且之间的差距越来越小。当样本量大于40时，四种方法的检验效能相近。

图4显示四种方法的完全效能都随着组数的增长而减小，但是减小的程度不一样，Dunn_z的完全效能下降幅度最大，R_BON的下降幅度也较大，而R_SNK和R_LSD的完全效能下降幅度较小。

图3 总体均数部分相等时CP的中位数随样本量的变化情况

图4 总体均数部分相等时CP的中位数随组数的变化情况

表6 总体均数部分相等时TM的模拟结果

判对率综合了第一类错误和第二类错误，从判对率的角度看，其中最高的是R_BON和R_SNK。

3.总体均数全部不等

由于所有总体均数全部不等，不可能犯第一类错误。这里要考察的指标只有CP和PP。

表7 总体均数全部不等时CP和PP的模拟结果

R_LSD和R_SNK的完全效能和比例效能接近，都较高，R_BON次之，Dunn_z最低。

结论

选择合适的检验方法的原则是能将FWE控制在一定的水准下，选择检验效能最高的方法。

从上面的结果中可以看出，R_LSD、R_SNK、R_BON以及Dunn_z犯第一类错误的概率依次减小，但检验效能也依次减小。

R_LSD以控制CER为目的，所以它的FWE不受控制，会远大于检验水准，而R_SNK在样本量比较小时，基本控制在0.1内。而两者的检验效能相差不大。所以综合来看，R_SNK要优于R_LSD。

R_BON与Dunn_z都将FWE控制在0.1内，但是R_BON的检验效能要比Dunn_z高出很多，所以，在两者中R_BON较优。

R_BON与R_SNK比较，R_BON控制FWE的能力较高，但是检验效能较低。从前面的结果可以看到，R_BON的FWE随组数和样本量变化比较平稳，但是检验效能却随着组数的增大和样本量的减小而减小，在组数较小或样本量很大时，其检验效能与R_SNK接近。所以当组数较小时，可以选用R_BON，而在组数较大时，如果样本量也较大，可以考虑用R_BON，而如果组数较大但样本量不大时用R_BON，检验效能会较低。这时可以考虑用R_SNK，其检验效能较高，而在样本量较小时，其FWE基本控制在0.1以内。

综上，五种方法的性能如下:扩展的t检验法与R_LSD 等价，R_LSD、R_SNK、R_BON 以及 Dunn_z犯第一类错误的概率依次减小，但检验效能也依次减小。四种方法受样本量和组数的影响不同。R_BON和R_SNK是两种较优的方法。在实际中，当组数较小时，或组数较大，且样本量也较大时，可以选用R_BON;而如果组数较大，样本量较小时，可以选用用R_SNK。

1.Dunn O.Multiple comparisons using rank sums.Technometrics，1964，6:241-252.

2.方积乾主编.卫生统计学.第6版.北京:人民卫生出版社，2008:183-187.

3.Conover W，Ronald L.Rank Transformations as a Bridge Between Parametric and Nonparametric Statistics.The American Statistician，1981，35(3):124-129.

4.Westfall P.Multiple comparisons and multiple tests:using the SAS system.Cary，NC:SAS Institute，Inc，1999:16-21.

5.Seaman M.New developments in pairwise multiple comparisons:Some powerful and practicable procedures.Psychological Bulletin，1991，110(3):577-586.

6.Cribbie R.Pairwise multiple comparisons:A model comparison approach versus stepwise procedures.British Journal of Mathematical and Statistical Psychology，2003，55:27-39.