多分类结局指标中两类别占比之差的统计推断方法*
2016-12-26南方医科大学生物统计学系510515段重阳陈平雁
南方医科大学生物统计学系(510515) 吴 军 段重阳 陈平雁
多分类结局指标中两类别占比之差的统计推断方法*
南方医科大学生物统计学系(510515) 吴 军 段重阳 陈平雁△
目的多分类结局指标中两类占比的比较目前尚无相应统计方法,本研究旨在建立多类别中某两类占比差的统计推断方法。方法根据多项分布理论,用正态近似法建立两类别发生占比差的假设检验方法,分别基于Wald法和Newcombe法构建其置信区间,包括连续性校正和非连续性校正两种情形。通过模拟验证假设检验方法的一类错误及检验效能和置信区间方法的覆盖率,最后以实例进行说明。结果基于占比差的假设检验在大样本下可以较好的控制一类错误。两种方法置信区间的覆盖率均在95%左右,Newcombe法优于Wald法,但在发生率较低时两种方法均不理想。结论本文提出多分类结局指标中两类占比差的假设检验及置信区间方法均能满足应用需求,其中置信区间方法推荐Newcombe法,但当样本量太小(如20例左右),所有方法均失效,建议使用描述方法。
多项分布 占比差 假设检验 置信区间 Newcombe法
对于多分类结局指标,若需要比较其中的两类占比,如人群的职业分布中比较其中教师与医务人员的占比有无差异,霍奇金淋巴瘤人群中比较临床病理分型结节硬化型与混合细胞型的占比有无差异等,目前的分析方法仅限于统计描述,尚无相应的统计推断方法。为此,本研究将建立多分类结局指标中比较其中某两类占比的统计推断方法,为应用领域提供新的分析工具。
理论推导
假设某研究可能出现的结局有k种,其发生的概率分别为 π1,π2,…,πk,结局具有排他性,即满足 π1+π2+…+πk=1。记第i种结局的频数为 xi,则向量X=(x1,x2,…,xk)服从参数为 n,π的多项分布,其中π=(π1,π2,…,πk)为相应的概率向量。根据多项分析理论可知:
第i个结局发生率的方差为:
第i及j结局发生率的协方差为:
第i及j结局发生的相关系数为:
两个占比的比较可以有差值比较和比值比较两类方法,本研究将解决差值的比较问题。两占比之差本文用符号PD(percent difference)表示。不失一般性,假设第1、2类为研究所关心的类别,相应地,π1和π2分别为占比参数,a和b分别为第1、2类事件的观测频数。下面分别推导假设检验和置信区间估计方法。
1.假设检验
检验的原假设及备择假设分别为:
欲检验π1是否等于π2,可检验占比差PD=π1-π2是否等于0,PD的方差根据公式(1)、公式(2)可以表示为:
根据中心极限定理,当样本量够大时,在原假设下可构建检验统计量
式中,zPD近似服从标准正态分布。应用中,PD值及其方差可用样本进行估计,即
2.置信区间
对于多分类结局指标中两类别发生占比之差的置信区间,我们分别用Wald法及Newcombe法进行推导,同时考虑有无连续性校正的情形。
(1)Wald法
PD值的(1-α)%置信区间根据 Wald法理论[1-2]可以构建为:
(2)连续性校正Wald法
在上述 Wald法基础上进行连续性校正[1-2],可得其校正后的置信区间为:
(3)基于Newcombe思想的方法
基于 Newcombe思想[1-2]对单组率、两独立样本占比差及两配对样本占比差置信区间构建思路,我们构建的多分类结局指标中两类别占比差(1-α)%置信区间为
其中,
式中,dl1=α/n-l1、du1=u1-α/n,l1、u1为|ξ-α/n|
当α=0时l1=0,α=n时u1=1。
同理 dl2=b/n-l2、du2=u2-b/n,l2、u2为|ξ-b/n|
当 b=0时 l2=0,b=n时 u2=1。
公式(11)中,r为公式(3)ρ(π1,π2)的样本估计值,即
当a或者b为0时r=0。
(4)连续性校正Newcombe法
对Newcombe法进行连续性校正,只需将上述公式中计算l1、u1及l2、u2的公式修改如下式即可。
此时可解得:
将公式(16)计算结果代入公式(11)即可得出经连续性校正的Newcombe法置信区间。
模拟方法
采用Monte Carlo模拟技术对我们提出的上述方法进行验证。以三项分布资料为例,假设数据服从F(π1,π2,π3)的多项分布,样本量考虑 20、50、100三种情况,π1,π2,π3参数组合见表1,共考虑42种参数组合。每种情况模拟10000次,假设检验的检验水准设为双侧0.05,置信水平设为95%。模拟采用SAS 9.4编程实现。
表1 参数设置
结 果
1.假设检验模拟结果
两种假设检验方法的一类错误及检验效能的模拟结果见表2。从模拟结果中可以看出基于占比差的检验方法在样本量设置为20时,未能控制住一类错误,但随着样本量的增大其一类错误能较好的控制在设定的0.05左右。检验效能模拟结果显示,相同样本量时随着两组占比差的增大检验效能逐渐增大,相同占比差情况下两组率越小,占比差的标准误越小,因而检验效能越高。
表2 一类错误及检验效的能模拟结果
2.置信区间模拟结果
对于占比差指标的四种置信区间覆盖率模拟结果见图1。当样本量为20时各种方法在不同参数设置下均波动较大,此种波动与分类资料的性质有关[3],尤其是基于Newcombe思想的方法,而且当两类占比均较小时四种方法均失效。当样本量增到50时,各方法都能较好的控制在95%左右,其中连续性校正的Wald法较为保守,Wald法较为激进,基于Newcombe思想的方法及其对应的连续性校正法更为接近于设定的95%,其中以连续性校正法Newcombe法更优。当样本量增到100时,整体结果与样本量为50时相同,但是此时基于Newcombe思想的两种方法极为接近,不分优劣。从整体来看基于连续性校正的Wald法保守,Wald法激进,大样本下基于Newcombe思想的两种方法均较优,小样本下发生率较大时基于连续性校正的Newcombe法较优,但小样本下发生率较小时所有方法均较差。
实 例
某研究欲研究不同冠状动脉斑块形成的危险因素,随机抽取了280人进行64层螺旋CT冠状动脉检查,记录有无冠状动脉斑块及斑块种类,并调查了相关的影响因素。其中斑块类型分布见表3。现欲知道钙化斑块与非钙化之间的差异是否有统计学意义,并且将两者之间的差异大小给出定量分析。分析结果见表4,可知钙化斑块比例要显著高于非钙化斑块。
讨 论
本研究通过理论推导建立了多分类结局指标中两类别占比差的假设检验方法及其区间估计方法,并经模拟验证。就假设检验方法而言,基于占比差的检验方法由于其理论基础基于大样本理论,所以在小样本下一类错误控制较差,当样本量增大时则能较好的控制在设定的检验水准。
图1 PD值置信区间覆盖率模拟结果
表3 冠状动脉斑块分布结果
表4 利用本文分析方法所得分析结果
就占比差区间估计方法而言,本研究提出了Wald法、连续性校正Wald法、基于Newcombe思想的方法及其对应的连续性校正方法。Wald法较为简单且意义直观。Newcombe法则是基于 W ilson 1927[7]年提出的单组率置信区间构建的一类方法,目前已建立了单样本率[4]、两独立样本率[5]及配对样本率[6]的置信区间方法,并经模拟验证得出其优于其他现有方法的结论,从而在应用中广泛使用,其中两独立样本率差的置信区间方法更是得到了FDA的官方推荐。本文因此选择借鉴其思想构建适合多分类结局指标两类间占比差的置信区间。经模拟验证得出基于Newcombe思想的两种方法均要优于Wald法及其连续性校正方法。大样本下我们推荐使用基于Newcombe思想的两种方法,小样本且当发生率较大时推荐使用基于连续性校正的Newcombe法,但是当样本量小且发生率较小时所有方法均失效,从应用层面看,样本量为20例左右的多分类数据建议用描述方法。
综上所述,本文提出的针对多分类结局指标中两类别占比差的假设检验及其置信区间方法均能较好的满足应用需求。
[1]May WL,Johnson WD.Confidence intervals for differences in correlated binary proportions.Stat Med,1997,16(18):2127-2136.
[2]Fleiss JL,Levin B,Paik MC.Statistical methods for rates and proportions.John Wiley&Sons,2013.
[3]刘江美,陈平雁.单样本率确切概率检验的样本量与检验效能非单调变化关系的研究.中国卫生统计,2012,29(2):164-167.
[4]Newcombe RG.Two-sided confidence intervals for the single proportion:comparison of seven methods.Stat Med,1998,17(8):857-872.
[5]Newcombe RG.Interval estimation for the difference between independent proportions:comparison of eleven methods.Stat Med,1998,17(8):873-890.
[6]Newcombe RG.Improved confidence intervals for the difference between binomial proportions based on paired data.Stat Med 1998,17(22):2635-2650.
[7]Wilson EB.Probable Inference,the Law of Succession,and Statistical Inference.Journal of the American Statistical Association,1927,22(158):209-212.
Statistical Inference Methods for the Percent Difference Between Two Categories of the Multinomial Outcome
Wu Jun,Duan Chongyang,Chen Pingyan(Department of Biostatistics,School of Public Health and Subtropical Medicine,Southern Medical University(510515),Guangzhou)
ObjectiveNo statistical inference method has been developed to define the significant difference between two categories of the multinomial outcome.This study aims to develop hypothesis test methods and interval estimation methods base on the percent difference(PD).MethodsHypothesis test method was developed based on the theory of large sample and multinomial distribution.The confidence interval was estimated based on the Wald method and the Newcombe′s method separately,including the corresponding continuity-corrected methods.Type Ierror and power of the hypothesis test and the coverage rate of confidence interval were tested by Monte Carlo simulation methods.ResultsThe type Ierror of the developed hypothesis test method was well controlled under large sample.Confidence interval methods based on Newcombe′s method with or without continuity-correction were better than Wald methods in the coverage rate.However,all of the interval estimation methods suffered from poor coverage rates when the percent of the two categories was too low.ConclusionBoth the hypothesis test and confidence interval methods brought up in the paper can meet application requirements and the methods based on Newcombe's method are recommended for confidence interval estimation.All methods work badly under small sample(such as 20),so descriptive methods are recommended for that case.
Multinomial outcome;Percent difference;Hypothesis testing method;Confidence interval;Newcombe′s method
国家自然基金资助(81273191)
△通信作者:陈平雁
(责任编辑:郭海强)