疾病发病风险预测模型拟合度评价方法的研究进展*
2015-01-27郑黎强
郑黎强 张 蕊
·综述·
疾病发病风险预测模型拟合度评价方法的研究进展*
郑黎强1△张 蕊2
疾病风险预测模型可以使多危险因素和未来疾病的发生确定为一种定量关系,通过多危险因素的水平来预测某一个体未来某疾病的发病概率。在过去的30年中,预测模型在公共卫生领域和临床医学领域不断发展,除了最初的心血管病外,癌症、高血压、糖尿病等其他疾病研究领域也都开始了对预测模型的探索[1-4]。疾病风险预测模型得到越来越多的关注,如何对疾病发病风险预测模型的拟合度进行合理的评价,已经成为当前统计研究中的难点和热点问题。本文将就疾病风险预测模型的拟合度评价,以及近年来应用越来越多的最新几种模型评价统计学方法进行综述,希望能给出一个既全面又具体的阐述。
模型拟合度的评价
模型拟合度是指模型预测结果与实际观察发生情况之间的符合程度,两者越一致,模型建立的越“成功”,效用也越大。一般来说,评价一个模型的优劣主要有两个方面:标定能力(calibration)和区分能力(discrimination)。标定能力是指人群的平均预测概率与实际观察到的发病概率的一致程度,通常做法是根据预测概率将研究对象分为若干个亚组(一般为10组),计算每组的平均预测发病概率和实际发病率,并采用Hosmer-Lemeshow 卡方检验(HL χ2)检验两者的符合程度,有统计学意义说明预测概率和实际发病率之间有显著性差异,标定能力较差。区分能力是指正确地把病人和非病人区分开的能力,如果实际发生事件者的预测发病概率均高于未发生事件者,此时模型的区分能力为最佳,通常反映区分能力的方法是采用受试者工作曲线下面积(the area under the receiver-operating characteristic curve,AUC)或叫C统计量(C-statistic)进行计算和检验,C统计量越大说明模型的区分能力越强。需要注意的是,区分能力最佳时其预测概率并不一定与实际发病率一致,也就是说标定能力并不一定好。如图1所示。
标定能力和区分能力反映了预测模型拟合度的两个不同方面,通常情况下只能在两者之间达到一种“平衡”而难以使两者都达到最佳。有研究显示,只有当发病概率分布的越分散,两者才有可能同时达到最佳,概率密度函数都集中在0或1,即呈现“U”字型时,标定能力最佳,同时C统计量达到1,而实际情况中某疾病的发病概率通常很难呈现这样的分布。
此外,还有一些检验方法是对预测模型整体拟合度进行评价,如以似然统计量为基础的决定系数(R2)和贝叶斯信息准则(Bayes information criterion,BIC)等。
模型拟合度评价的统计学方法
对于预测模型的评价包括对单个的新建模型利用验证队列进行验证和评价、对新标志物是否能提高原有模型的预测能力进行评价、对两个针对相同结局事件的预测模型进行比较性评价三种情况。
1.利用验证队列对拟合的预测模型进行验证与评价
当一个预测模型通过来源队列建立起来之后需要对其进行拟合度的验证,即分别评价该模型的标定能力和区分能力。
首先利用C统计量对预测模型的区分能力进行评价。AUC最早应用于筛检试验和诊断试验领域。由于它同时考虑了灵敏度和特异度这两个指标,所以能全面地评价试验的真实性。之后,AUC渐渐被应用到了评价预测模型拟合度等领域,并命名为“C统计量”[5]。C统计量的实质是发生事件者的预测发病概率高于未发生事件者的可能性大小,故能够反映模型区分病人和非病人的能力。C统计量的范围在0.5~1,1表示可以将病人和非病人完全区分开,0.5表示病人和非病人的区分只靠偶然概率。通常0.7~0.8被认为模型可以接受,0.8~0.9被认为很好。
其次利用HL χ2来评价预测模型的标定能力。与区分能力不同,标定能力评价的是预测模型正确预测人群绝对危险概率的能力。通常做法是根据预测概率的分位数(如十分位数)将人群分为若干组,比较每组人群的平均预测概率与实际事件发生率之间的差异,采用HL χ2检验[6]。P<0.05代表模型的标定能力较差。
2.对新标志物的评价或两个模型的比较
随着疾病风险预测模型的发展,一些新的危险因素或标志物被不断提出,研究人员试图将这些新指标纳入传统预测模型中以期进一步提高模型的预测能力。而如何来评价新指标的预测能力?纳入的新指标能否提高模型的预测能力?这就需要对原有模型和加入新标志物后的新模型进行比较。而针对相同结局事件的两模型比较也与之类似,采用的统计学方法相同,因此对这两种情况一并叙述。
过去很长一段时间评价新标志物是否能提高原有模型的预测能力主要依靠拟合优度检验(-2log likelihood)及C统计量的方法来进行评价。拟合优度检验通常的做法是先利用传统危险因素拟合模型1得到拟合优度1,然后把新标志物加入到模型1中去,得到模型2的拟合优度2,根据两拟合优度的差值查χ2分布表(自由度为1),若差异有统计学意义则说明新标志物能够提高模型的预测能力。然而,Pencina则认为模型拟合优度检验的要求过于宽松,在样本量很大的研究中,就算新变量与结局变量的关联性很弱,都能够达到统计学意义。
由此可见依靠传统的统计学方法不能有效地评价新标志物的预测能力,故近5年来,一些新的统计学应运而生,包括净重分组提高指数(netreclassificationimprovement,NRI)、整合区分提高指数(integrateddiscriminationimprovement,IDI)和重分组标定统计量(reclassificationcalibrationstatistic,RCS)[10-11]。这些方法的中心思想是新模型对研究对象进行了“重分组”(reclassification),从而引起个体在危险分层中的“变动”,如果这一“变动”是正确的或更符合实际情况的,那么相对于旧模型而言,新模型则有更优的预测能力。此外,随着这些新的统计学方法越来越受到人们重视程度,应用领域越来越广,适用于生存分析或删失数据的方法也不断完善[12]。
(1)NRI
新模型较之于旧模型(或在模型中引入一个新标志物)区分能力有所提高表现在两方面:发生事件者在新模型中的发病预测概率有所提高(即从较低风险组划分到较高风险组),而未发生事件者的预测概率有所下降(即从较高风险组划分到较低风险组)。如果这两组人群的预测概率变动方向与上述相反,则会降低模型的区分能力[10]。因此,NRI需要分别在发生事件者和未发生事件者中计算预测模型发生改变的人数比例。
(2)IDI
叶斯梯度(Yatesslopes),也叫区分梯度(discriminationslopes),是指病人的平均预测概率与非病人的平均预测概率之差,差距越大,则说明模型区分病人和非病人的能力越强[13]。IDI相当于两个模型的叶斯梯度之差,可以反映新模型较旧模型区分能力的提高程度[10]。
IDI不需要进行危险分层,而是直接计算发生事件者和未发生事件者的平均预测概率,这一点与NRI有所不同。
(3)RCS
和NRI一样,RCS的计算首先也要根据两个模型将研究对象分配到“重分组表”的每个格子中(无需区分发生事件者和未发生事件者)。表中的每个格子都对应有一个实际发病率和分别由两个模型预测得出的平均发病预测概率[11,14]。生存分析存在删失数据的问题,可以通过K-M生存曲线来计算实际发病率。
小 结
以上介绍了几种近几年来最新的评价预测模型拟合度的方法,它们的优势在于可以直接反映模型区分能力或预测能力,并且可以进行模型之间的比较,或是新标志物的评价,故越来越受到研究者重视。关于这些方法的应用,有几点需要注意:(1)评价预测模型的区分能力时,首先需要有一个较好的标定能力。如果标定能力差,那么所谓的区分能力评价起来也没有任何意义,所以这两方面的评价都不能少[15]。(2)与结局事件有统计学关联的变量并不一定会提高模型的拟合度。如9q21基因多态性被证实与心血管病有相关性,但是却没有提高模型的区分能力和标定能力[16]。(3)危险分层界值的选取会影响NRI和RCS最终的评价结果。比如将发病风险从四组变为三组时,NRI会减小,RCS的卡方值也会减小。因此,危险分层标准的选择就显得尤为重要,需要结合临床实践,具有临床意义。通常选取公认的一些分层标准,如ATPⅢ中的标准[17]。对于那些目前尚无公认的危险分层标准的疾病,应用这些方法来评价和比较模型需要慎重[11]。(4)研究发现,那些发生“重分组”的个体主要是“中危人群”,这部分患者由于很可能被分到高危组或者低危组,而导致接受完全不同的诊疗措施,所以受到更多的关注。一些研究就只关注于这部分人群。
近年来,NRI、IDI等新方法的应用呈现快速增长的趋势,除了心血管病研究外,其他研究领域正开始日益普及。然而一些研究者并未深刻了解到模型评价的意义所在,也未明白这些评价方法应该注意的问题和前提条件,导致部分相关文献出现质量较差的情况。Tzoulaki在2011年总结了自这些新方法提出之后(2006年)的几年间医学文献中NRI、IDI和RCS的使用现状,发现在汇总的51篇文献中,只有53%的研究评价了模型的标定能力,而仅有31%的文献明确地写出了所用的危险分层界值,27%的研究选取的界值是有临床意义的[18]。作者指出,虽然这些新的方法在评价和比较预测模型方面有其独特的优势,但是目前出现了“误用”和“滥用”的倾向,因此建议规范其使用,并对文献当中的相关表述作出一些规范化的指导。因此,在这篇文献发表后不久,Pete撰写了一篇短讯以明确涉及到这些方法时,文献应该如何正确的表述结果,以此提供更多的信息和避免一些错误[15]。值得注意的是,这些方法由于尚很“年轻”未能普及,仍处于不断完善和发展中,如NRI的置信区间问题,以及对于删失数据的处理仍未有明确解决方法,还需进一步探讨。
[1]ParikhNI,PencinaMJ,WangTJ,etal.Ariskscoreforpredictingnear-termincidenceofhypertension:theFraminghamHeartStudy.AnnInternMed,2008,148(2):102-110.
[2]GailMH,BrintonLA,ByarDP,etal.Projectingindividualizedprobabilitiesofdevelopingbreastcancerforwhitefemaleswhoarebeingexaminedannually.JNatlCancerInst,1989,81(24):1879-1886.
[3]MeigsJB,ShraderP,SullivanLM,etal.Genotypescoreinadditiontocommonriskfactorsforpredictionoftype2diabetes.NEnglJMed,2008,359(21):2208-2219.
[4]SchnabelRB,SullivanLM,LevyD,etal.Developmentofariskscoreforatrialfibrillation(FraminghamHeartStudy):acommunity-basedcohortstudy.Lancet,2009,373(9665):739-745.
[5]HanleyJA,McneilBJ.Themeaninganduseoftheareaunderareceiveroperatingcharacteristic(ROC)curve.Radiology,1982,143(1):29-36.
[6]HosmerDW,HosmerT,LeCessieS,etal.Acomparisonofgoodness-of-fittestsforthelogisticregressionmodel.StatMed,1997,16(9):965-980.
[7]HanleyJA,McneilBJ.Amethodofcomparingtheareasunderreceiveroperatingcharacteristiccurvesderivedfromthesamecases.Radiology,1983,148(3):839-843.
[8]PepeMS,JanesH,LongtonG,etal.Limitationsoftheoddsratioingaugingtheperformanceofadiagnostic,prognostic,orscreeningmarker.AmJEpidemiol,2004,159(9):882-890.
[9]CookNR.Useandmisuseofthereceiveroperatingcharacteristiccurveinriskprediction.Circulation,2007,115(7):928-935.
[10]PencinaMJ,D'AgostinoRS,D'AgostinoRJ,etal.Evaluatingtheaddedpredictiveabilityofanewmarker:fromareaundertheROCcurvetoreclassificationandbeyond.StatMed,2008,27(2):157-172,207-212.
[11]CookNR,RidkerPM.Advancesinmeasuringtheeffectofindividualpredictorsofcardiovascularrisk:theroleofreclassificationmeasures.AnnInternMed,2009,150(11):795-802.
[12]PencinaMJ,D'AgostinoRS,SteyerbergEW.Extensionsofnetreclassificationimprovementcalculationstomeasureusefulnessofnewbiomarkers.StatMed,2011,30(1):11-21.
[13]YatesJF.Externalcorrespondence:decompositionofthemeanprobabilityscore.OrganizationalBehaviorandHumanPerformance,1982,30:132-156.
[14]PepeMS.Problemswithriskreclassificationmethodsforevaluatingpredictionmodels.AmJEpidemiol,2011,173(11):1327-1335.
[15]PepeMS,JanesH.Commentary:Reportingstandardsareneededforevaluationsofriskreclassification.IntJEpidemiol,2011,40(4):1106-1108.
[16]PaynterNP,ChasmanDI,BuringJE,etal.Cardiovasculardiseaseriskpredictionwithandwithoutknowledgeofgeneticvariationatchromosome9p21.3.AnnInternMed,2009,150(2):65-72.
[17]ExecutiveSummaryofTheThirdReportofTheNationalCholesterolEducationProgram(NCEP)ExpertPanelonDetection,Evaluation,AndTreatmentofHighBloodCholesterolInAdults(AdultTreatmentPanelIII).JAMA,2001,285(19):2486-2497.
[18]TzoulakiI,LiberopoulosG,IoannidisJP.Useofreclassificationforassessmentofimprovedprediction:anempiricalevaluation.IntJEpidemiol,2011,40(4):1094-1105.
(责任编辑:郭海强)
*国家自然基金项目(项目编码:81302495),辽宁省科技厅社会发展攻关计划项目(项目编码:2013225089)资助
1.中国医科大学附属盛京医院临床流行病学教研室,图书馆(110004)
2.辽宁省疾病预防控制中心慢病所
△通信作者:郑黎强,E-mail:zhenglq@sj-hospital.org