影像诊断试验中多阅片者研究的设计与分析
2014-03-10尚美霞姚晨阎小妍康晓平
尚美霞姚 晨阎小妍康晓平Δ
影像诊断试验中多阅片者研究的设计与分析
尚美霞1姚 晨2阎小妍3康晓平1Δ
影像诊断试验评价的诊断方法很多,目前研究常见的X线、CT以及磁共振成像的诊断原理大体一致,都是通过对人体扫描,将重建的图像显示在显示屏或者其他的载体上,供影像医生读片并对疾病的影像诊断结果做出判断[1]。
因此影像诊断试验的实际准确度其实是诊断仪器以及使用这些仪器的影像科医生之间的“合并准确度”[2],但在真实的临床应用中不同的影像科医生之间阅历、知识水平和能力存在很大差别,对于影像图片的判断标准也不尽一致,为了让研究估计的诊断试验的实际准确度更接近于其真实的准确度,研究中应该随机的选择多位影像科医生对图像进行解释[3]。
采用多名阅片者的研究设计可以有效的避免诊断试验准确性评价过程中因影像医生读片而产生的读片偏倚,使结果更具代表性[4];但多名阅片者同时读片产生的结果在不同阅片者之间及相同的阅片者内部都会存在变异,同时阅片者与病例、诊断试验之间也可能存在复杂相关,由于这些相关的数据不能分开成相互独立的几部分,所以常用的处理相关数据的方法也无法适用,因此在对阅片结果进行分析时需要综合考虑所有的变异和相关,探讨选择合适的统计分析方法。关于多名阅片者的诊断试验评价,已有学者作了相关研究,本文重点对影像诊断试验中多阅片者研究的设计与统计分析方法进行介绍和综述。
多阅片者研究的设计方法
1.影像诊断试验准确度评价的临床研究阶段
影像诊断试验准确度评价的临床研究分为三个阶段,阶段一是探索阶段,是新技术诊断能力的首次探讨,研究目标是确定新技术是否具有任何诊断价值;阶段二是挑战阶段,通过将试验应用于难以分辨的病例组与对照组,挑战该试验的准确度,但是诊断试验的准确度通常受病例特征的影响,同一病例特征可能对两个试验的影响不同,同时可能存在病例与诊断试验之间的相关,影响诊断试验的准确度;阶段三是临床阶段,在阶段二确定了不同总体的试验以及某些总体的两个试验之间准确度差异存在的基础上,测量诊断试验的确切准确度或两个诊断试验间准确度差异的确切大小[5]。
2.多阅片者研究的设计方法
多阅片者研究多应用于影像诊断试验准确性评价的第二、三阶段,目的在于估计和比较两个或者多个诊断试验的确切准确性。多阅片者研究设计分别选取具有代表性的病例样本(包括经金标准确诊待研究疾病的患者与非患者)和阅片者样本,每个病例依次接受两个或多个诊断技术的检查,然后每位阅片者盲法对病例接受试验的影像结果进行解释,阅片者阅片时既不清楚病例的真实疾病状态也不清楚其他诊断技术或者其他阅片者的影像结果。因此与常用的影像诊断试验研究不同,多阅片者研究需要分别考虑病例和阅片者两部分的代表性,并分别估计两者的样本量,保证目标病例和目标阅片者的样本无偏。
对于两个及以上的影像诊断试验,考虑到病例和阅片者的样本量以及试验过程中阅片者阅片的次数限制,多阅片者研究常需要决定是否采用阅片者的配对设计。目前有关配对设计的多阅片者研究大体有两种:配对患者与配对阅片者设计(传统设计)和每阅片者配对患者与配对阅片者设计(混合设计),另外也有一些综合这两种设计而提出的交叉设计的方法。其中最常应用的是配对患者与配对阅片者设计(paired-patient paired-reader design)。
(1)配对患者与配对阅片者设计
传统设计又称为配对患者与配对阅片者设计(paired-patient paired-reader design)[6],需要全部阅片者解释所有病例接受所有诊断技术的影像结果。假定所有病例数目为N(含经金标准确定的待研究疾病的患者与非患者),解释所有病例所有试验结果的阅片者数目为J,那么在诊断试验数目为2的条件下就会有2×N×J种影像诊断试验的解释结果,其中,Tkj1与Tkj2分别表示第j阅片者解释第k患者的试验1与试验2的结果。表1给出了这种设计的数据格式[4]。
(2)混合设计
混合设计又称为每阅片者配对患者(paired-patient-per-reader)与配对阅片者设计[5],需要每位阅片者解释其所对应的病例接受全部试验的诊断结果,与传统设计相比,不需要每位阅片者对全部病例的结果都作出解释。假定所有阅片者数目为J,每一阅片者对应的接受所有诊断试验的病例数目为N(含经金标准确定的待研究疾病的患者与非患者),则需要所有病例数目为N×J,诊断试验数目为2的条件下就会有2×N×J种影像诊断试验的解释结果,其中,Tkj1与Tkj2分别表示第j阅片者解释第k患者的试验1与试验2的结果。表2给出设计的数据格式[5-6]。
表1 传统设计的数据格式
表2 混合设计的数据格式
(3)交叉设计
传统设计与混合设计的多阅片者研究相比:传统设计需要的病例样本量数量少,但阅片者需要解释影像结果的次数却很多;相反的,混合设计虽然阅片者需要解释影像结果的次数少,但设计需要的病例样本量要比传统设计多。因此,近来提出了结合两种设计的交叉设计方法,可减少病例样本量以及阅片者解释试验结果的次数。这些交叉设计方法比较灵活,可用一半的阅片者解释其中n个病例的试验结果,另一半的阅片者解释另外n个病例的试验结果(全部病例数N=n+n);当然,也可以根据研究的需求,将病例与阅片者分成三部分或者多部分来设计。但这些设计都必须符合如下特征:至少有其中两名阅片者对同一组病例的影像结果进行解释;至少有其中两名阅片者对不同组病例的影像结果进行解释[6]。表3给出了一种交叉设计的数据格式。
表3 交叉设计的数据格式
当然,配对设计方便且效能较高,但有些情况下可能不允许采用配对阅片者设计,例如阅片者对某诊断试验有既得利益,该阅片者在读片时便会自觉不自觉地更仔细地解释自己偏爱的试验,为了避免“偏好”干预的偏倚,也应该采用非配对设计[4-5]。虽然配对设计的多阅片者研究设计更被大家认可和接受,但是在实际临床研究环境中不允许采用配对设计时,仍需要根据实际的条件选择合适的设计方案。
多阅片者研究的统计分析方法
1.多阅片者研究分析中存在的各种混合效应
多阅片者研究进行诊断试验准确度分析时,不同的阅片者之间(技术水平、认知能力、读片经历、培训等)和不同的病例之间(疾病状态、自身特征、合并疾病等)本身存在很大变异;同时所有病例将接受所有诊断试验并由全部阅片者对影像结果进行解释,虽然这种设计对于试验之间的比较是有效的,但病例、阅片者以及诊断试验之间试验结果缺乏独立性,会存在各种不同的相关:病例分别接受每一个诊断试验引起的相同病例不同诊断试验之间诊断准确度误差项的相关,同一个阅片者分别解释所有病例每一个诊断试验的结果引起的相同阅片者不同诊断试验之间诊断准确度误差项的相关,所有的阅片者对同一病例同一诊断试验结果进行解释而引起的不同阅片者相同诊断试验的诊断准确度误差项的相关以及不同阅片者不同诊断试验之间诊断准确度误差项的相关等[7]。
综合以上各种复杂的相关结构,在对研究结果进行分析时必须考虑这些相关引起的混合效应,根据试验的研究目的将影像诊断试验的真实效应分为试验本身的固定效应、阅片者和病例自身的效应(固定或随机效应)以及病例、阅片者和诊断试验之间的2阶或3阶交互效应还有随机误差。
2.多阅片者研究的分析方法研究现状
国内宇传华教授2000年考虑到协变量的混杂效应问题,曾采用混合效应模型的方差分析实现了多观察者、多诊断方式准确性的比较,但有关协变量只能是分类变量的问题尚未得到解决。2002年周晓华等出版的《Statistical Methods in Diagnostic Medicine》专著,对国外大量的文献做了综述,内容十分丰富,其中在相关ROC数据分析一章中专门探讨了统计方法在多阅片者多次试验研究中的应用。除此之外,不论是多阅片者研究的设计、样本量的计算还是统计分析方法的角度,国内尚没有做过这方面的研究。
国外文献中提出了一些有关多阅片者研究的统计分析方法。第一种(OR法)是对于阅片者与试验每一组合的ROC曲线综合指标(如ROC曲线下面积)估计值,建立两因素的混合效应方差(ANOVA)模型,分析单位是ROC曲线综合指标[8];第二种(DBM法)是采用Jackknife法计算病例、阅片者和试验间每一组合的ROC曲线综合指标伪值,分析单位是病例,对Jackknife伪值建立标准的混合效应线性模型[9];第三种是对ROC曲线综合指标估计值,主要采用Bootstrap法计算混合效应线性模型的六个方差成分,同时对各方差成分的分布不做任何假设[10];最后一种是采用边际回归模型计算ROC曲线下面积(area under curves,AUC),这种方法的分析指标常限于AUC,但同时可以在分析时纳入可能影响试验结果的协变量,同时对于研究病例的样本量要求较低[11-12]。几种方法都是基于构建相关因素的混合效应模型,不同的方法对阅片者或病例的效应处理方式有所不同[12]。
3.基于Jackknife伪值的混合效应方差分析模型(DBM法)
在ROC分析中计算曲线下面积的标准误和可信区间,尚没有精确的或明确规定的公式或方法,目前常用反复再抽样的方法获得较精确的标准误和可信区间[13]。Dorfman、Berbaum和Metz等人在1992年对多阅片者ROC数据提出了基于伪值进行计算的混合效应ANOVA分析,因此称之为Dorfman-Berbaum-Metz(DBM)法。该方法一般多用于配对患者与配对阅片者的多阅片者研究设计。
(1)统计学模型
假定试验研究中真实患病者m例,未患病者n=N-m例,可采用参数方法或者非参数方法获得第i试验第j阅片者的ROC曲线下面积其中i=1,…,I和j=1,…,J,他们的基本理论就是利用Jackknife法计算ROC曲线下面积的伪值。另为从样本删除第k患者后计算获得的然后采用公式
计算第i试验、第j阅片者、第k患者的Jackknife伪值。以Yijk作为因变量,以阅片者和病例变量作为随机因素,试验变量作为固定因素,构建模型如下:
其中,u为总均数;ti为第i试验对应的固定效应,一般情况下;rj为第j阅片者对应的随机效应;pk为第k患者对应的随机效应;(tr)ij为第i试验、第j阅片者对应的2阶交互随机效应;(tp)ik为第i试验、第k患者对应的2阶交互随机效应;(rp)jk为第j阅片者、第k患者对应的2阶交互随机效应;(trp)ijk为第i试验、第j阅片者、第k患者对应的3阶交互随机效应;εijk为随机误差项。模型中假定随机效应[rj、pk、(tr)ij、(tp)ik、(rp)jk、(trp)ijk]和误差项[εijk]独立,且服从均数为0,方差分别为的正态分布[14-15]。表4给出了混合效应模型方程的方差分析表[5]。
表4 混合效应方程模型的方差分析(ANOVA)表
多阅片者ROC研究采用DBM法构建的混合效应ANOVA模型可以应用于连续资料也可以应用于有序等级资料。模型中的分析指标可以是诊断试验常用的灵敏度、特异度指标,也可以是ROC曲线下面积、某特定特异度区间对应的部分ROC曲线下面积等。
(2)假设检验
模型拟检验的Ho假设是各诊断试验的固定效应相等,即H0:t1=…tI,如果没有试验与阅片者以及试验与病例的交互作用,资料服从分子自由度为I-1,分母自由度为(I-1)(J-1)(N-1)的标准F分布,可以利用方差分析的方法直接用公式F=MSt/MStrp检验试验的固定效应是否相等[16];如果存在试验与阅片者或试验与病例的交互作用,资料不能满足标准的F分布,需采用Satterthwaite近似F检验方法检验H0是否成立,此时F分布的分子自由度仍为I-1,但分母自由度和F检验统计量(F'=MSt/(MStr+MStp-MStrp))变为如下公式(由于没有重复测量,所以认为
分母自由度=
多阅片者研究除了可以验证假设检验是否成立之外,通常还需要估计诊断试验相应的曲线下面积及其可信区间,以及两个或者多个诊断试验之间曲线下面积的差值及其可信区间。Dorfman、Berbaum和Metz利用Satterthwaite方法也给出了估计各诊断试验固定效应的均数和不同诊断试验固定效应均数的差值及95%的可信区间的方法研究[17]。
(3)单一诊断试验均数的可信区间
对于某一固定的诊断试验I,根据前面构建的统计学模型可以简化为:
模型中各参数对应的效应不变,同样假定随机效应[rj、pk、(rp)ik]和误差项[εijk]独立,且服从均数为0,方差分别为的正态分布。对于第i个诊断试验,其均数和均数的标准误可以表示为:
所以,第i个诊断试验均数95%的可信区间可以表示为其中v表示为自由度,可以通过公式计算得到。表5给出了某一固定诊断试验下该模型方程的方差分析表。
表5 混合效应方程模型的方差分析(ANOVA)表(固定试验效应)
(4)两诊断试验均数差的可信区间
对于两个相比较的诊断试验i1和i2,估计这两个诊断试验均数差的95%可信区间时,其均数之差用Yi1jk-Yi2jk表示,均数差值的标准误为计算公式如下:
如果诊断试验与阅片者、诊断试验与病例之间没有交互作用存在,按照上述诊断试验与阅片者、诊断试验与病例的2阶随机交互效应将不进入模型,两诊断试验均数差值的标准误可以进行简化为公式自由度为dftrp。
4.基于DBM法的样本量计算
根据DBM法构建的混合效应模型,假定期望效应d用两个不同诊断试验之间的绝对差值来表示,例如d=|AUC1-AUC2|,其中AUC1、AUC2分别为两个不同诊断试验的ROC曲线下面积值。根据预试验或既往研究结果,估计各种效应的方差成分参数其中,
假定δ为F分布的非中心参数,1-β为检验效能,α为显著性水平,根据以下公式可以估计不同把握度1-β、期望效应d、显著性水平α条件下的阅片者和病例的样本量[18]。
以主动脉夹层的诊断为例,评价SE MRI和CINE MRI两种诊断技术对主动脉夹层的诊断准确度。为了合理估计受试者和阅片者的样本量,预实验随机选择114例受试者(45例主动脉夹层患者,69例非主动脉夹层患者),由5名影像科医生独立盲法采用五分法对影像图片进行诊断结果的判读(1=确定为非主动脉夹层患者,2=可能为非主动脉夹层患者,3=不确定,4=可能为主动脉夹层患者,5=确定为主动脉夹层患者)。表6给出了采用DBM法计算得到的各种效应的方差分析结果[18]。
表6 主动脉夹层诊断预实验研究方差分析的部分结果
根据预实验的方差分析结果可以估计SE MRI和CINE MRI两种诊断技术在假定诊断准确度期望效应为0.05,病例样本量为240,阅片者样本量为8,检验水准为0.05的条件下该研究的检验效能大小。
(1)首先估计各部分的方差分量如下:
(4)根据公式(12)估计检验效能的大小:
讨 论
多阅片者研究充分考虑影像诊断试验的特殊性,避免了仅用一位或两位阅片者单一分析影像学图像质量的评价方法,特别关注了以下几个问题:
(1)阅片者之间有多大的差异,简单采用一名或者两名的阅片者一致性评价对研究结果会有多大偏倚;
(2)采用一名或者两名阅片者对影像结果进行评价得到的诊断试验结果是否具有代表性,能否普遍适用于该阅片者样本之外的病例和阅片者总体;
(3)目标阅片者的个人特征(经历、培训等)、试验病例的自身条件(疾病状态、生理特征)的变异对试验准确度会产生怎样的影响;
(4)阅片者、病例以及诊断试验之间会有多少的相关,这些相关会对试验准确度产生怎样的影响;
(5)诊断试验研究所需要的阅片者的样本量具体应该怎样确定,有何依据。
因此,与传统的影像诊断试验统计方法相比,多阅片者研究能更好地利用影像诊断临床试验中的相关信息,更全面地控制研究过程中的各种变异或偏倚,从而得到更加有效可靠的影像诊断试验结果,对于疾病的鉴别诊断更有临床意义和价值。但是,由于多阅片者研究设计中的各种复杂相关,使得其结果的分析也变得更加复杂,虽然目前有一些专门针对多阅片者研究的统计学方法,但是其适用性仍然需要更深入的探讨和分析。
1.麦青.DR的成像原理、临床应用及维护保养.医疗装备,2012,11:30-31.
2.Beam CA,Baker ME,Paine SS,et al.Answering unanswered questions:proposal for a shared resource in clinical diagnostic radiology research.Radiology,1992,183(3):619-620.
3.Gatsonis C,M cneil BJ.Collaborative evaluations of diagnostic tests:experience of the Radiology Diagnostic Oncology Group.Radiology,1990,175(2):571-575.
4.M iglioretti DL,Haneuse SJ,Anderson ML.Statistical approaches for modeling radiologists'interpretive performance.Acad Radiol,2009,16(2):227-238.
5.Zhou XH.Statistieal methods in diagnostic medieine.NewYork:JohnWiley&Sons,2002.
6.Obuchowski NA.Reducing the number of reader interpretations in MRMC studies.Acad Radiol,2009,16(2):209-217.
7.Obuchowski NA,Beiden SV,Berbaum KS,et al.Multireader,multicase receiver operating characteristic analysis:an empirical comparison of fivemethods.Acad Radiol,2004,11(9):980-995.
8.Obuchowski NA.Multireader,multimodality receiver operating characteristic curve studies:hypothesis testing and sample size estimation using an analysis of variance approach with dependent observations. Acad Radiol,1995,2 Suppl 1:S22-S29,S57-S64,S70-S71.
9.Dorfman DD,Berbaum KS,Metz CE.Receiver operating characteristic rating analysis.Generalization to the population of readers and patients with the jackknifemethod.Invest Radiol,1992,27(9):723-731.
10.Beiden SV,Wagner RF,Campbell G.Components-of-variance models and multiple-bootstrap experiments:an alternative method for randomeffects,receiver operating characteristic analysis.Acad Radiol,2000,7(5):341-349.
11.Skaron A,Li K,Zhou XH.Statisticalmethods for MRMC ROC studies. Acad Radiol,2012,19(12):1499-1507.
12.Song X,Zhou XH.A marginalmodel approach for analysis of multireadermulti-test receiver operating characteristic(ROC)data.Biostatistics,2005,6(2):303-312.
13.Hillis SL,ObuchowskiNA,Schartz KM,etal.A comparison of the Dorfman-Berbaum-Metz and Obuchowski-Rockettemethods for receiver operating characteristic(ROC)data.Stat Med,2005,24(10):1579-1607.
14.陈峰,姚晨,孙高,等.新药临床试验中重复测量资料的混合效应模型.中国卫生统计,2000,06:54-57.
15.陈长生,徐勇勇,王彤.交叉设计资料的混合效应模型分析.中国卫生统计,2005,04:214-217.
16.姚树祥,巫秀美,倪宗瓒,等.固定效应模型与混合效应模型在测量误差估计中的应用.中国公共卫生,2000,11:47-48.
17.宇传华.ROC分析方法及其在医学研究中的应用.第四军医大学,2000.
18.Hillis SL,Berbaum KS.Power estimation for the Dorfman-Berbaum-Metzmethod.Acad Radiol,2004,11(11):1260-1273
(责任编辑:郭海强)
1.北京大学公共卫生学院流行病与卫生统计系(100191)
2.北京大学第一医院
3.北京大学临床研究所
△通信作者:康晓平,E-mail:Xpkang@bjmu.edu.cn