组内相关系数及其软件实现*
2011-07-27山西医科大学卫生统计学教研室030001余红梅罗艳虹艾永梅
山西医科大学卫生统计学教研室(030001) 余红梅 罗艳虹 萨 建 艾永梅
统计学中,组内相关系数(intraclass correlation coefficient,ICC)常用于评价具有某种确定亲属关系(如双胞胎、兄弟姐妹等)的个体间某定量属性(如遗传力)的相似程度,另一方面主要应用于评价不同测定方法或评定者对同一定量测量结果的一致性或可靠性。测量工具的可靠性包括评定者内可靠性和评定者间可靠性。目前有许多不同的ICC统计量,这些统计量并不估计相同的总体参数。由于对同一组数据不同ICC计算结果不同,有关这些ICC统计量的恰当应用一直是争论的焦点。1979年,Columbia University生物统计系的Shrout和Fleiss教授提出了研究者评价评定者测量结果的可靠性时选择恰当系数的准则〔1〕;1996年McGraw和Wong讨论了不同类型ICC的计算及其置信区间估计〔2〕。正如Shrout和 Fleiss指出,教科书通常只列出几个系数的计算公式,而未讨论这些系数的恰当应用〔3,4〕。本文旨在介绍不同类型 ICC的意义、计算和软件实现,为研究者选择不同类型ICC提供依据。
ICC 的类型与计算
Ronald Fisher最先提出的ICC是改造的Pearson相关系数,假定 n 对数据(x1i,x2i),i=1,2,…,n,ICC与Pearson相关系数分别定义为
两个公式的区别在于均值和标准差的计算,r中用的是x1和x2各自的均值和标准差,而ICC中用的是x1和x2合并的均值和标准差。当每个被试者测量值较异占总变异的百分比。
始于Ronald Fisher,ICC现已纳入方差分析和随机效应模型框架中。ANOVA模型允许不同组的观察值个数不同,而这点在早期ICC定义中难以处理;另外ICC可推广到允许有协变量效应,这时ICC解释为协变量调整后的组内观察值的相似程度。
表1 ICC数据结构
ICC典型的数据结构如表1所示,其中行表示被试者,列表示测量如评定者。选择恰当的ICC取决于以下三个方面〔2,5〕,(1)所选的模型是 one-way model或two-way model;(2)选择single measure或average measure;(3)选择 absolute agreement或consistency。
1.选择one-way或two-way model
Case1:单因素随机效应模型(one-way random effects model)。
式中,:μ:所有观察值的总均数,为常数;ri:行因素(即被试者)的随机效应,独立正态分布,均数为0,方差为;eij:随机残差效应,独立正态分布,均数为0,方差为;ri和eij互相独立。
Case1 是一个单因素方差分析模型,用于顺序j无意义的情形,即每个被试者由不同的随机选择的评定者评分或所有被试者由一个评定者评分,用于检验每个被试者的均值全部相等的假设,实际上并不能检验x的重测信度。若对被试者间的差异感兴趣,可选用该模型。在该模型中,列因素(即评定者)效应被吸收到残差变异中。
Case2:两因素随机效应模型(two-way random effects model)。
μ、r和eij的含义同上;cj:列因素(即评定者)的随机效应,独立正态分布,均数为0,方差为σ2c;所有效应互相独立。
Case3:两因素混合效应模型(two-way mixed effects model)。
与Case2不同的是cj为固定效应,即∑cj=0。
Case2和Case3同时分解了行变量和列变量的影响,可以用来检验重测信度。二者的区别在于列变量即评定者效应是随机效应还是固定效应。若评定者来自所有可能的情况,统计推断也仅限于这些情况,则评定者效应是固定效应;若评定者是从一个理论上无限大的总体中随机抽样而来的样本,统计推断也要推广到该总体,则评定者效应是随机效应。不管列变量是固定效应还是随机效应,ICC的计算结果均相同,不同之处是结果解释时Case2中的ICC可推广到所有可能的评定者,而Case3中的ICC仅限于给定的评定者。三种情况比较见表2。
表2 三种情况下的模型比较
2.选择single measure或average measure
single measure ICC分析单元是每个评定者的评分,给出单个评定者评分的可靠性,若进一步研究时使用单个评定者评分,则采用此度量;average measure ICC分析单元是k个评定者评分的均值,给出k个评定者评分均值的可靠性,如果研究设计使用每个条目多个评定者评分的均值时采用此度量。
average measure ICC即Spearman-Brown correction,通常高于single measure ICC。二者的关系为:
注意两因素随机效应模型和两因素混合效应模型的average measure ICC均等于Cronbach’s α系数。
average measure ICC需要一个合理的评定者个数以得到一个稳定的均值,需要的评定者个数的估计值为
式中m:需要的评定者个数;rl:预调查中得到ICC的(1-α)100%置信区间的下限;ICC*:研究者可接受的ICC的最小值(如0.80)。
3.选择absolute agreement或 consistency
Absolute agreement和consistency定义的不同在分母。对absolute agreement,由于考虑评定者系统误差,分母方差中保留了列方差即评定者方差,用于测量评定者是否给予被试者相同的绝对评分;对consistency,由于不考虑评定者系统误差,分母方差中去掉列方差即评定者方差,用于测量评定者评分是否高度相关。如(2,4),(4,6),(6,8),即使这些评分在绝对得分上不相等,按照consistency定义,ICC=1.00;按照absolute agreement定义,ICC=0.67。对 Case1,即单因素随机效应模型,由于每个被试者的评定者可能不同,通常计算absolute agreement;对Case2和Case3,由于每个被试者由相同的评定者评分,可选择考虑评定者系统误差的absolute agreement,也可选择不考虑评定者系统误差的consistency。
各种不同类型ICC计算公式见表3。Landis和Koch建议ICC应大于0.80,0.61~0.80为中等,0.41~0.60为一般,0.11~0.40为较低,0.1以下为无一致性〔6〕。
表3 不同类型ICC计算公式
实例分析与软件实现
例〔3〕:在对某病的多中心研究中,(1)采用同样的测量方法,同一名医师对10位病人各进行两次重复测定的结果见表4。(2)假设表4中测量1和测量2分别由两名医师测定。(3)假设表4中测量1采用人工评分的方法,测量2采用计算机评分的方法。这三种情况分别对应上述的Case1、Case2和Case3。
1.SPSS实现
SPSS可计算基于McGraw和Wong的10种不同的ICC。步骤为:
表5和表6分别为实例方差分析表和不同类型ICC计算结果。
表4 医生对10位病人的测定结果
表5 实例方差分析表
表6 实例不同类型ICC计算结果
2.SAS实现
表7程序可得到计算公式中所需要的均方统计量(表5),代入公式即可得到不同类型的ICC。
表7 计算ICC所需均方SAS程序
讨 论
1.Pearson相关系数r可看做组间相关系数,测量的是两个不同变量之间的相关性,ICC测量的是同一组内观察单位间某定量测量结果相似的程度。Fisher最早关于ICC定义的形式极像Pearson相关系数,主要区别是ICC使用合并的均数和标准差,而Pearson相关系数使用各自的均数和标准差。成对数据中若无有意义的方式对对子内的两个测量值排序,ICC是比Pearson相关系数更自然的关联指标,因为Pearson相关系数高不一定一致性好。
另外,Pearson相关系数对两个变量各自的线性变换具有不变性。若所有组的数据进行相同的线性变换,则ICC保持不变。
2.总的来说,不管行和列代表什么,当组间效应(行效应)相对于组内效应(列效应)非常大时,ICC是接近1的一个系数,这样ICC是一个同质性的度量。当对任意给定的行,所有的列均有相同值时,ICC趋近于1;当组内变异等于组间变异时,ICC等于0;当组内变异超过组间变异时,ICC为负值,当然这种情况很少见。
3.除了对两因素混合效应模型,在行变量和列变量有交互作用情况下,average measure ICC(包括consistency和absolute agreement)无法估计外,两因素随机效应模型或两因素混合效应模型中,不管行变量和列变量有无交互作用,ICC的计算方法和结果均相同。
4.表3中给出ICC点估计计算公式,总体ICC置信区间估计计算公式参见文献〔2〕,不再赘述。推荐使用软件SPSS,可直接得到不同类型ICC的点估计及其置信区间估计结果。国内王维等报告了应用Excel完成ICC的计算和评价〔7〕。注意ICC受所评价总体中受试对象特质的变异度的强烈影响,若变异度小,即使一致性很好,ICC值会很小;若变异度大,即使一致性很差,ICC值会很大。因此不同总体测得的ICC不具可比性,换句话说,同一个测量工具对不同评价总体得到的ICC会有很大不同。现代测量理论中的条目反应理论(item response theory,IRT)可避免测量的精确度依赖于所测总体性质的问题〔6〕。ICC所需样本含量与检验效能、预期ICC大小及置信区间、评定者个数有关,ICC越小,评定者个数越少,所需样本含量越大〔8〕。
5.ICC用于定量评分一致性的评价,若评分为等级数据,应计算Spearman秩相关系数或Kendall’s tau(两个测量值)及Kendall's协调系数(多个测量值);若评分为分类数据,应计算Cohen’s kappa(两个测量值)及Fleiss’s kappa(多个测量值)。若评价两种不同测定方法的一致性,可采用Altman-Bland法〔9〕。
1.Shrout PE,Fleiss JL.Intraclass correlations:uses in assessing rater reliability.Psychological Bulletin,1979,86(2):420-428.
2.McGraw KO,Wong SP.Forming inferences about some intraclass correlation coefficients.Psychological Methods,1996,1(1):30-46.
3.金丕焕主编.医用统计方法.第2版.上海:复旦大学出版社,2003.
4.李晓松主编.医学统计学.第2版.北京:高等教育出版社,2008.
5.De Vet HCW,Terwee CB,Knol TD,et al.When to use agreement versus reliability measures.Journal of Clinical Epidemiology,2006,59:1033-1039.
6.Shrout PE.Measurement reliability and agreement in psychiatry.Statistical Methods in Medical Research,1998,7(3):301-317.
7.王维,陈清山,刘治民.应用Excel完成组内相关系数ICC的计算和评价.中国卫生统计,2008,25(3):314-315.
8.Weir JP.Quantifying test-retest reliability using the intraclass correlation coefficient and the SEM.Journal of Strength and Conditioning Research,2005,19(1):231-240.
9.Muller R,Buttner P.A critical discussion of intraclass correlation coefficients.Statistics in Medicine,1994,13(23-24):2465-2476.