膝关节骨关节炎全关节磁共振成像评分观察者间一致性评价
2021-03-19徐黎李凯过哲王超程晓光
徐黎 李凯 过哲 王超 程晓光
骨关节炎是临床十分多见的一类疾病,在全球范围内形成了巨大的社会和经济负担,估计60岁以上人群中13%患有膝关节骨关节炎并有症状[1]。目前,临床研究主要集中于膝关节骨关节炎,原因在于膝关节骨关节炎发病率和致残率均较高,而且膝关节软骨厚度最大、易于进行X线平片和磁共振成像(magnetic resonance imaging,MRI)评估。传统X线平片是评估膝关节骨关节炎最简单经济的影像学方法,能够直接观察骨结构特征,包括边缘骨赘、软骨下硬化和软骨下囊肿,并能通过关节间隙宽度间接评估软骨厚度和半月板完整性。作为断层成像技术,MRI可直接观察关节软骨、滑膜、半月板及其他关节内结构。更重要的是,运用软骨体积定量评估和全关节半定量评估等方法,MRI技术能够更敏感更可靠地评价各关节特征,这一优势对于多中心或纵向临床研究是其他影像学方法无法替代的。MRI半定量评分将关节视为一个整体器官进行评估,除关节软骨形态外,还可对其他重要的关节结构及其病变进行评价,如半月板、骨赘、软骨下骨磨损、软骨下骨髓水肿及囊肿、交叉韧带及侧副韧带、滑膜、关节积液和其他关节旁结构。
目前, 4个MRI半定量评分系统可用于膝关节炎评估,分别是全关节磁共振成像评分(Whole-Organ Magnetic Resonance Imaging Score,WORMS),膝关节骨关节炎评分系统(Knee Osteoarthritis Scoring System,KOSS),Boston Leeds膝关节骨关节炎评分(Boston Leeds Osteoarthritis Knee Score,BLOKS) 和磁共振成像膝关节骨关节炎评分(MRI Osteoarthritis Knee Score,MOAKS)[2-5]。与KOSS、BLOKS和MOAKS相比,WORMS评分系统涵盖关节内及关节旁结构最全面、关节分区最多、评分分级最细,是目前临床研究项目应用最广泛的膝关节炎MRI半定量评估体系。MRI半定量评分系统是基于传统的MR成像技术,对影响膝关节功能、参与骨关节炎病生理过程的多个关节内结构进行半定量人工评分,其结果的可靠性不仅受图像质量的影响,更与评分者经验密切相关[6]。在进行MRI半定量评分之前,阅片者必须经过系统培训并通过考核[7]。作为临床研究运用最广泛的评分系统,WORMS关节内分区相对复杂、对关节软骨及骨赘分级细,其评分结果的可靠性是否受到评分者临床阅片经验的影响是值得探讨的问题。目前大部分研究仅限于探讨MRI半定量评分系统的观察者内和观察者间一致性,对观察者阅片经验的差异对阅片效果的影响报道较少。
本研究旨在评价具备不同阅片经验的医学影像科医生经过统一的WORMS评分系统标准化培训后对不同严重程度膝关节骨关节炎样本进行WORMS半定量评分的观察者间差异,分析WORMS评分系统对膝关节各结构特征评价的观察者间一致性及观察者临床阅片经验对评分结果的影响。
资料与方法
一、资料
1.病例纳入与排除标准:(1)病例纳入标准:①年龄≥40岁;②经X线检查确定膝关节Kellgren-Lawrence评分为1~3级;③膝关节疼痛视觉模拟评分(visual analogue scale,VAS)≥4分。(2)病例排除标准:①合并痛风或类风湿关节炎等其他风湿免疫及代谢性疾病;②合并严重心、肝、肾等重要器官病变;③合并化脓性或非特异性感染性关节炎;④合并创伤性或绒毛结节色素沉着性膝关节滑膜炎等病变;⑤存在晚期关节畸形或功能残障与严重骨质疏松;⑥妊娠、准备妊娠或哺乳期妇女;⑦有既往膝关节手术史。
2.一般临床资料:利用“祛风止痛胶囊对膝骨关节炎的临床作用及机制研究”临床研究项目(获得四川大学华西医院伦理委员会批准;所有受试对象签署知情同意书)数据库,随机抽取2018年5至10月进行的单侧膝关节MRI 10例,其中男4例,女6例,年龄为53~69岁。
3.设备:3T磁振扫描仪(Ingenia,Philips Healthcare,荷兰),8通道膝关节线圈。
二、方法
1.膝关节MRI扫描:对所有受试者采用以下扫描序列:①轴位T1加权像(T1 weight imaging,T1W1)快速自旋回波(turbo spin echo,TSE)[重复时间(repetition time,TR)=600~650 ms,回波时间(echo time,TE)=12 ms,频率编码(requency encoding,FE)];②冠状位T1WI TSE (TR=650 ms,TE=9 ms,FE);③矢状位T1WI TSE(TR=500 ms,TE=12 ms,FE);④轴位质子密度脂肪抑制(protein density with fat suppression, PD FS)(TR=3 110 ms,TE=43 ms,FE);⑤冠状位PD FS(TR=2 390 ms,TE=36 ms,FE);⑥矢状位PD FS(TR=2 400 ms,TE=32 ms,FE)。轴位序列视野(field of view,FOV) =160 mm×160 mm,体素尺寸(voxel size)=0.55 mm×0.68 mm×3.00 mm。冠状位及矢状位序列FOV=160 mm×160 mm,voxel size=0.42 mm×0.50 mm×3.00 mm。所有序列层厚(slice thickness)=4.0 mm,层间隔(interslice gap)=0.4 mm。
2.膝关节MRI评估:评估人员包括3位放射科医生,分别为副主任医师1名(观察者1,具备波士顿大学医学院关节炎MRI定量评估实验室认证资质),高年资主治医师1名(观察者2,具备10年临床阅片经验),低年资主治医师1名(观察者3,具备5年临床阅片经验)。在读片开始前,由观察者1按照标准培训流程对观察者2和观察者3进行膝关节WORMS评分系统培训,观察者内及观察者间一致性各项评分指标达到较好(kappa值>0.6)时为合格。培训合格后从研究项目数据库中随机抽取10例样本,由3名读片者分别进行WORMS评分,并进行观察者间一致性评价。对3位读片者屏蔽评分样本的临床信息。
3.WORMS评分标准:WORMS评分系统将膝关节分为15个区域,分别为髌骨2区(内侧、外侧)、股骨6区(内前、内中、内后、外前、外中、外后)、胫骨7区(内前、内中、内后、外前、外中、外后、髁间棘)[2]。对除胫骨髁间棘外的14个区进行以下3方面评分:①关节软骨形态及信号[0~6分:0分=正常;1分=厚度正常、有高信号,2分=小面积(最大径<1 cm)部分层厚缺损,2.5分=小面积(最大径<1 cm)全层厚缺损,3分=多灶性部分层厚缺损(2级)或大面积(最大径>1 cm但区域面积<75%总面积)部分层厚缺损,4分=弥漫性部分层厚缺损(区域面积≥75%总面积),5分=多灶性全层厚缺损(2.5级)或大面积全层厚缺损(最大径>1 cm但区域面积<75%总面积),6分=弥漫性全层厚缺损(区域面积≥75%总面积)];②关节面下骨磨损(0~3分:0分=正常,1分=轻度,2分=中度,3分=重度);③边缘骨赘(0~7分:0分=无,1分=可疑,2分=小,3分=小到中等,4分=中等,5分=中到大,6分=大,7分=巨大)[2]。对全部15个关节分区进行软骨下骨髓水肿和囊肿评分(0~3分:0分=正常;1分=区域面积<25%总面积;2分=区域面积为25%~50%总面积;3分=区域面积>50%总面积)。其他结构评分标准分别为:韧带0~1分(0分=完整,1分=撕裂);半月板0~4分(0分=完整,1分=小的放射状或鸟嘴样撕裂,2分=无移位的撕裂或术后修复改变,3分=移位性撕裂或部分切除,4分=完全磨损或全部切除);滑膜增厚及关节积液0~3分(0分=正常,1分=积液体积<33%关节腔体积,2分=积液体积为33%~66%关节腔体积,3分=积液体积>66%关节腔体积);关节腔游离体0~3分(0分=无,1分=1个游离体,2分=2个游离体,3分=3个以上游离体);滑囊囊肿或积液0~3分(0分=无,有囊肿或积液则依据囊肿或积液体积大小评为1~3分)[2]。
4.统计学处理:使用SPSS 22.0(IBM SPSS statistics Inc,美国)软件对数据进行统计学分析。分别对观察者1与观察者2和观察者3进行观察者间一致性评价。观察者间一致性通过kappa值计算获得,kappa值≥0.75表示两者一致性高,0.75>kappa值≥0.40表示一致性一般,kappa值<0.40表示一致性较差。P< 0.05为差异有统计学意义。
结 果
每位评分者获得膝关节骨关节炎征象评分数量如下:关节软骨评分140个(14区×10例)、软骨下骨髓水肿及囊肿评分150个(15区×10例)、骨磨损评分140个(14区×10例)、骨赘评分140个(14区×10例)、半月板评分60个(6区×10例)、韧带评分40个(4个×10例)、关节积液及滑膜炎评分10个、关节内游离体评分10个、滑囊炎评分10个。
观察者1对各征象评分结果见表1。140个关节软骨评分中0分75个(53.6%),6分9个(6.4%),1~5分者数量分布较均匀(7~20个,5%~14.3%);150个软骨下骨髓水肿及软骨下囊肿评分中0分分别为111个(74%)和127个(84.7%),骨髓水肿3分5个(3.3%),囊肿最高评分为2分(6个,4%);140个骨磨损评分中0分101个(72.1%),最高评分为2分(6个,4.3%);140个骨赘评分中0分仅12个(8.6%),2~3分占比例最高(24个,17.1%),7分7个(5%);60个半月板评分中,0分46个(76.7%),2分、3分和4分分别为7个(11.7%)、4个(6.7%)和2个(3.3%);40个韧带评分中,1分仅1个(2.5%);10例样本均出现关节积液及滑膜炎,其中8例(80%)评分为1分,2例(20%)评分为2分;5例(50%)样本出现关节内游离体,其中1例(10%)评分为2分,4例(40%)评分为3分;10例样本中5例(50%)无关节周围滑囊炎,其余5例(50%)滑囊炎评分为1分。
表1 观察者1膝关节骨关节炎各征象评分结果分布[n(%)]
各征象评分观察者间一致性kappa值见表2。结果显示,软骨下骨髓水肿、软骨下囊肿、骨磨损、关节内游离体的WORMS评分在不同观察者之间有很高的一致性(kappa值≥0.75),关节软骨、骨赘、半月板、关节积液及滑膜炎、滑囊炎的WORMS评分在不同观察者之间的一致性稍低,但全部kappa值≥0.6。由于韧带评分为0和1分,无法计算kappa值,40个韧带评分中的39个在3位观察者间一致。高年资医生对骨磨损和关节内游离体的评分一致性比低年资医生略高;而对关节软骨、软骨下骨髓水肿及囊肿、骨赘、半月板、滑囊炎,低年资医生评分一致性高于高年资医生。
表2 膝关节骨关节炎WORMS评分系统观察者间一致性评估kappa值(95%CI,P值)
讨 论
自2004年WORMS评分系统发表以来,KOSS、BLOKS和MOAKS等多个膝关节全器官MRI半定量评分系统相继出现,并被大量应用于关节炎的横向和纵向临床研究中[3-5]。在骨关节炎的发生和发展过程中,虽然关节软骨的状态是反映疾病严重程度最为稳定和重要的指标,但除关节软骨外其他关节内结构与疾病的进展、病生理过程、相关临床症状和预后之间的密切联系也越来越受到重视[8-10]。WORMS评分系统是以关节内分区而非病灶为单位进行评分,对关节软骨、软骨下骨髓水肿及囊肿征象也进行评分[7]。同时WORMS也是唯一将软骨下骨磨损纳入评分的系统。
本研究结果显示,软骨下骨髓病变(软骨下骨髓水肿和软骨下囊肿)、骨磨损和关节内游离体的WORMS评分观察者间一致性高,而关节软骨、骨赘、半月板、关节积液和滑膜炎以及滑囊炎的WORMS评分观察者间一致性稍低。通过接受标准化培训并通过考核,拥有不同临床阅片经验的放射科医生均能够掌握WORMS评分系统。临床阅片经验对评分效果未造成显著影响。
在WORMS评分系统中,关节软骨和骨赘的评分级别分别为0~6分和0~7分,不同级别之间差异小,不同阅片者对于同一级别征象的理解和判断出现差异的可能性更高,因此对关节软骨和骨赘评分的观察者间一致性较低是必然的。国外文献报道膝关节软骨形态的半定量MRI评分的观察者间一致性相关系数和kappa值分别为0.77~0.94和0.44~0.88,与本研究结果(kappa值=0.725和0.881)一致[2-4,11-17]。文献报道中骨赘评分观察者间一致性相关性系数和kappa值为0.66~1.00和0.735~0.916,而本研究中骨赘评分的kappa值分别为0.605和0.704,与文献报道结果接近[2-4,13-14,16-17]。
WORMS系统中的半月板评分较为复杂,需要对前角、体部及后角分别进行评分(0~4分),其中2分(无移位的撕裂或术后修复改变)和3分(移位性撕裂或部分切除)区分较为困难,并且需要将各分区评分加权转化为内、外侧半月板的总分(0~6分)[2]。文献报道,半月板MRI半定量评分观察者间一致性相关系数和kappa值分别为0.82~1.00和0.63~0.84,与本研究结果(0.672和0.866)无差异[2-4,12,14,16-18]。
关节积液及滑膜炎、滑囊炎的WORMS评分分值虽然为0~3分,但是评分标准以关节腔体积和滑囊体积大小为依据,无客观数值标准或示意图显示,因此评分易受主观因素影响。文献报道的关节积液和滑膜炎观察者间一致性kappa值为0.892,略高于本研究结果(kappa值=0.737),可能与评分者阅片经验差异有关[16]。
软骨下骨髓病变(软骨下骨髓水肿和软骨下囊肿)的WORMS评分分值为0~3分,以病灶面积占关节面面积比例为标准,评分标准客观且不同级别之间差异较明确,因此不同阅片者之间评分差异较小。国外文献报道软骨下骨髓病变观察者间一致性相关系数和kappa值分别为0.54~1.00和0.79~0.97,与本研究结果(kappa值=0.793~0.921)一致[2-4,12-14]。
WORMS评估系统对膝关节骨关节炎的评价效果同样受到MRI图像质量的影响。标准化的扫描方案是获得准确评分结果的基础。扫描要求在1.5T以上MR扫描仪上完成,通过3个角度(轴位、矢状位、冠状位)对液体敏感的FSE FS序列能够准确评估关节软骨、软骨下骨髓水肿、囊肿、滑膜炎及关节积液、韧带以及半月板等结构,通过矢状位及冠状位T1WI SE序列能够对边缘骨赘、关节内游离体和骨磨损进行准确评估[6]。
本研究的主要不足在于样本数量有限,未计算各膝关节骨关节炎评分征象的总分以及评价总分的观察者间一致性。虽然多数膝关节临床研究采用的观察指标是膝关节炎各WORMS评分征象的总分,但各征象总分是由该征象在各个关节分区内的评分加权获得,因此本研究中各关节分区内征象评分结果能够更直接反映WORMS评分系统的观察者间一致性。本研究的另一个不足在于3位阅片者对骨关节系统MRI均有较丰富的阅片经验,因此该结果的代表性有一定局限性。
总之,拥有不同临床阅片经验的阅片者经过标准化培训和测试后均能掌握WORMS评分方法,其中软骨下骨髓病变、骨磨损和关节内游离体的观察者间一致性很高,而临床阅片经验不会显著提高评分效果。
志谢感谢山东步长制药有限公司为本研究提供的影像学图像资料。
利益冲突声明:本研究及本文内容不存在与医疗工作职责相冲突的任何经济利益或非经济利益以及任何直接或间接的义务和责任。