ACR TI⁃RADS与ATA分类法评估甲状腺结节诊断价值的比较
2018-10-16赵新保罗艺李世梅智慧郝少云
赵新保 罗艺 李世梅 智慧 郝少云
中山大学孙逸仙纪念医院超声科(广州510120)
目前,利用二维超声征象对甲状腺结节进行良恶性危险分层的方法有多种,自2009年起,HORVATH 等[1⁃3]先后提出过不同版本的甲状腺影像报告与数据系统(TI⁃RADS);2015年,美国甲状腺协会(ATA)也推出了对甲状腺结节进行分类的临床指南[4];2017年,美国放射学会(ACR)更是基于大规模的循证及临床验证提出了最新版本的TI⁃RADS[5]。上述甲状腺结节危险分类的版本众多、指标复杂而且分类标准不一致,给临床的统一应用和一致性评估带来困难,本研究比较了ATA和ACR分类方法的诊断价值以及不同经验超声医师之间的一致性,为规范甲状腺疾病的超声诊断和分类提供依据。
1 对象与方法
1.1 研究对象2015年1月至2016年12月在我院发现甲状腺结节并接受手术切除的患者410例,共454个结节,均获得病理结果。患者年龄18~82岁,平均(46.8± 13.5)岁;肿物最大径6.5~54 mm,平均(19.4±10.2)mm。
1.2 仪器与方法使用日立HV900超声诊断仪,探头频率为7.5~13.0 MHz,行常规超声检查,观察并记录甲状腺结节的大小、成分、回声、形状、纵横比、边缘、钙化、血流、甲状腺包膜以及颈部淋巴结情况等。
1.3 图像分析454个甲状腺结节的超声声像图由10年以上甲状腺诊断经验的高年资医师A操作并评估。声像图根据ACRTI⁃RADS标准进行分类时,将TI⁃RADS 3类与4类之间设为诊断的截点;根据ATA标准进行分类时,将低度与中度可疑恶性组之间设为诊断的截点。
随机选取40个甲状腺结节的典型超声图像,由2位有2年甲状腺超声诊断经验的年轻医师B、C分别独立记录每个结节的描述词以及ACR TI⁃RADS和ATA分类。
1.4 统计学方法采用SPSS 16.0软件进行统计分析,以病理结果作为金标准,构建ROC曲线,计算曲线下面积(AUC);计算ACR TI⁃RADS与ATA分类法判断甲状腺结节的敏感性、特异性、阳性预测值及阴性预测值,对各组之间的差异进行Pearson卡方检验,检验标准P<0.05为差异有统计学意义。采用Kappa检验评价不同经验医师ABC对ACR及ATA分类评估的一致性。0<κ≤0.20一致性差;0.20<κ≤0.40一致性弱;0.40<κ≤0.60中等一致;0.60<κ≤0.80一致性好;0.80<κ≤1.00一致性极好。
2 结果
2.1 病理结果454个结节中,良性229个(包括结节性甲状腺肿189个,滤泡状腺瘤11个,慢性淋巴细胞性甲状腺炎9个,亚急性甲状腺炎8个,毒性结节性甲状腺肿7个,Graves病3个,肉芽肿性甲状腺炎1个,甲状腺嗜酸性细胞腺瘤1个),恶性225个(包括乳头状癌220个,髓样癌3个,滤泡状癌2个)。
2.2 两种分类标准的诊断结果本研究454个结节,根据ACR TI⁃RADS标准评为2类的共36个,其中恶性占5.4%;3类结节104个,恶性占1.9%;4类结节129个,恶性占40.3%;5类结节184个,恶性占91.8%。而根据2015 ATA标准,其中有29个结节无法归类,可行分类的425个结节中,极低可疑组16个,全为良性;低度可疑组136个,恶性占2.9%;中度可疑组63个,恶性占36.5%;重度可疑组210个,恶性占88.1%。
2.3 两种分类标准的诊断价值ACR TI⁃RADS法评估甲状腺结节时,其敏感性、特异性、准确性、阳性预测值及阴性预测值分别为98.7%、59.8%、79.1%、70.1%、97.1%;ATA分类法评估甲状腺结节时,敏感性、特异性、准确性、阳性预测值及阴性预测值分别为98.2%、64.6%、81.2%、73.1%、97.3%。两者ROC曲线下面积分别为0.79vs0.804,见图1。
图1 ACR TI⁃RADS与ATA分类法评估甲状腺结节的ROC曲线Fig.1 The ROC of thyroid nodules assessed by ACR TI⁃RADS and ATA guidline
2.4 两种分类标准的一致性比较经Kappa检验,不同诊断经验的三位超声医师A、B、C在对甲状腺结节进行TI⁃RADS和ATA分类时,彼此之间存在一定的差异(表1)。当三位医师使用TI⁃RADS进行分类时,一致性极好,κ值高达0.826;而用ATA标准进行分类时,一致性中等,κ值为0.583。不同医师之间两两比较发现,使用TI⁃RADS进行分类时,年轻医师与高年资医师对结节分类的一致性尚好,κ值分别为0.71,0.757;而用ATA标准时,年轻医师与高年资医师的一致性中等,κ值分别为0.556,0.406。此外,在年轻医师之间,应用TI⁃RADS的一致性也高于应用ATA时(0.756vs0.532)。
表1 不同医师之间一致性(κ值)Tab.1 The consistency between different doctors
3 讨论
甲状腺结节的人群患病率较高,可以达到35%[6],但恶性率比较低[7],所以在发现甲状腺结节的基础上鉴别良恶性,对其进危险分层非常重要。目前高频超声检查是甲状腺疾病的首选影像诊断方法,为了更系统的对结节进行分类,已经有多个研究单位借鉴ACR的乳腺影像报告与数据系统(BI⁃RADS),提出了各自的分类方法,本研究选择了较权威的两个机构所提出的分类法,对其诊断价值和应用价值进行比较。
2015年ATA甲状腺结节诊治指南针根据结节的超声特征将甲状腺结节分为5类:良性、极低度可疑、低度可疑、中度可疑以及高度可疑恶性,每一类对应的恶性百分比分别为<1%,<3%,5%~10%,10%~20%以及70%~90%。本研究中,中度可疑恶性组的恶性率为36.5%,高于指南范围上限,可能原因是本研究采用的病例均为接受手术切除的患者,恶性率远高于一般人群,会存在一定的选择偏倚。此外,本组病例使用ATA指南分类时,有6.4%(29个)结节无法归类,其中包括:伴有任一个恶性超声特征的实性高回声或等回声结节27个;受周围蛋壳样钙化声影影响,内部回声及成分无法显示的结节2个(图2)。需要注意的是,在无法归类的29个结节中恶性占44.8%,既往XU等[8]的研究中ATA无法归类的甲状腺结节占5.8%,其中28.6%为恶性。所以,使用ATA指南对甲状腺结节进行危险分层,会出现部分结节无法被归类的情况。
图2 周围伴蛋壳样钙化的甲状腺结节Fig.2 Thyroid nodules with eggshell calcification around
由于PARK等先后提出的多个TI⁃RADS彼此之间并不一致,2017年ACR综合了美国国家癌症研究所数据、不同专家意见以及上述既往TI⁃RADS的信息,推出了全新的甲状腺影像报告与数据系统,称之为 ACR TI⁃RADS。新的 TI⁃RADS 分类法着重评估结节的成分、回声、形状、边缘、以及局灶性强回声情况,对每一种超声特征赋予不同的分值,相加所得总分作为最后分类的依据,所以ACR TI⁃RADS简便易行,在本研究中能够很好的将每一个结节进行归类。本组TI⁃RADS2类的结节中,有2例为恶性,术后病理分别为高分化乳头状癌和髓样癌(图3)。
图3 ACR TI⁃RADS2类甲状腺结节Fig.3 Hyroid nodules of ACR TI⁃RADS2
在诊断效能方面,本研究结果显示:ACR TI⁃RADS与ATA分类法在判断甲状腺结节良恶性方面敏感性、特异性、准确性等均无显著差异,ROC曲线下面积分别为0.79和0.81,所以笔者认为这两种方法的诊断效能相当。由于2017年ACRTI⁃RADS作为白皮书刚面世时间尚短,目前国内尚无已发表的研究分析两者之间的诊断价值。国外HA等[9]的研究认为ATA判断甲状腺结节的敏感性较高,而ACR TI⁃RADS评估甲状腺结节的特异性和准确性更高,这与本研究结果有出入,可能是两个研究采用的诊断截点不同所致。
在不同经验的超声医师诊断一致性方面,ACR TI⁃RADS的一致性明显高于ATA,本研究发现,在用ATA标准进行分类时,低年资医师与高年资医师之间存在一定差距。在低年资医师之间,诊断的一致性也相对较差,进一步分析原因,可能是低年资医师对于某些超声征象的判读存在偏差,如混合性结节的实性部分是否偏心,以及结节的边缘信息判断等。PARK等[10]的研究也认为观察者间评估甲状腺结节边缘一致性差。而由于ACR TI⁃RADS的白皮书在辞典部分就对每一种征象做出了细致的描述和分类,所以不同年资医师之间诊断的一致性相对较高。
综上所述,本研究认为ACR TI⁃RADS与ATA分类法在评估甲状腺结节的良恶性方面诊断效能相当,不过,ACR TI⁃RADS可以对所有结节都进行分类,而且不同年资超声医师之间诊断的一致性更高,所以具有更广阔的应用前景。