基于ACR TI-RADS分析S-Thyroid和超声医师评估甲状腺结节的一致性
2022-11-10周跃李卫民范晓芳高启吴文娟贾磊
周跃 李卫民 范晓芳 高启 吴文娟 贾磊
1江南大学附属医院超声医学科(江苏无锡 214000);2东南大学附属中大医院超声医学科(南京 210009)
甲状腺结节是临床最常见的疾病之一,研究表明,19% ~68%的普通人群有甲状腺结节,其中恶性率约占7% ~15%[1-5]。超声具有简便、快捷、分辨率高的优点,对甲状腺结节的检出及评估价值也逐渐为临床认可,并成为其首选的检查手段[6-9]。2017年美国放射学会(American College of Radiology,ACR)制定的甲状腺影像报告和数据系统(thyroid imaging reporting and data system,TIRADS)对甲状腺结节良恶性的鉴别具有较高权威性和指导意义[10-12],但其超声特征众多,评分系统复杂,如何快速准确地评估甲状腺结节的超声特征并进行分类成为临床研究的难点。随着技术水平的不断进步,人工智能逐步应用于甲状腺的临床应用中,研究表明,人工智能可在一定程度上提高甲状腺结节诊断的准确性。甲状腺自动扫查助手(scanning assistant thyroid,S-Thyroid)是由开立公司研发的基于人工智能算法的技术,可快速提供甲状腺结节的特征、评分并进行分类,但其对甲状腺结节超声特征评估的准确性及诊断效能的临床研究尚未见报道。本文通过分析276 个经病理确诊的甲状腺结节,评估S-Thyroid 和超声医师对甲状腺结节超声特征评估的一致性,并分析二者的诊断效能。
1 资料与方法
1.1 一般资料选取2020年12月至2022年7月于江南大学附属医院和东南大学附属中大医院就诊,且经手术病理确认的甲状结节患者253 例共276 个结节,其中男51 例,女202 例,年龄21 ~73岁,平均(43.37±10.67)岁,结节最大径4 ~35 mm,平均(14.38 ± 6.18)mm。纳入标准:(1)初次发现的甲状腺结节;(2)有明确的病理结果;(3)超声影像资料清晰、切面完整。排除标准:(1)以往经穿刺或治疗等可能影响甲状腺结节超声特征;(2)同时切面合并两个以上结节,S-Thyroid 难以准确逐一识别;(3)超声影像模糊或部分切面缺失,超声医师和S-Thyroid 均难以准确评估。
1.2 方法
1.2.1 病理分析根据2017年第四版《WHO 内分泌器官肿瘤》(甲状腺)分类指南[13-14]对甲状腺结节良恶性进行分类。
1.2.2 S-Thyroid采用开立S60 彩色多普勒超声显像仪,选择线阵探头,探头频率为7.8 ~15 MHz。所有病例的扫查及评估均由具有10年以上工作经验的副主任及以上资历的超声医师完成,检查时,患者采用仰卧位,充分暴露双侧颈部,对甲状腺采用横断面和纵断面相结合的扫查方法,对其内的甲状腺结节行多切面、多角度地动态观察。在采集相应的甲状腺结节静态标准切面及动态影像后进行存储,并根据静态影像按下仪器自带的S-Thyroid 键,对结节的超声特征进行智能评估,每个甲状腺结节均进行横、纵标准切面的智能评估,当两个切面的评估出现误差时,以其中评分高的特征为准。S-Thyroid 对甲状腺结节的评估根据ACR TI-RADS 指南进行评估并分类。
1.2.3 超声医师评估超声医师的评估由另外2名具有10年以上工作经验的副主任及以上资历的超声医师针对采集的甲状腺结节超声图片进行独立、盲法评估,当2 名医师的评估出现误差时,由1 名主任医师再次评估,并以此为准。超声医师的评估也以ACR TI-RADS 分类为准。
1.3 ACR TI-RADS 分类及评价标准(1)根据ACR TI-RADS 分类系统[11],超声评估内容及评分:①成分:囊性或几乎全为囊性0 分,海绵状0 分,囊实混合性1 分,实性或几乎为实性2 分。②回声:无回声0 分,高或等回声1 分,低回声2 分,极低回声3 分。③形态:纵横比<1 为0 分,纵横比≥1 为3 分。④边缘:光滑或模糊0 分,分叶或不规则2 分,向甲状腺外延伸3 分。⑤强回声:无或大彗尾0 分,粗大钙化1 分,周围型钙化2 分,点状强回声3 分。(2)按照指南对以上5 项指标进行评分,计算各结节的总得分后确定TI-RADS 分类,①TR1类:0 分,良性结节;②TR2:2 分,恶性风险<2%,考虑良性;③TR3:3 分,恶性风险<5%,低度可疑恶性;④TR4:4 ~6 分,恶性风险5%~20%,中度可疑恶性;⑤TR5:>7 分,恶性风险>20%,高度可疑恶性。
1.4 统计学方法采用SPSS 20.0 统计学软件,计量资料采用均数±标准差表示,比较采用独立样本t检验;计数资料使用例数和百分数表示,比较采用χ2检验和Fisher 精确概率法。采用Cohen's Kappa 检验评估超声医师和S-Thyroid 对甲状腺超声特征及分类的一致性,当0<Kappa≤0.20 时,表示一致性较差;0.20<Kappa≤0.40 时,表示一致性一般;0.40<Kappa≤0.60 时,表示一致性中等;0.60<Kappa≤0.80 时,表示一致性较强;0.80<Kappa≤1.00时,表示一致性强。根据ACR TI-RADS评分绘制受试者工作特征曲线(receiver operating characteristic curve,ROC),并计算各组曲线下面积(area under the curve,AUC)、临界值及其对应的敏感度和特异度;AUC 为0.85~0.95 表示诊断效能很好;AUC 为0.7 ~0.85 表示诊断效能一般;AUC为0.5 ~0.7 表示诊断效能较低。Youden 指数最大时所对应的评分为各组评分的最佳临界值。P<0.05 为差异有统计学意义。
2 结果
2.1 甲状腺结节的病理资料276 个甲状腺结节中良性结节89 个,发生率32.25%,恶性结节187个,发生率67.75%(表1)。
表1 甲状腺结节的病理结果Tab.1 Pathological results of thyroid nodules
2.2 S-throid 和超声医师对甲状腺结节超声特征评估的一致性两者评估甲状腺结节形态、内部结构以及回声的一致性强(Kappa 值分别为0.973、0.886、0.805),对强回声灶和边缘评估的一致性中等(Kappa 分别为0.613、0.597),见表2。从数据可知,超声医师和S-throid 对部分甲状腺结节超声特征的评估会出现一定的差异(图1),对部分甲状腺结节超声特征的评估高度吻合(图2)。
图1 患者,女,35 岁,结节性甲状腺肿Fig.1 A 35-year-old female patient with nodular goiter
图2 患者,女,47 岁,甲状腺乳头状癌Fig.2 A 47-year-old female patient with papillary thyroid carcinoma
表2 S-Thyroid 和超声医师对甲状腺结节超声特征的评估情况Tab.2 Evaluation results of ultrasonic characteristics of thyroid nodules by S-Thyroid and ultrasonic doctors 例
2.3 超声医师和S-throid 对甲状腺结节TIRADS分类的一致性基于甲状腺结节的超声特征进行TI-RADS 分类,超声医师和S-Thyroid 对甲状腺结节分类的总体一致性强(Kappa=0.863),对C-TIRADS 2 类、4 类以及5 类结节的一致性强(Kappa 分别为0.818,0.909,0.855),对C-TIRADS 3 类结节的一致性较强(Kappa=0.774)。见表3。
表3 基于甲状腺结节超声特征的TIRADS 分类Tab.3 TIRADS classification based on ultrasonic characteristics of thyroid nodules 例
2.4 S-Thyroid 和超声医师对甲状腺结节的诊断效能S-Thyroid 和超声医师对甲状腺恶性结节的敏感度、特异度分别为82.01%vs. 86.24%,86.21%vs.83.91%,差异均无统计学意义(均P>0.05);AUC 分别为0.835(95%CI:0.801 ~0.926)、0.891(95%CI:0.846 ~0.936),诊断效能均较高(表4)。ROC 曲线见图3。
表4 S-Thyroid 和超声医师对甲状腺结节的诊断效能Tab.4 Diagnostic efficacy of S-Thyroid and ultrasonic doctors for thyroid nodules
图3 S-Thyroid 和超声医师ROC 曲线图Fig.3 ROC curves of S-Thyroid and sonographer
3 讨论
近年来,人工智能伴随着计算机技术、数学算法和统计学的进步也有了快速的发展。在医学影像诊断方面,人工智能可辅助影像科医师发现并分析病灶,避免因临床医师经验及知识水平等主观因素带来的失误,从而提高诊断的效率和准确率[15-19]。在甲状腺结节的超声特征评估方面,目前的研究表明,人工智能系统对甲状腺结节的诊断具有较高的灵敏度,可辅助超声医师提高对甲状腺结节的诊断效能[20-22]。作为具有我国自主知识产权的S-Thyroid 系统,由于其可快速提供甲状腺结节的特征、评分并进行分类,目前已应用于临床相关研究中,且取得了较好的市场效益[23]。本研究以ACR 版TI-RADS 分类指南为基础,通过对276 个经手术病理确诊的甲状腺结节超声特征进行分析,发现S-Thyroid 对甲状腺结节超声特征的评估与超声医师有着较好的一致性,且具有较高的诊断效能。
本文的研究结果表明,超声医师和S-Thyroid对甲状腺结节形态、内部结构以及回声的评估一致性强,在评估结节的形态方面,S-Thyroid 首先自动勾画感兴趣区,并在感兴趣区的基础上进行评估,当感兴趣区能准确勾画甲状腺结节时,其可准确评估甲状腺结节的形态,然而,当病灶边界模糊时,感兴趣区的勾画会出现一定的误差,这也会在一定程度上影响甲状腺结节形态评估的准确性。在甲状腺结节的内部结构方面,S-Thyroid 与超声医师的主要差异在于S-Thyroid 在一定程度上会将伴有低回声晕的实性甲状腺结节误认为囊实性,部分囊实性结节也可被S-Thyroid 评估为实性或几乎完全实性。在甲状腺结节回声的评估方面,差异的主要部分在极低回声、低回声、等回声或高回声方面,对于部分甲状腺结节的回声的评估,目前以甲状腺实质和颈前肌群作为分界标准。然而,临床实际应用过程中,在极低回声和低回声的评估方面超声医师也存在着一定的差异。
在强回声灶和边缘评估的评估方面,超声医师和S-Thyroid 评估的一致性中等。在强回声灶方面,笔者发现,对于数量少的微小钙化灶,S-Thyroid 系统无法准确评估,这可能与S-Thyroid 仅能对静态超声影像评估有关,超声检查强调动态观察,在某一静态图像上,部分信息仍会因为缺乏全面的信息而无法准确评估。同时,由于感兴趣区勾画时无法准确包含部分甲状腺结节的周边特征,部分甲状腺结节边缘强回声也无法准确评估,这些可能均是造成超声医师和S-Thyroid 对强回声灶评估准确性一般的原因。对于边缘特征的评估,超声医师和S-Thyroid 的差异主要在于边界模糊和分叶/不规则之间的差异,部分结节超声医师评为边缘模糊的结节,S-Thyroid 则评为分叶/不规则,而ACR TI-RADS 将光滑或模糊均评为0 分,而分叶或不规则为2 分,模糊并非甲状腺结节的可疑特征,这也是本研究中二者对边缘评估一致性中等的主要原因。
在评估甲状腺结节超声特征的基础上,可进行相应的评分并进行分类,结果表明,超声医师和S-Thyroid 对甲状腺结节分类的总体一致性强(Kappa=0.863)。同时,通过绘制的ROC 曲线分析发现,S-Thyroid 和超声医师对甲状腺结节的诊断效能均较高,S-Thyroid 和超声医师对甲状腺恶性结节的敏感度、特异度差异均无统计学意义,这表明,S-Thyroid 对甲状腺结节的评估能力与中-高年资超声医师的水平接近,由于ACR TI-RADS 指南评估内容的多样性及赋分的复杂性,S-Thyroid 也在一定程度上降低了超声医师的负担,提高了诊断的效率。
本研究的不足以及下一步研究的方向:(1)本研究中纳入的病例以手术病理为金标准,这在一定程度上降低了样本量,后续的大样本研究结果可能与本文有一定的差异。(2)超声医师对甲状腺结节的评估属于回顾性分析,对甲状腺结节超声特征的评估准确性可能会降低。(3)与ACR 分类系统相比,我国周建桥教授制定的C-TIRADS 分类系统[24]更适合我国的具体国情,因此,基于C-TIRADS 分类系统建立甲状腺人工智能系统有势在必行。(4)S-Thyroid 仅能对静态的甲状腺超声影像进行分析,无法进行动态评估,这在一定程度上降低了S-Thyroid 评估的准确性,因此,建立基于动态图像进行评估的甲状腺结节的人工智能系统,多切面、多角度的动态评估甲状腺结节可能是后续的研究方向。
综上所述,以ACR TI-RADS 为基础,S-Thyroid与超声医师对甲状腺结节超声特征的评估及分类具有较高的一致性,且具有较高的诊断效能,值得进一步推广应用,从而提升超声医师工作的效率,降低超声医生的日常工作负担。