卷积神经网络诊断甲状腺结节的应用
2023-01-13尹爱桃陆永萍赵易凡孙月张容亮徐飞
尹爱桃,陆永萍,赵易凡,孙月,张容亮,徐飞
云南大学附属医院超声科,云南 昆明 650000;*通信作者 陆永萍 luyongp@163.com;徐飞 xf6631599@126.com
甲状腺结节大多数为良性,恶性率约为5%~7%[1]。超声检查具有较强的主观性,经验不同的医师诊断结节良恶性存在差异,在产生不必要的侵入性检查[2]的同时,细针穿刺活检存在假阴性的可能。手术切除是甲状腺结节主要的治疗方法,但术后并发症对患者生活质量造成不良影响。基于跨多学科的大数据集成,人工智能(artificial intelligence,AI)计算机辅助诊断(computer-aided diagnosis,CAD)系统不断更新与改进,高效的智能诊断系统AI-SONICTM Thyroid(DEMETICS®超声诊断机器人)有助于甲状腺超声诊断标准的推广和普及[3]。本研究拟讨论基于卷积神经网络(convolution neural networks,CNN)的AI-CAD系统诊断甲状腺结节性质及分类的性能。
1 资料与方法
1.1 研究对象 回顾性收集2018 年4 月—2021 年2 月云南大学附属医院收治的甲状腺结节患者,以术后病理结果为“金标准”,最终纳入105 例患者共157 个结节。纳入标准:术前均在我院接受甲状腺超声检查;并经病理证实结节性质;超声图像质量好,包括完整的纵、横切面,输入AI 系统的图像均无测量值及血流等因素。排除标准:甲状腺小结节<5 mm[4];结节超过图像显示范围;既往患有甲状腺疾病或有甲状腺手术史。排除同时含2 个及以上结节41 例,对仅含1 个甲状腺结节者分析术前及术后甲状腺功能(64 例患者64 个结节,其中良性结节23 个,恶性结节41个),包括血清三碘原氨酸(正常值0.60~1.55 ng/ml)、甲状腺素(正常值54.2~127.4 ng/ml)、促甲状腺激素(正常值0.27~4.20 μIU/ml)、抗甲状腺过氧化物酶抗体(正常值<34.00 IU/ml)。本研究经云南大学附属医院伦理评审委员会审核通过(2021082),所有患者均免除知情同意。
1.2 超声图像采集 采集结节2个以上横切及纵切图像共568张,图像来自GE VIVID E9和SUPERSONIC等超声诊断仪,观察157个结节部位、大小、形态、回声、纵横比(A/T)、边界、边缘、钙化、血流情况及周围淋巴结情况,2名主治医师对结节良恶性进行诊断及甲状腺影像报告和数据系统(thyroid imaging reporting and data system,TI-RADS)分类,TI-RADS 4a、4b、4c类为恶性结节,TI-RADS 2、3类为良性结节[5]。筛选图像质量佳的二维图像输入AI辅助诊断系统AI-SONICTM Thyroid(DEMETICS®超声诊断机器人)中逐个分析,根据系统给定区域,计算结节轮廓,输出结节良恶性诊断、TI-RADS分类等级及量化评分。
1.3 AI算法及CNN CNN通过中间层重构高维数据,训练多层神经网络实现数据降维,模拟大脑思考过程,包括输入层(树突)、隐藏层(神经元处理)和输出层(轴突,又称激活函数),将卷积应用到图像进行运算得到特征图,对图片进行滤波、降噪、锐化、边缘检测以及高级特征检测,以结节图像作为输入指标,输出相应特征图像,多个中间层利用卷积核、池化和正规化作用将输入映射到输出(图1),通过对底层特征到高层特征的建立,自动学习结节层次结构特征,利用这些特征训练形成模型,用于识别甲状腺结节(图2)。
图1 CNN模型原理
图2 甲状腺结节AI诊断。A:二维超声原图;B:结节定位;C:AI量化评分;D:结节特征检测
1.4 统计学方法 应用SPSS 21.0软件,符合正态分布且方差齐的计量资料以表示,组间比较采用t检验;计数资料以例数(%)表示,采用χ2检验;以病理结果为“金标准”,绘制3种诊断模型及AI量化评分的受试者工作特征(ROC)曲线,计算曲线下面积,比较医师特征、AI及联合诊断模型的诊断效能,统计医师特征及AI量化评分与结节分类情况。以P<0.05为差异有统计学意义。
2 结果
2.1 结节诊断方式及特征分析 甲状腺结节患者一般情况及病理特征见表1。
表1 105例甲状腺结节患者的一般资料分析
2.2 甲状腺结节患者术前及术后甲状腺功能比较64 例甲状腺良、恶性结节术前及术后血清三碘原氨酸、甲状腺素、抗甲状腺过氧化物酶抗体水平比较,差异无统计学意义(P>0.05),恶性结节术前促甲状腺激素水平明显高于良性结节,术后促甲状腺激素水平低于良性结节,差异有统计学意义(P<0.05),见表2。
表2 甲状腺良、恶性结节术前及术后甲状腺功能比较()
表2 甲状腺良、恶性结节术前及术后甲状腺功能比较()
注:T3为三碘原氨酸,T4为甲状腺素,TSH为促甲状腺激素,TPO-Ab为抗甲状腺过氧化物酶抗体
2.3 甲状腺结节的超声特征 对良、恶性结节超声特征分析发现,除血流因素(P>0.05)外,其他特征诊断结节良恶性差异均有统计学意义(P<0.05),见表3。
表3 甲状腺良、恶性结节超声特征分析[例(%)]
续表3
2.4 超声医师、AI-CAD 及联合诊断良恶性结节的效能以TI-RADS 4a、4b、4c 类为恶性结节,TI-RADS 2、3 类为良性结节,超声医师、AI 诊断及联合诊断的曲线下面积分别为0.751、0.803、0.910,AI 诊断效能高于超声医师,两者联合诊断效能最佳(χ2=5.524,P<0.05),见表4 及图3。
图3 超声医师、AI-CAD及联合诊断模型的ROC曲线
表4 超声医师、AI-CAD及联合诊断甲状腺结节良恶性效能分析
2.5 结节分类 按照TI-RADS分类对甲状腺结节特征、AI评分进一步研究显示,实性、低回声、边界模糊、A/T>1、钙化、淋巴结转移集中分布于4b类、4c类(表5)。AI量化评分越高,则分类级别越高,AI量化评分曲线下面积为0.785(P<0.001)(图4),临界值为0.695。
表5 甲状腺结节特征及AI评分与结节分类(结节数)
图4 AI量化评分的ROC曲线
3 讨论
甲状腺癌发病率逐年升高,超声是甲状腺结节的首选检查方法,AI-CAD系统可以改善甲状腺腺体和病灶清晰度,区分良、恶性结节的准确率高达98%[6],随着CAD系统不断推广和普及,AI联合医师共同诊断甲状腺结节对临床评估是否手术及制订手术方案有较高的应用价值。
3.1 一般资料分析 本研究纳入良性结节以结节性甲状腺肿为主,恶性结节以乳头状癌为主,排除直径<5 mm结节,因目前无法确定CAD系统对直径<5 mm结节准确定位及诊断效能[4];血清三碘原氨酸、甲状腺素、抗甲状腺过氧化物酶抗体与结节良恶性无明显关系,与吴月等[7]的结果一致。促甲状腺激素与结节良恶性相关,促甲状腺激素越高,结节越容易发生恶变,可作为观察结节性质的一个参考指标[8],术后促甲状腺激素变化为临床术后用药及药物剂量调整等提供相关依据。
3.2 医师、AI及联合诊断效能分析 AI联合医师诊断甲状腺结节效能更好,与麦武平等[9]的结果一致,基于CNN的AI-CAD系统诊断效能较医师稍高,与Li等[10]及杨波等[11]的结论一致,Wei等[12]认为CNN辅助诊断的准确度优于医师;也有研究认为深度学习的诊断准确性达92%以上,优于超声医师[13-15]。但与Choi等[4]的结论相比,CAD诊断结节的特异度高于医师,敏感度无明显差异,其原因为本研究使用2.0版AI-CAD系统,在1.0版基础上输入大量病例数进行特征学习、病灶分割、多层次特征提取,同时对结节区域进行降噪、增强、细化图像特征等预处理,提升了AI的诊断效能;其次,受医师主观因素影响大,CAD系统对结节评估更加客观[16]。因恶性结节漏诊危害性大,纵、横切面中任一切面评判为恶性则定义为恶性结节,这可能高估了AI诊断恶性结节的病例。王冰等[16]提出,结节直径<5 mm时,AI诊断结节的准确度为78.2%,当直径>10 mm时,AI诊断结节的准确度达94.4%,本研究排除直径<5 mm结节,提高了AI-CAD系统诊断甲状腺结节的准确度。
3.3 结节特征分析 实性、低回声、边界模糊、A/T>1、钙化、淋巴结转移与结节性质相关,与Zhang等[17]的结果一致。钙化的形成与肿瘤快速生长和供血不足导致局部纤维组织增生和钙沉积有关,微钙化反映的砂粒体是诊断甲状腺癌的最可靠指标[18]。Moon等[19]研究表明,A/T>1是甲状腺癌的最佳预测因子,良性结节因内部纤维化致A/T<1[20]。结节呈低回声与声能折、散射增加,衰减增多有关。结节侵犯包膜、形态不规则,边界不清提示生物学行为有侵袭性特点[18]。实性成分在3类及4类结节分布相近,因病例均来自穿刺或术后病例,选择上存在主观性;恶性特征主要分布于4类结节,4b、4c类结节出现淋巴结转移,在AI量化评分上,0.7~0.9均为4b、4c类结节,恶性可能性较大,为AI-CAD系统辅助医师诊断结节性质提供参考。
3.4 本研究的局限性 本研究纳入的2、3类结节病例较少,CNN模型使用二维图像进行预测,信息有限,无法动态观察,不能完全反映病变特征[21]。CAD系统无法识别包膜侵犯、结节钙化类型以及淋巴结转移情况,无法评估结节血流,因此AI仅能辅助医师诊断,无法取代其工作。
本研究显示基于CNN的人工智能CAD系统诊断结节性质的效能较医师稍高,对临床评估是否手术及手术方案有较高的应用价值。经验丰富的医师联合AI诊断能节省时间[4],AI辅助低年资医师诊断可提高医师诊断水平。CNN的出现为实现医学图像自动优化提供了前所未有的机会[22],但AI-CAD系统稳定性、泛化能力等均在进一步探索中,各类人机对比试验也在持续进行,医学AI发展前景广阔,但仍需深入探索。