APP下载

基于超声影像构建机器学习模型预测甲状腺良恶性结节

2021-08-05孙芳石岩刘菲菲邹颖崔广和夏爽

国际医学放射学杂志 2021年4期
关键词:线图队列恶性

孙芳 石岩 刘菲菲 邹颖 崔广和 夏爽

甲状腺结节是临床上最常见的内分泌系统疾病之一,发病率逐年增加,以超声检查统计的甲状腺结节患病率为20%~76%[1]。甲状腺结节包括良性结节和恶性结节,两者治疗方式及预后不尽相同,大部分良性结节仅需要长期随访和监测,不需要干预,预后良好;而恶性结节最常见的治疗方式为手术治疗,且发生颈部淋巴结转移的概率为50%~80%[2]。因此,甲状腺结节良恶性的鉴别对其治疗尤为重要。

2015 年美国甲状腺协会(American Thyroid Association,ATA)发布的甲状腺结节诊治指南中,推荐超声作为筛查甲状腺结节的首选方法[3]。但是,部分结节超声特征不典型,常规超声对其良恶性的鉴别较困难。机器学习是人工智能的主分支之一,主要包括支持向量机(support vector machines,SVM)、Logistic 回归分析、分类回归树(classification and regression tree,C&R)、决策树(decision tree,C5.0)、贝叶斯网络和类神经网络等模型[4],可以利用大型复杂数据集建立预测模型,从而消除观测者主观判断差异,正在越来越多地被用于医学领域[4-5]。目前采用机器学习模型预测甲状腺结节良恶性的研究较少,本研究旨在基于超声影像特征构建机器学习模型,选择最佳模型以准确预测甲状腺结节的良恶性。

1 资料与方法

1.1 一般资料 回顾性纳入2017 年1 月—2019年12 月于滨州医学院附属医院甲状腺外科就诊的甲状腺结节病人2 410 例,其中男566 例(23.5%),女 1 844 例(76.5%);年龄 18~87 岁,平均(45.11±10.35)岁。共计 2 516 个结节,结节大小 0.4~7.5 cm,平均(1.23±0.77)cm。其中,良性结节 929 个(36.9%),包括亚急性甲状腺炎、甲状腺腺瘤、结节性甲状腺肿;恶性结节1 587 个(63.1%),包括乳头状癌、髓样癌、滤泡状癌、未分化癌。纳入标准:①行穿刺活检或手术治疗;②术前1 周行常规超声检查,影像清晰;③一般资料、超声影像及病理资料完整。排除标准:①超声影像中结节显示不完整,周围甲状腺组织不清晰;②既往有甲状腺手术史或颈部放射治疗史。

1.2 设备与方法 使用 LOGIQ E9、SuperSonic Imagine AixPlorer、Mylab Twice 及 RS80A 等彩色多普勒超声诊断仪进行超声检查,选择L4-15 线阵探头,频率为4~15 MHz。由2 名具有5 年以上诊断经验的超声医师分析二维超声影像,意见不一致时,与更高年资医师讨论后确定最终结果。记录病人的年龄、性别、是否伴有桥本氏甲状腺炎(Hashimoto’s thyroiditis,HT)。分析结节生长特征:单发/多发、最大结节大小(<1.0 cm、≥1.0 cm)、结节部位(上极、中部、下极、峡部)。根据2017 版美国放射学会甲状腺影像报告与数据系统(Thyroid Imaging Reporting and Data System,TI-RADS)分析超声影像特征(图 1),包括结构(囊实性、实性)、回声(极低回声、低回声、高回声或等回声)、形状(纵横比>1 或≤1)、边缘(平滑、不清晰、不规则)、有无微钙化、是否伴有甲状腺包膜外侵犯(extra-thyroidal extension,EXE)等。

图1 甲状腺结节超声特征。A 图,可见多发结节(白箭),较大者位于右叶上极,最大直径2.8 cm,为囊实性回声,边缘平滑,纵横比<1,无微钙化,无EXE。B 图,可见单发结节(白箭),位于左叶中部,最大直径1.5 cm,实性低回声,边缘不规则,纵横比>1,微钙化,有EXE。

1.3 模型建立与验证 使用SPSS Modeler18.0 统计软件构建机器学习模型。所有结节由软件随机分为训练队列和验证队列,训练队列包括1 992 个结节(80%),验证队列包括524 个结节(20%)。在训练队列和验证队列,分别使用SVM、Logistc 回归分析、分类回归树(C&R)、决策树(C5.0)、贝叶斯网络和类神经网络6 个分类器构建机器学习模型。在模型构架节点的分析选项卡中选择计算原始倾向评分,并分析不同模型的预测能力。根据受试者操作特征(ROC)曲线下面积(AUC)选择预测能力最高的机器学习模型,通过软件对各变量所占重要性比例进行评估,筛选出预测重要变量。基于训练队列数据绘制列线图,并基于训练队列及验证队列数据绘制校准曲线对列线图进行验证。

1.4 统计学方法 采用SPSS 25.0 软件对数据进行分析。计数资料以个(%)表示,2 组间比较采用χ2检验。应用MedCalc 软件,采用ROC AUC 对模型的原始倾向评分进行评估,分析6 种模型在训练队列和验证队列的预测能力,并使用DeLong 检验比较6 种模型的预测能力。使用R 软件(4.0.2 版本)绘制列线图及校准曲线。P<0.05 为差异有统计学意义。

2 结果

2.1 2 个队列的临床及超声特征比较 训练队列和验证队列的临床及超声特征的差异均无统计学意义(均P>0.05),见表 1。

表1 训练和验证队列的临床和超声特征比较 个(%)

2.2 2 个队列中6 种机器学习模型的预测能力 在训练队列和验证队列中,SVM、Logistic 回归分析、C&R、C5.0、贝叶斯网络和类神经网络预测能力的AUC 分析见表 2,Delong 检验表明SVM 模型的预测能力最佳,均高于其他5 种模型(均P<0.05),因此SVM 为最佳模型。训练队列和验证队列采用6 种机器学习模型对甲状腺结节良恶性预测能力的ROC曲线分析见图2。

图2 6 种模型对甲状腺结节良恶性预测能力的ROC 曲线。A、B 图分别为训练队列和验证队列。

表2 6 种模型在训练和验证队列中预测能力的AUC 分析

2.3 预测重要变量的列线图分析 选取SVM 筛选的6 个预测重要变量绘制列线图(图3),结果显示纵横比>1、微钙化、EXE 评分最高,其次为边缘、HT及回声水平;训练队列及验证队列的校准曲线均显示,该列线图的预测结果与实际结果有良好的一致性(图 4)。

图3 SVM 模型筛选的预测变量绘制的列线图。每一个变量对应的线段上都标注了刻度,代表了该变量的可取值范围,而线段的长度则反映了该因素对甲状腺恶性概率的贡献大小。

图4 验证列线图的校准曲线。A、B 图分别为训练队列和验证队列。Y 轴为实际的甲状腺结节恶性概率,X 轴为模型预测的恶性概率,对角虚线表示理想模型的预测,黑色实线表示列线图的性能,其中与对角虚线越接近则表示预测效能越好。

3 讨论

常规超声作为诊断甲状腺结节的首选方法,其敏感度只有27%~63%[6]。目前临床上主要通过甲状腺细针穿刺活检(fine-needled aspiration,FNA)检查确诊结节良恶性,但敏感度为54%~90%,特异度为60%~98%[7]。而FNA 为有创检查,因此需要一种无创性且更准确的检查方法预测甲状腺结节的良恶性,以指导临床进行下一步治疗。目前机器学习在医学方面的应用越来越多[8-9],既往临床研究使用机器学习模型研究疾病的诊断及治疗策略[10-11],结果表明,机器学习可为临床诊断及治疗提供指导意义。本研究比较了6 种机器学习模型预测甲状腺结节的良恶性,得出SVM 具有最高的预测能力。

3.1 机器学习模型分析 本研究选取了SVM、Logistic 回归分析、C&R、C5.0、贝叶斯网络和类神经网络6 种机器学习模型预测甲状腺结节的良恶性。结果显示,在训练队列和验证队列中SVM 对甲状腺结节均有最高的预测能力。既往研究评估甲状腺结节及其他结节如肺结节良恶性程度的研究主要基于Logistic 回归分析[12-13]。SVM 分析方法与Logistic 回归分析完全不同,Logistic 回归分析使用加权最小二乘算法,而SVM 基于结构风险最小化准则和Vapnik-Chervonenkis 概念,不管因变量的实际概率如何,可直接找到最佳划分超平面,可以最大程度地减少一般的分类错误[9,14]。对于其他模型,C5.0 模型通过“是”与“否”来分类数据,但仅适用于小规模数据集;类神经网络和贝叶斯网络模型主要用于处理非线性关系的临床数据,且需要大量的参数[15];分类回归树模型不能有效反映高度线性关系的数据结构,尤其是对于某一因素单独作用效应的定量解释不及SVM 模型准确[16]。由于SVM 能够通过对大量数据集的训练最终转化为凸优化问题,保证算法的全局最优性,可避免上述模型的局限性。本研究样本量大,且甲状腺结节超声特征参数多,因此在本研究中,SVM 较其他模型具有较高的预测甲状腺结节良恶性的能力。

3.2 预测重要变量分析 通过SVM 模型筛选重要变量并绘制列线图,结果显示纵横比>1、微钙化、EXE 评分最高。2017 版TI-RADS 将不同的超声征象赋予不同的积分值,通过总积分判断结节的恶性风险,积分值越高则提示结节恶性风险越大,其中微钙化、纵横比>1、EXE 均被赋值为最高分 3 分[17]。同样,本研究显示纵横比>1、微钙化、EXE 评分最高。许多研究证实纵横比可以作为预测甲状腺结节良恶性的独立或联合判断变量[18]。目前国内外关于超声评估甲状腺结节良恶性风险的指南中,均将纵横比作为一项重要的评估指标[19]。钙化也是鉴别甲状腺结节良恶性的重要指标,由于甲状腺恶性结节生长迅速,血管及纤维增生可导致钙盐沉积,从而产生微钙化(长径<1 mm 的钙化),因此微钙化与甲状腺癌密切相关;其与其他超声特征相比较,敏感度最高[20]。2017 版 TI-RADS 将 EXE 赋值为 3 分,将其作为高度可疑的恶性指标之一[17]。甲状腺恶性结节的侵袭性生长及直立生长,易突破包膜,因而伴有EXE 是甲状腺良恶性的重要鉴别指标,也是发生中央区淋巴结转移的独立危险因素[21]。

列线图分析发现,纵横比>1、微钙化、伴有EXE这3 个变量中任意2 个变量联合其他变量预测甲状腺结节恶性概率较高。在临床工作中,选择具备其中2 个变量特征的结节进行细针抽吸术,可避免不必要的有创性检查。同时,本研究筛选的重要变量及绘制的列线图,均将HT 纳入危险因素。HT 对甲状腺乳头状癌的生物学特征是否存在影响尚不明确[22],其对结节的边缘、内部回声及微钙化可能存在影响,因此对于患有HT 的甲状腺结节,在进行诊断时应结合多个超声特征综合分析。

3.3 小结 本研究结果显示机器学习模型可用来预测甲状腺结节的良恶性,SVM 具有最高的预测性能,可为临床治疗提供指导意义。本研究尚存在一定的局限性,所选取的病人为单中心沿海地区的住院病人,有一定的选择偏倚,下一步需扩大样本量,纳入门诊病人,同时进行多中心研究。其次,本研究的超声特征由超声医师读取,而不是直接从超声影像中捕获,未来的研究可使用机器学习模型直接从超声影像中提取特征进行研究。

猜你喜欢

线图队列恶性
NEAT1和miR-146a在结核性与恶性胸腔积液鉴别诊断中的价值
一些图运算的调和指标与调和多项式的线图∗
恶性胸膜间皮瘤、肺鳞癌重复癌一例
探讨超声检查在甲状腺肿块良恶性鉴别中的诊断价值
基于车车通讯的队列自动跟驰横向耦合模型
队列队形体育教案
力挽恶性通胀的美联储前主席保罗·沃尔克逝世,享年92岁
队列里的小秘密
青春的头屑
一类图及其线图的Wiener指数