增强CT 影像组学模型可术前评估甲状腺乳头状癌颈部中央区淋巴结转移
2022-10-08黄国慈曾凤霞潘德润冯晨雅林志萍陈卫国
黄国慈,曾凤霞,潘德润,冯晨雅,林志萍,文 戈,陈卫国
1南方医科大学南方医院放射科,广东 广州 510515;2南方医科大学南方医院增城分院放射科,广东 广州 511338;3通用电气药业(上海)有限公司,广东 广州 510623
甲状腺乳头状癌(PTC)是最常见的甲状腺恶性肿瘤组织学类型,占甲状腺癌的90%[1],其发病率呈逐年增长趋势[2-3]。虽然PTC被认为是一种惰性肿瘤,但PTC患者发生中央区淋巴结转移(CLNM)的比例高达53%~65%[4],CLNM是局部复发的重要风险因素[5]。术前准确预测PTC患者有无CLNM对于指导临床治疗和判断预后有重要意义[6]。颈部淋巴结清扫术是治疗PTC淋巴结转移的重要手段,但目前其清扫范围和指征仍存在争议[7],多数国内外学者推荐使用预防性中央区淋巴结清扫,但颈部淋巴结的盲目清扫不仅增加了治疗成本,也增加了术后感染、甲状旁腺功能减低及神经损伤等风险[8];同时,中央淋巴结的解剖位置也影响术前影像学对CLNM的诊断结果。影像组学作为一项新兴技术,已在肿瘤邻域显示出巨大的潜力[9]。目前基于PTC原发灶预测CLNM的研究较少,模型的平衡性较差,且没有对增强CT各个期相的预测效能作全面的比较。本研究旨在探索临床、CT影像组学及融合模型预测PTC患者发生CLNM中的价值。
1 资料与方法
1.1 一般资料
回顾性分析2015年1月~2020年12月在南方医科大学南方医院行甲状腺外科治疗的103例PTC患者,收集其临床资料。纳入标准:经过甲状腺全切除或次全切除,或者单侧切除+颈部中央区淋巴结清扫;术后病理学检查证实为PTC;术前2周内在医院行CT增强扫描(平扫+动脉期+静脉期);术前未进行与PTC相关的治疗。排除标准:CT图像中的PTC病灶直径<5 mm;人为因素或其他非病变本身原因造成的图像模糊;同时患有其他恶性肿瘤。根据颈部淋巴结转移的情况将患者分为无CLNM组(n=50)和CLNM组(n=53)。
1.2 仪器与方法CT扫描
采用Siemens Somatom Definition CT 机/Philips Brilliance 64 排CT扫描仪。扫描参数:管电压120 kV,管电流159 mAs,螺距0.999,层厚3 mm。嘱患者仰卧,行颈部轴位平扫,之后经肘前静脉以2.0~3.0 mL/s流率注射优维显370对比剂(1.0~1.5 mL/kg体积量),分别在开始注射对比剂后的35 s与60 s采集动脉期、静脉期图像。
1.3 图像分析
将CT图像导入至ITK-SNAP软件,由一名具有5年工作经验的放射科医师在不知晓病理结果的情况下在CT平扫期(NP)、动脉期(AP)及静脉期(VP)图像上沿甲状腺原发病灶边缘逐层勾画感兴趣区域并评估病灶的基本征象,包扩病灶的直径、形态、有无钙化、增强后病灶边界是否清晰、有无侵及甲状腺包膜、有无侵及周围组织,并经另一名具有10年以上工作经验的放射科医师确认,意见不一致时经协商达成共识。
1.4 特征筛选及模型构建
对103例PTC患者的平扫期、动脉期及静脉期的CT数据集分别按训练集:测试集=7:3随机划分。采用Python 3.7/Pyradiomics 2.2.0/Sklearn 0.20.3等开源软件提取感兴趣区域的影像组学特征,采用零-均值方法进行数据标准化处理,用中位数填充缺失值和异常值,使用最大相关最小冗余算法对训练组的影像组学特征进行筛选,进一步使用支持向量机模型对这些特征继续降维,保留系数不为0的重要特征。在构建NP+AP+VP模型时,为避免过拟合,将NP、AP、VP筛选的最优特征子集用单因素逻辑回归做进一步筛选,保留P<0.05的特征。将影像组学特征及单因素比较差异有统计学意义的临床资料和CT征象纳入多元逻辑回归分析,分别构建临床模型(临床资料+CT征象)、NP模型、AP模型、VP模型、NP+AP+VP模型。比较NP模型、AP模型、VP模型及NP+AP+VP模型这4种组学模型,选择最优的组学模型与临床模型结合构成融合模型。
1.5 统计学分析
采用Python version 3.8.5中的开源软件包对数据进行统计学分析。训练组和测试组的临床资料和CT征象差异采用Pearson 卡方检验、校正的卡方检验或Fisher确切概率法进行比较;采用Mann-WhitneyU检验对影像组学标签评分的差异进行比较;绘制ROC曲线,计算AUC,评价各模型的预测效能;采用Delong检验比较各模型预测效能的差异。以P<0.05为差异有统计学意义。
2 结果
2.1 PTC患者临床基线分析
临床资料及CT征象分布在训练集和测试集的差异均无统计学意义(P>0.05)。无CLNM组和CLNM组两组的性别(P=0.002)、病灶直径(P=0.001)及甲状腺包膜侵犯(P=0.024)的差异有统计学意义(表1~2)。将临床资料(性别)、CT征象(病灶直径、甲状腺包膜侵犯)纳入临床模型。
表1 无CLNM组和CLNM组的临床资料比较Tab.1 Comparison of clinical data between the non-CLNM group and the CLNM group(n)
表2 无CLNM组和CLNM组的CT征象比较Tab.2 Comparison of CT signatures between the non-CLNM group and the CLNM group(n)
2.2 CT影像组学特征
通过特征筛选,最终NP模型共纳入4个重要组学特征;AP模型共纳入2个重要组学特征,VP模型共纳入5个重要组学特征,NP+AP+VP模型共纳入5个重要组学特征。这些特征来自一阶特征、纹理特征、基于变换及统计的纹理特征(表3)。
表3 各模型纳入的组学特征Tab.3 The included CT radiomics features of each model
2.3 模型效能
综合比较训练集及测试集中NP模型、AP模型、VP模型及NP+AP+VP模型4个组学模型的AUC、敏感度及特异性,NP+AP+VP模型表现最佳。将NP+AP+VP模型与上述筛选得出的差异有统计学意义的临床资料和CT 征象一同构建融合模型。比较临床模型、NP+AP+VP模型及融合模型3个模型的预测效能,融合模型无论在训练集还是测试集中均表现最佳,其AUC分别为0.897、0.913,敏感度分别为0.892、0.875,特异性分别为0.857、0.800(表4、图1)。构建最优预测模型的列线图(图2)。在训练集中融合模型与临床模型、NP+AP+VP模型的差异有统计学意义(P=0.046、0.001);在测试集中,融合模型与临床模型的差异有统计学意义(P=0.007)。训练集中校准曲线显示融合模型具有较高的校准度,但在测试集中融合模型的校准度较差(图3)。
表4 各模型预测CLNM的效能Tab.4 The effectiveness of each model for predicting CLNM
3 讨论
目前已有关于PTC颈部CLNM的相关因素研究,本研究分析了一系列的临床资料和CT征象,认为男性、病灶直径>10 mm及甲状腺包膜侵犯的PTC更容易发生CLNM,这与文献[10-11]报道基本一致。有研究认为年龄≤55岁的PTC患者更容易发生CLNM,可能与代谢旺盛、激素分泌多有关[12-13];但本研究则认为年龄不是发生CLNM的风险因素,可能与本研究样本量较少、存在统计学偏倚有关,需进一步扩大样本量进行研究。病灶直径>10 mm时,更容易发生CLNM,原因可能是此时PTC病灶更容易向甲状腺包膜外生长,侵犯甲状腺包膜,从而侵犯甲状腺包膜内或邻近组织内的淋巴管,故易发生淋巴结转移。但从我们的列线图可以发现,男性在这3个因素中对CLNM的影响最大,这是既往研究没有提及的。
本研究基于支持向量机算法研究了PTC的CT增强多期扫描,发现NP、AP、VP图像的影像组学特征均可预测CLNM;进一步比较发现AP图像的组学特征的预测效能优于其余两期。有研究也认为基于PTC原发灶动脉期的组学特征预测CLNM的效果更好[14],有研究认为基于PTC原发灶平扫期的组学特征预测CLNM的效果明显优于其余两期[15],也有研究认为基于PTC原发灶静脉期的组学特征预测CLNM的效果更好[16]。本研究还将NP、AP及VP三期图像的组学特征结合,发现其预测CLNM的效果得到进一步提高。既往研究证明,基于PTC原发灶的影像组学特征可以预测CLNM,但其敏感度及特异性不平衡,一项预测CLNM的多中心研究结果显示,最优模型的AUC为0.709,相应的敏感度和特异性为0.702、0.636[17];本研究构建了一个结合临床资料、CT征象和组学特征的融合模型,在训练集和测试集中不仅获得较高的AUC(0.897、0.913),还获得了较高的敏感度(0.892、0.875)及特异性(0.857、0.800)。
在本研究中,我们使用最大相关最小冗余来选择特征,因为它可以在分类器中提供更少冗余及更可信的组学特征。最终融合模型纳入了3个一阶特征,1个灰度区域大小矩阵及1个灰度行程矩阵。本研究认为一阶特征在预测CLNM中发挥了重要的作用,既往也有一些研究认为一阶特征虽然能够区分甲状腺良恶性结节,但无法预测有无CLNM[18],也有研究认为基于PTC原发灶提取的一阶特征无法预测淋巴结转移[19-20]。灰度区域大小矩阵及灰度行程矩阵反映的是纹理的一致性,而伴有CLNM的PTC病灶常常因代谢活跃,肿瘤易发生坏死致密度不均,所以本研究纳入的灰度区域大小矩阵及灰度行程矩阵能在一定程度上预测CLNM的发生。
本研究虽然设立了训练集和测试集,但所有样本均来自同一单位,缺少外部验证,模型泛化能力弱;直径<5 mm的肿瘤被排除,研究的样本缺乏全面性;样本量较少,可能会引起模型的过拟合[21-22]。故研究仍需进一步深入观察。
综上,本研究构建的融合模型,在不增加额外扫描时间及费用的前提下,有望对术前评估PTC 患者CLNM提供有效的辅助手段。