APP下载

机器学习鉴别表现为肺纯磨玻璃结节的浸润性腺癌与非浸润性腺癌

2020-04-02蔡俊辉段绍峰吴雅蔚

中国医学影像技术 2020年3期
关键词:勾画实性组学

蔡俊辉,段绍峰,袁 虎,吕 燕,吴雅蔚,许 晴,叶 靖*

(1.大连医科大学研究生院,辽宁 大连 116044;2.苏北人民医院放射科,江苏 扬州 225000;3.GE医疗,上海 210000)

随着高分辨率CT的广泛应用和胸部低剂量CT筛查的普及,肺磨玻璃结节(ground-glass nodule, GGN)的检出率日益提高[1]。根据其是否存在实性成分,GGN又可分为纯磨玻璃结节(pure ground-glass nodule, pGGN)和部分实性GGN。持续存在的pGGN大多是浸润前病变[包括不典型腺瘤样增生和原位腺癌(adenocarcinoma in situ, AIS)]或微浸润性腺癌(minimally invasive adenocarcinoma, MIA)[2],但部分浸润性腺癌(invasive adenocarcinoma, IAC)CT亦可表现为pGGN,肉眼很难与MIA、AIS区分。文献[3]报道ⅠA期IAC患者5年无病生存率为74.6%,而AIS和MIA手术完全切除后患者5年无病生存率为100%。术前区别浸润性腺癌与非浸润性腺癌不仅可减轻患者心理负担,倾向IAC时,还可尽早干预并改善预后。影像组学用于辅助诊断疾病、评估疗效及预后,可帮助临床决策[4]。本研究观察采用机器学习方法鉴别表现为pGGN的IAC与非IAC的可行性。

1 资料与方法

1.1 一般资料 收集2016年9月—2018年12月苏北人民医院经手术病理证实为肺腺癌的患者。纳入标准为:①术前接受CT平扫检查,肺窗(窗宽1 500 HU、窗位-600 HU)发现pGGN,纵隔窗(窗宽 400 HU、窗位30 HU)其内无钙化及实性成分;②图像质量好,无运动及呼吸伪影,与纵隔或胸膜无粘连;③拥有完整薄层重建图像,5 mm

1.2 仪器与方法 采用GE Light Speed VCT及GE Discovery CT 750HD进行图像采集。嘱患者仰卧,从肺尖扫描至后肋膈角。扫描参数:管电压 120 kV,自适应管电流,螺距 0.984∶1,旋转时间0.6 s,FOV 400 mm×400 mm,层厚及层间距均为5 mm,重建层厚1.25 mm。由1名具有5年胸部影像学诊断经验的医师在不知晓病理结果的情况下使用ITK-SNAP 3.8.0软件沿病灶边缘尽量避开周围大血管与支气管手动逐层勾画ROI;再由1名从事胸部诊断20年以上的主任医师确认分割结果(图1~3)。最终软件自动生成整个病灶的三维容积感兴趣区(volume of interest, VOI),以NiFTI格式将其导出并保存。

图2 患者女,42岁,左肺下叶MIA A.薄层肺窗; B.薄层纵隔窗; C.手动勾画的ROI(蓝色区域) (箭示要勾画区域)

图3 患者女,37岁,右肺下叶IAC A.薄层肺窗; B.薄层纵隔窗; C.手动勾画的ROI(黄色区域) (箭示要勾画区域)

1.3 数据预处理与特征提取 先将原始图像(DICOM格式)及VOI(NiFTI格式)分别导入GE A.K.(Artificial Intelligent Kit)软件进行图像预处理,包含重采样(resample)、降噪(denoising)和亮度标准化(intensity standardization);随后将预处理后图像重新导入A.K.软件,软件自动获取包括直方图特征(histogram features)、形态学特征(form factor features)、灰度共生矩阵特征(GLCM features)及基于灰度共生矩阵的Haralick特征、游程矩阵特征(RLM features)和灰度连通区域矩阵特征(GLSAZM features),共396个特征参数。

1.4 特征筛选与统计学分析 由A.K.软件内置R语言算法自动完成特征筛选。数据处理步骤:①以单因素方差分析检验单一变量或指标在不同分类及不同集合之间差异是否有统计学意义,对连续变量使用Mann-WhitneyU检验或t检验,筛选后剩余275个特征;②以Spearman相关性分析进行特征去冗余,剔除自相关性系数大于0.9(∣r∣>0.9)者,剩余89个特征;③以Lasso回归模型通过交叉验证法进行特征降维,选出最具鉴别意义的19个特征。根据样本和特征之间的层级关联性绘制特征热力图,图中小方块深浅颜色对应每个特征下每个样本的z分数(z-score),其定义为:

其中,xI,J是第I个样本的第J个特征。xJ和σJ是第J个特征关于所有样本的均值和标准差。

以此19个特征参数构建随机森林(random forest, RF)、支持向量机(support vector machine, SVM)和逻辑回归(logistic regression, LR)3种机器学习模型。采用十折交叉验证法选择最优模型参数,确定最优模型,测试组内数据,得到各模型的准确率(accuracy);绘制ROC曲线,评价3种模型鉴别IAC与非IAC的效能。P<0.05为差异有统计学意义。

2 结果

2.1 特征参数 经过特征提取和特征筛选,最终得到19个特征参数(表1),其权重见图4,灰度共生矩阵特征中的惯性矩(inertia)所占权重最大。特征热力图(图5)显示相同特征对于IAC与非IAC有较好的区分度。

图4 不同组学特征在机器学习模型中所占权重示意图 横轴柱体的长度代表特征所占权重,纵轴对应不同组学特征

图5 特征热力图 横轴代表不同样本,浅绿色和深绿色分别表示IAC与非IAC,纵轴不同颜色分别代表19个组学特征,图中每个小方块代表不同样本对应的不同特征,颜色越深表示z分数越高

表1 用于构建机器学习模型的19个影像组学特征

2.2 诊断效能 3种机器学习模型组内测试所得的准确率、AUC、敏感度及特异度见表2,ROC曲线见图6。各模型之间AUC差异具有统计学意义(P均<0.05)。

表2 3种机器学习模型的性能比较

图6 3种机器学习模型组内测试ROC曲线图

3 讨论

不同于部分实性结节,pGGN被认为是惰性生长,需要进行长周期随访。受CT扫描层厚及部分容积效应的影响,IAC即使存在>5 mm间质浸润,薄层CT仍可表现为pGGN[2],难以与非IAC区分。既往研究[5-6]认为影像组学特征对表现为pGGN的肺腺癌的侵袭性有较高诊断价值,但国内外有关影像组学研究中,鲜有基于影像组学特征构建机器学习模型鉴别表现为肺pGGN 的IAC与非IAC的报道。本研究将MIA与AIS归为非IAC,且未纳入不典型腺瘤样增生,分组更具临床意义[2-3]。范丽等[7-8]采用相同分组方法,但其研究对象中包含部分实性GGN。2017版Fleischner结节处理指南[9]指出,偶发部分实性GGN较pGGN更倾向于IAC,需要密切随访;临床工作中,考虑患者心理压力,对此类结节多在短期随访无变化后便进行手术治疗。对于偶发pGGN患者,医师往往建议长期随访观察,患者心理也可耐受,故pGGN中尽早发现IAC更具临床价值。

自2012年LAMBIN等[10]提出影像组学概念以来,作为精准医疗中的一种辅助决策工具,影像组学已被证实可用于诊断肿瘤、评估预后、评价疗效及监测复发[4]。影像组学研究的最终目的是利用影像组学标签构建模型,对病灶分类和预测。基于影像组学特征构建的机器学习模型简单易行,是有效实用的分类工具[11],其用于肿瘤分级与分型的可行性已获证实。李小虎等[12]对34例肾透明细胞癌患者进行CT容积纹理分析,构建RF鉴别低级别和高级别肾透明细胞癌,AUC为0.88,敏感度和特异度分别为0.79和0.82,证实基于CT纹理特征的机器学习模型可用于评估肾透明细胞癌的恶性度。林斌等[13]发现SVM构建的预测模型可鉴别肺黏膜相关淋巴组织淋巴瘤与肺IAC。李智慧等[14]分析高分辨率T2WI,构建影像组学模型,验证了RF、决策树、K近邻及LR 4种机器学习模型对直肠良恶性病变具有一定鉴别诊断价值,准确率分别为84.61%、69.23%、84.61%和82.05%。

本研究基于影像组学特征构建SVM、RF、LR 3种机器学习模型,对于鉴别IAC与非IAC均表现出很好的分类性能,其中SVM模型最优,主要得益于SVM对于小样本数据具有更优秀的分类性能[15]。在用于构建机器学习模型的19个影像组学特征中,灰度共生矩阵特征占主要权重(10/19),其中惯性矩(inertia)特征是鉴别IAC与非IAC的最重要的特征。惯性矩反映图像的清晰度和纹理沟槽的深度,对比度与纹理凹槽深度呈正比,凹槽越深,产生的清晰度越高,反之则对比度越小、图像越模糊。IAC和非IAC病理机制不同,前者存在较多浸润成分,使部分肺泡塌陷、肺泡间隔增厚[2],与肿瘤中未受累肺泡组织形成不同深度的纹理沟槽;而非IAC肿瘤细胞多是贴壁式生长[1],密度较淡且均匀,对比度可能不高。影像组学可发挥其独特的优势,在高通量数据中发现肉眼无法分辨的规律。

本研究以2台不同CT机采集图像,并对原始图像和ROI进行重采样、降噪和亮度标准化3步预处理后提取特征,减小了个体化差异及采集误差,保证了数据的可靠性。本研究的主要不足之处在于样本量较少,采用十折交叉验证获得最优模型后,只能重复使用组内数据测试模型的性能。后续将通过多中心研究增加病例数,对模型进行组外验证,以增加结果的可信度。另外,本研究中勾画ROI难以避免主观性和随机性,计划引入计算机半自动勾画联合人工校准,以确保实验的可重复性,减少不必要的人力消耗。

综上所述,基于影像组学特征构建的机器学习模型可有效鉴别表现为肺pGGN 的IAC与非IAC,在不明显增多假阳性的前提下检出IAC,术前辅助医师进行临床决策。

猜你喜欢

勾画实性组学
胰腺实性浆液性囊腺瘤1例
头颈部肿瘤中手工勾画危及器官的组间和组内差异性
影像组学在肾上腺肿瘤中的研究进展
放疗中CT管电流值对放疗胸部患者勾画靶区的影响
超声在诊断甲状腺囊实性结节中的应用
东莨菪碱中毒大鼠的代谢组学
影像组学在核医学影像中的应用进展
蛋白质组学技术在胃癌研究中的应用
CT引导下实性和部分实性肺结节空心针活检的诊断准确性和并发症
乳腺包裹性乳头状癌的超声诊断