不同影像组学标签诊断早期肺腺癌侵袭性的比较研究

2019-11-12唐玉洪郑嘉祺孙希文艾自胜

同济大学学报(医学版) 2019年5期

唐玉洪，郑嘉祺，王焕，王斌，孙希文，艾自胜

(1. 同济大学医学院医学统计教研室，上海 200092； 2. 同济大学附属上海市肺科医院影像科，上海 200433)

磨玻璃结节(ground glass nodule, GGN)主要指在CT上表现为云雾状的薄影/圆形结节。研究[1]发现，GGN以肺腺癌(lung adenocarcinoma, LUAD)居多。肺癌按照组织学分为小细胞肺癌和非小细胞肺癌，肺腺癌属于非小细胞肺癌[2]。它主要生长于肺边缘小支气管的黏液腺，可以有腺泡、乳头、细支气管肺泡或实性生长方式[2]。2015年世界卫生组织将肺腺癌的病理类型重新划分为：非典型腺瘤样增生(atypical adenomatous hyperplasia, AAH)、原位癌(adenocarcinoma in situ, AIS)、微小浸润腺癌(minimally invasive adenocar-cinoma, MIA)和浸润性腺癌(invasive adenocar-cinoma, IA)[1，3-4]。浸润前病变包括原位腺癌和非典型腺瘤样增生，浸润病变包括微小浸润腺癌和浸润性腺癌。GGN的侵袭性直接影响到患者的术后无病生存期[5]。影像组学是提取大量可以表征图像内部特征的医学图像技术[6]。目前，病理检查依旧是诊断肺腺癌的金标准。利用影像组学可以实现非侵入式诊断疾病，既往研究的2D图像特征仅从水平面提取。单一平面提取的2D影像组学特征无法全面描述整个瘤体特征，并且不同模型构建的影像组学标签可能存在差异性。本研究将从水平面、冠状面、矢状面3个不同视图分别提取影像组学特征结合不同机器学习模型构建影像组学标签，探讨其对GGN侵袭性的评估价值。

1 资料与方法

1.1 一般资料

本研究回顾性分析同济大学附属上海市肺科医院2013年11月—2018年9月经手术石蜡病理证实为肺腺癌，CT上表现为GGN的患者。纳入标准： (1) 患者手术前1个月内有薄层CT；(2) 对于多发病灶，术后病理结果可以与CT图像对应；(3) 病灶直径≤3cm；(4) CT层厚为≤2mm；(5) 经过手术病理证实为早期肺腺癌；(6) 薄层CT上无明显空洞。排除标准： (1) 患者术前已经进行过肺部手术；(2) 患者CT存在伪影或影像质量不符合要求；(3) 患者CT部分序列层丢失，重建图像不完整；(4) 患者病灶过小，无法有效提取影像特征。根据PASS 11.0软件(美国NCSS公司)，在AUC(area under the curve)取0.8下，研究所需样本量为208例(δ为0.1，α为0.05，β为0.10)。根据入选排除标准后，研究共纳入患者220例，磨玻璃结节222例。其中，不典型增生32例，原位癌65例，微浸润腺癌55例，浸润性腺癌70例。从病例报告系统中收集患者的年龄、性别、家族史、婚姻情况、高血压史、糖尿病史、冠心病史、既往肿瘤史、吸烟饮酒史等临床信息。

1.2 CT扫描方案

CT扫描均使用西门子64排或飞利浦40排螺旋CT。扫描参数：螺距1.2，扫描显示野350mm，矩阵512×512，准直宽度128mm×0.6mm，管电流150～200As；扫描层厚5mm，重建层厚1mm或 2mm；扫描方法：均取患者仰卧位、双臂上举、头部先进，扫描范围为肺尖到肺底，包括腋窝及两侧锁骨上区。

1.3 图像处理分析

所有的Dicom图像均导入开源软件3D Slicer 4.8.1(URL： https：∥www.slicer.org/)。由2名放射科医生进行VOI(volume of interest)区域标注，并保存为NIFTI格式。分别从VOI区域的水平面、冠状面和矢状面3个视图的中间层面提取影像组学特征。使用Python语言对中间层面ROI(region of interest)区域进行高斯滤波降噪，利用大律法(Otsu法)和连通区域法对病灶进行自动化分割提取。通过灰度直方图法，每个视图提取13个组学特征；灰度共生矩阵法(grey level co-matrix, GLCM)，选取0°、45°、90°和135°的方向，每个视图每个方向提取21个GLCM特征；通过灰度行程矩阵(grey level run length matrix, GLRLM),选取0°、45°、90°和135°的方向，每个视图每个方向提取11个GLRLM特征；利用灰度区域大小矩阵(grey level size zone matrix, GLSZM)，每个视图提取11个特征；利用多重灰度区域大小矩阵(multiple grey level size zone matrix, MGLSZM)，每个视图提取11个特征。最终影像组学特征用2名放射科医生标注ROI区域所提取特征的均值代替。每个视图共提取163个影像组学特征，3个视图共提取了489个影像组学特征。

1.4 统计学方法

使用Python编程语言3.6(http：∥www.python.org)和R编程语言3.5.3(http：∥www.R-project.org)进行图像分割、影像组学特征提取、统计学分析和模型建立。影像组学标签1采用3个视图单模型构建(least absolute shrinkage and selection operator,LASSO回归模型)，影像组学标签2、3、4分别采用冠状面视图多模型构建LASSO回归模型、梯度提升决策树模型(gradient boosting decision tree, GBDT)和朴素贝叶斯模型(naive Bayes))，影像组学标签5采用矢状面视图单模型构建(GBDT模型)，影像组学标签6采用水平面视图单模型构建(朴素贝叶斯模型)。采用Wilcoxon检验(WLCX)、Pearson相关检验和Relief特征选择法进行降维。采用LASSO回归、GBDT和朴素贝叶斯构建GGN侵袭性分类模型。采用分层随机抽样的方式选取75%的数据作为训练集，25%的数据作为验证集。采用10折交叉验证法进行分类器模型参数调优。不同视图间影像组学特征差异性分析采用Friedman检验。两组间差异性比较采用t检验、χ2检验或Fisher精确检验。ROC曲线差异性分析采用Delong检验。P<0.05表示差异有统计学意义。

2 结果

2.1 患者基本信息

220名患者中，男性64名，女性156名。浸润前病变组和浸润性病变组间年龄和糖尿病史差异有统计学意义(P<0.05)，见表1。

表1 肺腺癌患者基本临床特征

注： —，Fisher精确检验，无统计量

2.2 全视图单模型影像组学标签建立

全视图单模型影像组学标签采用水平面、冠状面和矢状面3个视图影像组学特征，通过WLCX+ LASSO模型来构建(影像组学标签1)。共有353个影像组学特征通过Wilcoxon检验(P<0.05)。采用Pearson相关检验剔除高度相关自变量，以相关系数0.6为阈值，共有332个影像组学特征存在相关性。剩余21个影像组学特征纳入LASSO模型进行影像组学标签1的构建。LASSO模型结果显示，仅有11个影像组学特征用于构建影像组学标签1。影像组学标签1的诊断准确率和Kappa值见表2，AUC面积见图1。

2.3 单视图多模型影像组学标签建立

单视图多模型影像组学标签采用冠状面视图影像组学特征，分别通过WLCX+LASSO、WLCX+GBDT和Relief+朴素贝叶斯3个模型来构建(影像组学标签2、影像组学标签3和影像组学标签4)。对于影像组学标签2和影像组学标签3，有126个特征通过Wilcoxon检验，在GGN浸润前和浸润性病变两组间存在差异(P<0.05)。以0.6的相关系数为阈值，73个特征被纳入LASSO回归模型用于构建影像组学标签2。126个特征全部纳入GBDT模型构建影像组学标签3。影像组学标签4共有76个特征的Relief评分大于0.02，这76个特征全部纳入朴素贝叶斯模型用于构建影像组学标签4。3个影像组学标签具体准确率和Kappa值见表2，AUC面积见图1。

2.4 多视图多模型影像组学标签建立

每个视图共提取了163个影像组学特征。有69个特征在不同视图下差异具有统计学意义(P<0.05，Friedman检验)。

影像组学标签5采用矢状面影像组学特征，结合WLCX+GBDT模型来构建。共有103个影像特征在结节浸润前和浸润性病变组间差异具有统计学意义(P<0.05)，其中，GBDT选择了71个特征用于构建影像组学标签5。模型准确率和Kappa值见表2，AUC面积见图1。影像组学标签6采用水平面影像组学特征，结合Relief+朴素贝叶斯模型来构建。通过Relief特征选择法后，选取权重>0.02的特征，共有78个特征被纳入之后的朴素贝叶斯分类模型中。模型准确率和Kappa值见表2，AUC面积见图1。

表2 影像组学标签准确率

2.5 影像组学标签差异性分析

影像组学标签1～6分别是不同视图结合不同模型构建的用于预测GGN侵袭性的诊断指标，本研究采用各模型的预测概率作为影像组学标签的值。图1为6个影像组学标签在全集、训练集和验证集上的AUC面积及其95%CI。从图1中看出影像组学标签1～6在全集和训练集上的AUC面积和95%CI下限都超过了0.8。在全集、训练集和验证集上，影像组学标签5的AUC面积最高；在验证集上，基于朴素贝叶斯模型的影像组学标签4和影像组学标签6相较于其他影像组学标签而言，AUC面积较低(图1)。

对于LASSO回归模型而言，全视图影像组学特征与冠状面视图影像组学特征的AUC面积在全集、训练集和验证集上差异无统计学意义(P>0.05)，见图2。同一视图下，不同模型构建的影像组学标签AUC面积存在差异；在全集和训练集上，影像组学标签3的AUC面积大于影像组学标签2和影像组学标签4(P<0.05)，见图3。不同视图下，不同模型构建的影像组学标签在全集和训练集下的AUC面积也存在差异，影像组学标签5的AUC面积>影像组学标签2与影像组学标签6(P<0.05)，见图4。不同视图下，GBDT构建的影像组学标签在全集和训练集也存在差异(P<0.05)，影像组学标签5的AUC面积大于影像组学标签3。影像组学标签5在GGN浸润前与浸润性组间差异具有统计学意义(W=64，P<0.05)，在验证集上AUC面积为0.914(95%CI： 0.836～0.992)，灵敏度为79.17%，特异度为90.32%。

图1 影像组学标签在全集、训练集和验证集下AUC面积与95%CIFig.1 The forest plot of AUC and 95%CI of radiomics signature scores in full dataset, training set and validation set

图2 全视图与单视图影像组学标签AUC面积差异性比较Fig.2 The difference of AUC between radiomics signature scores in full view and coronal plane 注：图2为影像组学标签1与影像组学标签2在全集、训练集和验证集下的ROC曲线，其AUC面积及95%CI见图1

图3 冠状面视图下不同模型构建的影像组学标签AUC面积差异性比较Fig.3 The difference of AUC among radiomics signature scores in coronal plane注：图3为影像组学标签2、影像组学标签3与影像组学标签4在全集、训练集和验证集下的ROC曲线，其AUC面积及95%CI见图1；P12为影像组学标签2 vs影像组学标签3；P13为影像组学标签2 vs影像组学标签4；P23为影像组学标签3 vs影像组学标签4

图4 不同视图下不同模型构建的影像组学标签AUC面积差异性比较Fig.4 The difference of AUC among radiomics signature scores in different views注：图4为影像组学标签2、影像组学标签5与影像组学标签6在全集、训练集和验证集下的ROC曲线，其AUC面积及95%CI见图1；P12为影像组学标签2 vs影像组学标签5；P13为影像组学标签2 vs影像组学标签6；P23为影像组学标签5 vs影像组学标签6

3 讨论

本研究发现： (1) 不同视角下，69个影像组学特征差异具有统计学意义。(2) 同一视图下，GBDT模型构建的影像组学标签在全集和训练集的AUC面积与LASSO回归模型、朴素贝叶斯模型构建的影像组学标签的AUC面积差异具有统计学意义。GBDT构建的影像组学标签准确率和Kappa值最高。(3) 不同视图下，GBDT构建的影像组学标签在全集和训练集上的AUC面积差异具有统计学意义。矢状面视图构建的影像组学标签5的AUC面积大于冠状面视图构建的影像组学标签3。

医学图像拥有着非侵入地评估组织特征的能力，因此它在癌症诊断中起着重要作用。近年来，影像组学研究表明其在癌症的良恶性、临床分期、病理亚型、远距离淋巴结转移和患者术后预后预测等方面都有着良好的效果[7-12]。本研究主要探讨不同CT视角下提取的图像特征组合多个机器学习模型在GGN肺腺癌亚型的侵袭性上的预测效果。尽管影像组学研究的对象都有不同，但是不同的特征选择方法和分类器模型构建的影像组学标签在同一研究对象上都会存在差异性。平均CT值、CT形态学特征和影像组学标签在GGN肺腺癌侵袭性或病理亚型分类上都存在诊断价值[13-17]。影像组学标签相比较于CT形态学特征而言，它更具有客观性，图像量化的特征可以排除人为的主观因素。范丽[15]等的研究表明，影像组学标签结合临床特征和CT形态学特征的个体化预测模型诊断效果优于传统CT值和单独的影像组学标签。但是She等[18]发现，年龄并不是AIS/MIA和IA分类的独立预测因素。GGN侵袭性影像组学的研究中，WLCX、LASSO和Logistic回归是最常用构建影像组学标签的方法。研究最初提取了60到500个影像组学特征，最后通过WLCX和LASSO筛选后，用于构建影像组学标签的特征仅有1～8个[15，18-22]。Parmar等[23]和Wu等[24]的研究发现，在肺癌的生存预后和非小细胞肺癌的病理亚型分类问题上，随机森林的预测能力最好，但是Relief特征选择和贝叶斯模型相结合的算法的稳定性最高。本研究没有计算模型的稳定性，但是就预测效果而言基于树的集成学习模型预测效果最好，与Parmar等[23]和Wu等[24]的研究结果一致。LASSO模型由于惩罚项选择的差异性，可能会损失大量的信息。而朴素贝叶斯在高维度问题上一直有着良好的预测能力，但是效果仍不及集成学习的方法。

本研究属于回顾性队列研究，因此存在一些不可控因素，而前瞻性研究可以控制例如CT的扫描参数、图像重建方法等因素。同时，本研究只提取了2D的影像组学特征，只能表征一个切面上的特性，切面选择不同会导致研究结果的差异性。本研究采用了大律法自动化分割结节，大律法自动分割减轻了结节提取的工作量，但是目前手工分割仍然是结节分割的金标准。由于样本量较小，本研究没有采用深度学习的方法构建影像组学标签。深度学习方法在图像识别上有着非常好的预测能力，但是其参数调节过于复杂，并且在小样本上泛化能力较低，容易产生过拟合现象。

总体而言，2D影像组学特征容易受到提取切面的影响，本研究证明了不同视角提取的影像组学特征存在差异性。对比LASSO回归模型，GBDT模型对冗余特征不敏感，而且在非线性可分的数据上预测效果更好。由矢状面视图结合GBDT构建的影像组学标签在所有影像组学标签中，AUC面积最高，诊断效能最好。今后将进一步增大样本量，采用多中心前瞻性队列研究的方法，并且提取3D影像组学特征融合多视图学习的方法来构建GGN侵袭性影像组学标签。