影像组学对肺腺癌表皮生长因子受体突变状态的预测价值
2021-05-13俞咏梅周运锋朱浩雨谢红湾
吴 琦,俞咏梅,周运锋,朱浩雨,谢红湾
(皖南医学院第一附属医院 弋矶山医院 影像中心,安徽 芜湖 241001)
目前,肺癌已成为世界上发病率和病死率最高的恶性肿瘤,腺癌是其最常见的病理类型[1]。由于部分肺腺癌患者确诊时已为晚期以及肺腺癌易复发的特性,传统治疗手段并不一定能达到理想效果[2]。随着精准医疗的发展,人们发现表皮生长因子受体(epidermal growth factor receptor,EGFR)是肺腺癌最常见的驱动基因[3],酪氨酸激酶抑制剂(tyrosine kinase inhibitor,TKI)的成功应用,开启了晚期肺腺癌靶向治疗的时代[4]。靶向药物能有效提高基因敏感突变患者的生存率,改善生活质量,但使用靶向药物治疗前,通常要进行有创性基因检测。大量研究发现,影像组学通过定量分析图像中的海量高维数据,可以无创性地反映肿瘤内部信息[5-6],从而预测肿瘤基因的表达[7]。本研究旨在探讨基于CT平扫肺窗图像的影像组学模型预测肺腺癌EGFR突变的可行性。
1 资料与方法
1.1 一般资料 回顾性分析2016年6月~2019年6月弋矶山医院确诊的156例有EGFR基因检测结果的肺腺癌患者资料,其中EGFR突变型104例,男40例,女64例,平均年龄(62.68±12.65)岁;EGFR野生型52例,男38例,女14例,平均年龄(60.33±12.05)岁。所有病例随机分为训练集和验证集,其中训练集共110例,EGFR突变型73例,野生型37例;验证集共46例,EGFR突变型31例,野生型15例。
纳入标准:①穿刺活检或手术病理明确诊断为肺腺癌,且对病理组织行EGFR基因检测;②均行常规胸部CT平扫检查,且图像清晰;③入组前患者均未行任何抗肿瘤治疗。排除标准:病灶过小,无法提取完整的影像组学特征(即缺失值过多)。
1.2 CT扫描方法 采用Toshiba Aquilion16层螺旋CT行胸部平扫检查,患者取仰卧位,双手上举,深吸气后摒气扫描,扫描范围从胸廓入口至肺底。扫描参数为:管电压120 kV,管电流250 mA,螺距5 mm,矩阵 512×512,层厚5mm,层间距5 mm,窗宽1 200 HU,窗位-600 HU。
1.3 图像分割、图像预处理及特征提取 由影像科A医生(3年胸部影像诊断经验)将肺窗图像导入ITK-SNAP处理软件,沿病灶轮廓全层勾画并融合成三维容积感兴趣区(volume of interest,VOI),避开周围血管、支气管等(图1)。 把所有原始图像及含VOI的图像导入AK(Analysis-Kinetics,version 3.2.0,GE healthcare)分析软件进行Z-score标准化,来降低不同特征之间的维度差异、灰度差异等。从标准化后的图像中提取出6大类共396个特征,分别为直方图特征、形态学特征、灰度共生矩阵特征、灰度游程长度矩阵特征、灰度联通大小矩阵特征及基于共生矩阵的纹理特征。
A.EGFR突变型肺腺癌CT平扫图像;B.沿病灶边缘全层勾画VOI;C.融合成VOI;D.EGFR野生型肺腺癌CT平扫图像;E.沿病灶轮廓全层勾画VOI;F.融合成VOI。
按照上述方法,再随机选取30例病例由A医生和影像科B医生(11年胸部影像诊断经验)分别重新勾画VOI,得到相应的影像组学特征,进行观察者间的重复性评估。
1.4 影像组学特征筛选及观察者间重复性评估 使用R语言软件(vesion 3.5.1)对提取的影像组学特征进行筛选。先使用最大相关最小冗余(maximum relevant minimum reduandency,mRMR)算法对特征进行排序,保留前15个影像组学特征。再采用最小绝对收缩和选择算子(least absolute shrinkage and selection operator,LASSO)算法及十折交叉验证对影像组学特征进一步降维(图2),获得最佳影像组学特征,根据线性拟合方程构建影像组学标签,计算影像组学得分。使用筛选后的影像组学特征构建多因素logistic回归模型。
A.LASSO降维示意图;B.基于最低标准的十折交叉验证示意图。保留B图中垂直的黑色虚线定义的最优值λ值对应A图中同位置的黑色虚线所选择的11个特征。
通过计算组间相关系数(intraclass correlation coefficient,ICC)来评价观察者之间的重复性。ICC>0.75为一致性很好。
2 结果
2.1 观察者间的重复性评估及特征筛选结果 A、B两位医生重复勾画VOI得到的ICC为0.90(95%CI:0.76~0.96),>0.75,一致性较好。
提取的396个影像组学特征经多重筛选后获得11个最佳特征(表1),权重见表1、图3。将最佳特征与对应加权系数的乘积线性组合后获得每位患者的影像组学标签。
表1 11个最佳影像组学特征
横坐标为特征所占权重,纵坐标对应不同影像组学特征,峰度、集群突出-全方向-补偿4、集群阴影-45角度-补偿7三者所占权重最大。
2.2 效能评估及验证 预测模型的ROC曲线见图4,训练集AUC为0.83(95%CI:0.74~0.91),特异度、灵敏度分别为83.8%(31/37)、71.2%(52/73);验证集AUC为0.81(95%CI:0.66~0.96),特异度、灵敏度分别为73.3%(11/15)、87.1%(27/31),具有较好的预测效能。校准曲线结果显示,预测模型在训练集与验证集中红色虚线与对角线基本保持一致,表明模型的预测值与观测值之间具有较好的校准度,一致性较好(图5)。
A.训练集模型的AUC为0.83,预测效能较好;B.验证集模型的AUC为0.81,内部验证效能较好。
A.训练集;B.验证集。红色虚线与对角线基本保持一致,表明模型的预测值与观测值之间具有较好的校准度。
3 讨论
目前关于EGFR突变肺腺癌的治疗研究已表明使用分子靶向治疗后,EGFR敏感突变阳性患者较非突变患者呈现出明显的生存优势[8-9],故确定肺腺癌患者EGFR基因是否突变是临床采用靶向治疗的首要前提。病理基因检测是评估驱动基因状态的金标准,但侵入性的活组织检测费用昂贵,有时取材过小,需重复进行有创检查,给患者增加负担。
在精准医疗背景下,影像组学成为近年来影像学研究的新热点。既往大量研究表明[10-12],影像组学特征能够反映肿瘤基因的表达模式。本研究获得的11个影像组学特征,包括形态学特征、直方图特征、纹理特征和灰度游程矩阵特征,对预测肺腺癌EGFR突变具有较好的效能。形态学特征主要反映病变的形状与几何特性等,EGFR突变型肺腺癌与野生型的生长方式不同,突变型病变的紧致性高于野生型,即突变型肺腺癌形态更规则,而野生型更多表现出深分叶的特点[13-14],因此形态学特征有所不同。直方图特征反映图像中体素的分布,描述纹理的粗糙、规则性等;纹理特征和灰度游程矩阵特征描述的是灰度分布的均匀程度及纹理粗细复杂度等,以上特征主要反映病变的异质性,可通过肿瘤的密度变化等影像征象体现出来。本研究结果显示反映直方图特征的峰度和纹理特征的集群突出物与集群阴影所占权重最大,对鉴别肺腺癌EGFR突变型与野生型具有重要的贡献。峰度主要描述灰度分布的平坦度,集群突出物与集群阴影主要描述灰度分布的不对称性。有文献显示EGFR突变型肺腺癌较野生型CT图像的纹理沟纹浅、灰度整体分布较均匀[15];Lee等[16]报道EGFR突变型肺癌的磨玻璃密度影的体积百分比高于EGFR野生型。因此直方图特征、纹理特征和灰度游程矩阵特征可以预测肺腺癌EGFR突变状态。本研究通过分析影像组学特征,构建影像组学模型,训练集AUC为0.83,说明影像组学模型能有效鉴别EGFR突变型与野生型肺腺癌;验证集AUC为0.81,进一步验证了模型的效能。结果表明,影像组学与基因组学结合能够有效预测肺腺癌EGFR基因突变,从而为临床使用靶向药物治疗的决策提供新的辅助手段。
本研究存在一些局限性:①本研究是回顾性研究,样本量较小,结果可能存在偏倚;②只探讨了影像组学模型的预测效能,未来将加入临床及影像资料进行深入研究;③未进行外部验证评估预测模型在新的临床场景中的泛化能力。
综上所述,基于CT平扫肺窗图像的影像组学特征构建的逻辑回归模型能够有效预测肺腺癌EGFR突变状态,指导临床选择靶向药物治疗,有利于个体化精准医学的实现。