CT影像组学模型预测靶向药物治疗表皮生长因子受体基因突变非小细胞肺癌患者预后
2022-10-24白彪胜王紫君刘玉林
胡 奎,张 娴,白彪胜,王紫君,蔡 茜,刘玉林*
(1.华中科技大学同济医学院附属肿瘤医院 湖北省肿瘤医院放射科,4.胸部肿瘤内科,湖北 武汉 430079;2.芜湖市繁昌区人民医院影像中心,安徽 芜湖 241200;3.中南民族大学生物医学工程学院,湖北 武汉 430074)
在我国,肺癌占癌症发病率和死亡率之首[1]。表皮生长因子受体 (epidermal growth factor receptor, EGFR)-酪氨酸激酶抑制剂(tyrosine kinase inhibitors, TKI)对携带EGFR基因突变的非小细胞肺癌(non-small cell lung cancer, NSCLC)的治疗效果优于以铂类药物为基础的化学治疗[2]。目前主要依赖于放射学检查评估靶向药物疗效。既往研究[3-5]表明,影像组学对评估免疫治疗、放射治疗等对于肺癌的疗效和预测淋巴结转移、预后等均具有重要应用价值。本研究探讨基于增强CT构建的影像组学模型预测靶向药物治疗EGFR基因突变NSCLC患者预后的可行性。
1 资料与方法
1.1 一般资料 回顾性分析2014年1月—2016年12月湖北省肿瘤医院86例经病理证实存在EGFR基因突变NSCLC患者,男34例、女52例,年龄34~76岁、平均(57.7±10.0)岁;临床分期ⅢB 期3例、Ⅳ期83例;确诊后分别接受吉非替尼(n=45)、埃克替尼(n=27)及厄洛替尼治疗(n=14);其中62例无进展生存期(progression free survival, PFS)>6个月,24例PFS≤6个月。纳入标准:①经病理证实原发性NSCLC且存在EGFR基因突变;②确诊后未经其他抗肿瘤治疗;③临床及影像学资料完整。排除标准:①合并其他系统原发性恶性肿瘤;②病灶最大径小于10 mm。
1.2 仪器与方法 采用GE Revolution EVO、GE LightSpeed VCT、Siemens SOMATOM Definition As+ CT机。嘱患者平卧,双臂上举,足先进,于吸气后憋气接受扫描,扫描范围自肺尖至下肋膈角;参数:管电压100~120 kV,自动毫安管电流,矩阵512×512,重建图像层厚及层间距均为5 mm。完成平扫后,采用双筒高压注射器经肘静脉以流率1.8~2.5 ml/s注射对比剂碘海醇(350 mgI/ml)60~80 ml,延迟35~45 s行增强扫描。
1.3 提取特征 存储DICOM格式图像,以双线性内插法进行重采样处理,重采样层厚、层间距均为1 mm,以nii格式保存并导入ITK(https://www.itksnap.org,Version 3.8.0)软件。由医师1(具有5年工作经验)手动于肺窗(窗宽2 000 HU,窗位-600 HU)图像中勾画病灶ROI,对多发病灶患者在尽可能规避含肺不张病灶的前提下选取其中最大病灶,并生成三维ROI;由医师2(具有8年工作经验)复核[6],见图1。以开源pyradiomics包对每个病灶提取396个特征,包括42个直方图强度特征、9个形状特征、10个Haralick特征,以及11个灰度区域大小矩阵、144个灰度共生矩阵和180个灰度游程长度矩阵。
图1 于肺窗CT图像中手动勾画病灶ROI示意图 A~C.分别为轴位(A)、冠状位(B)、矢状位(C)肺窗CT图; D.根据 A~C生成的病灶三维ROI
1.4 数据预处理及特征选择 首先删除样本中方差为0的特征,以中位数填充替代缺失值;而后对396个特征进行Z-score归一化处理。采用主成分分析(principal components analysis, PCA)进行特征降维,获得396个新的维度特征,选取其中可解释方差值居前23位者(图2),计算累积可解释方差为94.35%(即23个新特征具备396个初始特征的94.35%信息)。
1.5 建立预测模型 将患者按7∶3比例随机分入训练集(n=59, 16例PFS≤6个月、43例PFS>6个月)和测试集(n=27,8例PFS≤6个月、19例PFS>6个月)。由医师1对比观察治疗前后肺部增强CT图像,根据实体瘤疗效评价标准(respond evaluation criteria in solid tumors, RECIST)1.1评估肿瘤是否进展并计算PFS。
以“0”为PFS≤6个月的标签,“1”为PFS>6个月的标签。经PCA降维后,训练集和测试集样本的23个新特征值热图见图3。将训练集23个特征输入训练模块,得到逻辑回归模型。
图3 PCA降维后训练集和测试集样本特征值热图 A.训练集,共59行23列,对应59个样本的23个维度特征值; B.测试集,共27行23列,对应27个样本的23个维度特征值
1.6 统计学分析 采用SPSS Version 26.0.0.0统计分析软件。以±s表示计量资料,行t检验;采用χ2检验比较计数资料。分别采用受试者工作特征(receiver operating characteristic, ROC)曲线、校准曲线、影像组学评分瀑布图及决策曲线评价上述模型评估患者预后的价值。P<0.05为差异有统计学意义。
2 结果
训练集与测试集患者性别、年龄、临床分期、靶向治疗药物及PFS差异均无统计学意义(P均>0.05),见表1。
表1 训练集与测试集患者资料比较
ROC曲线显示,以维度特征构建的逻辑回归模型评估训练集、测试集患者预后(PFS≥6个月)的曲线下面积(area under the curve, AUC)分别为0.923、0.849;训练集和预测集校准曲线与理想模型的对角线均较为接近;影像组学评分瀑布图显示测试集的阴性预测率为100%,阳性预测率为86.36%;决策曲线显示训练集和测试集在0.20~0.90阈概率范围内有很好的净获益。见表2和图4。
图4 逻辑回归模型评估EGFR基因突变NSCLC患者经靶向治疗后预后的曲线 A~D.分别为训练集ROC曲线、校准曲线、影像组学评分瀑布图和决策曲线; E~H.分别为测试集ROC曲线、校准曲线、影像组学评分瀑布图和决策曲线
表2 逻辑回归模型评估训练集及测试集EGFR基因突变NSCLC患者经靶向治疗后预后的效能
3 讨论
EGFR基因是已知NSCLC突变基因中最常见者之一,针对其进行靶向治疗已成为治疗NSCLC的重要方法[7]。一项荟萃分析[8]结果表明,存在EGFR基因敏感突变的NSCLC患者接受一线靶向治疗后PFS为10.19~15.93个月,6个月无疾病进展率为83%;但靶向治疗耐药率较高,且部分存在EGFR基因突变NSCLC患者对靶向治疗不够敏感。LEONETTI等[9]指出,肿瘤分子高度异质性是其对靶向药物发生耐药并导致疗效存在个体差异的重要原因。目前评估肿瘤异质性及疗效主要依靠反复进行穿刺活检进行组织病理学检查,但其有创,可能导致并发症,且患者依从性较低。既往研究[10]表明,利用影像组学分析可评估肿瘤异质性,亦可鉴别存在突变型与野生型EGFR基因的NSCLC[11]。
AERTS等[12]纳入47例存在EGFR突变的早期 NSCLC患者,根据单药吉非替尼靶向治疗前后平扫CT图像中的183个组学特征的差异值建立模型,其预测疗效的AUC>0.74。YOUSEFI等[13]基于40例接受靶向治疗NSCLC患者的肺部CT图像提取影像组学特征,并联合循环肿瘤DNA(circulating tumor DNA, ctDNA)结果及临床因素构建COX回归模型,其评估总生存期和PFS的AUC分别为0.83和0.77。TANG等[14]针对273例接受靶向治疗的EGFR突变晚期NSCLC患者观察逐步回归模型联合临床模型预测靶向治疗后PFS的价值,发现其AUC为0.755。
本研究以接受靶向治疗的存在EGFR基因突变的Ⅲ~Ⅳ期NSCLC患者为研究对象,提取其治疗前肺部增强CT影像组学特征,以PCA对特征进行降维,获得新的维度特征并构建逻辑回归模型,观察其预测患者预后的价值。测试集ROC曲线显示,逻辑回归模型评估预后(PFS≥6个月)的AUC为0.849;校准曲线与理想模型的对角线均较为接近,提示预测概率与实际结果相近;影像组学评分瀑布图显示,测试集中该模型对PFS≤6个月的病例全部预测正确,阴性预测率为100%,阳性结果中3例PFS≤6个月为误预测,阳性预测率为86.40%;决策曲线显示训练集和测试集在0.20~0.90范围阈概率内有很好的净获益,表明该模型应用价值较好。本研究所获逻辑回归模型评估预后的效能优于YOUSEFI等[13]的COX回归模型及TANG等[14]的联合模型,可能原因在于本研究样本量相对较大,且资料来源于性能较为接近的3台64排CT,扫描参数差异更小。
本研究的局限性:①样本量有限;②采用交互式方法分割三维图像,工作量大且稳定性欠佳;③基于较平扫CT图像包含更多病灶信息的增强CT图像,便于勾画病灶,但存在强化差异,可能影响最终结果。
综上所述,基于CT增强图像的逻辑回归模型可用于预测EGFR基因突变NSCLC患者经靶向药物治疗后的预后。