CT影像组学联合细胞角蛋白19片段预测EGFR突变阳性非小细胞肺癌患者EGFR-TKIs的疗效
2023-12-25张成孟丁治民陈鹏刘奇峰
张成孟,丁治民,陈鹏,刘奇峰
肺癌是全球第二常见的恶性肿瘤,研究表明2020年我国新发癌症病例数排名第一的为肺癌,约82万人,且肺癌死亡病例数高达71万[1]。PIONEER 研究结果表明,在亚洲人群中,晚期肺腺癌患者的表皮生长因子受体(epidermal growth factor receptor,EGFR) 突变的发生率高达51.4%,且EGFR突变在女性和非吸烟者中更为常见,即使在经常吸烟的人群中这一比例仍有37%[2]。
研究表明,突变的EGFR是表皮生长因子受体酪氨酸酶抑制剂(epidermal growth factor receptor tyrosine kinase inhibitors,EGFR-TKIs)治疗非小细胞肺癌(non-small cell lung cancer,NSCLC)的理想靶点[3]。近年来,随着EGFR-TKIs在临床的推广与使用[4],NSCLC患者的预后得到较大的改善[5]。相比于化疗,EGFR-TKIs治疗的副作用更小,患者的预后更佳。由于EGFR-TKIs的价格比较高,如果用药后无效,不但加重了患者的经济负担,还可能会耽误患者的治疗。因此,预测EGFR突变型NSCLC患者EGFR-TKIs的疗效对指导临床制订准确合理的个体化治疗方案具有相当重要意义。
材料与方法
1.研究对象
回顾性搜集2015年4月-2022年6月在本院诊断为 NSCLC且行EGFR基因检测的患者的CT和临床资料。纳入标准:①原发病灶经活检病理证实为NSCLC且EGFR基因检测为突变阳性的患者;②有完整的临床资料(患者接受靶向治疗前的年龄、性别、肿瘤病理分型、癌胚抗原和细胞角蛋白19片段);③可获得患者靶向治疗前的CT图像;④可获得患者服用EGFR-TKIs 3个月后的CT图像。排除标准:①各种原因导致病灶边缘显示欠清,导致难以准确勾画病灶的ROI;②肺部原发肿瘤己切除。
本研究最初将378例行EGFR基因检测的NSCLC患者纳入总样本,在排除72例EGFR突变阴性、20例临床资料不全、29例病灶边缘难以勾画、63例服用EGFR-TKIs 3个月后CT资料缺失的患者后,最终入组194例。将入组患者按照7∶3的比例随机分为训练集和验证集。
本回顾性研究获得了本院伦理委员会的批准,且豁免了患者知情同意。
2.临床资料的选取
本研究纳入的临床指标包括性别、年龄、肿瘤病理分型、靶向治疗前、后肿瘤最大径、癌胚抗原(carci-noembryonic antigen,CEA)以及细胞角蛋白-19片段(cytokeratin-19-fragment,CYFRA21-1)检测值。治疗前、后肿瘤最大径由2位工作经验分别为5和15年的影像医师在不知晓治疗结果的情况下分别在患者的胸部CT图像上进行测量,取两者测量结果的平均值。当CT平扫图像上肿瘤的边界不清时可参考胸部CT增强图像。以实体肿瘤疗效评价标准1.1(response evaluation criteria in solid tumours,RECIST 1.1)为依据对靶向治疗的效果进行评估,比较患者靶向治疗前及治疗3个月后CT图像上病灶的大小来进行判定,将完全缓解(complete response,CR)和部分缓解(partial response,PR)的患者纳入治疗有效组,病变稳定(stable disease,SD) 和病变进展(pogressive disease,PD)的患者划为治疗无效组(图1、2)。
图1 男性,76岁。a)接受靶向治疗前的CT平扫肺窗图像,肿瘤最大径为38mm;b)接受靶向治疗3个月后的CT平扫肺窗图像,肿瘤最大径为21mm,与治疗前相比肿瘤最大径减少了约45%,符合PR的标准,故该患者被纳入治疗有效组。
3.CT检查方法
所有患者在接受靶向治疗前及治疗3个月之后均进行了胸部CT检查。使用Philips Brilliance 64排螺旋CT 机,患者取仰卧位,扫描参数:120 kV,220 mA,层厚5.0 mm,层距5.0 mm,视野为30 cm×30 cm。对比剂使用碘化醇(300 mg I/mL),剂量1.5 mL/kg,注射流率2.5 mL/s,在对比剂注射后25和40~65 s分别行动脉期和静脉期增强扫描。
4.特征提取及预测模型的建立
将所有患者的胸部CT平扫图像从PACS系统以DICOM格式导入ITK-SNAP 3.8.0软件,并将图像进行匿名化处理。首先由一位影像科医师(具有5年工作经验)在胸部CT肺窗图像(窗宽1500 HU,窗位-500 HU)上沿肿瘤的边缘逐层勾画ROI,注意避开液化和坏死区,对于部分边界欠清的病灶勾画时参考增强图像[6]。最后,融合生成病灶的容积感兴趣区(volume of interest,VOI)。然后,将勾画了ROI的图像导入基于Python 3.6.8编写的开源组学分析平台FeAture Explorer(FAE,v0.5.2,https://github.com/salan668/FAE)进行影像组学特征提取和分析[7]。2周后随机抽取50例患者的CT图像,由这位医师和另外一位影像科医师(具有15年以上工作经验)再次进行ROI的勾画和特征的提取。对两位医师及同一位医师前、后2次提取的特征进行可重复性检验,删除组内及组间相关系数(intra-and inter-class correlation coefficient,ICCs)<0.80的特征,然后将筛选后的影像组学特征进行Z-score标准化处理,以确保数据之间的可比性。
在训练集中使用主成分分析(principal component analysis,PCA)、kruskal-wallis(KW)检验和逻辑回归分析结合最小绝对值收敛和选择算子(logistic regression via least absolute shrinkage and selection operator,LR-LASSO)对影像组学数据进行降维及模型构建,并采用5折法进行交叉验证,以提高模型的稳定性。通过计算每个纳入特征的值×其权重系数再计算总和得出每例患者的影像组学标签值(Radiomic score,Radscore)。
将组间比较差异有统计学意义的临床变量纳入多因素logistics回归分析,计算出治疗有效的独立预测因子并以此构建临床模型;然后,将有统计学意义的临床变量和影像组学标签纳入多因素logistics回归分析来构建联合模型。
5.统计分析
使用SPSS 25.0 软件和R 4.2.1软件进行统计分析。采用Kolmogorov-Smirnov检验对计量资料进行正态性检验,符合正态分布的计量资料采用均数±标准差表示,不符合正态分布的计量资料采用中位数(上、下四分位数)表示。计量资料的组间比较采用独立样本t检验(正态分布且方差齐)或Mann-WhitneyU检验(偏态分布或方差不齐),计数资料的组间比较采用χ2检验或 Fisher确切概率法。采用多因素logistic 回归分析构建预测模型并绘制诺模图,采用校正曲线评价模型的拟合优度(P>0.05表示拟合优度较好),并采用Hosmer-Lemeshow检验评价校正曲线的一致性。采用AUC评价各种模型对疗效的诊断效能,并采用DeLong检验比较不同模型间AUC的差异。采用决策曲线分析(decision curve analysis,DCA)比较模型的临床净收益。以P<0.05为差异有统计学意义。
结 果
1.临床资料的比较
194例患者随机分为训练集和验证集,其中训练集136例,验证集58例,两个数据集之间以及2个数据集中治疗有效组与无效组之间各项临床指标、肿瘤形态学特征及病理结果的比较结果分别见表1和表2。训练集与验证集之间性别、年龄、肿瘤病理分型、靶向治疗前肿瘤最大径及CEA和CYFRA21-1水平的差异均无统计学意义(P>0.05)。在训练集和验证集中,治疗有效组与无效组之间年龄、性别、CEA、肺癌病理类型差异均无统计学意义(P>0.05),治疗前肿瘤最大径和CYFRA21-1水平的差异均有统计学意义(P<0.05)。
表1 训练集及验证集中临床资料的比较
表2 训练集及验证集中治疗有效组和无效组的临床资料、肿瘤形态学特征及病理结果的比较
2.影像组学特征提取及影像组学模型建立
自每例患者的病灶共提取到1781个影像组学特征,删除无效特征196个及组内和组间ICC<0.80的特征71个,最终剩余1514个特征。在训练集中通过PCA、KW法和LR-LASSO进行降维,最终筛选出9个影像组学特征,将其纳入回归模型中,获得每个特征相应的权重系数(表3),计算出所有患者的Radscore。
表3 影像组学模型中纳入的组学特征及其权重系数
3.建立临床和联合模型
将训练集中组间差异有统计学意义的临床变量纳入多因素logistics回归分析,结果显示CYFRA21-1(OR=1.059,P=0.048)为治疗有效的独立预测因子,以此构建临床模型。
将训练集中有统计学意义的临床病理指标(治疗前肿瘤最大径、细胞角蛋白19片段)及影像组学标签纳入多因素logistic 回归分析,其中细胞角蛋白19片段(OR=1.058,P=0.037)和影像组学标签(OR=3.590,P<0.001)为独立预测因子,建立临床+影像组学联合模型。
4.模型的诊断效能分析
采用ROC曲线分析各类影模型在训练集和验证集中预测EGFR突变阳性NSCLC患者EGFR-TKIs疗效的效能,结果见表4、图3。在训练集和验证集中,影像组学模型预测治疗有效的AUC分别为0.800(95%CI:0.723~0.876)和0.774(95%CI:0.653~0.895);临床模型的AUC分别为0.686和0.666;联合模型的 AUC 分别为 0.836和0.837,优于临床模型和影像组学模型。
表4 临床、影像组学和联合模型的诊断效能
图3 临床模型、影像组学模型及联合模型预测疗效的ROC曲线。a)训练集;b)验证集。
经DeLong检验,训练集中联合模型与临床模型之间AUC的差异有统计学意义(Z=-3.136,P=0.002),影像组学模型与临床模型及联合模型之间AUC的差异均无统计学意义(Z=-1.928,P=0.054;Z=-1.958,P=0.050);验证集中,联合模型与临床模型之间AUC的差异有统计学意义(Z=-2.512,P=0.012),影像组学模型与临床模型及联合模型之间AUC的差异均无统计学意义(Z=-1.109,P=0.268;Z=-1.498,P=0.134)。
绘制联合模型的诺模图(图4)。联合模型在训练集和验证集的校准曲线与理想曲线接近,表明预测效果较好(图5)。采用Hosmer-Lemeshow检验分析该模型的拟合优度,得到一个不显著的统计学结果(训练集:χ2=4.142,P=0.126,验证集:χ2=1.104,P=0.576),表明模型未明显偏离完美的拟合。DCA曲线显示联合模型预测EGFR突变阳性NSCLC患者EGFR-TKIs治疗疗效的临床净获益优于临床模型和影像组学模型(图6)。
图5 联合模型的诺模图的校准曲线。Apparent为拟合线,Bias-corrected为偏差校准曲线,Ideal为参考线。a)训练集;b)验证集。
讨 论
影像组学是指将数字医学图像转换为可挖掘的高维数据,其在许多疾病的鉴别诊断、预后判断及疗效评价等方面的应用日渐增多[8-11]。影像组学近年来因其在提供客观和可量化的成像信息方面的优势而越来越受到人们的关注。大量研究证实影像组学在良恶性疾病的鉴别及对癌症分期、病理特征、基因组突变、预后及疗效的预测等方面具有可行性和有效性[12-15]。目前对于NSCLC EGFR的相关研究报道中,大部分都停留在影像组学特征预测EGFR基因的某些突变方面[16,17],对于能否基于CT影像组学特征分析对EGFR突变阳性的NSCLC患者EGFR-TKIs的疗效进行预测却少有研究。
2003年,Kris等[18]的研究结果表明对存在EGFR突变的肺癌患者使用EGFR-TKIs治疗后可以获得较好的疗效,开启了存在EGFR突变的非小细胞肺癌患者靶向治疗的时代。美国国家综合癌症网络(National Comprehensive Cancer Network,NCCN)和我国制订的肺癌治疗规范中均推荐对肺癌患者应尽可能检测EGFR基因状态,对EGFR突变阳性NSCLC患者推荐进行EGFR-TKIs治疗。但是,EGFR-TKIs对部分患者治疗效果不佳,所以治疗前预测EGFR-TKIs的有效性具有较大的价值。本研究基于胸部CT平扫图像,纳入临床、病理学、影像学及影像组学特征等多参数构建预测模型,对EGFR突变阳性的NSCLC患者接受EGFR-TKIs治疗的疗效进行预测,结果显示影像组学模型优于临床模型,联合细胞角蛋白19片段和影像组学构建的联合模型对疗效的预测能力进一步提升,优于影像组学模型和临床模型。
EGFR-TKIs对NSCLC患者的治疗效果受多种因素的影响,如临床特征、组织病理、肿瘤周围浸润程度和分子生物学特征等均会影响其疗效,具体的机制也较为复杂。本研究中纳入分析的血清肿瘤标志物中的CYFRA21-1是诊断 NSCLC 特异性较高的指标[19],该指标在血清内的水平与NSCLC患者的预后具有较好的相关性。张明明等[20]的研究结果表明奥希替尼治疗晚期NSCLC患者效果确切,而且可以显著降低患者血清内细胞角蛋白19片段的水平,进一步说明了细胞角蛋白19片段与肿瘤的预后可能有一定的相关性,本研究中联合模型中纳入的细胞角蛋白19片段为预测EGFR突变阳性的NSCLC患者EGFR-TKIs疗效的独立预测因子,治疗前细胞角蛋白19片段的水平对EGFR-TKIs的疗效有一定的预测价值。本研究基于联合模型构建了预测NSCLC患者疗效的诺模图,建立了简单易行的治疗前评估疗效的方法,医师可以在治疗前通过简单评分进行个体化的评价,辅助临床医师在治疗前判断EGFE突变阳性的非小细胞肺癌患者采用EGFR-TKIs进行治疗的可行性。
本研究中采用PCA进行特征降维,PCA常用于高维数据的降维,在组学特征的筛选中应用广泛。Kickingereder等[21]利用PCA降维方法构建的影像组学模型较好地预测了胶质母细胞瘤(gliblastoma,GBM)患者对贝伐单抗治疗的反应,AUC达0.90。穆建华等[22]采用PCA降维方法构建了6种影像组学模型对脑胶质瘤的病理分级进行预测,AUC均大于0.8,提示模型的诊断效能均较高,验证了影像组学模型对胶质瘤术前分级具有较高的准确性。
本研究存在一定的局限性:①样本数据是回顾性收集,纳入的患者就诊时间跨度较大,部分患者的信息不完整,选择偏倚是不可避免的;②传统影像学定性评价缺乏统一评价标准,ROI的勾画可能受到勾画者主观因素的影响,而且本研究中曾尝了ROI半自动及全自动勾画,但同手动勾画相比其不能较好的识别肿瘤边界,根据实体肿瘤疗效评价标准,可能对肿瘤治疗的疗效判断产生一些影响;③本研究中仅基于CT平扫图像进行特征的提取和分析;④样本数较小且为单中心研究,需要多中心大样本进一步研究验证。
综上所述,基于临床、影像组学标签建立的联合模型对预测EGFR突变阳性非小细胞肺癌患者EGFR-TKIs的疗效具有较高的价值,优于临床模型及影像组学模型,对临床合理制定个体化治疗方案及科学的评估治疗效果具有较高的价值。