APP下载

基于CT影像组学在非小细胞肺癌表皮生长因子受体突变中的预测价值*

2023-11-13唐聪聪陈艾琪杜小萌钱宝鑫左盼莉马宜传

中国CT和MRI杂志 2023年10期
关键词:突变型组学灰度

唐聪聪 陈艾琪 杜小萌 钱宝鑫 李 想 李 伟 左盼莉 马宜传,4,*

1.蚌埠医学院第一附属医院放射科 (安徽 蚌埠 233004)

2.蚌埠医学院第一附属医院呼吸与危重症医学科 (安徽 蚌埠 233004)

3.安徽省呼吸系统疾病(肿瘤)临床医学研究中心 (安徽 蚌埠 233004)

4.数字医学与智慧健康安徽省重点实验室 (安徽 蚌埠 233030)

5.慧影医疗科技(北京)股份有限公司 (北京 100192)

2021年全球癌症数据统计资料表明,肺癌是全世界发病比例第二、死亡比例第一的恶性肿瘤[1]。肺癌的发病率(占新发病例总数的11.4%)仅次于乳腺癌(11.7%),而死亡率高居首位(癌症死亡总数的18.0%),远超其他恶性肿瘤[2-3]。在所有肺癌类型中,NSCLC是肺癌中最常见的组织学类型,而EGFR突变是非小细胞肺癌最常见的基因突变[2]。酪氨酸激酶抑制剂(tyro-sine kinase inhibitor,TKIs) 的成功应用,开创了晚期NSCLC靶向治疗的崭新时代[3],TKIs对EGFR突变型病人有着比野生型更高的应答率[4],能够有效提高基因敏感突变患者的生存率,改善生活质量。病理活检法是检测EGFR基因的突变状态的常用方法,但该方法由于肿瘤的异质性、取样的偏差、有创并且增加癌症转移的风险[5],在一定程度上限制该方法的应用。大量研究发现影像组学是通过定量分析影像图像中信息,将视觉影像信息转化为深层次的定量影像特征来进行量化研究,通过定量数据对影像图像中信息进行量化研究和分析,可以无创性地反映肿瘤内部信息[6-7]从而预测肿瘤基因的表达,以提高诊断、预测及预后的准确度,大量研究表明[7-8],影像组学方法构建的模型在预测非小细胞肺癌EGFR的突变状态情况上,表现出了潜在的价值。基于此,本研究旨在通过分析NSCLC患者影像组学特征在EGFR基因突变状态上的相关性,同时应用CT影像组学特征构建预测模型,探讨基于该组学模型在预测EGFR突变状态上的可行性,为NSCLC患者的个体化治疗方案选择及实施提供一定支持。

1 资料与方法

1.1 一般资料收集我院2018年8月至2022年3月125例有EGFR基因检测结果的NSCLC患者临床及影像资料,其中EGFR突变型32例,男11例,女21例,平均年龄(60.81±9.38)岁;EGFR野生型93例,男42例,女51例,平均年龄(62.14±8.86)岁。所有病例随机分为训练集和验证集,其中训练集共100人,EGFR突变型25例,野生型75例;验证集共25例,EGFR突变型7例,野生型18例。临床信息包括年龄、性别、吸烟史(有、无)及CEA水平等。

纳入标准:经病理诊断为NSCLC,且有EGFR基因检测结果;未接受任何抗肿瘤治疗;术前进行胸部增强扫描,且影像清晰。排除标准:术前接受相关抗肿瘤治疗;肿瘤边界欠清,无法对病灶进行准确勾画;CT影像质量差,临床资料不完整。

1.2 扫描与方法采用美国通用电器(GE)公司生产的 256排Revolution CT对所有患者进行胸部CT增强平扫,扫描前确认病人有无相应的检查禁忌症,同时对病人进行常规的呼吸训练。检查时患者需仰卧,双臂上举,自胸廓上口到足侧进行扫描,使肺部病灶完全被扫描到。增强CT扫描条件为:管电压:120KVP,管电流:380mA,层厚及层距均为5mm,准直宽度为0.625x64,螺距为0.984,窗宽400HU,窗位40HU。将扫描获得的单能量图像行0.625mm薄层重建,并传至ADW4.7工作站。

1.3 图像处理及数据采集将125例患者的胸部CT图像以DICOM格式从影像归档和通信系统(picture archiving and communication systems,PACS)中完整导入到安全离线的服务器,以便使用慧影(HY)软件进行影像组学分析。在病人临床信息和基因表型未知的情况下,由两位拥有三年影像诊断工作经验的主治医师和副主任医师分别独立完成图像分割、预处理和特征提取,按照病灶的每一层进行手动勾画,并融合成三维容积感兴趣区(volume of interest,VOI),对感兴趣区进行勾画时应注意避开周围坏死、炎症、肺不张及血管支气管等非病灶区域等。

使用慧影(HY)软件对图像中的组学特征进行降维处理,并将图像生物标志物基准数据集和基准值作为特征筛选的严格标准。每个病变都有1409个独特的特征值,这些特征值可以通过一阶直方图表示,也可以通过二阶直方图或纹理特征来表示。经方差选择法降维后,从上述两名放射科医师提取的影像组学特征中筛选出373个影像组学特征,选择P值小于0.05的特征,去除其他特征后,经由单变量特征选择保留了75个特征值,使用最小绝对收缩和选择算子算法进一步处理,得到与表型密切相关的特征,最后应用5折交叉验证来进一步降低影像组学特征维度,最终确定五个最佳影像组学特征,利用这些特征构建多因素logistic回归模型。绘制ROC曲线评估模型诊断效果,P<0.05,表明差异有统计学意义。

1.4 统计学处理采用SPSS 26.0统计软件对所获得的影像数据进行统计学处理。对分类变量的比较采用卡方检验或Fisher确切概率法;对于非正态分布连续变量的比较采用Mann-Whitney U检验或独立样本t检验。采用ROC曲线评价影像组学模型的性能,并评估相应的曲线下面积(AUC)、敏感度及特异度。认为P<0.05差异有统计学意义。

图1A-图1C 病例一,EGFR野生型非小细胞肺癌CT平扫及增强图像(69岁,右肺下叶占位) 图1A:平扫图像,右肺下叶结节状软组织密度影;图1B:增强图像中病灶最大层面沿边缘勾画ROI图;图1C:病理图像,(HEx200)的苏木精伊红染色,为周围型肺腺癌,基因表型EGFR(-)图2A-图2C 病例二,EGFR突变型非小细胞肺癌CT平扫及增强图像(66岁,右肺中叶占位) 图2A:平扫图像,右肺中叶结节状软组织密度影;图2B:增强图像中病灶最大层面沿边缘勾画ROI图;图2C:病理图像,(HEx200)的苏木精伊红染色,为周围型肺腺癌,基因表型EGFR(+)

2 结果

2.1 一般资料对临床资料及CT影像征象进行分析,可得出EGFR突变型与野生型在年龄、性别、毛刺征及分叶征中的差异无统计学意义;在吸烟史、磨玻璃密度(GGO)及CEA水平上有统计学意义。不同EGFR类型下性别分布不存在显著性差异(χ2=0.144,P=0.704>0.05),EGFR突变型中男性有15人,女性有17人,EGFR野生型中男性有40人,女性有53人;EGFR突变型下有吸烟史的占比显著高于EGFR野生型下有吸烟史的占比(χ2=10.703,P=0.001<0.05),EGFR突变型中无吸烟史的有14人,有吸烟史的有18人,EGFR野生型中无吸烟史的有70人,有吸烟史的有23人;不同EGFR类型下分叶征情况不存在显著性差异(χ2=1.159,P=0.282>0.05),EGFR突变型中无分叶征的有3人,有分叶征的有29人,EGFR野生型中无分叶征的有4人,有分叶征的有89人;不同EGFR类型下毛刺征情况不存在显著性差异(χ2=0.374,P=0.541>0.05),EGFR突变型中无毛刺征的有14人,有毛刺征的有18人,EGFR野生型中无毛刺征的有35人,有毛刺征的有58人;EGFR突变型下CEA升高的占比显著高于EGFR野生型下CEA升高的占比(χ2=8.583,P=0.003<0.05),EGFR突变型中CEA正常的有4人,CEA升高的有28人,EGFR野生型中CEA正常的有38人,CEA升高的有55人;EGFR突变型下有GGO的占比显著高于EGFR野生型下有GGO的占比(χ2=43.685,P=0.000<0.05),EGFR突变型中无GGO的有5人,有GGO的有27人,EGFR野生型中无GGO的有75人,有GGO的有18人。

2.2 构建CT影像组学模型通过慧影(HY)软件共提取1409个影像组学特征,这些特征包括一阶、形状和纹理特征。一阶特征描述了CT值在目标体积中的强度分布,例如中位数、能量和偏度。纹理特征包括五类:灰度共现矩阵;灰度差分矩阵;灰度级运行长度矩阵;灰度大小区矩阵;邻域灰度差分矩阵;计算各个特征的方差,本方法根据阈值为0.8,方差低于该阈值的组学特征被筛选掉,选择方差大于0.8的所有特征值进行下一步特征降维,经筛选后得到特征值个数为373,使用方差分析衡量特征和分类结果关系,选择P<0.5的特征,并去除其他特征,输入特征值个数为373,经选择降维后为75,最后采用LASSO回归算法进行特征筛选,最后得到5个最佳特征值,其中包括3个一阶峰度特征、1个灰度相关矩阵高灰度依赖程度特征、1个灰度不均匀性特征,用多因素逻辑回归构建模型,用运用受试者操作特征曲线的曲线下面积(area under the curve,AUC)对模型的预测效能进行评估,认为P<0.05为差异有统计学意义。

2.3 LASSO模型验证与分析预测模型的ROC曲线见图5,训练集AUC为0.80(95%CI:0.70-0.91),特异度、灵敏度分别为0.72,0.72;测试集AUC为0.75(95%CI:0.53-0.97)特异度、灵敏度分别为0.71,0.74。

图3 单变量特征筛选的特征参数

图4 LASSO分类预测模型的5个特征维度

图5 训练集与测试集ROC曲线图

表1 影像特征与EGFR基因突变的相关性

表2 训练组与测试组AUC、特异度、灵敏度及95%CI值对照表

3 讨论

近年来,随着对非小细胞肺癌发病机制及分子生物学行为的不断深入研究[9],对肺癌的治疗也从最初的手术切除、放化疗,转向了对特异性表达基因或蛋白分子的个体化靶向“精准”治疗[10]。大量研究表明,以EGFR为靶点的酪氨酸激酶抑制剂在突变型患者中较野生型或未知状态患者中具有较高的应答率,因此,接受EGFR-TKIS治疗的突变型患者5年生存率和总生存时间均明显优于传统的一线放化疗[11],因此,在临床采取分子靶向治疗前明确EGFR突变状态,将为临床治疗提供重要的指导意义,病理活检是确定EGFR突变情况的金指标,但由于侵入性的检测方法,不仅费用昂贵,取样的偏差且有创,给患者增加身体负担,因此,术前、精准、无创的检查方法,在评估EGFR突变状态上对于肺腺癌患者的靶向治疗具有重大意义。作为非侵入性、精准的检查方法,影像组学常用于EGFR基因突变状态的预测,以往大量研究表明[12-14],影像组学不仅可以反映肿瘤之间的遗传差异,而且具有诊断价值和成为诊断工具的潜力。

既往研究表明女性、病理分类与EGFR突变具有相关性,与年龄无相关性[15-17],而在本研究中EGFR突变状态与年龄、性别均无相关性,产生差别的原因可能与取样的偏差有关。部分研究人员发现EGFR突变状态与病灶形态学特征存在相关性,例如:空泡症、胸膜凹陷症、磨玻璃结节(ground-glass opacity,GGO)等;大部分研究集中在GGO表现上[18]。本研究结果显示,肺腺癌EGFR突变状态与CEA和磨玻璃样密度(GGO)存在相关性(P<0.05),这与多数学者[19-20]等研究结果相符。CEA是一种酸性糖蛋白,在NSCLC中表达较多,其作为肺腺癌最常见的肿瘤标志物之一,在临床诊疗中常用于肺腺癌早期筛查及预后评估上。EGFR基因突变后,可诱导转录因子合成及活化,激活其下游传导通路,使细胞增殖加速,而CEA是一种酸性黏附蛋白,其表达受到EGFR下游通路激活调节,出现升高。因此随病情进展时CEA水平逐渐升高,CEA高者EGFR突变率也显著升高。同时,EGFR基因突变型磨玻璃结节比例远比野生型高得多,GGO比例越高,EGFR外显子19缺失突变与21点突变率就越高。

在本研究中,通过对每个病变CT图像特征的分析,共提取出1409个特征值,通过单变量特征选择、最小绝对收缩和选择算子、5折交叉验证和logistic回归分析对特征进行降维和筛选,得到5个最重要的影像组学特征用于对EGFR突变状态进行预测,包括3个一阶峰度特征、2个纹理特征,纹理特征中包括1个灰度依赖矩阵特征、1个灰度区域大小矩阵特征。其以wavelet-LLHfirstorder-kurtosis特征相关性最高,该特征代表图像病灶感兴趣区中峰值分布的高低。是用来描述像素值分布的陡缓程度,其值越大,像素值分布就越集中,其病变异质性也就越大,这种特征反映了肿瘤周围的影像学表现,表明构建的模型与图像中的纹理粗细有关,间接反映了NSCLC的基因表型与肿瘤及周围正常组织之间的某些相互作用密切相关。这些病灶边缘或周围影像学表现可为预测肿瘤基因表型提供了帮助。这一特点与wavelet-LLHfirstorder-kurtosis特征近似。

所提取的最佳特征皆为小波滤波器提取特征,其中超过一半为一阶特征,一阶特征主要通过计算ROI(肿瘤或其他病灶区域)影像的灰度值得到的,可反映肿瘤区域内的灰度强度分布及异质性,包括所勾画的感兴趣区中90%强度值与峰度信息,对于肿瘤的基因表型有一定的预测能力,本研究与之相符;上述一阶特征常用于反映易被视觉感知的低维信息,不同于一阶特征,其他两个纹理特征的获得主要通过纹理矩阵,其中包括灰度共生矩阵中gldm-HighGray LevelEmphasis是测量较低灰度值的大依赖性的联合分布;灰度区域大小矩阵中glszm-GrayLevelNonUniformity可量化图像中连续体素值的区域。纹理特征值越大,该区域病灶纹理异质性越大。研究表明[21],Glszm相关特征与侵袭性有关,高度侵袭性肺癌患者更易发生EGFR突变,本研究与之相符。

这些影像组学特征能够量化病灶内部的纹理模式或组织分布等难以被视觉简单感知的信息。在本研究中训练集及验证集中AUC值分别为0.804(95%CI:0.70-0.91)和0.752(95%CI:0.53-0.97);训练集中预测EGFR基因状态的特异度及灵敏度分别为0.72、0.72,测试集中预测EGFR基因状态的特异度及灵敏度分别为0.71、0.74,本研究结果发现基于CT影像组学在非小细胞肺癌EGFR突变中具有较好的预测价值,与以上文献报道一致。部分研究[21]基于静脉期双能CT影像组学模型得到训练集及测试集灵敏度为0.697、0.667,本研究与其相比,所建立的模型采用普通CT增强图像,在一般CT增强的基础上即可获得高灵敏度的预测模型,节省序列的同时避免了过多的辐射对人体产生的伤害和副作用,减轻患者负担,具有更佳的预测效能。本次研究发现肺腺癌EGFR突变型与野生型峰度之间的差异较显著,这与Digumarthy等[22]的研究一致。国建林等[23]对病灶采取2D勾画所获得的影像组学特征用来预测肺腺癌EGFR突变状态,其影像组学模型训练组及验证组的AUC值分别为0.69,0.68,本研究影像组学模型采用3D勾画的形式,所获取的病灶特征更丰富、更全面。Chen等[24]对223例NSCLC患者(EGFR突变型107例,EGFR野生型116例)EGFR突变状态进行了分析预测,研究结果显示CT影像组学模型在预测训练队列中EGFR突变状态表现出较好的预测效能(曲线下面积,AUC=0.802;95%置信区间,CI:0.736-0.858),并在验证队列中得到验证(AUC=0.791,95%CI:0.642-0.899),本研究结果也表明影像组学模型在EGFR突变状态上的预测效能较好。张国晋等[25]回归性分析160例NSCLC患者CT影像资料,认为多因素 logistic 回归模型可以很好预测EGFR状态,本研究也采用logistic 回归模型,其与传统影像组学模型相比,更有利于临床个性化靶向治疗方案的制定。

本研究存在一定的局限性:采用人工分割感兴趣的方法,在一定程度上受主观性影响;且本研究是小样本回顾性研究,样本量小,在影像学特征上的分析上可能对结果产生一定的偏倚。

综上所述,本研究回顾性分析了125例非小细胞肺癌患者的资料,结果表明基于CT增强图像的影像组学特征构建的逻辑回归模型能够有效预测EGFR突变状态,指导临床治疗方法的选择,为EGFR突变型患者提供更有效的治疗方案。

猜你喜欢

突变型组学灰度
采用改进导重法的拓扑结构灰度单元过滤技术
基于灰度拉伸的图像水位识别方法研究
口腔代谢组学研究
基于UHPLC-Q-TOF/MS的归身和归尾补血机制的代谢组学初步研究
基于最大加权投影求解的彩色图像灰度化对比度保留算法
基于灰度线性建模的亚像素图像抖动量计算
代谢组学在多囊卵巢综合征中的应用
表皮生长因子受体非突变型非小细胞肺癌分子靶治疗有效1病例报道及相关文献复习
CD41-42突变型β地中海贫血重组载体pEGFP-C2-CD41-42的构建及其稳定转染HeLa细胞模型的建立
突变型PUMA(S10A)对Hela细胞的凋亡作用及其分子机制