基于胸部CT影像组学的列线图对非小细胞肺癌表皮生长因子受体基因突变的预测价值
2021-11-01甄涛王罗羽沈起钧
甄涛 王罗羽 沈起钧
肺癌为我国常见的恶性肿瘤之一,其中非小细胞肺癌(non-small cell lung cancer,NSCLC)约占所有肺癌的85%[1-2]。目前研究发现表皮生长因子受体(epidermal growth factor receptor,EGFR)基因是驱动NSCLC发病的最常见突变基因[3]。它是一种酪氨酸激酶受体,部分靶向药物能有效抑制其活性,例如对于EGFR基因突变相关肿瘤,吉非替尼治疗有效率高达80%以上[4]。因此在靶向治疗前明确肿瘤的基因型至关重要,然而并不是所有病灶都适合通过活检来获得有代表性的组织学标本。而且由于肿瘤的异质性,穿刺组织标本也不能完全反映病灶的表型和遗传变异。虽然,体液检测可以获得血浆中的突变基因,但当肿瘤较小,没有足够量的DNA脱落到循环血液中时,突变基因常会被遗漏[5]。目前一些国内外研究显示,基于胸部CT的影像组学对于EGFR基因突变状态有一定的预测价值[5-8]。因此,笔者通过CT影像组学、图像语义特征及临床资料的列线图对NSCLC EGFR基因突变状态进行鉴别及预测,旨在为临床诊断及治疗提供更为便捷、有效的方法,现报道如下。
1 对象和方法
1.1 对象 回顾2019年1月至2020年8月杭州市第一人民医院经手术病理检查证实为NSCLC患者235例。纳入标准:(1)术前有胸部CT检查资料;(2)术后病理证实为NSCLC,且有EGFR基因检查结果;(3)其他临床资料齐全;(4)结节直径≥0.5 cm。排除标准:(1)术前接受过放化疗及靶向治疗;(2)既往有肺癌病史的复发患者;(3)图像质量不佳,影响病灶勾画;(4)病灶贴近纵隔大血管,影响勾画。排除无EGFR基因检测结果52例,结节直径<0.5 cm 5例,术前接受过治疗3例,肿瘤复发5例,CT图像质量不佳9例,结节靠近纵隔大血管8例,最终纳入153例,其中男48例,女105例,年龄 29~79(59.2±10.4)岁。收集患者的年龄、性别、吸烟史、肺癌相关肿瘤指标等临床资料。本研究经本院医学伦理委员会批准,所有患者均签署知情同意书。
1.2 CT检查方法 采用美国GE Lightspeed VCT 16排螺旋CT扫描仪进行胸部扫描,准直器0.625 mm,FOV 350 mm ×350 mm,管电压120 kV,管电流160 mAs,层厚1.25 mm。扫描图像以DICOM格式导出。
1.3 相关图像语义特征的定义 由2位具有5年以上呼吸系统影像诊断经验的放射科主治以上职称医生分别对所有结节进行分型,包括:(1)实性结节;(2)纯磨玻璃结节;(3)部分实性结节。同时描述结节是否有以下征像:(1)空气支气管征;(2)胸膜牵拉;(3)血管聚集;(4)毛刺征。
1.4 图像勾画、特征提取及筛选 先由2位具有5年以上呼吸系统影像诊断经验的放射科主治以上职称医生使用软件ITK-SNAP(Version 3.6)分别手动对术前胸部CT图像上相应病灶进行勾画,沿着肿瘤边缘逐层勾画其感兴趣区域(region of interest,ROI),尽量避免周围正常组织勾画其中,当结节靠近胸膜时,要求勾画距离胸膜超过1 mm,避免将胸膜勾画其中,保存勾画病灶的ROI。将勾画完成的图像导入美国GE Analysis Kit(AK)软件进行特征提取,共提取396个特征。对2位医生所提取的特征进行一致性分析,保留组内相关系数(intraclass correlation coefficients,ICC)≥0.75的特征,使用最小冗余最大相关算法(minimum redundancy maximum relevance,mRMR)降低之前所保留特征集的冗余度,通过最小绝对紧缩与选择算子(least absolute shrinkage and selection operator,LASSO)回归对各个特征进行降维,得到差异有统计学意义的影像组学特征参数,利用特征参数进行多因素二元logistic回归分析建模,同时计算影像组学特征参数分数(Rad-score)。在训练组中对每个潜在预测变量包括性别、年龄、吸烟史、肺癌相关肿瘤指标[包括神经元特异性烯醇化酶(NSE)、细胞角蛋白 19片段(YFRA21-1)、癌胚抗原(CEA)、糖类抗原 19-9(CA19-9)、CA125、CA242]、结节分型、空气支气管征、胸膜牵拉、血管聚集、毛刺征等进行单因素二元logistic回归分析,筛选出P<0.1的特征,再对这些筛选出的特征进行多因素二元logistic回归分析,最终筛选出独立预测因子。
1.5 模型建立与验证 用筛选出的独立预测因子建立临床-语义特征模型。之后将联合筛选出的独立预测因子和Rad-score构建联合模型,并制作列线图。模型建立之后,使用Hosmer-Lemeshow检验分析拟合度。绘制ROC曲线,采用AUC评价各个模型对NSCLC基因突变状态的预测效能。使用决策曲线评估各个模型的净效益。
1.6 统计学处理 采用R Studio3.6.1统计软件。正态分布的计量资料以表示,组间比较采用独立样本t检验;非正态分布的计量资料以 M(P25,P75)表示,组间比较采用秩和检验;计数资料组间比较采用χ2检验。采用ICC评价2位测量者的测量一致性及对肿瘤的语义特征的定义一致性,ICC≥0.75为一致性较好。训练组及验证组构建的Rad-score对EGFR基因状态预测的比较采用Wilcoxon秩和检验。采用Hosmer-Lemeshow检验分析拟合度,P>0.05提示模型拟合较好。绘制决策曲线分析净效益。采用Delong检验进行模型间AUC的比较。P<0.05为差异有统计学意义。
2 结果
2.1 临床特征选择 根据7∶3的比例进行分层抽样将153例患者随机分成训练组108例和验证组45例。根据EGFR基因检测结果将所有患者分为突变组90例及野生组63例,两组患者的临床特征比较见表1。通过单因素logistic回归共筛选出3个独立预测因子,包括吸烟史、结节分型和血管聚集。对这些筛选出的独立预测因子继续采用多因素二元logistic回归进行筛选,最终筛选出的独立预测因子分别是吸烟史(OR=2.65,P=0.056)和结节分型(OR=1.74,P=0.034)。基于这两个独立预测因子建立临床-语义特征模型。
表1 EGFR基因突变组及野生组临床特征比较
2.2 一致性评价 2位测量者获得的影像组学特征参数的ICC范围为0.553~0.864,其中>0.75的特征355个,一致性较好。2位测量者对肿瘤语义特征定义的ICC为0.72~0.95,其中血管聚集的ICC为0.72,其余特征的ICC均>0.75。因此采用高年资医生的勾画及评阅数据进行特征选择及建模。
2.3 影像组学特征筛选和模型建立 Hosmer-Lemeshow检验显示在训练组和验证组中各个临床特征差异均无统计学意义(均P>0.05),见表2,表明拟合无偏差。通过mRMR算法降低ICC>0.75特征集的冗余度,保留了排名前20个特征,采用LASSO回归进一步降维,共得到13个影像组学特征,包括Correlation_AllDirection_offset7_SD(CA_o7_SD)、GLCMEnergy_angle135_offset7(Ga135_o7)、GLCMEnergy_angle90_offset7(Ga90_o7)、Cluster Shade_angle45_offset7(CSa45_o7)、kurtosis、High-GreyLevelRunEmphasis_AllDirection_offset4_SD(HA_o4_SD)、GLCMEntropy_AllDirection_offset7_SD(GA o7 SD)、GLCMEntropy_AllDirection_offset4_SD(GA o4 SD)、Clus-terShade_AllDirection_offset1_SD(CA_o1_SD)、Haralick-Correlation_AllDirection_offset1_SD(HA_o1_SD)、GLCM Energy_angle90_offset4(Ga90_o4)、InverseDifferenceMoment_AllDirection_offset7_SD(IA_o7_SD)、Inertia_angle45_offset7(Ia45_o7)。各个特征的相关系数见图1。将选定的13个特征按相关系数加权求和得到Rad-score,最终公式为:Rad-score=0.672*(CA_o7_SD)+-0.482*(Ga135_o7)+0.635*(Ga90_o7)+-0.271*(CSa45_o7)+-0.342*kurtosis+-0.162*(HA_o4_SD)+0.109*(GA o7 SD)+-0.159*(GA o4 SD)+0.141*(CA_o1_SD)+-0.497* (HA_o1_SD)+-0.981* (Ga90_o4)+-0.512*(IA_o7_SD)+0.642*(Ia45_o7)+0.078。基于 Rad-score建立影像组学特征模型。训练组与验证组患者EGFR基因突变状态预测Rad-score的比较,差异均有统计学意义(均P<0.05),见图2。因此,Rad-score为独立预测因子。
图1 最优影像组学特征组合及其相关系数
图2 训练组与验证组构建的影像组学特征参数分数对表皮生长因子受体(EGFR)基因状态的预测比较
表2 训练组和验证组临床特征比较
将Rad-score、吸烟史、结节分型共3个特征作为EGFR基因突变的独立预测因子进行联合模型建立,并获取联合模型的列线图见图3。通过该列线图可以实现NSCLC EGFR基因突变的个体化预测,计算得出的数值越高,患者基因突变的可能性越高。分别绘制3个模型的ROC曲线,见图4。结果发现,联合模型的AUC在训练组及验证组均为最高,明显高于临床-语义特征模型(Z=2.9441、2.1306,均 P<0.05)。影像组学特征模型的AUC高于临床-语义特征模型,略低于联合模型,差异无统计学意义(P>0.05)。决策曲线显示,联合模型较另外两种模型有更好的净效益,见表3、4及图5。
图3 基于训练组构建联合模型的列线图
图4 训练组和验证组的各个模型的ROC曲线图(a:训练组;b:验证组)
图5 3种模型的决策曲线图
表3 训练组模型间的比较
3 讨论
本研究建立了一种用于预测NSCLC EGFR基因突变的临床-影像组学联合模型,结果发现联合模型是预测NSCLC EGFR基因突变的最优模型,并且通过构建列线图实现了模型可视化。本研究结果表明,该联合模型构建的列线图可以作为预测NSCLC EGFR基因突变的临床工具。该结果与Mei等[9]的研究成果一致,然而本研究联合模型AUC要明显高于文献结果(0.77比0.664),因此本研究模型具有更高的诊断效能,更方便临床的实际应用。
表4 验证组模型间的比较
大量流行病学研究表明,EGFR基因突变在亚洲人群、女性、非吸烟、腺癌的患者中发生率较高[10]。本研究结果与以往报道相符[11]。本研究还发现含有磨玻璃成分的肿瘤EGFR突变率63.2%(60/95)高于实性肿瘤51.7%(30/58),与以往多项研究结果[12-14]相符。有研究表明,肿瘤含磨玻璃成分比例越高,发生EGFR突变的概率越高,提示高比例的磨玻璃可以预测EGFR基因突变,这也表明结节分型是EGFR基因突变的重要预测因子[13,15]。因此,本研究经过单因素及多因素二元logistic回归分析后,得到一个由吸烟史及结节分型构成的临床-语义特征模型,模型的AUC在训练组及验证组的分别为0.64和0.58,然而该模型的诊断效能较低,并没有达到临床诊断要求。
以往研究已经证明了CT影像的形态学特征有预测肿瘤突变状态的潜力[16-21]。Chen等[17]研究表明常规CT特征包括肺气肿、原发肿瘤的分叶程度、淋巴结大小和状态有助于预测晚期肺腺癌EGFR突变状态。另外,有研究对CT形态和临床特征进行Meta分析,证实有磨玻璃成分、空气支气管征、胸膜牵拉和血管集聚是NSCLC EGFR基因突变的危险因素[19]。因此本研究也同时纳入了这些语义特征进行危险因素分析,结果发现除了磨玻璃成分,其他特征对预测结果没有贡献。这一结果表明,这些特征对NSCLC EGFR基因突变的预测结果不稳定。显然,这些研究只着眼于定性特征与NSCLC中EGFR突变的关系。这些定性特征基于观察者的主观判断,观察者之间存在差异,例如血管聚集这个特征,2位观察者间的ICC只有0.72,而且这些特征不能对肿瘤异质性进行量化。因此笔者便引入了影像组学这种对传统影像进行量化的方法。
与传统的影像学方法相比,影像组学的优势在于通过高通量提取图像中的定量特征,发掘出更多信息,从而反映病变的内在异质性,目前已被广泛应用于疾病鉴别、预后评估、疗效评估等多个方面。有较多研究显示了影像组学对NSCLC基因表型有潜在预测价值。虽然这些研究的预测价值低于标准的分子生物学,但是也显示了较好的灵敏度和特异度[9,22]。以往的研究认为熵值(Entropy)和峰度值(kurtosis)是鉴别EGFR 突变状态的两个最重要的影像组学特征[5]。本研究发现除了熵值和峰度值,还有能量(Energy)、聚类阴影(Cluster Shade)灰度游程长度矩阵(GreyLevelRunEmphasis)、哈拉利克相关(HaralickCorrelation)等特征也对鉴别EGFR基因突变状态有贡献。另有研究表明,影像组学模型在鉴别EGFR基因突变状态方面要优于传统影像学与临床特征的联合模型[7]。因此笔者通过纳入以上这些特征计算出Rad-score,同时结合临床特征建立联合模型,使模型的预测效能有所提高。同时联合模型也获得了理想的灵敏度、特异度、准确度、阳性预测值及阴性预测值,因此笔者认为基于胸部CT影像组学特征和图像语义特征及临床特征的联合模型确有预测NSCLC是否发生EGFR基因突变的潜力。通过绘制列线图实现了模型的可视化。列线图是医学中常用的预后评估工具,在肿瘤评估方面尤为突出。它可以通过整合各种预后及决策变量,实现对个体临床事件的预测,满足建立生物学和临床综合模型及对个性化医疗的需求。与传统分期相比,它的数字界面能够实现快速计算,同时具有更高的准确度,能更容易了解疾病的预后,以帮助临床作出决策[23]。
本研究仍存在不足之处:本研究所提取的影像学数据都是手工半自动勾画,工作量较大,随着各种分割软件的发展,自动分割精度的提高,不仅可以较大程度减少工作量,同时可以减少人工误差。本研究样本量较小,且来自于单一医疗机构,未来样本量的扩大及多中心的合作,会使得该研究成果有更普遍的适用性。
综上所述,本研究发现联合临床危险因素和影像组学特征的临床-影像组学列线图,可以作为NSCLC EGFR基因突变预测的临床工具,辅助临床做好治疗决策,实现个体化精准医疗。