APP下载

不同单位18F-FDG PET/CT影像预处理对鉴别肺腺癌EGFR突变状态的影响

2022-01-06孙大桢刘秋芳王利生宋少莉

肿瘤影像学 2021年6期
关键词:组学灰度预处理

孙大桢 ,刘秋芳,李 楠,黄 钢,王利生,宋少莉

1. 上海交通大学自动化系,上海 200210;

2. 复旦大学附属肿瘤医院核医学科,复旦大学上海医学院肿瘤学系,上海 200032;

3. 上海市分子影像学重点实验室,上海健康医学院,上海 201318

肺癌是最常见的癌症之一,肺腺癌作为肺癌最主要的组织学类型,其治疗方法一直是肿瘤学的重要课题[1-2]。近年来,分子靶向治疗已成为发展迅速的肺癌治疗方法之一,表皮生长因子受体(epidermal growth factor receptor,EGFR)基因作为一个有效靶点,受到了许多研究者[3]的关注。多项研究[4]表明,相比于EGFR野生型或是其他突变,存在EGFR突变的肿瘤对酪氨酸激酶抑制剂(tyrosine kinase inhibitor,TKI)的反应率更高。因此,准确鉴别患者的EGFR突变状态成为了选择治疗方法的重要一环。

目前,临床上主要通过对肿瘤活检标本进行基因检测来判断EGFR的突变状况。然而,这种方法一方面受限于肿瘤本身的异质性,另一方面,用于检测的标本中肿瘤细胞含量也可能不足,从而影响基因检测结果的准确性[5-6]。因此,可靠、非侵入的EGFR检测方法就显得极为重要。

一些研究者已经开始关注影像学特征与EGFR突变之间的关联性。Dai等[7]、Rizzo等[8]尝试探究包括空气支气管造影、胸膜牵拉、病灶尺寸等计算机体层成像(computed tomography,CT)影像学特征与EGFR突变之间的联系,但这些研究对CT解剖结构信息的利用程度非常有限;影像组学作为新兴的分析手段,也已经被许多研究者[9-11]用于构建基于影像学特征的EGFR预测模型。然而,这些研究均为小样本、单中心数据,其提取的影像组学特征往往会受到数据来源、成像条件的影响,难以保证稳定性。在先前的研究[12]中,我们使用统计学显著性检验的方法直接剔除了在两个不同数据来源间有显著差异的影像组学特征,并构建了对肺腺癌EGFR亚型的预测模型。

然而,直接将不稳定特征去除的做法,很容易导致有效信息丢失,降低预测模型的效能。因此,在本研究中,我们继续使用先前研究[12]中的数据,针对多中心正电子发射体层成像(positron emission tomography,PET)/CT影像中不同断层间隔的CT影像预处理,提出了几种简便直观的预处理方案,并通过对比实验探究不同处理方法对影像组学特征的稳定性以及特征预测能力的影响。

1 资料和方法

1.1 研究对象

收集2016年1月—2017年12月于上海交通大学附属仁济医院(医院1)和复旦大学附属肿瘤医院(医院2)治疗的肺腺癌患者共148例,其中88例来自医院1,60例来自医院2。纳入标准:① 经病理学检查确诊的肺腺癌患者;② 进行过EGFR突变测试;③ 肿瘤为EGFR野生型,以及EGFR突变类型包括19外显子缺失或21外显子L858R错义;④ 治疗前18F-FDG PET/CT扫描数据可获取。

1.2 PET/CT影像采集

医院1和医院2的图像采集分别使用了德国Siemens公司的Biogragh mCT和Biogragh 16HR设备。患者在禁食至少6 h按照7.4 MBq/kg的剂量注射放射性示踪剂,并在注射1 h后开始图像采集。使用Biograph mCT对应的CT扫描参数:管电压120 kV,电流140 mA,扫描层厚和层间距均为3 mm;随后的PET扫描采集时间为每个床位3 min,使用CT图像对PET迭代重建来进行衰减校正。使用Biogragh 16HR的场合,CT扫描设定为管电压120 kV,电流140 mA,扫描层厚和层间距均为3 mm,随后的PET扫描采集时间为每个床位2~3 min,并使用高斯滤波进行迭代重建。

1.3 EGFR突变状态检测

EGFR突变状态由对应医院的病理科对手术切除的标本进行病理学检查获取。检测方法为利用ARMS工具包提供的扩增难治突变系统实时技术,对EGFR第18、19、20、21外显子进行测试。

1.4 影像组学方法

1.4.1 图像分割

PET/CT图像采用人工分割,由2名影像科医师独立进行,进行分割的医师对病理学检查结果和EGFR基因检测结果不知情。分割工具采用ITK-SNAP,仅分割主要肿瘤,沿病灶边缘外侧进行逐层勾画。分割在CT图像上进行,然后通过软件对齐到相应的PET图像上。

1.4.2 影像预处理

由于不同来源的两组数据的PET影像断层间隔均为5 mm,因此本研究主要考虑对CT图像进行处理。采用的方法:① 将两组数据的CT灰度值范围归一化至同一值域,如公式(1)所示,对图像序列中的每个像素I(x,y)进行处理:

其中max(I)、min(I)分别为原图像的灰度最大、最小值,[a,b]为归一化的目标值域。

② 将医院1的CT影像降采样。③ 将来自医院2的CT影像通过插值的方式升采样。方法②、③中对图像的升、降采样,通过在Z轴方向上对原图像序列S进行重采样缩放来实现,如公式(2)所示:

其中az为Z轴上的缩放系数,由断层间隔和像素间距共同确定,Rescale为通过计算机编程实现的重采样函数。

我们分别对这3种方法及其组合进行了如下实验:将所有CT影像的灰度归一化到同一范围;对来自医院1的CT影像进行降采样;对来自医院2的CT影像进行升采样;将所有CT影像的灰度归一化到同一范围后,对医院1的影像进行降采样;将所有CT影像的灰度归一化到同一范围后,对医院2的影像进行升采样。另外,作为参考,我们也将不进行额外预处理的基线情况纳入了对比。影像预处理操作在Python 3.6.2版本下,使用Simpleitk软件包[13]完成。

1.4.3 影像组学特征提取

影像组学特征的提取使用Pyradiomics软件包[14]进行。提取的特征总体包括3类,即形态学特征、图像一阶统计量和纹理特征。PET和CT图像的特征提取各自独立进行。对CT图像,特征提取在原影像以及经过小波变换后的图像上进行,共提取了1 470个CT影像组学特征。对于PET影像,特征仅在原图像进行计算,没有引入额外的图像变换,共提取100个PET影像组学特征。

1.4.4 特征的稳定性预筛查

对每个特征根据其影像来源进行Mann-Whitney U检验,P<0.05即认为该特征在两个来源间差异有统计学意义。为了确保后续分析所采用的影像组学特征受到数据来源的影响最小,我们将阈值放宽,仅选取P>0.20的特征作为稳定特征进入后续的筛选。预筛查所涉及的统计检验使用scipy软件包进行。

1.4.5 特征筛选及预测模型构建

按照1∶3的比例,将患者划分为训练集(111例)和测试集(37例)。特征筛选在训练集中进行,具体流程如下:首先,计算稳定特征的方差膨胀系数(variance inflation factor,VIF)[15],删除VIF值最大的特征后,反复迭代,直到所有特征的VIF值都低于阈值(本研究中设为10);随后,构建随机森林(random forest,RF)分类模型,利用该模型对剩余特征进行重要性得分,保留重要性排序在前四分之一的特征;最后,使用最小绝对收缩与选择算子(least absolute shrinkage and selection operator,LASSO)回归模型进一步精简特征,从而获得最优的特征子集。根据筛选出的特征子集,采用logistic回归(logistic regression,LR)算法在训练集上搭建分类模型,并在测试集上测试,模型参数通过在训练集进行5折交叉验证决定。特征筛选和建模流程中涉及的所有操作均在Python 3.6.2版本下,利用scikit-learn和statsmodels软件包实现。

2 结 果

2.1 研究对象基本资料

148例患者的基本资料如表1所示,存在EGFR突变的患者占比为50.7%(75/148),其中26例(34.7%)为男性,49例(65.3%)为女性。训练集和测试集中存在EGFR突变的患者占比分别为51.4%(57/111)和48.6%(18/37)。年龄、肿瘤大小、TNM分期差异无统计学意义。

表1 148例患者的基本资料

2.2 不同影像预处理方法对特征可靠性的影响

如表2所示,所有预处理方式都能提高影像组学特征的稳定性。其中,灰度范围归一化与降采样两种方法的组合效果最好,相比基线情况提升了30.8%,有63.9%(939/1470)的特征在两组间差异无统计学意义;单独进行升采样的效果最差,保留了854个稳定特征,相比基线情况提升了18.9%。

表2 不同预处理方式对特征稳定性的影响

2.3 影像组学特征的预测能力评估

不同预处理方法对应的LR分类器,在训练集、测试集上分别绘制ROC曲线并计算曲线下面积(area under curve,AUC),如图1所示。灰度范围归一化与降采样组合的方法,在训练集与测试集上都取得了最好的鉴别效能,其AUC分别为0.862和0.716;在基线情况下,模型在测试集的表现几乎与随机相同。另外,仅进行灰度范围归一化时,模型在测试集上相较于基线提升了0.16的AUC;单独进行升、降采样并不能显著提高模型性能,尤其是在降采样下,模型的测试AUC降低到0.442,劣于随机和基线模型。

图1 不同预处理方式对应的影像组学模型鉴别EGFR突变状态的ROC曲线

3 讨 论

临床上EGFR突变状态的判断有重要意义。影像组学通过从影像中高通量地提取特征,能够以一种非侵入的方式了解肿瘤的异质性,在预测EGFR突变状态上的应用也受到众多研究者关注。Mei等[16]使用CT影像组学特征结合临床信息建模,其模型AUC值为0.664;Li等[17]使用PET/CT影像组学特征结合临床信息,进一步提高了鉴别EGFR突变的准确度。我们的先前研究[12]引入了多中心数据,但侧重于判断EGFR的具体亚型,对于多中心数据的处理仅限于直接排除受到成像参数显著影响的特征。

不同成像条件对影像组学分析的影响是影像组学的热点问题之一。已有研究[18-19]指出,CT的断层间隔、PET影像的重建算法对于计算的影像组学特征都有很大的影响。Zhao等[20]发现,纹理特征相比于形态学和一阶图像统计量更容易受到这些因素的影响。区别于上述研究,本研究围绕肺腺癌的EGFR突变预测,探究了几种针对不同成像条件的CT影像进行预处理的方法,并通过对比实验展现这些方法对特征的稳定性以及特征预测能力的影响。

我们将两个数据源间不存在显著性差异的特征视为稳定特征。本研究中所涉及的三个方法即灰度范围归一化、降采样和升采样,分别相较于基线情况多保留了25.2%、30.5%和18.9%的稳定特征。灰度范围归一化能够直接抵消不同数据来源、成像设备带来的图像值域偏差,从而提高特征的稳定性;重采样是一种直观的数据对齐手段,其中,降采样的过程不会引入新的信息,而升采样所涉及到的插值过程则不可避免地会给影像增加不可靠的信息,因此降采样方法在提高特征稳定性上的表现更好。

更稳定的特征是否代表着更强的预测能力呢?从预测建模结果看,特征的稳定性与特征实际的预测能力并非完全正相关。一方面,归一化与降采样结合的方法提取出的特征稳定性最佳,其对应的预测模型在测试集中AUC指标也最高;另一方面,单独的升、降采样方法,在提高特征稳定性的同时,并没有提高预测能力,在测试集上相比基线分别有0.026和-0.064的AUC变化。与灰度归一化方法结合后,对应的预测模型分别提高了0.138和0.274的测试集AUC,但对于特征稳定性的提升却相当有限,仅额外多保留了1.2%和0.3%的稳定特征量。我们猜测这种结果出现的原因是灰度范围归一化对于升、降采样的过程产生了一定的约束作用,降低了图像变换对有效信息的影响。

本研究存在以下局限性:① 对多中心数据处理的方法挖掘不够充分。本文探讨的几种处理方法都比较直观,没有考虑其他复杂方法,尤其是近年来兴起的基于深度学习的方法;② 本研究中采用的LR分类模型,常用来衡量特征的预测能力,为了得到最优的分类模型还需要引入更多先进的机器学习算法;③ 虽然本研究收集了两个不同中心的数据,但总样本量仍然偏少,并且缺乏外部独立验证,需要收集更多数据以验证目前结果。

综上所述,我们基于PET/CT影像组学构建了鉴别肺腺癌患者EGFR突变状态的分类模型,图像预处理分析结果表明可以采用灰度范围归一化结合降采样的方式来处理多中心CT数据,以提高特征稳定性和模型分类效能。我们期待今后进一步收集不同来源的影像数据,探究其他多中心情境下的数据处理方式,并在更多的临床任务中构建更加可靠的影像组学模型。

猜你喜欢

组学灰度预处理
航空滤光片阵列多光谱图像条带灰度调整算法
KR预处理工艺参数对脱硫剂分散行为的影响
预处理对医用外科口罩用熔喷布颗粒过滤性能的影响
采用改进导重法的拓扑结构灰度单元过滤技术
手术器械预处理在手术室的应用
影像组学在肾上腺肿瘤中的研究进展
基于影像组学的直肠癌术前T分期预测
东莨菪碱中毒大鼠的代谢组学
天津港智慧工作平台灰度发布系统和流程设计
影像组学在核医学影像中的应用进展