APP下载

不同影像组学特征筛选方法对早期NSCLC患者生存预测效能的比较研究

2022-01-06王鑫超崔曹哲胡奕奕李肖萌孟霞霞武志芳

肿瘤影像学 2021年6期
关键词:特征选择组学图像

王鑫超 ,崔曹哲 ,胡奕奕 ,李肖萌 ,孟霞霞 ,武志芳

1. 山西医科大学公共卫生学院,山西 太原 030001;

2. 山西医科大学第一医院核医学科,山西 太原 030001;

3. 分子影像精准诊疗省部共建协同创新中心,山西 太原 030001

肺癌是中国发病率和死亡率最高的恶性肿瘤,其中80%以上为非小细胞肺癌(non-small cell lung cancer,NSCLC)[1-2]。早期肺癌通常无明显症状,只有26%的患者在Ⅰ期或Ⅱ期被确诊;不同肺癌分期患者生存情况亦不同,Ⅰ期患者的5年相对生存率为57%,而Ⅳ期患者下降到4%,此外大多数国家肺癌患者确诊后的5年相对生存率仅为10%~20%[3-4]。肺癌的治疗前分期、分型及分化程度等与手术方式的选择、治疗方案的制订及患者的生存预后密切相关。

目前正电子发射体层成像(positron emission tomography,PET)/计算机体层成像(computed tomography,CT)显像是肺癌诊断与分期的常用影像学方法之一[5]。临床上常基于PET/CT图像的定性视觉物理特征及相应半定量指标来区分良恶性病变[6]。自2012年荷兰学者Lambin等[7]提出影像组学概念和方法,基于高通量数据的影像组学特征结合临床、病理及基因等信息而构建的风险预测模型,被广泛应用于临床诊断、疗效评估、预后与生存估测等方面,极大地推动了大数据和人工智能在临床诊疗中的应用[7-9]。但是,影像组学特征维度提升导致的共线性和过拟合问题逐渐凸显,而目前没有明确标准来判断何种模型或特征选择方法在具体任务和数据类型中表现最好。因此,比较多种特征选择方法以获得更强鲁棒性的模型至关重要[10]。

本研究拟从临床早期NSCLC患者的PET/CT图像中提取特定影像组学特征并与相关临床资料结合,构建患者3年总生存期(overall survival,OS)预测模型,探讨不同影像组学特征选择方法对模型效能的影响,以期为临床提供提高生存预测效能的特征选择方法。

1 资料和方法

1.1 研究对象

回顾并收集2017年3月—2018年9月进行治疗前18F-脱氧葡萄糖(fluorodeoxyglucose,FDG)PET/CT检查、并进行手术切除的早期NSCLC患者,依照美国癌症联合委员会(American Joint Committee on Cancer,AJCC)分期,Ⅰ期、Ⅱ期为临床早期NSCLC患者[11-12]。收集患者临床及影像学资料,包括年龄、性别、吸烟史、病理T分期、病理学分型、病理组织学分级、淋巴结转移、治疗方式和PET最大标准摄取值(the maximum standardized uptake value,SUVmax)。利用患者院内电子病历并结合电话随访,记录患者首次确诊NSCLC后诊疗及疾病进展情况,3年OS定义为患者首次确诊为NSCLC至任何原因导致的死亡或随访截止日期的时间。

纳入标准:① 在治疗前进行18F-FDG PET/CT全身扫描;② 术后病理学检查明确为早期NSCLC。排除标准:① 临床数据不全;② 有其他恶性肿瘤病史;③ 多原发灶肺癌;④ PET/CT检查前接受过抗肿瘤治疗或手术切除。

1.2 18F-FDG PET/CT图像采集

使用美国GE公司的Discovery MI PET/CT机进行扫描。扫描前,所有患者禁食至少6 h,患者静脉注射2.96~3.70 MBq/kg18F-FDG,休息约60 min进行扫描(从颅顶至股骨中段)。CT采集参数:管电压120 kV,管电流自动调为60~150 mA(x、y轴或z轴开启自动调节),噪声指数18.00,螺距0.984,旋转速度0.5 s,层厚2.8 mm,探测器覆盖范围为40 mm。PET成像以3 min/床的List-mode模式(记录每个重合事件的检测时间及其空间坐标的采集模式)进行全身采集。轴向视野25 mm,矩阵256×256。

1.3 图像分割及影像组学特征提取

本研究图像分割由2名核医学科医师(含1名高年资医师)共同协商并利用3D Slicer版本4.4.0(https://www.slicer.org/)分别对PET和CT图像逐层勾画肿瘤感兴趣区(region of interest,ROI),CT于肺窗上手动勾画;PET采用SUVmax的41%进行阈值法半自动勾画。利用MATLAB进行特征提取,每个患者共提取72个特定影像组学特征包括形态特征(15个)、全局特征(5个)、拉普拉斯高斯特征(14个)、灰度共生矩阵特征(6个)、相邻灰度差矩阵特征(15个)、灰度游程长度矩阵特征(6个)、灰度区域级矩阵特征(11个)。其中PET图像特征33个,CT图像特征39个。

形态特征通过计算几何学特征以反映整个肿瘤的三维空间结构,并对其进行量化研究;全局特征即一阶统计学特征,根据ROI中不同坐标点像素值,反映ROI整体的构型特征;拉普拉斯高斯特征属于滤波特征,使用不同高斯卷积滤波对图像进行降噪处理后以拉普拉斯算子作为边缘检测算子提高算子对噪声和离散点的鲁棒性,反映图像边缘检测的形态特征;灰度级变化特征反映图像ROI空间亮度变化等局部特征,在PET图像中可揭示肿瘤的代谢异质性,在CT图像中则可揭示肿瘤解剖学差异。

1.4 特征选择与模型构建

对上述影像组学特征进行归一化处理。之后采用不同方式进行特征选择:① 过滤式——互信息(mutual information,MI)算法。依据每个特征对患者生存状态与生存时间的信息贡献大小,以0.05为阈值分别进行特征筛选,最终在对生存状态以及生存时间均有贡献的特征中选取前5个的特征进入模型构建。② 包装式——递归特征消除(recursive feature elimination,RFE)算法。根据贪心算法原理,利用随机森林分类器筛选特征,分别以生存状态与生存时间为目标,以5个特征为保留目标,每次排除1个特征,经过训练模型,依据代价函数计算结果对所有特征进行排序,依据排序结果,删除影响最小的特征,最终选取5个特征进入模型构建。③ 嵌入式——最小绝对收缩和选择算子(least absolute shrinkage and selection operator,LASSO)算法。该算法通过构建损失函数,将不重要的特征权重置为0,经过10折交叉验证,最终选取5个特征进入模型构建,通过LASSO算法对特征进行筛选。④ 对于临床和影像学资料,利用单因素Cox分析法,选取P<0.20的特征进行分析[13]。分别构建Cox比例风险回归模型并采用一致性指数(concordance index,C-index)评估4种模型的预测效能,并以生存结局为因变量,利用最高维特征根检测模型自变量间共线性,评价何种特征选择方法筛选特征所构建模型的效果最好。

1.5 统计学处理

利用R 4.1.1与SPSS 26.0分析数据。对于正态分布的定量资料采用Student t检验;对于非正态分布的定量资料,两组间采用Mann-Whitney U检验,多组间比较采用Kruskal-Wallis检验;对于定性资料采用χ2检验比较组间差异;非正态分布的定量资料间相关分析采用Spearman分析;定量资料与生存结局间相关分析采用点二列相关分析。P<0.05为差异有统计学意义。

2 结 果

2.1 临床资料

本研究共收集符合纳入、排除标准的早期NSCLC患者98例并进行随访,其中17例患者失访(失访率12.3%),最终纳入81例患者进行研究。其中60例(74.1%)生存、21例(25.9%)死亡,中位OS为28个月,患者中位年龄为63.0岁。具体情况见表1。

表1 81例NSCLC患者临床及影像学资料

2.2 相关性分析

2.2.1 影像组学特征间的相关分析

对81例患者PET、CT图像的影像组学特征进行特征间相关性分析并绘制热图(图1),r>0.50时认为特征间可能存在共线性。结果显示有Contrast与GLV(rs=0.546,P<0.01)、Contrast与Variance(rs=0.504,P<0.01)、entropy_4与uniformity_4(rs=-0.569,P<0.01)、Contrast_2与Variance_2(rs=0.523,P<0.01)、SumAverage_1与AutoCorrelation_1(rs=-0.531,P<0.01)5对特征间可能存在共线性,在特征筛选中应考虑以上变量之间的多重共线性对模型拟合的影响。

图1 影像组学特征间相关性分析热图

2.2.2 影像组学特征间与生存结局的相关分析

对影像组学特征与患者生存结局进行相关性分析(表2),结果显示,影像组学特征中形态特征、灰度级变化特征和拉普拉斯高斯特征中均有与生存结局相关的特征,且相关程度高于SUVmax与生存结局的相关程度(rpb=-0.006,P>0.05)。

表2 影像组学特征与患者3年总生存结局的相关性分析(rpb)

2.3 特征选择

本研究共采用MI算法、RFE算法、LASSO算法、单因素Cox分析4种方法进行特征选择,LASSO算法对特征进行筛选的情况见图2,4种方法的特征选取情况见表3。

表3 不同特征选取方法筛选特征情况

图2 LASSO算法对特征进行筛选的情况

2.4 模型构建

根据不同方法所筛选的特征构建Cox回归模型以预测NSCLC患者3年OS,通过自主采样进行模型内部交叉验证并利用C-index评价模型的预测效果。结果显示,以LASSO法筛选变量构建的模型(C-index=0.83)预测能力最好,而以MI法筛选变量构建的模型(C-index=0.59)预测能力最差;LASSO和RFE法筛选变量构建模型预测能力优于单纯临床因素构建的模型(C-index=0.73);最高维特征根越接近0,表明所筛选特征间存在共线性的可能越大,结果表明MI法无法避免特征共线性。对LASSO筛选变量构建Cox模型绘制列线图表明影像组学特征能够作为预测变量进行模型构建。具体评价效果见表4、图3。

图3 基于LASSO方法筛选特征所构建Cox模型绘制的列线图

表4 不同特征选取方法筛选所构建Cox回归模型C指数

3 讨 论

随着影像设备、人工智能以及大数据算法等不断融合、发展,更多定量图像特征被提取,使得医学影像组学分析成为可能[14-15]。影像组学的不断发展使其数据维度逐渐升高,而相同类别影像组学特征存在一定共线性,因此特征选择变得越来越重要[10]。

目前影像组学特征的筛选方法共有过滤式、包装式、嵌入式3种,但因研究目的和数据的差异,特征选择以及模型构建方法尚无法统一。目前有研究[16]基于不同原理构建特征选择方法,而Han等[17]、Dalal等[18]、Fontaine等[19]研究比较了不同特征选择以及模型构建方法的差异,但只是针对各自研究选取最佳组合。本研究在3种方法中各选取1种进行特征选择,LASSO能够有效地消除特征间的共线性,其选取的灰度级变化类特征能够有效地预测患者生存,这与相关研究[20-21]结果相一致。影像组学特征可通过间接像素点的灰度变化来反映肿瘤内部无法被人眼发现的特征,在生存分析上具有一定价值,但具体机制尚不清楚,因此本研究引入相关临床资料一同用于生存预测。

本研究存在一定的不足:① 病例数有限,应进一步扩大病例数,通过大样本数据研究以及多中心数据进行外部验证以得到更加稳定、可靠的结果;② 对于呈现较高相关性的影像组学特征,应继续寻找筛选方法分析除共线性特征之外其余特征之间的交互作用,以进一步选取合适的特征进行模型构建。

综上,利用影像组学特征构建模型之前,有必要分析不同图像数据所提取特征间共线性及冗余度等,选择多种特征选择方法,经比较选择合适的特征并选择联合模型构建方法,以提高模型效能,对临床决策提供科学支持。

猜你喜欢

特征选择组学图像
影像组学在肾上腺肿瘤中的研究进展
基于影像组学的直肠癌术前T分期预测
基于生成对抗网络的CT图像生成
东莨菪碱中毒大鼠的代谢组学
浅析p-V图像中的两个疑难问题
影像组学在核医学影像中的应用进展
巧用图像中的点、线、面解题
基于智能优化算法选择特征的网络入侵检测
故障诊断中的数据建模与特征选择
reliefF算法在数据发布隐私保护中的应用研究