APP下载

基于增强CT影像组学联合机器学习鉴别均质性肾透明细胞癌与肾乏脂肪血管平滑肌脂肪瘤

2021-09-22黄忠江姜增誉李健丁张智星陈文青

实用医学杂志 2021年17期
关键词:组学脂肪特征

黄忠江 姜增誉 李健丁 张智星 陈文青

1山西医科大学医学影像学院(太原030000);2山西医科大学第一医院影像科(太原030000)

血管平滑肌脂肪瘤(angiomyolipoma,AML)是最常见肾脏良性实性肿瘤,通常因其含有脂质成分,在临床影像诊断中与肾透明细胞癌(clear cells renal cell carcinoma,ccRCC)较易鉴别,而少数缺乏或仅含有少量成熟脂肪成分,被称为肾乏脂肪AML,其影像学表现与无囊变、坏死、出血的均质性ccRCC 极其相似,影像科医生对图像征象的主观观察还不足以区分两者,因此非常容易误诊[1],通常需要活检或手术才能确诊。过往研究中多数是定量分析影像学特征来提高鉴别诊断能力[2-4],然而仍然存在误诊及无法确诊的难题。近年来影像组学受到越来越多的关注,与传统的影像图像分析不同,影像组学使用数学算法来定量提取大量不能直接观察到的病灶内部特征[5-6]。影像组学在肾肿瘤领域中已被应用于肾透明细胞癌分级及肾癌亚型的鉴别诊断[7-8]。术前鉴别肾均质ccRCC与肾乏脂肪AML 可减少患者有创活检及手术痛苦。本研究的目的是探讨基于CT 增强影像组学联合机器学习建立组学模型并联合临床特征建立综合模型术前鉴别肾均质ccRCC与肾乏脂肪AML。

1 资料与方法

1.1 一般资料回顾性分析2017年9月至2020年12月在我院泌尿外科手术病理证实且影像诊断报告无法确诊及误诊的ccRCC 和肾乏脂肪AML 的患者,纳入标准:(1)病理结果证实单发ccRCC 和肾乏脂肪AML 的患者。(2)术前在我院行泌尿系增强CT,图像质量好,可满足分析要求。(3)临床资料齐全。排除标准:(1)CT 平扫图像有可见病灶内脂肪的肾AML 患者;(2)肿瘤有明显坏死、囊变或出血的ccRCC 患者。研究共纳入患者48 例,男19例,女29例,年龄26~83岁,平均(52.7±12.7)岁。经术后病理证实均质性ccRCC 28 例,肾乏脂肪AML 22 例。

1.2 CT 图像分析及特征提取将原始DICOM 图像导入ITK-SNAP 软件(version3.8.0,www.itksnap.org),由2名住院医师和1名5年工作经验影像主治医师对皮质期及髓质期薄层图像(层厚为0.5 mm)逐层勾画感兴趣区(region of interests,ROIs),要求勾画不超过肿瘤边缘且<1 mm,最后保存为三维容积ROIs(图1),然后由2 名15年以上工作经验的影像主任医师对之前影像医生勾画感兴趣区进行检验,最后由主任医师的标准为最终结果。使用开源python 平台“Pyradiomics 1.3.0”(http://www.radiomics.io/pyradiomics.html)在原始图像上和经过滤波处理的派生图像进行特征提取,具体为在原始图像上提取了一阶统计特征、基于形状特征和纹理特征,然后将原始图像小波滤波转换成高、低频组合成8 个不同频率组合的特征,将再次提取一阶统计特征和纹理特征,两期CT 图像总共可提取1 706 个组学特征。

图1 肿瘤感兴趣勾画生成三维ROIsFig.1 Tumor region of interests are sketched to generate 3D ROIs

1.3 特征筛选与组学预测模型建立所有数据进行训练建模,为了保证数据的平衡性采用了合成少数类过采样技术(SMOTE),然后对特征进行z-score 归一化处理。选择皮尔逊相关系数(PCC)降维,使用方差分析(ANOVA)来选择特征,为了避免模型过拟合,按F 值排名分别选取1~6 个数量的特征进行建模,利用逻辑回归(LR)、随机森林(random forest,RF)和支持向量机(support vector machine,SVM)三种机器学习方法建立共18 个预测模型,进行5 倍交叉验证,选取交叉验证集AUC值最高的为最佳模型。对模型采用bootstrap 法内部验证得到受试者工作特征(ROC)曲线分析计算ROC 曲线下面积(AUC)值评估模型的诊断效能。

1.4 临床特征分析根据患者临床信息和CT 图像信息将年龄、性别、肿瘤大小(CT 轴位最长径)、肿瘤位置(左肾或右肾)纳入临床特征,进行单因素分析,然后将有统计学意义的临床特征进行二元logistic 回归分析,建立临床预测模型并计算ROC 曲线下面积。

1.5 建立综合模型并绘制列线图利用所选临床特征和最佳组学模型预测值进行多因素二元logistic 回归建立综合模型,并绘制列线图,采用Hosmer-Lemeshow 拟合优度检验评价综合模型的拟合度,并绘制校正曲线。绘制决策曲线评价综合模型鉴别均质性ccRCC 和肾乏脂肪AML 的净获益。最后DeLong 检验比较临床模型、组学模型和综合的ROC 曲线的性能。

1.6 统计学方法临床组学特征数据处理及构建模型使用开源FAE 软件,采用SPSS 25.0 分析临床特征,对定量变量进行独立样本t检验,对定性变量进行卡方检验或Fisher 确切概率法,然后进行多因素二元logistic 回归分析。使用MedCalc 软件绘制ROC 曲线并进行DeLong 检验。R 软件使用“RMS”软件包进行列线的绘制和校准,使用“Generalhoslem”软件包进行Hosmer-Lemeshow 检验,决策曲线使用“dca.R”软件包。P<0.05 为差异有统计学意义。

2 结果

2.1 组学模型建立及效能18 个组学预测模型中结果选取5 个特征数LR 模型交叉验证集AUC=0.70 为最高(图2),将此模型选为最优模型,所选特征及特征贡献度(图3)。此模型经bootstrap 法内部验证AUC 值为0.836(95%CI:0.701~0.927)。

图2 LR 模型不同特征数交叉验证集AUC 分布Fig.2 AUC distribution of cross validation set of different feature numbers in LR model

图3 最佳模型特征贡献值Fig.3 Feature contribution value of the best model

2.2 临床预测模型建立患者临床信息和CT影像信息分析得出,只有性别差异有统计学意义(表1),因此将性别作为预测因子建立临床预测模型,模型AUC 值为0.656(95%CI:0.499~0.812)。

表1 临床特征分析Tab.1 Analysis of clinical features ±s

表1 临床特征分析Tab.1 Analysis of clinical features ±s

组别肾乏脂AML均质ccRCC t/χ2值P 值例数22 26男/女4/18 14/12 6.467 0.011年龄(岁)51.5±12.1 53.8±13.4-0.645 0.551肿瘤大小(cm)3.15±1.79 2.78±1.31 0.820 0.279右肾肿瘤(例)12 9 1.923 0.244

2.3 绘制综合模型列线图与不同模型比较综合模型的AUC 为0.869(95%CI:0.740~0.949),综合模型绘制的列线图(图4)提供预测为均质性ccRCC 的预测概率。综合模型的校准曲线(图5)具有良好的一致性(P>0.05)。决策曲线分析(图6)显示大部分概率值综合模型可获得更多的净收益。三种模型的ROC 曲线分析性能比较(图7),通过DeLong 检验,组学模型和综合模型都比临床模型的效能高,差异有统计学意义(P<0.05),虽组学模型与综合模型效能差异无统计学意义(P>0.05),但综合模型AUC 值更高。

图4 根据肿瘤大小及组学模型预测值通过多因素二元logistic 回归分析预测均质透明性细胞癌的列线图Fig.4 The nomogram for predicting homogeneous clear cell renal cell carcinoma based on tumor size and predicted values of radiomics model by binary logistic regression analysis

图5 综合模型的校准曲线Fig.5 Calibration curve of the comprehensive model

图6 三种模型的临床决策曲线Fig.6 Clinical decision curves of the three models

图7 三种模型ROC 曲线性能比较Fig.7 ROC curve comparison of the three models

3 讨论

肾AML 和ccRCC 是最常见的良、恶性肾肿瘤,两者的临床决策和预后截然不同[9]。肾乏脂肪AML 与ccRCC 有相似的影像学表现,特别是与无明显坏死、囊性变或出血的均质性ccRCC 比较时,使得常规影像鉴别诊断相当困难[10]。影像组学是一种新的研究方法。它在医学图像中的应用,特别是在癌症领域的应用,已成为众多学者研究的热点[11]。本研究结合影像组学特征联合临床因素建立综合模型鉴别肾乏脂肪AML和均质性ccRCC。首先,最佳组学模型具有良好的鉴别能力,AUC 值为0.836。其次,本研究纳入了年龄、性别,肿瘤大小临床特征因素,经分析得出性别可以作为独立预测因子,与过往研究结果一致,可能有本研究纳入标准严格和病例数量有限的原因,并未得到年龄也是一个独立预测因子[12-14]。利用性别因素建立的临床模型性能较一般。为验证组学模型和临床模型是否具有互补性,因此,本研究建立综合模型效果最佳。

交叉验证集AUC 值高的模型稳定即泛化能力好[15]。本研究虽提取出大量特征,但由于样本量有限,为了避免过拟合特征选择数少于样本量的1/8,故本研究值筛选F 值排名前六的特征数开发了基于三种机器学习方法的18 个模型,若样本量继续扩大,可选择更多的特征数建模。目前已有多项研究利用CT 图像纹理分析鉴别肾乏脂肪AML 和肾细胞癌(renal cell carcinoma,RCC)。HODGDON 等[16]开发了一个CT 纹理模型,使用SVM 分类器在CT 平扫图像上区分肾乏脂肪AML和RCC,结果AUC 为0.89。LEE 等[17]使用三种特征选择方法和四种机器学习算法开发了一个基于纹理分析的分类系统,结果得出采用Relief 特征选择方法使用k 近邻和SVM 分类器对肾乏脂肪AML和RCC 诊断的准确率分别达到了72.3%和72.1%。VARGHESE 等[18]收集了129 例RCC(包括三种亚型)和45 例良性肾肿瘤(嗜酸细胞瘤和肾乏脂肪AML),用CT 纹理特征在鉴别良、恶性以及其中某一类亚型和其余所有肿瘤的准确性。结果鉴别良恶性的AUC 为0.87,其中某一类亚型和其余所有肿瘤的AUC 为0.80~0.98。与上述研究相比本研究目的更加明确,研究对象只选择无明显坏死、囊变或出血的均质性ccRCC 和肾乏脂肪AML,两者是临床工作中最常遇到的诊断难题,也最容易误诊。本研究的方法也做了几点改进。首先,本研究中使用的是三维ROIs,与二维ROIs 相比,实现了分辨效率的提高,三维ROIs 是整体肿瘤分析,比最大横截面更能提示出肿瘤的异质性[19]。其次,之前多项研究是基于几十个纹理特征分析。然而,近年来影像组学的快速发展已经可提出更多的特征,能够更全面地了解肿瘤异质性[20]。本研究提取了原始图像及小波滤波图像中特征,每个病例的动、静脉期CT 图像中共提取1 706 个特征,提供了更多有价值的特征。本研究的模型所选特征为小波特征是常规纹理分析无法获取的。

为了探索临床应用,本研究在综合模型基础上建立了一个列线图,作为鉴别肾乏脂肪AML 和均质性ccRCC 实用工具。综合模型具有较高的AUC,表明具有较好的鉴别能力及推广价值。此外,从决策曲线分析可以得到大部分概率值获得更多净收益,表明用综合模型作临床决策可获得较好的结果。本研究的列线图为临床医生提供了一个具有前景的工具。具体来讲根据列线图给出的均质ccRCC 的预测概率,可采取不同的治疗策略。肾AML 患者可选择定期观察,ccRCC 患者则选择手术治疗[21]。

本研究也存在局限性。首先,作为病例对照研究,样本量小且没有设置独立测试集数据,因此模型采用bootstrap 法内部验证。研究需进一步扩大样本量,展现出模型的泛化能力。其次,人工分割三维ROIs 既耗时又复杂,特别是对于边界不清的肿瘤。今后重点应开发一种深度学习算法自动分割肾肿瘤。总之,本研究开发了一种基于临床因素和CT 影像组学的综合模型,具有良好的术前鉴别肾乏脂肪AML 和均质性ccRCC 效能,可将其作为一种无创、实用的方法来辅助临床诊疗。

猜你喜欢

组学脂肪特征
根据方程特征选解法
减肥后脂肪去哪儿了
脂肪竟有“好坏”之分
离散型随机变量的分布列与数字特征
影像组学在肾上腺肿瘤中的研究进展
东莨菪碱中毒大鼠的代谢组学
影像组学在核医学影像中的应用进展
蛋白质组学技术在胃癌研究中的应用
反派脂肪要逆袭
不忠诚的四个特征