基于机器学习CT影像组学特征联合血清学特征模型预测高出血风险食管静脉曲张*
2023-06-29林子淮李欣明全显跃
林子淮 李欣明 全显跃
南方医科大学珠江医院影像诊断科 (广东 广州 510220)
胃食管静脉曲张破裂出血(gastroesophageal varices bleeding,GEVB)是肝硬化门静脉高压症最严重的并发症[1-3]。发生率约占门脉高压患者的50%,6周病死率约为15-25%[4-6],具有病情凶险、死亡率高、再次出血风险大的特点。其中,食管静脉曲张破裂出血为其最常见的类型。早发现、早处理急性出血、早预防再次出血,至关重要。
目前,国际指南Baveno VII推荐将电子胃镜(esophagogastroduodenoscopy,EGD)检查作为食管静脉曲张破裂出血的首选筛查方法和诊断金标准[7],对降低出血风险起重要作用。但仍存在高血压、心肺功能不全、出血倾向患者无法接受电子胃镜检查,而错失了食管静脉曲张最佳的干预时机。如何通过无创性检查手段预测食管静脉曲张破裂出血,特别是预测高出血风险食管静脉曲张(high-risk varices,HRV),为临床需求。
近年来,中国门静脉高压联盟(CHESS)团队[8]采用基于CT平扫影像组学模型预测食管静脉曲张破裂出血,结果显示CT影像组学模型具有较大的预测潜能。总胆红素、血清白蛋白、凝血酶原时间等实验室检查对评估肝功能、预测食管静脉曲张具有一定提示作用。故本研究通过构建影像组学特征和血清学特征联合模型,并用临床病例验证模型的预测性能,现报道如下。
1 资料与方法
1.1 一般资料本研究由院医学伦理委员会批准,患者均签署知情同意书。本研究为单中心回顾性研究,回顾性收集2015年1月至2019年9月于南方医科大学珠江医院接受电子胃镜的所有代偿期肝硬化门静脉高压患者。
纳入标准:临床诊断为代偿期肝硬化;有电子胃镜、血清学检查、腹部CT扫描检查的患者,且三类检查的时间间隔不超过14天;年龄在18~75岁之间,且知情同意。排除标准为:CT图像存在伪影导致感兴趣区无法勾画;既往曾接受过下列手术之一的患者:经颈静脉肝内门体分流术、脾切除术、部分脾栓塞、逆行球囊阻塞术、经静脉闭塞术或肝移植;患者合并肝脏肿瘤、脾脏肿瘤、严重腹水或肝性脑病。
1.2 方法
1.2.1 胃镜检查 根据本院内镜室检查前要求做好肠道准备,电子胃镜检查由10年以上内镜检查经验的临床医师使用配备的标准机器进行,所有镜下发现都记录在数码照片上,最后由两名10年以上工作经验的临床医师根据内镜照片复核并最终确认是否存在高出血风险食管静脉曲张,内镜下高出血风险食管静脉曲张的判断标准(满足以下任一条件):(1)小静脉曲张伴有红色征(2)小静脉曲张伴Child-Pugh评分C级(3)中-大静脉曲张(直径>5mm)(参考国际指南Baveno VII)[7]。
1.2.2 实验室检查 收集离内镜检查最近一次的实验室血清学检查数据,检验项目均为临床常规检查,包括包括红细胞计数(RBC)、白细胞计数(WBC)、血红蛋白计数(Hb)、血小板计数(PLT)、血肌酐(Cr)、丙氨酸氨基转移酶(ALT)、天门冬氨酸氨基转移酶(AST)、γ-谷氨酰转肽酶(GGT)、白蛋白(ALB)、总胆红素(TBIL)、凝血酶原时间(PT)、活化凝血酶时间(APTT)、国际标准化比值(INR)。
1.2.3 CT影像采集及感兴趣区域勾画 所有患者均采用Philips Brilliance 64 排螺旋CT采集图像,参数:管电压120kVp;管电流150 -600mAs;层厚5mm;螺距0.984。所有入组患者的腹部平扫CT图像由我院两名影像科医师进行感兴趣区(Region of interest,ROI)勾画及影像组学特征提取。ROI勾画使用ITKSNAP 3.8.0软件完成。选择肝脏第一肝门层面、脾脏脾门平面分别作为该层面全肝及全脾ROI进行勾画。先由一名5年腹部诊断经验的影像科医师沿脏器轮廓进行勾画,经另一名8年腹部诊断经验的影像科医师检查、修改并确认后作为最终ROI(图1)。
图1 图1A:第一肝门区层面肝脏轮廓,图1B:脾门区层面脾脏轮廓,图1C:第一肝门区轮廓勾画图,图1D:脾门区轮廓勾画图。图2 LASSO算法交叉验证的参数(Lambda)调优路径图。图3 LASSO 算法在各组学特征系数路径图。图4 HRV_Sig验证集的ROC曲线图。图5 PLT_Sig验证集的ROC曲线。图6 诺莫图。图7 三种模型训练集预测效能的ROC曲线对比图。图8 三种模型验证集预测效能的ROC曲线对比图。
1.2.4 影像组学特征提取及分析 对勾画好的ROI数据,使用pyradiomics 1.2.0 进行特征提取,共得到214维特征。这些手工特征可以分为3组,分别是:几何形状、强度和纹理,几何特征描述了第一肝门层面肝脏以及脾门层面脾脏的形状特征,强度特征描述了肝脏以及脾脏的体素强度的一阶统计分布,纹理特征描述体素的二阶以及高阶空间分布。在这里,我们使用了几种不同的方法提取纹理特征,包括灰度共生矩阵(GLCM)、灰度游程矩阵(GLRLM)、灰度尺寸区域矩阵(GLSZM)和邻域灰度差矩阵(NGTDM)。每一个患者,将提取所有特征使用z-score正则化,使用Spearman相关系数计算特征之间的相关性,对于任意两两特征之间相关系数大于0.9的特征保留其一。为了最大程度上保留特征的刻画能力,特征筛选我们使用贪心递归删除策略(greedy algorithm),即每次删除在当前集合中冗余度最大的特征。使用Lasso对数据进行10折交叉验证,选用最好的惩罚系数λ,筛选出系数不为0的特征(图2)。对影像组学特征进行最终的筛选,最后筛选出13个与高出血风险食管静脉曲张密切相关的特征,其中有4个影像组学特征来自肝脏第一肝门区和9个影像组学特征来自脾脏脾门区(图3)。
将入组患者按4:1比例分为训练集和验证集。使用多种机器学习算法模型(LR、SVM、DT、RF、ExtraTree、XGBoost等)进行训练,最后对模型进行验证,得到常见指标验证以及结果可视化。为了寻找到最佳的模型超参,在训练模型的过程中,我们使用了网格搜索的算法,对每个模型的常见超参进行最佳超参。本研究将影像组学特征和血清学特征结合构建Nomogram模型。为了能使Nomogram模型更具有临床实用性,采用年龄、性别、有无静脉曲张、影像组学特征、血清学特征一起绘制诺莫图。建立三个预测模型,分别为影像组学特征模型(高出血风险食管静脉曲张_Sig,HRV_Sig)、血清学特征模型(PLT_Sig)、影像组学联合血清学的影像组学模型(Nomogram)用于预测高出血风险食管静脉曲张。以高出血风险为学习目标,对比3个不同模型的预测效能。
1.3 统计学方法应用SPSS 25.0软件,连续变量以(均数±标准差)表述,分类变量以中位数和四分位数间距表述。以电子胃镜结果为金标准,以受试者工作特征曲线下面积(the area under the receiver operating characteristic curves,AUC)、灵敏度(sensitive,SE)、特异度(specificity,SP)以及阈值(threshold,TH)来评估模型的预测效能。P值<0.05为差异有统计学意义。
2 结果
2.1 入组患者基线特征本研究共纳入129例代偿期肝硬化门静脉高压患者数据。采用年龄、性别、胃镜结果是否有静脉曲张及高出血风险静脉曲张、肝硬化病因、Child-Pugh分级、PLT、ALT、AST、GGT、ALB、TBIL、INR数据绘制入组患者基线表(表1)。训练集与验证集的各项基线数据P值均大于0.05,训练集与测试集之间无明显差异。
表1 入组患者的基线特征
2.2 HRV_Sig及PLT_Sig模型在各种机器学习方法下预测高出血风险食管静脉曲张的效能
2.2.1 HRV_Sig预测高出血风险食管静脉曲张的效能(表2) 表2示影像组学特征模型的AUC在0.550-0.887之间,敏感度、特异性分别在0.600-1.000、0.625-1.000之间,阈值在0.412-1.000之间。预测效能最高为LightGBM机器学习方法,AUC值为0.887。
表2 HRV_Sig预测HRV的效能
2.2.2 PLT_Sig预测高出血风险食管静脉曲张的效能(表3) 表3显示血清学模型的AUC在0.561-0.845之间,敏感度、特异性分别在0.454-1.000、0.400-1.00之间,阈值在0.300-1.000之间。预测效能最高为LightGBM和RandomForest机器学习方法,AUC值为0.845。
表3 PLT_Sig预测HRV的效能
2.2.3 HRV_Sig及PLT_Sig模型验证集中不同机器学习方法的ROC曲线图(图4-图5) 图4-图5显示HRV_Sig及PLT_Sig各自在验证集中表现不同机器学习方法预测效能的ROC曲线图。
2.3 采用年龄、性别、有无静脉曲张、HRV_Sig、PLT_Sig绘制Nomogram(图6)从图6我们可以看出评估一个患者静脉曲张破裂出血的风险有多高,可以由表中几个因素所对应的的分数相加,最后得出风险数值,风险数值越高提示出血风险越高,从而提示临床及早干预。
2.3.1 Nomogram模型HRV效能(表4) 从表4可以看出Nomogram模型在验证集中AUC值达到0.988,相对于表2中HRV_Sig模型的AUC值0.887以及表3中PLT_Sig模型的AUC值0.845,Nomogram模型表现更加优异。
表4 Nomogram预测HRV的效能
2.3.2 Nomogram模型预测HRV效能训练集及验证集的ROC曲线图 从表2可知LightGBM机器学习方法表现最好,从表3中可知LightGBM、RandomForest机器学习方法表现不相上下,为了保证可比性后续选用了LightGBM机器学习方法对比三种模型的预测效能,最后得出Nomogram模型预测高出血风险食管静脉曲张效能训练集及验证集的ROC曲线图(图7-图8)。从图7-图8可以看出融合后的Nomogram模型无论是在训练集还是验证集,对于预测高出血风险食管静脉曲张效能均高于两种单独模型。
3 讨论
肝硬化门静脉高压是指各种原因的肝硬化导致门静脉系统压力升高,门静脉系统血流受阻或血流量增加,从而引起相关的一系列临床症状,常见并发症为静脉曲张破裂出血,病情凶险,病死率高。为了降低病死率,早期发现、早期干预食管精确曲张至关重要。现临床上常规采用电子胃镜对肝硬化门静脉高压患者进行食管胃底静脉曲张的早期筛查,但电子胃镜属于侵入性检查、患者的依从性较差,导致部分患者错过高出血风险食管静脉曲张一级预防的最佳时机。
采用非侵入性方法预测食管静脉曲张破裂出血是近年来的研究热点、难点[9]。影像组学从放射影像图像中提取大量的影像学特征,采用自动或半自动分析方法将影像学数据转化为具有高分辨率的、可挖掘的数据,进而用于疾病诊断、预后预测及疗效评价,以指导治疗方式的选择、实现个性化和精准化治疗[10-12]。本研究是在国内CHESS团队提出的基于CT平扫影像组学评估高出血风险食管静脉曲张的基础上,建立一个联合血清特征的CT影像组学模型用于预测高出血风险食管静脉曲张,为高出血风险食管静脉曲张患者的临床诊治给予及时指导,从而提高生存率和改善预后。为了寻找更优化的预测效能,我们用目前多种主流的机器学习方式对建立的模型进行训练。在本研究中我们所建立的影像组学模型是由13个影像组学特征组成,其中有4个影像组学特征来自肝脏第一肝门区和9个影像组学特征来自脾脏脾门区。CHESS团队提出的高出血风险食管静脉曲张影像组学预测模型的AUC值为0.831(95% CI:0.685-0.978),本研究中HRV_Sig预测模型的AUC值为0.887(95%CI:0.759-1.000),两者结果相差不多。根据以往文献报道,影像组学特征与血清学特征结合能进一步优化影像组学模型的预测效能[13],根据国际权威指南Baveno VI,肝脏硬度<20 kPa且血小板计数>150,000的患者发生静脉曲张需要治疗的风险非常低,因此我们建立一个血小板特征的特征模型并验证它的诊断效能,最后结果是PLT_Sig验证集的预测效能可以达到0.845(95%CI:0.691-1.000),与CHESS团队提出的高出血风险食管静脉曲张影像组学预测模型效能以及本研究中HRV_Sig在验证集的预测效能相比较,血清学特征模型一定程度上可以与影像组学特模征型的结果相近,证明血清学特征模型在一定程度上可以起到预测高出血风险食管静脉曲张的作用。本研究中将影像组学特征与血清学特征相结合构建Nomogram模型预测高出血风险食管静脉曲张的AUC值为0.988(95%CI:0.959-1.000),由此可见Nomogram对于预测高出血风险食管静脉曲张的效能有比较大的提升。
本研究中的不足:本研究为回顾性、单中心、小样本研究,开展前瞻性、多中心、扩大样本量的研究为下一步计划。
综上所述,基于机器学习CT影像组学特征联合血清学特征预测高出血风险食管静脉曲张的Nomogram模型,相对于HRV_Sig及PLT_Sig有着更高的预测效能,有潜力作为评估高出血风险食管静脉曲张的补充性辅助预测工具。