多特征融合的肝细胞癌分化等级术前预测方法研究
2022-08-10甘富文武明辉吴亚平林予松王梅云
甘富文 武明辉 吴亚平 林予松 王梅云*
1(郑州大学信息工程学院 河南 郑州 450001) 2(郑州大学互联网医疗与健康服务河南省协同创新中心 河南 郑州 450052) 3(郑州大学人民医院影像科 河南 郑州 450003) 4(郑州大学软件学院 河南 郑州 450002) 5(郑州大学汉威物联网研究院 河南 郑州 450002)
0 引 言
肝细胞癌(HCC)是常见的恶性肿瘤,易于转移和复发,预后很差,是第二大与癌症相关的主要死因[1-3]。病理分级是诊断肝癌的重要指标[4],患有高级别(低分化)HCC肿瘤的患者具有较高的复发风险,通常采用肝切除和肝移植治疗策略,而低级别(高分化)HCC的患者复发风险较低[5-6],通常采用全身治疗和对症治疗。病理分级需要有创地针对肿瘤部位采集多个肿瘤样本进行活检,给患者带来了巨大的痛苦和高昂的费用。肝脏磁共振扫描是肝癌诊断中常用的影像学手段[7],具有无创、低成本、可重复进行的特点,利用影像术前准确预测HCC分级将有助于选择治疗策略[4]。目前影像组学、深度学习等技术结合医学影像进行计算机辅助诊断是医工交叉的研究热点,计算机技术广泛应用在肿瘤分类、病理分级、生存期预测等方面[1]。
近年来,大量基于影像的肿瘤分类研究表明,利用影像可以有效地进行肿瘤的辅助诊断。当前流行的方法主要有影像组学和深度学习两大类。影像组学方法从医学图像中高通量提取手工设计的定量特征,例如形状、灰度、纹理和Gabor特征[8-9],这些特征可以从不同的角度反映肿瘤组织信息[10-13],通过组合多种预测因子分析肿瘤分级已经被证明是行之有效的[14]。影像组学能在较小的数据量下获得较好的分类性能,由于手工设计特征均是从某一角度描述肿瘤,难以全面反映肿瘤特征,性能有待进一步提高。随着数据量和算法的发展,深度学习方法逐渐开始在医学影像研究中取得长足的发展。文献[15]探究了深度特征在肿瘤分类上的能力,证明深度特征可以反映肿瘤的信息。文献[16]在对比增强的MRI图像上采用SE-DenseNet进行端到端的肝细胞癌的分化分级研究,Acc达到0.83,能够获得优于手工设计特征的性能。但是深度网络训练时间长,对样本量要求高,在小数据集上尤其容易过拟合,大部分数据都无法训练深层神经网络。文献[17]结合T1、T2序列的组学特征和临床特征在MRI图像上进行了肝细胞癌的分化分级研究,但是人为设计的影像特征不能全面反映肿瘤特征,且同时标注两个序列需要花费大量精力。目前在小样本非对比增强MRI图像上进行肝细胞癌分化分级预测依然存在挑战。
针对以上问题,本文基于MRI影像提出了一种融合影像特征和深度特征的肝细胞癌分化分级预测方法,该方法在影像组学流程的基础上融入了深度卷积神经网络提取的高度抽象化语义特征。本文研究表明,相比单一的特征模型,融合后的模型具有更好的分类性能。
1 方 法
综合影像、基因和临床等信息进行计算机辅助诊断的流程通常包括:数据获取、肿瘤区域分割、特征提取和量化、特征选择、分类和预测。本文在特征提取部分加入了深度卷积神经网络提取的高度抽象化语义特征作为影像特征的补充,实验先由影像科医生在MRI数据集进行感兴趣区域的手工分割;然后进行图像预处理并提取影像特征和深度特征,分别在两组特征上使用机器学习算法训练分类器并将分类性能最好的分类器的预测概率值作为独立生物标志物[19];最后使用逻辑回归算法在两种独立的生物标志物和临床数据上训练最终的预测模型,构建诺模图[20-21]辅助临床决策,流程如图1所示。
图1 实验整体流程
1.1 图像预处理
医学图像通常对比度较低,肿瘤区域与周围体素边缘不清晰,明暗变化平缓,直方图均衡化是缓解上述问题的有效方法,但是因为原始MRI图像周围有大量非组织器官空白区域,这些区域均为纯黑色,对全局图像直接进行直方图均衡化会使肝脏组织颜色过白,图像对比度反而下降。为了解决上述问题,本文对全局直方图均衡化和局部直方图均衡化进行了对比如图2所示,同时对比了直方图均衡化和自适应直方图均衡化的差异如图3所示,本文的局部处理指对肿瘤中心点周围128×128像素大小的区域进行直方图均衡化或自适应直方图均衡化,本文自适应直方图均衡化采用大小为8×8像素的处理窗口。图3(c)为局部自适应直方图均衡化处理结果,图中的直方图分布更加均匀,蕴含信息更多,相比其他处理方法,其肿瘤区域边界更明显,肿瘤部分组织明暗变化更明显,纹理更加清晰,丰富。因此,本文采用局部自适应直方图均衡化进行预处理。
(a) 原始图像 (b) 全局直方图均衡化 (c) 自适应直方图均衡化图2 全局直方图均衡化
(a) 原始图像 (b) 全局直方图均衡化 (c) 自适应直方图均衡化图3 局部直方图均衡化
1.2 影像特征生物标志物
本文针对感兴趣区(ROI)提取形状特征、一阶统计特征和纹理特征(灰度共生矩阵、灰度游程矩阵、灰度大小区域矩阵等)。形状特征描述了肿瘤在空间和平面上的信息,一阶统计特征在总体度量上描述了ROI内的亮度分布情况,纹理特征反映了肿瘤的空间信息。
二维Gabor小波变换是图像处理的重要工具,具有良好的时域和频域之间局部转化的特性和方向选择性,非常适合纹理特征提取,能够从多尺度多方向反映感兴趣特性,本文在MRI图像采用5个尺度8个方向进行Gabor滤波,可提取40组Gabor小波变换特征。
由于影像特征的物理含义差别较大,为了缓解不同量纲对模型训练产生影响,特征选择之前对所有特征进行了标准化,将所有特征值缩放到0~1之间。
特征选择能够去除冗余特征,筛选出高区分度的特征,本文通过方差检验、曼-惠特尼秩和检验、Lasso和SVM-RFE四种特征选择算法组合应用进行特征选择。特征选择时先使用方差检验和曼-惠特尼秩和检验进行特征初筛,再对初筛特征A使用Lasso和SVM-RFE分别选出两组特征(特征集合B和特征集合C),对初筛特征集A使用随机森林(RF)和LightGBM进行模型训练,对特征集合B和特征集合C使用SVM-RBF(径向基核)进行模型训练,特征筛选流程如图4所示。训练过程中使用十折交叉验证和网格搜索选择超参数。选择在测试集上AUC值最高的模型的预测概率值作为影像独立生物标志物(Rad-Score)。
图4 特征选择流程
1.3 深度特征生物标志物
卷积神经网络在图像这种分布复杂、非结构化的数据上表现优异,目前在图像和视频领域得到广泛应用,但是医学图像收集困难,大多数医学数据都无法从头开始训练深层网络。本研究在EfficientNet-B7[22]网络模型的基础上,对最后一层卷积层和全连接层进行微调,并将第一层全连接层的参数作为深度特征。
训练前,将预处理之后的图像通过复制构造三通道彩色图像。接着导入EfficientNet-B7在Imagenet上的预训练模型及其参数,去除网络中的全连接层同时将除最后一层卷积层之外的参数冻结,然后加入随机初始化的500维、1维(softmax层)的全连接层。预处理图像包括训练集中病人ROI区域最大层及其相邻上下两层图像共420幅,测试集图像为病人ROI区域最大层图像一共49幅,训练过程中,将图像缩放为600×600像素大小,对每一幅图像分别进行向左旋转30度、60度、90度、120度、150度、180度并进行水平翻转,加上左右平移20像素一共16种图像变换方法进行数据增广,增广之后训练集图像为6 720幅,测试集图像不做增广处理,图像增广示意图如图5所示。将增广后的图像导入深度网络进行参数微调,采用早停止(early stopping)方法训练模型,损失函数为交叉熵,评价指标为测试集损失函数值,当5个epoch内损失函数没有降低时停止训练,保存最优模型参数。最后将每个病人的MRI图像中ROI区域最大的图像作为输入数据导入模型,将500维全连接层的输出作为深度特征,采用1.2节的特征选择方法和模型训练方法训练模型,构建深度特征生物标志物(Deep-Score)。
图5 图像增广
1.4 构建诺模图
将Rad-Score、Deep-Score与临床指标中的显著特征结合构建多元逻辑回归模型。在构建预测模型之前结合P值、赤池信息量准则(AIC)[23]值和数据缺失值比率进行临床特征筛选,使用余下的特征训练最终的分类模型并构建诺模图,使用医学上常用的准确率、敏感度等指标评价模型的分类性能,使用校准曲线对模型的稳定性进行评价。
2 实验与结果分析
本文实验目的是探究在融合影像特征、深度学习特征和临床特征构建的模型是否有助于提升模型的分类性能,实验过程中分别对影像特征和深度特征建立了单独的分类模型来研究单一类型特征下模型的分类表现。分别提取影像特征生物标志物和深度特征生物标志物并导入逻辑回归模型作为特征融合和模型训练的方法,研究融合两类特征后模型的分类表现。最后对三种模型的分类效果进行比较。
2.1 实验数据
本文纳入了郑州大学人民医院在2012年2月至2017年3月期间的189例患者入组并对实验数据做了去隐私化处理,数据纳入标准如下:(1) 经病理证实为肝癌而接受手术切除并有肝癌组织学报告的患者;(2) 术前1周内进行肝脏MRI检查;(3) 之前未接受过射频消融、经导管动脉化疗栓塞(TACE)、肝切除或经皮乙醇注射等治疗;(4) 图像质量符合分析要求(在横断面上具有可见的病变)。从存档的临床组织学报告中检索组织学分级数据,低分化级别肿瘤对应于Edmondson I、I-II和II级,而高分化级别肿瘤对应于Edmondson II-III、III、III-IV和IV级。数据中高分化患者94例,低分化患者95例。将两类患者按照时间顺序进行排序,选取前140位(高分化70例,低分化70例)作为训练样本,余下的49例(高分化24例,低分化25例)作为测试样本。
本文所有数据均由在肝癌MRI诊断方面具有5年以上诊断经验的影像科医师进行分割,分割基于脂肪抑制T2加权图像进行手工勾画,勾画范围覆盖影像中病变所在的所有层面,分割图像如图6所示,右图白色区域对应左图肝癌肿瘤区域。
图6 肝脏肿瘤感兴趣区分割示意图
2.2 评价指标
在医学影像的诊断结果中,通常使用准确率(Acc)、灵敏度(Sen)和特异性(Spe)作为评价指标。使用AUC(Area Under Curve)值评价模型性能。对于肝细胞癌的分化等级分类实验,将低分化预测为低分化为真阳性TP,将高分化预测为高分化为真阴性TN,将高分化预测为低分化为假阳性FP,将低分化预测为高分化为假阴性FN。各项指标具体计算如下:
准确率是在测试集中正确分类的数量Nc占测试集总数量的比率:
(1)
灵敏性是在测试集中真阳性(TP)与真阳性(TP)和假阴性(FN)之和的比率:
(2)
特异性是在测试集中真阴性(TN)与真阴性(TN)和假阳性(FP)之和的比率:
(3)
AUC为受试者操作特性曲线(ROC)曲线下面积,ROC曲线是真阳性诊断率与假阴性诊断率的关系图,AUC值越接近1,其模型分类性能越好。
2.3 影像特征提取与模型训练
在医生标注的MRI图像数据上进行直方图均衡化和Gabor小波变换后,针对ROI区域提取2 755个影像特征,包括8个形状特征、17个一阶统计特征、50个纹理特征以及2 680个Gabor小波特征,并将所有特征值缩放到0~1之间,去除量纲不同对特征选择的影响。
依据方差越大表明特征包含的信息越多的原理,首先进行方差检验,计算所有特征的方差去除方差小于阈值(本文采用0.1)的特征,然后进行曼-惠特尼秩和检验,使用默认P值0.95作为参数,最终选出具有显著统计学意义的特征317个。最后使用Lasso算法和SVM-RFE算法选出两组具有代表性的组学特征(Lasso选出5个特征,SVM-RFE选出18个特征),两个特征组分别在SVM分类器上进行模型训练。
分别对Lasso选出的特征和SVM-RFE选出的特征使用SVM(径向基核函数)分类器进行十折交叉验证和网格搜索,对未做特征选择的影像特征分别使用随机森林(RF)和LightGBM进行模型训练,同样使用十折交叉验证和网格搜索选择超参数。模型的接收者操作特征曲线(ROC)曲线如图7所示。
图7 分类模型ROC曲线
本文选择在测试集上曲线下面积(AUC)值最大的模型预测概率作为影像标签,从图7可以看出SVM-Lasso和SVM-RFE在测试集上分类性能较低,随机森林在训练集上AUC值远高于测试集上AUC值,发生严重的过拟合,LightGBM未出现过拟合且在测试集上AUC值最高,将LightGBM的预测概率作为影像特征标签,得到Rad-Score。
2.4 深度特征标签
采用EfficientNet-B7框架提取出500维深度特征,分别使用SVM和LightGBM算法对特征进行模型训练,SVM分类器进行2.3节中的相同步骤进行特征选择,Lasso和SVM-RFE特征选择方法未能选出特征,采用LightGBM在未做特征选择的深度特征上进行模型训练,结合学习曲线,十折交叉验证和网格搜索选择超参数,最终测试集AUC值可以达到0.725,结果如图8所示。
图8 LightGBM在深度特征上的ROC曲线
本文将LightGBM的预测概率作为深度特征标签,得到Deep-Score。
2.5 模型性能评价
综合使用Rad-Score、Deep-Score与临床指标中的显著特征共同构建多元逻辑回归模型。临床特征包括年龄、性别、是否有脉管癌栓、是否有乙肝病史、血液AFP值、ki-67值和病灶大小一共7种临床指标。在构建预测模型之前结合P值和AIC值过滤掉不存在显著统计学意义及不重要的临床特征,同时去除缺失值比率大于10%的临床特征。研究发现Rad-Score和Deep-Score的P值均小于0.05且AIC值均大于阈值101.6(Rad-Score:171.24,Deep-Score:271.38),所以本文采用Rad-Score和Deep-Score构建预测模型。
最终分类模型的ROC曲线如图9所示,特征融合后测试集AUC值达到0.828。为了体现本文特征融合方法的有效性,对影像特征、深度特征、特征融合及2019年相关研究实验结果的评价指标展示在表1。可以看出,特征融合后的测试集AUC值相比影像特征分类模型提高了5.5%,相比深度特征模型提高了10.3%,特征融合模型评价指标接近近年最优模型。
表1 预测模型测试集评价指标
为了便于临床使用模型进行可视化辅助诊断,本文融合了Rad-Score和Deep-Score这两种影像相关的重要标签,绘制出直观的诺模图作为预测模型,如图10所示。RadScore对应影像特征预测模型的预测概率,DeepScore对应深度特征预测模型的预测概率,将概率值对应的得分(Points)相加,得到该病人的总得分(Total Points),总得分对应的预测概率值(Probability of low grade)就代表了患者肝细胞癌分化等级的预测概率,概率值越高则肝细胞癌低分化的可能性越大,从而实现肝细胞癌分化等级的预测。
图10 个性化预测诺模图
本文使用校准曲线来验证诺模图的预测效果,如图11所示,可以看出,预测结果与真实结果偏离较小,经计算训练集p=0.525,测试集p=0.471,说明模型预测风险与实际发生风险相符,具有统计学意义(p>0.05),该模型具有可靠的预测性能。
图11 校准曲线
2.6 结果分析
采用影像特征进行分类模型建模时测试集AUC值最高为0.773,采用深度特征进行建模时测试集AUC值最高为0.725,两种特征集合对模型分类贡献区别不大,将两种特征集合使用本文方法进行融合后建模,测试集AUC值达到0.828,模型的分类准确率和特异性接近今年相关研究的最优分类结果,但是本实验方法相比文献[16]对数据量要求更小,具有更高的适用性。实验显示影像特征和深度特征都能反映肿瘤信息,特征融合对提升模型分类效果有帮助。
3 结 语
本文提出了一种融合影像特征与深度特征的肝脏非增强MRI图像下的肝细胞癌分化等级术前预测方法: 分别提取了人为设计的影像特征2 755个,以EfficientNet-B7为基础模型,通过添加全连接层导入增广的ROI图像数据进行模型参数微调,再使用第一层全连接层进行深度特征提取共获得500维深度特征。采用多种特征选择方法、多种分类模型进行训练得到影像特征标签和深度特征标签,最后使用逻辑回归模型绘制直观的诺模图作为预测模型,模型在校准曲线上表现较好,特征融合后的分类模型各项指标均高于单一特征模型。本文提出的方法优于直接使用影像组学方法进行分类,且在小样本数据集上依然可以发挥深层卷积网络的特征提取能力,实验证明采用本文方法提取的深度特征可以作为影像特征的补充,特征融合之后模型分类性能有明显提升。
本文研究样本仍然较少,下一步的研究目标是通过多中心数据共享的方式继续扩大实验样本,尝试对更多的层进行参数微调,提取不同层的输出作为深度特征进行对比实验,进一步提高模型的分类性能。