基于融合先验知识的肺结节深度学习分类方法
2021-03-23高峰张仕瑞
高峰,张仕瑞
1. 天津大学 精密仪器与光电子工程学院,天津 300072;2. 天津市生物医学检测技术与仪器重点实验室,天津 300072
引言
如今,在全球范围内肺癌依旧是发病率和死亡率最高的癌症。而相比于其他国家,我国的肺癌发病率与死亡率为全球第一[1]。研究显示早期肺癌的术后10年生存率为92%[2],因此患者的早期诊断与早期治疗尤为重要。目前肺部疾病的早期诊断中最常用的是计算机断层扫描(Computed Tomography,CT),医师通过观察肺部CT图像诊断患有肺部疾病。但是每位患者采集得到的CT图像有数百张,导致医师的工作负荷大。
自从Hinton[3]提出深度信念网络(Deep Belief Network,DBN),深度学习方法引起了学术界的浪潮。有相当多学者研究其在肺部CT图像诊断中的应用,用来辅助医师的诊断和减少医师的工作负荷。目前提出方法主要有肺结节中间层切片2D图像[4-5]或肺结节所在3D图像[6]作为卷积神经网络(Convolutional Neural Networks,CNN)输入,通过在模型中提取与整合输入图像特征信息从而实现辅助诊断的应用。而在临床医学的发展中,医师们总结了许多结节特征与其良恶性的关系,如钙化结节的良性概率为97%、无钙化结节的良性概率为29%[7]、结节中出现脂成分往往是良性病变[8]、肺癌出现空气支气管征比良性病变更加普遍[9]等。
本文方法旨在将医师标注待诊断肺结节时的上述语义信息,作为模型在提取图像特征时的先验知识,通过图像特征与语义特征的多模态信息[10]融合,实现对肺结节的良恶性诊断。
1 材料与方法
1.1 数据准备
为了本文方法的可复现性和与其他方法的可对比性,本文中使用的实验数据集为LIDC-IDRI,该数据集由美国国家癌症研究所发起收集,主要为了研究高危人群早期肺结节检测,是研究人员可通过网络访问的国际公开资源。该数据集包含1018个研究实例,由4名经验丰富的胸部放射科医师分别独立诊断标注后,独立复审其他三位医师的标注,并给出自己最终的诊断结果。在避免强迫共识的前提下,尽可能完整的标注所有结果。
医师标注信息中有结节的区域、长度以及由医师肉眼观察给出的结节特征。特征有:subtlety、internalStructure、calcification、sphericity、margin、lobulation、spiculation、texture、malignancy等,各特征按照不同的诊断意见,标注对应的表示数值。
在本文中针对数据集中各结节,将所有医师对其标注的均值作为实验中标注值。在结节的标注区域中间位置以像素大小32×32切割得到图像作为模型输入。在结节良恶性的分类中,‘malignancy’特征可被标注为‘1.Highly Unlikely’‘2.Moderately Unlikely’‘3.Indeterminate’‘4.Moderately Suspicious’或‘5.Highly Suspicious’,因此将标注均值大于3的结节视为恶性;均值小于3的结节视为良性;均值等于3的结节不在实验中使用。
1.2 数据预处理
1.2.1 模糊one-hot码
由于医师标注的语义信息没有连续性,不适合在单节点以连续数值表示,因此本文提出模糊one-hot码,以各特征的每一个可选标注作为一个节点,将医师标注对应节点设定为1,其他节点设定为0,并将所有特征的标注相连,将语义信息转换为可输入模型的离散节点信息,具体的转换算法如下所示。
1.2.2 结节区域分割
医师标注的语义信息只针对于结节,因此为了模型能够将结节区域与语义信息关联,对结节区域做分割处理,去除结节以外信息。在本文中为得到结节区域采用的方法为区域生长法[11],由于在该算法中设定不同的阈值可切割得到不同的结节区域,且较难找到适合于每一个结节的算法阈值,因此将设定不同阈值得到的图像同时输入至模型中,使模型在训练中可自适应找到适合的阈值。区域生长法的初始种子点设定为图像中间4个像素,设定不同阈值实施区域生长法效果如图1所示。
图1 区域生长法效果图
1.2.3 训练样本扩增
针对模型训练时样本数量少的问题,对输入图像分别采用随机仿射变换实现数据扩增。图2为对原始图像做随机放射变换的效果图
图2 仿射变换效果图
1.3 深度学习模型
本文提出整体模型主要由提取图像深度特征的子模型(Image Feature Extracting sub-Model,IE模型),整合医师标注语义信息的子模型(Semantics Integration sub-Model,SI模型),以及融合图像特征与语义特征的部分构成。模型图中FULL表示全连接层、Conv表示卷积层。
IE模型如图3所示,即分别以大小不同的卷积核提取深度图像特征并融合后输出深度特征信息。将原图像输入至3×3卷积核大小的卷积层,原因是对原图进行卷积过程中,如卷积核大则较容易将结节区域与其他组织区域混合起来。将区域生长算法设定阈值较大的输出图像输入至5×5卷积核的卷积层;将设定阈值较小的输出图像输入至7×7卷积核的卷积层。原因是生长区域法设定阈值较大时输出结节区域较小;相反地,设定阈值较小时输出图像较大。在卷积过程中各卷积核的移动距离为1×1,并且对图像做padding处理,使得不同卷积核大小的卷积层输出图像大小相同。
图3 IE模型
SI模型如图4所示,即将医师标注语义信息转换为模糊one-hot码后输入该模型,经过全连接层输出深度特征信息。
图4 SI模型
将图像特征与语义特征融合的部分,实质是多模态融合[10]。多模态的融合方法有前融合、后融合、混合融合等。后融合会导致临近输出层的层节点数为4,经过实验得出该融合方法不易训练。混合融合会导致图像或语义其中一种模态的信息表达节点数失衡,因此最终选择前融合方式实现多模态融合。整体模型具体如图5所示,即输入预处理结节图像与先验知识,分别经过IE模型与SI模型提取特征后融合,在模型末端通过LogSoftMax激活函数预测结节的良恶性。
图5 整体模型
考虑到当深度学习方法实际应用于临床诊断时,若进行预测时需要由医师向模型输入语义信息则仍然有相应工作量,较难实现进一步的诊断自动化。为减少上述整体模型在诊断中的语义输入过程,将对其进行改进。
在SI模型之前加入由输入图像提取语义信息的子模型(Semantics Extracting sub-Model,SE模型)。其结构为IE模型的输出端连接全连接层,使其输出值为医师标注语义信息。SE模型如图6所示,为实现多标签分类,在其末端设置Sigmoid激活函数。训练该子模型时使用全部训练集对其进行,即将设定不同阈值区域生长法的输出图像输入SE模型,对应的模糊one-hot码作为输出标签进行训练。
图6 SE模型
改进的整体模型如图7所示。将已训练的SE模型去掉Sigmoid激活函数层后固定其权重作为语义提取器置于SI模型前。改进的整体模型将医师标注结节时的先验知识融合于模型中,医师标注结节语义信息作为特权信息,在预测过程中只输入图像信息。
图7 改进的整体模型
1.4 评价方法
本文中采用五折交叉验证[12]对改进的整体模型分类性能进行评价,模型性能指标分别为准确率Γ、灵敏度χ、特异性ξ以及ROC曲线线下面积ψ,各指标定义如公式(1)所示。
式中,γ、ς、λ、σ分别表示真阳性、真阴性、假阳性、假阴性的结节个数;m+为验证集正例数量;m-为验证集反例数量;D+为验证集中正例集;D-为验证集中反例集;∏(⋅)为示性函数;f(·)为训练后的模型。
2 结果
表1为本文提出方法与其他方法的模型性能对比,表中各实验使用数据均为LIDC-IDRI。由表1可以看出,本文提出方法的模型分类准确率、灵敏度、特异性均相对高于其他方法的模型性能。说明了本文提出的将医师对结节的语义标注信息作为先验知识融合于深度学习模型中是一种可采用的网络搭建方式,也为深度学习方法在临床诊断的应用提供了新的方法。
表1 不同方法性能对比
3 讨论
本文提出一种融合先验知识的肺结节深度学习分类方法,与其他方法的模型输入相比,将医师标注结节时语义描述作为模型的先验知识,在模型中与输入图像融合实现良恶性分类。为了将医师语义信息输入模型,提出“模糊one-hot码”,将医师标注语义信息转换为矩阵信息。
医师标注语义只针对肺结节本身,因此在CT图像输入模型前,对其进行生长区域法预处理。为了更好的提取规律性不明显的肺结节,使用算法时设置不同的阈值,将得到图像分别输入至独立的卷积层使模型自适应各结节的适合阈值。
为了减少实际使用过程中医师语义信息的输入,设计了由图像提取语义信息的模型,训练后固定权重置入整体模型中,医师的语义信息作为深度学习中特权信息,将模型改进为只需输入图像信息。
有研究指出,结节在肺中的生长速度、存在位置、患者烟龄等信息亦可用于诊断良恶性的依据,若结节病变容积明显增大,倍增时间30~400 d则几乎100%为恶性[13]。若位于右肺或上叶则为恶性可能性更大[14]。年龄55~74岁,且吸烟≥30包/年(戒烟<15年)为高危人群[15]等。因此,将针对融合上述信息的模型结构,以及对语义信息的转换算法展开进一步研究。
4 结论
在新技术方法不断出现的医学研究中,本文认为将先验知识与新方法融合起来更有利于应用新技术,因此提出融合医师先验知识的深度学习良恶性分类方法。目前深度学习方法仍然有大部分“黑箱子”问题,因此采用深度学习方法时,也将临床医学中总结得来的信息融合于模型中,使深度学习方法可更好应用于医学领域。