APP下载

基于卷积神经网络的直肠癌淋巴结转移的智能判断模型研究

2022-12-19刘今子董浩方文璇黄东

科学技术与工程 2022年32期
关键词:直肠癌卷积淋巴结

刘今子,董浩,方文璇,黄东

(1.东北石油大学数学与统计学院,大庆 163318;2.东北石油大学计算机与信息技术学院,大庆 163318)

直肠癌是消化道最常见的恶性肿瘤之一,医生通过CT图像越早的发现直肠癌淋巴结转移,则给患者更多的治疗时间,提升患者存活率[1-3]。

目前,评估直肠癌淋巴结转移的影像方法有电子计算机断层扫描(computed tomography, CT)、磁共振成像(magnetic resonance imaging, MRI)及正电子发射型计算机断层显像(positron emission computed tomography,PET)/CT等。主要依靠医生根据CT图像,凭借经验进行观察判断,判断准确性不能保证,且不方便、不快捷。研究者提出了傅里叶变换红外光谱(fourier transform infrared spectrometer,FTIR)联合主成分分析法(principal component analysis,PCA),分析直肠癌转移淋巴结的谱学特征,不使用CT图像,根据峰强、相对峰强比判断淋巴结转移情况,寻找谱学特征[4]。还有研究者通过对比淋巴结转移与淋巴结未转移直肠癌患者的T3期磁共振成像(MRI)影像,寻找二者在影像学表现上的差异,以该差异为判断淋巴结转移的标准,利用Logistic回归进行分析[5-6]。该方法没有深度挖掘已转移淋巴结的普遍特征,只是对比转移与未转移淋巴结的差异,缺乏普遍性。同时,以临床及实验室指标、常规超声评分(ultrasonic score,US)及CT评分为判断指标,对淋巴结转移与否进行判断[7-8]。总之,传统的影响学方法基于谱学特征等统计信息进行研究,缺乏对具体病症图像的深入研究,不能更方便地指导临床使用及普及推广。

近年来,深度学习算法在医学图像识别领域应用较为广泛,具有一定的普适性。其中,传统卷积神经网络(convolutional neural network,CNN)的图像分类,无法保留全连接网络计算的高效性,准确率不高,需要进行特征融合和改进算法[9-15]。文献[9]利用深度学习框架Caffe,实现深度卷积神经网络模型进行图像的分类。文献[10-12]改进了卷积神经网络算法,融合多种特征,提高对图像识别的效果,准确率接近90%。文献[13]基于卷积神经网络AlexNet模型进行直肠癌淋巴结转移的迁移学习,准确率接近80%。文献[14]基于卷积神经网络模型,利用多尺度方法结合反卷积网络,研究腺癌病理图像的分类,具有明显的良好分类精度。文献[15]利用卷积神经网络算法,构建直觉模糊集的多任务中心模型,实现甲状腺淋巴结转移癌病理诊断的研究,提高了准确率。

特别地,由于医学影像具有结构固定、语义信息较为简单、小样本性的特点,与U-Net模型支持少量的数据、基于像素点分类等特征相符合,更便于获得更高的分割准确率,更快的训练速度。因此,基于生物医学癌病图像分割的卷积神经网络U-Net模型,在肺结节、结直肠癌等癌病图像识别中应用广泛[16-20]。文献[16]基于深度学习算法的卷积神经网络算法进行肺结节图像的识别,准确率接近90%。文献[17]融合卷积神经网络和流形学习进行肺部CT图像的分割和检测,准确率超过90%。文献[18]提出一种水平深度多尺度的U-net卷积神经网络,实现结直肠癌CT图像特征提取及分割,准确率超过80%。基于U-Net模型进行特征提取中嵌入编码模块,研究直肠癌肿瘤图像分割,具有良好的准确率[19-20]。

然而,U-net网络模型具有冗余大、分类准确度和定位精度不可兼得的明显缺点,使得其在医学图像的智能判断方面受到一定的限制。VGG网络模型利用多尺度特征图做检测,实现了堆叠卷积核和大卷积核的效果一样,计算量明显小很多,性能表现得到提高,更加适合医学癌症的转移及判断[21-22]。

为此,结合U-net和VGG网络结构的特点,构建直肠癌淋巴结智能判断模型,验证预测的准确率。首先,建立基于U-Net的CT图像分割模型,对肿瘤部分进行识别、分割,获得肿瘤区域图,进行自动特征挖掘与提取,确定淋巴结转移的普遍特征,并将图像以及特征送入传统卷积神经网络和改进后的卷积神经网络VGG16网络模型,对模型进行迭代训练和验证,得到最优参数。预处理107位直肠癌动脉期CT图像建立训练数据集,利用传统卷积神经网络和VGG16网络模型进行训练和预测。

1 算法论述

1.1 U-Net图像分割模型思想

整个自动分割模型建立在U-Net神经网络的基础之上。U-Net本质上是一种特殊的基于卷积神经网络的深度学习框架,它的核心工作是将浅层网络中的输出和深层网络的输出合并在一起,使得网络在最终输出的时候能够同时考虑浅层信息和深层信息的贡献,从而有效避免了FCN网络中语义信息和分割细节时此消彼长的情况。其特点在于利用底层信息补充高层信息,浅层的输出保存了空域细节信息,深层的输出则是保存了相对抽象的语义信息,二者合二为一就提升了分割效果[9-12]。

为了最小化开销和最大限度地利用显存,比起输入一个较大的批次,更倾向于较大的输入切片,因而将批次大小缩减为单张图像。在网络的训练过程中,使用能量函数来获取最终的特征图。能量函数是通过交叉熵损失函数相结合的最终特征图,利用像素级的softmax函数来计算。softmax函数定义为

(1)

式(1)中:ak(x)为在第x像素点上第k个特征通道的激活函数;K为类别数;pk(x)为最大函数。

加权交叉熵定义为

(2)

式(2)中:l={1,2,…,K}为每个像素正确的标签;Ω为图像数量;pl(x)为第x个样本属于l的概率;w为权重函数,可定义为

(3)

式(3)中:wc为平衡类别频率的权重;d1为到最近细胞边界的距离;d2为到第二近细胞边界的距离;初始类别权重w0取10,到细胞边界距离的标准差σ取5像素。

1.2 SIFT特征提取

尺度不变换特征变换(scale invarian feature transform,SIFT)旨在解决特征提取及其图像匹配应用中的问题。SIFT方法中的低层次特征提取是选取显特征,这些特征具有图像尺度(特征大小)和旋转不变性,而且对光照变化也具有一定程度的不变性。

1.3 卷积神经网络

卷积神经网络与普通的神经网络的不同之处在于卷积层能够自发的提取图像特征。卷积层的计算公式为

(4)

卷积层运算后到下采样层,对特征图进行池化处理,旨在进一步降低特征的维数和其分辨率,从而缩减规模问题,设池化大小为s,其特征图会缩小为1/s,运算公式为

(5)

式(5)中:f(·)为激活函数;D(·)为池化函数;βj为权重系数。

通过不断地调整卷积核、层数和分类器的输入特征维数等参数,只有设置合适的参数值,才能较为有效地提取肿瘤区域的影像特征并完成对淋巴结转移情况的预测[13-15]。

2 数据预处理

本文数据集为107位直肠肿瘤患者动脉期和门脉期的两套影像数据,主要以动脉期影像为准来进行分析挖掘。数据预处理主要有4个步骤:病例样本图像信息统计、数据清洗、数据集成和数据变换。

2.1 病例样本图像信息统计

(1)图像数据的总体统计,如表1所示。每个患者包含序列格式为CT图像文件和对应的掩模图像。若某幅CT图像包含肿瘤区域,则其肿瘤区域对应的掩模图像存在白色区域。若某幅CT图像中不存在直肠肿瘤,则对应的掩模图像为全黑。主要以动脉期影像为准来进行分析挖掘。

表1 数据集样本统计

(2)对病例样本信息根据性别、阴性和阳性进行简单统计,阳性为淋巴结转移,阴性为淋巴结未转移,如表2所示。

表2 病例样本信息

在107个病人样本中,总体阳性与阴性的比例为2∶3,其中淋巴结呈阳性的男女比例为1.6∶1。由于性别的不同,男女的直肠CT图像也存在差异。在后期的处理中,需考虑这一因素,防止其影响对肿瘤的分割。

(3)将年龄划分为5个阶段,从22岁开始,以12岁为一个阶段,对比男性和女性在不同年龄阶段的患病情况,如图1所示。

由图1可知,在不同年龄段,男性患者和女性患者的淋巴结转移情况也不尽相同。样本中年龄大的样例个数较多,因此年龄的分布情况可能会是影像淋巴结转移的一个潜在因素,在后期预测过程中需要考虑年龄的影响。

图1 男女在不同年龄的淋巴结转移情况

(4)患直肠癌后男、女性癌细胞转移情况如表3所示。可以看出,相对于女性,男性直肠癌细胞的转移率较高。

表3 男女癌细胞转移情况

2.2 数据清洗

采取小波阈值去噪法,主要得益于小波变换具有低熵性、多分辨率、去相关性和选基灵活性等优点,如图2所示。

图2 数据清理前后对比

2.3 数据集成

不同病例图像中的直肠肿瘤区域和非肿瘤区域可能有相关性,若相关性差距明显,则可能作为一种新的图像特征来识别肿瘤区域和非肿瘤区域。将图像转成强度数值矩阵后,采取皮尔森相关系数来反映两个不同变量之间的相关性。

(6)

表4 皮尔森相关系数程度

绝对值越接近1,运行参数的相关程度越密切,越接近0则相关程度越低。根据研究,当|r|大于0.5表明两个参数显著相关,当|r|小于0.3表明微相关。

2.4 数据变换

普通的自然图像和CT图像是有着明显的差异,对于同一部位的CT图像获取,不同的机器设备对图像的获取处理方式也不一定相同,故为了尽可能的减少图像信息丢失,最好是没有丢失任何信息的前提下,让图像值能够达到最大限度地保持在同一区间内,必定要对所给的原始CT图像样本进行数据变换。具体步骤如下。

步骤1像素值的填充。CT图像中均为人体腹部截面,其截面多呈现不规则形状,需要人为的对图像像素增加填充值,让图像变为有一定规则的形状,但是在后续的图像处理中,填充值可能会让图像值域的变化较大。因此,有必要对填充值进行处理。

步骤2像素值的转换。亨氏单位即CT值,它是测定人体某处局部组织或者器官密度的一种计量单位。不同器官的CT值范围是不一样的,如致密骨为+1 000,而空气为-1 000。同一器官的CT值均在一定的范围之内波动,因使用不同的造影剂或者造影剂的用量不同,增强CT的CT值会因此而发生一定的变化,而将像素值转换为CT值,会利于人体器官的分割。CT值(用HU表示)和像素值的转换关系式为

HU=pixel_valueRS+RI

(7)

式(7)中:pixel_value为像素值;RS为缩放斜率(rescale slope);RI为缩放截距(rescale intercept),除像素值外,RS和RI都可从CT图像的头文件中获得。

步骤3数据变换处理。有以下两种方法:一是将CT值设定在[-100,400](若HU值小于-10,则将其设为-100;若HU值大于400,则设为400),这样能够避免识别到非目标区域的器官;二是直接把原图输入到神经网络中进行训练,但由于图像维度过高,会致使训练速度较慢。

步骤4数据归一化。通过最小-最大规范化进行线性变换,把属性A的值vi映射到区间[new_minA,new_maxA],使其规范化。

(8)

式(8)中:v′i为映射的值;minA和maxA分别为属性A的最小值和最大值;new_minA和new_maxA分别为映射后v′i所在区间的最小值和最大值。

3 卷积神经网络

3.1 基于U-Net的直肠CT影像分割模型

3.1.1 U-Net分割模型的建立

U-Net构建的神经网络架构包括两部分,分别为收缩路径和扩张路径,呈U形对称分布。其中,收缩路径用于提取图像内容,遵循典型的卷积网络结构,而扩张路径用于精确定位并还原图像。网络结构如图3所示。

图3 U-Net网络结构图

U-Net是一个输入端和输出端都为图像的全卷积神经网络结构,但整个网络并不存在全连接层,整个网络由5个卷积组、4个池化层以及5个上采样层组成。每个卷积组包含两个卷积层,其中卷积核尺寸为3×3,每个卷积层及上采样层之后均采用修正线性单元,每个池化层采用2×2的最大池化。第1个卷积组每层维度为64(通道数)×256(图像高度)×256(图像宽度),第2个卷积组每层维度为128×128×128,第3个卷积组每层维度为256×64×64,第4个卷积组每层维度为512×32×32,第5个卷积层每层维度为1 024×16×16,之后的扩张路径中每层卷积层维度与之前的层对应相等,每个上采样层中通过反卷积操作减少特征通道数量以及恢复图像维度,其卷积尺寸为2×2,并且每个上采样层中,通过Concat层与对应收缩路径的特征图连接,之后通过两个卷积层,提取了两者组合的信息,实现了对来自池化层特征图的重新利用。在最后一层,使用尺寸为1×1的卷积核,通过卷积操作将64组的特征向量映射至网络输出层。

实验使用肺部肿瘤的CT图像及其对应的分割图作为训练集来训练网络,使用能量函数计算每个像素点的softmax值,其定义为

(9)

式(9)中:ak(x)为像素的位置x处的特征通道类别数量k的激活值;ai(x)为像素的位置x处的特征通道类别数量i的激活值;pk(x)为近似的最大函数。

使用二进制交叉熵训练每个像素,并使用高斯分布(0,0.5)初始化卷积核,使用随机梯度下降训练损失函数,使其快速收敛到最小值,更新策略为

(10)

式(10)中:θi为随机梯度下降训练损失函数,i=1,2,…逐次增加的收敛次数;J(θ)为损失函数的函数;α为学习率。

在U-Net模型训练阶段,发现存在4个参数的值会对直肠肿瘤图像分割的精确程度和模型训练时间产生一定程度的影响。

(1)训练次数。由于U-Net是一个深度学习的框架,所以需要提高训练次数来提升该网络模型的效果,同时也得防止训练次数过多,导致过拟合的情况。在调整epoch的过程,确定epoch=6或12时,误差在设定范围内,且该网络也有较好的收敛效果。

(2)卷积核。卷积核的值会直接关系到模型运行时的整体效率,通过不断训练及验证,确定大小为3×3的卷积核能够使该模型迅速且平滑的收敛。

(3)学习率。误差对权值的影响取决于学习率的值的大小。当该值过高时,可能会出现震荡或发散的现象;过低时,收敛速度可能太慢。为保持模型的稳定性,在本次实验中,学习率的值设置为0.2。

(4)批次处理。在每次挑选样本进行训练时,都需改变一次权值。如果每次批量处理的值设定过大,可能调整不显著;过小,会增加误差的传播次数,从而延长训练时间。在样本数目不变的情况下,batchsize=120,模型表现较好。

3.1.2 U-Net分割模型评价

在直肠区域CT图像数据集进行试验,该数据包括直肠肿瘤病人动脉期核门脉期的图像,肿瘤区域的图像已被标注,对比模型最终得到的分割结果如图4所示。可以看出,该模型针对肿瘤边界具有较好的分割效果,并且避免了细小空洞遗漏分割的问题。

图4(a)为CT图像,为模型的输入,该行图片每张皆经过预处理。图4(b)为对应第1行肿瘤CT图像的掩模图,为模型的标签。图4(c)为模型对应第1行肿瘤CT图像的预测结果,为模型的输出。

为验证模型的有效性,采用Dice系数来定量的评价所提出的分割算法,其表达式为

Dice(A,B)=2|A∩B|/|A|+|B|

(11)

式(11)中:A为已标注的肿瘤区域;B为U-Net分割的肿瘤区域图像。

对A、B做二值化处理,即肿瘤区域的图像令其为1,其他区域为0,将二者做与运算,可获得二者共有的部分,统计其中为1的像素个数,并乘以2,也就获得了Dice系数的分子部分,而将两图为1的像素相加处理,即可得到Dice系数的分母部分。表5为图4中不同图像的分割准确率。

图4 肿瘤的分割结果

表5 不同图像的直肠肿瘤分割准确率

3.2 直肠癌肿瘤区域的影像特诊提取及分析

3.2.1 特征提取

以10071标记肿瘤的影像为例,运用SIFT算法结合角点检测特征点,实验结果如图5所示,其中被圈到的部分为SIFT算法得到的特征区域。根据关键点检测得到的特征区域,与肿瘤标记部位比较,覆盖面积达88.9%,可见SIFT算法对于特征的提取比较准确。

图5 CT影像的SIFT特征图

通过对影像信息的具体分析,将提取到的影像特征分为体素强度、面积、周长以及纹理。

3.2.2 特征统计

(1)体素强度。为反映图像的差异变化,将每幅图像中512×512的体素强度值通过直方图的形式表现出来,以10072标记肿瘤的影响像为例,从图6可以观测出体素强度值的大小近似符合正态分布。由于图像像素较多,取肿瘤区域的均值代表一幅影像的体素强度,再根据CT扫描的图像顺序绘制出对应的体素强度随时间变化的趋势图,结合不同的病患进行对比,来观测肿瘤区域的强度变化,如图6所示。

图6 肿瘤区域的直方图

(2)面积。运用Canny边缘检测算法确定肿瘤的轮廓区域以后,从而计算区域内近似的肿瘤面积,得到每个病人的直肠肿瘤面积大小如表6所示。

表6 不同患者肿瘤面积统计

对5位患者中所有CT图像的肿瘤区域求面积,可得多组面积测量值,表6统计了各组测量值的均值、标准差、最大值、最小值。可以看出,肿瘤区域面积位于5.7~13.5 cm2。

(3)体积。对CT序列进行三位重建,对重建后的图像分别使用面积和长度测量工具,测量肿瘤的面积和长度,进行多次测量,之后求其平均值,面积与场地相乘即可得到肿瘤的体积。

图7为患者1001的CT重建图像。图7(a)为多平面重建的横截面图,可根据图中蓝线与红线确定肿瘤的位置。图7(b)、图7(c)为CT的三位重建,图7(b)展现的为正视图,图7(c)图展现的为仰视图。

图7 CT图像的重建图像

(4)纹理。以10071标记肿瘤的影像为例,其纹理特征提取后图像,如图8所示。

图8 CT图像的纹理图

纹理特征基于共生矩阵,灰度共生矩阵特征提取与匹配主要依赖于能量、对比、熵和相关性4个参数。基于Haralick纹理特征进行提取,定义为

(12)

式中:P(i,j)为中心像素点与该方向上的邻域点的灰度值组合(i,j)在整幅目标图像区域中出现的次数;R为灰度值组合的次数之和;p(i,j)为灰度值组合(i,j)在目标图像区域中出现的概率。

角度二阶矩(angular second moment, ASM)的表达式为

(13)

对比度Con的表达式为

(14)

局部灰度相关性Corr的表达式为

(15)

熵ENT的表达式为

(16)

式中:i、j为强度;n为强度差;Ng为灰度级别;μx、μy分别为图像行、列方向上灰度的均值;σx、σy分别为图像行、列方向上灰度的标准差。

3.3 基于淋巴结转移情况的卷积神经网络模型

3.3.1 模型建立

(1)模型建立流程如图9所示。将107位患者的图片作为训练集和测试集,共有460张图片,统计信息如表7所示,其中60张为测试集,400张为训练集,每个数据集各包含两个文件夹,分别对应阴性和阳性患者的图像数据。

表7 患者图像数据统计

图9 算法流程图

(2)传统卷积神经网络模型。由于机器内存的限制,不适合选择将整个数据集一次性装进内存中,运用图像增强的方法,通过Image Data Generator类,利用它无限制地从训练集和测试集中批量导入图像流,其中很可能会产生模型没有识别过的图片,从而提高判断的准确率,使得模型的泛化性增强。

首先,需要建立两个Image Data Generator对象,训练集为train_set,测试集为test_set,并且对两者进行缩放。同时,为这两个对象创建两个文件生成器,通过对图像数据的增强,从而生成批量的图像数据。

接着,建立3个卷积层连接3个池化层和2个全连接层的卷积神经网络模型结构。这3个卷积层将分别应用64个3×3的滤波器。其中,在全连接层中使用了dropout,设定其值为0.2来避免过拟合。卷积神经网络框架图,如图10所示。

图10 卷积神经网络框架图

最后,通过随机梯度下降法,进行模型优化,设置参数learning rate为0.01,momentum为0.9。共训练1 344 938次,未训练0次,模型全貌如表8所示。

表8 模型描述

(3)VGG16网络模型。运用VGG16网络模型进行训练优化,结构如图11所示,该网络有5个组构成,分别为Block1-5,其中Block1-2中只有2个卷积层,其余的Block2-5每组中含有3个卷积层,每组卷积层后边都有一个池化层,网络中所有的卷积层的卷积核皆为3×3,池化层皆为最大池化层。其中,每组特征图的维度如下,第1组卷积层的维度为64(通道数)×256(图像高度)×256(图像宽度),第2组卷积层的维度为128×128×128,第3组卷积层的维度为256×64×64,第4组卷积层的维度为512×32×32,第5组卷积层的维度为512×16×16,每个卷积层后最大池化层将卷积输出的特征图尺寸减半,第1、2个全连接层的维度为4 096维,第3个全连接层的维度为1 000维,经过soft-max分类器,其最终得到一个是与非的二分类预测值。

Conv为卷积(convolution);Maxpool为最大池化;Block为用于构建网络的基本单元,每个Block包含卷积层、池化层等基本操作;FC为全连接网络结构(fully connected)

将阴性与阳性患者的肿瘤图像作为输入,经过5组的卷积与池化操作提取特征,全连接层将特征组合拼接,soft-max对组合后的特征分类,而患者的阴性与阳性则是分类结果,并作为网络的输出。

3.3.2 实验结果及评价

选用F-Score方法来评价分类预测结果,测试结果可按表9分类。

表9 测试结果

查准率P(Precision)表示检测到的结果准确度,查准率越大表示查询结果越准确。

P=A/(A+B)

(17)

查全率R(Recall)表示检索到的结果完整度,查全率越大表示查询结果越完整。

R=A/(A+B+C)

(18)

式中:A为检索到完整结果且完全正确的数量;B为检索到完整结果但结果并不完全正确的数量;C为未检索到完整结果且属于正确结果的数量。

得到P和R的值,即可运用F值(F-Score)对淋巴转移预测的分类结果进行评估,P和R两个指标一样重要,故参数值取1,可得到表达式为

F=2PR/(P+R)

(19)

传统卷积网络和VGG16网络的准确率如表10所示,VGG16网络的的准确率为90%,而传统卷积网络的准确率只有75%。查准率提升了19.54%,F值高出3.01,如表11所示。

表10 传统卷积神经网络与VGG16网络准确率

表11 淋巴结转移预测的评价结果

4 结论

使用机器学习框架PyTorch并按照U-Net卷积神经网络的结构建立网络模型,判断CT影像中的直肠区域是否存在并进行目标区域分割,得到直肠区域分割图像,方便下一步的特征提取及分析,解决了长期以来医生凭借经验,花费数小时观察CT影像来判断直肠癌区域的高强度工作。利用SIFT(尺度不变换特征变换)算法对直肠区域分割图像进行体素强度、面积、周长、纹理4种影像特征的提取,再通过对直肠区域4种影像特征的综合分析对比,实现了在多张直肠区域影像中对含有直肠癌细胞影像的准确查找。所建立的卷积神经VGG16网络模型进行训练优化,得到直肠肿瘤区影像特征与淋巴结是否转移的具体关系,具有高准确度、普遍性、方便、高效等优点,适合推广到临床进行使用,帮助医生判断患者直肠癌淋巴结转移的情况,给予患者充分的治疗时间。

猜你喜欢

直肠癌卷积淋巴结
基于3D-Winograd的快速卷积算法设计及FPGA实现
喉前淋巴结与甲状腺乳头状癌颈部淋巴结转移的相关性研究
淋巴结肿大不一定是癌
从滤波器理解卷积
基于傅里叶域卷积表示的目标跟踪算法
腹腔镜下直肠癌前侧切除术治疗直肠癌的效果观察
直肠癌术前放疗的研究进展
COXⅠ和COX Ⅲ在结直肠癌组织中的表达及其临床意义
GRP及GRPR在结直肠癌中的表达及意义
颈部淋巴结超声学分区