APP下载

用于新冠肺炎CAR的类残差CNN-LSTM

2023-03-11吕建东王新刚

计算机仿真 2023年1期
关键词:特征提取残差卷积

吕建东,王新刚

(齐鲁工业大学(山东省科学院)计算机科学与技术学院,山东济南250300)

1 引言

自2019年12月开始,中国湖北武汉市陆续出现了一系列原因不明的肺炎病例[1]。经过中国科学家证实,一种名为严重急性呼吸系统综合症冠状病毒(SARSCoV-2)的新型冠状病毒是引起肺炎暴发的原因。现在,这种严重的急性呼吸系统综合症已被世界卫生组织称为2019年冠状病毒病(COVID-19[2]。截止到2020年6月16日,受到新冠肺炎疫情影响的人数超过780万人,其中死亡病例高达477,474人。早期发现和治疗患者能够有效减缓病毒在人群中的传播速度并降低死亡率,反转录·聚合酶链反应检测是检测新型冠状病毒肺炎的黄金手段,但其缺点在于其所需检测时间较长且灵敏度有时不尽如人意[3,4],并且在疫情爆发初期RT-PCR检测试剂盒供应相对紧张。而基于图像识别技术的计算机辅助诊断是另一种有效且快速的检测手段,例如可通过计算机辅助X光片与计算机断层扫描(CT)图像进行新型冠状病毒肺炎辅助诊断[5,6]。

随着深度学习的发展与火热,越来越多的深度学习技术被应用到计算机辅助诊断中来。尤以卷积神经网络为例,已被成功运用到包括诸如乳腺癌诊断,肺结节检测和前列腺癌定位等应用[7]。自LeNet-5[8]以来,已经提出了许多基于CNN的经典模型,例如AlexNet[9],VGG-Net(VGG-16和VGG-19)[10],GoogLeNet[11]和ResNet[12],本文通过对上述中的传统卷积神经网络进行改进,提出了一种新颖的类残差CNN-LSTM神经网络,针对串行堆叠结构的卷积神经网络结构,使用卷积神经网络提取图像的多抽象层次的特征,采用类似于残差网络的思想将其输入到LSTM的各个时间步中,使用LSTM对其进行融合后识别,使得能够充分提取图像的多抽象层次特征,采用类似于残差网络的思想能够在一定程度上防止梯度爆炸等问题,并通过LSTM中的门控机制对多级特征进行选择性记忆,达到特征融合目的的同时降低了各级特征之间的冗余;针对并行的卷积神经网络结构,使用LSTM融合来自不同结构卷积神经网络的特征后进行识别。将经过改进后的卷积神经网络模型在加州大学开源的COVID-19 CT数据集[13]上进行验证,得到了了Recall为0.9655,F1-score为0.8819,accuracy为87.25%,AUC为90.72的结果,各项性能指标都优于传统的卷积神经网络,取得了良好的效果。

2 相关工作

在此之前已有一些有关计算机辅助X射线或CT图像上自动筛查COVID-19的研究。在这里,简要回顾一些具有代表性的研究。

Feng等人[14]对于人工智能技术在COVID-19成像数据采集,分割和诊断中的应用进行了综述;Abraham等人[15]使用预训练的multi-CNN与Bayesnet分类器在X射线图像数据集上进行了计算机辅助COVID-19筛选,该方法的AUC为0.911,准确度为97.44%;Tao等人[16]构建了一个包含416例COVID-19阳性患者的CT图像与412例普通肺炎患者的CT图像的数据集,并构建了一种新颖的多尺度卷积神经网络体系结构进行COVID-19的自动筛选,该方法的AUC为0.962;Polsinelli等人[17]构建了基于SqueezeNet模型的轻量化卷积神经网络用于从胸部CT扫描图像中检测COVID-19该方法的准确度为85.03%;Wang等人[18]收集了COVID-19患者以及先前诊断为典型病毒性肺炎患者的胸部CT图像并使用深度学习算法进行放射学图像特征提取以用于COVID-19的诊断,总准确度为73.1%。

3 本文方法的贡献

前述方法已在X射线图像或CT图像上使用传统的或者改进的卷积神经网络模型进行特征提取与COVID-19的筛选。本文提出了一种新颖的类残差CNN-LSTM神经网络,采用类似于残差网络的思想进行特征提取与,并使用LSTM中的门控机制来对卷积神经网络提取的多抽象层次的图像特征进行融合,最终使用患者与非患者的CT图像进行实验验证。

所提出的方法具有以下贡献:

1)该方法使用了一种改进结构的新颖的CNN从胸部CT图像中提取特征以诊断COVID-19,现有的大部分方法则是使用预训练的或组合的经典CNN模型;

2) 该方法创造性的采用了类似于残差网络的思想提取图像的多抽象层次的特征。

3) 该方法中使用LSTM中的门控机制进行特征融合的做法可延伸至多模态特征融合领域。

4 本文算法及数据集

4.1 数据集

该方法在加州大学开源的COVID-19 CT图像数据集上进行了实验验证[14],该数据集共包含746张CT图像,由349张标记为COVID-19阳性和397张标记为COVID-19阴性的CT图像构成。

其中349张标记为COVID-19阳性的CT图像来自于216例COVID-19患者,具有不同的图片尺寸,最小,平均和最大高度为153,491和1853,最小,平均和最大宽度为124,383和1485。

剩余的397张标记为COVID-19阴性的CT图像分别来自于MedPix数据库、LUNA数据库、Radiopaedia和PubMed Central (PMC)。

数据集中的部分CT图像如图1所示。

图1 数据集中的部分图像

4.2 本文算法

本文所提出的方法中使用的类残差CNN-LSTM神经网络是由一个或多个未经预训练的经典卷积神经网络作为基准模型构成,通过对其进行分块划分并结合类似于残差网络的思想,能够更加有效的提取图像的多抽象层次特征;并通过LSTM中的门控机制对CNN提取到的各级图像特征进行长短期记忆以达到特征融合的目的,并能够通过对各级图像特征的“选择性记忆”过程降低特征之间冗余带来的影响,最终将融合后的特征融入分类器进行分类。

4.2.1 特征提取

本文所提出的方法使用单一或并行卷积神经网络进行特征提取,卷积神经网络是一种人工神经网络,其结构可以分为卷积层、池化层、全连接层三层[19]。

卷积层:用于提取特征,主要包括卷积和激活运算。本文中所采用的线性整流函数(Rectified Linear Unit,ReLU),又称修正线性单元,是一种人工神经网络中常用的激活函数。

池化层:用于下采样,却不会损坏识别效果。池化层旨在通过降低特征图的分辨率来获得具有空间不变性的特征,起到二次提取特征的作用并进一步减少参数数量,同时还可以提升模型的鲁棒性。常用的池化方法有最大池化(max-pooling,即取局部接受域中值最大的点)、均值池化(mean-pooling,即对局部接受域中的所有值求均值)、随机池化(stachastic-pooling)等。本文模型中所采用的均为最大池化法。

全连接层:用于分类。通过连接所有的特征,将输出值送给分类器进行分类输出。在本文中也将其用做整流,对具有不同形状的特征矩阵进行整流以便下一步融合。

具体的特征提取过程如图2所示,针对串行堆叠结构的卷积神经网络,如图3所示,将其划分为若干个卷积块,每个卷积块中包含若干个卷积层与池化层,对整体的卷积神经网络进行训练后以获取每个卷积块的输出,也即图像的各级特征,设CT图像Images尺寸为h*w,卷积核K大小为x*y,则特征图m的卷积运算可通过式(1)中的点积运算定义

(1)

其后对特征图m进行激活运算,其运算过程如式(2)所示

(2)

此时的各级特征矩阵具有不同的维度,需采用不同的全连接层进行整流,将其转换为具有相同维度的特征矩阵(Featurei)以便进行融合操作。

针对并行卷积神经网络,使用不同结构的卷积神经网络进行特征提取,将各个特征矩阵经由具有同一输出形状的全连接层进行整流以便融合。

图2 特征提取过程示意图

4.2.2 特征融合

图3 特征融合过程示意图

本文所提出的方法采用LSTM中的门控机制对各级图像特征进行“选择性记忆”以达到特征融合的目的。LSTM[20]是长短期递归神经网络(RNN),其执行过程分为以下三个阶段:

1)忘记阶段。这个阶段主要是对上一个节点传进来的输入进行选择性忘记。简单来说就是会“忘记不重要的,记住重要的”。

2)选择记忆阶段。这个阶段将这个阶段的输入有选择性地进行“记忆”。主要是会对输入进行选择记忆。哪些重要则着重记录下来,哪些不重要,则少记一些。

3)输出阶段。这个阶段将决定哪些将会被当成当前状态的输出

图4 总体架构示意图

It=σ(FtWxi+Ht-1Whi+bi)

(3)

Ft=σ(FtWxf+Ht-1Whf+bf)

(4)

Io=σ(FtWxo+Ht-1Who+bo)

(5)

(6)

其中Wxi,Wxf,Wxo,Wxc∈RD×h和Whi,Whf,Who,Whc∈Rh×h是权重参数,bi,bf,bo,bc∈R1×h是偏差参数。此处通过元素值域在[0,1]的输入门、遗忘门和输出门来控制隐藏状态中信息的流动,当前时间步记忆细胞Ct∈RN×h的计算组合了上一时间步记忆细胞和当前时间步候选记忆细胞的信息,并通过遗忘门和输入门来控制信息的流动

(7)

其中⊙表示按元素乘法,取最终时间步stepN的记忆细胞CN∈RN×h(包含当前时间步的特征信息与之前时间步的特征信息)作为融合后的特征矩阵。

4.2.3 总体架构

本文采用了一种新颖的方式对COVID-19数据集中的CT图像进行特征提取与融合,首先使用类似于残差网络的思想与卷积神经网络相结合来提取多抽象层次的图像特征;其次使用LSTM中的门控机制所提取的多级图像特征进行“选择性记忆”以此来达到特征融合的目的,LSTM各个时间步的输入为CNN所提取的具有相同维度大小的图像特征矩阵,经过LSTM中的门控机制对多个时间步的输入进行长短期记忆,取最终时间步的输出作为融合后的特征,并送入全连接层进行分类。

首先对于串行结构的卷积神经网络,本文选取了AlexNet、VGG-16与VGG-19作为基准CNN模型,如图4.(a)所示,将串行结构的卷积神经网络中的网络层分为若干个卷积块(Block-1,…Block-N),每个卷积块中又包含若干个卷积层与池化层,整个卷积神经网络经过训练后,采用类似于残差网络的思想,将逐个卷积块的输出(特征矩阵)经过全连接层(FC-1…FC-N)进行整流,转换为具有相同维度的特征矩阵(Feature1…Feature N),分别作为LSTM的每个时间步(Step i)的输入,通过LSTM中的门控机制对逐个时间步的输入特征矩阵进行长短期记忆,取最后一个时间步的记忆细胞的输出CN(包含之前时间步的特征信息与当前时间步的特征信息)作为融合后的特征,最终送入全连接层(FC-classifier)进行识别分类。

其次对于并行multi-CNN,本文分别选择VGG-16+AlexNet与ResNet50+ResNet-18,densenet161+densenet169作为基准multi-CNN模型,如图4(b)所示。将不同结构的CNN(CNN-1…CNN-N)所提取的特征送入全连接层(FC-1…FC-N)进行整流,将其转换成具有相同维度的特征矩阵(Feature1…Feature N),分别作为LSTM的每个时间步(stepi)的输入,通过LSTM中的门控机制对逐个时间步的输入特征进行长短期记忆,将最后一个时间步的记忆细胞的输出CN(包含前时间步的特征信息与当前时间步的特征信息)作为融合后的特征,最终送入全连接层(FC-classifier)进行识别分类。

5 本文方法实验

5.1 预处理

由于数据集中的图像尺寸大小不一,因此统一将其尺寸转换为224×224,以便能够方便的输入到神经网络之中,并采用随机裁剪、随机旋转等操作对图像进行增广操作。

5.2 本文方法性能比较

由于本文方法采用的数据集为二分类:是否为COVID-19患者,因此采用recall、Precision、F1-score、accuracy以及AUC作为评测指标。

实验中采用十折交叉验证法进行训练,采用Adam为优化器,设置batchsize为32,每一折训练300个epoch。

改进的串行结构类残差CNN-LSTM与其基准模型对比如表1所示,改进的并行CNN-LSTM与其基准模型对比如表2所示,经由本文方法改进的串行结构CNN在各项性能评测指标都有着不错的表现,对比基准模型各有2%~10%的提升。

表1 串行结构类残差CNN-LSTM验证结果表

表2 并行结构CNN-LSTM验证结果表

5.3 本文方法的局限性

即使该方法已经取得了良好的结果,但也存在一定的局限性,本文方法仅针对COVID-19阳性与阴性进行二分类图像识别验证,未在多类分类方案中进行验证(如区分COVID-19患者与非患者、病毒性肺炎患者与细菌性肺炎患者)。

6 结论

本文提出了一种新颖的类残差CNN-LSTM用于计算机辅助新冠肺炎识别,通过类似于残差网络的思想与卷积神经网络相结合进行特征提取;通过LSTM对多级图像特征进行融合,经过验证,结果要明显优于基准模型,各项评测指标相较于基准模型提升了2%~10%,证明了本文方法的有效性。

猜你喜欢

特征提取残差卷积
基于双向GRU与残差拟合的车辆跟驰建模
基于3D-Winograd的快速卷积算法设计及FPGA实现
基于残差学习的自适应无人机目标跟踪算法
基于递归残差网络的图像超分辨率重建
从滤波器理解卷积
基于Daubechies(dbN)的飞行器音频特征提取
基于傅里叶域卷积表示的目标跟踪算法
Bagging RCSP脑电特征提取算法
平稳自相关过程的残差累积和控制图
基于MED和循环域解调的多故障特征提取