粗-细两阶段卷积神经网络算法

2021-08-07张梦倩

计算机与生活 2021年8期

张梦倩，张莉,2+

1.苏州大学计算机科学与技术学院，江苏苏州 215006

2.苏州大学机器学习与类脑计算国际合作联合实验室，江苏苏州 215006

图像分类是计算机视觉中最基本的任务。早期，支持向量机和K近邻方法是图像分类的主流方法。然而，在1998 年Lecun 等人[1]提出了用于图像分类的5 层卷积神经网络（convolutional neural network，CNN），即LeNet-5 方法之后，CNN 开始在这个领域散发光芒。因而，基于CNN 的各种高效方法被提出，如AlexNet（Alex network）[2]、VGG16（visual geometry group 16）[3]、GoogLeNet（Google Net）[4]、ResNet（deep residual network）[5]、DenseNet（densely networks）[6]等。

细胞图像分类在图像分类任务中占有一席之地，如宫颈细胞[7-8]、白细胞[9]、红细胞[10]等。细胞图像往往来自医学图像采集，与视觉图像相比，这类图像通常具有分辨率低、对比度低、图像信息模糊等特点。因此，细胞图像分类是图像分类中的一个难题。然而，对细胞图像进行准确分类对于临床诊断和医学研究具有重要意义。因此，细胞图像分类具有重要的学术研究价值和巨大的实用研究价值。

本文研究的对象是人上皮2 型（human epithelial type 2，HEp-2）细胞，针对其间接免疫荧光检测（indirect immunofluorescence，IIF）图像进行分类。对于HEp-2 图像而言，往往有着看似相同的细胞轮廓和难以区分的细节特征。因而，对HEp-2 细胞图像细节特征中的差别进行抽取，是分类任务的根本。但对于HEp-2 细胞全局特征的把握也是不可或缺的，Gao等人[11]在其论文中对于细胞掩模部分的研究充分证明了这一点。因此，单一地关注其全局特征或者细节特征，都无法对其准确判断。

因此，本文将粗-细（coarse-to-fine,CTF）策略应用到模型中。在人类的生长和生活中，对于视觉的感知往往是一个CTF 的过程。例如，当新生儿的初始视力很弱时，在大多数情况下，只能看到物体的整体结构，对于细节特征的掌握和记忆能力较差。随着视力的提高和大脑发育的不断改善，大脑将逐渐丰富每一个认知原型的细节，从而获得对目标粒度更丰富的理解，直到稳定。这与Navon[12]在1977 年提出的视觉感知中的“全局优先”效应相吻合，即对于人类而言，全局特征比局部特征更能被识别。相应的认知实验表明，人类识别大写字母的反应时间，比识别小写字母的反应时间短。该理论也充分证明了CTF 的合理性。

学者们相继将CTF 策略应用到了相关算法中。该策略最早出现在20 世纪90 年代初的人脸检测算法中，Yang 和Huang[13]提出了使用CTF 策略来解决计算资源不足的问题。在对人像进行下采样和上采样后，先对模糊图像进行分类，然后对原始图像进行进一步分类，不仅提高了分类结果，而且节约了计算资源。在图像分类领域，也有不少学者对CTF 策略进行了扩展应用。Tian 等人[14]提出以霍夫圆检测为粗分类器及CNN 和支持向量机为细分类器，对白细胞和白带湿膜细胞进行识别。Fu 等人[15]利用CNN 不同维度的全连接层输出，作为粗略和精细的信息，联合优化损失函数对图像进行分类。以上方法虽不同，但都表明了CTF 策略对模型有正面影响。

为此，本文提出一种基于聚类的粗-细卷积神经网络（coarse-to-fine two-stage convolutional neural network，CTFTCNN）模型，并应用于HEp-2 细胞图像分类。本文模型由两种子网络组成：粗粒度网络和细粒度网络。每种子网络都独立训练，不会增加整体网络的深度。先基于验证集图像聚类，获得一个粗粒度数据集，用于粗粒度网络的训练。该数据集在每一粗类中包含一个或多个细类且每个细类只属于一个粗类。

在CTFTCNN 中，粗粒度网络是一个多尺度卷积神经网络（multi-scale convolutional neural network，MSCNN）[16]。为其分配的任务是确定样本属于哪个粗类，这项任务的重点是识别图像的全局特征，相对较简单。可将粗粒度网络类比弱视时期的人类。细粒度神经网络中包含的网络个数，与粗粒度数据集中包含两个细类以上的粗类个数相同。每个子网络将对应每个粗类，用于重新训练两个或多个细类。细粒度网络中的每个子分类器都是一个需要微调的VGG16 网络，可以极大地节省计算资源和训练时间。可将细粒度网络类比有着丰富视觉经验和专业知识时期的人类。预测时，如果粗类中只含有一个细类，则可以从粗粒度网络输出结果。否则，将粗粒度网络和细粒度网络提取的特征，联合决定出最终的预测结果。

1 相关工作

1.1 HEp-2 细胞分类

病人血清中的抗核抗体是各种自身免疫性疾病特别是抗核抗体相关风湿性疾病的重要血清标志物。常用的检测血清中抗核抗体的方法是用纯化或重组抗原筛选抗核抗体，如酶联免疫吸附试验（enzyme linked immunosorbent assay，ELISA）和HEp-2 细胞间接免疫荧光法（IIF）[17-18]。虽然ELISA 方法简单、自动化程度高，但在抗原纯化过程中，会出现抗原性“衰减”或“失活”等缺点，而后一种方法则不会。另外，HEp-2 细胞是人源性细胞，有着核抗原丰富、特异性强、含量高、核体积大、细胞结构清晰等优点，易于观察和荧光染色分析，还能检测总抗核抗体。因此，基于HEp-2 细胞的IIF 方法被美国风湿病学会和欧洲自身免疫标准化协会推荐为抗核抗体检测的标准方法[19]。本文针对经过IIF 方法的HEp-2 细胞，对其抗核抗体的核型进行鉴定，其中不同的核型，可能对应于不同的自身免疫性疾病。

在2015 年之前，对于HEp-2 图像分类的主流方法是传统浅层机器学习[20-26]。在这类算法中，特征提取是分类任务的关键步骤。但传统浅层机器学习算法提取的特征不充分，且包含一些不相关的特征，导致分类性能较差。为了进一步提高分类性能，学者们提出了一些基于CNN 的HEp-2 图像特征提取方法。Gao 等人[11]在2017 年提出了一种基于5 层CNN的HEp-2 图像分类器，在ICPR 2012 和ICPR 2014 数据集上都取得了良好的效果。并说明了在处理HEp-2 图像时，不需要使用掩模和校正图像。同年，Liu 等人[27]提出了一个由5 层CNN 组成的深度自动编码分类网络（deep autoencoding-classification network,DACN），分为两个分支：图像恢复解码器和图像分类器。DACN 的损失函数是两个分支的联合。

基于残差网络ResNet[5]，Shen 等人[28]提出了一种更深层次的网络结构，称为深交叉剩余网络（deep cross residual network，DCRN）。DCRN 中的深度交叉残差模块由3 个卷积层和3 个交叉连接组成，将网络升级到24 层，并在I3A 和ICPR 2012 数据集上取得了良好的效果。无独有偶，Xie 等人[29]提出了一种50 层的深度监督ResNet（deeply supervised ResNet,DSRN），充分利用了残差模块，能够解决梯度消失和弥散问题。

1.2 图像聚类

聚类算法是一类无监督学习算法，其目的是利用相似度度量，使得同一个簇（或组）的数据比来自不同簇的数据更相似。以此，将数据集分为多个簇。因此，数据的特征在聚类算法中显得极为重要。然而，图像数据的信息表示方式不具有结构化和代表性，给特征的确定带来困难，同时图像数据也是一种高维数据。即使是100×100 像素的小灰度图像也有10 000 维。因此，图像的聚类通常存在以下问题：（1）直接在高维数据集中应用聚类算法效率低。（2）由于数据在高维空间中具有稀疏性，数据分布分散难以成簇。（3）由于维数高，算法的计算时间复杂度也高。

实际上，学者们对图像聚类做了很多研究。Zheng 等人[7]提出了一种用于图像聚类的局部预服务方法。Yang 等人[30]提出了一种使用局部判别模型和全局集成的聚类算法。He 等人[31]提出在张量空间中表示图像，并采用K-means 对这些图像进行聚类。Tariq 等人[32]基于张量分解和图像的空间结构，提出了一种非参数聚类方法。另有学者以深度学习的方式从自编码器中抽取图像特征，嵌入聚类层完成图像聚类任务[33]。对于数据降维算法[34]和聚类算法[35]的优化，也都在不断进行。

在本文方法中，聚类的作用是辅助划分数据集为粗集。本文使用最简单也最普遍的方法，主成分分析和K-均值（PCA+K-means）来辅助划分数据集。

2 粗-细两阶段神经网络算法

2.1 数据预处理

假设{(X,Y)}={(x1,y1),(x2,y2),…,(xn,yn)} 为给定的数据集，其中图像数据xi∈ℝl×d，yi∈{1,2,…,k}是xi的标签，l和d分别表示图像的行和列数，k是总的类别数，也是细类的个数。令X=XT⋃XV和Y=YT⋃YV，其中XT是样本数为|XT|=t的训练集，XV是样本数为|XV|=v的验证集，YT和YV是对应的标签集，n=t+v是给定样本的数量。

本文方法采用CTF 策略。先考虑为粗粒度分类任务生成粗粒度数据集，即对原始数据集进行一个粗略的划分。一般情况下，根据给定的簇数k′且k′

接着本文考虑为细粒度分类任务生成数据集。由于细粒度网络采用VGG16 模型，需要将原始图像xi∈ℝl×d转换成大小为224×224 且通道为3 的图像，即。令转换后的图像数据集为。根据先前的聚类结果，对转换后的图像数据集进行重新划分，即。本文使用细类标签生成训练集和验证集：

其中，tu和vu分别表示Cu粗类中训练集和验证集的图像个数。

2.2 训练过程

2.2.1 粗粒度网络

从图1（a）可以看出，粗粒度网络是一种MSCNN模型，它可以在非相邻层之间传递信息。由于MSCNN在图像分类问题上，特别是在低精度图像的分类问题上具有优异的性能[36]，本文将MSCNN 作为粗粒度网络。

Fig.1 Model in training procedure图1 训练过程的模型结构图

如图1（a）所示，粗粒度网络由5 个卷积层、3 个非重叠最大池层、2 个完全连接层和1 个多尺度连接组成。粗粒度网络的参数列在表1 中，6′表示操作设置在多尺度连接上。在执行卷积之后，每个层由激活函数ReLU（rectified linear unit）来激活。激活函数可以为模型引入非线性因素，提高网络表达能力。

Table 1 Configuration of coarse-grained network with input size 78×78表1 输入尺寸为78×78 的粗粒度网络的配置

在本文的模型中，粗粒度网络被用作初级分类。粗粒度网络的训练集是带有粗类标签y′i的XTC。由于聚类的作用，在某粗类中的图像具有相似的全局特征。而正如“全局优先”假设所言，对于全局特征的识别比局部特征要简单得多，因此粗粒度网络的结构相对简单。在粗粒度网络中，卷积层的核较大，便于从图像中提取全局特征。

粗粒度网络的具体训练过程如下。对于任意(xi,y′i)∈XTC，将xi通过11 层网络，并使用Softmax 函数得到它的粗类估计输出。其中，在第三个卷积层之后，特征映射将被传播到两条路径：主路径和分支路径。在主路中，第三卷积层的输出通过2×2 非重叠最大池化层和第四个卷积层。在分支路径中，第三个卷积层的输出直接通过4×4 的非重叠最大池化层，与主路径中的特征映射在信道上进行拼接。将拼接后的特征映射通过第五卷积层，在通道上进行混合和压缩，进一步融合前后特征信息。最后经过2 个全连接层后，通过Softmax 函数对特征图进行分类。

粗粒度网络的模型可以表示为以下公式：

其中，FC(xi)表示xi在粗粒度分类阶段的最终特征图，fconv(∙)表示卷积层操作，表示重复k次的全连接操作，fconv+p4(∙)表示卷积操作和步长为4 的非重叠最大化池化层，表示重复k次卷积操作和步长为2 的非重叠最大化池化层。采用Softmax 函数对xi的粗类估计表示如下：

2.2.2 细粒度网络

细粒度网络的目标是通过进一步细化每个粗类的判别能力，以此来提高分类性能。根据“全局优先”假设可知，确定细节特征的任务相对困难。因此，本文需要用复杂而有经验的网络来处理它。VGG16 包含16 层，并且由数以千计的图像进行预训练，是解决任务的“最佳人选”。同时，在细粒度网络中，卷积核较小，也便于从图像中提取细节特征。在本模型中，细粒度网络采用已预训练好的VGG16 模型，其中预先训练的VGG16 模型意味着，该模型已经在ImageNet 数据集上进行了训练，并且在许多分类应用中取得了良好的效果。此处，本文再对VGG16进行微调，可以节省训练成本并提高模型表达效率。由于原VGG16 模型使用224×224×3 的图像进行训练，因此相应地把输入细粒度网络的图像尺寸进行了调整，以便更好地适应VGG16 模型。

2.3 预测过程

假设已经训练好了粗粒度网络和细粒度网络。现在考虑对无标签的图像x∈ℝl×d分配标签。

首先，通过粗粒度网络对x进行初步的类别预测，即

其中，0 ≤α≤1 是加权系数。如图2 所示，将混合特征图F(x)输入到分类器中获得对x的分类估计：

3 实验与结果

为了验证本文所提模型的有效性，本章在ICPR2014 Task-2 数据集上测试并对比了本文方法。

以Python 3.6 在Tensorflow1.13.1 框架作为实验运行环境。在本文的实验中，以1E-4 的学习率，采用Adam（adaptive moment estimation）优化器来训练网络。

3.1 度量标准

对HEp-2 细胞分类模型的性能评估，通常采用的指标为平均分类准确率（average classification accuracy，ACA）和平均类精度（mean class accuracy，MCA）。给定N个测试样本xi及标签yi，ACA的计算公式如下：

MCA 主要计算每个类的平均精度，公式如下[37]：

其中，CCRj指第j类的正确分类率。

3.2 数据集

Fig.2 Model in prediction procedure图2 模型预测结构图

本文采用ICPR 2014 Task-2数据集进行实验。该数据来源于澳大利亚Sullivan Nicolaides病理实验室，收集自1 001名抗核抗体阳性患者血清[38-39]。收集过程如下：首先把病人血清稀释到1∶80，形成一个样本；然后，用安装在显微镜上的单色照相机拍摄标本。每个样本在4 个不同的位置拍摄，即每个样本呈现4个样本图像。样本图像的染色核型分为6 类：14 367个均匀型、14 655 个斑点型、13 257 个核仁型、13 737个着丝粒型、5 086 个高尔基型和2 343 个核膜型。

所有样本图像均为单色未压缩格式，分辨率为1 388×1 040 像素，并带有自动获取的相应细胞掩模。Qi 等人[40]利用ICPR 2014 Task-2 数据集的分割掩模，设计了一种自动提取细胞图像的方法，从ICPR 2014 Task-2 数据集中共裁剪出6 个模式63 445个细胞图像。裁剪后的HEp-2 图像大小在70×70 左右浮动。为了不丢失信息和统一起见，本文将裁剪的HEp-2 图像的大小调整为78×78。图3 显示了数据集中的一些图像样本。

3.3 实验和结果

公平起见，所有的实验都是在相同的环境下进行的，所有方法采用相同的激活函数，并在同一训练和测试集上进行。

在经过粗粒度网络前，通过对验证集聚类获得粗分集合。本次实验中选取k′=3，聚类过程中，随机多次从验证集中抽取不同规模（600，1 200，3 000）的数据，进行多次聚类，均获得相同的聚类结果。聚类结果为C1={1,2,4}，C2={3}，C3={5,6}。随后，本文使用粗粒度训练集来训练粗粒度网络，进行了12 000次迭代，并进行测试。粗粒度网络的测试结果如表2所示。为显示细粒度网络对网络性能提升的帮助，将粗分类网络的具体分类性能显示在表3 中，其中粗体表示该类的准确性。

Table 2 Classification performance of coarse-grained network on test set表2 粗粒度网络在测试集上的分类性能 %

Table 3 Classification performance of coarse-grained network on test set(specific)表3 粗粒度网络在测试集上的分类性能（具体）%

本文模型在测试集上得到的最终分类结果，显示在表4 中。比较表3 和表4，可以看出均匀型、斑点型和着丝粒型的分类精度在经过细粒度网络后性能是增加的，分别增加了11.1 个百分点、9.1 个百分点和1.8 个百分点。同时通过细粒度网络后，也降低了它们的混淆率。此外，还可以看到，属于C3粗类的图像，通过对应的细粒度网络，高尔基型和核膜型的分类准确率分别提高了1.7 个百分点和3.1 个百分点。

Table 4 Classification performance of CTFTCNN on test set表4 CTFTCNN 在测试集上的分类性能 %

Fig.3 Examples of 6 classes of HEp-2 cell patterns图3 6 类HEp-2 细胞染色模式示例

这些现象表明，为了进一步区分类，有必要为C1和C3构建细粒度网络。在细粒度网络的帮助下，5 个类的分类性能都得到了提高。因此，CTFTCNN 的分类性能在总体上优于粗粒度网络，即MSCNN。

此外，本文结果与Gao 等人[11]提出的5 层CNN、Shen 等人[28]提出的DCRN 以及Tian 等人[14]提出的细胞分类模型进行对比。由于上述方法的源码无法获得，且模型结构简明详尽，对比方法的实验结果是复现所得。如第2 章所述，粗粒度网络和细粒度网络，分别是MSCNN 和经过预训练的VGG16 网络，也可以直接将两者单独用作分类器进行对比。

在表5 中列出了本文模型与其他方法的性能比较。从表5 中可以看到，所提出的模型在比较方法中具有最高的ACA 和MCA，其次是DCRN。在ACA和MCA 指标上，本文模型分别高于DCRN4.5 个百分点和3.06 个百分点。因此，CTFTCNN 与最先进的方法相比具有更好的性能。

Table 5 Comparison of 6 methods on test set表5 6 种方法在测试集上的比较

对于任意图像，如果粗粒度网络为其分配C2类的粗标签，那么可以直接得到它的细类标签为3，即为核仁型；否则将其放入相应的细粒度网络。然后根据式（4）确定其标签，其中根据经验设置α=0.2。

4 总结

本文针对HEp-2 细胞图像分类，提出了一种具有CTF 策略的CNN 模型。该模型将粗粒度网络和细粒度网络结合，用以代替更深层次的CNN。因此该模型可以解决较深CNN 带来的一些问题。对于粗粒度网络，利用MSCNN 的结构，保持层间信息的有效连接融合。在设置细粒度网络时，应用了迁移学习思想，有利于减少计算资源消耗。该模型结合HEp-2 细胞图像的特征，可以有效地对HEp-2 细胞图像进行分类。本文在ICPR 2014 Task-2 数据集上进行了实验。与MSCNN 相比，CTFTCNN 在一定程度上提高了其分类精度，充分说明了CTF 策略的必要性和集成学习的有效性。与目前最先进的方法相比，CTFTCNN 也具有优越性。因此，本文提出的模型对于临床诊断具有很大的潜力。