基于同层多尺度核CNN的单细胞图像分类

2018-08-01郝占龙罗晓曙赵书林

计算机工程与应用 2018年15期

郝占龙，罗晓曙，赵书林

1.广西师范大学电子工程学院，广西桂林 541004

2.广西师范大学化学与药学学院，广西桂林 541004

1 引言

CNN已经在机器学习领域中得到了广泛的应用[1-3]。CNN模型作为一种有效的图像分类工具，已经应用在人脸识别、字符识别、自然图像分类等领域[4-6]。CNN模型对图像进行图像分类，避免了一些传统的分类方法中对图像特征提取困难，特征提取复杂度高，通用性差等问题[7-11]。经典的CNN模型都需要较多的数据进行参数的训练才能具有一定的分类能力，而HEp-2数据集中仅有训练集为721张、测试集为738张总计1 459张单细胞图像，无法直接进行CNN模型的训练，并且经典的CNN模型普遍采用每层相同尺度卷积核的结构；为了使模型在不同尺度上对图像进行特征提取，针对以上问题，本文采用数据提升方法对训练集单图像进行扩充，并设计同层多尺度核CNN模型，仿真测试表明本文数据提升方法有效训练了网络参数，并且本文同层多尺度核CNN模型提高了单细胞图像的识别率。

2 针对小数据集单细胞图像数据提升

尽管CNN使用局部感受野，权值共享的方式减少了大量的参数，但是相对于本文使用的细胞图像数据集，网络模型的参数数量依然很多，训练这样的网络仍然具有很大的挑战。

在本文使用的两个细胞图像数据库中，hep2的单细胞图像标准训练集为721张，测试集为738张；深度学习是一种自动学习特征的机器学习方法，需要足够的训练样本才能够更加有效地调整网络参数，显然如此小规模的图像显然无法直接有效训练卷积神经网络中的众多参数。对于每一张医学图像都来自承受着疾病痛苦的病人，应该想办法尽量充分利用这些图片中的更多信息。为了尽量利用有限的训练数据，可以通过使用一些方法对数据进行提升，这样，模型将看不到两张完全相同的图片，也有利于抑制过拟合，使得模型更有效地调整参数，提高泛化能力。

数据提升的方法主要有：裁剪、旋转[12]、亮度、对比度变换[13]、规范化等。

通过三阶插值变换对图像的尺寸进行规范化，然后通过裁剪、旋转、亮度、对比度变换、规范化等方式对数据集进行提升；通过数据提升，使得可用训练集单细胞图像样本数量得到了扩充，每张尺寸为72×72的单细胞图像进行64×64裁剪即可得到64张不同的图像，也即使原始单细胞图像数据集扩大64倍；若每张图像只进行90°步长的旋转，即可得到4张不同的图像，单细胞数据集再次扩大4倍，通过这两种方法，原来的HEp-2训练集中721张单细胞图像即可扩大到184 576张，扩大256倍，再通过对比度、亮度变化所得到的图像数量将更加庞大。通过这些方法扩大了数据集，有利于卷积神经网络中参数的训练和模型的泛化；为下一步卷积神经网络的设计和训练提供了基础。具体数据提升公式可表示为：

其中 y为输出图像，I为输入图像，Fa、Fb分别为亮度、对比度变换系数，crop为裁剪矩阵，rot为旋转矩阵。

如图1所示为一张单细胞图像某次数据提升效果图，第一张为原图，数据提升1～3参数如表1所示，其中crop为裁剪矩阵起点坐标，rot为旋转矩阵所旋转的角度。

图1 单细胞图像数据提升效果图

表1 数据提升参数表

3 基于同层多尺度核卷积神经网络模型

LeNet-5[14]等经典模型使用固定的尺度对细胞图像进行观察，也即每层卷积核尺度是单一固定的，这意味着感受野是固定的；而人类视觉过程中，随着人观察事物的关注点的不同，感受野的大小并不是单一的，所以在单层卷积时使用多个不同尺度的卷积核同时卷积做为下一层的输入，这样有利于网络在不同的尺度上对图像的特征信息进行更充分的提取。

考虑到人类视觉过程随着兴趣点的不同感受野会不同的特点，参考LeNet-5模型结构，将第一个卷积层改为一个5×5和一个7×7两个不同尺度的卷积核ω1、ω2，使得卷积神经网络可以通过不同的尺度处理输入的图像。则第一个卷积层的输出Out为：

其中I为输入图像，⊗代表same方式卷积。如图2所示为same方式卷积和valid方式卷积示意图。

图2 两种卷积运算示意图

如图3所示为本文所述同层多尺度核卷积神经网络模型。其中C代表卷积（Convolutional），P代表池化（Pooling），例如C1.1@64×64×8代表第一层第一个卷积核卷积得到的特征图，尺寸为64×64，一共有8张；模型使用ReLUs激活函数，每次最大池化后进行局部归一化再输入到下一层。用表示经过ReLUs的神经元在(x,y)处应用核函数i的响应，则局部响应归一化可表示为[15]：

其中N是该层核函数的总数，n是参与竞争的邻域数量，超参数 k,n,α和 β 可设置为[15]k=2,n=5,α=10-4,β=0.75。

图3 同层多尺度核CNN模型

4 仿真实验

为了研究部分参数对CNN模型的影响，调整部分参数，和本文模型不同的是，CNN1去掉了卷积层Conv3，CNN2去掉了全连接函数Localfunction2，CNN3去掉Conv1.2卷积核函数，所有模型均采用最大池化——maxpooling，具体参数如表2所示。

表2 几种CNN模型参数列表

图4为几种不同模型下测试集准确率曲线，从图中可以看出，本文模型较其他参考模型测试集预测准确率都更高，说明本文所述模型中任何一部分结构都是缺一不可的，最下面一条曲线为使用本文模型时的无数据提升模型识别率，说明数据提升后能够更加有效地训练网络参数；表3为4种模型的HEp-2单细胞识别率，和Faraki[7]，Nosaka[8]方法不同的是本文模型使用数据提升后单细胞图像进行训练，使得模型对于残缺、对比度亮度变化、旋转具有一定的适应性，本文模型识别率为72.1%比单尺度模型CNN4提高2.7%。表4为本文模型和近年其他文献对HEp-2单细胞图像六分类识别率的对比，本文所述模型对HEp-2单细胞六分类识别率72.1%分别比ICPR2012竞赛最佳方法68.7%提高了3.4%，比ICPR2012竞赛中的CNN模型分类识别率提高了12.3%；对比其他方法也都有一定程度的识别率提升。