APP下载

一种改进的残差网络宫颈癌细胞图像识别方法

2019-01-18夏哲雷

中国计量大学学报 2018年4期
关键词:残差交叉宫颈

谢 欣,夏哲雷

(中国计量大学 信息工程学院,浙江 杭州 310018)

宫颈癌是常见的妇科恶性肿瘤.现阶段的宫颈癌细胞识别主要是人工参与分类,识别过程中存在较多的主观因素,在分类宫颈癌细胞时存在较高的假阴性率[1].应用深度学习识别宫颈癌细胞,促进了医疗辅助诊断的智能化发展.

图像分类是机器视觉领域非常活跃的研究方向.1968年由COVER和HART提出的K-邻近(KNN, K-NearestNeighbor)方法[2],因其简单、有效且适用于样本容量比较大的类域分类,而广泛用于图像的多分类识别.但是K-邻近方法属于惰性学习算法,计算量大、耗费时间[3].与K-邻近相比,1995年由CORTES等首先提出的支持向量机[4](support vector machine, SVM)在非线性及高维模式识别中表现出许多特有的优势,但是在求解问题分类时,要求解函数的二次规划,这就需要大量的存储空间[5].为提高图像识别效率,减小计算量,近些年来卷积神经网络蓬勃发展[6],尤其是HE等在2015年提出的残差网络[7](ResNet)在图像识别中取得了优异的结果.该算法在输出时由Softmax和交叉熵代价函数对数据进行处理,实现多分类.但是该算法在实现分类时,当样本总量较大而其中某一类别样本较小时,存在分类错误率较高的问题.将残差网络应用于宫颈细胞图像分类时,存在较高的假阴性率.

为解决宫颈细胞图像在识别分类时存在较高假阴性率的问题,本文基于残差网络,提出一种改进的交叉熵代价函数算法.该算法通过对交叉熵代价函数增加权重实现,根据不同病变程度的宫颈细胞建立权重矩阵来优化分类输出,减少假阴性的误判.实验结果表明,与传统的分类算法相比,本文提出的改进的交叉熵算法在输出分类时,宫颈癌细胞图像的假阴性率明显降低.

1 交叉熵代价函数算法

残差网络避免了因简单增加网络深度带来的梯度爆炸,以及在深层网络中求解器难以利用多层网络拟合同等函数的问题。残差网络具有网络结构易于优化,图像识别错误率低等优点。残差网络期望网络拟合残差映射如式(1),结构图如图1.

F(X)=G(X)+X.

(1)

式(1)中,F(X)为求和前网络映射,G(X)为从输入到求和后的网络映射,当F(X)=0时,即完成恒等映射G(X)=X.

图1 残差单元示意图Figure 1 Residual element schematic diagram

Softmax和交叉熵代价函数广泛的应用在深度学习神经网络中图像的分类[8].神经网络的原始输出是对输入的数值做了复杂的加权和与非线性处理之后的一个值,Softmax函数可以用来表示一个具有n个可能取值的离散型随机变量的分布[9],如公式(2).

(2)

式(2)中z表示神经网络的输出,u、v表示z中的元素.

交叉熵代价函数是一种用来衡量神经网络输出的预测值与实际值关系的方式[10].神经网络输出层由Softmax函数处理训练样本,得到一组概率向量,该向量经交叉熵代价函数判定实际的输出与期望的输出的接近程度,交叉熵代价函数H(p,q)如式(3):

(3)

式(3)中,N训练样本总和,x表示输入样本,p为期望输出,q为神经元实际输出.

2 算法改进

为了降低宫颈癌细胞图像在识别过程中存在的假阴性率,本文基于残差网络提出一种改进的交叉熵代价函数算法.该算法通过对交叉熵代价函数增加权重实现.为减少假阴性的误判,根据不同病变程度的宫颈细胞图像建立权重矩阵从而优化分类输出,降低假阴性率,改进算法如式(4):

(4)

式(4)中,wij为矩阵元素,i表示真实类别,j表示预测类别;wik表示矩阵元素在第i真实类别的情况下,预测类别为第k类的权重.

本文改进的算法采用宫颈细胞图像数据集,包含四类宫颈细胞[11]:正常细胞(Normal)、非典型鳞状意义不明确(ASCUS)、低度鳞状上皮内病变(LSIL)、高度鳞状上皮内病变(HSIL),将此宫颈细胞图像数据集作为残差网络的输入,由于输入是四类宫颈细胞图像故残差网络的最后一层全连接层输出一个4×1的特征图像向量M:

M=[m0,m1,m2,m3].

(5)

该向量经Softmax函数处理得到一组概率向量,向量的每个值表示该样本属于每一类的概率:

T=[t1,t2,t3,t4].

(6)

在将T输入到交叉熵代价函数H(p,q)之前对T进行加权处理.首先建立一个真实类别与预测类别的权重矩阵W[12],wij为矩阵元素,其中i表示某一真实类别,j表示某一预测类别.本文将宫颈细胞图像数据集分成四类,i、j的取值相同,均为{0,1,2,3},其中{0,1,2,3}分别表示样本标签属于正常细胞(Normal)、非典型鳞状意义不明确(ASCUS)、低度鳞状上皮内病变(LSIL)、高度鳞状上皮内病变(HSIL)的类别.权重矩阵表示如下:

(7)

在运算时,为使矩阵元素在一定范围内快速增加,有利于交叉熵判别Softmax输出所属类别,将矩阵元素wij的表示为

wij=an2.

(8)

式(8)中,n=i-j,当i=j时,真实类别与预测类别相同,令wij=1.常数a用来调整每个权重的相对大小,根据序关系分析法[13]rk的赋值参考表来设置a的值.设置矩阵参数如下:

(9)

改进后的交叉熵代价函数算法H1(p,q)对函数的每一项增加了权重系数wij.为使矩阵元素在一定范围内快速增加,对变量n采用平方的形式,与常数a相乘,根据宫颈细胞病变程度不同有针对的处理每一类输出,在分类宫颈细胞图像时有效地减少宫颈癌细胞被判成正常细胞的错误.H1(p,q)算法与H(p,q)算法相比,宫颈细胞图像在识别分类时假阴性率明显降低.

3 实验结果及分析

3.1 实验数据

本文宫颈细胞图像数据集是通过图像扫描仪扫描由液基薄层细胞检测(Thin-Cytologic Test, TCT)处理过的宫颈细胞载玻片得到的,将扫描的图像做成宫颈细胞图像数据库(诸暨微因生物科技有限公司).宫颈癌细胞主要有细胞外形不规则、核质比例大、核内染色质出现团块等特征.根据宫颈细胞癌变程度将数据集图像分成四类:正常宫颈细胞(Normal)、非典型鳞状意义不明确(ASCUS)、低度鳞状上皮内病变(LSIL)、高度鳞状上皮内病变(HSIL),如图2.

图2 宫颈细胞图像Figure 2 Images of cervical cells

实验采用3个不同的宫颈细胞图像数据集作为样本,分别为:8 271、17 640、27 608张图片,数据集中每一类宫颈细胞图片的数量如表1.

表1 宫颈细胞数据集Table 1 Cervical cell data set

3.2 算法改进前后试验结果分析

为验证在不同数据集的情况下本文算法识别分类宫颈细胞图像的稳定性[14],根据表1分别将宫颈细胞图像8 271、17 640、27 608张数据集用于训练测试本文算法.数据集按4∶1随机分配训练和测试图片.分配后训练图片数量分别为:6 617、14 112、22 086,测试图片数量分别为:1 654、3 528、5 522.本文实验中假阴性率为测试图片中某一类病变细胞图片被判成正常细胞图片的张数与测试数据集总数的比值.本文方法与文献[7]对比实验结果如表2.

表2 两种算法在不同数据集样本上的假阴性率Table 2 False negative rate of two algorithms on different data sets samples

由表2可以看出本文改进的交叉熵代价函数算法在不同数据集上的假阴性率,训练测试样本大小不同,实验结果相差不大.与文献[7]相比,算法改进后,对交叉熵函数进行增加权重处理,减少分类错误.本文算法对宫颈癌细胞图像识别分类的假阴性率与文献[7]算法相比明显降低.文献[7]算法没有针对特定假阴性类别的输出进行加权处理,在样本总量较大而病变宫颈细胞图片数量相对较少的情况下,输出错误率较高,算法改进后降低了假阴性率.

3.3 与传统分类算法相比

文献[2]算法因其简单、有效、适用于样本容量比较大的类域的自动分类,而广泛用于图像的多分类识别.文献[4]算法在非线性及高维模式识别中表现出许多特有的优势.本文基于残差网络,通过在输出层对交叉熵代价函数的每一项增加权重系数来降低宫颈癌细胞图像在识别中的假阴性率.实验训练和测试图片分别为14 112和3 528张,结果对比如表3.

表3 与传统分类算法相比实验结果Table 3 The experimental results were compared with the traditional classification algorithm %

由实验结果可以看出,文献[4]算法在识别分类时ASCUS、LSIL的假阴性率低于文献[2]算法,但文献[2]算法的HSIL的假阴性率低于文献[4]算法,两种方法的ASCUS假阴性率都偏高.与文献[2]、文献[4]相比,本文算法根据宫颈细胞病变程度不同有针对地对交叉熵代价函数增加权重,在分类宫颈细胞图像时有效地减少宫颈癌细胞被判成正常细胞的错误,宫颈癌细胞图像假阴性率低于前两种算法.

4 结语

基于残差网络,本文提出一种改进的交叉熵代价函数算法,该算法通过对交叉熵代价函数增加权重实现,根据不同病变程度的宫颈细胞建立权重矩阵来优化分类输出,减少假阴性误判.文章首先研究了不同大小的数据集对实验结果的影响,对于数据集大小不同,算法结果相对稳定,同时与改进前算法相比较,改进后的算法由于针对性的增加权重,在输出时降低分类错误率,减小假阴性率.最后本文算法与传统图像分类算法相比,本文算法在降低宫颈癌细胞假阴性率方面明显低于传统算法,证明了本文算法能很好地应用到宫颈癌细胞图像识别中.后续将研究卷积神经网络模型,探讨影响模型性能的因素,如:图片的格式、预处理的方法、分类器的改进等.旨在实现更低的宫颈癌细胞错误率,将卷积神经网络更好的应用在细胞识别中去.

猜你喜欢

残差交叉宫颈
基于双向GRU与残差拟合的车辆跟驰建模
菌类蔬菜交叉种植一地双收
把好宫颈这道“安全门”
基于残差学习的自适应无人机目标跟踪算法
“六法”巧解分式方程
基于递归残差网络的图像超分辨率重建
怀孕后宫颈管短怎么办
这几种“宫颈糜烂”需要治疗
HPV感染——“宫颈的感冒”
连数