基于LBP纹理特征的白带显微图像中上皮细胞检测方法
2019-10-17杜晓辉王祥舟倪光明刘娟秀
杜晓辉,刘 霖,张 静,王祥舟,倪光明,刘娟秀
(电子科技大学 光电科学与工程学院,四川 成都 610054)
1 引 言
白带常规是医院对女性生理疾病的常规检查手段之一。白带常规的主要检查手段是显微镜检的方式,通过观察镜下细胞等有型成分的比例来给出诊断结果。白带显微图像中上皮细胞是主要的有型成分,通过识别和对上皮细胞进行计数等方式可以诊断病人的生理健康状况,例如是否具有细菌性阴道疾病等,并且上皮细胞是判断白带样本清洁度的重要指标之一。目前,白带显微图像中细胞的识别是通过医生人为判断的方式,这种方式效率低,主观性强,容易引起误判。并且由于人工镜检的卫生问题,受到医生的反感和抵制。因此,提出一种白带显微图像中的上皮细胞的自动识别算法很有必要。
随着机器视觉和深度学习技术的发展,研究人员提出了许多显微图像中细胞等有型成分的识别算法。在显微图像的自动识别领域,Laosai[1]等人提出了一种巴干细胞和骨髓干细胞的识别检测算法,他们从分裂的细胞质和细胞核中提取了外形和纹理的特征,并结合各种分类器进行分类,实验表明,支持向量机取得了最佳识别效果。Ghosh[2]等人提出了一种血液中白细胞的自动检测算法,作者用区域集理论和冗余消除算法来进行白细胞的分割,并用基于梯度的邻域增大法来恢复其边界,分类时用到了模糊和非模糊技术提取了目标的大小、形状、颜色和纹理特征。Gautam[3]等人用大津阈值二值化算法分割血液显微图像中的白细胞成分,并用朴素贝叶斯分类器对提取的细胞核特征进行了分类。上述应用主要是采用特征+分类器的方法进行目标检测,这种方法具有一定的局限性,例如,文献[1]的特征是细胞质和细胞核的特征,而对于白带显微图像中上皮细胞的这些特征并不明显;文献[2]和文献[3]中的检测对象主要针对血液中的白细胞,文献[2]的特征为白细胞的边缘和颜色特征,而文献[3]则侧重于细胞核特性,白带中的上皮细胞特性则主要表现为细胞内部的网状纹理特征。这些模型均需要设计适用于特殊图像条件下的分类器来实现对目标对象的识别,而对于白带显微图像中上皮细胞的识别并不适用。
近年来,深度学习应用广泛,发展迅速,已经成为目标检测学科的研究热门。Jane[4]等人在基于Faster R-CNN的理论模型上,提出了亮场显微图像中疟疾感染的血液细胞检测方法,与传统的随机森林分类方法相比,识别的准确率得到了很大的提升。Wu[5]等人提出了一种检测卵巢癌细胞的深度学习方法,作者对Alexnet网络进行改进,并对图像数据做了增强处理,最终模型的分类识别率提升了6%。Lu[6]等人提出了一种结合梯度方向直方图(HOG)和卷积神经网络(CNN)的分类识别模型,该模型在白带显微图像中对霉菌识别效果很好,文中将HOG特征与CNN提取的特征进行组合,并用主成分分析法进行降维处理。然而,深度学习模型受制于数据集的影响,少量的样本采用卷积神经网络等方法无法达到高检测准确率,模型容易过拟合[7-9]。
因此,采用基于特征和分类器的方法实现上皮细胞的检测是一种有效的解决方案。上皮细胞区别于其他细胞,其识别难点在于上皮细胞具有不定的形态特性,外形大小、形状和颜色没有明显的特征。本文在综合分析白带显微图像中的上皮细胞特性的基础上,提出了一种基于LBP纹理特征的上皮细胞检测算法,有效地实现了上皮细胞的高检测准确率和高效率,为实现白带常规的智能化、自动化提供了理论基础。
2 基于纹理特征的上皮细胞检测方法
2.1 前景目标提取方法
在对上皮细胞进行特征提取和分类时,需要在图像中提取正样本(上皮细胞)和负样本(类上皮细胞杂质)。在白带显微图像中,上皮细胞占据了图像视野中的很大比例,上皮细胞通常具有网状的纹理结构,并且面积较大,如图1所示。
图1 白带显微图像中上皮细胞示意图。(a)视野(1);(b)视野(2)。Fig.1 Schematic diagram of epithelial cells in leucorrhea microscopic images. (a)View (1); (b)View (2).
显微图像中前景目标的提取方法很多,例如文献[2]中提出的区域集理论和冗余消除算法用于白细胞的前景目标提取,文献[3]中提出的大津阈值用于白细胞的前景目标提取方法。此外,于跃[10]等人提出了基于中国餐厅模型的马尔科夫图像自动分割方法。在目标检测中,常用的还有选择性搜索算法[11]和图割法[12]等。然而,上述前景目标分割方法的复杂度高,计算量大,由于白带显微图像具有高清洁性和杂质少的特点,背景杂质相比较于其他显微图像更少,实现前景分割的难度低,同时上皮细胞通常具有较大的细胞面积,用常规的图像处理方法即可实现前景目标的分割。具体的方法如图2所示。
首先,图像进行灰度化:输入图像是具有彩色信息的,而上皮细胞的识别更依赖于形态和纹理,对彩色信息的依赖少,因此,需要将图像采用灰度化来进行处理。其次,对图像进行预处理:图像中通常含有噪声、杂质等物体,这些噪点会影响后续的形态学处理结果,因此采用了中值滤波的方式使得图像更加平滑,中值滤波器的大小为5×5的矩形滤波器。第三,采用顶帽变换和大津阈值法进行二值化:形态学中的顶帽变换具有增强图像对比度的作用[13],而采集到的白带显微图像中,上皮细胞较薄,透明性好,容易溶于背景中。因此,本文采用顶帽变换对其进行对比度增强。经过顶帽变换后,图像更容易实现二值化,弱化了二值阈值对于分割效果的影响。此时,采用大津阈值法即可实现有效的分割。第四,进行形态学连接:二值分割后的图像具有一些离散的点。这些点是由于上皮细胞的网状纹理结构导致的。为还原上皮细胞的原始形态大小,需要将这些离散的点进行连接,具体的实现方式是采用闭运算的方式,闭运算大小为13×13的矩形结构元。最后,连通域筛选:对连接后的图像进行连通域标记,并获取各个连通域的面积和外界矩形等信息。根据上皮细胞的外形及面积特点,设置合适的阈值对其他物质进行过滤。上皮细胞的外形条件为:
外接矩形长宽: [100, 1000];
外接矩形面积: [10000, 2100000];
连通区域面积: [11000, ∞)。
2.2 LBP纹理特征提取方法
LBP(Local Binary Pattern,局部二值模式),T. Ojala[14]于1994年提出的一种纹理特征提取算子。LBP算子特征提取已经广泛应用于机器视觉检测领域,并且取得了很好的识别效果。LBP具有旋转不变性和灰度不变性等特征,并且支持多尺度分析。LBP具有多种模式,标准模式、圆形LBP与旋转不变模式和等价模式[15]等。LBP的算子如图3所示。
图3 LBP算子示意图Fig. 3 Diagram of LBP operator
定义中心像素点的纹理为T,则T可以表示为:
T=t(gc,g0-gc,g1-gc,...,gP-1-gc),
(1)
式中:gc为中心点像素值,gi为各邻域像素值。假设gc和gp-gc是相互独立的,则:
T≈t(gc)t(g0-gc,g1-gc,...,gP-1-gc).
(2)
实际中,这种独立分布只是一种近似。由于t(gc)描述的是整体光照的改变,因此,该值对于纹理信息没有意义,式(2)可以变形为:
T≈t(g0-gc,g1-gc,...,gP-1-gc).
(3)
对于像素值恒定的区域,gp-gc=0;对于斜边,该算子在梯度方向上具有最大的差分,而沿着梯度方向差分为0;对于斑点,在所有方向上的差分均很大。 对于光源是不受影响的,用差分的符号来表示T,这样T具有灰度不变性。
T≈t[s(g0-gc),s(g1-gc),...,s(gP-1-gc)],
(4)
式中:
(5)
对每一项赋予二项式因子2P,最终图像纹理结构描述为:
(6)
圆形LBP算子仅仅具有灰度尺度不变性,而不具有旋转不变性。当图像被旋转后,gi和gc的位置发生了变化,导致LBP取得不同的值。式(6)将会有2P个不同的值。为保证旋转不变性,定义:
(7)
即相当于对邻域进行旋转得到的LBP的最小值。这样,即使该邻域旋转多次,得到的LBP仍然是同一个值。
LBP算子通常具有多种二进制模式。一个圆形的具有P个邻域点的LBP算子,具有2P个不同的值,即2P个不同模式。当邻域点逐渐增多时,其模式是呈指数性增长的。例如,当邻域有10个点,就会有1 024个模式;当邻域有20个点时,会有1 048 576种二进制模式。模式过多,对于纹理的表达和提取、纹理特征的识别都是不利的。在使用LBP特征时,通常采用LBP直方图的形式来表征。模式越多,特征的维度就会越大,并且越稀疏。这时,需要对其进行降维。Ojala提出了等价模式的降维方法,即在LBP的模式中,计算0到1或者1到0的跳变次数,这样,特征由原来的2P降低为P(P-1)+2。对于8邻域点,特征由256降低为了58。
2.3 特征分类方法
对于特征的识别,可以用多种分类器来实现。其中,支持向量机(Support Vector Machine, SVM)是机器学习中应用最广的一种分类方法。SVM的分类原理与线性回归的分类方法类似。SVM中,期望找到一个最佳的分类超平面使得超平面两侧的特征点到超平面的距离最远,这个最远间隔中间的超平面就是SVM的分类超平面。因此,SVM的问题是一个最优化问题。SVM的求解方法可以参考SMO算法[16]。由于待分类的特征并非一定是线性的,因此,SVM中提出了核函数的概念,将低维线性不可分的特征映射到高维空间,使其能够线性可分。常用的核函数有线性核函数、多项式核函数、径向基核函数、拉普拉斯核函数和Sigmoid核函数等。其中,径向基核函数最为常用。这是因为径向基核函数可以将维度扩展到无穷维的空间,其对应的是泰勒级数展开,在泰勒级数中,一个函数可以分解为无穷多个项的和,其中,每一个项可以看作是对应的一个维度,这样,原函数就可以看作是映射到了无穷维的空间中。其表达式如下:
k(x,y)=exp(-γ‖x-y‖2).
(8)
3 实验结果与分析
为对模型进行分析,本文通过显微成像系统收集了5 000个不同视野的图像(共500个实验样本,每个样本采集10个视野)。在每个图像中,通过人工标记的方式对上皮细胞进行框选,作为目标的真实值(Ground Truth)。统计共框选上皮细胞样本1 735个。根据上述前景目标提取算法得到的结果如图4所示。
(a) 上皮细胞(a) Epithelial cells
(b)杂质(b) Impurities图4 前景目标示意图Fig.4 Image of foreground targets
在目标检测中,常用的评价方法是精确率(Precision)、召回率(Recall)和F1值,其表达式如下:
(9)
(10)
(11)
计算TP、FP和FN时需要考虑IOU(Intersection Over Union)。IOU的定义如图5所示。
图5 IOU示意图Fig.5 Diagram of IOU
本文取IOU的阈值为0.5。对于检测出的前景目标的外接矩形,若该矩形与其最接近的真值目标的外接矩形的IOU大于阈值,且类别一致,则该外接矩形为TP;若该外接矩形与所有的目标真值的外接矩形IOU都小于阈值,则为FN;若对于一个真值目标框,没有一个检测出的前景目标的外接矩形与其IOU大于阈值,则为FP。
3.1 前景目标提取方法结果与分析
通过人工标注和框选,实际提取的前景目标为2 361个,其中,通过前景目标提取算法提取到的真阳性(TP)样本为1 696个。因此,计算得到前景目标的召回率为:
(12)
此外,提取得到负样本665个。
从图4中可以看出,由于前景目标分割算法对于前景目标的筛选仅限于面积和外界矩形等大小特征,因此,对于某些粘连的细胞和杂质也将其分割出来作为前景目标。
3.2 LBP特征提取参数及结果分析
提取的前景图像采用LBP算子来提取图像的特征,为保证输出的特征维度一致,需要对待提取特征的图像进行放缩,使其放缩至同一大小。放缩的方式采用双线性插值的方式。根据提取的前景目标的平均大小,放缩的大小为320×320。经过LBP算子处理后的图像为LBP纹理图像,如图6所示。
图6 LBP纹理特征示意图Fig.6 Diagram of LBP Texture
然而,LBP纹理特征图像不能直接作为图像的特征信息,这是因为所有的像素点LBP值作为特征后生成的特征维度很大。一般的,采用纹理特征直方图的形式作为其特征。
根据LBP特征的4种不同模式,即标准模式、旋转不变模式、等价模式、旋转等价模式,对其进行分析。当输入邻域半径(R)为1,邻域点个数(P)为8时,SVM分类器参数为C=1,正负样本权重比:3∶8,γ=1/feature_dim,得到最终的结果对比如表1所示。
表1 不同LBP模式下识别精确率和召回率(R=1,P=8)
Tab.1 Precision and recall under different LBP modes (R=1,P=8)
LBP模式特征维度精确率/%召回率/%F1/%标准LBP25687.683.785.6旋转不变LBP25689.277.883.1等价模式5890.982.086.2旋转等价模式1089.979.284.2
从表1可以看出,在等价模式的LBP中,精确率、召回率、F1等评价指标均取得了较好的检测效果。与标准LBP、旋转LBP模式相比较,等价模式LBP具有更少的特征,更高的检测指标,这对于模型SVM的训练效率具有很大的提升效果。等价模式中,虽然特征少,即相当于对前两种模式的降维,但是等价模式并没有丢失任何的特征信息,反而对图像纹理的边缘、角点、斑点都具有很好的表征。对于旋转等价模式,特征维度变得更小,一定程度上将有用的特征信息进行了缩减,因此识别效果较差。在白带显微图像中,由于上皮细胞的内部网状结构更倾向于角点和边缘的特征,因此等价模式对于上皮细胞的识别具有较好的检测效果。
对LBP的不同参数进行分析和测试,得到结果如表2所示。
表2 不同LBP参数下识别精确率和召回率(等价模式)
Tab.2 Precision and recall rate under different LBP parameters (uniform mode)
RP精确率/%召回率/%F1/%1890.982.086.22889.282.085.421690.284.187.13889.483.186.1
续 表
从表2中可知,当(P,R)参数为(4, 32)时,LBP提取的特征能够达到最佳的分类效果。当P参数保持不变时,例如P=8,随着R参数的增加,检测效果无明显的变化,如图7所示。因此可以得出结论,R参数对于上皮细胞的识别影响较小。
图7 P=8,R关于各项指标的变化曲线。Fig. 7 P=8, the change curves of R with respect to each index.
当R参数保持不变时(R=4),P参数的变化曲线如图8所示。
图8 R=4时,P关于各项指标的变化曲线。Fig.8 Change curves of P with respect to each index when R=4
从图8中可以发现,随着P的增大,各项评价指标均得到了提升。因此,P参数越大,对于上皮细胞的检测效果越好。然而P越大,代表邻域点越多,因此,带来的计算量也增加,而(P,R)参数为(4, 32)的效果相比较于(P,R)参数为(4, 24)效果提升不高。。
综上,LBP特征的提取算子经过SVM分类后得到最佳的检测指标的参数为:P=4,R=24,等价模式。最终识别效果为精确率:89.5%,召回率:88.0%,F1:88.7%。
3.3 与其他纹理特征比较结果与分析
本文将LBP特征算子与其他纹理特征,例如梯度方向直方图(Histogram of Gradient, HOG)、Gabor特征相比较,均取得了最好的检测效果,如表3所示。
表3 不同特征方法下目标识别精确率和召回率
Tab.3 Target recognition precision and recall rate under different feature methods
特征维度精确率/%召回率/%F1/%LBP55489.588.088.7Gabor[17]6 40077.490.683.5Hog[18]90082.890.986.7LBP+HOG1 45486.990.988.7LBP+Gabor6 95482.592.587.2Gabor+HOG7 30081.392.586.5
从表3中可以看出,LBP特征算子较LBP+HOG和LBP+Gabor算子的结合检测效果更好。LBP特征算子较组合算子具有更少的特征维度,而组合特征的维度则远多于LBP的特征维度。尽管特征维度增加,但是对于目标表征能力的泛化性能会减弱,导致模型容易陷入过拟合,从而使得测试集检测准确率反而更差。
综合本文所提出的白带显微图像中上皮细胞检测算法,其检测召回率为前景目标分割算法和特征提取分类算法的召回率乘积,即86%。平均检测时间为304 ms (CPU:Intel Core i7-5960X CPU @ 3.0 GHz×8,内存:32 G,Windows 7 64位),最终的检测效果如图9所示。
图9 上皮细胞检测效果图。(a)视野1;(b)视野2。Fig.9 Result of epithelial cell detection. (a)View 1; (b)View 2.
4 结 论
针对白带常规中上皮细胞的自动化检测需求,本文提出了基于LBP纹理特征的上皮细胞检测算法。算法主要包含3个模块,首先,介绍了显微图像中上皮细胞的前景目标提取算法;然后,提出了LBP的特征提取方法;最后,用SVM模型对特征实现分类。实验结果表明,本文提出的算法检测精度高,效率快,检测精确率为89.5%,召回率为86.0%。所提出的模型较其他纹理特征模型均具有更好的检测准确率,该模型的提出为实现白带常规中镜检的自动和智能化提供了理论和算法基础。