细胞学诊断系统的识别技术研究
2018-04-24蔡武斌宋文爱王青杜晓亮雷毅
蔡武斌,宋文爱,王青,杜晓亮,雷毅
(1.中北大学软件学院,山西 太原 030051;2.清华大学信息技术研究院,北京 100084)
0 引言
基于细胞形态学的计算机辅助诊断系统是一种可以自动检测细胞图像的工具型软件。自动检测与传统的显微检测区别是:自动检测的操作简便、方法灵活,在无人监督的情况下自动判读显微细胞图片,提高病理医生的工作效率;而传统检测要求病理医生在显微镜下全程检阅细胞制片,工作量大,容易产生疲劳。自动检测技术能够方便地帮助病理医生阅片,提高工作效率、降低劳动强度和缩短诊断时间。该技术基本思路是根据病理医生们长期工作得出的对肿瘤细胞形状和特征的经验,分析显微细胞图片,自动判断出被检测图像中有无肿瘤细胞,将初始结果作为医务人员进一步诊断的一个基础。
系统软件的一般工作流程为:先读取细胞显微图像进行预处理,去除噪声干扰,改善图像质量。然后利用预置的图像分割算法找到目标区域。在此基础上,提取细胞指定的特征向量(如细胞半径、核浆面积比等),并根据特征向量对可疑的细胞按序排列,最后将结果显示给病理医生分析,见图1。
图1 系统软件工作流程图
对宫颈显微细胞图像进行检测识别,是细胞学计算机辅助诊断的重要应用领域。宫颈癌是一种危害女性健康的恶性肿瘤,是人体常见的癌症之一。宫颈癌有较长的癌前病变期,若能在早期发现并治疗,可以大大提高治愈率,因而宫颈癌的筛查对疾病的诊断和治疗非常重要。为了使诊断系统能够准确识别被检测的图像,有效的设计图像分割算法是其中的关键。
1 细胞图像的分割方法研究
图像分割是指将图像划分为具有特定涵义的不同区域,并提取出感兴趣的目标[1]。细胞图像的分割是细胞定量分析和分类识别的重要步骤之一,其分割效果影响后续特征提取和识别工作的有效性。细胞图像的分割的主要任务是:(1)将细胞图像划分为细胞体区域及背景区域;(2)将细胞体区域划分为细胞核区域及细胞浆区域。
显微医学图像是通过显微成像仪来获取,由于医学图像的成像原理和组织本身的特性差异,图像的形成易受到各种外部干扰[2]。为了解决医学图像细胞分割的难题,近几年来,许多科研人员做了大量的工作,提出了很多有用的技术方法。
1.1 基于边缘检测的图像分割方法
边缘检测技术是依据区域边缘上的像素灰度值变换剧烈,通过检测不同均匀区域之间的边缘来解决图像分割问题。常见的边缘检测算子有Robert算子、Sobel算子、Prewitt算子、Laplacian算子、Canny算子等,见表1。
表1 各种边缘检测算子的比较
1.2 阈值分割法
阈值处理是最常见的基于区域的分割技术[3]。通过设定某一阈值T,然后将图像分割成大于阈值T的对象点和小于阈值T的背景点两部分。设输入图像是g(x,y),输出图像是f(x,y),则:
根据阈值选取的数量分为单阈值分割和多阈值分割,见图2。单阈值分割法将图像分为目标区域和背景区域。多阈值分割通过在图像的灰度范围内确定n个阈值,将图像中每个像素的灰度值都与这些阈值进行比较,根据比较结果对图像进行分割[4]。细胞图像需要分割出细胞质、细胞核及背景,因此可以用两个分割阈值。
图2 阈值分类
1.3 区域生长法
区域生长是根据预先定义的生长准则将像素或子区域组合为更大区域的过程[5]。基本过程是先从一组“种子”点开始,将与种子预先定义的性质相似的那些邻域像素添加到每个种子上,来形成这些生长区域。相似性度量可以包括平均灰度值、纹理、颜色等信息。
在没有先验知识可以利用时,一种方法是在每个像素上计算一组相同的特性,最后在生长处理期间分配像素到区域中。若这个计算的结果显示一簇值,就把具有这些特性的像素放在能够作为种子的这些簇的中心附近。
1.4 分水岭算法
分水岭算法是一种基于拓扑理论的数学形态学的分割方法,其基本思想是把图像看作是测地学上的拓扑地貌,图像中每一点像素的灰度值表示该点的海拔高度,每一个局部极小值及其影响区域成为集水盆,而集水盆的边界则形成分水岭,见图3。
图3 分水岭地形图
分水岭算法实现相对简单,在图像分割中执行速度快,对微弱的边缘有着良好的响应,但通常会由于噪声和梯度的其他局部不规则性造成过度分割现象。针对分水岭过度分割问题,国内外一些图像处理专家做了大量的研究,在传统的分水岭算法基础上提出了改进方法,基于标记符控制的分水岭算法是其中一种较好的改进。
基于标记符控制的分水岭算法是利用一些附加知识,在原图中寻找一些内部标记和外部标记来引导算法进行分割。然后利用找到的标记来改进梯度图像,再在改进梯度图像上应用分水岭变换,得到分割结果。
1.5 主动活动轮廓模型
主动轮廓模型是由Kass[6]等人提出的,将图像分割问题转换为求解能量泛函最小值问题。其基本思想是通过构造能量泛函,在能量函数最小值驱动下,轮廓曲线逐渐向待检测物体的边缘逼近,最终分割出目标。由于主动轮廓模型利用曲线演化定位目标的边缘,因此也称为Snake模型。其最大优点是在高噪声的情况下,也能得到连续、光滑的闭合分割边界。
其中第一项为弹性能量,是v的一阶导数的模;第二项为弯曲能量,是v的二阶导数的模;第三项是外部能量,在基本snakes模型中一般只取控制点或连线所在位置的图像局部特征,例如梯度:
也称图像力,基本Snakes模型就是在这三个力的联合作用下工作的[8]。按照模型中曲线表达形式的不同,活动轮廓模型可以分为两大类:参数活动轮廓模型(parametric active contour model)和几何活动轮廓模型(geometric active contour model)。
2 实验结果与分析
细胞核和细胞浆的几何形态特征描述了区域的形状,其中某些特征对于病理医生诊断细胞是否正常发挥重要作用,例如肿瘤细胞的细胞核面积通常比正常细胞的细胞核面积明显要大。因此,计算机辅助细胞学诊断系统需要分别提取细胞体的不同区域,以供进一步的识别与分析。细胞图像分割的重点是提取细胞核、细胞浆对应的区域,难点是分割重叠区域的细胞体。本文实验针对不同情形,采用不同的图像分割算法做实验分析。实验图像使用显微镜高倍物镜采集的宫颈细胞图像,数据由清华大学信息技术研究院数字医疗与健康研究中心提供。
2.1 细胞核区域提取
由于宫颈细胞图像的细胞核区域明显不同于其他区域,其颜色较深,大小在一定范围内,因此可以充分利用图像的特征,先利用阈值分割法做初始轮廓分割,再用形态学方法去除噪声,获取细胞核的粗轮廓。然后以粗轮廓的质心为种子生长点,使用区域生长算法,完成细胞核区域提取。该算法的基本思路是先使用效率较高的算法提取所需的参量,再将参量传递给其他算法进行二次分割。采用该方法可以实现自动定位种子生长点,从而避免人工干预设定起始生长点。使用自动种子点区域生长的分割算法的主要步骤如下:
(1)读取彩色图像并转化为灰度图。图(a)是由显微镜高倍物镜采集的高分辨率细胞图像,图(b)是灰度化后的图像。
(2)对目标做全阈值分割及形态学处理。图(c)是经过处理后二值图像,白色区域为提取出的细胞核初始区域。
(3)求得每个细胞核初轮廓的质心坐标,图(d)中以‘*’标记。
(4)以每个质心位置作为种子生长点,对原图的灰度图像做区域生长算法,得到二次分割后的结果。(图e)
(5)使用Canny算子做边缘检测,最终显示分割出的细胞核轮廓。(图f)
通过实验结果发现,图(e)比图(c)更准确的提取了细胞核区域,并且该算法不仅可以提取单细胞图像的细胞核区域,对多细胞图像的细胞核区域也有较好的分割效果。
图(a)
图(b)
图(c)
图(d)
图(e)
图(f)
2.2 细胞体区域提取
对于细胞体区域的提取,我们可以采用上节提到的标记符控制的分水岭算法来实现,并给出主要步骤结果:
(1)由于标记控制符的分水岭算法比较适用于亮目标暗背景的图像,因此对图(b)做反相处理。(图h)
(2)对图像做基于重建的开操作和闭操作。该步骤可以在保持目标物体不变的基础上,有效去除目标内部的细节。(图i)
(3)计算图像的梯度幅值,得到梯度图像,再利用内外标记改进梯度图像,得到图(j)。
(4)在改进后的图像上进行分水岭变换,并显示前景(白色区域)、背景标记(细线)以及细胞体分割轮廓。(图k)
(5)显示细胞体分割轮廓。(图l)
从实验结果可以看出,细胞体大部分区域被有效分离出来。但有少数灰度值与背景比较接近的细胞区域没有被分割出来,因此还需要做进一步的改进。
图(h)
图(i)
图(j)
图(k)
2.3 重叠细胞的图像分割
重叠细胞图像分割一直以来是医学图像处理的难题,其主要难点在于细胞重叠区域的正确分离。细胞重叠区域较为相似,重叠部分轮廓不清晰,对图像分割造成很大的干扰,使用传统的图像分割方法很难实现对重叠区域的有效分离。针对这类问题,近年来有研究学者提出基于snake模型的分割算法。根据snake模型对初始位置敏感的特点,先人工设置一系列较准确的初始轮廓点(图m),再利用snake模型方法进行分割,通过实验可以发现,图n中的主体细胞轮廓被较好的分离出来。所以在使用该方法前,先要经过适当的初始化操作。关涛,周东翔[9]等人通过对细胞轮廓的几何结构分析,提出了细胞的稀疏轮廓点模型,利用环形动态轮廓搜索算法,可以自动定位出主体细胞的轮廓点,从而避免了人工干预,可以适用于一部分细胞浆发生重叠的图像。
图(l)
图(m)
图(n)
通过对实验结果进行比较,得到表2:
表2 各种医学图像算法的比较
3 结束语
本文作者对近年来针对宫颈细胞图像分割的典型方法做了说明,此外还有许多医学图像处理方法,由于适用场景不同,没有一一举例。图像分割没有通用的、标准的、唯一的方法,每种算法都有其各自的优缺点,单独使用某种算法用于分割,效果往往不是很理想。因此要根据不同的环境条件和要求,选择合
适的策略进行图像处理,这样分割效果才会理想。
传统的图像分割算法有时很难适应显微细胞图像这样复杂的环境,因此我们可能还需要一种具有较强学习及处理能力的图像分割算法。强化学习作为一种重要的机器学习方法,在与环境交互时,利用环境反馈的奖惩,即依靠外部评价信号来调整自己的行为。该方法是一种在线、增量式的学习方法,通过增量的学习算法去接近最优的分割阈值,训练完成后的算法可以基于自身获取的知识对类似的新图片做出正确的分割,目前被广泛应用于图像处理、智能控制等领域。后续的研究工作将结合机器学习方法,进一步优化该系统自动图像检测的准确度和鲁棒性。
[1] 张铮,徐超.数字图像处理与机器视觉[M].人民邮电出版社,2014.
[2] 聂生东,邱建峰,郑建立.医学图像处理[M].复旦大学出版社,2010.
[3] Rafael C.Gonzalez,Richard E.Woods.数字图像处理[M].电子工业出版社,2011.
[4] 范金坪.宫颈细胞图像分割和识别方法研究[D].暨南大学,2010.[5] Rafael C.Gonzalez,Richard E.Woodz,Steven L.Eddins.数字图像处理的MATLAB实现[M].清华大学出版社,2013.
[6] Kass M,Witkin A,Terzopoulos D.Snakes:Active Contour Models.International Journal of Computer Vision,1987:321-331.
[7] 李天庆,张毅,刘志,胡东成.Snake模型综述[J].计算机工程,2005,(09):1-3.
[8] 吴东东.宫颈细胞图像分割方法研究[D].国防科学技术大学,2012.
[9] 关涛,周东翔,樊玮虹,等.基于稀疏轮廓点模型的彩色重叠细胞图像分割[J].计算机研究与发展,2015,52(7).