复杂背景下的宫颈细胞核分割方法
2019-07-31赵晶梁隆恺何勇军谢怡宁
赵晶 梁隆恺 何勇军 谢怡宁
摘 要:自动阅片技术采用图像处理方法,在细胞核识别的基础上实现对细胞核DNA含量的准确测量,能够为医生诊断提供辅助。图像分割作为自动阅片系统关键直接影响系统性能。然而,显微镜下细胞核图片存在光照不均、背景阴影等情况。并且不可避免地存在一些血细胞、淋巴细胞、垃圾杂质、成团细胞,这严重降低了分割算法的性能。为解决上述问题,提出了复杂背景下的宫颈细胞核分割方法。该方法首先利用参数自适应的局部阈值法来分割图片,并利用自适应的分割参数调节来处理图片中的复杂情况。即利用局部阈值窗口大小和二值化后轮廓数量的函数关系来自动调节窗口大小。然后根据得到的二值图确定分水岭算法的标记图像,最后利用分水岭算法完成整张图片的分割。实验表明,此方法能适应复杂图像环境,并可以从成团细胞中分割出重叠程度较低的细胞,提高分类器识别细胞核的概率。
关键词:细胞核分割;参数自适应;分水岭算法;局部阈值法
DOI:10.15938/j.jhust.2019.03.004
中图分类号: TP315.69
文献标志码: A
文章编号: 1007-2683(2019)03-0022-07
Abstract:Automatic screening technology developed in recent years. It applies image processing, and first recognizes nucleus and then measures the DNA contents accurately, so it can provide auxiliary for a doctor′s diagnosis. Image segmentation is the key technique of automatic screening system which directly determines the performance of the systems. However, the imaging environments under the microscope are complex. One the one hand, uneven illumination, background shading and uneven dyed nucleus exist. On the other hand, there are inevitably blood cells, lymphocytes, garbage, impurities and conglobation cells in cell images. These conditions degrade the performance of image segmentation. In order to solve these problems, we put forward a method to segment cervical nuclei in complex background. This method first employs the local threshold method to segment images. In this procedure we propose a parameter adapting method which adjusts its parameters automatically
according to the function of local threshold window size and the binarized outline number. The local threshold method transforms an image into a binary image which is then passed to image corrosion operator to generate a marking image. With the binary image, the watershed algorithm was finally performed to segment the image. The experiment shows that the method can adapt to the complex image environment and separate the cells with lower overlapping nuclei images.
Keywords:nucleus segmentation; parameter adaptive; watershed algorithm; local threshold method
0 引 言
近年来宫颈癌高发,已经成为威胁女性生命的社會问题。2012年世界卫生组织发布的调查报告表明,在欠发达地区宫颈癌是妇女的第二大杀手,仅在2012年新增病例44.5万例。2012年大约有27万妇女死于宫颈癌,且超过85%的发生在低收入或中等收入国家。早发现早治疗是应对这一问题的有效方法。在宫颈癌诊断方面,目前有效的方法是宫颈涂片病理检查。该方法需要经验丰富的病理医生通过镜下观察发现病变细胞后做出诊断。然而,随着癌症的频发,该技术已无法适应现实需求。一方面,该诊断需要医生经过长期的专门训练,对医生要求较高;另一方面医生在镜下观察完全根据经验,具有主观性,容易因视觉疲劳而导致误诊率上升。近年来发展起来的自动阅片技术能有效解决这些问题。典型的有计算机辅助阅片的DNA倍体分析技术。该技术只对细胞核染色,显微镜在软件的控制下自动聚焦扫描,拍摄镜下图片,并在识别的基础上准确测量细胞核核内DNA的相对含量,最后将异常的细胞核罗列出来,辅助医生诊断。通过该技术,医生只需接受短时间的培训,仅需复核系统挑选出的病变细胞核即可做出诊断,诊断准确率更高。
细胞核图像分割是决定DNA倍体分析系统性能好坏的首要环节。研究者们提出的典型解决方法有阈值分割法[1]、分水岭分割法[2]等等。
阈值法通过设定不同的特征阈值,将图像的像素点分为若干类,具有实现简单、计算量小、性能较稳定等有点,已成为图像分割中应用最广泛的分割技术。以固定阈值分割为基础,出现了一系列阈值分割的新方法[1]。按照阈值的作用范围可分为全局阈值和局部阈值法两大类。全局阈值法中阈值的选取至关重要,是这类方法研究的重点。申铉京等提出了基于多阈值Otsu准则的阈值分割快速计算。该算法减少阈值的搜索范围,并利用查找表计算均值、方差,优化了底层运算,提高了算法的分割速度[3]。全局阈值只能分割对比度较高的背景和较清晰的图片,不能克服图像光照不均匀、背景有杂质或阴影的影响[4]。局部阈值法能有效缓解这个问题。刘占提出了局部期望阈值分割方法,首先把图像转换成梯度矩阵,然后将矩阵分割成众多子区域并计算其数学期望,最后以该值来对其子区域进行边缘提取。这种方法提高了图像边缘特征的可辨识性,使边缘信息的提取准确性提高[5]。Petter Ranefall等通过椭圆拟合和局部区域的大小来优化局部区域的阈值,提出了适用于椭圆或细长物体的分割方法[6]。阈值的性能受较多参数的影响,而这些参数大多凭经验设置,难以达到理想效果。
分水岭分割方法[2]是一种基于数学形态学分割方法。其基本原理是把图像类比为测地学中的拓扑地貌,图像中每点像素的灰度值代表该点的海拔高度,每个局部极小值及其影响的区域称为集水盆,而集水盆的边界则形成分水岭。传统的分水岭算法容易造成过分割,为了解决这一问题,一些研究者提出了基于标记点的分水岭算法。Ji X等提出了一种基于距离变换的分水岭算法来分离粘连细胞核,通过增强细胞核边缘后利用Otsu阈值粗分割细胞核,利用优化的种子点来进行分水岭操作,最终达到分离粘连细胞核的目的[7]。Geetha等提出了一种基于标记点控制的分水岭算法,可以精确地计算细胞核的核浆比[8]。另一些研究者则通过改进分水岭算法的实现原理来解决这一问题。Husain等提出一种利用径向基函数(radial basis function,RBF)神经网络对图像的目标对象进行分割。在形成的水域地形中创建图像直方图,RBF初始参数如中心和宽度分别自动设置在直方图的峰值和最小值上[9]。还有一些研究者尝试对分水岭算法的处理结果进行再分割或合并相似区域。Zhanpeng H等采用基于分水岭分割和区域合并提取肝脏区域图像,将分水岭分割后的结果作为区域合并的标记图像,然后基于相似性的标准对图像的标记区域进行合并[10]。
目前的方法大多针对某一类情况,难以适应DNA倍体分析这样复杂的应用环境。如图1所示,首先,复杂的背景条件,即光照不均、背景阴影、染色深浅不一致等问题。其次,脱落宫颈细胞采集不可避免地存在微生物、细胞碎片、血液、污染物等杂质,使标本中存在大量的碎片、黑斑、丝状絮状垃圾和一些聚集成团的腺细胞核等垃圾杂质。这些问题对细胞核分割方法提出了新的挑战。为此,本文结合局部阈值法和分水岭算法,提出了基于复杂背景下的宫颈细胞核分割方法。该方法利用自适应参数的局部阈值法来得到分水岭算法的标记点。首先利用自适应的参数调节来排除细胞核图像上的光照不均、背景阴影、杂质和染色深浅不一致等问题对分割的影响,将细胞核分割出来。然后再利用重复腐蚀法腐蚀二值图像,获得分水岭算法的标记图像。最后利用分水岭算法分割整张图片。实验表明,所提出的方法能准确分割各种类别和重叠程度较小的细胞核,能有力地支撑了自动阅片系统。
1 本文算法实现
分水岭算法是分割图像的有效方法,但是由于显微镜下的图片存在背景光照不均、阴影、杂质等复杂情况。传统的分水岭算法分割时会导致过分割或欠分割现象,本文通过自适应参数的局部阈值法的方法分割图片中的细胞核,并通过标记选取算法选取细胞核心为分水岭算法提供较为准确的标记图像。
1.1 传统分水岭原理
分水岭的计算过程是一个迭代标注过程。首先对每个像素的灰度级进行从低到高排序,然后在从低到高实现淹没过程中,对每一个局部极小值在h阶高度的影响域内采用先进先出(FIFO)结构进行判断及标注。通常把梯度图像作为输入图像。分水岭算法对微弱边缘具有良好的响应,图像中的噪声、物体表面细微的灰度变化,都会产生过度分割的现象。为了解决分水岭的过分割问题,众多研究者提出了很多解决办法[2],其中以标记法为主,标记法就是将注水的极小值区域换成自定义的标记点,这样可以有效的避免过分割现象,那么标记点的选取就显得至关重要。本文提出了一种标记点选取方法。
1.2 图像预处理
为了消除图片复杂背景对分水岭分割的影响。本节采用局部阈值法分割图片,并利用参数自适应的方法去除阴影、杂质、光照对阈值的影响。最后得到只有细胞的二值图,即初步的标记图像。
1.2.1 局部阈值原理
局部阈值法首先将图片分割成若干个w×w大小的区域,并利用背景和对象的灰度值均值和标准差的差异确定每个区域的阈值计算公式:
T(x,y)= M(x,y)+kD(x,y)(1)
其中(x,y)是在窗w×w內的一点,T(x,y)是窗内的阈值,M(x,y)和D(x,y)分别是窗内的灰度值的均值和标准差,k是一个固定的偏差。窗的宽度w对算法的效果有很大的影响。如果窗宽太小容易造成细胞核过分割,窗宽太大又不能排除复杂背景情况对算法的影响。实际图片情况都互不相同,故自适应地调节w的大小并找到一个合适的w值至关重要。
1.2.2 自适应参数调节
过度分割表现在分割出的轮廓数量远大于实际轮廓数。因此,本文利用窗长度大小和分割后的区域数量的关系来确定最佳w值。即当w取较小值,细胞核内部会出现孔洞或零散的点,这时轮廓的数量相对较多。随着w的增大孔洞和散点变少,轮廓的数量会逐步减少,直到减小到一个相对稳定值,此时w值为最佳窗口大小。 而当w继续增大到一定值时,背景中的一些杂质和阴影就会出现,轮廓数目又开始增加。由此可知改变化趋势符合三次曲线的图像,故为了不受噪声点的影响本文采用曲线拟合的方法来获得符合图2中散点的函数公式,并利用该公式来求得最佳w值。
本文采用了最小二乘法法拟合如图2的散点,其任务为求一个函数y=f (x),使得图中所有散点在最小二乘准则下到曲线f (x)的距离平方和最小。其中f (x)如下所示的三次曲线:
f(x)=ax3+bx2+cx+d(2)
拟合的目的是要解如下优化问题
1.3 标记点的选取
局部阈值分割可以很好地避免复杂背景的影响,但是对于细胞聚集较密集的图片的处理效果不是很明显。而一些病变细胞就恰好容易出现到成团细胞中,所以分割成团细胞可以提高癌细胞的检出率。针对这一情况,本节通过重复腐蚀得到的二值图,尽可能的将重叠的细胞分割开,并将得到的结果作为分水岭算法的标记图像。最后利用分水岭有效地分割重叠程度不高的细胞,并抑制过分割现象,得到整张图片的分割图。
1.3.1 轮廓分割
本节主要分割腐蚀难度较大的重叠轮廓。首先利用凹点检测算法[11]检测到每一个轮廓的凹点,然后利用如下的欧式距离公式计算距离最小的两个凹点,试验发现这两个点的连线可以将轮廓分成两个部分,并且不会错将单细胞分割。用此方法可以有效分割重叠程度较高的细胞。
1.3.2 重复腐蚀
本节主要采取基于面积限制的重复腐蚀操作,首先提取轮廓,并判断每个轮廓的面积,如果面积大于定值A,就腐蚀该轮廓,否则就保持不变,重复该腐蚀过程直到所有轮廓的面积均不大于A。最后将面积小于B的轮廓删掉,至此得到分水岭算法的标记图。其中A为图片中最小细胞核的面积,B要大于一些细小杂质的面积并远小于A值。该方法可以有效保留较小的细胞核,并更好地分割较大的重叠细胞,从而减小分水岭的过分割或欠分割现象。
1.4 分割算法实现步骤
步骤一:利用局部阈值法循环分割图片200次,w每次增加2,并记录每一次的轮廓数量C。
步骤二:用最小二乘法拟合w和C的函数关系式f(x),并利用f(x)求取最佳窗口大小x。
步骤三:利用最佳阈值x对图片做局部阈值化。
步骤四:提取轮廓并检测每一个轮廓的凹点,确定欧式距离最近的两点切割轮廓。
步骤五:提取轮廓,判断每个轮廓的面积。如果面积大于A就腐蚀轮廓,否则保持不变。
步骤六:重复执行步骤五直到所有轮廓面积都不大于A。
步骤七:删除面积小于B的轮廓,得到标记图像。
步骤八:以标记图像为输入执行分水岭算法。
2 实验和结果分析
2.1 参数自适应的对比实验
该实验主要实现参数自适应的局部阈值法,针对不同种情况给出示意图,并展示不同的窗口大小分割图片时的效果不同。说明了自适应参数调节的必要性
2.1.1 实验数据
从大量的细胞图片中选取了如图2所示的四张图片。他们分别代表背景存在杂质、背景有阴影、细胞成团出现和背景光照不均匀等4种复杂的背景情况的图片4张。
2.1.2 实验过程
首先利用OTSU算法分割图片,并保存结果留作对比图。然后以w=15为初始值每次增加2,对图片进行局部阈值化,并记录此时的轮廓数量,重复实验200次。再将得到的数据绘制散点图并拟合曲线。最后对比分析最佳阈值的分割结果和其他阈值的结果。
2.1.3 实验结果分析
如图2所示的曲线拟合图,横坐标为窗长度w,纵坐标为阈值分割后轮廓的数量。该图中展示的曲线很好的拟合图中的散点,并得到了一个最佳阈值x,即图中曲线的极小值点。由图2可以看出不同图像的最佳阈值点相差较多,式2中的参数也各不相同,若不使用参数自适应则不能得到准确的分割图。图3中展示了不同图片在不同w值时的不同分割效果,本文選取了3种不同阈值来对比分析。从图中可以看出在w=x时阈值分割的效果最佳,当w=25时细胞内部出现了孔洞和离散的点,当w=175时图片中的杂质和阴影出现并影响了分割效果。而OTSU算法不能避免复杂背景条件对细胞分割的影响。实验表明该方法可以自动选择局部阈值的参数,并避免复杂背景对图像分割的影响。
2.2 分水岭算法的对比实验
2.2.1 实验数据与过程
如图5(a)所示的成团细胞为该实验的数据。首先利用传统的分水岭算法分割图片,结果图像留作对比分析。然后利用标记合成算法合成标记图像。最后利用基于标记点控制的分水岭算法分割图片。该实验将对比分析传统分水岭算法和本文改进的分水岭算法在重叠细胞核分析中的效果。
标记图像的生成过程如图4所示,首先利用参数自适应的局部阈值法分割图片,然后对轮廓做简单的重叠轮廓分割,最后利用基于面积限制的重复腐蚀法处理二值图像,获得分水岭算法的标记图。从图4中可知,当重复腐蚀次数N>2时轮廓大小基本不发生改变。
2.2.2 结果分析
如图5所示,5(b)是传统分水岭的效果图,图中有很多过分割的地方。5(c)是本文分水岭算法结果,效果较好且过分割的部分较少。该实验表明本文的标记点选取算法可以得到大部分细胞核,并可以从重叠细胞中分割出单细胞,使分水岭算法达到了最佳的使用效果。而传统的分水岭算法由于标记点不准确从而出现了过分割现象。
2.3 算法效果评价与分析
2.3.1 实验数据
实际采集到的图片中不会同时出现本文算法中考虑到的所有复杂情况,对处理结果难以统计。所以本节合成存在多种复杂情况和细胞核重叠情况的图片用于方法评价。首先选取多种复杂情况的图片1 000张,然后随机组合成图片100张,并确保每张图片中均存在光照不均匀、背景有阴影、杂质和成团细胞等多种情况。
2.3.2 实验过程
首先利用参数自适应的局部阈值法来阈值化图片,然后利用标记点选取算法将得到的结果图腐蚀成分水岭算法的标记图像,最后利用分水岭算法分割100张图片,保存实验过程图和结果图。为了对实验结果做定量的分析,从中选取两张图片将图中内容标记为单个细胞核、重叠细胞核、杂质等三类。然后分别利用本文算法、局部阈值法、全局阈值法来分割图片。最后统计分割结果,并计算分割准确度。分割准确度为分割出单细胞核的准确度,所以计算公式为:
Aaccuracy=(TP+FP)/N(5)
式中TP如表1、2、3所示,代表实际是单细胞并被分割成单细胞的数量。FP代表实际是重叠细胞但是被分割成单细胞的数量。N代表图片中实际内容的数量。
2.3.3 实验结果与分析
图6为算法定性分析效果图。图6(a)图中出现了细胞核多种重叠形式和复杂的背景情况。从6(b)图中可以看出,本文算法成功地将复杂的背景情况排除。图6(c)中可以看出本文的标记点选取算法成功分割重叠程度低的细胞,并保留了大部分细胞的核心。而图6(d)中展示了分水岭后的效果,本算法有效地分割了重叠程度不高的细胞。
如表1、2、3所示为3种算法分割后数据统计。其中T、F分别代表图片中标记的单细胞、重叠细胞;P、N分别代表图片被分割后得到的单细胞、重叠细胞。如图7所示,本文用不同颜色的标记点标记了不同算法分割后的不同情况,表中所示数据为本次实验的统计结果。利用这些数据,通过式(5)计算可得分割准确度。如图8所示结果,展示了利用三种不同算法分割图片得到的分割准确度,其中本文算法的分割准确度远大于另外两种算法。实验表明本文算法优于一些经典的算法,并可以一定程度上地分割重叠细胞,为细胞识别打下坚实的基础。
3 结 语
针对DNA倍体分析系统在实际应用时面临的细胞核分割问题,本文提出了复杂背景下的宫颈细胞核分割方法,实现整张图片的分割。实验表明,本文的算法可以解决细胞核DNA倍体分析系统在实际应用时的细胞核准确分割问题,确保DNA倍体分析系统对细胞核的精准测量。
参 考 文 献:
[1] 吴一全,孟天亮,吴诗婳. 图像阈值分割方法研究进展20年(1994—2014)[J]. 数据采集与处理, 2015, 30(1):1.
[2] XING F, LIN Y. Robust Nucleus/Cell Detection and Segmentation in Digital Pathology and Microscopy Images: A Comprehensive Review[J]. IEEE Reviews in Biomedical Engineering, 2016,9.
[3] 申铉京,刘翔,陈海鹏.基于多阈值Otsu准则的阈值分割快速计算[J].电子与信息学报,2017,v.39(01):144.
[4] ZENG Z, CHEN S, TANG S, et al. Unsupervised Segmentation of Cell Nuclei in Cervical Smear Images Using Active Contour with Adaptive Local Region Fitting Energy Modelling[C]//International Conference on Biomedical Engineering and Informatics. 2015:250.
[5] 刘占. 基于局部期望阈值分割的图像边缘检测算法[J]. 计算机与现代化, 2016(8):52.
[6] RANEFALL P, SADANANDAN S K, WHLBY C. Fast Adaptive Local Thresholding Based on Ellipse Fit[C]// The IEEE International Symposium on Biomedical Imaging. IEEE, 2016.
[7] JI X, LI Y, CHENG J, et al. Cell Image Segmentation Based on an Improved Watershed Algorithm[C]//Image and Signal Processing (CISP), 2015 8th International Congress on. IEEE, 2015: 433.
[8] GEETHA P K, NIDHYA R, DINESH Kumar A, et al. Cell Segmentation and NC Ratio Analysis for Biopsy Images Using Marker Controlled Watershed Algorithm[C]// International Conference on Green Computing Communication and Electrical Engineering. IEEE, 2014:1.
[9] HUSAIN R A,ZAYED A S, AHMED W M, et al. Image Segmentation with Improved Watershed Algorithm Using Radial Bases Function Neural Networks[C]//Sciences and Techniques of Automatic Control and Computer Engineering (STA), 2015 16th International Conference on. IEEE, 2015: 121.
[10]ZHANPENG H, QI Z, SHIZHONG J, et al. Medical Image Segmentation Based on the Watersheds and Regions Merging[C]//Information Science and Control Engineering (ICISCE), 2016 3rd International Conference on. IEEE, 2016: 1011.
[11]楊辉华,赵玲玲,潘细朋,等.基于水平集和凹点区域检测的粘连细胞分割方法[J].北京邮电大学学报,2016,39(6):11.
(编辑:关 毅)