APP下载

基于多曲率轮廓信息的病理图像细胞核自动检测

2016-01-08张翼,庞宝川

计算机工程与科学 2015年6期
关键词:模式识别机器学习

基于多曲率轮廓信息的病理图像细胞核自动检测*

张翼1,庞宝川2

(1.华中科技大学文华学院电子与信息工程系,湖北 武汉 430074;

2.华中科技大学电子与信息工程系,湖北 武汉 430074)

摘要:细胞核自动检测既是病理图像分析技术的重要步骤,也是提高病理图像自动化分析准确性的主要瓶颈之一,原因在于病理切片制作存在染色分层不均、细胞核粘连或重叠等问题。为了提高细胞核检测的准确度,定义了一种基于多曲率轮廓的细胞核自动检测模型,通过多曲率方向能量滤波器提取细胞核轮廓信息。特征检测器基于boosting算法,利用不同曲率和方向轮廓特征的完备集合产生像素软分类器,获得像素的前景背景置信度和概率。最后利用均值漂移算法得到细胞核中心位置及其置信度。实验结果表明,该算法与其他细胞核检测算法相比,在生物组织结构变异、不均匀光照或染色条件下,以及细胞核粘连或部分重叠等情况下,有着较强的鲁棒性。

关键词:细胞核检测;多曲率;模式识别;机器学习

中图分类号:TP181 文献标志码:A

doi:10.3969/j.issn.1007-130X.2015.06.018

收稿日期:*2014-05-19;修回日期:2014-08-11

基金项目:湖北省高等学校优秀中青年科技团队计划资助(T201431)

作者简介:

通信地址:430074 湖北省武汉市华中科技大学文华学院电子与信息工程系信息大楼

B423Address:B423,Information Building,Department of Electronic and Information Engineering,Wenhua College,Huazhong University of Science and Technology,Wuhan 430074,Hubei,P.R.China

Automatic detection of cell nucleus in pathological imagesbased on multi-curvature contour features

ZHANG Yi1,PANG Bao-chuan2

(1.Department of Electronic and Information Engineering,Wenhua College,

Huazhong University of Science and Technology,Wuhan 430074;

2.Department of Electronic and Information Engineering,

Huazhong University of Science and Technology,Wuhan 430074,China)

Abstract:Nucleus automatic detection is not only an important part of pathological image analysis, but also one of the primary bottlenecks to improve the analysis accuracy of the technology. The reason lies in that the pathological slice exhibits uneven layering and staining, nucleus crowding or overlapping. In order to improve the accuracy of the nucleus detection, we design a nucleus model of multi-curvature contour. The nucleus contour features are extracted by multi-curvature orientation energy filter. Then the contour features, along with the cell nucleus ground truth, are put into a boosting algorithm, which creates a pixel classifier to classify pixels into foreground and background. In the end, the mean-shift algorithm produces the confidence co-efficiency of the nucleus for each location. Experimental results show that in comparison with other state-of-art cell nuclei detection methods, our method is more robust to conditions such as biological variations, different staining and illumination conditions, and touching or partial occlusions.

Key words:nucleus detection;multi-curvature;pattern recognition;machine learning

1引言

病理检查是通过显微镜观察活体组织样本,以确定病变的程度和原因。由于人类大脑和视觉系统的局限性,病理图像的人工诊断存在耗时、费力、易误判、主观性强等不足。近年来,病理样本的计算机视觉自动检测越来越被人们所重视,已成为病理检查的有效工具之一[1]。

细胞核自动检测与分割,既是自动病理分析的重要步骤,也是解决该问题的主要障碍,原因在于传统病理切片制作过程中,不可避免会出现分层不均匀、细胞核聚集等情况。而且,染色过程中造成的颜色纯度和光照亮度差异,也为细胞核检测带来了挑战。因此,在病理图像中,提出准确有效的细胞核检测与分割方法,是当前该领域研究的核心热点。为了达到此目的,传统研究方法必须对大量细胞特征进行检测,包括各类细胞和组织的形态、形状、纹理等。

本文主要基于细胞核轮廓特征,来解决细胞核检测和定位问题。相比其他特征,轮廓信息在病理图像分析中具有突出优势。例如,轮廓特征具有染色和光照不变性,并能准确反映细胞核的形态和结构。本文通过多曲率方向能量滤波器提取轮廓信息;利用boosting算法融合不同曲率和方向的轮廓信息,进行像素分类;最后基于密度估计来检测细胞核中心,应用均值漂移算法得到细胞核中心检测的置信度。

2细胞核检测模型

在细胞核检测中,对于聚集或重叠的细胞核,轮廓图像比原始图像具有更高的识别率。病理图像中的细胞核轮廓相对其他特征具有显著优势:极大的染色和光照不变性、较强的形态和结构描述性,并且轮廓特征沿着细胞核边缘更易提取,相比之下,其他局部描述器,如细胞核纹理,在背景环境混乱或染色质分布不均时,无法实现可靠匹配。因此,轮廓特征是细胞核检测的最有效特征,本文将轮廓定义为细胞核的外围边缘,或细胞核与背景的边界。

Figure 1 Cell nucleus model 图1 细胞核模型

下一步将讨论如何将多曲率方向能量滤波器与空间先验模型相结合,以确定边缘的存在。

3多曲率轮廓信息提取

本节中定义一种多曲率方向能量滤波器,确定了细胞核轮廓模型的参数,结合空间先验模型,得到轮廓先验概率,以提取轮廓。

3.1多曲率方向能量滤波器

方向能量OE(Orientation Energy)在计算机视觉领域被作为一种基本工具使用[2]。在方向θ上的OE定义为:

(1)

OE滤波器已被证实在自然图像的轮廓和纹理分析中起到了极大的作用[3,4]。然而,将OE应用于细胞核轮廓依然存在着挑战。主要原因在于细胞纹理区域太大,特别是病理图像尤为突出,以至于OE在纹理区域得到过多的假响应,而事实上并非细胞核边缘。而且,细胞粘连和重叠的现象也会导致在使用OE时产生边缘漏检。

本文改进了传统的OE,在提取细胞核边缘方向时,也提取了边缘曲率信息,结合曲率参数定义多曲率方向能量滤波器MCOE(Multi-CurvatureOrientationEnergy),图2c和图2d分别表示当曲率为k时MCOE的奇、偶对称滤波器核。

Figure 2 Traditional OE and MCOE filter kernels 图2 传统OE与MCOE的奇偶对称滤波器核

假设边缘方向为θ,曲率为k,尺度为σ,则MCOE可定义为:

(2)

Figure 3 MCOE filter kernels under different curvatures 图3  不同曲率下MCOE滤波器核示意图

其中σk表示MCOE对图像噪声的响应。

Figure 4 Comparison of traditional OE and MCOE filters 图4 传统OE滤波器与多曲率MCOE滤波器的轮廓检测对比

3.2轮廓特征提取

假设某细胞核中心位置为c,要试图定位曲率为k且方向为θ的轮廓边缘,则边缘Ek,θ的位置可表示为xk,θ=c+uk,θ,其中uk,θ为边缘相对中心的位移。在建立轮廓位置分布时,若细胞核边缘相对细胞核中心的空间分布呈高斯分布,大小为Σk,θ,期望为μk,θ,那么边缘的空间先验分布可表示为:

其中,μk,θ、Σk,θ是通过独立学习每条边缘获得的参数,其目的在于表示多曲率多方向的轮廓边缘之间的相对空间位置分布。

边缘Ek,θ最大概率的分布位置可表示为:

轮廓最大响应hk,θ将作为分类器的输入特征,可表示为:

3.3轮廓特征提取的参数选择

方向不变性假设也可应用于空间先验模型,然而,当建立边缘相对细胞核中心的位置分布的模型时,情况会更加复杂。若旋转矩阵Θ定义为:

4像素分类

本节将详述怎样利用boosting滑动窗口分类器来融合各种曲率和方向的轮廓信息。图像的轮廓信息提取后,像素分类器在整个图像上分类,得到像素为细胞核的置信度与概率。

4.1检测分类

4.2训练分类器

Figure 5 Illustration of training example selection strategy 图5 训练样本选择策略

5细胞核中心检测

运用上一节的方法,可以得到各像素上细胞核存在的概率,这些概率是由软分类器在每个像素上独立获得的。然而,由常识可知,邻近像素的概率并非统计独立。例如,邻近像素均被判别为细胞核像素,它们一般属于同一细胞核,而不是不同的细胞核。在细胞核中心检测中,目标是对每个细胞核的中心位置进行定位。因此,如何通过像素概率得到细胞核的中心位置,成为细胞核中心检测的关键。

其中,K是带宽为h的高斯核,一般可以设定为典型的细胞核半径值。

6实验与评估

利用本文的细胞核检测器来检测一组标准参照数据集,以评估性能。原始图像和相关的数据来源于加州大学圣塔芭芭拉分校UCSB(UniversityofCaliforniaSantaBarbara)生物图像信息学中心提供的标准参照数据集[11,12]。数据集包括58个H&E染色的乳腺癌病理研究图像,大小为896×768,其中26个为恶性肿瘤图像,32个为良性肿瘤图像。每张图像被划分成200×200的多个窗口。

将本文方法与文献[13,14]中提出的高斯拉普拉斯算法LoG(LaplaceofGaussian)进行对比。为了客观性,将数据分为两组,其中训练集有29个图像,检测集为另外29个图像,并用两种方法进行训练和检测。

首先对比两种方法下的软检测结果。图6a和图6b分别展示了原始病理图像和人工检测的细胞核参照标准。图6c和图6d分别表示LoG和本文方法的检测结果,对比可知,本文方法检测到更大范围的细胞核,并且对于聚集的细胞核,本文方法比LoG具有更高的置信度。原因可能在于LoG使用前景与背景区域的差异来实现检测,当发生聚集时,细胞核区域与相邻区域无法分辨,从而降低了结果的置信度。本文方法中,使用超完备轮廓特征集来解决这一问题。当在中心像素周围检测到一组特定结构的边缘时,即可判定细胞核存在,而不用考虑粘连部分边缘的缺失。

Figure 6 Example of confidence map 图6 置信度图示例

对同一图像的局部区域进行检测的结果如图7所示,图中黑色圆点表示正确检测TP(TruePositive),白色圆点表示误报FP(FalsePositive),图7a和图7b分别表示LoG与本文方法的检测结果。对比可知,本文方法显示了更多的正确检测,即使在染色或照明不均、背景混乱、细胞核重叠的情况下,检测器依然能保持较好的性能,特别是对重叠区域的检测效果显著。然而,当细胞核形态异常时,本文方法难免产生错误检测。例如,图7b中右侧的一个细胞核,体积明显增大,且形状呈不规则改变,使用该方法检测,得到如图7b中圆点所标示的两个响应,即该异常细胞核被错误地判定为两个细胞核。

Figure 7 Cell nucleus detection examples 图7 细胞核检测结果示例

为了比较两种方法的全面性能,使用两种相关的测度。当软决策确定图转化成最终检测结果时,需要使用一个全局阈值来过滤掉弱置信度。不同的阈值对应不同检测精确度(Precision)和反馈度(Recall)。图8绘制了Precision和Recall之间的变化关系曲线。精确度指正确检测到的样本数量与所有参与检测的样本数量之比;反馈率指正确检测到的样本数量与真实存在细胞核的样本数量的比例。已知标准参照的细胞核位置,当检测结果定位于距标准位置五个像素之内,则确定为正确检测。实验结果表明本文方法比BlobDetector更有效。

Figure 8 Precision-Recall result 图8 Precision-Recall图

7结束语

本文提出一种基于不同曲率和方向轮廓信息的细胞核检测技术,并用实验和其他方法进行了对比。实验结果表明,本文方法在生物组织结构变异、不同染色、光照不均以及部分重叠等特殊情况下更具鲁棒性。本文建立了多曲率细胞核轮廓模型,并阐述了如何从相同曲率、不同方向的轮廓模型中有效而快速地提取参数。根据经验选择一定数量的曲率和方向,形成固定的数据集供检测器学习,下一步将研究如何选择最优轮廓集合,并结合其他特征,如细胞纹理等,以扩展本文方法。同时,在提取细胞核特征时,希望利用稀疏表示方法替代预先设定的多曲率滤波器,并且今后将着手于将本检测器应用于细胞核分割算法。

参考文献:

[1]WangW,OzolekJA,SlepcevD,etal.Anoptimaltransportationsapproachfornuclearstructure-basedpathology[J].IEEETransactiononMedicalImaging, 2011,30(3):621-631.

[2]PeronaP,MalikJ.Detectingandlocalizingedgescomposedofsteps,peaksandroofs[C]//Procofthe3rdInternationalConferenceonComputerVision, 1990:52-57.

[3]MartinDR,FowlkesCC,MalikJ.Learningtodetectnaturalimageboundariesusinglocalbrightness,color,andtexturecues[J].IEEETransactionsonPatternAnalysisandMachineIntelligence, 2004, 26(5):530-549.

[4]ArbelaezP,MaireM,FowlkesC,etal.Contourdetectionandhierarchicalimagesegmentation[J].IEEETransactionsonPatternAnalysisandMachineIntelligence, 2011,33(5):898-916.

[5]ViolaP,JonesMJ.Rapidobjectdetectionusingaboostedcascadeofsimplefeatures[C]//ProcofIEEEConferenceonComputerVisionandPatternRecognition, 2001:511-518.

[6]FerrariV,SchmidC.Groupsofadjacentcontoursegmentsforobjectdetection[J].IEEETransactionsonPatternAnalysisandMachineIntelligence, 2008,30(1):36-51.

[7]FerrariV,HastieT,TibshiraniR.Additivelogisticregression:Astatisticalviewofboosting[J].AnnalsofStatistics,2000,28(2):337-407.

[8]HastieT,TibshiraniR,FriedmanJ.Theelementofstatisticallearning:Datamining,inference,andprediction[M].NewYork:Springer, 2009.

[9]TorralbaA,MurphyKP,FreemanWT.Sharingvisualfeaturesformulticlassandmultiviewobjectdetection[J].IEEETransactionsonPatternAnalysisandMachineIntelligence, 2007,29(5):854-869.

[10]ZhouHY,YuanY,ShiCM.Objecttrackingusingsiftfeaturesandmeanshift[J].ComputerVisionandImageUnderstanding, 2009,113(3):345-352.

[11]GelascaED,ObaraB,FedorovD,etal.Abiosegmentationbenchmarkforevaluationofbioimageanalysismethods[J].BMCBioinformatics, 2009,10(11):368-379.

[12]GelascaE,ByunJ,ObaraB,etal.Evaluationandbenchmarkforbiologicalimagesegmentation[C]//ProcofInternationalConferenceonImageProcessing, 2008:1816-1819.

[13]ByunJ,VerardoM,SumengenB,etal.Automatedtoolfornucleidetectionindigitalmicroscopicimages:Applicationtoretinalimages[J].MolecularVision, 2006(12):949-

960.

[14]SantellaA,DuZ,NowotschinS,etal.Ahybridblob-slicemodelforaccurateandefficientdetectionoffluorescencelabelednucleiin3d[J].BMCBioinformatics, 2010,11(11):580-592.

张翼(1985-),女,湖北安陆人,硕士,讲师,研究方向为计算机视觉和模式识别。E-mail:16497994@qq.com

ZHANGYi,bornin1985,MS,lecturer,herresearchinterestsincludecomputervision,andpatternrecognition.

庞宝川(1982-),男,湖北武汉人,博士后,研究方向为模式识别和医学图像处理。E-mail:12820648@qq.com

PANGBao-chuan,bornin1982,post-doctor,hisresearchinterestsincludepatternrecognition,andmedicalimageprocessing.

《计算机工程与科学》征文通知

《计算机工程与科学》是由国防科技大学计算机学院主办的中国计算机学会会刊,是国内外公开发行的计算机类综合性学术刊物,现为月刊。 本刊欢迎关于计算机科学理论、计算机组织与系统结构、计算机软件、计算机应用、计算机器件设备与工艺等学科领域方面的来稿。本刊每年出版一期高性能计算专刊,并且常年设有高性能计算专栏。

来稿论文必须未发表、未投到其他会议或期刊。

来稿要求和注意事项:

(1) 主题明确、文字精练、语句通顺、数据可靠。

摘要(2) 标题、作者单位、、关键词采用中英文间隔行文;请注明是否基金资助项目论文(注明项目名称和编号) ,并注明文章中图法分类号。务必附上所有作者中英文简历(姓名、性别、出生年月、籍贯、学位、职称、研究方向) 、1寸证件照片(军人请用便服照)、中英文通信地址、联系电话和Email 。

(3) 作者在投稿时须注明是否是CCF会员(高级会员、普通会员、学生会员) ,若是会员,请注明会员号。第一作者是CCF会员的,将享受8.5折的版面费优惠。

(4) 来稿请用WORD软件编辑,格式为A4 , 40行×40列,通栏排版,正文为5 号宋体,论文长度不得低于5个标准版面,并请自留底稿。

(5) 来稿中图形绘制要求工整、清晰、紧凑,尺寸要适当,图中文字用6 号宋体,线为0.5 磅。

(6) 每篇论文格式要求:1 引言;……;最后是结束语。引言和结束语中尽量不用图和表。附录应放参考文献之后。参考文献限已公开发表的。

参考文献(7) 来稿文责自负,要遵守职业道德,如摘引他人作品,务请在中予以著录。署名的作者应为参与创作,对内容负责的人。文章发表后,如不同意其他报、刊、数据库等转载、摘编其作品,请在来稿时声明。

(9)本刊对来稿按100元/篇的标准收取稿件审理费。对已决定刊用的稿件按230元/页的标准收取版面费。稿件刊登后,按国家有关规定酌致稿酬(含与本刊签约的其他出版物转摘的稿酬),同时赠送当期样刊两本。

联系地址:410073 湖南省长沙市国防科技大学《计算机工程与科学》编辑部

联系电话:0731-84576405电子邮件:jsjgcykx@163.net

投稿主页:http://www.joces.org.cn

猜你喜欢

模式识别机器学习
紫地榆HPLC指纹图谱建立及模式识别
浅谈模式识别在图像识别中的应用
第四届亚洲模式识别会议
基于词典与机器学习的中文微博情感分析
基于网络搜索数据的平遥旅游客流量预测分析
前缀字母为特征在维吾尔语文本情感分类中的研究
基于支持向量机的金融数据分析研究
机器学习理论在高中自主学习中的应用
可拓模式识别算法中经典域的确定方法
第3届亚洲模式识别会议