基于边缘检测的乳腺癌细胞核分割预测图融合算法*
2023-07-03闫伟鑫吕晓琪谷宇
闫伟鑫,吕晓琪,2,谷宇
(1.内蒙古科技大学 信息工程学院 内蒙古自治区模式识别与智能处理重点实验室,内蒙古 包头 014010;2.内蒙古工业大学 信息工程学院,内蒙古 呼和浩特 010051)
乳腺癌严重危害女性健康.随着计算机视觉技术的发展,很多研究者致力于对病理学图像中的细胞核进行分割研究并用于计算机辅助系统为乳腺癌分级提供依据,但病理图像背景复杂,经常难以分割出完整的细胞核边缘.
在传统方法中,YANG等[1]人使用阈值作为分水岭算法的输入,用来提取细胞核实例;ZHOU等[2]人首先对研究的图像利用自适应阈值的局部窗口进行二值处理,接着对细胞核进行分水岭分割;ZHAO等[3]人提出一种基于超像素的马尔可夫随机场分割细胞核的方法,该方法将整个图像描述为无向概率图形模型,然后对图像上的颜色不重叠的超像素块进行分类,用于分割出细胞核,细胞质和背景区域.但是这些方法依赖于细胞核和背景的灰度差异,因此对于比较复杂的病理学图像经常产生不可靠的结果.
在深度学习领域,Micro-Net[4]网络结构根据H&E图像中的着色变化具有鲁棒性,使用多种分辨率输入网络模型分割细胞核;CIA-Net[5]网络结构通过让解码器能够协同地细化细胞核和轮廓的细节来获取完整的细胞核边缘;BESNet[6]网络使用了2个解码器分别增强细胞边界和分割病理学图像中的细胞核.但是这些方法都对细胞核的边缘存在过分割或欠分割的问题.
以上的方法都是使用单一的模型对乳腺癌细胞核进行分割,往往无法得到完整的细胞核边缘.针对此问题,文中通过融合多个算法的分割预测图分割乳腺癌细胞核,获取光滑的细胞核边缘.
1 研究方法
1.1 方法介绍
U-Net[7]网络模型是针对医学图像处理的一种端到端的分割方法,对医学图像分割问题十分有效.DeepLab V3[8]通过引入Multi-Grid策略,使用了不同的rate来捕获多尺度信息,增强了分割准确率.研究提出通过基于边缘检测的分割预测图图像融合方法的判断规则将两者的分割预测图进行融合获取最终的乳腺癌细胞核分割结果.如图1所示,展示了文中提出的基于边缘检测的分割预测图像融合算法(UDE-M)流程.首先通过U-Net网络模型和DeepLab V3网络模型对乳腺癌病理学图像进行分割获得各自的预测图象;然后利用二值图图像边缘检测算法对两个分割预测图叠加图像进行分割获得中间结果预测图E;接着根据U-Net网络模型和DeepLab V3网络模型输出的两个分割预测图中相同位置的像素数值是否包含细胞核像素1进行判断,如果其中之一包含目标像素,则输出到中间过程结果图L中;最后对中间过程结果图L和中间过程结果图E进行重复判断,如果相同的位置包含目标像素1,则保存到最终的分割结果O图中.在算法流程图中,有两点说明,一是所谓分割结果图在文中的实验研究中指通过分割获取的二值图像;二是0和1的意义是将需要分割的细胞核像素表示为1,其他像素表示为0.
图2 不同方法的分割效果图
2 结果与讨论
2.1 数据集和评价指标
文中研究选用了Kumar[9]数据集,该数据集中的图像来自癌症基因组图谱(TGGA[10]),包含30张大小均为1 000×1 000的病理学图像.这些病理学图像包含了7种器官,包括乳房、肝脏、前列腺、肾脏、膀胱、结肠、胃,并且该数据集对每一张图像中的细胞核都进行了详细的标记.此数据集大多数都是针对广泛的细胞核进行分割研究时被使用.基于研究目的,所以主要针对其中5张乳腺癌病理学图像进行细胞核分割研究.
数据集数据量有限,为了避免数据出现过拟合现象,对数据集进行了扩充处理.如表1所示,展示了通过数据增强策略的数据集数量,本次研究的数据有5张乳腺癌细胞核分割图像,原始尺寸为1 000×1 000;经过滑动窗口的切片操作,数据集中将有5×25=125张病理学图像;为了进一步增加数据,采用了旋转和镜像的数据增强,对这125张图像进行旋转(90°,180°,270°,360°)以及镜像操作,进一步将数据集扩充为125×5=625张;最后将数据集的500张图像组成训练数据集,用来训练后续的深度学习分割网络,数据集的125张图像组成测试数据集用,用来评估网络的分割性能.
表1 数据集扩充策略
为了综合分析文中提出的模型性能,采用多个深度学习的评级指标[11]进行评估测试,包括准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F1分数(F1-Score),计算公式如(1)~(4)所示:
(1)
(2)
(3)
(4)
准确率是指分类正确细胞核像素个数占实际像素值的比例;精确率也叫查准率,精确率高表示模型进行细胞核分割的结果中大部分像素确实是细胞核像素,只有少量不是细胞核的区域被当成了细胞核像素;召回率高代表着模型可以分割出病理学图像中更多的细胞核像素;F1分数能够兼顾精确率和召回率来对模型的性能进行评估.
2.2 研究结果与分析
为了验证文中提出的基于边缘检测的分割预测图融合算法的分割性能,文中研究将数据集中数据量按照80%,测试集20%的分配原则分别输入到U-Net网络模型,DeepLab V3网络模型和文中算法进行评估测试.文中算法和其他两个网络模型的分割结果如图所示,U-Net分割效果图中,白色表示分割出的细胞核像素,可以看出,效果图中对于病理学图像中背景复杂的细胞核像素分割效果存在漏检现象,或者完全没有识别到原图中的细胞核;DeepLab V3网络模型分割结果图中,红色表示细胞核像素,从图中可以看出,和U-Net的分割结果相比,该模型能够完整地分割出细胞核,不存在漏检现象,但是细胞核的边缘存在欠分割现象;最后一列为文中算法UDE-M模型的分割结果,用绿色代表了细胞核像素,和DeepLab V3网络模型效果图进行比较,文中算法模型的分割结果比DeepLab V3分割出的细胞核轮廓更加完整.对于细胞核分割研究,分割的细胞核数量需要足够多,并且每一个细胞核的边界要足够接近真实细胞核轮廓,通过效果图对比,证明了文中提出的方法能够有效分割乳腺癌细胞核.
为了进一证明文中提出的方法的分割性能,从数据方面进行了分析.如表2所示,为不同方法的深度学习评价指标,从准确率(accuracy)的角度来分析,文中算法的准确率为92.15%,比U-Net的准确率高1.6%,比DeepLab V3的准确率高0.6%,证明文中算法对细胞核进行分割的时候可以分割出更多正确的细胞核像素点.
表2 不同方法的深度学习评价指标
从精确率(Precision),召回率(Recall)的角度进行分析,文中算法精确率为77.3%,相比于U-Net的精确率,低了约10个百分点,然后文中算法的召回率为83.3%,高于U-Net的召回率约20个百分点,一个理想的结果是两个值都应该接近100%,但实际做不到,往往提高召回率,就会导致精确率降低,但是综合考虑两个指标,能够说明文中算法对于细胞核像素点虽然较U-Net有漏检的现象,但是误检率低,证明文中分割结果与真实结果更加接近.文中算法比DeepLab V3的精确率低约2个百分点,但召回率却高了约20个百分点,同理证明了文中算法比DeepLab V3算法分割的细胞核更加可信.
最后对于F1分数(F1-Score)的分析,文中算法的F1分数为80.4%,比U-Net增加了约10个百分点,比DeepLab V3增加了约3个百分点,F1分数可以兼顾精确率和召回率,进一步证明了文中算法对细胞核检测的漏检率和误检率低,能有效分割乳腺癌细胞核.
为了证明文中通过将U-Net网络模型,DeepLab V3网络模型进行组合用于乳腺癌细胞核分割有较好的效果,文中将U-Net网络进行替换为FCN[12]和SegNet[13]网络,组成FDE-M模型和SDE-M模型,与文中提出的UDE-M模型进行评估测试.如表3所示,为不同组合模型以及基础网络的深度学习评价指标,首先可以看出新组成的2种模型的指标都优于各自的基础网络,证明了文中融合方法的有效性.
表3 不同组合模型的深度学习评价指标
其次可以看出文中提出的UDE-M方法的Accuracy和F1-Score都高于其他2种组合方法的值,并且Precision和Recall进行综合分析也优于其他两种组合方法,证明文中提出的方法相比其他组合方式能够有效分割乳腺癌细胞核.不同组合模型的分割效果如图3所示,可以看出文中的方法分割细胞核的边缘更加完整,进一步通过分割效果证明了,提出的UDE-M算法对于乳腺癌细胞核分割可以获得完整的细胞核边缘.
图3 不同组合模型的分割效果图
为了进一步证明文中提出的UDE-M算法实用性好,能够有效分割乳腺癌细胞核的轮廓.本次研究对未经训练的数据进行了评估测试,由于医学图像数据涉及病人隐私,本次研究没有获取到医院的数据,使用TNBC[14]数据集当做测试图像,该数据集从11名三阴性乳腺癌患者癌变组织的不同区域提取了3到8个512×512的病理学图像,共包含50张512×512的乳腺癌病理学图像.根据文中的切片方法对数据处理后,输入到由不同卷积神经网络组成的模型中进行评估测试,如图4所示,展示了分割效果,从分割乳腺癌细胞核的分割数量和边缘的完整度来看,文中的算法可以有效分割未经训练的乳腺癌病理学图像中的细胞核,且优于其他两种方法.
图4 不同组合模型TNBC数据集分割效果图
3 总结
医学图像进行分割是一个重要方向,文中主要研究了利用卷积神经网络的方法对乳腺癌病理学图像中的细胞核进行分割的问题,提出了一种基于边缘检测的分割预测图像融合方法,通过融合U-Net,DeepLab V3算法的分割预测图像获取最终的分割结果.该方法的核心,一是通过遍历2个分割结果中所有细胞核的像素,提取目标像素,增强了细胞核像素特征提取能力,避免了背景中噪声的干扰;二是对叠加图进行边缘检测算法,增强了细胞核的边缘特征.在今后的研究中,如果更换研究目标,文中提出的融合方法还可推广到任何其他算法的分割预测图的融合中.
从两方面研究文中算法的优劣,一是通过和单一网络模型的分割效果进行对比,二是不同组合方式的分割效果进行对比,研究结果表明文中提出的算法能够有效分割乳腺癌病理学图像中的细胞核.
文中的研究也有很多可以完善的方面.首先可以通过尝试进一步的数据扩充提高精度,例如通过文中使用的滑动窗口切片操作改变步长增加数据集,训练数据集的数量多能更大程度的提高准确率;第二是可以使用多尺度的图像数据进行训练,病理学图像背景复杂,通过对图像尺度的改变可以寻找一个好的输入方式增加分割精度.