基于Matlab 的肿瘤细胞识别系统
2021-04-20刘腾飞
刘腾飞,刘 威,2
(1.武汉大学物理科学与技术学院,湖北武汉 430072;2.武汉大学深圳研究院,广东深圳 518057)
肿瘤细胞的检测对癌症的早期诊断和治疗具有重要研究价值[1]。基于抗原-抗体结合的肿瘤细胞捕获技术[2]在肿瘤检测方面已有多年的研究经验,在对细胞学的研究中需要经常观察细胞形态和对细胞进行计数。因此,肿瘤细胞研究中迫切需要自动的肿瘤细胞识别与计数系统,以辅助研究人员进行高效研究。随着数字图像处理技术在生物医学领域的应用越来越广泛,目前已有对基于圆形度特征的血细胞分类研究[3]。
文中以金纳米颗粒捕获的肿瘤细胞为例,根据被捕获后的肿瘤圆形度明显变小的特征,基于Matlab 2019b 平台,利用数字图像处理技术,为被捕获后的肿瘤细胞提供一种高效的识别计数系统,可助力研究人员对肿瘤细胞的研究。
1 系统整体框架设计
该系统主要由细胞图像采集、细胞图像处理与圆形度计算、GUI 界面显示处理和计算结果3 部分组成。根据捕获实验完成后肿瘤细胞的周围环境及被金纳米颗粒捕获后圆形度明显降低的形态特征,文中设计了图1 所示的系统实现流程框图。
图1 系统图像预处理及识别实现流程框图
1.1 细胞图像采集
基于USB 接口的CMOS 图像传感器采集系统具有传输速率高、兼容性好等特点[4]。文中采用CMOS图像传感器的工业相机搭载三目螺纹接口显微镜摄像头(40X)构建图像采集系统,通过USB2.0 与计算机建立通信,采集被金纳米颗粒捕获后的肿瘤细胞图像。图2 所示的细胞边缘黏附的黑色颗粒为金纳米颗粒,游离在细胞周围的黑色斑点为多余的金纳米颗粒,被视为杂质。
图2 金纳米颗粒捕获的肿瘤细胞
1.2 算法实现流程
首先加载摄像头采集的细胞图像到系统中,系统会将图像转化为灰度图像,接着进行基于阈值的图像分割实现二值化。然后利用二值图像形态学处理消除细胞内的孔洞和剔除小面积的非细胞区域,得到不包含杂质的完整的细胞连通域图像。再通过控制标记符的分水岭算法实现粘连细胞分割。最后,计算图像上连通域的总数及各连通域的圆形度,与肿瘤细胞圆形度阈值进行对比,对小于阈值的连通域判定为捕获成功,并进行计数。
2 软件算法设计及实现
2.1 灰度变换
灰度变换可以将彩色图像转换为只包含图像亮度信息的灰度图像,但是同样可以突出彩色图像中描述的目标特征,而且还可以降低图像数据的运算量,在医学影像处理中有非常广泛的应用[5]。
该系统选用加权平均法[6],即根据人眼对三基色敏感度的高低,按照式(1)对R、G、B三分量以不同的权值进行加权平均,实现灰度化。
2.2 阈值分割实现二值化
基于阈值的图像分割因为有很直观的分割效果,在图像分割中有重要的应用[7]。首先通过最大类间方差法[8-9](OTSU)对细胞灰度图像进行阈值分割,通过Matlab 计算,得到灰度阈值T=0.396 1 的二值图像。观察发现,该阈值使个别细胞边缘被破坏。然后参考灰度直方图将灰度阈值手动设置为T=0.41 和T=0.42 分别进行阈值分割,发现当灰度阈值T=0.42时,较好地保留了细胞边缘。最终得到的二值图像如图3 所示。
图3 选取不同阈值进行分割后的二值图像
2.3 形态学处理
形态学处理可以在保持图像中目标的基本形态特征不发生明显变化的情况下,去除不相关的区[10-11]。
2.3.1 孔洞填充
阈值分割后得到封闭的细胞轮廓,但细胞内会存在不规则的孔洞,孔洞可以看作由前景目标包围的背景区域。令g表示二值图像,假设gm为标记图像,细胞边缘部分值设为1-g,除了图像边缘外,其余部分都为0:就可以完成肿瘤细胞内孔洞的填充[11]。Matlab工具箱函数可以完成此过程:
2.3.2 移除杂质点
由孔洞填充后的二值图像可以看到,杂质点所属连通域的面积明显小于被捕获的肿瘤细胞的面积。通过连通域像素个数统计发现,即使较小的细胞(包含928 个像素点)也远大于较大的杂质点(包含393 个像素点),删除二值图像中像素面积小于400 的对象。Matlab核心代码如下:
形态学处理后对图像取反得到图4 所示的细胞特征区域。
然后根据
图4 形态学处理后提取出的细胞区域
2.4 分割粘连细胞
分水岭分割算法是一种基于拓扑理论的数学形态学的分割方法,在分割粘连细胞方面有很好的应用效果。
由于肿瘤细胞轮廓上金纳米颗粒-抗体凸起的存在,如图5(a)所示,直接应用分水岭分割算法的效果并不理想,可能会造成过分割而引起误差[12],如图5(b)所示。如果对图像中的前景和背景进行标注之后再应用分水岭算法,则会取得更好的分割效果。图5(c)所示为基于控制标记符的分水岭[13]算法分割后的结果。
图5 分水岭分割算法
Matlab核心代码如下:
2.5 圆形度计算
肿瘤细胞被捕获后轮廓圆形度明显下降,与未被捕获的细胞区别明显,如图6 所示。
图6 未被捕获的肿瘤细胞(左)和被捕获的肿瘤细胞(右)的形态对比
提取到细胞的连通域图像后,采用圆形度计算公式[14],即
其中,S为连通域面积,即连通域包含的所有像素点的个数;L为连通域轮廓周长,即连通域轮廓上点集合的个数,以1 像素点为最小单位。当e为1 时,图形即为圆形;e越小,与圆形的差距越大。
3 实验结果与分析
3.1 圆形度阈值
文中对53 个被捕获的肿瘤细胞和43 个未被捕获的肿瘤细胞的圆形度进行了统计计算,得到图7所示的圆形度分布图。可以发现,将圆形度阈值设为0.87 可以很好地区分肿瘤细胞是否被捕获。
图7 被捕获的肿瘤细胞圆形度分布
3.2 系统计算结果
进入GUI 界面点击读取图像,可调用相机获取某一时刻图像保存的指定位置,并加载到界面上。然后在参数设置区域设置肿瘤细胞识别的关键参数,包括灰度阈值、杂质点面积、细胞圆形度阈值。输入之后点击处理计算,系统会根据设置的参数对细胞图像进行处理,并对被捕获的肿瘤细胞进行识别和捕获效率计算,处理结果会在右上方显示,右下方的面板会显示计算结果。识别和计算结果如图8 所示。
图8 肿瘤细胞识别和计数操作界面
3.3 实验结果分析
根据文中设计的被捕获的肿瘤识别和计数系统,对随机选取的5 幅样品图片进行识别和计数,结果如表1 所示。
表1 肿瘤细胞识别与计数结果
*错误率计算公式为:
错误率=(假阳数+假阴数)/被捕获的数量
假阳是指在系统误识别目标的情况,假阴是指系统未识别目标的情况。在系统自动识别与计数过程中,有少量肿瘤细胞因黏附的金纳米颗粒较小而被系统忽略,也有少量未全部暴露在视野中的细胞被系统误识别。
由表1 可知,通过圆形度特征对被捕获的肿瘤细胞识别和计数的平均误差率在6.3%左右,识别准确率较高,证明了该系统在实际应用中的有效性。
4 结束语
文中利用图像处理技术结合高速采集相机实现了对被捕获的肿瘤细胞的快速识别和计数[15-16],并给出了GUI 界面。最后实验结果证明,系统识别准确率能够满足实际需求,具有一定应用价值。相对于血细胞计数板[17-18]的细胞计数方法,该系统不用繁琐的实验步骤,对被捕获的肿瘤细胞的识别速度更加迅速。相对文献[19]中介绍的基于机器学习的图像分割方法,该系统具有更低的开发周期和开发成本。该系统基于圆形度特征的细胞识别和计数也可用于被其他纳米材料捕获的肿瘤[20-21],通过统计样本数据然后修改系统参数,有望继续发掘。
文中不足之处在于对肿瘤细胞识别和计数的准确率还可以进一步提高。下一步的研究重点还可就不同生长状态下的肿瘤细胞识别和计数进行探讨。