改进的K-Means高通量dPCR荧光图像分类算法

2022-04-14孙刘杰庞茂然

包装工程 2022年7期

关键词：高通量灰度聚类

孙刘杰，庞茂然

图文信息技术

改进的K-Means高通量dPCR荧光图像分类算法

孙刘杰，庞茂然

（上海理工大学，上海 200093）

为实现高通量dPCR荧光图像阳性点高精确度分类，提出一种改进的K-means高通量dPCR荧光图像分类算法。首先，将预处理后的荧光图像进行像素灰度值统计，依据图像亮度自适应选择波峰波谷作为聚类中心，通过马氏距离度量确定像素簇类；然后，将粗分类结果进行开、闭运算及删除小面积对象等形态学处理；最后，利用3次连通域统计方法完成细分类、位置标识和计数。选取4种通道825幅荧光图像进行检验，平均精确率达到99.06%，召回率达到98.97%，分类效果良好。文中提出的改进K-means分类算法可以实现对高通量dPCR荧光图像的高精度分类和计数，对其他荧光图像分类识别具有一定借鉴意义。

dPCR；荧光图像；K均值；阳性点计数

数字PCR[1-2]（digital Polymerase Chain Reaction, dPCR）是第3代PCR技术，是一种可对样品中的核酸分子进行绝对定量的新技术[3]。与实时荧光定量PCR（Quantitative PCR, qPCR）相比，数字PCR不再依赖标准曲线即可实现高精确检测。dPCR通过有限稀释，对含有目的DNA的PCR反应体系分散成无数个单一模板进行扩增，在进行PCR扩增反应后，将有荧光信号（阳性）的标记为数字信号“1”，没有荧光信号（阴性）的标记为数字信号“0”，荧光标记的DNA所在培养皿被特定波段的激光激发后会发出荧光[4]，再通过统计检测结果及泊松分布校正[5-6]实现目的DNA的绝对定量。dPCR发展至今，因其具有检测灵敏度高、特异性强且能有效避免PCR抑制剂的影响等优势[4]，被广泛应用于外源基因拷贝数鉴定[7-8]、核酸检测定量、抗病毒治疗监测、预后判断[9]等。

荧光图像的亮点与暗点分别对应阳性微滴点和阴性微滴点，微滴式dPCR是通过对基因芯片荧光图像亮暗点数量直接计数的方式得出检测结果，实现定量计数。由于阴阳微滴点的信息是进行医学判断的一大依据，因此需对荧光图像阴阳点实现更精准的识别分类和计数，减少定量误差。在实际中，一方面dPCR容易受外源污染，个别阴性微滴发生非特异反应，造成假阳性结果，无法正确区分阳性液滴和阴性液滴；另一方面，激光激发过程中光照的不均衡也会导致液滴的错误分区，如使用大视场蔡司Axio Zoom V16显微镜，虽然可以一次性成像、无需拼接，但是光照均匀性不佳，光照能量利用不充分，荧光激发效果较差[10]，产生介于阴阳分区之间的信号，即rain区像素[11]，使阳性与阴性分区之间的荧光信号对比度偏低，导致错误分类。

目前提出的荧光图像分类识别算法有：2016年杨信廷等[12]提出了一种基于K均值聚类算法和开闭交替滤波的荧光图像分割方法，简单有效地实现了黄瓜叶片水滴的荧光图像分割；2018年刘聪等[13]考虑到浓度对分类结果的影响，通过讨论不同浓度下误分类对结果的影响，设计了一种基于广义帕累托分布的荧光微滴分类方法，在低浓度下有较好的分类效果；2019年刘聪等[14]再次针对密集分布的荧光微滴提出了一种基于改进的分水岭分割算法的荧光微滴识别方法，降低了分水岭分割中的错误分割比例，有一定的算法优越性；2018年黄鸿等[15]提出了一种基于改进分水岭及半监督最小误差重构分类器的荧光微球图像分割方法，获得了较高的分类精度；2020年李树力等[16]提出了基于形态学的三通道蜂窝状荧光图像样点寻址算法及数字PCR图像信息提取方法，解决了蜂窝状堆叠式微阵列荧光图像样点难以定位的问题，为数字PCR技术的精准定量奠定了基础；2020年刘丽等[17]将支持向量机应用于荧光图像，通过训练SVM分类器实现荧光图像亮点分类与计数。

荧光图像传统分类识别算法简便高效，但识别精度不高。近年来，神经网络也成功地应用于图像识别和图像分类，在一定程度上保证了准确性，但数据处理量大，计算复杂，对内存要求较高。针对上述问题，文中通过大量dPCR荧光图像灰度直方图，分析出在灰度值Gray处可依据像素数量将直方图分为2段，各段波峰波谷对应dPCR荧光图像不同类别。为此，提出一种改进的K-means高通量dPCR荧光图像分类算法，自适应选择波峰波谷确定聚类中心，并实现分类后阳性点标识和自动计数。

1 dPCR荧光图像分类流程

首先，将荧光图像进行图像旋转和中值滤波预处理操作，并统计像素灰度值，剔除0至255灰度区间像素数量为0的灰度值，重新以灰度值、像素数量为横纵轴绘制曲线，设定Num为固定值，对应灰度值Gray为分界点，将曲线前后2段分别拟合，求取各段波峰波谷。然后，利用改进的K-means算法根据荧光图像各通道亮度特征，选择各段波峰波谷对应处灰度值自由组合，自适应调整聚类中心，完成阴阳点粗分类。经过粗分类的dPCR荧光图像对背景上“蹭脏”引起的rain区像素，以及滤波器难以过滤的像素点未能正确区分，利用形态学对这些未区分的像素点2次处理。最后，借助3次连通域统计方法实现阳性点计数：首次统计以获得所有待标注区域的尺寸，在长宽方向上分别取众数作为单幅图像的标准标注尺寸，同时断开阳性点边界在上下方向与rain区像素的连接；第2次统计通过限制长宽比例删除rain区像素；最后的统计实现细分类与数字顺序标识。文中提出的改进K-means高通量dPCR荧光图像分类算法基本流程见图1。

2 算法设计

2.1 图像预处理

高通量dPCR荧光图像亮度与对比度较低，且阴阳点密集分布，背景存在冗余信息，容易造成噪声干扰。观察dPCR荧光图像可知，背景“蹭脏”点存在于行间，容易粘连同一列的2个点，尤其是当2个点同时为阳性点时，连通域统计方法会将其视为1个点处理，造成分类与计数失败。由于后续第2、3次连通域统计时需要断开上下连接及限制标注区域长宽，因此在图像预处理时将阴阳点规律排列的方向确定为横轴，即图像正方向。

由图2a、b对比可发现，经中值滤波后的图像整体趋于平滑，图像阴性点内离散分布的亮点像素与周围像素均匀化，在一定程度上消除了噪声干扰。

2.2 确定聚类中心

通过dPCR荧光图像灰度直方图可观察到，不同荧光通道有不同灰度分布趋势，见图3a、b。CY5通道281号图像像素点多分布于30～60灰度区间，ROX通道112号图像像素点多分布于20～40灰度区间，但都存在灰度值Gray将直方图划分为2部分，2部分像素以Num值为限有明显分界。在灰度直方图的基础上剔除像素数量为空的灰度值，以保证灰度值-像素数量曲线绘制的连贯性。为方便波峰波谷的选择，根据灰度值Gray将灰度值-像素数量折线分为前后2段，依次做多项式拟合，重新绘制为灰度值-像素数量曲线1、2。对CY5通道281号图像设置Num值为2 600时对应Gray值为100，此时曲线1、2见图4a、b。同理，对ROX通道112号图像设置Num值为2 600时对应Gray值为67，此时曲线1、2见图5a、b。1、2整体平滑且波峰波谷明显，利用式（1）中find函数找出波峰波谷对应灰度值MAX1、MAX2和MIN1、MIN2。理论上应存在2个MAX1、1个MAX2和1个MIN2，分别对应dPCR荧光图像背景灰度值、阴性点灰度值、阳性点灰度值和rain区像素灰度值。

图2 图像预处理前后对比结果

图3 灰度值-像素数量曲线

图4 CY5通道分段曲线

图5 ROX通道分段曲线

2.3 改进的K均值算法聚类

聚类中心确定后，改进的K-means算法包括如下几个步骤，具体过程见图6。

式中：为转换矩阵。

5）当聚类中心误差小于设定误差时，分类结束，输出分类图像与标签。

2.4 图像后处理与计数

如图7a所示，经过改进的K-means算法得到阳性点粗分类结果，虽然预处理阶段对图像进行过中值滤波，但一些集中分布的大块rain区像素和粘连像素仍能被识别出来，因此，采用形态学处理，通过自定义结构单元SE进行闭运算和开运算。闭运算和开运算是由膨胀和腐蚀2个运算经并、交、补等组合成的运算[19]。闭运算是先膨胀后腐蚀，能够填充物体内空洞；开运算是先腐蚀后膨胀，能够断开物体间的细小连接，消除图像区域外的噪声[20]，同时不对物体的形状、轮廓造成明显影响。

开运算表达式为：

闭运算表达式为：

图6 改进的K均值算法聚类过程

2次形态学处理旨在分离阳性点与干扰像素间连接，同时保证各连通域面积不变，但这并不能删除干扰像素，因此，还需在测量各连通域面积后删除目标外小面积对象。经形态学处理后的图像见图7b。

对处理好的图像采用3次8连通域算法，第1次统计所有阳性点区域的位置和外接矩形边长，众数运算获得单幅图像阳性点的最佳尺寸，通过设定矩形左上坐标和长宽尺寸，断开上下方向与rain区大块像素的连接；第2次应用是借助已断开连接的rain区像素的特殊形状和尺寸将其删除；经过上述处理步骤后，已基本实现阳性点的精识别与分类，第3次统计时增加质心坐标，实现数字顺序标识。如图7c圆圈所示，15号、19号、26号、30号等阳性点的“尾部”被成功截断并删除，定位框更贴合准确。

图7 高通量dPCR荧光图像细分类结果

3 实验结果与分析

3.1 仿真实验

为了验证文中算法的有效性，在Win10操作系统、Intel Core i7处理器的计算机平台上使用Matlab R2018b对高通量dPCR荧光图像进行识别分类与计数测试。文中所用实验数据通过CCD相机拍摄获取，分辨率为512×512，选择荧光图像的ROX、CY5、FAM和HEX四通道作为测试对象。实验选择K-means算法和OTUS（大津法）与文中方法进行对比。大津法也称为最大类间方差阈值法，是一种自适应阈值化方法。其基本原理为图像背景区域与待分割区域类间方差越大，说明2部分差异越明显，选取此时的阈值作为最佳分割阈值。

分析图8 ROX通道分类结果发现，原图中包含实际亮点37个，文中算法识别出亮点37个，传统K-means算法及OTUS算法识别亮点35个，均存在漏检情况。观察发现，黄色箭头指向位置的7号和20号阳性点因与周围阴性点亮度差别较小，传统K-means算法和OTUS算法没有确定好最佳阈值，导致这2个点错误分类，但改进的K-means算法能将其准确识别。

分析图9 CY5通道分类结果发现，原图中包含实际亮点18个，文中算法和OTUS算法识别结果为18，与真实结果一致；传统K-means算法识别亮点为23个，存在误检情况，误检位置位于黄色箭头指向处的2、3号区域，改进的K-means算法由于尺寸限制能够排除干扰。

分析图10 HEX通道分类结果发现，文中算法识别亮点11个，与真实结果一致，传统K-means算法和OTUS算法在黄色箭头指向位置有2处误检。观察发现，误检处亮度与阳性点亮度十分接近，但二者存在明显尺寸差异，改进的K-means算法能够借助这一差异不对其计数统计。

分析图11 FAM通道分类结果发现，传统K-means算法即使叠加了中值滤波还是将原图中的各点不加区分地识别，没有达到分类的目的，而文中算法及叠加中值滤波后的OTUS算法都能识别各阳性点，分类结果精确。

3.2 客观评价

二分类结果的常见评价指标有精确率、召回率、虚警率和漏警率等。因dPCR荧光图像阴性点分布密集且数量巨大，实际统计中存在困难，文中选择精确率和召回率作为算法评价指标。精确率（precision）表示原本为正类样本在所有被分为正类样本中的比例，召回率（recall）表示正确预测为正的占全部实际为正的比例。精确率和召回率的计算式见式（9）和式（10）。

图8 ROX通道dPCR荧光图像不同算法分类结果

图9 CY5通道dPCR荧光图像不同算法分类结果

图10 HEX通道dPCR荧光图像不同算法分类结果

图11 FAM通道dPCR荧光图像不同算法分类结果

式中：为算法在检测阳性点方面的正确率；为算法能够正确识别出所有阳性点的能力；P为正确标识出的阳性点数量；P为误将阴性点识别为阳性点的数量；N为漏标识的阳性点数量。值和值越大表示图像分类模型的分类效果越好。为全面评估算法分类的有效性，需要同时检查精确率和召回率，但提高精确率的同时会降低召回率，为平衡精确率和召回率，引入F分数对精确率和召回率进行加权。F分数计算式见式（11），文中认为召回率和精准率同等重要，故取=1，此时评价指标精确为1分数，见式（12）。

为增加实验的普适性，对ROX、CY5、FAM和HEX四通道分别选取240、360、90和135共计825幅图像进行检验，分类结果见表1。

表1 dPCR荧光图像阳性点分类结果

Tab.1 Classification results of fluorescent images highlights in dPCR

通过表1可以看出，825幅图像中存在的误检与漏检比例较低，平均精确率达到了99.06%，召回率达到了98.97%，表明该算法能精确识别出高通量dPCR荧光图像阳性点，分类效果良好。

4 结语

为提升高通量dPCR荧光图像分类精度，文中提出了一种改进的K-means高通量dPCR荧光图像分类算法，具体来说，文中算法具有以下优势。

1）改进的K-means算法依据图像亮度，自适应选择2段波峰波谷处的灰度值作为聚类中心，减少了传统K-means算法初始化聚类中心的随机性、计算效率的不稳定性。

2）虽然ImageJ[21]图像处理软件可以将颜色位深度16的dPCR荧光图像处理为RGB图像，但实际上3个通道颜色值是一致的，图像信息并没有增加。改进的K-means算法在Lab颜色空间求亮度协方差矩阵，在计算2个像素点距离时，用马氏距离代替传统K-means算法中欧式距离，排除相关性干扰。

3）将分类过程划分为粗分类与细分类2个阶段。第1阶段通过文中改进算法得到粗分类结果，第2阶段在前一阶段基础上进行形态学处理，以去除冗余区域，通过连通域算法定位阳性点，实现数字顺序标识，返回结果图。

在四通道下的验证实验表明，文中算法能够保持99.06%的精确率和98.97%的召回率，实现了对dPCR荧光图像的高精度分类和计数，从而为医学应用和判断提供更准确的参考，对其他荧光图像的分类识别也具有一定的借鉴意义。

[1] VOGELSTEIN B, KENNETH K W. Digital PCR[J]. Proceedings of the National Academy of Sciences of the United States of America, 1999, 96(16): 9236-9241.

[2] BAKER M. Digital PCR Hits Its Stride[J]. Nature Methods: Techniques for Life Scientists and Chemists, 2012, 9(6): 541-544.

[3] 肖芳, 张秀杰, 李俊, 等. 转基因玉米MON87427/zSSIIb二重微滴数字PCR方法建立及应用[J]. 中国油料作物学报, 2021, 43(1): 90-98.

XIAO Fang, ZHANG Xiu-jie, LI Jun, et al. Development and Application of MON87427/zSSIIb Duplex Droplet Digital PCR Method[J]. Chinese Journal of Oil Crop Sciences, 2021, 43(1): 90-98.

[4] 黄瑾, 梁涛波, 许恒毅. 数字PCR在生物学检测中应用的研究进展[J]. 生命科学, 2021, 33(2): 255-264.

HUANG Jin, LIANG Tao-bo, XU Heng-yi. Research Progress of Application of Digital PCR in Biological Detection[J]. Chinese Bulletin of Life Sciences, 2021, 33(2): 255-264.

[5] DUBE S, QIN Jian, RAMAKRISHNAN R. Mathematical Analysis of Copy Number Variation in a DNA Sample Using Digital PCR on a Nanofluidic Device[J]. PLoS One, 2008, 3(8): 2876.

[6] BHAT S, HERRMANN J, ARMISHAW P, et al. Single Molecule Detection in Nanofluidic Digital Array Enables Accurate Measurement of DNA Copy Number[J]. Analytical and Bioanalytical Chemistry, 2009, 394(2): 457-467.

[7] XU Xiao-li, PENG Cheng, WANG Xiao-fu, et al. Comparison of Droplet Digital PCR with Quantitative Real-Time PCR for Determination of Zygosity in Transgenic Maize[J]. Transgenic Research, 2016, 25(6): 855-864.

[8] WU Yu-hua, LI Jun, Li Xia-ying, et al. Copy Number and Zygosity Determination of Transgenic Rapeseed by Droplet Digital PCR[J]. Oil Crop Science, 2017, 2(2): 84-94.

[9] 冯兆民, 舒跃龙. 数字PCR技术及其应用进展[J]. 病毒学报, 2017, 33(1): 103-107.

FENG Zhao-min, SHU Yue-long. An Overview of Digital PCR[J]. Chinese Journal of Virology, 2017, 33(1): 103-107.

[10] 王子程, 郑继红, 万新军, 等. 应用于dPCR的大视场荧光显微检测系统的设计[J]. 光学技术, 2021, 47(1): 1-5.

WANG Zi-cheng, ZHENG Ji-hong, WAN Xin-jun, et al. Design of Fluorescence Microscopy Detection System with Wide Field of View for DPCR[J]. Optical Technique, 2021, 47(1): 1-5.

[11] WHALE A S, HUGGETT J F, TZONEV S. Fundamentals of Multiplexing with Digital PCR[J]. Biomolecular Detection and Quantification, 2016, 10: 15-23.

[12] 杨信廷, 孙文娟, 李明, 等. 基于K均值聚类和开闭交替滤波的黄瓜叶片水滴荧光图像分割[J]. 农业工程学报, 2016, 32(17): 136-143.

YANG Xin-ting, SUN Wen-juan, LI Ming, et al. Water Droplets Fluorescence Image Segmentation of Cucumber Leaves Based on K-Means Clustering with Opening and Closing Alternately Filtering[J]. Transactions of the Chinese Society of Agricultural Engineering, 2016, 32(17): 136-143.

[13] 刘聪, 董文飞, 张涛, 等. 微滴式数字PCR中低浓度荧光微滴分类[J]. 光学精密工程, 2018, 26(3): 647-653.

LIU Cong, DONG Wen-fei, ZHANG Tao, et al. Identification of Florescent Droplets at Low Concentrations for Droplet Digital PCR[J]. Optics and Precision Engineering, 2018, 26(3): 647-653.

[14] 刘聪, 董文飞, 蒋克明, 等. 基于改进分水岭分割算法的致密荧光微滴识别[J]. 中国光学, 2019, 12(4): 783-790.

LIU Cong, DONG Wen-fei, JIANG Ke-ming, et al. Recognition of Dense Fluorescent Droplets Using an Improved Watershed Segmentation Algorithm[J]. Chinese Optics, 2019, 12(4): 783-790.

[15] 黄鸿, 金莹莹, 李政英, 等. 基于分水岭及半监督最小误差重构的荧光微球分割及分类方法[J]. 中国激光, 2018, 45(3): 0307013.

HUANG Hong, JIN Ying-ying, LI Zheng-ying, et al. Fluorescent Microsphere Segmentation and Classification Based on Watershed and Semi-Supervised Minor Reconstruction Error[J]. Chinese Journal of Lasers, 2018, 45(3): 0307013.

[16] 李树力, 李金泽, 郭振, 等. 蜂窝状数字PCR微阵列荧光图像的信息提取[J]. 光学精密工程, 2020, 28(12): 2745-2755.

LI Shu-li, LI Jin-ze, GUO Zhen, et al. Extraction of Fluorescent Image Information from Cellular Digital PCR Microarray[J]. Optics and Precision Engineering, 2020, 28(12): 2745-2755.

[17] 刘丽, 孙刘杰, 王文举. 基于SVM的高通量dPCR基因芯片荧光图像分类研究[J]. 包装工程, 2020, 41(19): 223-229.

LIU Li, SUN Liu-jie, WANG Wen-ju. Classification of Fluorescent Images in High-Throughput DPCR Gene Chips Based on SVM[J]. Packaging Engineering, 2020, 41(19): 223-229.

[18] 曾新新. 彩色印刷套准标记的自动检测算法研究[D]. 北京: 北京工业大学, 2008: 10-13.

ZENG Xin-xin. Research on Automatic Register Detection Algorithm in Color Printing[D]. Beijing: Beijing University of Technology, 2008: 10-13.

[19] 张金萍, 刘杰, 李允公. 数学形态学在工件识别预处理中的应用[J]. 机械与电子, 2006, 24(1): 31-33.

ZHANG Jin-ping, LIU Jie, LI Yun-gong. Application of the Mathematical Morphology to Workpiece Recognition Preprocessing[J]. Machinery & Electronics, 2006, 24(1): 31-33.

[20] 赵磊, 徐泮林, 田梦娜, 等. 基于形态学的边缘提取算法[J]. 地理空间信息, 2020, 18(5): 130-132.

ZHAO Lei, XU Pan-lin, TIAN Meng-na, et al. Edge Extraction Algorithm Based on Morphology[J]. Geospatial Information, 2020, 18(5): 130-132.

[21] ABRÀMOFF M D, MAGALHES P J, RAM S J. Image Processing with ImageJ[J]. Biophotonics International, 2004, 11(7): 36-42.

Improved K-Means High-throughput dPCR Fluorescent Image Classification Algorithm

SUN Liu-jie, PANG Mao-ran

(University of Shanghai for Science and Technology, shanghai 200093, China)

The work aims to propose an improved K-means high-throughput dPCR fluorescent image classification algorithm to achieve high-precision classification of high-throughput dPCR fluorescent image positive points. Firstly, the gray value of the preprocessed fluorescent image was counted, and wave peak and valley adaptively were selected according to image brightness to determine cluster center. The pixel clusters were determined by Mahalanobis distance. Then, the broad classification results were processed by morphology opening-and-closing operations and deleting small area objects. Finally, the fine classification, location identification and counting were completed with the third connected domain statistics. In the experiment, 825 fluorescence images of four channels were selected to test. The average accuracy was 99.06%, and recall rate was 98.97%, showing good classification effect. The classification algorithm of improved K-means proposed in this paper can achieve high-precision classification and counting of high-throughput dPCR fluorescent images, and can be used for reference to other fluorescent image classification and recognition.

digital polymerase chain reaction;fluorescent image; K-means;positive points count

TP751

1001-3563(2022)07-0244-10

10.19554/j.cnki.1001-3563.2022.07.032

2021-05-28

上海市科学技术委员会科研计划（18060502500）

孙刘杰（1965—），男，博士，上海理工大学教授，主要研究方向为光信息处理技术、数字印刷防伪技术、图文信息处理技术。

责任编辑：曾钰婵