基于模糊聚类的微弱蛋白点分割算法*
2017-03-31黄发忠辛化梅
张 明 黄发忠 辛化梅 冷 严
(山东师范大学物理与电子科学学院 济南 250014)
基于模糊聚类的微弱蛋白点分割算法*
张 明 黄发忠 辛化梅 冷 严
(山东师范大学物理与电子科学学院 济南 250014)
通过分析凝胶蛋白图像的特点,提出一种基于模糊核C均值聚类(KFCM)分割算法的改进算法。首先使用引导滤波器对图像进行滤波并增强图像对比度,然后通过KFCM算法对图像聚类,最后采用最大隶属原则去模糊化,实现最优分割,在此过程中引入样本方差来计算σ值。凝胶蛋白图像分割实验表明,算法具有更好的自适应性和分割精度。
凝胶图像; 图像分割; 模糊聚类
Class Number TP391
1 引言
“蛋白质组学”这一概念是20世纪90年代中期由澳大利亚科学家Wilkins和Williams首次提出[1],蛋白质组为我们提供了更多关于活细胞的工作信息,在众多疾病的机理阐明和攻克等方面做出了重大贡献。双向凝胶电泳技术广泛的应用在蛋白质组学中,主要是根据蛋白质等电点和分子量差异,将不同种类的蛋白质进行高分辨率分离[2~3]。随后使用扫描设备对蛋白质凝胶进行扫描,得到数字化凝胶图像。在图像上蛋白质呈现出形状、大小和灰度各不相同的点,其中每一个点代表了一个特定的蛋白质。分割是图像分析的重要步骤,凝胶图像的研究需要从图像中提取出蛋白点并分析蛋白质的不同状态[4]。
国内外对于凝胶图像蛋白点的分割有一定的研究。基于边缘检测的分割算法[5],通过检测不同区域的边缘来进行分割,对于边缘定位精度和边界的确定有很好的分割效果,但易受到噪声和图像自身模糊程度的影响。毕于慧等[6]针对分水岭算法过分割现象,提出了基于分水岭拓扑地貌曲率的合并方法,该方法对于凝胶电泳图像更具针对性。张彦清等[7]提出的基于马尔科夫随机场的凝胶电泳图像分割算法,提高了对微弱蛋白点的分割,在一定程度上实现了对重叠蛋白点的分割。Rashwan S et.al.[8]将FCM算法和模糊关系应用于凝胶蛋白图像上,并且能够检测出更多的蛋白点。由于FCM算法对线性不可分的样本分离效果并不理想,文献[9~10]通过非线性映射,将样本从低维映射到高维特征空间,实现聚类。本文结合凝胶图像中蛋白点的特性,提出了一种基于模糊核C均值聚类的改进算法,并且给出了σ值确定方法。
2 改进的基于KFCM分割方法
2.1 模糊核C均值算法
模糊核C均值聚类算法[10~12]是将输入空间数据通过非线性映射到高维空间中。假设,输入的图像数据Xi,i=1,2,3,…,N在高维特征空间定义为Φ(Xj),j=1,2,…,M,其中Φ(·)是非线性映射函数:Φ:RP→Rq,p< (1) (2) KFCM算法的具体步骤: 1) 初始化参数,设置聚类数c,加权指数m(通常情况下m=2),迭代终止阈值ε,最大迭代次数T,迭代计数器l=0; 2) 初始化聚类中心v0; 3) 按照下式计算或更新隶属度矩阵: (3) 4) 按照下式计算或更新聚类中心: (4) 2.2 基于KFCM算法凝胶蛋白图像分割问题的实现 双向凝胶电泳图像中,蛋白点的边界与背景对比度较低,分布呈现多样性且分布不均,因此使用模糊核聚类算法对图像进行分割。核函数中的径向宽度σ定义为衰减系数,不同的参数值对图像的分割结果有很大的影响,但是σ的选择却没有明确的理论指导和固定的方法,通常情况下依赖于经验和人工尝试的办法进行选择,具有很大的随意性。 (5) 然后,使用蛋白点样本方差来合理的确定σ值: (6) 凝胶蛋白图像分割算法实现步骤: 1) 凝胶蛋白图像的预处理:采用引导滤波器对图像进行滤波并对滤波后的图像进行增强,增强图像的对比度; 2) 初始化参数:聚类数c=2,加权指数m=3,ε=0.0001; 3) 使用式(6)计算出核函数的径向宽度值; 4) 使用模糊核C均值算法对凝胶蛋白图像进行聚类。 5) 根据最大隶属度原则去模糊化,得到最终的分割结果。 本文主要使用模拟凝胶蛋白图像和真实凝胶图像进行实验测试,并与传统的FCM算法分割以及其他σ估计值分割算法进行实验比较。 3.1 模拟凝胶蛋白图像实验测试 首先在模拟凝胶图像中加入均值为0,方差为0.02的高斯噪声,在原始KFCM算法中σ的默认值为150。在图1模拟凝胶蛋白图像分割结果对比图中,(a)为表示加入噪声后的模拟凝胶蛋白图像,(b)为模糊C均值聚类(FCM)算法分割结果,(c)为原始KFCM算法分割结果,(d)为基于距离方差σ估计值并去噪后的算法分割结果,(e)为本文算法的分割结果。 图1 模拟凝胶蛋白图像分割结果对比图 根据模拟凝胶蛋白图像分割结果(b)~(e)来看,KFCM算法分割结果与距离方法分割结果分离出的模拟蛋白点的数量是一样的,FCM算法分割出的蛋白点最少,本文算法比其他几种算法分割出的点更多,并且对轻度重叠蛋白点也有较好的分离效果。 3.2 真实凝胶蛋白图像的实验测试 图2真实凝胶蛋白图像分割结果对比图中,对原始凝胶图像(a)进行预处理后的图像为(b),(c)为FCM算法对真实凝胶图像分割的结果,(d)为原始的KFCM算法对真实图像的分割结果,(e)为基于距离方差σ估计值对真实图像的分割结果,(f)为本文分割算法的实验结果。 对于真实的凝胶蛋白图像来说,从上述图像(c)~(f)的分割结果来看,本文算法与其他三种算法相比,能够分离相对较弱的蛋白点,因此分离出的蛋白点更多。但是对于一定具有重叠度的蛋白点不能很好的分割。 3.3 算法的分割结果评估 从图像分析可以发现,上述几种算法无论是对模拟还是真实的凝胶蛋白图像,在一定程度上都可以实现有效的分割,但是相比之下,本文的分割算法能够分割出更多的微弱蛋白点,提高了凝胶蛋白图像的分割效果。 表1是对上述几种算法分割结果的进行客观分析,主要通过分割精度、分割系数Vpc和分割熵Vpe[13]进行对比研究。 1) 分割系数的数学表达式表示为 (7) 2) 分割熵的数学表达式表示为 (8) 表1分别是在模拟和真实凝胶图像上对上述几种算法分割结果的客观分析比较,其中分割系数值越大,分割熵越小时,聚类分割达到最佳的效果。但这并非具有绝对性,结合分割精度,从整体上来看,本文提出的算法分割出来的蛋白点更多,提高了算法的分割精度,具有较高的准确性。 表1 上述几种算法分割结果的客观分析比较 本文结合凝胶蛋白图像的特点,提出了一种基于模糊核C均值聚类分割的改进算法,首先使用引导滤波器对图像进行滤波并增强滤波后图像的对比度,然后使用样本方差设置σ值并结合隶属度最大原则进行聚类分割,最终实现凝胶蛋白点的最优分割。实验结果表明,本文所提出的算法提高了消除噪声的能力,并且具有较高的分割精度,同时本文给出σ值确定的方法,避免了在不同凝胶蛋白图像中通过大量实验进行人为设定的麻烦,使得聚类具有自适应性,易于实现。 [1] Wilkins M R, Pasquali C, Appel R D, et al. From Proteins to Proteomes: Large Scale Protein Identification by Two-Dimensional Electrophoresis and Arnino Acid Analysis[J]. Nature Biotechnology,1996,14(1):61-65. [2] G?rg A, Weiss W. Chapter 2-Protein Profile Comparisons of Microorganisms, Cells and Tissues using 2D Gels[J]. Proteome Analysis, 2004:19-73. [3] Wilkins M R, Sanchez J C, Gooley A A, et al. Progress with proteome projects: why all proteins expressed by a genome should be identified and how to do it[J]. Biotechnology and Genetic Engineering Reviews,1996,13(1):19-50. [4] Tsakanikas P, Manolakos I. Effective denoising of 2D gel proteomics images using contourlets[C]//2007 IEEE International Conference on Image Processing. IEEE,2007,6:VI-269-VI-272. [5] Basak J, Chanda B, Majumder D D. On edge and line linking with connectionist models[J]. IEEE transactions on systems, man, and cybernetics,1994,24(3):413-428. [6] 毕于慧, 崔赛华. 基于分水岭算法的双向凝胶电泳图像分割[J].太原理工大学学报,2005,36(2):164-166. BI Yuhui, CUI Saihua. 2D-gel Electrophoresis Image Segmentation Algorithm Based on Watershed[J]. Journal of Taiyuan University of Technology,2005,36(2):164-166. [7] 张彦清,侯伟,李玲,等.基于改进MRF的凝胶图像分割算法[J].科技创新与应用,2014(7):1-2. ZHANG Yanqing, HOU Wei, LI Ling, et al. Gel image segmentation algorithm based on improved MRF[J]. Science and technology innovation and Application,2014(7):1-2. [8] RASHWAN S, FAHEEM T, SARHAN A, et al. A Relational Fuzzy C-Means Algorithm for Detecting Protein Spots in Two-Dimensional Gel Images[J]. Advances in experimental medicine and biology,2010,680:215-227. [9] Liao L, Lin T, Li B. MRI brain image segmentation and bias field correction based on fast spatially constrained kernel clustering approach[J]. Pattern Recognition Letters, 2008, 29(10):1580-1588. [10] Wu Z, Xie W, Yu J. Fuzzy c-means clustering algorithm based on kernel method[C]//Computational Intelligence and Multimedia Applications, 2003. ICCIMA 2003. Proceedings. Fifth International Conference on. IEEE, 2003: 49-54. [11] Girolami M. Mercer kernel-based clustering in feature space[J]. IEEE Transactions on Neural Networks, 2002, 13(3): 780-784. [12] 管洲洋.基于模糊C均值的医学图像分割改进算法研究[D].西安:西安电子科技大学,2014. GUAN Zhouyang. Research on improved algorithm of medical image segmentation based on fuzzy C-means[D].Xi’an: Xidian University,2014. [13] Bezdek J C. Mathematical models for systematics and taxonomy[C]//Proceedings of eigth international conference on numerical taxonomy, San Francisco. 1975: 143-166. Segmentation Algorithm of Weak Protein Spots Based on Fuzzy Clustering ZHANG Ming HUANG Fazhong XIN Huamei LENG Yan (School of Physics and Electronics, Shandong Normal University, Jinan 250014) An improved algorithm based on kernel fuzzy C-means clustering segmentation algorithm (KFCM) is proposed by analysis of the characteristics of protein gel image. First, the guide filter is used to enhance the image contrast. Then the KFCM algorithm is used for the image clustering. Finally, the maximum membership principle is applied for de-blurring and the optimal segmentation. In this process, the sample variance is introduced to calculate the value of sigma. Experiment results show that the algorithm has better adaptability and segmentation accuracy. gel image, image segmentation, fuzzy clustering 2016年9月7日, 2016年10月17日 国家自然科学基金(编号:61401259);中国博士后科学基金(编号:2015M582128)资助。 张明,女,硕士研究生,研究方向:信号与信息处理。黄发忠,男,硕士,副教授,研究方向:信号与信息处理。辛化梅,女,博士,副教授,研究方向:信号与信息处理。冷严,女,博士,讲师,研究方向:信号与信息处理。 TP391 10.3969/j.issn.1672-9722.2017.03.0233 凝胶蛋白图像分割仿真及分析
4 结语