基于小波描述子的染色体自动识别方法研究
2011-09-13王海龙王文义
王海龙,王文义
(中原工学院计算机学院,河南郑州450007)
0 引言
染色体作为主要的遗传物质DNA载体,研究它的结构和功能是细胞遗传学必不可少的关键环节,其重要性受到了越来越多科学家的关注.
对染色体的分析与识别,主要是从生物方法培养的细胞涂片的显微镜图像出发,获取一个细胞全部染色体的配对核型图.传统的人工染色体分析是一项非常繁重的工作:医务人员必须把染色体的显微图片进行复制,剪下每个染色体,一个一个地进行比较、配对.近几年来,国外相继出现了一些染色体自动分析系统,虽然其中不乏效果较好的,但都不同程度的存在这样那样的问题,如对染色体重叠图像分割,存在染色体特征提取和分类困难等等,都直接影响到了分析系统的效果.另外,国外的这类设备价格一般都比较昂贵,我们国内的中、小医院很难承受.
笔者采用区域生长法分割出单个染色体,用小波描述子刻画单个染色体的形状特征,最后完成染色体分类,大大缩短了染色体的分析与识别所需时间.
1 系统概述
典型的染色体分析系统[1]工作流程如图1所示.其分析过程描述为:①染色体分割.通过分割染色体图像来获取单条染色体,以便进一步分析和匹配染色体.②特征提取.染色体特征主要有:染色体的形状特征描述(包括边界特征和区域特征),染色体的长、短臂长以及着丝粒指数等.③染色体配对.根据提取的染色体特征,采用合适的相似度计算方法对染色体进行配对分类,然后再由人工交互纠正.
图1 染色体图像分析系统结构Fig.1 Chromosome image analysis system structure
2 边缘检测的区域生长法分割染色体
由于Canny算子具有定位精度高、检测性能好等优点,笔者采用该算子来检测单条染色体边缘,提取独立染色体图像轮廓[2].首先用3×3高斯滤波模板与原始图像进行卷积,以平滑图像消除图像噪声.然后利用Sobel导数算子计算图像灰度沿x、y方向的导数Gx、Gy,并求出梯度的大小和方向,寻找图像中的可能边缘点.最后利用双阈值检测通过双阈值递归寻找图像边缘点,实现边缘提取.图2是在光学显微镜下的细胞染色体图像.图3则是对图2通过Canny算子得到的边缘检测.
对于图像灰度值变化不明显处,提取的边缘不一定连续,有断裂现象,不能形成封闭边缘.笔者采用传统的区域生长算法,选择染色体像素灰度值最大的点作为初始种子像素点,利用边缘像素点集合的平均灰度作为后续区域生长的判决条件来进行染色体图像分割[3].
利用像素邻域的概念,通过标注种子像素八连通域分量进而标注单个染色体,实现染色体图像中各条不同染色体的自动分离,还可以对较小的染色体或杂质实行筛除,从而保留需要用于进行识别的染色体[4].对图2经过分割处理后的单条染色体图像如图4所示.
3 染色体边界小波描述子提取
假设单条染色体图像的轮廓是XY平面上一条由N个点组成的数字化边界,其中每一个边界点用其坐标(xk,yk)表示.从任意点(x0,y0)开始,沿着逆时针方向遍历整个边界,依次经过坐标(x1,y1),(x2,y2),……,(xN-1,yN-1).考虑到单条染色体图像用64个点描述其形状已经可以满足.当边界点数大于64时,可通过等步长采样的方法得到64个点予以解决,而对于边界点N数小于64的情况,则需要进行插值处理.
Haar小波基实现简单,计算速度快,且滤波器更短,更容易刻画平面闭合曲线,因此笔者选择Haar小波基对单条染色体图像的轮廓曲线进行小波变换,求得小波系数可以作为服装轮廓的小波描述符[5].
对表示轮廓的64个点序列提取小波半径描述子算法的具体描述为[6]:①求单条染色体轮廓的形心;②求各个点对应形心的距离(半径);③对半径序列基于Haar函数进行6层的小波分解;④对小波变换后的结果,保留尺度系数,对每层补充细节的小波系数进行有选择的截断,作为单个染色体图像的描述符.
如果选择所有的小波变换系数作为半径描述符,计算量特别庞大.在实验中对得到的6层Haar小波变换系数,保留尺度系数,对补充细节的小波系数进行有选择的截断,以一定精度描述了原轮廓的特征,在这里取32个系数点,该特征矢量定义为:M=[c1,x2,…,c32].
4 染色体的配对
采用欧氏距离来计算单个染色体之间的相似度[7].使用小波半径描述子作为染色体分类的依据.两条染色体的匹配相似度计算公式如下:
式中:A,B表示任意两条染色体;CA(i)表示A染色体小波描述矢量的第i项;CB(i)表示B染色体小波描述矢量的第i项;Similar(A,B)表示A染色体与B染色体的相似度;当 Similar(A,B)接近1时表示A染色体与B染色体越相似,匹配度越高.
通过上述公式算出每条染色体与其它染色体的匹配相似度,实验结果如表1.从表中可以看出,染色体A1与染色体A2的匹配相似度最大,视为两者匹配;染色体A3与A5相匹配;染色体A4与A10匹配;染色体A6与A7匹配;染色体A8与A9匹配.实验结果表明,利用图像处理技术提取染色体的相关特征,可以比较满意地实现染色体的有效、正确匹配.
表1 图4中染色体匹配相似度Tab.1 Chromosome matching in figure 4
4 结论
利用图像分析技术进行染色体图像的自动分析和特征提取,最终实现染色体的自动配对.在人工作业情况下,一个熟练的工作人员完成一张染色体显微照片的分析工作至少需要1 d时间.若用笔者提出的分析技术则仅需要10 min,大大地提高了工作效率,减少人为因素对特征提取的干扰、有效提高染色体配对的效率和准确性.
笔者将小波变换运用到染色体的轮廓特征分析上,提取染色体轮廓半径序列,利用harr小波基对半径序列进行小波变换提取小波描述子作为染色体特征.结果表明:对于一幅染色体图像,在其单条染色体不出现交叉的情况下,利用所开发的染色体自动识别系统可以使染色体的正确配对率达到90%以上.
[1]陈晓华,俞昌,袁志强.人类染色体识别系统[J].计算机工程与应用,2002(10):231-233.
[2]李牧,闫继红,李戈.自适应Canny算子边缘检测技术[J].哈尔滨工程大学学报,2007,28(9):1002-1007.
[3]张泽彪,李式巨,程敏.图像区域标记和边沿检测的两步法[J].计算机工程与设计,2004,25(4):625-628.
[4]章毓晋.图像分析——图像工程:中册[M].北京:清华大学出版社,2005:87-91.
[5]王瑜,穆志纯,付冬梅.基于小波变换和规范型纹理描述子的人耳识别[J].电子学报,2010,38(1):241-243.
[6]刘仰龙,王从庆,高珏,等.基于小波描述子的水果果形分类[J].浙江大学学报:农业与生命科学版,2010,36(3):322-328.
[7]PIPER J,GRANUM E.On fully automatic feature measurement for banded chromosome classification[J].Cytometry,2005 10(3):242-255.