基于颜色特征的常见舌质舌苔分类识别
2017-09-22梁金鹏张海英
梁金鹏,杨 浩,张海英
(1. 中国科学院大学 微电子学院,北京 100029;2. 中国科学院微电子研究所 新一代通信射频芯片技术北京市重点实验室,北京 100029;3. 中国科学院微电子研究所 健康电子研发中心,北京 100029)
基于颜色特征的常见舌质舌苔分类识别
梁金鹏1,2,3,杨 浩2,3,张海英2,3
(1. 中国科学院大学 微电子学院,北京 100029;2. 中国科学院微电子研究所 新一代通信射频芯片技术北京市重点实验室,北京 100029;3. 中国科学院微电子研究所 健康电子研发中心,北京 100029)
舌质、舌苔的自动分类识别是中医舌诊客观化的重要内容。针对6种常见的舌质、舌苔类型,基于其不同的颜色特征实现分类。舌象采集过程中,多种因素会引起图像颜色偏差,采用多项式回归的方法实现颜色校正。采用内积阈值和颜色聚类两种方法实现了舌体的分割,保留舌质、舌苔有效信息。最后针对舌象分类自身的特点,引入权值改进算法模型,使分类准确率得到了明显的提升。
颜色校正;图像分割;分类;舌诊
0 引言
中医舌诊看舌质、辨舌苔,通过分析判断患者的舌象类型,为中医“辩证论治,四诊合参”[1]提供重要的诊断依据。经过几千年的理论发展和应用实践,舌诊为中医发展做出了巨大的贡献。然而,传统的舌质、舌苔辨别,主要依赖于医生的主观判断,缺乏统一标准和量化指标,制约了舌诊的进一步发展,实现舌诊的客观化和现代化将成为未来的发展趋势。
随着信息技术的快速发展,尤其从上世纪八十年代起,中医和其他学科的科研人员相继开展了舌诊客观化的研究。中科大和安徽中医学院的孙立友[2]等人率先提出利用计算机图像识别技术进行舌诊客观化研究的理论构想。清华大学余兴龙[3]等根据模糊数学理论,确定定义域,对4种舌质实现分类识别。哈工大张大鹏等[4-5]分别对裂纹舌、舌下赘生物、点刺和瘀斑等特别舌象开展相关研究。沈兰荪[6]利用加权支持向量机(Support Vector Machine, SVM),加大重要样本权值,得到不错的舌质、舌苔分类结果。
图1 分类识别主体框图
针对舌象诊断中最为重要的舌质、舌苔类型判断,本文选取常见的6种舌质、舌苔类别,基于颜色特征的差异,实现自动分类识别,主体思路如图1所示。颜色作为舌质、舌苔分类的主要特征和依据,首先采用多项式回归对原始舌像进行颜色校正。对颜色校正后的图像结合内积投影和颜色聚类两种图像分割技术实现舌体的分割,保留舌质、舌苔有效信息。
基于舌象分类自身特点,采用改进的k近邻(K-Nearest Neighbor,以下使用KNN简称)算法作为分类器,增加最近邻样本权重提高分类准确率。本文按照以上几项内容分别展开介绍,最后给出结论。
1 舌像颜色校正
本文获取的原始舌像是通过中科院微电子研究所自制的舌诊仪采集得到,舌诊仪搭建了一个稳定、标准的采集环境(不赘述),基本呈现了舌象的真实颜色特征。考虑到光源、相机等因素在实际表现中的合理波动,会使得舌像产生轻微的颜色偏差,由于颜色特征对于本文舌质、舌苔分类识别的重要性,在分类之前首先对原始舌像进行颜色校正。
目前用于颜色校正的方法有矩阵法、支持向量回归[7]和神经网络[8]等,这些方法可以取得不错的校正效果,但计算复杂度较高。文献[9]采用一种简便的多项式回归方法,大大降低了计算量。本文在此基础上对多项式模型适当改进,取得了计算复杂度和校正效果的平衡。多项式回归借助组合标准色卡(采用德国RAL K7系列,选取10种色彩),选用合适的多项式组合模型线性拟合,完成色卡输出图像RGB到标准色卡真实RGB的转换,并求解出转换系数。
具体求解过程如下,将第i(i取1~10)个色块的实际RGB值分别记为Ri、Gi、Bi,maj(a取1~3,j取1~16)表示转换系数,选用项数为16的多项式组合:{1,R,G,B,RG,RB,GB,R2,G2,B2,R2G,G2B,B2R,R2B,G2R,B2G},xji表示第i个色块对应的多项式项。则有:
(1)
式(1)矩阵形式表示为:
A=M·X
(2)
其中,A是维数为3×10的色卡真实RGB矩阵,
(3)
M是维数为3×16的待求转换系数矩阵,
(4)
X是维数为16×10的多项式矩阵,
(5)
由式(2)可以进一步推导出:
M=(A·XT)·(X·XT)-1
(6)
将求得的转换系数矩阵应用于新采集的舌像,即可实现舌像的颜色校正:
XO=M·XI
(7)
其中,XI是待校正的16×N维舌像矩阵,N为舌像有效的像素个数,XO是3×N的输出图像矩阵,即经过颜色校正的舌像。采用多项式回归校正舌像颜色,得到了令人满意的效果,实现了计算量和校正效果的平衡。
2 舌体分割
采集到的舌像不可避免地会含有舌体以外的其他图像信息,因此,在进一步进行舌象识别之前,必须先实现舌体分割,保留舌质、舌苔的有效部分。本文重点关注采集舌象的舌质颜色和舌苔颜色特征,对舌体分割的边缘要求并不严苛,能够保留出舌体的主要部分即可。
基于区域的分割方法按照特定条件直接寻找、分割区域,具体算法有区域生长和区域分离与合并算法[10]。基于区域分割可以从单个像素出发,合并需要的分割区域,对复杂场景的图像或者先验知识不足的图像分割效果较理想。基于边缘检测的分割方法通过检测不同区域的边缘的差异来分割图像,它可以作为区域分割的有效补充,优化图像分割效果。本文同时采用区域分割和边缘分割的思想,完成舌体的有效分割,分割流程如图2所示。
图2 舌体分割流程图
内积阈值分割。对采集的舌像做归一化处理,在舌体内取一个目标点,其余像素点RGB与目标点RGB分别做内积,进行内积阈值判断,内积较大的像素点置1,其余置零,完成内积结果的二值化矩阵。将二值矩阵与图像对应相乘,完成相应像素点的保留和清除。在二值图上逐点移动比较,根据结果进行膨胀处理。用膨胀后的二值图像与内积投影后的图像对应相乘,完成膨胀,得到内积阈值舌像分割结果。
颜色聚类分割。为精细区分舌体边缘和脸、唇等部位,采用颜色聚类分割舌体。设置颜色聚类分割区域的个数和聚类的次数,对图像进行颜色聚类,反复多次聚类后,判断哪个区域中含有舌,完成舌体的颜色聚类分割,得到另一种舌体分割结果。
采用内积投影和颜色聚类分别得到舌体分割结果,对二者进行或操作,取得了理想的舌体分割效果。分割前、后的舌像分别如图3和图4所示。
图3 分割前舌像
图4 分割舌像结果
3 常见舌质、舌苔分类识别
通过与陆军总医院合作,采集第一手患者舌象信息,到目前为止,根据实际采集到的舌象类型,在医生的指导下,整理出3种常见的舌质和3种常见的舌苔类别,见表1。
表1 舌质、舌苔分类表
将采集的图像按照第一节的方法进行颜色校正,经过分析不同类别舌质、舌苔的颜色特征,发现舌象识别这一具体场景具有两个比较典型的特点:首先,不同类别的舌象在RGB空间内分布较为接近,甚至有区域交叠现象;其次,不同类别的舌象常见程度不同,产生不同类别样本不均衡现象。基于上述舌象分类的特点,考虑采用KNN算法作为分类器。
3.1传统KNN模型
选用KNN模型的原因在于,对于分类区域存在交叉重叠的情况,KNN的分类效果要优于支持向量机、决策树等其他分类算法,下面对传统KNN算法简单分析梳理。
KNN是一种简单、有效的分类方法,模型包含三个基本要素[11]:距离度量、k值和分类决策规则,当三要素确定后,对于任何一个新的输入实例,它所属的类唯一确定。给定一个训练数据集,对新的输入实例,计算距离度量筛选其k个最近邻的训练实例,统计k个实例的类别,通过少数服从多数确定输入实例的类别。KNN可以比较有效地解决舌象分类区域交叉重叠的问题,但由于传统的KNN赋予k个近邻样本同样的权重,在样本数量不均衡时,不同的k值设定会使得分类结果偏向于大数目样本,降低了分类准确率。为此,本文在传统KNN模型的基础上加以改进。
3.2改进KNN模型
针对不同舌象样本数量不均衡的问题,提出改进KNN模型。改进模型的核心思想在于,赋予k个近邻样本不同的权重,增加较近样本权值,减小较远样本权值,改善分类识别效果。对于KNN的三要素,分别具体说明。选取RGB空间的欧式距离作为判断的距离度量:
(8)
将不同的权重W设定为一个与距离L相关的量:
(9)
对于每一类别的舌象,按照医生的指导,选择、分割典型的样本构成训练样本集。为了保持每个训练样本的典型特征,不被过多噪声干扰,每个训练样本选择2×2像素大小。舌象分类识别测试时,首先进行舌像分割,然后逐像素判断识别所属的舌象类型,最后给出识别结果。采用交叉验证法来选取最优的k值。
3.3测试结果
截止到目前为止,共采集到舌像566张,随机选取其中431张用来训练,对剩余135张舌像测试。
分别采用传统的KNN模型(等权值)和改进的KNN模型,测试结果如表2。
表2 算法分类准确率对比
由表2可以看出,通过引入不同的权值,算法识别准确率得到很大的提升。尤其对于区域交叠的淡红舌和红舌、薄白苔和白厚苔,准确率提高更为明显。
4 结论
本文针对常见的6种舌质、舌苔,基于类别之间颜色特征的差异,实现舌象的分类识别。首先对采集的舌像采用多项式回归的方法进行颜色校正,然后采用内积阈值和颜色聚类两种方法实现了舌体的分割,取得了满意的效果。最后针对舌象分类识别自身的特点,引入权值改进算法模型,使分类准确率得到了明显的提升。当然,还有一些工作需要不断完善,包括增加舌象分类的范围,增加数据量以及对权值计算方法的优化等。
[1] 朱文锋.中医诊断学[M].北京:中国中医药出版社,2004.
[2] 孙立友,程钊,谢虎臣,等.利用计算机图像识别技术进行舌诊客观化研究的探讨[J].安徽中医学院学报,1986,5(4): 5-7.
[3] 余兴龙,谭耀麟,堂子民.中医舌诊自动识别方法的研究[J].中国生物医学工程学报,1994,13(4):336-343.
[4] 杨朝辉,张大鹏,李乃民. 裂纹舌图像的核假彩色变换及其纹线提取[J]. 计算机辅助设计与图形学学报,2010,22(5):772-776.
[5] 朱焕超,闫子飞,张大鹏,等. 舌下赘生物轮廓提取方法初步研究[J]. 高技术通讯,2014,24(5):498-505.
[6] 张新峰,沈兰荪. 加权SVM在中医舌象分类与识别中的应用研究[J]. 中国生物医学工程学报,2006,25(2):230-233.
[7] ZHANG H Z,WANG K Q,JIN X S, et al. SVR based color calibration for tongue image[C]. Machine Learning and Cybernetics, 2005. Proceedings of 2005 International Conference in GuangZhou:IEEE,2005:5065-5070.
[8] CHEUNG V,VESTLAND S,CONNAH D, et al. A comparative study of the characterisation of color cameras by means of neural networks and polynomial transforms[J]. Coloration Technology,2004,120(1):19-25.
[9] 王永刚,王爱民,沈兰荪.舌象分析仪中舌色重现方法的研究[J].照明工程学报,2001,6,12(2):4-10.
[10] 许新征,丁世飞,史忠植,等.图像分割的新理论与新方法[J].电子学报,2010,38(Z1):76-82.
[11] 李航. 统计学习方法[M]. 北京:清华大学出版社,2012.
The classification of common tongue body and tongue coating based on the feature of color
Liang Jinpeng1,2,3, Yang Hao2,3, Zhang Haiying2,3
(1. School of Microelectronics, University of Chinese Academy of Sciences, Beijing 100029, China; 2. Beijing Key Laboratory of Radio Frequency IC Technology for Next Generation Communications,Institute of Microelectronics of Chinese Academy of Sciences, Beijing 100029, China;3. R&D Center of HealthCare Electronics, Institute of Microelectronics of Chinese Academy of Sciences, Beijing 100029, China)
Automatic classification of tongue body and tongue coating is one of the important contents of the tongue diagnosis. Six kinds of common tongue body and tongue coating are classified based on their different color characteristics.Color correction is achieved by polynomial regression, at the same time, tongue segmentation is achieved by inner product threshold and color clustering. K-nearest neighbor with different weight is introduced to improve the accuracy of classification.
color correction; image segmentation; classification; tongue diagnosis
TP391
:A
10.19358/j.issn.1674- 7720.2017.17.030
梁金鹏,杨浩,张海英.基于颜色特征的常见舌质舌苔分类识别[J].微型机与应用,2017,36(17):102-105.
2017-03-15)
梁金鹏(1992-),男,硕士研究生,主要研究方向:机器学习、图像处理。杨浩(1978-),通讯作者,男,博士,副研究员,主要研究方向:健康电子设备、物联网技术。E-mail:yanghao@ime.ac.cn。张海英(1964-),女,博士,研究员,主要研究方向:健康电子技术。