APP下载

一种2型糖尿病中医证型的舌图像识别方法

2016-02-18阚红星张璐瑶董昌武

中国生物医学工程学报 2016年6期
关键词:舌体舌象舌苔

阚红星 张璐瑶 董昌武

1(安徽中医药大学医药信息工程学院, 合肥 230012)2(安徽中医药大学中医临床学院, 合肥 230012)

一种2型糖尿病中医证型的舌图像识别方法

阚红星1#张璐瑶1*董昌武2

1(安徽中医药大学医药信息工程学院, 合肥 230012)2(安徽中医药大学中医临床学院, 合肥 230012)

舌诊是2型糖尿病辨证方法之一,为降低因外界光线、医生经验等因素造成的临床2型糖尿病舌象诊断误差,提出一种2型糖尿病中医证型的舌图像识别方法。首先,通过色差校正,获得校正后舌象图像;其次,基于不同颜色空间特性,运用快速K均值聚类方法分离图像背景区域与舌体区域,再对舌体区域图像运用Ohta色度阈值法分离出舌质区域和舌苔区域;然后,根据2型糖尿病3种证型的舌象特征,提取舌体、舌苔及舌质区域的颜色、裂纹和胖大特征值;最后,使用随机森林作为分类器训练识别数据,并与支持向量机的方案进行对比。通过对218例数据训练识别,得出随机森林方法平均识别准确率为90.37%,比支持向量机方法提高了10.74%。结果表明,在2型糖尿病中医证型分类识别方面,随机森林方法更准确,且提出的舌图像识别方法可以实现2型糖尿病的中医证型识别。

2型糖尿病;中医证型;舌图像识别;随机森林

引言

传统的中医舌诊依赖于外界光线、医生经验以及诊断知识,使得诊断结果往往具有主观性,重复性差,这给舌诊的临床诊断、科学研究等工作带来诸多不便。近几年,舌诊客观化研究受到普遍重视,且已有工作证明图像分析技术用于舌诊客观化是可行的[1]。目前,舌诊客观化侧重于舌图像分析处理基础研究和基于颜色特征的某一疾病不同类别舌图像分类研究[2-4]。近来,还有些学者关注特殊舌体的图像识别研究,如齿痕舌特征提取[5]、裂纹舌识别[6]、胖瘦舌分析[7]等。

当前的舌象客观化研究从不同侧面促进了中医舌象诊断的发展,然而还没有人利用舌象识别技术对中医的“证型”进行研究。实际上,中医的精髓就是辨证论治,医生通过辨别“证型”,得到疾病的病因、性质、部位以及邪正之间的关系,然后才能准确施治。因此,利用舌图像识别技术研究患者中医证型,在临床上具有重要意义。另外,目前舌图像分类识别大都采用支持向量机等单分类器方法[8]。支持向量机方法在小样本高维数据上具有分类精度高、鲁棒性强等优点,可以较好地解决二分类识别问题[9-10]。但是,在多分类问题上,由于支持向量机方法通过多个二分类器组合方式处理多分类问题,使得计算量加大,识别效果和性能是否满意还有待进一步验证。随机森林是一种组合分类器,分类精度比支持向量机等单分类器高,具有不易过拟合、抗噪声能力强、训练速度快且易实现等特点[11],适合中医证型复杂、多样的识别要求。

针对目前中医舌诊客观化研究的不足以及中医临床诊断中辨证论治的需要,笔者提出一种2型糖尿病中医证型的舌图像识别方法。首先根据中医舌诊与2型糖尿病中医证型的辩证关系,选择2型糖尿病中较为典型的3种中医证型作为目标证型,运用图像处理方法提取出舌图像颜色、纹理、边缘等多种特征信息,并使用随机森林法对多种特征信息分类,以达到2型糖尿病3种中医证型识别的目的。

1 方法

2型糖尿病中医证型的舌图像识别流程包括色差校正、舌图像分割、特征提取和分类器识别4个阶段,具体流程如图1所示。

图1 2型糖尿病中医证型舌图像识别算法流程Fig.1 T2DM syndrome tongue image recognition algorithm flow chart

1.1 数据采集

1)数据采集:采集218例2型糖尿病患者舌象彩色图像和临床医生现场证型辨别结果。其中,气阴两虚夹瘀证舌象图像130例,热盛伤津证59例,阴阳两虚证29例。受试者均签署知情同意书。气阴两虚夹瘀证和热盛伤津证属于2型糖尿病早中期证型[12],这两种证型的样本量占总样本量的76%。而阴阳两虚证属于中晚期证型[13],样本量整体偏少。另外,有数据表明,相比热盛伤津证,临床气阴两虚夹瘀证型患者人数偏多[12]。

2)入选标准:年龄 (62.3±15.7) 岁(30~85岁),早晨空腹情况下血糖值高于6.0的已确诊2型糖尿病患者。

3)拍摄要求:拍摄模式调为自动白平衡模式,患者室内正对窗口端坐,自然伸舌,舌面平展,舌尖自然下垂,色差校正色卡举在相机视线内,拍摄舌图像。

1.2 证型类别及舌诊标准

本研究参考《中药新药临床研究指导原则》[14]中给出的消渴病证型诊断标准,以热盛伤津证、气阴两虚夹瘀证和阴阳两虚证作为研究目标证型。

1)热盛伤津证:舌质红,舌苔黄。

2)气阴两虚夹瘀证:舌质暗红、红绛,苔薄白、薄黄,或有裂纹。

3)阴阳两虚证:舌质淡白,舌苔白,舌体有齿痕。

1.3 色差校正

(1)

1.4 舌图像分割

舌图像分割包括舌体分割、舌质和舌苔分离两个部分。

1.4.1 舌体分割

舌图像在不同颜色空间下,像素灰度值分布不同。舌体分割则根据此特性将舌图像从RGB颜色空间分别转为HSI颜色空间和YCbCr颜色空间,提取I分量和Cb分量的灰度图像并进行与运算处理,获得舌体初始轮廓;然后对初始轮廓进行Otsu阈值分割,提取出舌体区域;由于舌体区域边缘不够平滑,且舌中区域因亮斑存在孔洞现象,因此使用形态学开运算进行修补处理,最后提取到完整的舌体轮廓。

1.4.2 舌质舌苔分离

舌苔有厚薄之分,需要采用两种方法结合的方式解决苔质分割问题。对厚舌苔图像,舌苔区域颜色与舌质颜色区别较大,适合使用聚类方法。采用快速K均值聚类方法,可以较好地分离舌苔与舌质区域。对于薄舌苔图像,由于舌苔覆盖面大且颜色浅,采用基于Ohta色度阈值法,将RGB图像颜色分量线性转换,得到不同色度分量,完成苔质区域的分离。Ohta色度阈值与RGB转换方式为

(2)

对I′分量图像二值化处理,可提取薄舌苔图像苔质区域。

1.5 特征提取

图像特征提取的好坏,直接影响分类识别的准确度。参照本文1.2节舌诊标准,3种证型舌象可通过苔质颜色、有无裂纹、有无齿痕等特征区分,本研究选择颜色特征、裂纹特征、齿痕特征作为舌图像分类识别特征。为方便接下来的分类识别,这里用Mj表示第j(j=1,2,…,n)个特征。

1.5.1 颜色特征提取

舌图像颜色特征包括两部分:舌质颜色和舌苔颜色。由于数码相机是基于三基色叠加原理拍摄彩色图像,对颜色的冷暖、饱和度等信息缺失。在舌图像颜色特征提取过程中,通常选择HSI颜色空间作为颜色特征空间。常见的舌质颜色有暗红色、红色、淡红色、淡暗色和紫色,舌苔颜色常见有白色、黄色。分析3种证型舌质颜色和舌苔颜色可知,其中5种舌质颜色可通过色调分量(H)和饱和度(S)区分,舌苔颜色可利用色调分量(H)区分。标记舌质颜色H、S特征分量分别为M1、M2,舌苔颜色H分量为M3。

1.5.2 裂纹特征提取

裂纹舌是舌面见多少不等、深浅不一、形状各异裂纹的一种特殊舌。裂纹一般出现在舌中区域,如果在整张舌图像背景下选取裂纹特征,往往提取不到。因此,裂纹特征提取的设计思想是设定一个裂纹检测区域,通过检测裂纹区域中像素分布比例来判断有无裂纹。首先,将舌象图像划分为9小块,选取第2行第2列区域作为裂纹检测区域;然后,通过快速K均值聚类方法,得到裂纹区域;最后,计算裂纹区域像素点数占整张舌象图像像素个数的比例。没有裂纹的舌象图像,裂纹区域像素点数极低或者占大半以上,其裂纹比例接近0或高于50%;有裂纹的舌象图像,裂纹区域的像素比例区间为[0.1~0.45],标记裂纹比例特征为M4。

1.5.3 齿痕特征提取

齿痕舌是舌体区域出现齿痕情况,一般位于舌体下半部分的两侧。齿痕舌体边缘形状复杂,可以通过舌体的圆形度特征,检测舌体边缘是否存在齿痕情况。圆形度r的计算公式为

(3)

式中,A为目标的面积,T为目标周长。

假设(xi,yi)为舌体边缘点坐标,N为像素总数目,则周长T的计算公式为

(4)

舌体下半部分越趋于圆形,其圆形度系数r越趋向于1;舌体形状越不规则,r值越大,可反映被测量边界的复杂程度。通过圆形度特征,可以有效检测出齿痕舌,标记为M5。

1.6 数据分组

在分类识别之前,需对样本特征数据分组,具体步骤如下。

步骤1:从气阴两虚夹瘀证(130例)中,随机抽取65例作为本批次气阴两虚夹瘀证训练数据集Tr1,剩下65例作为本批次气阴两虚夹瘀证测试数据集Te1;从热盛伤津证(59例)中,随机抽取30例作为本批次热盛伤津证训练数据集Tr2,剩下29例作为本批次热盛伤津证的测试数据集Te2;从阴阳两虚证(29例)中,随机抽取15例作为本批次阴阳两虚证训练数据集Tr3,剩下14例作为本批次阴阳两虚证测试数据集Te3。

步骤2:将Tr1、Tr2、Tr3组成本批次训练样本集数据Traindata1,将Te1、Te2、Te3组成本批次测试样本集数据Testdata1,得到第一批实验数据Data1。

步骤3:参照步骤1、2,继续抽取特征数据4次,共得到5组实验数据(Data1,Data2,Data3,Data4,Data5)。

1.7 随机森林分类识别

随机森林(random forest, RF)是一种集成学习算法,是由多个决策树合并在一起形成的组合识别模型[11]。它的基本原理是采用递归分割思想,将当前样本集分割成两份子样本集,接着对子样本集进行递归分割,直到最后样本集只有一个样本或同为一个类别。

随机森林分类识别分为两个过程:根据训练集数据训练分类模型和根据分类模型识别测试集类别。总样本按照随机抽选方式分为训练集S和测试集T,每例样本包含M1~M5属性变量和一个L标签变量。随机森林分类识别器的算法步骤如下:

1) 在训练集S中,有放回地随机抽取样本N个;

2) 输入特征参数个数mtry,该值可以由用户自行设置,默认值为特征变量总维数(mall)的平方根值;

3) 设定抽取次数ntree,即需要多少棵决策树完成分类;

4) 训练完成,生成随机森林模型model;

5) 将测试集数据输入model中进行预测,模型返回的预测数据值即为测试集的分类结果。

在地基的施工过程中,地下水问题是常见的问题之一。如果对地下水的处理方式不当,不仅会影响地基的质量,还会影响民用建筑的安全。在地基或桩基础的施工过程中,若地下水位较高,应采用合适的排水或止水方法。例如,可采用多桩抽水的方式降低地下水位。而地下水位较低时,可采用单桩抽水的方式,以降低地下水的水位。

鉴于3种证型训练测试数据均属于小样本数据,为客观评价随机森林法识别性能的优劣,本研究选择支持向量机法(supportvectormachine,SVM)作为对照组。

1.8 分类方法性能对比

为评价分类方法识别性能,一般以灵敏度(sensitivity, SE)、特异性(specificity, SP)和准确率(accuracy, ACC)等参数表达[17]。对于多分类的分类方法,则在每个类别的基础上,分别运用上述参数进行评价。

对于每幅舌象图像,若医生诊断某样本属于某一证型,分类算法识别出相同或者不同的结果,则分别称为真阳性(TP)和假阴性(FN);同理,若医生诊断某样本不属于某一证型,分类算法给出相同或不同的结果,则分别称为真阴性(TN)和假阳性(FP)。灵敏度(SE)、特异性(SP)、准确率(ACC)等参数的计算公式为

(5)

(6)

(7)

2 结果

在舌图像色差校正阶段,统一色差值为7.07。在舌图像分割和苔质分离阶段,设定聚类区域数目为3,得到舌体分割结果如图2所示,得到苔质分离结果如图3所示。

图2 舌体分割。(a)舌图像;(b)舌体初始轮廓;(c)二值化后舌体轮廓Fig.2 Tongue body segmentation. (a)Tongue image; (b) Initial outline of tongue body; (c) The outline of tongue body after binarization

图3 苔质分离(上为厚舌苔图像,下为薄舌苔图像)。(a)舌体图像;(b)舌苔区域;(c)舌质区域Fig.3 Tongue coating and tongue nature separation (The top are thick coating tongue images, the bottom are thin coating tongue images). (a)Tongue body image; (b) Tongue coating area; (c) Tongue nature area

2.1 特征提取

表1 舌质颜色特征值

表2 舌苔颜色特征值

表3 裂纹特征值

表4 齿痕特征

2.2 证型分类识别

对5组数据分别用随机森林法和支持向量机法训练识别,得到实验结果见表5、6。

表5 随机森林法分类识别结果

表6 支持向量机法分类识别结果

观察表5、6数据可知,随机森林法的5组数据识别准确率均高于支持向量机法的准确率。本研究以5组数据平均识别率表示分类方法的识别准确度,支持向量机法的平均识别准确率为79.63%,随机森林法的平均准确率为90.37%,比支持向量机法提高了10.74%。

对两种分类方法进行灵敏度、特异性和识别准确率参数测试,得到的结果见表7。

表7 随机森林法与支持向量机法比较

观察表7的数据,在气阴两虚夹瘀证的分类识别过程中,随机森林法与支持向量机法的灵敏度分别为95.38%和93.85%,说明两种方法正确识别气阴两虚夹瘀证样本量相当;支持向量机法的识别准确率(69.32%)高于随机森林法的识别准确率,表明在整个测试集样本中支持向量机法识别出的气阴两虚夹瘀证样本量多。然而在特异性方面,随机森林法的特异性值高于支持向量机法的特异性值,说明支持向量机法将非气阴两虚夹瘀证中错分为气阴两虚夹瘀证的样本量偏多,因而造成支持向量机法的准确率高于随机森林法的准确率。这一情况表明,支持向量机法在气阴两虚夹瘀证模型训练中出现了过拟合问题。

在热盛伤津证和阴阳两虚证的分类识别过程中,在灵敏度、特异性和准确率方面,随机森林法均高于支持向量机法,表明对热盛伤津证和阴阳两虚证的识别随机森林法更准确。

综合比较表5~7数据,得出在2型糖尿病3种中医证型分类识别问题上,随机森林法的性能优于支持向量机法的性能。

实验对两种分类方法正确分类识别的结果展开分析,得到相同类别标签的数据包含着不同特征组合,如表8所示。

表8 舌象分类结果

气阴两虚夹瘀证多见于疾病早中期,阴虚火旺伤阴耗气,导致气阴两虚发生,气虚运血无力,阴虚燥热,津亏血少导致血瘀,造成舌象上舌质颜色偏暗,舌苔多主白色,或有裂纹舌、齿痕舌出现。热盛伤津证多见于疾病初期,由于阴津亏耗,燥热偏盛造成舌质偏红、舌苔黄或有裂纹舌出现。阴阳两虚证则属病程较长者,病久则以阴虚为主,阴损及阳,舌象以淡舌为主,舌苔白,或有齿痕舌。表8中的3种证型舌象特征与特征组合规律相符合,说明本研究的分类识别结果符合临床2型糖尿病中医证型舌诊规律,实验结果具有一定的科学参考价值。

3 讨论和结论

本研究首次尝试运用图像处理和机器学习方法,对舌图像进行中医证型识别,并取得了令人满意的结果。这与以往的中医证型自动化识别研究[18-19]不同,选用的为2型糖尿病患者舌图像特征,表明运用图像识别技术可以实现中医证型的“自动”识别,弥补了当前舌诊客观化研究的不足。另外,本研究在特征提取阶段提出了设定裂纹检测区来提取裂纹特征,该方法比传统裂纹舌检测方法[20]更简便、有效;在分类识别阶段,发现在样本分布不均衡情况下,支持向量机法容易出现过拟合问题,而随机森林法识别性能较优,最后得出在多分类不均衡分布样本识别问题上,随机森林方法更适合,验证了文献[21-22]的观点。

然而,本研究也存在不足之处:样本量少的证型错分率较高。由于阴阳两虚证属于糖尿病晚期证型,样本量总体偏少,分类器无法准确学习。为提高不均衡样本证型的识别准确率,今后还需改进识别方法,进一步完善2型糖尿病中医证型舌图像识别的研究。

本研究从舌诊与2型糖尿病中医证型之间关系的角度出发,提出一种2型糖尿病的中医证型舌图像识别方法:首先对舌图像做色差校正和图像分割处理,然后针对不同证型舌象特点,逐步提取苔质区域颜色特征、舌体区域裂纹和齿痕特征,最后利用随机森林构建分类模型,完成2型糖尿病3种证型分类识别。在研究思路方面,提出根据舌图像特征识别2型糖尿病3种中医证型,比以往单证型识别的临床研究意义更大;在研究方法方面,将支持向量机法作为对照组,得出随机森林法识别性能更优的结论,验证了本研究提出的2型糖尿病中医证型识别方法可行、有效。

但需要注意的是,总样本中的阴阳两虚证样本量较少,且总体特征数目不高,随机森林方法可否在大样本数据集上有如此优秀的分类准确率是后续研究的内容。还有,舌诊对2型糖尿病中医证型辨证有较大影响,但不代表仅凭舌诊就可确诊其中医证型,因此临床“辨证”与实验舌诊分类结果存在一定偏差是可以理解的。再者,临床医生“辨证”时常以患者主诉为基准,结合舌诊和脉诊等综合辩证,在今后的舌诊客观化研究中,如果能加入患者主诉信息,其识别精准度应该会更高,更符合临床“辨证”规律,这也是笔者下一步的研究方向。

[1] 徐贵华,王忆勤,李福凤. 计算机技术在中医舌象客观化研究中的应用进展[J]. 上海中医药大学学报,2005,19(2):56-59.

[2] 张利,许家佗,何太文. 舌象图像分割技术的研究与应用进展[J].中华中医药杂志,2010,25(4):565-567.

[3] 岳小强. 舌质颜色的模式识别及原发性肝癌患者舌色的临床研究[D]. 上海:第二军医大学, 2005.

[4] 师晶丽,沈祥立,张大成,等. 舌诊客观化图像识别在原发性肾小球疾病辨证分型的研究[J]. 中国中医基础医学杂志,2009,15(2):120-122.

[5] 朱穆朗玛,陆萍,夏春明,等.基于道格拉斯-普克法提取55例齿痕舌图像特征研究[J]. 中华中医药学刊,2014,32(9):2138-2140.

[6] 覃海松,黄忠朝,赵于前,等. 一种新的MLBP-Otsu算法及在舌裂纹分割中的应用[J]. 计算机工程与应用,2014,50(23):151-155.

[7] 张康,金石,杜建强,等. 基于图像的舌体胖瘦分析[J]. 时珍国医国药,2014,25(5):1263-1266.

[8] 吴喜庆,陆小左. 中医客观化疗效评价研究进展[J]. 现代中西医结合杂志,2014,23(13):1475-1477.

[9] 焦月,张新峰,卓力. 中医舌象样本分类中加权SVM的应用研究[J]. 测控技术,2010,29(5):1-4.

[10] 胡康达,符红光,孔祥振. 分级聚类支持向量机在中医舌像分类中的应用[J]. 计算机应用,2010,30(S2):272-273.

[11] Breiman L. Random forest [J].Machine Learning, 2001, 45(1):5-32.

[12] 淦家荣,陈岳祺. 2型糖尿病中医辨证分型研究[J]. 云南中医学院学报,2012,35(5):41-45.

[13] 严倩华,余江毅. 2型糖尿病诊治研究进展[J]. 实用中医药杂志,2010,26(2):130-132.

[14] 郑筱萸. 中药新药临床研究指导原则(试行)[M]. 北京:中国医药科技出版社,2002:233-237.

[15] Chang CC, Lin CJ. Libsvm: a library for support vector machines[CP/OL].http://www.csie.ntu.edu.tw/~cjlin/libsvm,2009-08-16/2015-04-04.

[16] Hsu CW, Chang CC, Lin CJ. A practical guide to support vector classification [J]. 台北:台湾大学资讯工程学系, 2003, 67(5):1-12.

[17] Akobeng AK. Understanding diagnostic tests 2: Likelihood ratios, pre- and post-test probabilities and their use in clinical practice [J].ACTA Paediatrica, 2007, 96(4):487-491.

[18] 许朝霞,王忆勤,颜建军,等. 基于支持向量机和人工神经网络的心血管疾病中医证候分类识别研究[J]. 北京中医药大学学报,2011,34(8):539-543.

[19] 徐璡,许朝霞,许文杰,等. 基于贝叶斯网络原理的835例冠心病病例中医证候分类研究[J]. 上海中医药杂志,2014,48(1):10-13.

[20] 施展,周昌乐. 舌象裂纹提取及特征分析[J]. 计算机科学与发展,2007,17(5):245-248.

[21] 李建更,高志坤. 随机森林针对小样本数据类权重设置[J]. 计算机工程与应用,2009,45(26):131-133.

[22] 尹华,胡玉平. 基于随机森林的不平衡特征选择算法[J]. 中山大学学报(自然科学版),2014,53(5):59-65.

A Tongue Image Recognition Method Based on Type II Diabetes Traditional Chinese Medicine Syndrome Classification

Kan Hongxing1#Zhang Luyao1*Dong Changwu2

1(SchoolofMedicalInformationTechnology,AnhuiUniversityTraditionalChineseMedicine,Hefei230012,China)2(ClinicalCollegeofTraditionalChineseMedicine,AnhuiUniversityTraditionalChineseMedicine,Hefei230012,China)

Tongue diagnosis is one of the methods of type II diabetes traditional Chinese medicine (TCM) syndrome differentiation. In order to reduce the diagnostic deviation caused by external light and the doctor′s experience, a tongue image recognition method was proposed in this paper according to the TCM for syndrome classification of type II diabetes. Firstly, the corrected tongue image was obtained by color-calibration. Secondly, based on the difference between the color space, tongue image was divided into background and tongue area using fast K-mean clustering method,and then tongue area was separated into tongue body area and tongue fur area using Ohta color threshing method. Thirdly, according to the type IIdiabetes TCM tongue features, the color features, crack features and dental indentations features were extracted form tongue body area, tongue fur and tongue nature area. Finally, the random forest was used as the classifier to train tongue features data, and compared with the support vector machine method. The proposed method has been tested in 218 tongue image cases. Experimental results showed that the average recognition accuracy of random forest methods was 90.37%, which was increased by 10.74% compared with that of the support vector machine method, suggesting the random forest method was more accurate and efficient for type II diabetes TCM syndrome classifications.

type II diabetes; traditional Chinese medicine (TCM) syndrome; tongue image recognition; random forest

10.3969/j.issn.0258-8021. 2016. 06.003

2015-06-23, 录用日期:2016-08-20

安徽省自然科学基金(11040606M187); 2016年安徽中医药大学青年科学研究基金(2016qn004);安徽省科技厅公益性研究联动计划项目(1604f0804032)

R318

A

0258-8021(2016) 06-0658-07

# 中国生物医学工程学会高级会员(Senior member, Chinese Society of Biomedical Engineering)

*通信作者(Corresponding author), E-mail: yymozly@163.com

猜你喜欢

舌体舌象舌苔
574例新型冠状病毒肺炎康复者舌象特征分析
基于Citespace的国内肿瘤舌象研究可视化分析(2001-2020年)
基于Citespace糖尿病舌象研究的文献计量与可视化分析
基于一种局部图像增强和改进分水岭的舌体分割算法
舌象仪临床应用研究的方法学及报告质量评价
基于深度卷积神经网络的舌体胖瘦精细分类
宝宝需要清洁舌苔吗
舌体大小与阻塞性睡眠呼吸暂停低通气综合征发病的相关性
望舌可预测中风
刷牙别忘清理舌苔