APP下载

决策树原理应用于中医证候学研究*

2012-08-15赵铁牛杨晓南王惠君于春泉孟静岩

天津中医药 2012年6期
关键词:决策树证候变量

赵铁牛 ,杨晓南 ,王惠君 ,于春泉 ,孟静岩

(1.天津中医药大学中医学院,天津 300193;2.天津市红桥区中医医院内科,天津 300132)

中医辨证是医师在错综复杂的临床表现中通过望、闻、问、切四诊和各种辨证等手段收集信息,综合分析,辨清疾病特异病因、病理变化、发生发展规律,透过现象找出疾病的本质,抓住病变的根本机制,做到治病求本,使辨证治疗更具有针对性。在一定意义上,证候的诊断是一个在多种方案中如何进行选择决策的问题。决策树解决的核心问题就是数据分类,根据数据的属性将数据分派到不同的组中。在实际应用过程中,决策树可以分析定性数据的各种属性,找出最有分辨能力的属性,把数据库划分为多个子集,直到所有子集包含同一类型的数据,最后得到的决策树能对新的例子进行分类,并预测新数据将属于哪一个组[1]。这样,决策树不仅可以从临床诊断数据中辨析证候与症状间的复杂关系,总结归纳中医专家的辨证规律并模拟其诊断推理过程,还可能发现客观有用的新知识以丰富专家经验和中医理论[2]。笔者对决策树的基本原理、可行性分析、应用研究现状、存在的问题及今后的发展趋势进行总结和分析,为中医证候诊断提供有力的工具。

1 决策树的基本原理

决策树算法在1966年由Hunt EB等人首次提出了概念学习系统(CLS)学习算法[3]。决策树运用信息论知识原理对获取到样本的众多属性进行解析和归纳,并最终形成一种类似于流程图的树型结构。树型结构节点为样本的属性,分支为属性取值,其中树的根结点为样本中信息量最大的属性,树的中间节点则为每个子树包含子集样本中信息量最大的属性,将样本类别取值作为树的叶节点。从根节点到叶节点的一条路径形成一条分类规则。决策树从节点来寻找分枝定类的思想就是逐步找到更具有确定类别意义的节点。其思路是找出最有分辨力的属性,把数据库划分为许多子集,然后对每一个子集递归调用分枝过程,直到所有子集包含同一类型的数据,最后得到的决策树能对新的例子进行分类[4]。决策树是以实例为基础的归纳学习算法,它着眼于从一组无次序、无规则的数据中,根据不同的特征,以树型结构表示分类或决策集合,产生规则和发现规律,通常用来形成分类器和预测模型,可以对未知数据进行分类或预测等,主要解决实际应用中分类问题,简单来说,就是确定对象属于哪个预定义的目标类[5]。决策树常见的分类算法有ID3、C4.5、IBLE、CART、SLIQ 和 SPRINT 等[6]。

决策树算法构造决策树来发现数据中蕴涵的分类规则。如何构造精度高、规模小的决策树是决策树算法的>核心内容。构造决策树分两步:1)根据训练数据集来构建决策树模型。实际上是一个从数据中获取知识,进行机器学习的过程。树代表训练样本的单个根节点开始,使用分类属性,递归地通过选择相应的测试属性来划分样本,一旦一个属性出现在一个节点上,就不在该节点的任何后代上出现,测试属性是根据某种启发信息或者是统计信息来进行选择。2)决策树的剪枝。对上一阶段生成的决策树进行检验、校正和修下的过程,主要是用测试数据集中的数据校验决策树生成过程中产生的初步规则,将那些影响预测准确性的分枝剪除。剪枝后的树变小、复杂度降低,在正确地对独立检验数据分类时效果更快更好[7]。

2 可行性分析

2.1 证候数据的特点符合决策树分析的资料要求 医师在辨证过程中,掺杂了过多的主观因素,证候辨识缺乏客观、统一的标准,信息的不完整,给中医诊断等造成诸多困难。中医学数据复杂多样,主要以定性为主,包括二分类变量、名义型变量和有序分类变量,还有一些数据属于连续性变量;包含了大量的关于患者的病史、诊断等的临床信息。ID3算法中要求的数据是定性数据,在中医证候研究中,如果出现连续性数据,就不能直接使用决策树算法进行分类。而C4.5算法不仅继承了ID3算法的>全部优点,还增加了对连续数据离散化等功能。这样,决策树可以同时处理大量的分类变量、有序变量。当遇到连续性变量时,需要转化为分类变量、有序变量,但可能会导致有重要意义的数据信息不能完整体现出来。

2.2 决策树为证候学研究提供决策工具 决策树对中医证型研究的数据进行了探索性分析,得到对证型鉴别诊断具有重要意义的因素,并对其重要性进行了量化;建立的决策树能够较好地对新病例进行判别。决策树以树形图的形式表达中医证候分类结果,分类规则比较直观,且易于理解。在众多的分类方法中,决策树归纳分析具有易于提取显式规则、计算量相对较小、可以显示重要的决策属性和较高的分类准确率等优点[8]。在明确显示对分类或预测有意义的证候信息的同时,还能生成一些用于分类的规则,准确地预测新病例的证型。

3 应用现状

3.1 决策树在中医辨证中的应用 运用决策树统计方法对中医证型研究的数据进行了探索性分析,得到对证型鉴别诊断具有重要意义的因素,并对其重要性进行了量化;建立的决策树能够较好地对新的样本进行判别。钟颖等[9]利用决策树方法,以名老中医治疗慢性胃炎病历信息为对象,从病历中筛选出辨证为“中虚气滞”的病历,从涉及的77种症状中筛选出的18个变量,构建能够判断症状与辨证“中虚气滞”关系的决策树,得出一些对于目标属性有重要意义的症状。如:舌苔和舌质颜色、苔质的情况,大便便次异常的情况,嗳气、胃脘疼痛的性质等,指导中医治疗慢性胃炎临床诊断,建立了较为令人满意的预测模型。贺宪民等[10]利用熵的决策树方法,通过从80个变量中选出了对判别的重要性排在前24位的变量实现对慢性胃炎脾胃湿热型、湿浊中阻型、脾胃虚弱型、肝郁气滞型和其他证型共5个证型的鉴别诊断,决策树对训练集和校验集的87.64%和85.45%,对检验集的正确分类率为83%,建立的决策树能够较好地对新的样本进行判别,从而为慢性胃炎的辨证施治提供客观的依据。廖晓威等[11]利用增强型ES-ID3决策树算法对专家已分类的300例样本进行模型训练,利用增强型ES-ID3决策树算法和经典ID3决策树算法对300例训练样本的67个中医症状和体征属性进行分类计算的比较,经典ID3决策树算法对肝病数据的肝肾不足、肝肾阴虚、肝郁脾虚、脾肾阳虚、湿热内蕴、痰热内蕴六大证型进行分类的结果正确率只能达到50%左右,而增强型ES-ID3决策树算法的>实验正确率均超过了70%,不仅得到了令人满意的分类结果,所提取的关键属性集合也更精炼,可以减少医务工作者对患者所需采集病症特征的数目,降低医务工作者的工作量。徐蕾等[12]信息熵的决策树C4.5算法,筛选出影响中医辨证分型的26个重要因素,主要是苔质腻,苔质薄,面色,胃脘疼痛性质,大便便次异常,胃脘胀,口气等;产生可用于分类的诊断规则;建立中医辨证模型,预测慢性胃炎的中医辨证分型,为临床判断提供了重要的参考价值。

3.2 决策树在证候诊断模型研究中的应用 利用决策树构建证候的诊断模型,为将基于经验的中医辨证转向基于数据模型的辨证提供了方法,有助于促进证候的客观化诊断。瞿海斌等[13]利用决策树从290例血瘀证病例的35个变量中自动地提取相应的诊断规则,得到决策树分类模型并归纳出血瘀证的诊断规则。利用该模型对194例血瘀证病例测试,其结果为阳性检测正确率、阴性检测正确率和检测正确率分别达到97.67%、99.07%和98.45%。实验结果表明决策树能自动从中医病例中归纳诊断规则,通过决策树方法还可判断各证候对于血瘀证诊断的贡献大小。李梢等[14]联合采用Logistic回归和决策树对1004例慢性乙肝患者进行证候学调查和实验室检测,包括88项症状、舌脉象、20项体征和14项实验室指标进行数据分析,构建能够区分慢性乙肝患者肝胆湿热证、肝郁脾虚证的诊断模型,辨证诊断准确率为74.36%,发现苔白、淡红舌、巩膜黄染、两目干涩、丙氨酸转氨酶(ALT)和HBeAg是鉴别两证型的有效指标组合,提高模型的诊断准确率,具有一定的辨证意义,有助于促进证候诊断客观化。谢雁鸣等[15]运用决策树对确诊的520例原发性骨质疏松症患者的四诊信息建立了阴虚和阳虚诊断模型,阴虚决策树诊断模型以五心烦热、盗汗和便秘3个变量为主,训练集的正确诊断率为99.72%,阳虚决策树诊断模型以畏寒肢冷、大便稀溏、腰膝酸软、头晕和气短5个变量为主,训练集的正确诊断率为99.87%,表明模型效果较好。

3.3 决策树在证候变化特征分析中的应用 决策树应用于中医证候学研究,探索单一证候变化特征及规律,探讨提高辨证准确性的途径和方法,对数据支持下的证候动态辨识客观化提供依据。邹蔚萌等[16]采用决策树的CART算法,建立CART决策树模型,验证各个属性的分布情况,揭示了缺血性中风病急性期火热证口臭、起病急骤和发病后迅速出现的神识改变的特点,为中医证候的动态辨识提供数据支持,初步探索了提高辨证客观性,提供了证候与四诊信息之间关系定量化的方法和途径。张明雪等[17]运用决策树方法,归纳出冠心病的主要证候要素(寒、痰、气、瘀、虚等),可以通过冠心病发病早期重要指标“胸剧痛”、“背剧痛”、“紧脉”、“迟脉”、“手足不温,厥冷”、“手足不温,近衣被不缓解”来判定“寒邪”这一证候在冠心病发病和发展的过程中起着重要的作用。曲淼等[18]运用决策树方法,归纳出冠心病的主要证候要素(寒、痰、气、瘀、虚等),可以通过冠心病发病早期重要指标“活动较多即感心悸”、“活动较多即感气短”、“稍有活动即感心悸”、“无乏力”、“稍有活动即感气短”来判断“心气虚”这一证候在冠心病发病和发展的过程中起着重要的作用。张华[19]运用聚类分析和决策树模型对风、火、痰、瘀、气虚、阴虚阳亢6个证候要素如何动态影响病情轻重进行直观地描述,并给出判断的正确率,探索缺血性中风病急性期证候动态演变特征与神经功能缺损程度的相关性,临床医师根据患者中医证候表现预测病情严重程度及预后提供数据支持,为病证结合的研究模式提供一种思路,为临证判断病情和指导治疗提供依据。

3.4 决策树在分析证病信息与疗效的关系中的应用 根据证病信息之间存在非线性的特点,利用决策树分析方法分析证病信息与中西医疗法疗效的关系,符合中医辨证论治个体化诊疗思想,可以提高治疗方案使用的针对性。查青林等[20]利用决策树模型分析方法,以疗效为分层变量,随机将数据集分为训练集(占75%)和验证集(占25%),对确诊的活动期类风湿性关节炎中药治疗组病例203例和西药治疗组病例194例的的四诊信息、疾病诊查信息及治疗6个月后的疗效信息进行挖掘分析。结果表明,中药治疗组中晨僵、舌淡红、关节压痛程度、夜尿多4项观测指标不同组合患者的中药治疗疗效有差异;西药组中舌苔白、C反应蛋白、白细胞数量和晨僵4项观测指标不同组合患者的中药治疗疗效有差异。通过分析类风湿性关节炎证病信息与疗效的关系,从证候信息的角度获得药物治疗的最佳适应证,为实现个体化治疗提供科学数据。

4 问题与展望

由于中医证候研究数据训练的样本含量少或决策树生成产生重复的子树时,决策树归纳算法会出现过度拟合,都会造成产生的决策树过大,需要修剪决策树。另外,在决策树统计分析中,变量一旦进入模型后无法再从模型中剔除,在变量的选择上不灵活。因此,采用后剪枝方法,对生成的决策树进行剪枝,剔除掉一些不重要的候选属性,避免过度拟合,使最后的结果更具有客观性[21]。

虽然决策树已经被研究者尝试应用到中医证候研究领域,但尚处于起步阶段。中医学者从临床证侯诊断数据中辨析证候与症状间的复杂关系,为中医辨证提供一定的决策支持作用,具有广阔的应用空间和研究价值。决策树在证候研究领域期待解决问题和研究方向:1)决策树在证侯诊断应用中的算法优化;2)决策树和其他方法结合在证侯诊断中的应用;3)决策树算法与软件实现;4)决策树在证候诊断应用中的简化方法筛选。总之,在中医证候研究的实际工作中,需要中医证候研究人员和统计分析人员加强合作,根据数据类型的特点及数据集的大小,选择合适的算法和软件实现,确保中医证候研究的质量和效率。

[1]龚燕冰,倪 青,王永炎.中医证候研究的现代方法学述评(一)-中医证候数据挖掘技术[J].北京中医药大学学报,2006,29(12):797-801.

[2]邹蔚萌,高宏杰,邹忆怀.决策树技术在中医证候学中应用研究思路[J].辽宁中医药大学学报,2011,13(2):126-128.

[3]刘莺迎.决策树分类算法的>分析和比较[J].科技情报开发与经济,2008,18(2):65-67.

[4]郭玉滨.决策树算法研究综述[J].电脑知识与技术,2006(2):155-160.

[5]范明译.数据挖掘导论[M].北京:人民邮电出版社,2006.

[6]张 彦,刘暾东,李茂青.基于信息论的决策树算法探讨[J].自动化技术与应用,2006,25(1):4-7.

[7]李玲俐.数据挖掘中分类算法综述[J].重庆师范大学学报(自然科学版),2011,28(4):44-46.

[8]季桂树,陈沛玲,宋 航.决策树分类算法研究综述[J].科技广场,2007,20(1):9-12.

[9]钟 颖,胡雪蕾,陆建峰.基于关联规则和决策树的中医胃炎诊断分析[J].中国中医药信息杂志,2008,15(8):97-99.

[10]贺宪民,孟 虹,王忆勤,等.基于熵的决策树理论及其在中医证型研究中的应用[J].数理统计与管理,2004,23(5):57-62.

[11]廖晓威,马利庄,王 彦.ES-ID3算法及其在中医辨症中的应用[J].计算机工程与应用,2008,44(32):191-193.

[12]徐 蕾,贺 佳,孟 虹,等.基于信息熵的决策树在慢性胃炎中医辨证中的应用[J].中国卫生统计,2004,21(6):329-331.

[13]瞿海斌,毛利锋,王 阶.基于决策树的血瘀证诊断规则自动归纳方法[J].中国生物医学工程学报,2005,24(6):709-711.

[14]李 梢,张宁波,李志红,等.慢性乙型肝炎患者肝胆湿热证和肝郁脾虚证的决策树诊断模型初探[J].中国中西医结合杂志,2009,29(11):993-996.

[15]谢雁鸣,朱芸茵,葛继荣,等.基于临床流行病学调查的原发性骨质疏松症中医基本证候研究[J].世界科学技术-中医药现代化,2007,9(2):38-44.

[16]邹蔚萌,崔方圆,龙子弋,等.基于数据挖掘的缺血性中风火热证变化特征分析[J].辽宁中医杂志,2011,38(6):1042-1044.

[17]张明雪,曹洪欣,常艳鹏,等.论“寒邪”在冠心病发病中的作用[J].中医药学报,2009,37(3):1-4.

[18]曲 淼,张明雪,张 兰,等.论“心气虚”在冠心病发病中的作用[J].中华中医药学刊,2010,28(2):282-285.

[19]张 华.使用决策树从中医证候量表评分判断缺血性中风神经功能缺损程度[J].辽宁中医杂志,2008,35(9):1317-1319.

[20]查青林,何羿婷,喻建平,等.基于决策树分析方法探索类风湿性关节炎证病信息与疗效的相关关系[J].中国中西医结合杂志,2006,26(10):871-876.

[21]张 林,张 昊.决策树算法分析及其在实际应用中的改进[J].铜陵学院学报,2010,9(6):71-72.

猜你喜欢

决策树证候变量
肥胖中医证候动物模型研究进展
抓住不变量解题
也谈分离变量
决策树和随机森林方法在管理决策中的应用
基于决策树的出租车乘客出行目的识别
基于模糊关联规则和决策树的图像自动标注
昆明地区儿童OSAHS中医证候聚类分析
基于肺癌CT的决策树模型在肺癌诊断中的应用
分离变量法:常见的通性通法
基底节区出血与中医证候相关性研究