决策树模型在中医药领域的应用现状
2021-09-28马红丽徐长英杨新鸣
马红丽 徐长英 杨新鸣
摘要 决策树因其形状像树且又能用于决策故被称为决策树,是通过机器学习,从一系列无秩序、无规则的逻辑关系中推理出一套分层规则,将结局按照概率分布的树形图表达,从而进行精确预测或正确分类。现系统综述了决策树在中医药领域的应用现状,发现决策树在疾病风险评估、中医病证的诊断、辨证分型、中药药性或不良反应的预测、证候与理化指标的关联、预后评估和成本-效果分析等方面均有所应用,且其分类和预测结果较为准确,值得今后进一步研究并推广应用。
关键词 决策树;数据挖掘;机器学习;中医药;预测模型;树形图;分类;风险评估
Application Status of Decision Tree in Traditional Chinese Medicine
MA Hongli1,XU Changying2,YANG Xinming1
(1 The First Affiliated Hospital of Heilongjiang University of Chinese Medicine,Harbin 150040,China; 2 Heilongjiang University of Chinese Medicine,Harbin 150040,China)
Abstract A decision tree is called this name because it is shaped like a tree and it can be used for decision-making.It is a set of hierarchical rules inferred from a series of disordered and irregular logical relations by machine learning,and the outcomes are expressed according to the tree graph of probability distribution,so as to accurately predict or correctly classify.This paper systematically summarizes the present situation of the application of decision tree in the field of traditional Chinese medicine,and found that the decision tree in used in disease risk assessment,diagnosis of TCM diseases and syndromes,syndrome differentiation of TCM,the prediction of Chinese medicinal properties or adverse reactions,syndrome differentiation associated with physical and chemical indicators,prognostic evaluation and cost effect analysis and so on.The classification and prediction results by decision tree are more accurate,and is worth for further research and application in the future.
Keywords Decision tree; Data mining; Machine learning; Traditional Chinese medicine; Prediction model; Tree diagram; Classification; Risk assessment
中图分类号:R241文献标识码:Adoi:10.3969/j.issn.1673-7202.2021.17.025
我国中医药资源丰富,历史悠久,但随着“大数据”时代的到来,多数中医药数据仍在“沉睡”阶段,目前传统数据处理模式已无法适应“大数据”时代的要求。如何高效准确地从这些大规模数据中获取有价值的新鲜知识将为中医药领域带来前所未有的机遇和挑战,借助大数据的发展推动并促进中医药领域临床和科研的发展,可能会给中医药领域带来重要的革命性变化[1]。目前,决策树作为一种机器学习方法已经开始应用于商业、金融、教育等各领域,其分析和预测结果在各领域中都取得了令人瞩目的成效。近年来,有学者将决策树应用于医学领域,根据患者的临床特征和各项指标等来预测疾病的发生、发展及预后,或进行疾病的诊断及用药配伍,具有重要指导意义。现将决策树在中医药领域中的应用做一综述,以期为今后决策树在中医临床中的应用提供更多的思路和方法。
1 决策树的研究概况
1.1 决策树的概念
决策树是用树形图来表示逻辑处理的一种工具,由一系列节点和分支组成。一般从根节点开始,通过一系列规则对数据进行分类[2]。自上而下,根据不同的分类规则将数据样本划分成不同的子集,每个样本子集作为一个叶节点,每个叶节点对应一个分类,这种图形很像一棵树的枝干,故称决策树[3]。决策树在分类、预测、规则提取等领域应用广泛。
1.2 决策树的常见算法
1.2.1 ID3算法
ID3算法是目前最有影响的决策树算法,是由Quinlan于1986年首次提出的。ID3决策树算法筛选“信息增益”最大的属性划分训练数据集,基本原则是:数据集被分裂為若干子集后,要使每个子集中的数据尽可能地“纯”,即进行分枝时系统的熵值最小,从而很大地提高算法的运算速度和精确度[4]。但ID3算法存在2点主要缺陷:一是只能处理离散型数据,不能对连续型数据进行分类;“信息增益”作为分支属性的标准时,往往会偏向于取值较多的属性,这类属性在某些情况下并不能提供太多有价值的信息[5]。
1.2.2 C4.5和C5.0算法
C4.5算法由Quinlan于1993年提出。C4.5算法是ID3算法的改进,在ID3的基础上增加了对连续型变量和缺失数据的处理,采用了信息增益比作为分枝属性的标准,弥补了ID3算法偏向于选择取值较多的不足。但C4.5算法最主要依据错误率评价决策树,不考虑树的深度和结点的个数,并且进行分组时,对属性值逐个试探,效率较低。C5.0算法则是在C4.5的基础上进一步优化,在执行效率和内存使用方面进行了改进,提高了分类效率和准确性[6]。
1.2.3 CART算法
CART即分类回归树,是由加利福尼亚大学的Leo Breman和斯坦福大学的Jerome H.Friedman在1984年共同提出的,它描述给定因变量值X后,自变量Y条件分布的一个灵活方法,其因变量主要是二值分类的变量,也可是多分类、有序变量或者连续型变量,自变量既可以是离散变量,也可是连续型变量。CART算法是基于统计理论的非参数识别算法,拥有非常强大的统计解析能力,对数据的要求不高,数据可以是不完整或是复杂的浮点数运算,结果也清晰明了。但作为大样本量的统计分析方法,CART存在稳定性较差的问题,尤其是样本量较小时。
1.2.4 CHAID算法
CHAID即卡方自动交互检测,由Kass在1980年提出。其主要特征是前向修剪,多向分叉,分析过程能够显示出各个变量之间的相互作用关系,是一种基于调整后的显著性检验决策树模型。CHAID方法非常适宜处理分类变量,以因变量为根节点,对每个自变量进行分类,分别计算各分类属性的卡方值,并将产生最大卡方值的属性作为分裂属性进行划分,直到划分至没有显著意义的子节点为止,因此不需要做后剪枝处理。然而CHAID算法在稳定性方面略有不足,不同的父节点数、子节点数、变量赋值以及树的深度都可能会对模型产生影响。
1.3 决策树的优势与不足
1.3.1 优势 1)易于理解和实现。人们在运用决策树模型过程中不需要使用者了解很多的背景知识,因为它能够直接体现数据的特点,易于理解决策树所表达的意义。2)数据准备简单。决策树模型能够同时处理数据型和常规型2种属性,在短时间内能够对大量数据做出可行且效果良好的分析结果。3)易于评测。可以通过验证来评估模型的可信度;根据形成的决策树模型很容易推出相应的逻辑表达式。
1.3.2 不足 1)拟合过度。如果对决策树模型的生长没有合理限制,任其自由生长有可能使节点只包含单纯的事件数据或非事件数据,使其虽然可以完美匹配,但是无法适应其他数据。2)精确度不够。决策树算法往往偏向取决值较多的属性,而取值较多的属性却并不一定是最优的属性,这就影响它的精确度。3)有局限性。尽管决策树对大数据处理具有一定优势,但却无法适用于一些不能用数据表示的决策。
2 决策树在中医药领域的应用
2.1 决策树在疾病风险评估中的应用
风险预测模型是慢病防治的重要手段。中国的医疗卫生体系正在经历着由以治病为中心向以健康、预防为中心的转变[7]。通过风险评估与预测来筛选高风险患者群,然后采取有针对性的治疗或预防策略,可以大大降低疾病的发生率。利用决策树构建风险评估模型是早期发现、预测和预防各种疾病的一种有效方法。目前针对西医危险因素的研究较多,如采用C5.0决策树算法预测2型糖尿病患者发生脑梗死风险[8],或进行早期胃癌风险评估[9]。
针对中医危险因素构建疾病风险预测模型的研究相对较少。吕航等[10]对2型糖尿病患者伴发非酒精性脂肪肝风险进行了预测,通过测定这些患者中医人格及体质类型并收集其临床指标,运用决策树方法建构风险预测模型,结果发现3条预测非酒精性脂肪肝的患病风险规则,经验证预测准确度为87.1%。同时,该课题组还构建了2型糖尿病患者伴发冠心病的风险预测模型,结果发现少阴人格及阴寒血瘀体质类型的2型糖尿病患者发生冠心病的风险较大,其预测准确度高达93.6%[11]。
决策树构建的风险预测模型准确度较高,但目前在中医药领域应用不足。中医“未病先防”的概念早在《黄帝内经》中就已经提出:“上工治未病,不治已病,此之谓也。”随着生活水平的提高、医疗理念的转变,越来越多的人们意识到疾病预防的重要性,中医“治未病”的观念开始越来越受到全社会的关注。因此,今后应加强并普及机器学习在中医疾病风险评估中的应用,不仅可防治未病,还可提升高危人群早期筛查准确度。
2.2 决策树在中医病证诊断中的应用
疾病诊断的过程也是分类疾病的过程,是根据患者的临床表现特征划分到某一疾病的过程。决策树对较多混杂因素和数据进行分析是通过一系列规则对数据进行分类的过程,适合应用于疾病诊断中进行研究。且有实验数据表明,机器学习对一些现代疾病的诊断准确率已达到医生水平,或部分诊断率已超过医生。中医诊断学的精髓在于“辨证论治”,辨证准确,疾病才能得到有效的治疗。除了临床医师自身的诊疗经验外,应用决策树算法建立辅助中医诊断或辨证分型系统,可能是提高中医辨证准确率的一个有效途径。
徐蕾等[12]将决策树方法应用在慢性胃炎中医辨证分型模型构建中,将26个对中医辨证分型有意义的因素按其重要性进行排序,发现当决策树叶子数目增长至126个时,正确分类率达到了最高点。模型构建成功后对406例慢性胃炎患者的中医证型进行预测,发现该模型区分各类证型的灵敏度和特异度较高,证明模型构建成功,适合应用于慢性胃炎的中医证型诊断。谢雁鸣等[13]利用决策树分别建立了原发性骨质疏松症的阳虚诊断模型和阴虚诊断模型,发现阴虚诊断模型以五心烦热、盗汗以及便秘3个变量为主,诊断准确率达99.72%;陽虚诊断模型以头晕、气短、畏寒肢冷、腰膝酸软及大便稀溏5个变量为主,诊断正确率达99.87%。还有学者用决策树模型构建高血压痰湿壅盛证诊断模型[14],慢性阻塞性肺病中医诊断模型[15],慢性乙型肝炎肝胆湿热证和肝郁脾虚证的诊断模型[16]等。这些模型的成功构建,说明决策树模型适合应用于中医诊断和中医辨证分型。
2.3 决策树在方药配伍中的应用
吴嘉瑞等[17]建立决策树模型探讨中药七情配伍中相使、相恶药对的药性规律。在成功建立模型后,选取《本草纲目》中有确切药性记载的部分药对进行验证,结果发现,应用建立的模型能够正确判断配伍方式的药对仅有131对,准确率为45.6%,说明建立的模型与实际差异较大,不适于推广应用。张春生等[18]利用C4.5决策树算法研究蒙医方剂配伍规律,将治疗“赫依病”的27个方剂作为主要研究对象建立决策树分类模型,发现紫草茸是治疗骨赫依的关键药物,五灵脂是治疗大肠赫依的关键药物等结果,对临床有一定的指导意义。
在应用机器学习方法研究中医方剂配伍规律方面,目前多采用聚类分析、关联规则或神经网络等方法进行研究,应用决策树算法对方剂配伍规律的研究相对较少。决策树模型适用于分类与预测,因此在中药领域的研究多集中在对中药药性的预测[19]、中药化合物的筛选[20]、中药不良反应的预测[21-22]等。
2.4 决策树在中医证候与理化指标相关性中的应用
证候是中医特有的概念,是疾病在发生和演变过程中某一阶段本质的体现,多通过中医四诊信息所获知,能够为辨证论治提供依据。理化指标是疾病诊断过程中的重要参考之一,是评价和界定疾病发生发展的标准。近年来,有学者就中医证候学特点与病理生理进程密切相关的理化指标的相关性进行研究,以期寻找疾病及其证候与理化指标间的关联规律,实现证候-理化指标之间的信息互通,为中医的辨证提供生物学参考,实现中西医结合诊断与治疗的目的。
张军鹏等[23]将冠心病心绞痛合并糖尿病患者的临床基本资料、理化指标和中医四诊信息进行综合分析,筛选出与气阴两虚证最相关的理化指标6项,形成7条识别途径,经验证,该模型识别气阴两虚证准确率高达77.00%。史琦等[24]基于决策树方法将冠心病心绞痛合并糖尿病患者气虚证与理化指标相关联,发现基于核心理化指标建立的气虚证决策树模型的检测正确率为77.78%。这些研究说明临床理化指标对中医证型诊断具有较高的实用价值,能够用现代生物学信息解释中医证候,从而为中医药临床研究走向世界提供了依据。
2.5 决策树在预后评估中的应用
疾病的预后评估是对疾病发生后各种不同结局的预测,在疾病的治疗过程中,由于患者的年龄、基础状态、体质、合并疾病等诸多因素的不同,即使接受了同样的治疗,预后也可能有很大的差别。利用决策树模型,针对疾病预后因素进行分析和疾病结局进行预测,可以有针对性地对不同患者采用不同的治疗手段,进一步提高患者的治愈率或生存率。
查青林等[25]利用决策树模型探索类风湿性关节炎证候信息与疗效的关系时,将397例确诊为活动期类风湿性关节炎患者随机分成中药观察组和西药观察组,收集患者各项诊查指标和中医四诊信息,中药观察组共纳入变量20个,西药观察组纳入变量26个。结果发现中药观察组中关节压痛程度、晨僵、夜尿多、舌淡红4项指标疗效有差异;西药组中晨僵、白细胞数目、C反应蛋白和舌苔白这4项观测指标疗效有差异。郜洁等[26]采用决策树回顾性分析中西医结合治疗输卵管妊娠影响因子及预后的风险因素,共筛选出5个对预后有重要影响的变量,可比较准确地预测早期输卵管妊娠的预后。
2.6 决策树在成本-效果分析中的应用
在疾病的治疗过程中,往往会有多种治疗方案,除了疗效,成本也是需要考虑的一方面,综合成本-效果才能確定最合理的治疗方案。成本-效果分析是目前药物经济学评价中应用较多的方法,通过分析和比较不同治疗方案的花费和疗效,计算每种治疗方案的成本效果比,该比值越小说明治疗方案越合理。运用决策树进行成本-效果分析可以为临床合理用药和疾病防治决策提供科学依据。
宣建伟等[27]在玉屏风颗粒治疗儿童反复呼吸道感染成本-效果分析中运用到了决策树模型。将常规治疗、玉屏风颗粒联合常规治疗、匹多莫德、玉屏风颗粒联合匹多莫德4种治疗方式进行比较,发现玉屏颗粒联合常规治疗比常规治疗成本效果比值低;玉屏风颗粒联合匹多莫德相对匹多莫德单用治疗小儿反复呼吸道感染,能够减少反复呼吸道感染发生次数,具有绝对的成本-效果优势,不仅有更好的疗效,还能减少总体医疗花费。另一项研究采用决策树模型对脉络宁注射液与复方丹参注射液治疗缺血性脑卒中进行成本-效果分析,结果显示二者的成本-效果比分别为4.18和2.21,而脉络宁注射液较复方丹参注射液的增量成本-效果比为12.4。因此认为脉络宁注射液治疗缺血性脑卒中比复方丹参注射液的疗效更好,经济学更佳[28]。
3 小结与展望
大数据时代的到来,为中医药领域带来了巨大的机遇与挑战。利用机器学习处理几千年来中医药领域累积的大数据,可促进传统医学大数据的有效利用,为我国中医药学的发展带来机会。决策树模型适用于分类、预测和规则提取,目前,决策树已经在中医病证诊断、辨证论治及预后等方面有了较好的应用。然而在疾病风险评估、高危因素预测、预后评估等方面应用不足。随着中医“治未病”观念的普及和接受,如何利用机器学习方法了解疾病高危因素,及时进行疾病风险评估以更好发挥中医“治未病”的优势是我们今后要努力的方向。
参考文献
[1]解育静.大数据时代中医药领域面临的机遇与挑战[J].中华医学图书情报杂志,2015,24(7):33-35.
[2]Srikanth R,Agrawal R.Mining Sequential Patterns:Generalizations and performance improvement[A].In proceedings of the 5th international conference on extending database technology:advances in database technology[C].Avignon,France:EDBT,1996:3-12.
[3]田苗苗.数据挖掘之决策树方法概述[J].长春大学学报.2004,14(6):48-51.
[4]Kantardzic Mehmed.数据挖掘:概念,模型,方法和算法[M].北京:清华大学出版社,2003:121-123.
[5]刘昆,刘业政.基于决策树的医疗数据分析[J].计算机工程,2002,28(2):41-43.
[6]张棪,曹健.面向大数据分析的决策树算法[J].计算机科学,2016,43(S1):374-379,383.
[7]魏戌,谢雁鸣,田峰,等.病证结合构建慢病风险预测模型的思路与方法[J].中国中医基础医学杂志,2017,23(6):798-801.
[8]于长春.决策树模型在2型糖尿病患者脑梗死风险预测中的应用[J].中国卫生统计,2011,28(6):683-684.
[9]刘迷迷,刘永佳,温丽,等.C 5.0决策树对早期胃癌风险筛查研究[J].中华肿瘤防治杂志,2018,25(16):1131-1135.
[10]吕航,王昊,刘媛,等.基于决策树的中医人格体质对2型糖尿病患者伴发非酒精性脂肪肝病风险的预测研究[J].中国中医基础医学杂志,2017,23(9):1257-1259.
[11]吕航,杨秋莉,杜渐,等.基于决策树预测糖尿病合并冠心病患病风险的中医人格体质特征研究[J].南京中医药大学学报,2017,33(6):639-642.
[12]徐蕾,贺佳,孟虹,等.基于信息熵的决策树在慢性胃炎中医辨证中的应用[J].第二军医大学学报.2004,25(9):1009-1012.
[13]谢雁鸣,朱芸茵,葛继荣,等.基于临床流行病学调查的原发性骨质疏松症中医基本证候研究[J].世界科学技术-中医药现代化,2007,9(2):38-44.
[14]田艳鹏,丁学义,朱羽硕,等.基于决策树和神经网络的高血压病痰湿壅盛证诊断模型研究[J].中华中医药杂志,2018,33(8):3579-3584.
[15]苏翀,任曈,王国品,等.利用决策树建立慢性阻塞性肺病中医诊断模型[J].计算机工程与应用.2019,55(3):225-230.
[16]陈潇雨,马利庄,胡义扬.基于决策树方法的慢性乙型肝炎中医证候分类[J].上海中医药大学学报,2013,27(1):40-44.
[17]吴嘉瑞,秦丹,张冰,等.基于决策树算法的七情配伍相使相恶药性规律研究[J].中国医药指南,2014,12(3):157-158.
[18]张春生,图雅,李艳.基于决策树的蒙医方剂药物与主治的关系研究[J].中国中医基础医学杂志,2018,24(9):1299-1302.
[19]胡亞楠,王梅,曹佳,等.组分中药药性预测平台构建[J].中华中医药杂志,2016,31(3):965-967.
[20]王曦廷,李彧,张澜,等.基于机器学习的抗纤维化中药化合物筛选研究[J].北京中医药大学学报,2019,42(1):30-36.
[21]崔盈盈,吴嘉瑞,张丹,等.基于数据挖掘的清热类中药注射剂不良反应流行病学特点研究[J].药物流行病学杂志,2017,26(10):675-682.
[22]吴东苑,杨伟,唐进法,等.不平衡数据处理方法对中药不良反应预测的应用研究[J].世界科学技术-中医药现代化,2017,19(9):1455-1461.
[23]张军鹏,徐学功,徐变玲,等.基于数据挖掘方法的冠心病心绞痛合并糖尿病患者理化指标与气阴两虚证诊断模式的建立[J].中国中医基础医学杂志,2018,24(1):65-68,130.
[24]史琦,陈建新,赵慧辉,等.基于决策树方法的冠心病心绞痛合并糖尿病患者理化指标与气虚证关联模式的建立[J].中华中医药杂志,2012,27(6):1538-1540.
[25]查青林,何羿婷,喻建平,等.基于决策树分析方法探索类风湿性关节炎证病信息与疗效的相关关系[J].中国中西医结合杂志,2006,26(10):871-876.
[26]郜洁,黄艳茜,胡昀昀,等.基于决策树的中西医结合治疗输卵管妊娠的预后因子分析[J].广州中医药大学学报,2016,33(4):494-497.
[27]宣建伟,卢永吉,刘宝.玉屏风颗粒治疗儿童反复呼吸道感染成本-效果分析[J].中国药物经济学,2017,12(7):5-9.
[28]李慧敏,廖星,胡瑞学,等.中医药治疗急性缺血性脑卒中RCT结局指标的现状分析[J].中国中药杂志,2020,45(9):2210-2220.
(2020-08-19收稿 责任编辑:杨燕)