APP下载

数据挖掘技术在中医诊疗数据分析中的应用

2016-07-06马梦羽沈璐文天才夏勇

中国中医药信息杂志 2016年7期
关键词:粗糙集决策树贝叶斯

马梦羽 沈璐 文天才 夏勇

摘要:经过中华民族几千年的传承和发展,中医学形成了特有的理论体系,其疗效受到广泛认可,但因中医理论更关注有关疾病的症、治、效之间的关联关系,而不是现代自然科学所探究的因果关系,导致其科学性屡遭质疑。近年来,基于真实世界的临床研究模式和“大数据”理念日益受到重视,因此,越来越多的研究人员开始将研究重点放在疾病干预措施与结局指标的相关关系上,这一转变以及计算机数据挖掘与分析技术的进步,无疑给中医理论与实践的进一步发展带来重大契机。本文归纳总结了近年来中医诊疗中用到的数据挖掘技术,如聚类分析、决策树、贝叶斯网络、神经网络和多示例学习等,展示了如何运用这些方法从大量中医病症数据中揭示中医诊疗规律,发现隐藏在数据中的知识,以数据为支撑而显示中医学的有效性。

关键字:中医诊疗;数据挖掘;聚类分析;决策树;多示例学习;神经网络;述评

DOI:10.3969/j.issn.1005-5304.2016.07.037

中图分类号:R2-05 文献标识码:A 文章编号:1005-5304(2016)07-0132-05

Application of Data Mining Technology for Data Analysis of TCM Diagnosis and Treatment MA Meng-yu1, SHEN Lu2, WEN Tian-cai1,3, XIA Yong1 (1. School of Computer Science, Northwestern Polytechnical University, Xian 710072, China; 2. Shaanxi Provincial Hospital of Traditional Chinese Medicine, Xian 710003, China; 3. China Academy of Chinese Medical Sciences, Beijing 100700, China)

Abstract: Through several thousand years inheritance and development by Chinese people, traditional Chinese medicine (TCM) has formed its unique theoretic system, whose efficacy has been widely accepted. However, because TCM theory focuses on the relationships among syndromes, treatment and efficacy, instead of the cause-and-effect relationship explored by modern natural science, the scientificity of TCM has always been questioned. In recent years, because virtual-world clinical research mode and the concept of “big data” were emphasized, increasing researchers began to put their research emphasis on the correlativity between intervening measures of diseases and outcome indicators. This change and the advancement of computer data mining and analysis technology, bring great opportunities for the further development of TCM theory and practice. This article concluded data mining technology used in TCM diagnosis and treatment in recent years, such as clustering analysis, decision tree, Bayesian network, neural network and multi-instance learning, which showed how to apply these methods to reveal rules of TCM diagnosis and treatment from a large number of TCM syndrome data, find knowledge hidden in data, and show TCM effectiveness supported by data.

Key words: traditional Chinese medicine diagnosis and treatment; data mining; cluster analysis; decision tree; multi-instance learning; neural network; review

中医学是以中医药理论与实践经验为主体,研究人类生命活动中健康与疾病转化规律及其预防、诊断、治疗、康复和保健的综合性科学[1]。传统的中医辨证诊治过程主要依靠医生的望、闻、问、切等主观手段来获取疾病资料,以取象比类的方法对病因病机进行认识,依据中药的性味归经并进行配伍来达到治

通讯作者:夏勇,E-mail:yxia@nwpu.edu.cn

疗疾病的目的。由此可以看出,传统中医更关注有关疾病的症、治、效之间关联关系,而不是现代生物医学所讨论的因果关系。因此,中医研究的范式与现代自然科学并不相同,由此导致中医辨证论治的科学性屡遭质疑。

然而,尽管现代生物医学取得巨大的成功,但因人体是一套复杂巨系统,即使运用现代生物医学也无法完全解释疾病发生发展及诊断治疗的全过程。近年来发展起来的基于真实世界的临床研究模式和“大数据”理念,使研究者不需要再去刻意寻求疾病发生发展全过程的原理,而是将重点放在疾病干预措施与结局指标的相关关系研究上,这无疑给中医药发展带来重大契机[2]。而且,随着各种新兴触感器,如舌诊议、脉诊仪、可穿戴设备等出现和应用,以及医院信息系统的普及,极大丰富了中医数据。从数据入手,运用智能计算机技术,以“大数据”的思想分析挖掘中医数据进行中医临床研究已成为必然趋势。

现代中医医院的诊疗数据具有明显的“全数据”特点,它不仅包括传统中医的望、闻、问、切信息,还包括各类理化生物学指标,包括本质、现象、稳定的、不稳定的,形成全面的描述[3]。但与此同时,中医病例数据可能混杂有不规范描述、缺少定量的症状分析,往往以症状程度的轻、中、重来形容,造成数据清洗困难,具有系统性、整体性、复杂性、不确定性等特点,难以适用于传统的数据分析方法。数据挖掘通过统计分析、信息检索、机器学习和模式识别等诸多方法,寻找大数据下的隐藏知识和规律,现已广泛用于处理医学数据研究。常见的数据挖掘方法包括决策树、贝叶斯网络、神经网络、聚类、多示例学习和多标记学习等。笔者现对上述数据挖掘技术在中医诊疗数据分析中的应用情况总结如下。

1 聚类分析

聚类分析(cluster analysis),是在没有先验知识的情况下,对无类别标记的数据资料进行分类,根据物以类聚的朴素道理,认为同类的样本之间距离小,不同类的样本之间距离大,分类后使类间的相似性最小,而尽可能增大类内的相似性。聚类分析常用于分析中医诊疗中症状组合规律、用药规律等,现已表明聚类分析在中医诊疗领域具有一定推动作用。

有研究收集国家级名老中医治疗肿瘤处方和肝病处方,采用关联规则Apriori算法和复杂系统熵聚类方法计算得到处方中各单味药物频次、药物组合频次、药物之间的关联规则和核心组合等[4-5]。张氏[6]对350例肺癌患者症状、体征和舌脉象等临床资料进行聚类分析,将肺癌患者中医证候分为痰浊阻肺证、气虚证、肝郁化火证和瘀血阻络证4类,结果解释比例为71.58%,并初步确定了各证候的诊断要点。杨氏等[7]收集365例肝癌患者62项四诊信息并量化计分,运用聚类分析归纳出肝癌的中医辨证分型为肝郁证、脾虚证、湿热证、血瘀证及阴虚证,其中以脾虚证多见,肝郁证、阴虚证、血瘀证、湿热证次之,由此认为聚类分析结果有利于中医证型规范化。卢氏等[8]通过制定“中医证候临床观察表”,对106例儿童中间型β地中海贫血患者进行中医证候调查,采用聚类分析等统计学方法得出广州地区中间型β地中海贫血患儿中医证候分布顺序为气血两虚证>肝肾阴虚证>脾肾阳虚证>阴阳两虚证。

当然,中医症候错综复杂,使用聚类分析可能存在一些问题。首先,在聚类分析中,每个样本只能被聚到某一类,而现实往往有许多患者属于错杂体质,应属于多种证候。其次,聚类分析需要研究者凭借经验及相关知识判定分为几类,而不能根据数据自身结构特点自主的判定分类数量。所以,研究者需要多次尝试、反复分析如何定义聚类的数量及样本间的距离才是最优的。

2 决策树

决策树(decision tree)是一个树形结构的预测模型,树中每个节点表示某个样本属性,每个分支则代表对该属性的判断,而每个叶子结点则对应最终的类别。决策树的学习速度很快,且不需要研究者学习与数据相关的背景知识,产生的分类规则简单直观,分类准确率较高,是数据挖掘中常用的分类方法。最早的决策树算法有ID3,后又发展形成C4.5、C5.0和CART算法,常用于归纳名老中医辨证过程、论证中医的诊疗准则。

查氏等[9]收集397例已确诊活动期类风湿性关节炎患者症状及检查结果,构造决策树实现了证病信息和疗效的相关关系探索,得出可从证候信息的角度获得药物治疗的最佳适应证,从而实现个体化治疗。肖氏[10]收集了一位名老中医的慢性胃炎临床诊断医案,构造决策树反映其辨证规律,并用“IF AND THEN”语句表示,如:IF喜热喜暖=“正常”AND舌苔=“舌苔薄白”AND脉象=“脉细弦”AND性情=“性情急躁”,THEN分类证型=“肝胃不和证”,说明决策树直观有效。史氏等[11]收集了411例不稳定性心绞痛病例,采用卡方自动交互检测决策树方法从89个临床常规检测指标中提取痰瘀互阻证的识别规律。结果显示,该决策树模型灵敏度为72.46%,特异度为81.29%,检验正确率为79.81%。说明决策树模型直观简洁,便于归纳识别规律有用信息,适用于研究总结症状与证型的对应模式。

3 贝叶斯网络

贝叶斯网络(Bayesian networks)是一种概率图模型,可用于预测,其结构为一个有向无环图(DAG),由节点和连接这些节点有向边构成。一般而言,节点表示随机变量,可以是已知或未知参数;节点间的有向边记录了两节点间条件概率,以此类推表示所有节点间的关系。这种概率模型结构能充分利用先验知识,可以处理有噪声、不完全、不精确的知识,所以被多次运用到中医诊疗问题上。运用贝叶斯网络可以揭示症状之间及症状与证型之间的关系,定量评判各症状对准确辨证的影响,从而归纳出该证型具有代表性的症状,不仅有助于确定证候诊断的标准和规范,还可作为辅助诊疗的参考[12]。但是,贝叶斯网络的建造是一个复杂的任务,需要该领域专家的参与并不断完善;其次,如果各节点之间关系复杂,那么条件概率表就会变得难以计算且不便使用。

吴氏等[13]收集了115例名老中医的冠心病医案,运用贝叶斯网络提取常见症候要素,如血瘀、痰浊、气虚、阳虚等8个,贝叶斯网络以条件概率形式表示出各种症状在中医诊疗中的贡献度,将名老中医的辨证经验转化成定量表示,对中医经验的传承发展有十分重大的意义。徐氏等[14]收集了835例冠心病患者信息,构造贝叶斯网络对四诊证候信息进行分类识别,其中心气虚、心阳虚、心阴虚、血瘀、痰浊5个证型的识别率分别为69.34%、84.85%、65.12%、83.87%和65.12%。张氏等[15]对287例肝炎后肝硬化的症状、体征,利用树增广的朴素贝叶斯分类算法,构建了肝炎后肝硬化中医证候分类模型,结果这种模型对肝炎后肝硬化的5种主要证候分类的符合率达83%。龚氏等[16]以2501例2型糖尿病的临床数据为基础,运用贝叶斯网络的方法进行分析。结果发现,空腹血糖异常的患者以阴虚热盛多见,餐后2 h血糖异常的患者以阴虚多见,糖化血红蛋白异常的患者以阴虚热盛多见,血脂异常者以气虚为主,血压异常者伴见血瘀。该结果基本符合中医理论和临床实际。

4 粗糙集理论

粗糙集理论(rough set)可以处理分析不精确或有噪声的数据,适用于特征变量是离散化的数据,对不完整的知识进行推理,识别并评估数据之间的依赖关系。粗糙集理论的特点是利用已知的样本中的信息,近似粗糙地表示不精确或不确定的信息,从而达到分类预测的效果。该理论的一大优势在于其无需先验信息,如隶属度函数和变量的概率统计分布,而这些先验知识往往比较难得到。粗糙集是一种优秀的机器学习方法,贴近中医信息中时有混杂的噪声及不确定描述的特点,所以利用其分析中医数据,归纳诊疗规则,有望获得成功。

陈氏等[17]收集450例老年细菌性肺炎患者在就诊过程中的285项指标,采用粗糙集方法分析得到7种中老年肺炎的证候诊断标准,为疗效评价指标提供了客观依据。孙氏等[18]采用粗糙集与支持向量机(SVM)结合的方法对293例中医肝硬化患者临床信息建立证候决策信息表,提取出代表性症状输入SVM进行分类学习,准确率约为84.4%。陈氏等[19]从古今医案中收集与原发性高血压相关的237例病案,运用粗糙集理论进行数据分析,获得了原发性高血压肝阳上亢证的专家知识。

5 人工神经网络

人工神经网络(artificial neural network,ANN)是模仿生物神经系统中神经元的一种数学处理方法,无需考虑各变量之间是否独立及是否满足正态分布等条件,而且也不像传统统计分析那样给出明确的方程,但它能给出结构参数。从某种意义上说,神经网络能更有效地表述实际问题,特别是当有些问题并不需要明确的数学表达式或根本无法找到明确的数学公式表达时,神经网络就更显示其优越性。但因ANN采用梯度下降算法调节参数,可能陷入局部最优,所以常需多次设置不同初始值,多次尝试迭代求得可能的最优结果会增加额外开销。运用ANN进行中医数据分析,寻找症状与证型的关系,可将症状作为输入单元,证型为最终的输出结果,建立症状与证型的非线性映射函数,常见的神经网络有误差反向传播(BP)网络和Hopfiled网络等。

燕氏等[20]运用ANN实验对脉象识别和分类,结合脉象特点选取特征值设计多种分类器。结果显示,运用ANN实现的脉象识别,有助于深入开展脉象形成机制的研究工作。白氏等[21]运用ANN建立糖尿病肾病证候诊断模型,采用改进的共轭梯度学习算法,结果神经网络模型预测证候的平均单证特异性为81.32%,平均单证准确率为96.25%,平均诊断准确率为92.21%。说明ANN技术是中医证候非线性建模的可行方法。

6 多示例学习和多标记学习

在多示例学习(multi-instance learning,MIL)中,样本由若干个具有概念标记的包(bag)组成,每个包含有若干无概念标记的示例。若一个包中至少有1个正例,则该包被标记为正(positive);若一个包中所有示例都是反例,则该包被标记为反(negative)。MIL属于以往机器学习研究的一个盲区,被认为是一种新的学习框架。而且由于其包的定义与中医“全数据”的概念非常相似,因此,将MIL用于中医数据分析受到越来越广泛的重视。

多标记学习(multi-label learning,MLL)方法中每个样本并不只对应一个类别,而是和多个类别相关联,所以很好地解决了分类问题的歧义性。这与真实世界中的现象十分接近,现实生活中的某一对象往往不只具有单一含义,而是可能具有多义性的。MLL技术是数据挖掘、模式识别等领域的一个新的研究热点,为提高分类精度,特征降维成为改善MLL方法的又一研究方向。将MLL用于中医数据处理,将会有效解决中医病例数据中多语义的特点。

沈氏[22]将MIL和MLL方法应用在声诊中,采集临床包括气虚、阴虚和气阴两虚患者的五音作为示例,患者证型作为类别标记,使用MIL和MLL框架得到较好的分类模型。王氏[23]以慢性胃炎患者中医问诊数据为研究样本,采用MLL方法建立分类模型,实验结果显示MLL方法分类准确率达到83%。邵氏等[24]运用MLL结合混合优化的特征选择算法,用于冠心病中医问诊数据分析,建立中医冠心病数据模型,并获得了冠心病问诊症状的最优特征子集。

7 多种方法结合

上述方法虽能取得良好的实验结果,启发了之后的研究方向,但每种方法依然存在自身的缺陷。如神经网络中隐层的含义难以解释,且不能从模型中提取分类规则,不便于理解,这是ANN的较大缺陷。目前,已有学者将粗糙集理论与神经网络结合,有较好的实验结果。秦氏等[25]利用粗糙集技术对ANN进行预处理,求取核属性,构造粗糙ANN,并应用到中医类风湿病分型诊断建模,计算机仿真结果证明了用粗糙集辅助设计ANN,改善了网络的学习能力,并在实践中取得了满意的效果。

SVM是以结构风险最小化为原则的机器学习方法,巧妙地通过核函数将低维输入空间的特征整向量投射到高维数据空间,使样本在高维空间线性可分,由此求得最优分类的超平面,解决非线性分类问题。SVM不仅可以处理高维的特征向量,而且,即便在样本数较少时也能获得较好分类效果,这使SVM成为近年来应用十分火热的分类方式,在处理中医临床数据时也被大量使用。王氏等[26]收集115例名医诊治冠心病典型医案,运用SVM提取出8个主要证候要素并确定其定量诊断。杨氏等[27]收集1个家系虚寒证的相关基因信息,选取5例虚寒证和5例正常人差异表达基因的表达值作为分类的正负样本,使用SVM、K近邻分类法等方法建立二分类模型,得到较好结果。现已有研究将多种数据挖掘技术对中医临床数据的分析处理结果进行对比,希望寻找到更合适中医数据特点的研究方法。如许氏等[28]采集临床心血管疾病的病例,根据症状的“有”和“无”分别赋值为“1”和“0”,将症状作为输入样本,证型作为输出类别,使用SVM和ANN进行分析,结果对心气虚、心阳虚、心阴虚、痰浊、气滞、血瘀等心血管疾病常见中医证型,ANN的识别准确率较高,均在60%以上,其中心气虚和心阳虚证分别高达92.4%、82.9%。

8 展望

基于上述分析,笔者提出以下几点建议:

首先,在“大数据”时代,通过对大量数据的研究挖掘渐渐替代了对模型的研究,从大量的现象中寻找隐藏的规律,中医学有望据此证明自身的有效性。然而,现如今大量的中医数据未得到很好的应用,是因数据较为杂乱,缺失完整病例信息,并且中医病例描述常有一词多义或语义不清等问题。但数据挖掘技术对于数据的规范性要求较高,如何规范化中医数据信息也成为中医信息化、现代化的热点问题。所以,加强计算机学科、数学学科、信息学科与中医理论体系的交叉合作,建立普遍适用的中医医疗大数据库,是现在中医实现信息化、现代化发展的当务之急。

其次,现阶段数据挖掘技术在中医诊疗领域的应用,往往局限于某一名老专家的行医经验或某一疾病的辨证施治,如何对各种数据挖掘方法的结果进行科学合理的评估也将是很有意义的一个研究方向。

最后,如何集各种数据挖掘方法之长于一体,若能找到一种或几种最适合中医数据特点的算法以对某一数据库进行挖掘分析,将为中医学的继承发展带来不可估量的贡献。

参考文献:

[1] 中医药学名词审定委员会.中医药学名词[M].北京:科学出版社,2005:1-4.

[2] 刘保延.真实世界的中医临床科研范式[J].中医杂志,2013,54(6):451-455.

[3] 崔蒙,李海燕,雷蕾,等.“大数据”时代与中医药“知识密集型”数据[J].中国中医药图书情报杂志,2013,37(3):1-3.

[4] 宋京美,吴嘉瑞,姜迪.基于数据挖掘的国家级名老中医治疗肿瘤用药规律研究[J].中国中医药信息杂志,2015,22(6):50-53.

[5] 吴嘉瑞,宋京美,张冰,等.基于数据挖掘的国家级名老中医治疗肝病用药规律研究[J].中国中医药信息杂志,2014,21(6):30-33.

[6] 张月.中晚期肺癌患者中医证候的聚类分析研究[D].北京:北京中医药大学,2008.

[7] 杨素芳,林永廉.基于聚类分析的原发性肝癌介入治疗前中医证型特点研究[J].中国中医药信息杂志,2012,19(10):11-10.

[8] 卢焯明,钱新华.以聚类分析法研究儿童中间型β地中海贫血的中医证候分布规律[J].中华中医药杂志,2012,27(3):607-611.

[9] 查青林,何羿婷,喻建平,等.基于决策树分析方法探索类风湿性关炎证病信息与疗效的相关关系[J].中国中西医结合杂志,2006,26(10):871-873.

[10] 肖光磊.名老中医经验传承中的数据挖掘技术研究[D].南京:南京理工大学,2008.

[11] 史琦,王伟,陈建新,等.基于决策树的冠心病痰瘀互阻证识别模式研究[J].中华中医药杂志,2013,28(12):3523-3526.

[12] 李志更,王天芳,任婕,等.中医科研中几种常用数据挖掘方法浅析[J].中医药学报,2008,36(2):29-32,83.

[13] 吴荣,聂晓燕,王阶,等.基于贝叶斯网络的名老中医治疗冠心病辨证规律研究[J].中国中医药信息杂志,2010,17(5):98-99.

[14] 徐璡,许朝霞,许文杰,等.基于贝叶斯网络原理的835例冠心病病例中医证候分类研究[J].上海中医药杂志,2014,48(1):10-13.

[15] 张跃宏,刘平,张琴,等.基于粗糙集与广义关联度系数的贝叶斯中医证候分类模型[J].统计与决策,2008(12):159-161.

[16] 龚燕冰,倪青,高思华,等.2型糖尿病主要理化指标与中医证候相关性的贝叶斯网络分析[J].中华中医药杂志,2010,25(1):31-33.

[17] 陈楚湘,沈建京,陈冰,等.运用粗糙集理论建立中老年肺炎中医症候诊断标准[C]//中国自动化学会控制理论专业委员会.第二十九届中国控制会议论文集.上海,2010:40-42.

[18] 孙继佳,苏式兵,陆奕宇,等.基于粗糙集与支持向量机的中医辨证数据挖掘方法研究[J].数理医药学杂志,2010,23(3):261-265.

[19] 陈素玲,付爽,高云,等.基于飞粗糙集理论的原发性高血压肝阳上亢证辨证系统的建立[J].山东中医药大学学报,2010,34(3):201-203.

[20] 燕海霞,王忆勤,宫爱民,等.人工神经网络在中医脉象识别分类研究中的应用概况[J].世界科学技术—中医药现代化,2009,11(4):522- 526.

[21] 白云静,孟庆刚,申洪波,等.基于改进的BP神经网络的糖尿病肾病中医证候非线性建模研究[J].北京中医药大学学报,2008,31(5):308- 311.

[22] 沈庆韡.数字化中医声诊五脏五音信息提取和识别研究[D].上海:华东理工大学,2012.

[23] 王立文.基于深度学习与条件随机场的多标记学习方法的中医问诊建模研究[D].上海:华东理工大学,2013.

[24] 邵欢,李国正,刘国萍,等.多标记中医问诊数据的症状选择[J].中国科学:信息科学,2011,41(11):1372-1387.

[25] 秦中广,毛宗源.粗糙神经网络及其在中医智能诊断系统中的应用[J].计算机工程与应用,2001,37(18):34-35,74.

[26] 王阶,吴荣,周雪忠.基于支持向量机的名老中医治疗冠心病证候要素研究[J].北京中医药大学学报,2008,31(8):540-543,560.

[27] 杨丽萍,黄睿,张洛欣,等.用特征功能模块法挖掘一个虚寒证家系的基因表达谱[J].中华中医药杂志,2010,25(5):683-685.

[28] 许朝霞,王忆勤,颜建军,等.基于支持向量机和人工神经网络的心血管疾病中医证候分类识别研究[J].北京中医药大学学报,2011,34(8):539-543.

(收稿日期:2015-07-11)

(修回日期:2016-02-16;编辑:梅智胜)

猜你喜欢

粗糙集决策树贝叶斯
基于Pawlak粗糙集模型的集合运算关系
一种针对不均衡数据集的SVM决策树算法
决策树和随机森林方法在管理决策中的应用
贝叶斯公式及其应用
多粒化粗糙集性质的几个充分条件
基于决策树的出租车乘客出行目的识别
基于贝叶斯估计的轨道占用识别方法
双论域粗糙集在故障诊断中的应用
一种基于贝叶斯压缩感知的说话人识别方法
两个域上的覆盖变精度粗糙集模型