中医数据挖掘算法研究进展*
2015-04-14张鑫朱明峰杜建强郝竹林王国龙江西中医药大学计算机学院南昌330004
★ 张鑫 朱明峰 杜建强郝竹林 王国龙 (江西中医药大学计算机学院 南昌330004)
中医数据挖掘算法研究进展*
★ 张鑫 朱明峰 杜建强**郝竹林 王国龙 (江西中医药大学计算机学院 南昌330004)
伴随大数据时代的到来和数据挖掘技术的兴起,中医数据挖掘也逐步走向热门。本文对数据挖掘进行系统概述,着重对中医数据挖掘的研究进展进行了具体的趋势分析,对相关方法的研究进行了梳理,以期为相关科研工作者进行中医领域数据挖掘的研究提供有价值的文献参考。
数据挖掘;中医;决策树;随机森林;深度学习
千百年来累积的大量中医数据资料是历史传承下来的宝贵财富,随着数据库技术的发展,基于数据库的中医信息管理变得越来越便利,且聚集其中的中医药数据也在持续激增,这些海量中医药数据背后必隐藏许多有价值的信息。通过对大规模中医药数据的挖掘分析,能够为中医诊断提供决策支撑,探索中药配伍规律,对中医研究产生重大意义;也能促进中医文献古籍研究,促进中医信息的数字化、自动化和智能化的全面快速发展。当前,数据仓库、人工智能、机器学习等数据挖掘相关学科带动了数据挖掘的发展,因此也推动了数据挖掘在中医领域的广泛应用并迅速走向热门。
1 数据挖掘与中医数据挖掘
1.1 数据挖掘 所谓数据挖掘,是指从大量的、不完全的、有噪声的、模糊的实际应用数据中,提取隐含在其中的、人们事先未知的但是有潜在应用价值的信息和知识的过程[1]。数据挖掘是一门涉及面很广的交叉学科,包含机器学习、数理统计、神经网络数据库、模式识别、粗糙集、模糊数学等相关技术。
1.2 中医数据挖掘 近十几年,随着数据库技术的发展和中医领域数据的暴涨,数据挖掘方法开始引入到中医药研究上,产生中医数据挖掘。不同于传统科学数据,中医药数据有自己的特点。胡金亮[2]归纳其特点包括:症状的模糊性、证候的多态性、证候与症状间的非线性、中医药数据的多维性,以及挖掘的复杂性。基于此类特点,传统简单的统计分析工具已经不能满足中医现代化、信息化发展的根本需求。而中医数据挖掘技术正适合于复杂多维的数据分析,运用相应的算法可以从海量的中医药数据中发现知识。
1.3 常用中医数据挖掘分析方法 中医药研究过程中针对不同子领域的分析模式可选用不同的数据挖掘方法,常用的有关联规则、聚类分析、人工神经网络、决策树等方法,还有一些其他分析方法,包括遗传算法、贝叶斯信念网络、小波变换、主成分分析、时间序列分析和孤立点分析等。岳路[3]将决策树算法应用于小儿肺炎中医辨证,构建出一种小儿肺炎分类模型,该模型中小儿肺炎辨证分类的准确率达到80%,可用于临床辅助诊断。马金刚[4]基于关联规则研究方剂配伍的规律,所得到的分析结果与中医理论和临床经验总结总体相符,为进一步研究提供了依据。郜峦[5]借助聚类分析技术,初步揭示了新安医家对于中风病病因病机、辨证论治的独特见解,挖掘出其临床治疗思路,为临床防治中风病提供了一定的借鉴作用。杨涛[6]在应用人工神经网络探讨心系病位、病症特性与基础证的相关性研究中发现,BP神经网络能较好地模拟心系病位、病症特性与基础证的非线性映射,此类研究成果可以进一步应用于五脏系统辨证体系中,为病症规范化和诊断信息化提供参考。谢家宇[7]借助连续小波变换算法分析脉象信号,能较好地从人体的脉象信号中提取人体病变的特征信息。
2 中医数据挖掘的研究进展
近年来,为进一步促进中医领域的信息化、智能化发展,数据挖掘在中医药相关研究上越来越深入。笔者着重对目前中医数据挖掘的研究方向进行了具体分析,其主要呈现以下三个趋势。
2.1 改进传统挖掘算法
2.1.1 基于传统经典算法局部改进 即改进传统经典医学数据挖掘算法,弥补算法的某些不足,以提高算法的效率和精度。马建[8]针对传统贝叶斯算法在训练数据方面未考虑数据属性间的相关性而造成对数据分析的冗余、资源浪费以及分析效率下降等不足进行改进,并结合中医医案数据复杂、易缺失等特点,应用改进的贝叶斯网络算法对“内生五邪”医案进行中医规律的挖掘和分析,通过与传统的贝叶斯网络方法分类的结果相比较,发现前者具有更高的分析准确率。赵丹丹[9]以治疗糖尿病的中药方剂数据为研究样本,通过改进的Apriori算法来发现中药配伍规律,从而提取出使用中药治疗糖尿病的整体用药规律。高丽君[10]针对缺失数据处理和决策树分类对噪声数据敏感的不足,提出了基于灰色关联分析理论的填充算法,和基于尺度函数的变精度粗糙集属性选择标准的决策树改进算法,并将其嵌入冠心病的中医辅助诊疗系统,实现对冠心病数据集的中医诊断证型分类。张志顺[11]结合中医舌象的特点,利用可克服小波卷积滤波因非零轴对称而导致边缘重叠现象的改进型小波算法,对舌象图像边缘进行检测,从而解决了传统边缘检测算法对去除噪声和获取精细边缘之间的矛盾,获得比较理想的边缘检测效果。
2.1.2 组合传统经典挖掘算法 即捡取两种或两种以上数据挖掘算法,吸收其算法优点,弥补某种算法的不足,以取得更好的挖掘效果。为了提高神经网络的学习速度和泛化能力,谢铮桂[12]构建的中医舌诊智能诊断系统采用了一种改进的基于免疫聚类的RBF神经网络算法,可以通过学习训练集样本中每个病例的舌象特征参数,从而得出相应的病证。吴嘉瑞[13]采用关联规则Apriori算法和复杂系统熵聚类等无监督数据挖掘算法,分析处方中药物使用频次及药物之间的关联规则、处方规律,探讨颜正华教授治疗气滞证的用药经验,验证了其学术思想。吴芸[14]同样将组合算法用于舌诊研究,考虑到神经网络优化程度受到训练样本种类和数量的限制,其利用遗传算法寻优的特点对神经网络权值和结构等多方面进行优化,使中医舌诊神经网络能够在满足封闭性的同时也具有良好的开放性,提高其临床实用能力。
2.2 引进新的挖掘算法和技术 引入中医领域的传统数据挖掘方法多是基于分类、聚类以及关联分析等思想,近年除分类聚类之外,一些新型的数据挖掘算法也被运用到此领域,包括随机森林和深度学习等当前热门算法,以及数据挖掘可视化技术等热门技术,这也是中医领域数据挖掘发展的第二个方向。
2.2.1 随机森林 随机森林(RF)是Breiman提出基于统计学习理论的组合分类器算法,此方法是利用bootsrap重抽样法从原始样本中随机抽取自助样本集,对每个自助样本集构建决策树模型,然后组合多棵树的预测,通过投票输出最终预测结果[15]。大量实践证明,随机森林都有比较好的预测精度及良好的鲁棒性,因此随机森林在中医领域得到广泛应用。洪燕珠[16]利用随机森林方法对慢性疲劳(CF)进行中医症候要素特征症状的提取,得到CF的4个症候要素症状集的模型均达到94%以上,此结果表明随机森林对CF症候要素具有良好的分类性能。李雨[17]以中药药性为响应变量,基原性状为预测变量,分别用Logistic回归、支持向量机、决策树、随机森林、主成分-线性判别和偏最小二乘等六种方法建立判别模型,对植物性中药进行药性判别,并比较各种模型的判别效果,发现随机森林判别分析的准确率和预测准确率均最高。
2.2.2 深度学习 深度学习是一种新兴的多层神经网络学习算法,又被称为无监督的特征学习。深度学习结构特征是含多隐含层的多层感知器,通过组合低层特征形成更加抽象的高层表示(属性类别或特征),以发现数据的分布式特征[18]。通过深度学习,可实现复杂函数的逼近,能够从少数样本集中学习数据集本质特征。王立文[19]以慢性胃炎患者中医问诊数据为研究样本,从挖掘样本特征之间关系和挖掘类别标签之间关系两个角度出发,采用二类相关和深度置信网络,或深度玻尔兹曼机模型的基于深度学习的多标记学习法,分别建立深度学习和条件随机场模型,对中医慢性胃炎患者问诊数据进行训练和预测,得到五个常见指标下的实验结果符合中医理论,明显优于其他常见方法。
2.2.3 数据挖掘可视化 可视化数据挖掘技术是可视化技术和数据挖掘技术的有机结合,是应用计算机图形学、图像处理技术等,将数据挖掘的源数据、中间结果和最终结果转换成直观、易于理解的图形或图像的方式,并进行交互处理的理论、方法和技术[20]。可视化数据挖掘技术通过观察数据在多重维数和图形窗体中的存在状态,可以直观、迅速揭示数据趋势和相互联系的特点,使其应用颇为广泛。王玫[21]将可视化数据挖掘技术应用于HIS中的电子病历信息,可以帮助医生更直观更方便地分析和获得隐藏在病历数据中的信息和规律。支雅男[22]运用数据挖掘方法将中医古籍中的庞大数据信息进行可视化,以FCA理论为基础,借助概念格为可视化工具,为《伤寒论》中7个方剂集合构建属性偏序结构图,通过此图可以直观显示配伍研究与量效关系研究之间紧密的联系。
2.3 拓展中医药数据挖掘的应用领域 第三个趋势是扩展经典算法在中医药数据领域的应用。中医领域颇广,数据挖掘可应用的方向很多,也有很多学者将经典且研究很深的挖掘算法引入到中医数据研究的各个领域。主要有四大方向:一是在中医诊断领域,体现在中医四诊客观化、中医症候规范化和中医辨证智能化;二是在中药领域的研究,主要包括方剂药对和中药配伍规律探索、中药药性分类判断、中药药效量效分析等;三是中医信息学领域,包括中医信息处理,中医文献古籍、中医医案及名老中医诊疗经验研究;四是中医系统平台研究,包括中医辅助诊断系统、中医诊断效果评估系统,以及基于检索的中医文献查询系统研究。关联分析在中医领域的应用极其广泛,代治国[23]将关联分析中的频繁模式增长算法(FP-Growth算法)用于中医辨证诊断中经验数据挖掘,即从病症与辨证之间、辨证与处方之间、病症与处方之间挖掘归纳中医专家的辨证规律并模拟其诊断过程,其结果符合传统典型的中医理论。张润顺[24]通过名老中医肝脾不调医案,应用关联规则对其治疗肝脾不调证的用药规律进行分析。李文林[25]将关联规则用于分析明清古籍中疫病文献的药-证关系,其结果与中医疫病的治法及用药基本相符,能初步揭示明清医家对疫病诊疗的学术思想和治疫经验。
3 结束语
中医的现代化、信息化、智能化是中医迅速发展并走向世界的必行之路。数据挖掘技术在中医领域的应用,极大地推动了中医药研究的规范化进程。目前,由于中医药数据自身的特殊性,基于此领域的数据挖掘研究比较有限,因此中医数据挖掘有广阔的研究空间。如何结合中医药数据的特点,在算法和技术上有更多突破,以提高挖掘的效率和准确性,同时也将更多热门算法引入到中医相关领域,也是未来研究的关键点。
[1]Han J.W,Kamber M著.范明,孟小峰译.数据挖据:概念与技术[M].第2版.北京:机械工业出版社,2007:253.
[2]胡金亮,李建生,李素云.数据挖掘技术在中医证候研究的应用进展[J].辽宁中医杂志,2009,36(1):148-150.
[3]岳路,马凌燕,魏本征.基于决策树算法的小儿肺炎临床辨证分类模型研究[J].电子测试,2013(5):243-244.
[4]马金刚,胡志帅,曹慧,等.基于关联规则挖掘的方剂配伍规律初步研究[J].中国实验方剂学杂志,2013,19(7):351-353.
[5]郜峦,李锋刚.基于聚类分析的新安医家防治中风辨治规律探索[J].中国中医药信息杂志,2007,14(12):92.
[6]杨涛,吴承玉.基于人工神经网络的心系基础证诊断模型构建[J].中国中医基础医学杂志,2013,19(9):765-766.
[7]谢家宇,蔡坤宝.基于连续小波变换的中医脉象信号处理[J].生物医学工程学杂志,2004,21(3):469-472.
[8]马健,盛魁.基于改进的贝叶斯网络算法在中医医案中的应用研究[J].惠州学院学报,2013,33(3):52-56.
[9]赵丹丹.Apriori算法改进及其在中药知识发掘中的应用[J].计算机与现代化,2007(8):23-25.
[10]高丽君.面向缺失数据的变精度粗糙集决策树分类算法研究[D].大连海事大学,2013.
[11]张志顺.改进的小波变换在中医舌象边缘检测中的研究 [J].计算机工程与应用,2012,48(35):135-138.
[12]谢铮桂,韦玉科,钟少丹.基于免疫聚类的RBF神经网络在中医舌诊诊断中的应用[J].计算机应用与软件,2009,26(4):42-43.
[13]吴嘉瑞,郭位先,张冰,等.基于关联规则和复杂系统熵聚类的颜正华治疗气滞证用药规律研究 [J].中国中医基础医学杂志,2013,19(9):837-839.
[14]吴芸,周昌乐,张志枫.中医舌诊神经网络的优化遗传算法[J].计算机应用研究,2007,24(9):50-52.
[15]Breiman L.Random forests[J].Machine learning,2001,45(1):5-32.
[16]洪燕珠,周昌乐,张志枫,等.基于随机森林法的慢性疲劳证候要素特征症状的选择[J].中医杂志,2010,51(7):634-638.
[17]李雨.基于植物性中药基原性状药性判别模型的比较[D].山东大学,2011.
[18]孙志军,薛磊,许阳明,等.深度学习研究综述[J].计算机应用研究,2012,29(8):2 806-2 810.
[19]王立文.基于深度学习与条件随机场的多标记学习方法的中医问诊建模研究[D].华东理工大学,2013.
[20]张俊.可视化数据挖掘技术的研究与实现[J].重庆工商大学学报.自然科学版,2013,30(3):58-61.
[21]王玫,张兰华,张月东.电子病历中可视化数据挖掘技术的应用[J].微计算机信息,2011,27(7):239-240.
[22]支雅男.《伤寒论》中药配伍量效群结构知识发现方法研究[D].燕山大学,2013.
[23]代治国.关联规则挖掘在中医辨证诊断中的应用研究[D].哈尔滨工程大学,2007.
[24]张润顺,周雪忠,姚乃礼,等.基于关联规则挖掘肝脾不调证中药配伍规律研究[J].中国中医药信息杂志,2010,17(2):97-99.
[25]李文林,屠强,彭丽坤,等.基于关联规则分析明清古籍中疫病文献的药-症关系[J].时珍国医国药,2010,21(4):957-959.
Research Progress of Data M ining A lgorithm in Traditional Chinese M edicine
ZHANG Xin,ZHU M ing-feng,DU Jian-qiang,HAO Zhu-lin,WANG Guo-long
School of Computer Science,JiangxiUniversity of Traditional Chinese Medicine,Nanchang 330004,China.
With the arrival of the era of big data and the rise of data mining techniques,traditional Chinese medicine data mining gradually becomes popular.This articlemade a system summary of the datamining,putemphasis on the detailed trend analysis of the research progress of traditional Chinesemedicine datamining,and sorted the relevantmethods,which provided an important reference value of literature for the relevant research workers on traditional Chinesemedicine datamining.
Datamining;Traditional Chinese Medicine;Decision tree;Random forest;Deep learning
R2-03
A
2014-03-11)编辑:万崇毅
江西省教育厅青年基金项目(GJJ12539);江西省卫生厅中医药科研计划项目(2013A060);江西中医药大学重点学科青年教师培养资助计划项目(2013jzzdxk019)。
**通信作者:杜建强。E-mail:jianqiang_du@163.com。