数据挖掘方法在中医医案研究中的现状分析
2012-01-25李鑫颉贾振华吴以岭
李鑫颉,贾振华,吴以岭
(1.河北以岭医药研究院,石家庄 050035;2.河北省络病重点实验室,石家庄 050035;3.国家中医药管理局重点研究室(心脑血管络病/国家中医药管理局中医络病学重点学科),石家庄 050035)
中医医案是中医学的重要内容和中医经验传承的主要模式[1],是中医理论之源泉。医案,又称脉案、方案、诊籍,是中医诊治疾病临床记录所形成的第一手资料,为中医学理论的发展、临床经验的传承发挥了不可替代的作用。诚如当代中医名家章次公先生所说:“医案为古人积验所在,近贤经验之总结亦汇集于医案。”
1 医案的整理研究概要
宋·许叔微《伤寒九十论》运用《伤寒论》的理法方药治疗并论述90种伤寒病证,先案后论,每案之后参以心得,开创了中医个案专著之先河。明代出现了我国历史上第一部医案类书—江瓘《名医类案》,汇集明代以前历代医家医案及经史百家中所载医案近3000例,以病证分为205门。清代出现了现存篇幅最大的医案类书《续名医类案》,是中医学术发展史上对中医医案的第二次全面整理。此类巨著亦为医案整理研究的专著。至近现代,医案研究更是层出不穷。1988年,黄煌[2]已在《医案助读》一书中探讨了医案的类例、阅读、评注、撰写、整理等问题。而茅晓[3]则从方法学上探讨了医案研究的方法,列为分析与综合、归纳与演绎、系统方法等8法。上述医案的整理研究为数据挖掘技术在中医医案中的应用奠定了基础。
2 数据挖掘技术应用现状
2.1 数据挖掘技术与中医学
对海量且无序的中医医案数据,仅靠传统经验分析和简单统计学处理无法获得数据中隐含的规律,数据挖掘技术为从海量数据中提取潜藏信息提供了方法学支持。数据挖掘(Data Mining,DM)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中、不为人知但又是潜在有用的信息和知识的过程[4]。目前数据挖掘已在多个领域中应用,医学研究具有复杂性、模糊性及非规范化的特点。其在中医学上应用的文献最早见于2001年,以二妙散为例,论述了中医方剂的数据挖掘方法[5]。当前在中医领域,数据挖掘应用最广泛的是在中药(复方)的研究中,并已取得了一定的进展[6]。如冯雪松等[7]对中药指纹图谱的数据挖掘研究,完善了中药质量标准,推动了中药产业化。数据挖掘应用于中医药领域将会对中医药学术水平的提高、现代化研究的进程、生存空间的扩展产生巨大的促进作用。
2.2 数据挖掘的工具和方法
目前常用于中医学研究的数据挖掘方法有聚类分析、关联规则分析、相关性分析和因子分析等。
2.2.1 聚类分析 直接比较样本中各事物之间的性质,将性质相近的归为一类,有助于对大量数据中的规则予以认识。聚类分析可将一些观察对象依据某些特征加以归类,在中医医案研究中,聚类分析能较好地避免分类过程中掺杂的主观因素,客观准确地反映研究对象,并从中可能发现其内在的客观规律[8]。张世筠等[9]运用变量聚类分析的数理统计方法,将中医肝证的多个主要证型分类为实证、风证和虚证等3类。而聚类分析亦有其局限性,在研究中医证候时对症状的归属要求具有专一性,聚类结果的好坏也没有评价的客观标准,由结果的有用性来决定[10]。
2.2.2 关联规则分析 关联规则是数据挖掘领域中最为常用和成熟的方法之一,目的是从给定的事项中,挖掘出事物特征之间满足一定支持度和置信度的关联现象。因此,可应用关联规则帮助分析证候,组成中医症状体征的内在关系,更为客观和准确地把握疾病的病机病理,并有助于辨证论治客观化和规范化的研究。朱立成等[11]采用关联规则分析名中医哮喘医案,得出中医医案中的用药、四诊信息、病因、病位、证候之间存在一定关联性,并通过关联规则分析获取其中规律。关联规则在应用过程中,可能会存在诸如支持度和置信度较高的规则,而实际并无应用意义,这就需要在运算时,保证高质量的数据进行规则验证以及多次反馈修正[12]。
2.2.3 相关性分析 相关性分析法是研究随机变量之间的统计相关关系的一种数理统计方法。近年来在一些中医医案研究中,利用了统计学中相关及回归的原理,研究医案中出现的要素之间相关关系的规律性。如丁素珍等[13]对45例使用四逆汤的医案进行分析,发现附子与干姜有明显的剂量相关关系,证实姜附同伍、走守相辅的相关关系。丛华等[14]总结了中医历史上著名医家的医案22459条,采用非条件Logistic多元逐步回归法筛选出肺病的常见临床证候。相关分析必须以定性分析为前提,在进行预测时选取的样本要尽量分散,以减少预测误差,在进行预测时只有在现有条件不变的情况下才能进行,如果条件发生了变化,原来的方程也就失去了效用。
2.2.4 因子分析 又称因素分析,是一种用来寻找隐藏在可测变量中无法直接观察到却影响或支配可测变量的潜在因子,并估计潜在因子对可测变量的影响程度以及潜在因子之间的关联性的一种多元统计分析方法[15、16]。利用此方法可以分析医家的处方规律和常用药物组合。彭丽坤等[17]收集明清两代部分医籍、医案、医话总共559例治疫处方,总结归纳出明清中医疫病发病、治法及用药方面的一些特点及规律。因子分析的目的是用少数几个因子去描述许多因素之间的联系,即将相关联比较密切的几个变量归在同一类中,每一类变量就成为一个(公)因子,以少数的几个因子反映原变量的大部分信息[18]。
2.3 无监督数据挖掘方法及应用
伴随着中医医案的系统整理研究,中医医案证候研究亦取得了一些进展,但仍没有找到合适的方法和途径。无监督数据分析方法的出现为中医证候更为深入地规范化研究提供了方法学保障。与上述分析方法相比较,无监督数据挖掘方法更适合目前中医证候研究的需求。已有很多学者将无监督数据分析方法运用到证候研究中,取得了一些可贵的经验。如赵燕[19]运用无监督数据分析方法,通过理论探讨、文献挖掘、临床调查、数据分析,提取了16个抑郁症常见证候要素,初步摸索了应用无监督数据分析方法,以证候要素为核心进行证候规范化研究的新模式。李海霞等[20]以冠心病心绞痛的证候聚类为例,对扩展熵的无监督聚类进行分析。结果表明,通过该聚类方法得到的结果大多与临床专家的经验相吻合,为中医证候要素的标准化制定提供了客观依据。
那么,何为无监督数据挖掘方法呢?无监督方法是相对于监督方法而言,二者是机器学习方法研究的两大策略。监督挖掘方法是通过对已知类别的训练样本的学习,实现对未知样本的分类判断。无监督挖掘方法是在无专家知识前期参与的情况下,从样本(变量)的特征出发,研究通过某种算法将特征比较相似的样本(变量)聚集在一起,从而达到区分具有不同特征样本的目的[21]。其优点是可以发现样本中隐含的共性和规律。在中医证候研究中它更客观,与中医辨证思想更接近,更符合组方规律研究的需求。随着研究的日益深入,无监督数据挖掘方法将成为证候研究的新方向。
综上,数据挖掘技术是一把开启数据宝库的金钥匙,十分适用于分析散在、庞杂的中医医案资料,揭示中医理论的科学内涵,发现海量信息中的隐藏模式和内在规律。当然,探讨医案研究方法不是研究医案的最终目的,更应引起关注的应该是对古代医案的理论研究和现代阐释,即从古代医案中发掘医家的临床辨证思维和学术创新思维,因而更为适合研究医家思想的无监督数据挖掘方法应运而生。
3 结语
章太炎先生指出:“中医之成绩,医案最著。欲求前人之经验心得,医案最有线索可寻,循此钻研,事半功倍。”因此,有必要认真研究中医医案。数据挖掘是从海量数据中获取知识的有力工具,而无监督数据挖掘方法更为适合繁杂的中医医案研究,必将在探索中医理论和临床规律中发挥不可估量的作用。
[1] 蔡林峰,傅冬绵,蒙 璐.案例推理技术在企业资信评估中的应用[J].微机发展,2004,14(7):118-121.
[2] 黄 煌.医案助读[M].北京:人民卫生出版社,2001:3.
[3] 茅晓.《名医类案》研究的方法学探讨[J].南京中医药大学学报(社会科学版),2002,3(1):34.
[4] Micheline Kamber.数据挖掘概念与技术[M].北京:机械工业出版社,2001:3-4.
[5] 蒋永光.试论中医方剂信息的数据化[J].中国中医药信息杂志,2001,8(12):80-81.
[6] 田 琳,阎英杰,朱建贵,等.数据挖掘及其在中医药领域中的应用[J].中国中医基础医学杂志,2005,1(19):710.
[7] 冯雪松,董鸿晔.中药指纹图谱中的数据挖掘技术[J].药学进展,2002,26(4):198-201.
[8] 刘 稼.聚类分析在中医药研究中的应用及意义[J].中医药学刊,2004,22(5):927-928.
[9] 张世筠,沈明秀,王先春,等.中医肝证的变量聚类分析[J].中国中西医结合杂志,2004,24(1):75-76.
[10] 苏晓宇.数据挖掘聚类分析方法在中医临床中的运用[J].实用中西医结合临床,2010,10(6):90-92.
[11] 朱立成,林色奇,薛汉荣,等.名中医哮喘医案445例关联规则分析[J].江西中医学院学报,2007,19(5):83-87.
[12] 童元元,赵英凯,于 静,等.关联规则在中医药领域的应用研究[J].中国中医药信息杂志,2009,16(7):95-96.
[13] 丁素珍,曹 毅.45例四逆汤病案药物剂量的相关与回归分析[J].河南中医.1997,17(4):245-246.
[14] 丛 华,张启明.肺病辨证用药的Logistic回归分析[J].山东中医药大学学报,2002,26(5):322-327.
[15] 毛国君,段立娟,王 实.数据挖掘原理与算法[M].北京:中国水利水电出版社,2005:64-108.
[16] 孙振球.医学统计学[M].北京:人民卫生出版社,2002:330-331.342-343.
[17] 彭丽坤,陈仁寿,李文林,等.明清中医疫病发病、症状及用药的因子分析研究[J].中医药信息,2009,29(4):4-7.
[18] 王 兵.基于古今医案数据分析的水气病证治规律研究[D].哈尔滨:黑龙江中医药大学学位论文,2010,34-35.
[19] 赵 燕.基于多种无监督数据分析方法的抑郁症证候要素研究[D].北京中医药大学学位论文,2007:6.
[20] 李海霞,孙占全,王 阶,等.基于扩展熵的无监督聚类的中医辨证[J].中国中医基础医学杂志,2007,17(8):627-629.
[21] 邱德红,陈传波.融合无监督和监督学习策略生成的多分类决策树[J].小型微型计算机系统,2004,25(4):555-559.