方剂配伍规律的可视化表示方法与知识发现
2016-02-16樊凤杰洪文学宋佳霖李少雄郑存芳
樊凤杰 洪文学 宋佳霖 李少雄 郑存芳
1(燕山大学电气工程学院生物医学工程系,河北 秦皇岛 066004)2(东北大学大数据分析中心,河北 秦皇岛 066004)
方剂配伍规律的可视化表示方法与知识发现
樊凤杰1*洪文学1,2宋佳霖1李少雄1郑存芳1
1(燕山大学电气工程学院生物医学工程系,河北 秦皇岛 066004)2(东北大学大数据分析中心,河北 秦皇岛 066004)
方剂配伍规律研究是中医现代化研究的核心问题之一。随着数据挖掘技术的发展和中医信息化的逐渐深入,很多数据挖掘方法已被应用到方剂配伍规律研究领域。基于形式概念分析理论,提出一种偏序结构图分层表示的方剂配伍知识可视化方法。以《张仲景方方族》中小青龙汤类方剂为例,说明知识发现过程。以该类方剂中的方剂与药物、证候与药物为对象和属性分别构建偏序结构图,依据属性特征定义及偏序结构图的层次关系分析方剂配伍规律。结果表明,根据方剂与药物偏序结构图的层次和涵盖支路情况,可以直观地发现小青龙汤类方剂中包含1味核心药五味子;高频药物包括细辛和半夏,其中细辛出现频次为13次,半夏出现频次为10次;常用的药对有8对,药组有3组。从不同簇集角度分析可以发现,小青龙汤类方剂可以聚类为5大簇集,每个簇集的方剂组成、主治功效等具有共性。根据证候与药物偏序结构图可以发现,除小青龙汤证候外,12个证候均是在小青龙汤证候基础上加减变化而成的。可见,偏序结构图可视化表示方法可清晰地反映出方剂与药物、药物与证候之间的配伍群结构。
形式概念分析;偏序结构图;方剂配伍;知识发现;可视化
引言
中医药几千年临床实践积累了大量方剂,载录了中医组方用药的原理、规则、经验和技巧,已知和未知的配伍规律包含于其中,数据挖掘技术为中医药知识发现研究奠定了基础[1-3]。
近年来,可视化数据挖掘技术在中医药研究领域被日益重视。吴朝晖等运用语义图挖掘技术,挖掘出方剂配伍中频繁出现的医学模式,结果表明该方法能提取出有价值的方剂配伍信息[4]。高晶提出构建梯状结构图,对方剂群结构进行研究[5]。李敬华等设计方剂树形分析工具,对中药“基本方”理论进行研究[6]。陶金火用中医药语义本体概念名称将文献中的关键词提取出来,再用相关算法筛选出高频的词组,并对他们进行基于中医语义本体知识库的语义关系识别或预测,最后生成若干个对应每组关键词的语义关系图[7]。高铸烨等用复杂网络,挖掘分析冠心病证候-治法-中药关系,建立证候-治法复杂网络图、证候-药物复杂网络图和证候-功效复杂网络图,发现冠心病中医临床诊疗符合理法方药相一致的原则,并挖掘出治疗冠心病的清热治法、解毒治法[8]。刘超男等用多层次复杂概念网络,挖掘《伤寒论》配伍知识的群结构[9]。翟海斌等利用决策树技术,对血瘀证病例数据进行分析处理,结果表明决策树能自动从中医病例中归纳诊断规则[10]。尚尔鑫等将不同瘀血证证型的四物汤类方从组方、药物、性味归经及功效等方剂信息表现在三维图形上,以寻找各类血瘀证型方剂对图形中的共同节点,分析四物汤类方治疗血瘀证的用药特点[11]。可视化数据挖掘的实质是一种发现知识的应用技术,是一个提取有用信息的过程。将可视化数据挖掘技术应用于中医药研究领域,可在一定程度上发现和认识临床病症与复方组方关系、复方药物的配伍关系、药味之间的相互作用关系等。
形式概念分析(formal concept analysis,FCA)是20世纪80年代德国的Wille教授将其作为一种数学理论提出来的。目前,FCA是进行数据挖掘和可视化表示的有力工具,已被广泛应用到机器学习、软件工程和信息获取等领域[12-14]。洪文学等基于形式概念分析理论,提出把大量的、不完全的、繁杂的中医数据表达在偏序结构图中,用可视化的方式使医生的临床经验真实地展现在人们面前,从而找出隐含在辨证论治背后的诊疗规律和规则,指导临床实践[15-16]。下面将基于偏序结构图的可视化方法应用于方剂配伍规律知识挖掘研究,为方剂配伍规律研究提供新的思路。
1 材料和方法
1.1 形式背景
以北京中医药大学傅延龄教授主编的《张仲景方方族》中小青龙汤类方剂为数据源,以excel 2007为数据存储工具,以方剂-药物(包括16首方剂和28味药物)、证候-药物(包括13个证候和22味药物)为对象和属性,生成形式背景。
形式背景通常用一个矩形表来表示,表的每一行是一个对象,每一列是一个属性。用数字1,2,3,…,n表示对象-方剂或证候,用a,b,c,…表示属性-方剂中的药物,当某方剂中含有某味药物或治疗某证候用到某味药物时,则在行列交叉处标记1,否则标记为0。表1为某对象和属性构成的形式背景的例。
1.2 方法
1.2.1 属性特征的定义
为了清楚地描述偏序结构图的构建方法,下面介绍一些相关的定义。
定义1:在形式背景K=(U,M,I)中,属性m∈M,且满足{g(m)|m∈M}=U,则称m为最大共有属性。
表1 形式背景的例
定义2:在形式背景K=(U,M,I)中,m0,m1,m2,…,mk∈M是一些属性,如果满足g(mi)⊆g(m0),其中i=1,2,3,…,k,且k≥2,则称在形式背景K中,属性m0为属性集合{m1,m2,…,mk}的共有属性。
定义3:在形式背景K=(U,M,I)中,若属性mi和属性mj,满足g(mi)⊆g(mj),(i≠j),则在形式背景K中,称属性mi是属性mj的伴生属性。
定义4:若属性m1和m2满足g(m1)∪g(m2)=U,g(m1)∩g(m2)=Φ,则称m1、m2为对立属性。
定义5:在形式背景K=(U,M,I)中,mi,mj∈M,且i≠j,如果同时满足g(mi)Ig(mj) ≠Φ,g(mi)⊄g(mj)∧g(mj)⊄g(mi),则称属性mi和mj为形式背景K的互不包含属性。
1.2.2 偏序结构图构建
基于形式概念分析的偏序理论构造的偏序结构图可以分为若干层,每一层都包含若干个节点,每个节点代表一个属性,上层节点与下层节点间有连线,连线为对象,其构建步骤如下。
步骤1:若形式背景中存在最大共有属性{〈f(U)〉},则第1层属性节点为{〈f(U)〉};形式背景中若不存在最大共有属性,则第1层属性节点为¢。
步骤2:偏序结构图第2层节点是{〈m〉|m∈M0},其中属性集合M0是形式背景K=(G,M,I)中的一个基本属性集合,其确定应先判定形式背景中是否含有可以覆盖全部对象集合的对立属性,若未有满足此项条件的对立属性,则选择可以覆盖全部对象集合的最少互不包含元素的两两互不包含属性作为该层的属性集合,每一个〈m〉都表示一个序列,每个序列只含有一个属性,均是此层次的一个节点,且从偏序结构图的首层节点{〈f(U)〉}到第一层节点集合{〈m〉|m∈M0}中的每一个属性节点〈m〉都用一条有向边链接。
所构建表1的偏序结构如图1所示。
图1 表1形式背景的偏序结构Fig.1 The partial ordered structure diagram of table 1
2 结果
根据偏序结构图的构建方法,构建小青龙汤类方的方剂-药物、证候-药物偏序结构图,如图2、3所示。基于偏序结构图,可以从群结构、支路和节点等不同角度对原始数据进行知识发现。
2.1 方剂-药物偏序结构图
在图2中,01~016对象依次为:01苓甘五味加姜辛半杏大黄汤,02苓甘五味加姜辛半夏杏仁汤,03补肺汤,04桂苓五味甘草去桂加干姜细辛半夏汤,05小青龙加石膏汤,06厚朴麻黄汤,07小青龙汤,08温肺汤,09杏子汤,010射干麻黄汤,011温肺散,012苓甘五味姜辛汤,013五味子散,014杏仁五味子汤,015桂苓五味甘草汤,016干姜汤;属性a1~a28依次为:a1五味子,a2细辛,a3半夏,a4干姜,a5甘草,a6茯苓,a7麻黄,a8杏仁,a9炙甘草,a10紫苑,a11炮姜,a12桂枝,a13桂心,a14芍药,a15石膏,a16射干,a17款冬花,a18人参,a19陈皮,a20白芍,a21生姜,a22大枣,a23厚朴,a24小麦,a25大黄,a26苏子,a27桑白皮,a28肉桂。
图2 方剂与药物偏序结构图Fig.2 The partial ordered structure diagram between prescription and drug
2.1.1 从层次角度分析
1) 最大共有属性:核心药(必用药)。图2中共有15层节点,{a1五味子}为第1层(最顶层)节点,根据最大共有属性定义可知,所有的对象(方剂)中均含有属性五味子这味药,说明五味子是小青龙汤类方的核心药。
2)共有属性:基础药(高频药)。由于偏序结构图是根据属性之间的包含关系逐层构建的,使得高频属性位于较高层次,因此位于较高层次的药物即为高频药。属性{a2细辛}位于偏序图的第2层,出现在支路01~013方剂中,{a3半夏}位于偏序图的第3层,仅次于细辛,出现在01~010方剂中,说明细辛、半夏为小青龙汤类方剂的基础药(高频药),在小青龙汤类方剂中起到了很重要的作用。
3)伴生属性:药组、药对。在偏序结构图中,伴生属性与其有伴生关系的属性一定在同一分支上。由偏序图可知,{a1五味子}-{a2细辛}、{a1五味子}-{a3半夏}、{a1五味子}-{a4干姜}是小青龙汤类方剂的常用药对。同理,{a2细辛}-{a3半夏}、{a2细辛}-{a4干姜}、{a2细辛}-{a5甘草}、{a3半夏}-{a4干姜}、{a3半夏}-{a5甘草}在小青龙汤类方中也常一起使用。另外,{a1五味子}-{a2细辛}-{a3半夏}、{a1五味子}-{a2细辛}-{a4干姜}、{a2细辛}-{a3半夏}-{a4干姜}等是常用的药组。
2.1.2 从簇集角度分析
从偏序结构图2中的不同簇集角度,可以将簇集分为5大类:第1类是以{a1,a2,a3, a4, a5 }={五味子,细辛,半夏,干姜,甘草}为顶点集合而成,包括01~05号方剂,其中02苓甘五味加姜辛半夏杏仁汤、03补肺汤、04桂苓五味甘草去桂加干姜细辛半夏汤均有温肺散寒、化饮、化痰、消肿功效。而其余2首方剂01苓甘五味加姜辛半杏大黄汤和05小青龙加石膏汤除了有化饮作用外,兼有泻热作用。第2类是以{a1,a2,a3,a4,a7}={五味子,细辛,半夏,干姜,麻黄}为顶点集合而成,包括06厚朴麻黄汤和07小青龙汤2首方剂,小青龙汤为治疗寒饮证的代表方剂,具有解表化饮、止咳平喘之功。厚朴麻黄汤解表化饮,清泻肺热,主治寒饮犯肺,气逆咳喘,表证未清,内有郁热之证。第3类是以{a1,a2,a3,a9,a11,a20}={五味子,细辛,半夏,炙甘草,炮姜,白芍}为顶点集合而成,包括08温肺汤和09杏子汤2首方剂,均治疗因虚饮停之证,温肺汤主治肺虚、久客寒饮、发则喘咳,杏子汤主治内伤、外感咳嗽、虚劳咳血痰饮停积之证。第4类是以{a1,a2, a6}={五味子,细辛,茯苓}为顶点集合而成,包括011温肺散和012苓甘五味姜辛汤2首方剂,其共有药物是五味子、细辛、茯苓,其中温肺散是在共有药物基础上加炙甘草和炮姜,而苓甘五味姜辛汤是在共有药物基础上加甘草和干姜。干姜和炮姜都有温肺化饮功效,但干姜辛热,燥烈之性强,炮姜性苦温,辛燥之性较干姜弱,温里之力不如干姜迅猛,但作用缓和持久。甘草偏于止咳化痰,炙甘草偏于补中气,说明温肺散所致的寒饮证较苓甘五味姜辛汤轻,苓甘五味姜辛汤治疗支饮反复发作,而温肺散治疗肺中寒之咳嗽。第5类是以{a1,a6}={五味子,茯苓}为顶点集合而成,包括014杏仁五味子汤和015桂苓五味甘草汤2首方剂。前方治疗寒饮兼气逆上冲之证,以平冲气为主;后方治疗痰饮居肺、阻滞肺阳所致的咳嗽短气之证,以止咳为主。
根据上述分析可知,同一簇集中各方剂主治、功效基本上有共性之处,但也存在某些方剂功效不一致却存在于同一簇集中的情况,如第2类簇集中的2首方剂。
2.2 证候-药物偏序结构图
图3是以证候为对象、以药物为属性构建形式背景的偏序结构图。其中,对象01~013依次是:01咳而上气,烦躁而喘;02干呕,发热而咳;03若小便不利,少腹满;04若轻微腹泻;05若噎;06面热如醉;07形肿;08头眩冒而呕;09若渴;010冲气已平,支饮复作之咳嗽,胸满;011胸满,痰声漉漉,倚息不能平卧;012咳而上气;013气从少腹上冲胸咽。属性a1~a22依次是:a1麻黄,a2芍药,a3干姜,a4桂枝,a5炙甘草,a6细辛,a7五味子,a8半夏,a9栝楼根,a10荛花,a11附子,a12杏仁,a13石膏,a14射干,a15生姜,a16紫苑,a17款冬花,a18大枣,a19厚朴,a20小麦,a21茯苓,a22大黄。
图3 证候与药物偏序结构图Fig.3 The partial ordered structure diagram between syndrome and drug
从层次角度分析,依然可看出a7五味子是小青龙汤类方剂的核心药,a6细辛、a3干姜是基础药。
从不同簇集角度分析,可以将簇集分为两大类:第1类是以{a7,a6,a3,a5,a8,a4,a2}={五味子,细辛,干姜,炙甘草,半夏,桂枝,芍药}为顶点的簇集,包括01~05支路。该簇集的子簇集{a7,a6,a3, a5,a8,a4,a2,a1}={五味子,细辛,干姜,炙甘草,半夏,桂枝,芍药,麻黄}药物组合为小青龙汤的构成药物,即02支路。此方具有外散风寒、内除水饮之功,重在温化寒饮,是表里双解的代表方剂。若水饮之邪郁久化热,则加a13石膏以清除烦热,即01支路,此方为小青龙加石膏汤。治疗除小青龙汤主证外,若同时出现小便不利、少腹满之证,则在小青龙汤方的基础上去掉a1麻黄加a12杏仁,即03支路。若同时出现轻微腹泻,则去掉a1麻黄加a10荛花,即04支路。若出现噎,则去掉a1麻黄加a11附子,即05支路。第2类簇集是以{a7,a6, a3,a5,a8,a21}={五味子,细辛,干姜,炙甘草,半夏,茯苓}为顶点的簇集,包括06~08支路。其中,08支路为小青龙汤方去掉a1麻黄,a2芍药,a4桂枝,加a21茯苓,用于治疗头眩冒而呕。若出现形肿则在此基础上加a12杏仁,即07支路。若有面热如熏表现,则加a22大黄以泄热,即06支路。
此外,其他支路的证候均是在小青龙汤方剂的基础上加减而成的。若冲气已平、支饮复作,即010支路,则在小青龙汤方剂的基础上减去a1麻黄,a2芍药,a4桂枝,a8半夏,加a21茯苓。若渴,即09支路,则减去a8半夏,加a9栝楼根。若胸满,痰声漉漉,喘息不能平卧,即011支路,则去掉a2芍药,a4桂枝,a5炙甘草,加a12杏仁,a13石膏,a19厚朴,a20小麦。若咳而上气,喉中水鸡声,即012支路,则减a2芍药,a3干姜,a4桂枝,a5炙甘草,加a14射干,a15生姜,a16紫苑,a17款冬花,a18大枣;若气从少腹上冲胸咽,则去a1麻黄,a2芍药,a3干姜,a6细辛,a8半夏,加a21茯苓。
3 讨论和结论
偏序结构图为一个封闭非循环的树形拓扑结构,最顶层和最底层有且只有一个节点,每一个节点代表一种属性,每一条支路代表一个对象,且边的方向是单向的,不能往返。一些对象聚集在一个或多个共有属性节点下,组成一个群结构,简称为集群或簇集,而且支路与支路之间不存在交叉,明确体现了层次结构,使知识体系的呈现更加简洁。
在偏序结构图中,层次越高,涵盖支路越多,越体现普遍性;反之,层次越低,涵盖支路越少,越体现特异性。根据层次和涵盖支路的情况,可以直观地发现类方中的核心药、基础药、高频药以及药对、药组等知识。类似的对象集中到不同的簇中,即同一簇集中各方剂组成、主治功效等有共性之处。当簇集越小、涵盖分支越少时,所包含的方剂共性越大,产生差异的原因越清晰。反之,簇集越大,涵盖分支越多时,所包含的方剂共性越不明显,产生差异的原因越复杂。因此,从簇集角度分析可以发现各方剂组成、主治功效等的共性之处,更加全面清晰地反映出方剂与药物、药物与证候之间的配伍群结构。
相对于传统的数据挖掘方法,偏序结构图方法不仅具有可视化效果,而且能可视化表达出传统数据挖掘方法的频次、聚类和关联分析,是将统计分析各种方法集成到一个框架下的知识发现方法。数据分析结果表明,该方法对挖掘中医药知识有一定的借鉴价值。对药物剂量与功效、症状与证候关联性等的知识挖掘,是今后进一步的研究工作。利用此理论和方法不局限于中医领域,在其他领域也有很好的应用前景,以领域中的一种或一类知识作为一个概念,以知识之间的关联作为概念之间的关系,可将其作为一个知识系统进行分析推理研究。
[1] 秦中广,毛宗源,邓兆智.粗糙集在中医类风湿证候诊断中的应用[J].中国生物医学工程学报,2001,20(4):357-363.
[2] 钟女娟,宋咏梅,刘更生,等.中药经验要素贝叶斯网络模型构建及应用[J].山东大学学报(医学版),2012,50(2):157-160.
[3] 张博.基于关联规则的数据挖掘技术在中药方剂配伍中的应用研究[J].甘肃联合大学学报(自然科学版),2011,25(1):82-86.
[4] Wu Zhaohui, Yu Tian, Chen Hejia, et al. Semantic Web Development for Traditional Chinese Medicine[C]//In proceedings of the Twentieth Innovative Applications of Artificial Intelligence Conference (IAAI-08), 2008: 238-242.
[5] Gao Jing. A Study of the Composition Structures of TCMP rescriptions [J].World Science and Technology,2008,3(1):67-70.
[6] Li Jinghua. A Study of TCP Basic Prescriptions and the Design of Tree shape analysis tools [J]. Traditional Chinese Medicine Information Magazine,2008,12(10):89-91.
[7] 陶金火,陈华钧,胡雪琴.中医药文献语义关系图发现[J].计算机科学, 2011,38(3):214-217.
[8] 高铸烨,张京春,徐浩,等.用复杂网络挖掘分析冠心病证候-治法-中药关系[J].中西医结合学报,2010,8(3):238-243.
[9] 刘超男,徐笋晶,李赛美,等. 基于多层次复杂概念网络表示方法的《伤寒论》方药按治法分类的知识发现[J]. 北京中医药大学学报, 2014,37(7):452-457.
[10] 尚尔鑫,范欣生,段金廒,等.基于三维图形化数据挖掘方法的四物汤类方配伍规律研究[J].中国实验方剂学杂志,2011,17(1):217-220.
[11] 瞿海斌,毛利锋,王阶.基于决策树的血瘀证诊断规则自动归纳方法[J].中国生物医学工程学报,2005,24(6):699-711.
[12] Jonas Poelmans, Sergei O. Kuznetsov, Dmitry I. Ignatov, et al. Formal Concept Analysis in knowledge processing: A survey on models and techniques[J]. Expert Systems with Applications,2013,40(16):6601-6623.
[13] 蒋平,任胜兵,林鹃.形式概念分析在软件工程中的应用[J].计算机技术与发展,2008,18(4):127-129.
[14] 康向平,李德玉.一种基于形式概念分析的粗糙集中的知识获取方法[J].山西大学学报(自然科学版),2011,34(3):415-420.
[15] Hong Wenxue, Li Shaoxiong, Yu Jianping, et al. A New Approach of Generation of Structural Partial-ordered Attribute Diagram[J]. ICIC Express Letters Part B Applications, 2012, 3(4): 823-830.
[16] Hong Wenxue, Yu Jianping, Cai Fei, et al. A New Method of Attribute Reduction for Decision Formal Context[J]. ICIC Express Letters Part B Applications, 2012, 3(5): 1061-1068.
Visualization Method and Knowledge Discovery of Prescription Composition
Fan Fengjie1*Hong Wenxue1,2Song Jialin1Li Shaoxiong1Zheng Cunfang1
1(InstituteofBiomedicalEngineering,CollegeofElectricalEngineering,YanshanUniversity,Qinhuangdao066004,China)2(BigDataVisualizationTechnologyCenter,NortheasternUniversity,Qinghuangdao066004,China)
formal concept analysis(FCA); partial ordered structure diagram; prescription compatibility; knowledge discovery; visualization
10.3969/j.issn.0258-8021. 2016. 06.019
2015-07-02, 录用日期:2016-03-27
国家自然科学基金(61201111,61074130, 81273740)
R2-03
D
0258-8021(2016) 06-0764-05
*通信作者(Corresponding author), E-mail: ffjmz@126.com