基于数据挖掘技术分析韩振蕴教授治疗抑郁症的临床用药规律
2020-07-10林景峰胡文悦刘甘露马华萍韩振蕴
林景峰,胡文悦,刘甘露,马华萍,韩振蕴
韩振蕴教授是北京中医药大学深圳医院的主任医师,从事抑郁症研究工作20余年,临床擅长采用中西医结合方式治疗痴呆、中风、焦虑抑郁、失眠、头痛、头晕、帕金森病等神经内科常见病和疑难杂病[1]。R软件是一种为统计计算和绘图而生的语言和环境,是一套开源的数据分析解决方案,由一个庞大且活跃的全球性研究型社区维护,囊括了在其他软件中尚不可用的、先进的统计计算例程,拥有顶尖水准的制图功能[2]。本研究搜集并整理韩振蕴教授治疗抑郁症的中药方剂,基于R软件平台,使用多种数据挖掘技术探究其用药特点,并为抑郁症的临床用药提供理论支持。
1 资料与方法
1.1 数据来源 选取2017年9月17日—2018年11月21日北京中医药大学脑病科韩振蕴教授诊治的抑郁症病人69例,共138诊次。
1.2 纳入标准 ①符合《国际疾病分类》(ICD-10)中抑郁症的诊断标准;②中医方面符合《中医内科疾病诊疗常规》中郁病的诊断标准;③韩振蕴教授使用中药汤剂诊治者。
1.3 排除标准 ①研究对象共病有其他严重精神障碍;②妊娠及哺乳期病人。
1.4 研究方法 规范中药名称,将规范后的中药按照二分类的量化方法进行处理,以不同病人作为数据库的行标,不同中药作为数据库的列标,并对中药按照“使用=1,未使用=0”的规则进行赋值,建立Excel数据库。
1.5 统计学处理 采用R软件(Version:3.5.1)进行描述性统计分析和多种方法的数据挖掘分析。数据挖掘方面采用关联度分析和聚类分析。其中,关联度分析运用了Pearson相关系数的关联分析,基于Apriori算法的相关度分析。聚类分析运用层次聚类的平均联动方法和划分聚类的K均值(K-means)算法和围绕中心点的划分(PAM)算法。
2 结 果
2.1 基本分析 单味中药的频次分析所收集的138张中药处方中共使用了146味中药,平均每味药使用频次为16.73次。单味中药的使用频数在30次以上的中药有25味(17.1%)。详见图1。
图1 使用频数在30次以上中药的频数分布图
2.2 相关分析 相关系数可以用来描述两种中药之间的联带关系。R软件可以计算多种相关系数,包括Pearson相关系数、Spearman相关系数、Kendall相关系数等[2]。
2.2.1 Pearson相关分析 对146种药物进行Pearson相关系数分析,根据韩振蕴教授临床经验筛选了抑郁症相关药对20对,相关关联药物及Pearson相关系数见表1。
表1 Pearson相关系数居前20位的药对
2.2.2 对基于Pearson相关系数的可视化 利用R软件corrplot包对146味药物Pearson相关系数进行可视化作图。详见图2。
图2 146味药物Pearson相关系数的可视化点图
2.2.3 运用Apriori算法进行相关度分析 运用R软件的arulesViz包和arules包进行基于Apriori算法的相关度分析。选择支持度为0.5,置信度为0.8,筛选出的所有药物组合见表2。降低组合的支持度纳入门槛,取支持度为0.1,置信度为0.8,可得到5 882对符合要求的药物相关组合。其中lift值较高的相关组合见图3。从图3可以看出,lift值较高的组合以补肾安神类药物组合为主,说明韩振蕴教授在临床用药治疗抑郁症时,补肾安神类药物以固定组合的方式来使用的情况较多。韩振蕴教授临床诊治老年病人较多,年老精气自半,需在疏肝解郁的基础上辨证加入补肾安神的药对,如巴戟天、肉苁蓉配合生龙骨、生牡蛎等药物。本研究对得到的5 882个组合进行plot作图分析,plot的颜色深度代表组合药物的置信度。可见,在支持度>0.1的组合中,药物的置信度和lift值均较为客观,详见图4。故此关联分析具有较好的可信度。对得到的5 882个组合进行plot作图分析,plot的颜色深度代表组合药物的order(本研究中可以认为是药物组合中包含药物的个数),详见图5。可见,在支持度>0.1的组合中,药物的置信度良好,同时有大量组合含有较多的药物,故可得到新的置信度和支持度都较好,且药物数量较多的药物组合。对药物关联规则进行整体构图分析,结果见图6。从图6可以看出,柴胡、当归、生龙骨、生牡蛎、木香、栀子、白术、丹参、茯苓、陈皮、半夏、炙甘草等药物为韩振蕴教授临床用药最为中心的药物。
表2 基于Apriori算法支持度大于0.5、置信度大于0.8的相关药对
图4 基于Apriori算法,支持度大于0.1的药物的置信度和lift值
图5 基于Apriori算法,支持度大于0.1的药物的置信度和order值
图6 基于Apriori算法,支持度大于0.1的药物关联规则整体构图分析
2.3 聚类分析 聚类分析可分为层次聚类(hierarchical agglomerative clustering)和划分聚类(partitioning clustering),对于层次聚类来说,最常用的算法是单联动(single linkage)、全联动(complete linkage )、平均联动(average linkage)、质心(centroid)和Ward方法。对于划分聚类来说,最常用的算法是K-means和PAM。本研究运用R软件实现层次聚类的平均联动方法和K-means算法及PAM算法,并对各种算法所得到的聚类结果进行比较分析。
2.3.1 确定聚类数目
2.3.1.1 利用mclust包确定聚类数目 对146味中药进行聚类数目测试,具体测试结果见图7。由此可见,取1类的聚类数目是最优的聚类数目。但由于聚类数目并不能只有1类,故此方法不适合作为本次药物聚类数目的确定方法。
图7 利用mclust包确定聚类数目
2.3.1.2 利用组内平方误差和(sum of squared error,SSE)确定最佳聚类数目 最佳聚类数目为3个。详见图8。
图8 利用SSE来确定聚类数目
2.3.1.3 利用PAM算法确定最佳聚类数目 K-means算法取得的是均值,异常点对其影响较大,孤立的点易聚为一类,本研究使用PAM算法进行改进。利用PAM算法计算最佳聚类数目,得到最佳聚类数目为9个。
2.3.1.4 利用AP算法来确定最佳聚类数目 本质上是类似K-means或者层次聚类一样,是一种聚类方法,因为不需要像K-means一样提供聚类数,会自动算出最佳聚类数,因此,也可以作为一种计算最佳聚类数目的方法。经计算,得到的聚类数为29个。
2.3.1.5 利用轮廓系数(average silhouette method)计算最佳聚类数目 最佳聚类数目为10个。详见图9。
图9 利用轮廓系数来确定聚类数目
2.3.1.6 利用Gap Statistic方法寻找最佳聚类数目 计算结果的最佳聚类数目为1个,不符合要求。详见图10。
图10 利用Gap Statistic方法确定聚类数目
综合以上分析,本研究聚类数目可以暂时确定为3个、9个、10个和29个类别。
2.3.2 层次聚类 对146味中药进行层次聚类,可以将这些中药分为3类、9类、10类或29类。详见图11。聚类数目为3个时的聚类结果详见图12。当取聚类数目为3个时,具体分类见表3。第一类药物以疏肝化痰、理气安神为主;第二类药物以补肾填精为主;第三类药物以通络活血行气为主。药物被分成9类与被分成10类的聚类结果类似。本研究取分为10类的聚类结果。详见图13。该结果主要在聚类为3类的基础上进行了更加具体的药物分类。当药物被聚类成29类时,可以从中得到许多药对。详见图14、表4。具体可见的药对如枸杞子与龙眼肉、墨旱莲与女贞子、白僵蚕与全蝎、海藻与昆布、巴戟天和肉苁蓉、楮实子和沙苑子、石菖蒲和郁金等。
图11 146味中药的层次聚类分布图
图12 聚类数目为3个时的层次聚类结果分布图
表3聚类数目为3个时的层次聚类结果
序号 药物1白芍,白薇,柏子仁,半夏,薄荷,北沙参,萆薢,鳖甲,苍术,柴胡,炒白术,陈皮,赤芍,刺五加,大黄,胆南星,淡豆豉,淡竹叶,当归,浮小麦,附子,瓜蒌,广藿香,桂枝,何首乌,厚朴,黄柏,黄连,黄芩,火麻仁,藿香,鸡内金,姜半夏,焦麦芽,焦山楂,焦神曲,酒大黄,决明子,莲子心,灵芝,羚羊角,麦冬,牡丹皮,木香,炮姜,佩兰,枇杷叶,砂仁,山药,生地,生龙骨,生牡蛎,石斛,桃仁,菟丝子,瓦楞子,五味子,薤白,旋复花,薏苡仁,泽泻,浙贝母,珍珠母,知母,栀子,枳壳,枳实,炙甘草,炙黄芪,竹茹,紫苏梗2巴戟天,白术,楮实子,磁石,大枣,杜仲,茯苓,枸骨叶,合欢花,黄精,黄芪,鸡血藤,漏芦,鹿角胶,清半夏,肉苁蓉,三七,沙苑子,生姜,石菖蒲,熟地,锁阳,太子参,益智仁,淫羊藿,郁金3阿胶,艾叶,白僵蚕,白芷,补骨脂,车前子,川芎,丹参,丹皮,党参,地龙,佛手,茯神,藁本,葛根,钩藤,枸杞子,龟甲,海藻,红花,红景天,僵蚕,昆布,龙眼肉,鹿角霜,绵萆薢,墨旱莲,木瓜,牛膝,女贞子,羌活,全瓜蒌,全蝎,肉豆蔻,肉桂,桑寄生,沙参,山茱萸,首乌藤,酸枣仁,天麻,乌梅,细辛,香附,香橼,延胡索,益母草,枣仁,珍珠粉
图13 聚类数目为10个时的层次聚类结果分布图
图14 聚类数目为29个时的层次聚类结果分布图
表4聚类数目为29个时的层次聚类结果
序号 药物序号 药物1阿胶,补骨脂,党参,枸杞子,龙眼肉,鹿角霜,肉豆蔻,酸枣仁16火麻仁,鸡内金,焦麦芽,灵芝,炙黄芪2丹皮,墨旱莲,女贞子,全瓜蒌,沙参,山茱萸,17苍术,瓜蒌,焦山楂,焦神曲3白僵蚕,龟甲,全蝎18薤白,枳壳,紫苏梗4丹参,香附19半夏,萆薢,黄芩,藿香,佩兰5钩藤,红景天,牛膝,桑寄生,天麻20桂枝,黄柏,桃仁,菟丝子,薏苡仁6白芷,藁本,羌活,细辛,延胡索21附子,厚朴,酒大黄,炮姜7车前子,地龙,僵蚕,绵萆薢,枣仁22白芍,大黄,枳实8川芎,佛手,海藻,红花,昆布,乌梅,香橼,益母草23枇杷叶,山药,生地,泽泻,浙贝母,知母9艾叶,茯神,葛根,木瓜,肉桂,首乌藤,珍珠粉24白薇,刺五加,浮小麦,牡丹皮,珍珠母10巴戟天,楮实子,杜仲,黄精,黄芪,鸡血藤,鹿角胶,肉苁蓉,三七,沙苑子,熟地,锁阳,淫羊藿2526柏子仁,莲子心,羚羊角柴胡,炒白术,赤芍,淡豆豉,当归,生龙骨,生牡蛎11磁石,漏芦,石菖蒲,郁金27薄荷,广藿香,栀子12白术,大枣,茯苓,清半夏,生姜28鳖甲,胆南星,黄连,竹茹13枸骨叶,合欢花,太子参,益智仁29何首乌14陈皮,姜半夏,木香,砂仁,瓦楞子,旋复花,炙甘草15北沙参,淡竹叶,决明子,麦冬,石斛,五味子
2.3.3 K-means聚类分析 当取聚类数目为3类时,146种中药主要可以分为疏肝行气健脾、活血通络、补肾滋阴3类药物。详见图15。此3类药物也符合韩振蕴教授的临床用药习惯。韩振蕴教授临床治疗抑郁症病人中年轻妇女和更年期妇女也较为常见,女子以血为本,血能摄气,血行则气行,故在疏肝行气健脾的基础上注重辨证,加以活血通络等药物进行治疗。
2.3.4 PAM聚类分析 PAM聚类分析得到的结果与K-means聚类分析得到的结果类似。详见图16。
图15 K-means聚类结果
图16 PAM聚类结果
3 讨 论
抑郁症又称为抑郁障碍,是以持久显著的心境低落状态为主要特征的一种危害人类身心健康的常见病[3]。抑郁症在中医内科学主要属于“郁病”的范畴,从病因病机方面分析以“肝失疏泄,脾失运化,心神失养,脏腑阴阳气血失和”为主要原因,治疗方面则在疏肝解郁的基础上施以辨证论治[4]。本研究基于R软件平台,利用多种数据挖掘技术分析韩振蕴教授治疗抑郁症的临床用药规律。在Pearson相关系数分析方面,可以得到韩振蕴教授平时处方中的20个高相关度的中药对。但此相关系数未考虑到支持度与置信度的问题。故利用Apriori算法进行相关度分析,对支持度与置信度进行了限定,筛选高频药物中的药物组合。
根据表2可得出结论,在高频用药的中药中,以疏肝健脾理气类药物的药物组合为主。将支持度调低,筛选中高频的药物组合,得到图3。从图3可以看出,在中高频的药物组合中,以疏肝健脾理气类和补肾填精类药物为主。具体原因有几个方面:①抑郁症临床上以肝郁脾虚证为主[5-6],有研究表明抑郁症病人肝郁占41%,脾虚占16%[7]。而肝郁脾虚型抑郁症在治疗用药方面需以疏肝健脾理气药为主。图6中标出了韩振蕴教授门诊中最为核心的药物,主要为柴胡、当归、生龙骨、生牡蛎、木香、栀子、白术、丹参、茯苓、陈皮、半夏、炙甘草等药物。其中当归、柴胡理气疏肝活血,生龙骨、生牡蛎重镇安神,丹参活血安神,木香、丹参活血理气,半夏、陈皮、茯苓、白术健脾理气,诸药合用,共奏疏肝健脾、安神理气之功效。②韩振蕴教授门诊有不少老年抑郁症病人,此类病人在辨证时多在肝气郁结的基础上存在肝肾不足,故用药时需用到不少补益肝肾的药物。图15 K-means聚类分析表明,韩振蕴教授临床较为常用的补益肝肾药物主要为褚实子、巴戟天、肉苁蓉、锁阳、黄精等。此类药物大多为温润补益之品,对老年抑郁症存在肝肾不足者效果佳。
本研究仅对韩振蕴教授处方中的中药组成进行了分析,并未针对病人年龄、性别等与药物组成进行交叉分析;同时,本研究样本量为69例,样本量有限,研究结论需更大的样本量进行验证。另外,本研究未将药物剂量作为加权指标对药物组成进行加权,未考虑药物剂量所造成的影响。故后期仍需进行更加深入的数据挖掘。