基于文本挖掘技术的慢性肾脏疾病中医治疗用药规律研究*
2011-06-11黄允瑜郭洪涛
黄允瑜,巴 燕,郑 光,郭洪涛,姜 淼△
(1.北京中医药大学东直门医院,北京 100700;2.新疆维吾尔自治区中医医院,乌鲁木齐 830000;3.中国中医科学院中医临床基础医学研究所,北京 100700)
文本挖掘技术是在数据挖掘的基础上针对文本开发的一种信息提取分析技术[1]。应用文本挖掘技术可以智能地从信息库中检索出符合用户需求的信息,还可以从文本数据中梳理、发现和提取其中隐含的知识并形成用户可理解的信息知识。
中医治疗疾病讲究的是理法方药,各种中医理论提出的各式各样的治疗方法,选择合适的方剂,配合一定的药物剂量和药味加减,再选择相应的加工方式进行制作,最终才能应用于患者,发挥其治疗疾病的作用。其中,中药作为中医治病的物质基础,在文献中被大量刊载。对其进行全面分析和整理,有助于发现疾病治疗的核心规律,为进一步提高中医临床疗效、深入开展中医科研提供依据。
慢性肾脏疾病(chronic kidney diseases,CKD)因其起病隐匿,已成为严重威胁人类健康的隐形杀手之一,对人类生存质量及社会发展构成极大危害[2]。各处CKD因其缠绵难愈,易导致慢性肾功能衰竭的严重后果,一直受到医学界的重视。中医药治疗CKD已有数千年历史,相关用药经验报道丰富[3-5]。基于现有大量的相关文献,应用文本挖掘技术对中医治疗慢性肾脏疾病文献报道所使用的中药进行挖掘和分析,是全面整理总结慢性肾脏疾病治疗经验的有益探索[6、7]。
1 材料与方法
1.1 文献选取方法
登录中国生物医学文献数据库(英文全称Chinese BioMedical Literature Database,简称 CBM)在主题检索下以“肾小球肾炎”、“肾病综合征”、“肾功能不全”为关键词进行检索。经过检索,出现款目词、主题词、命中文献数,合并检索主题词共得到文献50682篇,其中肾功能不全27017篇,肾病综合征10018篇,肾小球肾炎13647篇(检索日期为2010年6月4日)。显示格式中选择“详细”和“显示全部”,以显示每篇文献的流水号、标题、摘要、主题词等信息。
1.2 文献处理方法
将收集来的相关文献数据,按照下载的先后顺序,分别整合到一个平面文件(后缀 TXT)里,以ANSI编码格式保存。然后,利用专有的文本提取工具(正申请软件著作权),对1.1中下载的非结构化的TXT文本数据进行信息提取,所提取信息主要是机标关键词(包括核心和非核心2种类型,以下简称关键词)。提取出来的数据首先存入Access数据库,作为下一步数据处理的基础数据,然后导入SQL中进行下一步的挖掘分析。
1.3 数据挖掘以及分析
根据1.2中生成的 Access数据库,将基础数据导入 SQL中,以“Table_Initial”为表名称,将“序号”和“机标关键词”2个字段分别用 PMID(类似于PubMed里面的字段名)和 DescriptorName(类似于PubMed里面的字段名)来表示,针对“序号”和“机标关键词”进行处理。
首先,从初始数据表(Table_Initial)中运用“关键词组合算法”,对同一篇文献中出现的关键词进行配对,然后去除冗余的关键词对,构造针对每一篇文献共同出现的关键词对,最后输出到“关键词对数据表”(DN_pairs)中。
针对DN_pairs的数据表。通过构造“关键词对频数统计”的算法将其中相同的关键词对进行合并处理,只保留它们出现的频数。将结果输出到名为DN_pairs_frqcy的数据表中。表中所有的关键词对都只出现1次,并且都有 1个出现的频数(Frequency)。
1.4 数据的可视化
根据1.3中得到的数据表DN_pairs_frqcy,抽出不同频数的关键词对,根据中药间相关频次手工分类,用 Cytoscape 2.7软件进行可视化处理,分别得到治疗各个疾病的中药用药网络图,从中选出有代表性的两层进行分析讨论。
2 结果
2.1 治疗肾功能不全常用中药的频数关系
图1A显示,冬虫夏草、丹参、川芎、黄芪、附子、红花、牡蛎、蒲公英、大黄、茯苓是中医治疗肾功能不全的常用药物。图1B显示,丹参、黄芪、大黄是治疗肾功能不全的核心药物。
2.2 治疗肾病综合征常用中药的频数关系
图1 A 治疗肾功能不全常用中药频数关系图(第三层)
图1 B 治疗肾功能不全常用中药频数关系图(最高层)
图2A显示,当归、白术、茯苓、益母草、雷公藤、黄芪、人参、三七、水蛭、地龙、丹参、川芎、红花是中医治疗肾病综合征的常用药物。此外,人参和三七成对出现,也是中医治疗肾病综合征的常用药物组成。白花蛇舌草与蛇舌草的成对出现提示,现有文献中的药名使用尚欠规范,但2个名称成对出现,说明文本挖掘工具对于同药异名现象具有一定的识别能力。图2B显示,人参、三七、黄芪、当归、丹参是治疗肾病综合征的核心药物。
2.3 治疗肾小球肾炎常用中药的频数关系
图3A显示,连翘、赤小豆、麻黄、泽泻、雷公藤、大黄、丹参、白术、茯苓、白茅根、益母草、山药、党参、当归、黄芪是中医治疗肾小球肾炎的常用药物。此外,麻黄、连翘、赤小豆的成对出现,也是中医治疗肾小球肾炎的常用药物组成。木通和关木通的成对出现说明,中医对木通类药物十分重视。图3B显示,黄芪、丹参、当归和益母草是治疗肾小球肾炎的核心药物。
图2 A 治疗肾病综合征常用中药频数关系图(第三层)
图2 B 治疗肾病综合征常用中药频数关系图(最高层)
图3 A 治疗肾小球肾炎常用中药频数关系图(第三层)
图3 B 治疗肾小球肾炎常用中药频数关系图(最高层)
3 讨论
根据美国肾脏病学会指南的定义,CKD包括:(1)肾损害持续时间超过3个月,伴或不伴肾小球滤过率(GFR)下降,肾损害指肾脏结构异常(影像学检查异常或者肾组织病理异常)或肾脏功能异常(血或尿组成成分异常);(2)GFR <60ml·min-1·(1.73m2)-1持续时间超过3个月,伴或不伴肾脏损害。同时,CKD的预后仍然很差。至今为止,我们仍不能完全控制CKD的进行性发展,相当多的CKD患者最终将进展为终末期肾脏病(ESRD)阶段,即慢性肾衰,这些慢性肾衰患者大部分为中青年。进入慢性肾衰阶段的患者将部分甚至完全丧失劳动能力,需要接受人工替代或生物替代治疗。人工替代即透析,需要高昂的医疗费用维持,对患者本人以及社会带来很大的经济负担。
中医学对于CKD的认识与记载历史悠久,治疗也颇有心得,疗效显著的医家也大有人在。然而,由于不同医家对于CKD的病因、病机、辨证、论治均有独特的认识与见解,在CKD的辨证论治方面难以形成标准化共识,这也为相关中医知识的传承带来一定难度。通过现代文本挖掘工具的运用,我们希望能够汇聚众医之长,探索CKD治疗中应用频率最高的中药组合,从而了解中医药治疗 CKD的用药规律,并希望在此基础上,进行更加深入的相关研究。
中医传承中,历来重视文献研究,而文献研究的的方法亦有很多种。我们认为,在同一篇文章中出现的关键词,在关键词这一抽象层面上,部分反映整篇文章的信息。并且,就某一篇具体的文献来说,相关的关键词之间存在着“共同出现”这一基本事实。这种协同出现不是随机的,而是蕴含有一定的意义[5],尤其是在以很高的频率、协同出现的关键词对,在一定的程度上,反映了全国乃至世界科研工作者对它们的重视程度。更重要的是,针对目前的文本挖掘技术来说[3-5],这些协同出现的关键词,是很好的基础素材。基于以上认识,我们开展了文本挖掘与分析技术在中医药临床实践中的用药规律研究。
研究结果显示,治疗肾功能不全的常用药物为冬虫夏草、丹参、川芎、黄芪、附子、红花、牡蛎、蒲公英、大黄、茯苓等;而其中丹参、黄芪、大黄是治疗肾功能不全的核心药物。可以看到,代表补益、活血、泄浊法的药物占据主导地位,而其核心药物则更加明确的提示了肾功能不全中医治疗中的“通补”思路。
治疗肾病综合征的最常用药物为当归、白术、茯苓、益母草、雷公藤、黄芪、人参、三七、水蛭、地龙、丹参、川芎、红花;人参、三七、黄芪、当归、丹参是治疗肾病综合征的核心药物;人参与三七则为最常用药对。同样可以得出结论,补益脾肾、活血化瘀、益气养血类药物的使用为最多,与中医药治疗肾病综合征的传统认识一致。
治疗肾小球肾炎的最常用药物为连翘、赤小豆、麻黄、泽泻、雷公藤、大黄、丹参、白术、茯苓、白茅根、益母草、山药、党参、当归、黄芪;黄芪、丹参、当归和益母草是治疗肾小球肾炎的核心药物;麻黄、连翘、赤小豆则是中医治疗肾小球肾炎的最常用药对。与以上2种疾病明显区别之处在于,疏风解表利水药物在其中占据主要位置,同样泄浊解毒、补益气血也是重要法则。以药测证而知,肾小球肾炎的中医病机与肾功能不全、肾病综合征有明显不同,因此治法也大相径庭。但是在3种疾病中黄芪、丹参都是核心配伍,说明益气活血是这3种肾脏疾病中的核心治则,值得加强这两味药物的研究。
本研究的目标仅仅集中于CKD类疾病的用药规律研究,从这个研究中延伸至CKD的证候辨识规律、药证对应规律、以及治疗CKD新药研发的研究,将是我们下一步的工作目标,也将是更有意义的工作。
总之,运用现代数据挖掘、文本挖掘技术,在海量文献的基础上探索规律,从中得到新的启发或线索,从而获得新的知识,将为中医药基础研究、新药开发研究、临床实践提供有益参考与崭新思路[8]。
4 展望
数据挖掘、文本挖掘及分析技术作为从海量数据中获取知识的有力工具,在中医药基础与临床研究中具有广阔的应用前景,其在中医药领域的应用将对提高中医药现代化水平、新药研发能力产生良好的促进作用。不仅在药物使用规律方面,将来在疾病的辨证规律、药证关联研究方面,文本挖掘及分析技术均将展示其独特的作用,做出更多贡献。
[1]Feldman R.and Dagan I.“Knowledge discovery in textual databases(KDT)”Proceedings ofthe FirstInternational Conference on Knowledge Discovery and Data Mining(KDD-95)Montreal:AAAI Press,1995:112-117.
[2]袁发焕,周剑锋.慢性肾脏疾病的现状及其防治[J].重庆医学,2007,36:385,388.
[3]林启展,马育鹏,徐大基.张琪教授治疗肾脏疾病经验介绍[J].新中医,2006,38:14-16.
[4]谈 平,陈理霞,曾翠青,等.自拟黄龙红蛭汤配合西药治疗糖尿病肾脏疾病的临床研究[J].世界中西医结合杂志,2010,5:505-507.
[5]李保华,单丽娟,何 芳.金洪元教授辨证论治肾脏疾病的经验[J].北京中医药大学学报(中医临床版),2010,17:21-22.
[6]查青林,余俊英,余 飞,等.基于代谢相关MeSH词文本挖掘分析治疗咳嗽中药五味分类的生物学特征[J].中国中医基础医学杂志.2010,7:616-618.
[7]谭 勇,郭洪涛,郑 光,等.利用文本挖掘技术探索中医药治疗疾病的用药规律[J].世界科学技术—中医药现代化.2010,5:823-827.
[8]姜 淼,查青林,郭玉明,等.基于中医药科学思维的生物医学创新研究思路与方法[J].中国中医基础医学杂志,2010,16:354-357.