基于文本挖掘的慢性咳嗽中医诊治规律研究
2019-11-15郭德海郑光张洁赵宁张文江苗青吕诚张琼
郭德海 郑光 张洁 赵宁 张文江 苗青 吕诚 张琼
摘要:目的 利用文本挖掘技术总结慢性咳嗽的中医诊治规律。方法 收集中国知识资源总库(CNKI)、中文科技期刊数据库(维普网)、中国学术期刊数据库(万方数据)、中国生物医学文献数据库(CBM)中治疗慢性咳嗽的文献,建立数据库,运用结构化查询语言处理数据,采用数据分层算法分析慢性咳嗽中医诊治规律。结果 共检索出相关文献3157篇。慢性咳嗽伴随症状以咳痰、便秘、干咳、咯血、胸闷等较为多见,便秘、恶心、呕吐等消化系统症状较为突出;常见证候要素有气虚、痰湿、阴虚、肝火、阳虚、风寒、湿热;常见证候有肝火犯肺、痰湿蕴肺、肺阴亏虚、虚实夹杂;常用方剂为止嗽散、麦门冬汤、二陈汤、麻黄汤、三拗汤、玉屏风散、半夏泻心汤等;单味高频药物有甘草、桔梗、半夏、陈皮、麻黄等。结论 利用文本挖掘的方法,可快捷、全面、系统地梳理慢性咳嗽临床实践中的中医诊治现状,总结慢性咳嗽中医诊治规律,为临床用药和科研提供参考。
关键词:文本挖掘;慢性咳嗽;症状;证候;方剂;中药
中图分类号:R2-05;R259.6 文献标识码:A 文章编号:1005-5304(2019)10-0101-04
DOI:10.3969/j.issn.1005-5304.2019.10.022 开放科学(资源服务)标识码(OSID):
Abstract: Objective To summarize the laws of TCM diagnosis and treatment of chronic cough by text mining technology. Methods Articles about treatment for chronic cough were collected from CNKI, VIP, Wanfang Data, and CBM. A database was set up. Structure query language (SQL) was used to deal with data, and data hierarchical algorithm was used to analyze the laws of TCM diagnosis and treatment of chronic cough. Results Totally 3157 related articles were retrieved. Among them, the symptoms accompanied by chronic cough were expectoration, constipation, dry cough, hemoptysis, chest tightness, etc., and constipation, nausea, vomiting and other digestive symptoms were obvious; the common syndrome factors were qi deficiency, phlegm dampness, yin deficiency, liver fire, yang deficiency, wind cold, and damp heat and so on; the common syndromes were liver fire invading the lung, phlegm damp accumulation of lung, lung yin deficiency, and intermingled deficiency and excess; the common prescriptions were Zhisou Powder, Maimendong Decoction, Erchen Decoction, Mahuang Decoction, Sanao Decoction, Yupingfeng Powder, Banxia Xiexin Decoction, etc.; the single high-frequency Chinese materia medica were Glycyrrhizae Radix et Rhizoma, Platycodonis Radix, Pinelliae Rhizoma, Citri Reticulatae Pericarium, and Ephedrae Herba, etc. Conclusion Using the text mining method can quickly, comprehensively and systematically sort out the status quo of TCM diagnosis and treatment of chronic cough in clinical practice, summarize the laws of TCM diagnosis and treatment, and provide references for clinical medication and scientific research.
Keywords: text mining; chronic cough; symptoms; syndromes; prescriptions; Chinese materia medica
慢性咳嗽是指以咳嗽為主要或唯一症状,病程大于8周,X线胸片无明显异常的咳嗽[1]。在大多数国家或地区,慢性咳嗽的患病率>10%,为7.2%~33%不等[2]。中医药治疗慢性咳嗽具有一定优势,其原因在于中医“辨证论治,复方效应和标本兼治”的临床模式[3]。文本挖掘是数据挖掘技术的一个分支,是从文本集中发现潜在、隐藏的归纳性知识的一门技术[4],能对海量数据进行整合、分析,获得的结果更具有代表性、可信度更高[5],其在中医药领域的应用已日渐成熟。本研究利用文本挖掘技术对大量相关文献进行分析,研究慢性咳嗽的中医诊治规律,以期为慢性咳嗽的临床和科研工作提供参考。
1 资料与方法
1.1 数据来源
检索范围:中国知识资源总库(CNKI),中文科技期刊数据库(VIP),中国学术期刊数据库(万方数据)及中国生物医学文献数据库(CBM)建库至2018年10月7日。本文的数据收集在检索词的层面不包含纯西医的条件,但包含中医和中西医结合的文献。在上述文献的基础上,为进一步精简相关文件,排除不包含中医证候、症状、复方、疾病的文献。
检索策略:CNKI为主题“慢性咳嗽”+全文“中医”或“中西医结合”;VIP为题名+关键词包含“慢性咳嗽”+“中医”或“中西医结合”;万方数据为主题“慢性咳嗽”+“中医”或者“中西医结合”;CBM为题目、关键词和摘要中检索“慢性咳嗽”+“中医”或“中西医结合”。
1.2 数据预处理
将数据整合至平面文本文件(TXT),以GB2312编码保存。然后利用专有的文本提取工具(软著登字第0261882号,登记号2010SR073409)将下载的非结构化文本数据进行格式化转换,并保存到大型关系型数据库MS SQL Server 2014中[6-7]。数据预处理过程中,关键的一步是提取关键词(包括核心和非核心2种类型)。
1.3 数据清洗
导入的数据库以“TableInitial”为表名称,针对“序号”和“关键词”2个数据列,分别用PMID和DescriptorName来表示。对原文献的溯源分析发现,相同的关键词在同一篇文献的标题和摘要中存在重复出现的情况。对于文本挖掘来说,前提假设是每篇文献的贡献度是相同的。基于此,对于同一篇文献中重复出现的关键词,只计算1次。据此进行数据清洗工作。
1.4 数据分析
针对清洗后的文献数据,应用基于共同出现原则的敏感关键词频数统计的数据分层算法[5],生成慢性咳嗽相关数据。本文的“症状”依据《中医诊断学》[8]规范,名词术语“证候、要素”依据《中医诊断学》[8]和张志斌等[9-10]课题研究,中药名称依据《中药学》[11]进行规范。但个别原文中药名称并未清楚表明炮制情况,如“半夏”共出现42个频次,其中“法半夏、姜半夏”各1次,余40次均为“半夏”。
1.5 数据可视化
根据得到的数据表DN_pairs_frqcy,抽出不同频数关键词对,分别用Excel、Cytoscape3.7进行可视化处理,得到慢性咳嗽的文献挖掘结果。
2 结果
2.1 文献数据
经数据清洗,最终纳入文献3157篇。CNKI:中医文献1709篇,中西医结合文献922篇;VIP:中医文献1437篇,中西医结合文献312篇;万方数据:中医文献1095篇,中西医结合文献153篇;CBM:中医文献1632篇,中西医结合文献275篇。
2.2 慢性咳嗽伴随症状
慢性咳嗽伴随症状有152个,频次统计前12位(频次≥47)的症状有咳痰、便秘、干咳、咯血、胸闷、发热、胸痛、咯痰、气短、疼痛、恶心、呕吐(见表1)。这些症状可分为4类。①呼吸系统症状:咳痰、干咳、咯血、咯痰、气短;②消化系统症状:便秘、恶心、呕吐;③胸部症状:胸闷、胸痛;④全身症状:发热、疼痛。作为伴随症状,消化系统症状比较突出,尤其便秘症状频次很高。
2.3 慢性咳嗽常见证候
慢性咳嗽中医证候要素有32个,前15位(频次≥7)见表2,常见的证候要素有气虚、痰湿、阴虚、肝火、阳虚、风寒等。其中,病位要素涉及肺、肝、脾、肾;病性要素有气虚、阴虚、火、阳虚、湿热、血瘀、痰瘀、气滞;病因要素包括风寒、风热、痰湿、痰饮、瘀血。慢性咳嗽中医证候有68个,前9位(频次≥4)见表3,其中肝火犯肺、痰湿蕴肺、肺阴亏虚、虚实夹杂比较多见(频次≥10),还有气阴两虚、寒热錯杂、风寒袭肺、阴虚肺燥、风热犯肺。
2.4 慢性咳嗽常用方剂
3157篇文献涉及方剂70首,其中止嗽散是慢性咳嗽的首要方剂,出现频次远高于其他方剂;麦门冬汤、二陈汤、麻黄汤、三拗汤、玉屏风散、半夏泻心汤、苓甘五味姜辛汤、小青龙汤、沙参麦冬汤、六君子汤、养阴清肺汤、射干麻黄汤、三子养亲汤、温胆汤也是常用方剂(频次≥6,见表4)。慢性咳嗽的核心方剂止嗽散、二陈汤、麦门冬汤、三拗汤,构成慢性咳嗽方剂网络的核心轴,串联起慢性咳嗽方剂网络图(见图1)。网络中慢性咳嗽处方的相关性和结点的大小呈正相关;连线表示方剂间相关性。
2.5 慢性咳嗽常用中药
3157篇文献涉及中药144味,甘草居于首位,桔梗、半夏、陈皮、麻黄处于重要位置(频次≥25,见表5);中药药对共有1766对,其中“荆芥-桔梗”“陈皮-桔梗”“桔梗-紫菀”“陈皮-炙甘草”“百部-桔梗”“百部-荆芥”“甘草-麻黄”使用频率名列前茅(频次≥26,见表6)。桔梗、甘草、半夏作为核心轴串联起止嗽散、三拗汤、小半夏加茯苓汤3个中药集群,构建起慢性咳嗽常用中药网络(见图2)。
3 讨论
慢性咳嗽病因为内外合邪、互为因果[12-13]。文本挖掘结果显示,其证候要素以气虚、痰湿、阴虚、肝火、阳虚、风寒、湿热为主,病位涉及肺、肝、脾胃、肾、大肠,证候分型以肝火犯肺、痰湿蕴肺、肺阴亏虚、虚实夹杂为主。慢性咳嗽的病机是以内伤为主、兼有外感、虚实夹杂。脏腑内伤所致久咳,《素问·咳论篇》中“久咳不已……此皆聚于胃,关于肺”,《杂病源流犀烛》中“肺不伤不咳,脾不伤不久咳,肾不伤火不炽”对久咳肺与脾胃相关病机进行论述。文本挖掘结果显示,慢性咳嗽常见症状有呼吸系统症状、消化系统症状、胸部症状、全身症状。便秘、恶心、呕吐等消化系统症状高频出现,提示慢性咳嗽肺失宣降,在脏腑相关病机中与脾胃、大肠关系密切。
止嗽散由荆芥、桔梗、陈皮、紫菀、百部、白前、甘草组成,止咳化痰、疏表宣肺,该方“温润和平,不寒不热,即无攻击过当之虞,大有启门驱贼之势。是以客邪易散,肺气安宁”[14],程氏和后世医家用其“治诸般咳嗽”[14]。文本挖掘结果显示,该方治疗慢性咳嗽应用频次远高于其他方剂。其他主要方剂有:麦门冬汤滋养肺胃、降逆和中,用于肺胃阴虚、虚火上逆咳嗽;三拗汤宣肺解表,用于感冒风邪所致咳嗽;二陈汤燥湿化痰、理气和中,用于湿痰咳嗽;玉屏风散益气固表,用于肺气虚所致咳嗽;半夏泻心汤和胃降逆,用于胃气不和之咳嗽。上述方剂基本涵盖慢性咳嗽常用方剂功效类型,即:慢性咳嗽方剂功效以疏风散寒、宣肺止咳、燥湿化痰、益气养阴、和胃降逆为主,与证候要素挖掘结果基本一致,印证了慢性咳嗽内伤为主、肺脾相关、兼有外感的病因。
甘草味甘性平,补脾益气、清热解毒、祛痰止咳、缓急止痛、调和诸药。《伤寒论》中甘草单用有“少阴病二三日,咽痛者,可与甘草汤”治疗咽痛,复方运用如小柴胡汤、桔梗汤、麻黄杏仁甘草石膏汤,这些都是甘草直接或间接止咳的应用范例。文本挖掘结果甘草使用频次居于首位,一方面由于其祛痰止咳、抗炎抗感染作用,另一方面也因“非甘草主病多,乃诸方必合甘草,始能曲当病情”[15]。排名第2位的桔梗味苦辛性平,宣肺利咽、祛痰排脓。现代研究表明,不同产地桔梗水提液对由浓氨水引起的咳嗽次数均具有较好的抑制作用,并可明显增加小鼠气管的酚红排泄量[16]。桔梗不仅单用可以止咳,且与荆芥、陈皮、紫菀组成药对,具有很好的止咳化痰作用。文本挖掘结果显示,“荆芥-桔梗”“陈皮-桔梗”“桔梗-紫菀”药对在止咳中药药对中名列前茅。通過网络图分析可见,常用中药形成止嗽散、三拗汤、小半夏加茯苓汤3个中药集群,表明宣肺解表、降逆化饮、祛痰止咳中药是慢性咳嗽的主要用药。这与文本挖掘结果相近。
综上,文本挖掘技术可快捷、全面、系统地梳理慢性咳嗽临床诊治现状,总结诊治规律,发现临床新的知识点和潜在问题,为知识更新、临床指南的升级提供证据。同时,根据挖掘结果所形成的网络图可能形成新组方,揭示新的疾病、药物关系,为中医治疗慢性咳嗽的临床用药和科研工作提供思路和参考。
参考文献:
[1] 中华医学会呼吸病学分会哮喘学组.咳嗽的诊断与治疗指南(2015)[J].中华结核和呼吸杂志,2016,39(5):323-354.
[2] LAI K, PAN J, CHEN R, et al. Epidemiology of cough in relation to China[J]. Cough,2013,9(1):18.
[3] 张纾难,刘剑.中国《咳嗽的诊断与治疗指南(2015)》“中医部分”解读[J].环球中医药,2016,9(6):699-701.
[4] AL-MUBAID H, SINGH R K. A text-mining technique for extracting gene-disease associations from the biomedical literature[J]. Int J Bioinform Res Appl,2010,6(3):270-286.
[5] Rodriguez-Esteban R. Biomedical text mining and its applications[J]. PLoS Compute Biol,2009,5(12):e1000597.
[6] 展俊平,郑光,孟庆良,等.基于文本挖掘技术初步探讨雷公藤应用相关的生物学基础[J].中国中医基础医学杂志,2018,24(4):556-559.
[7] 王丽颖,郑光,赵学尧,等.基于文本挖掘的高血压病中医辨证用药情况分析[J].世界中西医结合杂志,2018,13(4):462-465,470.
[8] 朱文锋.中医诊断学[M].北京:中国中医药出版社,2017:2.
[9] 张志斌,王永炎.辨证方法新体系的建立[J].北京中医药大学学报, 2005,28(1):1-3.
[10] 张志斌,王永炎,吕爱平,等.论证候要素与证候靶点应证组合辨证[J].中医杂志,2006,47(7):483-485.
[11] 高学敏.中药学[M].北京:中国中医药出版社,2017.
[12] 史利卿,马建岭,杨凯,等.慢性咳嗽中医病因病机及证候学规律的认识与探讨[J].现代中医临床,2017,24(5):1-5.
[13] 洪广祥.慢性咳嗽中医药治疗再探讨[J].中医药通报,2010,9(3):10-14.
[14] 程钟龄.医学心悟[M].田代华,整理.北京:人民卫生出版社,2006:148.
[15] 邹澍.本经疏证[M].陆拯,姜建国,点校.北京:中国中医药出版社, 2013:27.
[16] 朱继孝,曾金祥,张亚梅,等.不同产地桔梗镇咳祛痰作用比较研究[J].世界科学技术-中医药现代化,2015,17(5):976-980.
(收稿日期:2019-03-07)
(修回日期:2019-04-30;编辑:季巍巍)