文本数据挖掘技术在名老中医临床诊疗经验的应用研究
2017-12-12
苏州市中医医院,江苏 苏州 215009
文本数据挖掘技术在名老中医临床诊疗经验的应用研究
甄曙光欧阳八四董宏利乐音子颜帅*
苏州市中医医院,江苏 苏州 215009
文本数据挖掘技术通过数据整理分析实现中医临床诊疗数字化、文本向量呈像,并从大量医案中整理出中医辨证论治及理法方药的规律性。文章阐述挖掘中医医案规律性及数字化的方法,规范化处理中医医案文本,从而获取隐含于辨证论治及理法方药之间的具有鲜明个性化的诊疗经验,论证了存在于临床医案中辨证用药配伍之间的关系。使用真实世界临床研究范式理论指导病历采集工作,不仅可如实记录诊疗活动的全过程,更有利于发掘其内在的诊病逻辑思维模式。
文本数据挖掘;名老中医;诊疗经验
中医药作为我国珍贵的历史文化遗产,有着悠久的历史、广大的群众基础以及良好的疗效。传统中医药的核心特点是,以古典医籍著作为理论基础,与我国特有的哲学思维互相渗透。在当今倡导返璞归真、崇尚绿色疗法的潮流下,中医药以其特有的魅力显示出独特的优势,经过几千年来中医各家的努力和传承,必将更多地发挥其对全人类的医疗保健作用,为全世界人民谋福祉。随着科技的日新月异,数字化是各个行业的大势所趋,中医药学在对已有的中医药理论和经验科学地继承、更好发扬的前提下,也应秉承与时俱进的思想,力争实现规范化及数字化。而中国当代名医大家的诊疗经验, 是他们在多年诊疗中将中医经典理论与临床相结合,并予以泛化创新的结果,呈现了名老中医的独创心得或见解,是祖国传统医学的珍贵宝藏[1]。名老中医通过大量的临床实践,积累了丰富的诊疗经验,其处方信息错综复杂,方剂配伍包含多维度关联,承载了无数名医的心血。“数据丰富而知识贫乏”的问题是当前亟待解决的问题,运用数据挖掘手段对名老中医医案进行规范化处理与挖掘成为中医医案信息化的重要手段,总结归纳名老中医用药特点和规律,提炼出临证经验中蕴藏的新理论、新方药,指导临床实践并提高临床疗效;在完善补充中医药理论体系的同时,还能促进整个中医理论体系的创新和发展[2]。笔者系统论述数据挖掘方法在名老中医用药规律研究中的具体应用,旨在将文本数据挖掘技术应用于名老中医诊疗经验及学术传承领域的可行性提供参考。
1 数据挖掘的定义及本质
在各种各样的学科领域和行业中“数据正在以一个戏剧性的速度被收集和积累”,迫切需要新一代的计算理论和智能工具,帮助人类从迅速增长的海量数据中提取有用的信息(知识)。这些理论和工具就是“从数据库中发现(Knowledge Discovery in Database, KDD)”这门新兴的学科[3]。数据挖掘(Data Mining),又译为资料探勘、数据采矿。通过探索和分析大量数据从而发现有意义的模式和规则。它的核心概念是藉由相关方法或软件程序从海量数据中自动整理出特殊相关性的信息的过程。主要有数据收集、发掘规律和规律呈像3个步骤。数据挖掘的任务有关联分析、聚类分析、分类分析、异常分析、特异群组分析和演变分析等[4]。数据挖掘一般都借助于计算机科学的相关技术完成,并通过计算机编程、在线分析处理、情报检索、数据统计、名老中医医案系统和规律识别等步骤来实现对文本的挖掘[5]。
数据文本挖掘仔细分析研究存储于知识库中的海量数据,通过使用统计学、人工智能(计算智能)或模式识别等技术,从而发现有意义的新的相关性、模式和趋势的过程。它结合分析知识基础、成熟的分析技巧以及相关行业经验来利用及处理企业大量的数据,通过建立预测性模型揭示隐藏的趋势和模式,将海量医案数据以直观、规律易于接受的方式呈现出来。此类信息具有潜在价值,能够支持决策,可以为企业带来利益,甚至为科学研究寻找突破口。1999年Berry和Linoff给出如下定义:数据挖掘本质是基于知识发现,通过探索和分析大规模数据从而发现有意义的模式和规则的过程[6]。大多数数据挖掘方法都是基于统计学、模式识别和机器学习等学科领域中尝试性和测试性的技术如分类、聚类、回归等。见图1。
2 文本挖掘
所谓文本,涵盖了病史、症状、体征、特殊实验室检查、治疗情况,以及发病季节、发病影响因素,体质、既往患病情况、心理因素和社会、政治、经济、环境等临床诊疗数据。文本挖掘将上述信息作为研究对象,分别采用定量计算和定性分析的方法,总结有价值的、创新知识的过程,是数据挖掘的一个分支;文本数据挖掘技术广泛应用于多个领域,但在不同领域中,其研究的侧重点及目的不尽相同,导致其在各个领域中的作用也不完全相同[7]。由于对病案信息的采集迄今没有统一的标准,而名老中医每日的诊疗都会产生大量的文本信息,这些未经整理的数据在结构上杂乱无章,如何进行科学的归类、选择、分析和使用,这就是文本数据挖掘技术亟待解决的问题。在名老中医的病案信息中,除了医学信息本身具有的类型繁多、关系复杂的特点之外,由于其临床诊断和治疗的思维决策过程的个体化特色非常明显,不同名老中医的原始病案信息多包含有更多较为典型的个性化习惯用语,这种个性化特色一方面代表了名医经验的实质所在,另一方面,也造成了这种“以人为纲”的名医医案的数据分析挖掘与 “以病为纲”的基于流行病学证候调查基础上一般意义上的巨大差异[8]。在名老中医病案信息的规范化方面,为了体现方法的客观性,既要遵照中医界现有的规范或标准对相关信息进行取舍、合并或分解,又要注意紧密结合名医本身的意见和建议,以保证规范后的信息不偏离名医医案的本质,只有这样才能从源头上保证挖掘结果真实性。
2.1 人工蜂群算法 针对中医医案本体的构建、命名实体识别等难点问题,曾有学者尝试过众多命名规则,并在一定程度上形成共识,在此罗列几种得到较为广泛认可的方法:采用适当的语义标注,自动抽取医案特征信息,确定较为规范且得到广泛共识的语义标注[4]。以最大熵方法来命名中医病案专有名词;松耦合的生物医学命名实体识别算法。其中袁锋团队对于大量文献进行整理研究,总结中医病案专有名词的语义结构及语法结构特点,设计了分别利用人工蜂群算法提取概念与概念间的关联规则的命名实体识别算法,重建中医医案本体的语法及构词规则,形成了人工蜂群算法的雏形,并使用该种算法相对合理地揭示中医医案中存在的方、症、证及性味、归经等多种复杂的关系[9]。尽管众多学者致力于中医医案本体的构建和命名实体识别方面的优化,但是中医病案专有名词的隐含内涵还需进一步完善和扩展,例如在中医诊疗过程中相关专有名词的一致性问题,直接应用古典医籍的古文语义信息等。除此之外,在浩澣的中医医案中收集并形成文本时,医案本身所隐含的哲学内涵无法充分展现的问题也亟需进一步的思考。
2.2 条件随机域模型与算法 条件随机域(CRF) 是一种研究观察序列与状态序列无向图的模型[9],它可通过样本训练学习已知标记的序列分布,并对新样本的未知序列进行识别标记。医案中的中医药各种临床术语信息的识别与提取问题,其本质上是语言标记序列识别问题。而序列标记的机器学习模型主要包括贝叶斯理论,隐马尔科夫模型,最大熵模型,以及条件随机域等[10]。相对于隐马尔科夫模型和最大熵模型,条件随机域在信息序列计算时权重偏置更小,序列特征灵活性更高。对于复杂变化的中医药语言而言,条件随机域模型更能充分反映中医药名词之间的联系和内涵。江启煜等[11]基于条件随机域构建的文本信息挖掘模型对不同临床术语类型,不同的病种识别效果良好,对于高效整理和挖掘名老中医临床医案中的经验与学术思想及名老中医的学术思想和经验传承具有重要意义。
2.3 ROST-CM文本法 ROST Content Mining(ROST-CM)由中国武汉大学沈阳教授研发,该软件可实现浏览分析、频次统计、聚类分析等一系列文本挖掘,其强项在于文本挖掘前期的中文预处理[12]。吴斌等[13]应用ROST-CM分析工具从中国知网数据库中挖掘骨关节炎的中医证候特点及用药规律,经文本格式转化、词频分析和语义网络进行分析处理后,研究显示骨关节炎是以肝肾亏虚为基础的虚实夹杂的证候特征,治疗用药规律以强筋健骨的处方为主,常用中药包括补益肝肾、祛风寒湿、活血化瘀三大类。然而有研究表明[14]对于非结构化的中文文本数据,借助ROST-CM可实现文本预处理的全部过程,并可将文本文件转换成语义网络和共现矩阵文件,而后期各种聚类算法和社会网络分析则可通过Net Draw等软件呈现结构关系。
2.4 偏序结构图法 对于文本挖掘的不断探索中,有学者尝试将形式概念分析理论应用到文本挖掘领域,这是该领域的一次创新和发展,在该理论的支撑下,研究者不断进取和探索,将文本形式背景的概念与属性抽离出来,建立一种新颖的更为合理的对应关系,这种关系的基础呈像为网格结构,其能更加直观、形象的展示属性与对象之间的内在关系[15]。与以往的文献文本挖掘方法相比,利用属性偏序结构图具有明显的优势。在早期的数据挖掘研究中,频数分析法是较为主流的研究方法,通过百分比的大小比较统计文献中相关信息的频数,最后将其分布规律以直观的数率形式呈现出来。将大量的文献信息,从属性及对象两方面对其进行了可视化的表达。利用偏序结构图的方法,转化为具有层级关系的偏序图;最后,通过文本挖掘对象偏序结构图,能够实现对具有独有属性的文献迅速、及时查找,且图形的结果无交叉连线,结构层次清晰明确,思路清楚[16]。尽管偏序结构图与文本挖掘其它方法相比有着诸多优越性,但仍有一些问题值得深思并予以改进:提取关键词的过程存在着不同程度的主观性,这种主观性的存在会对形式背景的确立造成负面影响,随着偏序图生成过程中的扭曲偏离,文本挖掘的效果和准确性也将大大降低[17]。除此之外,通过名老中医医案Access 数据库,运用SQL对数据进行处理,采用Cytoscape 软件分析名老中医诊疗经验[18];降噪及关键词频统计的数据分层算法探讨名老中医治疗某种疾病的用药规律[19]等技术,因其应用范围有限,此处不予赘述。
3 讨论
名老中医的临床经验和学术思想是中医学的重要瑰宝,在高水平中医人才的培养过程中,临床经验和学术思想的传承研究极其重要,其对祖国传统医学的未来发展也极为重要。但在传统的培养和学习模式中,新晋医师主要通过跟随名老中医出诊抄方的形式来继承学习,日积月累的学习积累下大量的医案资料,这些传统笔记式的资料没有经过系统的整理、筛选,无法寻找隐含在其中的个性化规律,如:对于同一病、同一证的治疗过程中,会出现大量的两种相似的配伍组合,传统的跟随抄方笔记无法实现对大样本数据的有效总结和分析,这就大大影响了年轻中医师的学习效率,刻苦枯燥的学习也许只是“事倍功半”。
文本数据挖掘技术,通过对数据的整理分析实现中医临床诊疗数字化、文本向量呈像,并从大量医案中整理出中医辨证论治及理法方药的规律性。通过文本数据挖掘,可以实现原始资料的总结、分析及高度整合,将大量枯燥的、抽象的中医医案以较为直观的数据形式呈现出来,年轻的中医医师利用数据结论去追溯回顾临床诊疗过程,会起到“事半功倍”的效果,称之为中医继承学习领域中的革命性飞跃。使用真实世界临床研究范式理论指导病历采集工作,可如实地记录诊疗活动的全过程,有利于发掘其内在的诊病逻辑思维模式,为名老中医学术传承的研究提供了强大的理论指导和方法论指导。近年国际、国内提出了真实世界研巧(RWS),文本数据挖掘可结合该理念更好地适应临床实情。特别是在名医经验的传承上可基于RWS的理念,综合运用文本数据挖据的方法,同时及时与名医本人沟通,保证传承质量同时,又为中医临床研究提供了新的途径[20],具有较好的社会推广应用价值。
[1]黎芬芬,邓鑫,陈然. 名老中医经验思想传承的思考[J].中华中医药杂志, 2016, 31(7):2685-2687 .
[2]沈春锋,王彩华,陆炜青,等. 名老中医传承中的隐性知识挖掘[J]. 中医杂志, 2016,57(11):930-932.
[3]柴园园,贾利民,陈钧. 大数据与计算智能[M].北京:科学出版社,2017:118-131.
[4]袁锋. 中医医案文本挖掘的若干关键技术研究[D].济南:山东师范大学, 2016.
[5]郑强,刘奇军,王正华,等.生物医学命名实体识别的研究与进展[J].计算机应用研究,2010,27 ( 3):811-815.
[6]张云涛,龚玲.数据挖掘原理与技术[M].北京: 电子工业出版社,2004: 1
[7]崔雷. 生物医学文本挖掘:步骤与工具[J]. 中华医学图书情报杂志, 2017, 26 (3):1-5.
[8]沈毅,傅萍,孔丽娅. 数据挖掘方法在名老中医用药规律研究中的应用[J].中医杂志, 2016 , 57 (10):890-893.
[9]张榕.术语定义抽取、聚类与术语识别研究[D].北京: 北京语言大学,2006.
[10]王星,刘伟.基于引文的中文学术文献自动标引方法研究[J].图书情报工作, 2014, 58 (3):106-110.
[11]江启煜,郑美思,李红毅,等. 基于条件随机域的禤国维名老中医医案挖掘分析[J].中国实验方剂学杂志,2017,23(9):118-131.
[12]方琴. ROST内容挖掘系统对内容分析法影响的研究[J].课程教育研究,2014 (1):234-235.
[13]吴斌,李延萍.基于ROST-CM文本分析骨关节炎的中医证候及用药规律[J].时珍国医国药,2017, 28(4):1015-1017.
[14]张幸芝,雷润玲,杨超.文本挖掘-基于ROST-CM和Net Draw的内容分析[J].科技文献信息管理,2017, 31(1):17-33.
[15]谭勇,郭洪涛,郑光,等.利用文本挖掘技术探索中医药治疗疾病的用药规律[J].世界科学技术-中医药现代,2010,12(5):823-827.
[16]Y Xu, T Zhang, X Wang, et al. Data mining in traditional chinese ophthalmologic formulae based on theory of structural partial-ordered attribute diagram [J]. ICIC Express Letters, (Part B: Application), 2013, 7(3): 953-958.
[17]管芳.基于偏序结构图对中医药治疗失眠文献的文本挖掘[D]. 秦皇岛:燕山大学, 2014.
[18]王文静,戈娜,郭维加,等.文本挖掘糖尿病肾病临床试验中医诊疗特点[J].中国实验方剂学杂志,2016,22(6):210-215.
[19]李雨彦,郑光,刘良.文本挖掘探讨青风藤用药规律研究[J]. 世界中医药, 2016,10(6):823-827.
[20]符宇,范冠杰,黄皓月,等. 基于大数据名老中医学术经验传承研究方法的思考[J].中华中医药杂志, 2017,32(4):1644-1646.
江苏省中医药管理局科技项目(YB2017061);苏州市产业技术创新专项(民生科技-医疗卫生应用基础研究)(SYS201775);苏州市产业技术创新专项(民生科技-关键技术应用研究)(SS201744);苏州市中医医院院级课题(KY170210)。
甄曙光(1983-),男,汉族,硕士研究生,主治中医师,研究方向为中医药防治肛肠疾病。E-mail:49662562@qq.com
颜帅(1986-),男,汉族,博士后在读,研究方向为中医药防治功能性便秘。E-mail:plmokn74123@163.com
R-05
A
1007-8517(2017)22-0127-04
2017-10-10 编辑:张 强)