关于中医药数据挖掘研究理念变迁的探讨
2017-02-28胡雪琴杨寅崔蒙
胡雪琴+杨寅+崔蒙
摘要:中医药数据挖掘工作已开展近20余年,在此过程中,中医药数据挖掘的理念在不断变迁。按年代的先后顺序,其变迁大致可以分为3个阶段。国家科技计划“九五”和“十五”期间是第一阶段,是起始阶段,这一阶段中医药数据挖掘研究的特征遵循“大数据”的三大理念;“十一五”和“十二五”期间是第二阶段,是全盛时期,这一阶段中医药数据挖掘研究的特征是遵循“精准医学”三大理念;第三阶段主要是国家科技计划的“十三五”和“十四五”期间,是突破创新阶段,这一阶段将受人工智能影响,试图发现可以超越个体的、适用于中医临床的优秀群体经验。
关键词:中医药;数据挖掘;大数据
中图分类号:R2-05 文献标识码:A 文章编号:2095-5707(2017)01-0012-04
Abstract: TCM data mining has been carried out for nearly twenty years. In this process, the concept of TCM data mining is constantly changing. According to the chronological order, there were three stages of changing: the national science and technology program of “The Ninth Five-Year Plan” and “The Tenth Five-Year Plan” period was the first stage, which was the initial stage of TCM data mining research, and the characteristic of this stage followed the “three concepts of big data”; the second stage was during “11th Five-Year and 12th Five-Year Plan” of the national science and technology program period, which was the heyday of TCM data mining research, and the characteristic of this stage followed the three concepts of "Precision Medicine"; the third stage was during the “13th Five-Year and 14th Five-Year Plan” of national science and technology program period, which was the breakthrough innovation stage of TCM data mining. This stage will be affected by the artificial intelligent, trying to find the experience of outstanding groups that can be suitable for TCM clinic.
Key words: traditional Chinese medicine; data mining; big data
数据挖掘(data mining)是数据中的知识发现(knowledge-discovery in databases, KDD)过程中的一个步骤。具体来说,KDD由数据清理、数据集成、数据选择、数据变换、数据挖掘、模式评估、知识表示这7个步骤组成和完成;根据其功能,数据挖掘可定义为从存放在数据库、数据仓库或其他信息库中的大量数据中发现有趣知识的过程[1]。数据挖掘是一门新兴的交叉性学科,融合了人工智能、数据库技术、模式识别、机器学习、统计学和数据可视化等多个领域的理论和技术[2]。数据挖掘技术已被应用于计算机软件及计算机应用、自动化技术、互联网技术、企业经济及中医学等多个学科领域中。
如果世界是由物质、能量和信息三大要素构成的,那么中医药学由于其产生的时代背景所限,其研究的主要世界构成要素必然是信息[3]。定性或定量化的信息亦即数据,对于信息的获取、存储、处理和传播都具有极其重要的意义。而数据挖掘在数据处理中占有极为重要的地位。通过数据挖掘,可以发现中医药学概念间的关联关系、新的知识,甚或新的规律,这对于促进中医药理论、方法、技术的进步,大力提高中医临床疗效,加快中药新药研发均具有重要意义。因而,近20余年来中医药领域在不断地开展数据挖掘研究工作。随着科技的不断发展和创新,中医药数据挖掘的理念也在不停地变迁。按年代的先后顺序,其变迁大致可以分为3个阶段:起始阶段、全盛时期和突破创新阶段。
1 起始阶段,数据积累
第一阶段大约是在1995-2005年,主要在国家科技计划“九五”和“十五”期间。这是中医药数据挖掘研究的肇始阶段,中医药数据挖掘工作尚未得到充分重视。在这一时期,中医药数据挖掘主要是遵循了大数据的三大理念,即全数据、混杂性和相关关系[4]。具体地说,就是尽可能地收集所能收集到的全部数据,把所有能够收集到的数据混杂在一起进行分析,分析的重点是发现数据间的关联关系。该阶段研究的目的是试图发现中医药“书同文、车同轨”的“大一统”规律。换言之,就是发现如同西医一样,适用于所有情况的中医药统一规律。尽管那个时期大数据这个概念还没有提出,大數据理念也没有彰显,但中医药数据挖掘的研究工作,却提前不自觉地遵循了大数据的三大理念。
该阶段内,中国中医科学院中医药信息研究所汇集了所有有出处的方剂(约10万余首),研制了方剂数据库,并将其结构化,用高频集的方法去探寻方剂组成规律,亦即方剂配伍规律。进行方剂数据挖掘的结果,成功发现了以方核为基础的方剂衍变轨迹,探索了高频药对出现的规律,但无法发现方剂配伍的规律,更不可能将此研究成果直接用于中医临床处方用药或中药新药开发。同时期,亦将所能收集到的中医药治疗疾病的文献汇集,研制中医临床数据库,并按系统或病种将其结构化,用聚类挖掘的方法探寻中医临床诊疗规律,也就是中医临床辨证论治规律。进行中医临床数据挖掘的结果,成功总结了中医临床某个证候或疾病能够出现的症状、所用的治则、选用的方剂和药物,但却无法发现中医辨证论治的规律。
这一阶段还开展了很多类似的研究工作,也取得了一些成绩,但始终无法真正提高中医临床疗效、促进中药新药开发、丰富和发展中医药理论。这促使中医药信息学研究者认真反思此阶段的研究工作在指导理念上是否存在问题。经过认真研究、思考,发现中医药在实际运用中有着很强的个体化特征,企图将其变为与西医学一样的、具有大一统规律的医学是不实际的,中医药数据挖掘研究必须依照中医药学自身特色和数据规律。
2 全盛时期,数据共享
第二阶段大约是在2006-2015年,主要在国家科技计划“十一五”和“十二五”期间。这是中医药数据挖掘研究的全盛时期,国家投入了大量科研经费、部署了大量科研项目用于开展中医药数据挖掘研究工作。在此期间,几乎所有的中医药科研项目均或多或少地开展了数据挖掘研究。特别是大数据理念提出后,数据作为重要的科研资源共享,得到了越来越多的重视。在这一时期,中医药数据挖掘研究主要是遵循精准医学三大理念,即个体化、系统化、整体化[5]。个体化就是将医生视为个体,所研究的重点是个体医生的辨证论治经验,甚或其学术思想;系统化就是不仅将医生视为个体,同时也将患者视为个体,个体医生与个体患者组成了一个系统,研究重点是发现这个系统所收集到的数据随时间变化产生的规律;整体化就是将作为研究对象的个体医生所有能够收集到的数据都收集起来,作为一个整体进行数据挖掘,以期发现其处方用药规律。研究目的是试图发现“小国寡民”的个性化规律;换言之,就是发现遵循传统中医个体化诊疗的规律。当然,那个时期,精准医学的理念还没有提出,中医药界也不知道精准医学的三大理念,但中医药数据挖掘的研究工作确实提前遵循了精准医学的这三大理念。
在此期间,中医药数据挖掘研究工作的重点是名老中医经验挖掘,中医药领域开展了大量名老中医经验挖掘的科研工作。例如,中国中医科学院广安门医院以王映辉研究员为首的研究团队认为,采集名老中医辨证论治医案,可分析其辨证经验、用药经验等[6]。他们指出,辨证经验是指医生综合患者的临床表现、检验检查结果等信息,分析判断后,形成的对患者综合性的判断,是用药基础。辨证经验包括的内容主要有症状与证候的关系、疾病的证候特征,以及证候相兼规律等。用药经验是指医生根据所辨证候及兼证、兼症等选方用药的情况。一般而言,医生针对某一类具体病证有一个核心处方,核心处方的配伍是相对固定的,同时,由于每个患者的个体化特征,临证常有加减变化。有的医生是针对某一病有一核心处方,有的则针对某一病的某一证才有核心处方。分析挖掘名老中医的临床经验,其核心内容有2个:一是“如何确定证”,即辨证经验;二是“如何确定治”,即用药经验。为全面分析辨证经验及用药经验,需要全面考虑其涉及的临床要素,总结其辨证及用药经验。
类似的研究在全国各地开展很多,均取得了显著成绩。但这些研究结果很难高于名老中医个人对于具体病证的认识,因而对总结经验多有裨益,对提高具体病证领域的最高中医诊疗水平则帮助有限。经过认真分析研究,得出结论:中医固然是经验医学,但其提高不能只依赖于个人感悟,只有发挥行业整体优势,才能实现中医药的跨越式发展。
3 突破创新阶段,数据转化
第三阶段预测在2016-2025年,主要是国家科技计划“十三五”和“十四五”期间,这是中医药数据挖掘的突破创新阶段。这一阶段中医药数据挖掘的定位将是以市场需求为导向,通过患者提供的信息,将数据直接转化为卫生保健知识,让患者在治疗过程中发挥更积极的作用,从而让数据挖掘的价值得到最大程度的体现。中国中医科学院唱独角戏的研究主体中也将融入更多医疗服务企业的加入,研究对象从科研型结构化、半结构化数据向移动终端的海量非结构化数据转变。这一战略转变将推动一系列新的软件、服务和应用更快地进入市场,有可能为中医药理论完善、临床疗效提高和新药创制提供支撑。
在此阶段,IBM公司的最新电脑系统Watson将是医疗认知计算系统的杰出代表。2015年4月,Watson Health成立,标志着IBM Watson正式涉足医疗行业。Watson在海量的大数据环境中不断进行学习,不仅是认知计算,而是认知计算和大数据、分析和决策的复杂相互作用的结果。医疗机构在与Watson合作的同时,使得医学研究人员在认知计算领域得到了知识的扩展。
在中医药领域,中医药数据挖掘的理念也将深受Watson认知计算的影响,针对中医优秀群体诊疗经验的中医药数据挖掘平台也必须具备理解、推理、不断学习及强大分析的能力。但是,由于中医药数据属于知识密集型数据[7],其特点是知识密集度高,特别是医案文献数据是古代医家在临床诊治中的心得体会,是医家探索总结的一种智慧体现,蕴含了大量的隐性知识,而这些隐性知识具有很强的知识发现潜质。但中医药知识密集型数据的描述和表达是粗糙的,数据语义与内涵逻辑根本就没有逻辑性或者不能明确表达,这就为数据抽取和数据清洗带来了巨大困难。
尤其是随着海量移动客户端数据的涌入,将更容易获得用户的各种行为信息,例如所有的临床检验信息、处方信息、个体信息、疾病史信息及保险信息等。数据清洗面临的数据源更加复杂,例如问答、搜索、下载、上传的各种数据等等。数据抽取也将面临更大的挑战,例如歧义、语义变换,及无结构数据抽取模板的学习等。在中医学临床应用的场景中,由于数据抽取的质量与临床诊疗的疗效相关,因此对抽取工作的准确率、召回率的要求就更加高。希望通过对Watson理念的学习,能够建立起中医药数据挖掘第三阶段的理念和方法,即由之前的“模拟”名老中医诊疗成为“多种传感器和大规模数据库,通过多种算法和机器的学习,来完成分散的任务”,能将优秀中医群体智慧成功地用于证候诊断和处方用药上,那么对提高中医临床疗效将具有不可估量的作用。
2016年3月,阿尔法围棋(AlphaGo)对战世界围棋冠军、职业九段选手李世石,并以4︰1的总比分获胜。AlphaGo的工作原理有2个:一是“深度学习”,二是“两个大脑”,即通过2个不同神经网络“大脑”合作来改进下棋。在给定棋子位置情况下预测每一个棋手赢棋的可能。对于中医药数据挖掘来说,如果能将AlphaGo“深度学习”的工作原理发展应用于中医优秀群体的诊疗经验学习,将“监督学习的策略网络”与棋局评估器双大脑的模式发展应用于具体疾病诊疗,那么针对中医优秀群体的医生诊疗数据挖掘将可实现。
无论是Watson还是AlphaGo,都是集中了人类优秀智慧解决问题。尽管中医面对的问题比Watson和AlphaGo面对的问题要复杂很多,但如果中医药数据挖掘在受Watson和AlphaGo的启发和影响下,试图发现可以超越个体的、适用于中医临床的优秀群体经验。那么在下一个10年,中医药数据挖掘研究有可能突破瓶颈,所取得的进展对中医药学的发展将是至关重要的。
参考文献
[1] 韩家炜, KAMBER M.数据挖掘:概念与技术[M].范明,孟小峰,译.北京:机械工业出版社,2007:3.
[2] 王光宏,蒋平.數据挖掘综述[J].同济大学学报(自然科学版),2004, 32(2):246-252.
[3] 崔蒙,李海燕,雷蕾,等.“大数据”时代与中医药“知识密集型”数据[J].中国中医药图书情报杂志,2013,37(3):1-3.
[4] 维克托·迈尔-舍恩伯格,肯尼思·库克耶.大数据时代:生活、工作与思维的大变革[M].盛杨燕,周涛,译.杭州:浙江人民出版社,2013.
[5] 吴家睿.建立在系统生物学基础上的精准医学[J].生命科学,2015, 27(5):558-563.
[6] 张华东,赵冰,王映辉,等.谢海洲“治痹三要四宜”学术思想之信息化研究[J].湖北中医杂志,2008,30(11):5-6.
[7] 崔蒙,杨寅.关于中医药科学数据建设的思考[J].中国中医药图书情报杂志,2016,40(4):1-3.
(收稿日期:2016-08-24)
(修回日期:2016-10-20;编辑:魏民)