大数据时代背景下中医古籍面临的机遇与挑战
2014-12-11朱毓梅
摘要:中医古籍承载的信息具有大数据的特征。本文论述了在“大数据”背景下,中医古籍在集成、利用、知识发现等方面面临的机遇和挑战。
关键词:中医古籍;大数据;数据挖掘
doi: 10.3969/j.issn.2095-5707.2014.03.004
Opportunities and Challenges of Traditional Chinese Medicine Ancient Books in the Era of Big Data
Zhu Yumei
(Shandong University of Traditional Chinese Medicine, Jinan Shandong 250355, China)
Abstract: This article expounded that the information of Traditional Chinese Medicine(TCM) Ancient Books possesses the characteristic of Big Data and demonstrated the opportunities and challenges of TCM Ancient Books in the fields of data integration, information application and knowledge discovery.
Key words: TCM ancient book; Big Data; data mining
1大数据的背景、特点和含义
信息和能源、材料一起,并称为现代社会的三大支柱[1]。信息不可遏制的增长,导致了大数据时代的到来。大数据具有“大容量、种类多、流动快、价值高”的含义[2]。在维克托•迈尔-舍恩伯格和肯尼思•库克耶所著的《大数据时代:生活、工作与思维的大变革》一书中谈到,起源于电子信息领域的大数据概念正在日益深刻地改变着我们的生活以及理解世界的方式。在该书中谈到,大数据具有三个特点,第一是全面性;第二是模糊性;第三是由探求因果关系,转向事物相关性的寻找,要让数据自己发声;建立在相关关系的分析基础上的预测是大数据的核心[3]。
2中医古籍信息具有大数据的特点
中医古籍是中医理论和诊疗实践传承的载体。中医古籍信息量巨大,据《中国中医古籍总目》记载,在全国131个图书馆中馆藏中医书目有1.3万种。
中医古籍信息种类繁多,从临床诊疗经验的描述、中药的采集、药性的辨别到理论的阐述,既有严格遵循逻辑理论原则的医案解释,又有偏方验方汇集。中医古籍信息历经几千年,横跨南北方,既有横向的学术争鸣,又有纵向的流派传承,既有一定的理论自洽性,又有各自独特的见解。
基金项目:国家公共卫生资金项目(2010GJ01)
作者简介:朱毓梅,副研究馆员,研究方向:图书与文献信息研究。E-mail: zhuyumei000000@163.com
中医古籍信息的利用率不高,但无疑古籍中蕴含着极为有价值的知识。不仅临床中医医生要借助于古代文献中的知识来处理病患,2011年美国“拉斯克临床医学研究奖”——青蒿素的发现也来源于古籍文献。
中医思维的习惯是“取类比象”。个例化诊疗是中医临床的特色描述方式。个别是一般的基础,规律是个体的凝练。中医在被迫接受现代科学“大量、双盲、随机”统计学方式的同时,也在坚守着自己“天人合一,辨证论证,个体化诊疗”的特色。中医传统理论不是由“可观察、可设计、可控制、可预测”的实验证实的、具有明确因果逻辑关系的科学理论,而是采用经验的、“取类比象”的方式进行的描述。比如对于发热的症状而言,因为“热”的现象和太阳的发热、物体的发热是具有相似性的,在现实生活中,用寒凉的物体可以消除或者消退热的现象,而在中医实践中,石膏的服入可以治疗发热的症状,因此把石膏定位为具有“寒”的药性。这种“石膏-发热”到“寒-热”关联角度考虑问题的方式体现了中医自然哲学的特征。这种特征无法像现代生物学那样,从微观逻辑的角度、从实验设计的角度令人完全信服,但这种关联本身在实际的医疗实践中是非常有效的。生物医学的最终目的除了满足人们对于人体自身的好奇心之外,就是对于疾病好转的追求。忽略临床需要,一味追求理论的完美对于医学本身是有害的。中医的这种关联性思维方式无处不在,符合大数据时代对于相关性的重视。
在大数据时代,个别信息不确定,总体信息具有规律性。中医古籍信息良莠不齐,真理和谬误并存。就像我们不能从单一信息源出发,确定某个网络信息是否为真一样,对于中医古籍信息真实性的确定除了临床验证之外,我们可以通过全面信息的分析获得我们需要的知识。比如不同医家对于“不寐”的理论阐述是不同的,他们所采用的方药也是各异的,宋咏梅等[4]对历代治疗不寐方剂中的中药进行频次分析得知,酸枣仁是所有方剂中使用频率最高的药物,使用频率较高的药物包括人参、茯神、麦冬、半夏、远志、熟地黄、生地黄、柏子仁,这些常用药物在临床中是常用的,也是有效的。从大量不确定信息中找出有价值的信息,是大数据时代的特征。
中医专家系统的目的就是根据以往有效的临床经验,在疾病好转的驱动下,预测当前患者病因病机和诊疗方案的过程。预测的基础是对以往海量数据进行机器学习。中医古籍文献中的大量病例,是构建中医专家系统的基础。这些病例来自不同年代、不同地域的不同医家,具有鲜明的个性化特征。对于一个具体的患者,不同医家的预测方向可能是不同的,如何根据当前大量的、模糊的、不确定的知识选择最符合要求的诊疗方案,是中医专家系统能最终广泛应用于临床的关键所在。
3大数据时代中医古籍面临的机遇
中医古籍最初全部都是以文本形式存在的,与信息化数据相比,具有传播性慢、复制性差、容易损坏等特点。
传统中医从业者和研究者对中医古籍的利用具有局限性、片面性、时效性、地域性等不足。大数据的理念和技术为中医古籍信息的充分利用带来了机遇。
3.1在大数据时代,知识变得更加全面,海量数据的集成变得可能
在农业社会,很难想象一个人能够有机会阅读如此众多、不同年代、不同流派、不同地域的中医药著作。信息化时代打破了时间、地域界限和流派之争,使得面向主题的全面信息的存储和检索变得简单和可能。王振国等[5]研制的“中医药古文献保障系统”收录了上至秦汉,下至当代的十万余首方剂,并具有灵活的面向用户的知识服务功能;张启明等[6]在visual foxpro平台上,通过对历代中医医案文本数据的规范化、结构化处理,收录了历代医案22 459首,数据量达到2亿。
3.2在大数据时代,不确定的、模糊的个体经验,在数据挖掘后呈现总体的规律性
中医流传几千年,中医理论和成功诊疗的实践描述无疑是丰富的,信息量是巨大的。在过去,人们往往依靠个人在阅读有限书籍和临床的摸索悟性中寻找规律。如今数据挖掘技术使得规律的寻找变得更加直观和触手可及。相比于“第一原理”对客观世界微观领域的精确描述,数据挖掘强调收集大量的、复杂的、模糊的、不确定的数据,分析数据集合从而获得有用的信息和知识的过程[7-8]。
对中医古籍信息进行数据挖掘主要集中在病案和用药规律的研究。曾大方[9]对《临证指南医案》进行了频数统计的分析;陈擎文[10]在中医古籍治疗中风的医案基础中,运用频次分析和关联分析的方法,找到古代名医治疗中风最常用的7味中药、9个药对和3个三药对;周德生[11]集成了明清时期津液亏损的病案573例,采用R型系统聚类分析方法,确定了每个亚型的辨证用药规律;王佑华等[12]探讨了人工神经网络、决策树、粗糙集等方法应用于古籍文献信息数据挖掘的可行性。
3.3在大数据时代,个性化十足的师承将被中医专家系统取代
个性化诊疗是中医的特色,也是中医难以进行规范化的桎梏。中医专家系统是人工智能和中医药相结合的研究领域。自1979年第一台中医专家系 统——关幼波中医肝病诊疗系统诞生以来,迎来了10多年的研究热潮。到2008年底,研制的中医专家系统有200多个[13],比如鲍友麟“胃脘痛”专家系统、梁宗翰儿科脾病专家诊疗系统等[14]。到上个世纪90年代,由于中医专家系统的个性化特点,研制成的专家系统往往很难进行普及,中医专家系统的研究陷入低潮。王瑞祥等[15]在胃脘痛中医古籍信息的基础上,针对不同医生对同一患者诊断可能产生的不确定信息和不同症状体征对辨证的重要性难以把握的瓶颈问题,采用粗集理论结合聚类分析的方法,实现了不同年代中医专家的集体会诊,研制成功的胃脘痛中医诊疗系统,具有良好的理论基础和临床效果。
4大数据时代中医古籍面临的挑战
大数据时代尽管给人们带来了更全面的信息,更先进的技术,更科学的算法,但要使得中医古籍信息的作用得到充分的发挥,还面临着许多尚待解决的问题。
大数据要求数据越多越好,但中医古籍由于年代久远,保存不利,大量古籍流失,有的版本流落在民间,有的版本远在海外,现存古籍也面临大量修复的问题。
尽管大数据不强调数据的规范化和结构化[3],但对于中医古籍信息而言,由于年代和地域的差距过大,一词多义、多词同义现象非常普遍,如果不进行适当的规范化,很容易造成信息的误读,很难提取出有价值的信息。2010年,财政部专项公共卫生专项资金“中医药古籍保护与利用能力建设”对400本中医古籍进行整理,有望在一定程度上实现对中医古籍信息的确认和规范化[16]。2012年,科技部重点项目“中医药基础学科名词术语规范研究项目”在北京启动,项目将对中药、方剂等十个学科的8 000条名词术语进行规范,项目完成后,中医规范化名词术语将达到1.3万条,并建立同义词数据库[17]。尽管如此,中医古籍信息的规范化工作还有相当长的道路要走。
中医古籍中的不确定信息固然可以通过数据挖掘的手段提取出临床和科学研究中有价值的知识,但不可否认,很多有价值的知识并不是在古籍信息中普遍存在的。比如在发现青蒿素的过程中,是通过对古籍中记载的治疗疟疾的640个方药一一实验之后,才找到青蒿这一治疗疟疾的中药的。而数据挖掘仅仅体现在从2 000多个记载治疗疟疾的方药中精选出640个方药的过程。这种范围的缩小尽管有价值,但也是远远不够的。如何找到一个能对有价值信息进行精确定位的工具,是大数据时代中医古籍信息知识发现的关键。
5小结
在信息化浪潮里,中医古籍以其悠久的历史渊源、丰富多彩的信息内容、高价值的知识蕴含,越来越多地受到人们的关注,中医特有的相关性思维方式符合大数据时代的特征。根据相关性知识构建的具有预测功能的中医专家系统,可以在大量不同医家不确定知识的基础上进行确定性诊疗。在大数据理念和技术的指导之下,以中医古籍文本信息为本,最大限度地构建同义词数据库,保持古籍信息的原汁原味,在正确语义的基础上进行知识发现,并能及时应用于临床和科学研究,是中医古籍信息发挥作用的必由之路。
参考文献
[1]郁青.图书馆信息服务散论[J].图书馆界,2000,9(3): 8-11.
[2]韩翠峰.大数据带给图书馆的影响与挑战[J].图书与情报, 2012(5):37-40.
[3]维克托•迈尔-舍恩伯格,肯尼思•库克耶.大数据时代:生活、工作与思维的大变革[M].盛杨燕,周涛,译.杭州:浙江人民出版社,2012:18-42.
[4]宋咏梅,崔利锐,李军伟.古代失眠方药的文献分析[J].山东中医药大学学报,2012,36(5):392-394.
[5]王振国,刘耀,周扬.基于信息构建(IA)的中医药古文献保障系统研究[J].中国中医药现代远程教育,2004, 2(7):5-8.
[6]张启明,王永炎,张志斌,等.中医历代医案数据库的建立与统计方法[J].山东中医药大学学报,2005,29(4): 298-299.
[7]DL Olson, D Delen. Advanced data mining techniques[M]. Springer Publishing Company,2008:5-7.
[8]Mehmed Kantardzic. Data Mining: Concepts, Models, Methods, and Algorithms[M]. A JOHN WILEY&SONS, INC, 2011:1-9.
[9]曾大方.《临证指南医案》方案的统计研究[J].山东中医学院学报,1985,9(1):13-17.
[10]陈擎文.数据挖掘技术在古代名中医中风医案之应用研究[J].中华中医药学刊,2008,26(10):2254-2257.
[11]周德生.明清时期津液亏损病案573例辨证用药统计分 析[J].中医药研究,1998,14(4):12-13.
[12]王佑华,陆金根,柳涛,等.中医医案中的知识发现研 究[J].中西医结合学报,2007,5(4):368-372.
[13]白春清.中医专家系统30年[J].医学信息,2011,24(2): 550-552.
[14]北京中医管理局科教处.关幼波、鲍友麟、梁宗翰老中医专家系统[J].北京中医,1992(4):54-55.
[15]王瑞祥.一种基于粗集简约的中医专家系统设计和实现[J].时珍国医国药,2013,24(10):2476-2477.
[16]林玉婷,林莉.论中医古籍的保护[J].中华医学图书情报杂志,2011,20(11):45-47.
[17]吴潇湘.中医药基础学科名词术语规范研究启动[J].中医药管理杂志,2012,20(4):345.
(收稿日期:2014-03-28,编辑:魏民)