关于中医药科学数据建设的思考
2016-10-20崔蒙杨寅
崔蒙+杨寅
摘要:从中医药文献数据库、《中医药学主题词表》的研制到中医药信息数字化虚拟研究院、基于结构型数据库的数据挖掘,中医药数据建设取得了显著的成绩。但中医药科学数据在建设和利用中也存在一些问题,需要思考。中医药科学数据建设需要采用虚拟研究院模式,必须有稳定的队伍。中医药科学数据建设与利用必须符合中医药学自身规律,建立适合自身数据处理的方法。中医药科学数据建设的理论和方法学问题,不可单纯引进其他学科的理论和方法,而应该在中医药理论指导下借鉴这些理论和方法解决中医药数据建设的难点。
关键词:中医药;科学数据;虚拟研究院
中图分类号:R2-05 文献标识码:A 文章编号:2095-5707(2016)04-0001-03
Reflections on the Construction of TCM Scientific Data
CUI Meng, YANG Yin
(Institute of Information on Traditional Chinese Medicine, China Academy of Chinese Medical Sciences, Beijing 100700, China)
Abstract: The construction of TCM scientific data has made great achievements, including TCM literature database, the development of TCM keywords table, virtual institute of digital TCM information, and data mining based on structural database. At the same time, we found some problems in the construction and utilization of TCM scientific data, which demand our reflection. TCM virtual institute should be used to construct TCM scientific data and build a steady team. The construction and utilization of TCM scientific data should fit the law of TCM and establish a proper way of data processing. The problems in the theory and methodology of construction of TCM scientific data cannot be solved by solely introducing theories and methods of other subjects, but can be solved by referencing these theories and methods under the guidance of TCM theories.
Key words: TCM; scientific data; virtual institute
中医药科学数据是指在中医长期医疗实践活动及科学研究过程中所产生的原始性、基础性数据,以及按照不同需求、系统加工的数据。它既包括了
基金项目:国家科技部重大专项(2012ZX09304003-001);国家中医药管理局行业专项(201207001-21);科技部科技基础性工作专项(2009FY120300);中国中医科学院创新团队项目(PY1306)
第一作者:崔蒙,研究员,研究方向为中医药信息学。E-mail: cm@mail.cintcm.ac.cn
中医在几千年医疗实践活动中长期积累与整理编纂的海量数据,也包括实施科技计划项目与科技工作者科学实践所产生的大量数据,它是中医理论继承与创新发展、中医临床决策支持与中药新药研发的重要源泉与依据。
1 中医药科学数据建设现状
中医药科学数据建设起源于20世纪80年代初,中国中医研究院图书情报中心(即现在的中国中医科学院中医药信息研究所)仿照美国国立医学图书馆Medline数据库开始研制中医药文献数据库。尽管只是文摘数据库,但采用美国国立医学图书馆的标引技术,研制出《中医药学主题词表》,对数据库进行主题词标引,起点比较高。该数据库至今仍在持续维护中,收录范围已经扩大到1949年至今,文献量超过140万篇,对中医药科学数据的利用发挥了重要作用,是中医药科技查新的重要工具。
20世纪90年代末至21世纪初,随着国家对科学数据建设重视程度的不断提高,特别是国家科学数据共享工程的启动,中医药科学数据建设获得了快速的发展。由中国中医科学院中医药信息研究所组织,建立了由全国37家中医药院校和研究院所的图书馆、信息中心、文献中心共同参与的中医药信息数字化虚拟研究院(简称“虚拟研究院”)。虚拟研究院没有行政关系,主要是以项目为纽带,以共同目标为己任,以各个院校、研究院所的相关机构为依托,以各个数据库为研究小组,形成了集全国力量为一体的中医药科学数据研制团队。在浙江大学计算机科学与技术学院的全力支持下,引进最先进的计算机及网络技术,开展了空前规模的中医药科学数据建设工作,开发了中医药科学数据共建与共享平台,研制了中医药学语言系统、中医临床术语系统和20余个中医药专题词表,制作了60余个中医药结构型专题数据库,形成了全球最大规模的中医药科学数据平台,对推动中医药行业的科学数据利用,以及对中医药行业重视科学数据起到了不可替代的作用。
与此同时,中医药科学数据的深度利用研究也蓬蓬勃勃地开展起来。基于结构型数据库的数据挖掘工作取得了很大的进展,在方剂配伍规律、证候组合规律、名老中医用药规律等方面开展了大量的研究工作。在浙江大学计算机科学与技术学院的支持下,搭建了高性能计算平台,支持50个节点的并行运算,运算峰值达每秒万亿次;研制了支持虚拟研究院工作的DartGrid平台,实现了全国37家单位的远程协同建库工作;研制了支持知识服务的DartCloud云平台,构建了知识服务平台的智慧应用中心,极大地促进了中医药科学数据的深度利用。
当大数据理念提出后,我们提出了中医药数据所具有的2个鲜明特色,即中医药数据是全数据、是知识密集型数据,并开始研制基于大数据的应用平台,更加关注非结构化数据的处理、混杂数据的处理,以及数据间的相关关系,对基于中医药科学数据的知识服务展开了更加深入的研究。
在取得成绩的同时,我们也发现了在中医药科学数据建设和利用中存在的问题,这些问题有可能延缓中医药科学数据建设与利用达到更高水平和更快发展的速度。因此,必须认真思考和解决这些问题。
2 中医药科学数据建设的问题及解决方案
2.1 建立稳定的虚拟研究院队伍
中医药科学数据建设单位的规模一般不很大,依靠一个单位开展大型数据库的建设和利用非常困难。另外,一个重大研究项目常常横跨多个学科,应综合应用多种研究方法探讨其独特规律[1]。因此,以项目为依托,紧密联合多所大学及研究院编制内的实体研究机构或科研小组的、全国性的协同工作在中医药科学数据建设中至关重要。而已经建立起来的虚拟研究院是成功的范例,其多学科、多中心、多项目的合作模式,基于工程、多项目支撑、多层次结合、鼓励自我优势探讨的发展模式,中心负责、专业化分工、共建共享、松散联合的运行模式,共同构成了虚拟研究院在中医药科学数据建设上的独特优势[2]。通过近年的建设实践,虚拟研究院保持了稳步的发展,实现了研究方向的不断丰富,研究领域的不断拓展,参与单位科研人员整体水平的不断提高,合作单位的不断增多,国际交流的不断扩展,数字化成果、数据利用成果、传统知识保护成果、国际合作成果产出的不断增多。然而,在实践中我们发现虚拟研究院仍存在一些问题,最主要的是人员管理体制问题。
现行的人员管理体制中存在一把手负责制、干部轮换制。一把手负责制即组成虚拟研究院的机构负责人不仅负责确定数据建设的战略和方针,还干预具体的管理过程以及方案的确定和实施。干部轮换制是指组成虚拟研究院的机构负责人经过一定年限后,由所隶属的科研院所进行更换,而新负责人可能来自院所的其他部门,不具备中医药信息研究背景和专业基础。在这种管理体制下,“一把手”并不是这个专业的行家里手,甚至对这项工作没有兴趣,使得虚拟研究院的运行出现了很大的问题。换言之,一批干部轮换后,若由不擅长此项工作的人来主持,会影响工作开展。然而,科学数据的管理和完善不是单纯的技术问题,而是技术与管理相结合的持续完善的管理过程[3]。对于虚拟研究院来说,其机构、组织、人员等的稳定具有极其重要的作用和意义,特别是组成虚拟研究院机构的负责人的稳定性对中医药科学数据建设工作的开展具有至关重要的作用。中医药科学数据的建设与利用是一项专业性很强的、需要持续进行的工作,并不是一项简单的行政工作;凝聚一批有兴趣、有能力、有事业心的负责人,对中医药科学数据建设事业具有极其重要的作用,而用简单的行政管理办法,随意调动、更换负责人,会导致工作失去连贯性,特别是当新的负责人没有足够的兴趣或能力时,甚至会导致工作终止,由此给中医药科学数据建设与利用带来巨大损失。因此,虚拟研究院需要以负责人稳定和研究人员关系平等为基础的人员队伍。
2.2 建立适合中医药科学数据处理的方法
通过长时间的实践,我们发现中医药科学数据建设与利用既要遵循一般科学数据建设的规律,也要遵循中医药学的规律,否则其数据建设和利用就会脱离中医药临床与科研的实际,失去其应有的价值和意义。首先,中医药的临床实践是基于个体化诊疗的,这种个体化不仅指观察对象的个体化,还包括观察者的个体化,亦即参与诊疗过程的医生和患者都具有个体化特征,形成一个相对独立的个体化系统。当然,这是一个开放的独立系统,患者是处于自己个体的天地人三者合一的开放系统中,医生也同样处于其个体的天地人三者合一的系统中,两者又组成了一个共同的开放系统。对于这样一个系统所产生的数据必须要遵循中医药学的理论进行处理,才能发现其内在规律。在这个系统中,有能够使用混合大数据处理的数据,如发现组成证候的症状群规律;也有只能根据单一系统处理的数据,如医生个体、或单个医生与患者组成的系统诊治时处方用药的规律;因而不能简单地使用大数据的处理方法处理中医药数据。其次,中医药数据是属于知识密集型数据,其数据量很难达到类似天文、海洋、气候、地理等学科级别的数据量,因此,仅靠数据密集度发现新知识具有一定难度。更为适合的方法可能是建立基于本体的语义网络,将数据中隐含的知识关联起来,以期发现新的知识和规律。所以,中医药科学数据的处理必须符合中医药学本身的规律,服务于中医药知识和规律的发现与应用。随着人工智能技术的发展,特别是近期韩国著名围棋手李世石与谷歌AlphaGo所进行的围棋比赛,显示了人工智能研究发展的态势,使中医药科学数据的深度利用受到很大启发,甚或有了新的研究思路。
2.3 建立中医药科学数据建设的理论和方法学
建立中医药科学数据建设的理论和方法学,不可单纯引进其他学科的理论和方法,而应该在中医药理论指导下借鉴这些理论和方法,来解决中医药数据建设的难点。
基于中医药知识服务的科学数据建设有4个难点,即⑴如何表达复杂、定性、模糊的中医药概念、知识与思维模式?⑵如何无缝集成融合不同学科的异构知识,保证知识的一致性并能快速查询搜索?⑶如何重组、扩展、挖掘数据以发现隐形知识,实现知识创新价值?⑷如何实现智能的过程信息知识管理,提升行业经济效益?很明显,单纯引入其他学科的理论和方法不能直接解决这4个难点,只有将前者融入中医药理论中,将之转化成符合中医药发展变化规律的理论和方法,才能解决中医药科学数据建设的问题。
针对上述4个难点,较为合适的解决方法依次是,⑴构建基于语义图的中医药知识图谱与知识库,关键点为基于多图语义的知识图谱建模方法和唯象中医药知识建模方法;⑵研发基于语义互联网的中医药知识搜索技术,关键点为多模型语义映射方法和分布式语义索引方法;⑶建立基于语义图挖掘的中医药知识发现,关键点是复杂网络化知识的搜索挖掘方法和基于语义图的泛化关联规则挖掘方法;⑷获取面向过程服务的知识集成方法及服务技术,关键点是基于语义发布订阅的知识集成方法和面向移动环境的知识服务集成方法。
3 小结
中医药科学数据建设是整个人口与健康科学数据共享平台建设的不可或缺的部分,我们努力将中医药科学数据融入整个健康科学数据的共建共享,在促进整个健康事业发展中发挥作用。以虚拟研究院为组织模式的中医药科学数据建设在取得一定进展的同时,亦发现一些问题,产生了与之对应的思考。希望能够经由这些发现和思考进一步完善中医药科学数据建设工作,使中医药科学数据发挥更大的作用。
参考文献
[1] 周增桓,李海燕,史先东,等.对科研协作中若干问题的探讨[J].中华医学科研管理杂志,2000,13(3):188-189.
[2] 崔蒙,谢琪,尹爱宁,等.中医药信息数字化虚拟研究院建设模式研究[J].上海中医药大学学报,2008,22(3):5-8.
[3] 吴金红,陈勇跃.面向科研第四范式的科学数据监管体系研究[J].图书情报工作,2015,59(16):11-17.