中药及民族药数据库的调研与讨论
2021-04-17徐博吴翠李卓俊徐靓巢志茂中国中医科学院中药研究所北京100700国家中药材产业技术体系贮藏与包装岗位北京100700
徐博,吴翠,李卓俊,徐靓,巢志茂*(1.中国中医科学院中药研究所,北京 100700;2.国家中药材产业技术体系贮藏与包装岗位,北京 100700)
中药及民族药文化是中华民族智慧的结晶和经验的积累,如今对中药及民族药的研究涉及本草考证、资源调查、种植采收、化学成分、药理作用、临床应用、产品开发等多个方面。随着研究范围的不断扩大,大量的研究数据和结果不断涌出。这些成果的传播和共享对促进中药学及民族药学的发展具有重要的意义。近年来,随着计算机数据库技术的迅速发展及应用领域的推广,数据库构建技术应用于中药及民族药领域也成为了现实。鉴于数据库具有共享性、灵活性、可控性、独立性等优势,并且随着数据库技术的发展和完善,其应用已不再局限于信息的保存、查询和管理[1],还可实现对科研数据的深入挖掘和分析,即通过分析数据库中存储的大量数据,发现数据背后隐藏的特征或规律,从而辅助科学研究和决策[2-3]。
调研发现,当前与中药及民族药相关的数据库发展迅速,类型丰富多样,具有广阔的发展空间和应用价值,但也存在一些不足,如数据库的建设缺少宏观调控、各数据库之间的信息无法有效共享、数据库重复建设现象严重、缺少中医药与计算机专业知识兼备的复合型人才、已构建的数据库不能定期更新、利用率低等[4-5]。因此,如何使数据库的价值最大化,仍需要长期的探索和完善。本文对现阶段我国中药及民族药的数据库现状加以调研,对调研过程中发现的问题加以分析和讨论,提出相应的建议与对策,以期为数据库技术更好地助力中药及民族药的继承与创新提供参考。
1 资料与方法
通过访问中国科学院昆明植物研究所的标本数据馆、中国中医科学院中医药信息研究所的中医药科学数据中心、广西中医药研究院信息中心及成都中医药大学等研究院所或高校建立的线上共享数据库,并下载知网、万方、维普数据库中收载的与我国中药及民族药相关的数据库文献报道作为参考资料,总结中药及民族药相关数据库的发展历程、主要类型、建设技术问题及服务现状,分析在数据库中存在的问题并提出相应的对策或建议。
2 结果与分析
2.1 发展历程
第一个被报道的中药数据库是日本的《中国产生药数据库》,于1984年建设完成,该数据库主要用于生药资源的研究,揭开了数据库技术在中医药领域应用的序幕[6]。1997年,中国中医科学院中医药信息研究所将研发的中药理论数据库、中药方剂数据库等在网络上公开分享,初次实现了中药数据库信息资源的在线共享,数据库技术在中医药领域的应用开创了一个新的平台。目前,在我国已有20 余所中医药院校建立了具有中医药特色的数据库,如北京中医药大学的道藏医药文献数据库、辽宁中医药大学的中医古籍数据库、广西中医药大学的抗病毒中药数据库等[7]。随着计算机互联网技术的快速发展,数据库的信息记录形式从最初单纯的文字发展到图像、音频、视频等影像资料[8],表现形式丰富多样,文献库、标本库、图书库等各种类型的数据库均已具备一定的规模,且发展迅速。
近年来,随着大数据时代的到来,基于数据库的数据挖掘技术也广泛应用于中医药研究,如方剂配伍规律的研究、针对某种疾病的用药规律研究等。并且随着空间数据库技术的发展,将数据挖掘技术应用于中药及民族药资源信息空间分布研究也有了突破。如有学者以甘草为例,利用空间分析和数据挖掘技术,对与甘草资源分布有关的地理生态因子进行空间相关性分析,总结甘草药材资源与环境气候的内在联系,进一步扩大了数据挖掘技术的应用范围[9]。
目前,民族药的信息化发展也得到了国家的高度重视和社会的广泛关注,一些民族医药研究机构投入了大量资源开展相关研究,并取得了一定的成果。如中国中医科学院中医药信息研究所研制的包含藏药、蒙药、维吾尔药、苗药、傣药、瑶药在内的民族药数据库,为民族医药的信息化奠定了基础。然而相比于中药数据库,由于历史条件、地域分布、文化差异、传统观念等因素的制约及人才、政策、资金等因素的限制,民族药信息的采集、整理、存储及挖掘等信息化工作进展相对缓慢,发展相对滞后。
2.2 主要类型
2.2.1 基础数据库 基础数据库是收载中药及民族药基础信息的一类数据库,数量多,内容丰富,收录范围广,权威性强,常可作为参考资料使用。当前收录的基础信息主要包括中文名称、汉语拼音、拉丁学名、别名、基原、栽培(养殖)、采收加工、鉴别、化学成分、药理作用、炮制方法、性味、功效、主治、配伍规律、用法用量、注意事项等。如中国中医科学院中医药信息研究所参考《中国药典》《中药大辞典》等权威工具建立了中国中药数据库,广西中医药研究院建立了以中药、壮药、瑶药为特色的广西中药资源信息共享平台,浙江中医药大学建立了《中药大辞典》数据库[10],广州中医药大学建立了单味中药数据库以及江西中医药大学建立了民族药资源信息数据库与共享平台等[11]。
2.2.2 标本类数据库 药材标本是科研、教学和科普的重要资料,温度、湿度、氧气等环境因素及时间、空间、经济条件等对标本的长期保存提出了考验。若将标本以数据库的形式收载不仅可解决上述问题,还可实现中药标本信息的网络有效共享。对此,2004年中国中医科学院中药研究所与其他单位共同创建了中草药和民族药的标本数据库,收载了大量腊叶标本信息,并建立了计算机管理系统,随后又逐步建立了藏药、蒙药、维药等民族药数据库[12]。2006年成都中医药大学建立了以数据库为核心的民族药标本资料查询系统,提供了650 个品种的民族药标本资源共享,包括腊叶标本、药材标本、生药图片及标准药材等[13]。亳州职业技术学院以中药标本馆的馆藏中药标本为主建立了网络数据库,实现了中药标本的信息化管理和资源的有效共享[14]。目前,中国科学院昆明植物研究所的标本馆数据库中收载的标本数量达近14 000 种。更有专家学者从药材资源的道地性出发,建立了具有地方特色的数据库,如陕西中医学院结合秦岭特有的中草药资源建立了秦岭中草药标本馆图像数据库[15]。
2.2.3 组分类数据库 从植物中寻找活性成分和先导化合物是开发新药的主要手段。我国丰富的药用植物为创新药物的研发提供了宝贵的资源。为此,天津药物研究院收集整理了自1982年以来发现的植物活性成分,建立了相关数据库,为新药开发提供了信息宝库[16]。此外,北京中医药大学专门针对活血化瘀类中药建立了组分数据库,希望通过组分数据分析和挖掘发现活血化瘀类中药的组分特征或规律[17]。
2.2.4 指纹图谱类数据库 在中医药的现代化进程中,随着高效液相色谱指纹图谱、质谱指纹图谱、核磁共振指纹图谱等各项技术的成熟和完善,采用指纹图谱技术控制中药材的质量已成为发展趋势。对此,石家庄经济学院建立了中药三维荧光指纹图谱数据库[18],沈阳药科大学建立了中药指纹图谱在线专家系统[19-20]及五加科植物的多维指纹图谱数据库[21],清华大学设计了中药材红外图谱数据库[22]等,为指纹图谱数据库的发展提供了参考。
2.2.5 古籍文献类数据库 古籍作为我国中医药文化的有形资料,是古人智慧的结晶,意义重大,但这些古籍资料历史悠久且数量浩瀚。随着电子化时代的到来,将古籍通过数据库的形式记录并保存不仅符合经济环保的发展理念,更有利于古籍内容的共享,可有效避免由于古籍的流失而导致信息失传。对此中国中医科学院中国医史文献研究所建立了民族医药古籍文献书目数据库,该数据库囊括了藏医、蒙医、维吾尔医和傣医等千余部古籍文献的相关信息,为研究民族药的历史创造了条件。广西中医药研究院于2017年对馆藏的明、清、民国等时期的珍贵古籍进行了电子化扫描及编目工作,出版了《广西中医药研究院馆藏中医药古籍目录》,为充分利用珍贵的古籍资源提供了条件。但总体来看,与其他类型的数据库相比,此类数据库的数量相对较少,且收载的古籍数量有限。
2.2.6 其他类数据库 除以上数据库外,还有其他类型的数据库。如上海中医药大学建立的中药不良反应数据库,整理了1960—2008年文献中报道的不良反应,为不良反应的流行病学调查分析、中药安全性评价、中药不良反应方法学研究等提供了参考依据[23]。广西中医学院建立了中药药性数据库[24]、南京中医药大学建立了中药炮制学基本数据库[25]、广西中医药大学信息网络中心建立了中药叶形态-脉序图谱鉴别法数据库以及辽宁中医药大学建立了中药药物警戒数据库等[26-27],这些数据库从不同的角度和视野,丰富了中药的数据库类型。
2.3 数据库的构建技术
2.3.1 数据的预处理 数据是组成数据库的基本单元,中医药的数据具有信息量大、增长速度快、定量和精确性差、数据分散且复杂多变等特征。如对于中药材而言,同物异名、同名异物的现象较为常见,又如中药的毒性分为剧毒、有毒、无毒、大毒、小毒等,但并无准确的定量标准。因此,在建立数据库时,对数据信息应制订统一的规范标准和处置原则,以提高检索的准确性。对于中药及民族药而言,数据信息大致分为两类:一类是较为稳定的信息,如中药的性味归经、功能主治等,这类数据认可度高,稳定性强,建立标准、规范的数据处理方法简便易行,体现了继承的观念;另一类是根据研究结果不断更新的数据信息,如药用植物中新发现的化学成分、药理活性等,这类数据则反映了科学研究的最新进展,对前沿的科学研究至关重要,体现了发展的观念[28]。
针对第一类较为稳定的数据信息,现在主要采用“量子化”的处理方法[29]。所谓“量子”是指将中药的信息细化成由若干汉字组成的不可再行细分的、具有相对独立内涵和排他作用的最小信息单位。举例来说,中药的毒性通过“量子化”后,分解为无毒、小毒、有毒、大毒、剧毒5 个具体的量子。根据每味中药的具体毒性大小,在无毒、小毒等的量子项下,进行True 与False 标定,这样在每条中药信息的毒性项下,都只显示“0”或“1”,从而保证了数据结构的标准化与一致性[30],便于提高数据库的信息处理速度,因此中医药信息的量子化是中药及民族药信息数字化、标准化和现代化的基础。但是在“量子化”的过程中也会造成中药数据信息的丢失,如以“毒性”为例,在无毒、小毒等5 个具体的量子之外,“微毒”这一预设之外的概念则无从定位。对于第二类不断更新的数据信息,可采用全文或摘录重点信息的形式,或根据用户的具体需求量身设计实用的处理方法和数据库表结构,在忠于原有数据的基础上,统一整理数据信息,总结数据分布特点和规律,从而建立结构关联清晰的数据库。
2.3.2 数据库的共享技术 调研过程中普遍存在的一个现象是,由于各个数据库建设的时间、技术、背景、目的不同,且没有统一的建设标准和使用规范,不同数据库之间采用的管理系统、操作系统、开发工具不同,其数据的结构、类型和表现形式也各不相同,随着数据库数量的迅速增长,便形成一个巨大的异构数据库环境,导致各数据库之间信息无法共享,阻碍了数据库的发展,也导致了数据库构建资源的浪费。针对这些问题,希望能够建立一个异构数据库的信息共享平台,实现不同数据库之间的数据共享。或者设置一个新的标准界面,能够在已有的信息系统基础上建立一个互操作平台,从而实现不同数据库之间的互相操作和信息共享。这种方式不仅可以保持已有系统中的数据和应用程序,还允许新的系统加入,有利于信息资源的共享和更新。目前,以上两种解决方案均已取得了一定的应用进展。
可扩展标记语言(extensible markup language,XML)是建立异构数据库互操作技术标准的选择之一[31]。该技术具有可扩展性、可移植性的优势,可集结不同来源的数据,提供多样的搜索服务,实现互不兼容的系统间的数据传输,支持任何平台使用任何语言在客户端和服务器之间进行数据交换,从而实现异构数据资源的无缝集成和整合。如有学者根据XML 技术,构建了数据集成模型,通过设计中间件,解决了校园网不同应用系统中异构数据库之间的数据集成与共享,为解决数据库的共享问题提供了参考[32-33]。
2.4 主要应用
2.4.1 教学 有学者认为,采用中药数据库教学对中药专业学生学习理论知识有着巨大的应用前景,通过建立一个包括《中药学》《方剂学》《中药炮制学》《中药鉴定学》《中药化学》等基础课程的教学数据库,将各门课程系统、有机地结合,不仅打破了时间、空间的限制,节约了教学成本,更有助于学生全面理解和掌握基础知识,融会贯通,避免孤立片面的学习[34-35]。但就目前而言,由于各高校数据库采用的管理系统、操作系统及数据信息的结构、类型和表现形式等不同,数据库之间信息资源的有效共享仍存在一定的困难,且目前多数院校建设的数据库仅限于校园网内部用户使用,校外用户无法访问,这就在一定程度上限制了各高校之间教学信息的交流,造成了教学资源的浪费。对此类现象,有学者提出构建教育“云平台”的设想和初步探索,既可以通过平台让学生获取丰富的电子资源,也可将有价值的资料上传至云空间,从而实现资源的有效共享,为解决当前教育资源分布不均现象提供了可能[36]。
2.4.2 信息查询、筛选 提供数据信息的检索和查询服务是数据库最基本的功能,大众可通过中医养生数据库获取专业权威的养生保健知识,科研工作者可通过数据库了解最前沿的研究动态。如今,数据库还可用于有效信息的筛查和鉴别。如有学者建立了壮阳类中成药和保健品中常见的非法添加化学成分的质谱数据库,通过特征碎片离子快速筛查鉴别样品中是否含有非法添加成分[37]。也有专家学者通过建立中药化学数据库筛选先导化合物,如以中药化学数据库为基础,运用分子模拟技术或计算机辅助药物设计方法筛选先导化合物[38]。目前这一技术已广泛应用于中药活性成分的筛选研究工作中。
2.4.3 数据挖掘 随着大数据时代的到来,充分利用数据挖掘技术已是大势所趋。如今,数据挖掘技术已广泛应用于中医药文献数据、中药物质基础、方剂配伍规律及中药复方等方面的研究[39]。有学者在建立抗肿瘤药物的中药数据库后,运用Apriori 算法挖掘分析了抗肿瘤中药的药性、功效及药理之间的关系,为肿瘤的中药治疗提供了参考依据[40]。也有学者建立了治疗围绝经期综合征的中药复方数据库,通过数据挖掘探索了治疗围绝经期综合征的中药复方用药规律[41]。但是由于中药及民族药数据具有多样性、复杂性、时效性,当前的数据挖掘技术主要用于发现数据表层的规律,缺乏对其内在机制的深入分析,且普遍存在样本数据偏小、结果评价欠缺等问题[42],因此数据挖掘技术仍需不断地发展和完善,开发出更适合中医药数据自身特征的数据挖掘方法,从而提升我国中医药数据的处理分析能力。
3 讨论与展望
3.1 加强民族药数据库的建设
当前民族药数据库的建设远远落后于中药数据库,仅有少数的研究机构开发了一些民族药数据库,数据库的内容和形式也不够丰富全面,且受语言文化差异的影响,民族药数据库的建设难度较大。因此,从国家、政府层面,应加大对民族药数据库建设的支持力度,出台相关的扶持政策,为民族药数据库的发展提供强有力的保障;站在科研工作者的角度,则应致力于民族药数据库的发展,尤其是在民族药发展相对薄弱的环节,如对药用植物的鉴定等方向,更应迎难而上,为推动和加速民族药数据库的发展贡献力量。民族药数据库的构建,还应吸取中药数据库建设方面的经验教训,尤其是在共享平台和社会服务方面要立足长远,面向未来。同时,各民族药应在单独、分散的建库基础上,制订统一的标准,统筹进行数据库的完善和发展。
3.2 制订数据库建设标准,发展数据库构建技术
由于数据库在最初建设时缺少统筹规划,主要由各研究机构自行开发,数据的表示与存储方式缺乏统一的标准,无法实现搜索软件的统一性,且由于开发时缺少共享意识,各数据库之间难以实现信息有效共享的融合和兼容,数据库重复建设现象严重。针对中医药和民族医药的特色,应大力发展具有中医药特色的数据库构建技术,统一数据库的建设标准,实现对各个数据库的集成共享,从而实现数据的挖掘,更好地服务于科研、服务于全社会。
3.3 加强人才队伍建设
中医药及民族药数据库的建设专业性强,不仅需要中医药的专业知识背景,更需要计算机专业技术的支持。当前数据库的建设大多由中医药专业人员提出思路和需求,由网络公司的计算机专业人才实施和操作。若能培养出一批中药学与计算机专业知识和技术兼备的复合型人才,建立一支稳定的包括民族药在内的中医药信息资源建设队伍,则可使数据库的建设更加顺利,内容更加准确,信息更加全面。
3.4 提高社会服务能力,创造经济效益
中药和民族药数据库的构建,在建设初期往往是有经费支持的,但是许多数据库在建成后未能得到持续的资金支持,难以继续发展而导致瘫痪或半瘫痪状态。此外,数据库建成后,未能很好地进行共享,未能充分地服务于社会,因此未能获得相应的经济效益,或取得的经济效益不足以维持对数据库的维护和更新。这也提示我们,在建设各类数据库时,要将社会共享作为基本要求之一,提供足够的、多方面的、多途径的共享机制和共享平台,从而维持数据库的维护、扩充和发展。