中药资源大数据的应用与展望
2021-05-24张明旭席琳图雅毕雅琼张春红吴涛涛李旻辉
张明旭 陈 元 席琳图雅 张 茹 毕雅琼 张春红,5,6,7 吴涛涛 李旻辉,,,5,6,7*
(1.包头医学院,包头 014040;2.内蒙古医科大学,呼和浩特 010110;3.锡林郭勒盟蒙医医院,锡林浩特 026000;4.内蒙古自治区中医药研究所,呼和浩特 010020;5.内蒙古自治区特色道地药材资源保护与利用重点实验室,包头 014040;6.中药资源学重点实验室,包头 014040;7.道地药材蒙古黄芪种植与开发内蒙古自治区工程研究中心,包头 014040;8.内蒙古天养浩恩奇尔中药材科技开发有限公司,包头 014200)
1 引言
大数据指的是结构庞大、多样复杂,难以存储、分析和进一步可视化处理的海量数据集,它们被总结出具有以下四个特点:数据量大、实时性强、数据的种类多样、数据是有价值的[1]。大数据时代的到来是信息技术产业一次重要的变革,将为人类社会的发展带来不可估量变化。人们可以通过大数据挖掘出在以往获得的数据中所无法获得的有价值的信息,进一步为社会的发展提供科学支持[2-3]。与此同时,计算机科学的发展进一步促进了大数据的蓬勃发展,大数据相关的分析技术已经成为人们熟知的热门技术并且与越来越多的学科进行融合,而将其与中医药相关产业领域的结合,不仅可以有效挖掘疾病与中医药的内在联系,而且能够有效加深对中医药的研究,加速中医药的国际化进程,使其更好的造福于人类健康事业[4]。
从中药资源大数据的产生来说,一方面,来源于中药资源应用的历史积累:在悠久的中华文化发展历程中,同一种药用植物,在不同地方、经过不同的炮制方式、使用不同的药用部位都会产生不同的疗效,再加上对不同患者的辨证论治,积累了大量临床使用的数据[5-7];另一方面,来源于中药资源与其他科学技术的结合,中药资源大数据集合了生态资源、医疗资源、经济资源、科技资源及文化资源等多学科的基础数据[8]。因此,中药资源产业符合大数据的基本特征。中药资源大数据主要包括中药资源种类数目、物种分布情况、资源蕴藏量、资源变化趋势、栽培与野生情况、收购量、需求量、供给量、药材质量及传统应用知识等相关的统计数据。通过将这些数据整合挖掘,发现其新的价值,对中药资源的普查、评控、种植、流通、可持续化发展等方面具有重要意义[9]。
中药资源大数据经过悠久历史的沉淀,在当今现代科学的支持下会爆发一种新的生命力。王莎莎对基于R+Hadoop 中药材大数据的分析及预测进行了研究,在一定程度上解决了中药大数据面临的扩展性问题[10]。袁银对基于植物照片大数据进行深度学习算法分析的植物识别软件进行对比研究,这种大数据运用方式可以很好的为药用植物资源调查和中药资源知识普及服务[11]。因此,了解如何进一步研究对中药资源数据进行开发利用与应用管理,加大对该领域的关注具有的重要意义[12]。本文以中药资源大数据的开发应用情况为例,总结了中药资源大数据的数据来源、研究进展和发展方向,并提出了相关的发展建议。这对全国中药资源大数据发展具有参考价值,可以为进一步促进中药资源产业开发利用和中医药行业的健康发展提供指导。
2 中药资源大数据的应用建设
建立中药资源数据库和大数据统筹分析平台是管理和挖掘中药资源信息的重要手段。通过建立中药资源数据档案,可以长期积累大量有价值的数据;另一方面,通过云计算大数据平台的高效处理,发现其中蕴藏的规律。两者的结合可以为中药资源管理机构制定宏观政策提供依据,为保护中药资源生物多样性和实现绿色发展奠定基础[13]。
2.1 中药资源数据库建设
数据库的建立是中药资源产业信息化发展的基础。在中药资源大数据发展的初期,主要由国家管理机构建立中药资源数据库:1988 年的国家药品监督局信息机构建立的中药文献数据库记载了大量的中药资源文献资料;由国家中医药局所属机构的国家中药资源数据库,记载了我国大量的中药资源和药材分布的基础数据[14];如今,经过科研人员多年的研究发展,基于3S 技术的现代化空间数据库和基于第四次全国中药资源普查所建立的中药资普查数据库陆续建立起来。
3S 技术是空间信息分析的核心技术,在中药资源大数据库的建立中起着重要的作用。郭兰萍等人以3S 技术基础,构建了广泛用于中药资源及道地药材空间分析的中药道地药材空间分析数据库,该数据库除了可以基本的管理数据外,还可以进行道地药材的遥感分析、空间插值分析和空间分析的研究,该数据库成功的用于对苍术道地产区的遥感分类、NDVI植被指数的计算和产地区划分析,展现了该数据库在道地药材空间分析中良好的应用前景[15]。赵玉洋等人以甘草为例,阐述了中药资源空间数据库的构建原则、结构和方法,并讨论了基于该数据库建立空间分析模型的方法。该数据库通过赋予中药资源信息控件属性,使其具备空间分析能力,为深层次的挖掘中药资源信息奠定基础,这为中药资源的可持续化利用提供了技术支撑[16]。
自2011 年我国启动四次全国中药资源普查工作以来,陆续开展建立中药资源普查数据库并取得阶段性成果[17]。刘俊宏等人依据贵州省中药资源情况,从数据库功能,中药资源普查信息关联性等方面进行研究,设计如何构建贵州省中药资源普查数据库,为贵州省中药资源普查工作提供理论数据[18]。崔治家等人设计一个集资源展示、交互反馈、模糊检索、智能检索以及能对检索结果进行优化的中藏药资源数据库系统,使甘肃省中藏药资源普查取得的众多成果能够在省级层面展示和共享,这有效解决了目前大多数地区中药资源数据库主要为单机状况,无法通过互联网技术为更多用户服务的限制[19]。在普查工作中,科研人员收集了大量中药资源实物标本信息。因此,建立中药标本库也是中药资源大数据的重要来源之一。沈力等人以中药实物标本为基础,重点建设中草药资源数据库,并结合多媒体投影等多元化技术,将数据库资源有效应用于多媒体教学和中药学术科研信息支撑平台[20]。蒋若冰等人对中药标本数据库的研发管理进行了系统性的总结。并从中药标本数据库研发的建设目标及任务、建设过程、成果与利用情况等多方面指出存在问题,有助于在标本数据库的全面推广建设中提供参考[21]。
目前,全国第四次中药资源普查仍在进行中,各区域数据仍在不断更新,中药资源普查数据库仍在建设当中,而目前已经初步设计建立的数据库可以为全国范围的数据库建立工作的进行提供参考。
2.2 中药资源动态监测站建设
通过全国第四次中药资源普查数据库进行的大数据汇总虽然具有数据全面可调取的优点,但是仍无法及时地反应出中药资源大数据的变化的情况。而中药资源动态监测站则可以动态监测各地区中药资源变化情况,及时的了解监测地区中药资源的变化情况,通过利用各种信息收集和处理方式对资源状态进行系统性的测定、观察、记载、分析和评价[22]。在2009 年《国务院关于扶持和促进中医药事业发展的若干意见》中明确指出“开展全国中药资源普查,加强中药资源动态监测和信息网络建设”;《中医药事业“十二五”规划》有关专项中也提出“建立全国中药资源普查数据库和中药资源动态监测机制”的工作。张小波等人结合全国中药资源普查工作,对中药资源动态监测机制的建立进行探讨,明确其组织管理架构、覆盖全国不同层级的监测网络体系和汇总分析中药资源动态监测大数据信息的功能。该工作为顺利进行中药资源动态监测网络建设提供了指导性意见,对中药资源大数据的统筹和管理起到关键性的引领作用[23]。张恬等人为实现对全国中药资源变化的实时掌握,设计了12个表单,98个采集指标设计构建了中药资源动态监测填报系统,该系统可以有效地实现中药材的种植、生产和销售等日常数据的收集,满足中药材市场、集散地和种植地的快速定位和信息收集,为获得真实准确的中药资源大数据提供了有效手段[24]。赵姝婷等人针对四川省的中药资源普查信息化缺口,研究建设了基于GIS的四川中药资源信息系统,为实现中药资源的动态监测和数据的录入、查询、分析、共享等方面提供了平台基础,对构建四川省中药材生态适宜性评价体系科学研究提供技术支撑,为更全面的发展全国中药资源动态监测提供了参考[25]。
3 中药资源大数据的研究进展
3.1 中药资源空间差异性分布研究
我国地域辽阔,自然环境条件复杂多变,形成了丰富的中药资源宝库[26]。但正是因为复杂的气候因素和地理因素,中药资源的分布具有了不平衡的特点。结合地理空间信息和中药资源大数据进行空间差异性研究,对保护各地区的中药资源生物多样性,揭示中药资源空间分布规律和时空演变过程具有重要意义[27]。
宋海龙等人以新疆吐鲁番市的第四次全国中药资源普查阶段性工作为基础,运用格网化技术、趋势面分析、全局空间自相关分析、局部空间自相关分析等多种地理统计学方法研究了吐鲁番盆地的中药资源种类丰富度在水平和垂直方向的变化趋势和聚集程度。该研究指出吐鲁番盆地中部的中药资源种类丰富,垂直方向上-154~150 m 和900~1050 m 区间的中药资源种类丰富度较高[28]。张小波等人使用该方法对重庆和吉林的中药资源种类丰富度进行了空间差异分析,指出在30 km 的格网划分情况下可以避免以县为统计单位时引起的差异性,较好地反应重庆市各区域间中药资源丰富度实际情况;吉林省的中药资源种类丰富度较高地区主要集中在东部和东南部,植被类型以阔叶林为主,较低地区主要为长春和吉林市行政中心,植被类型以栽培植被为主[29]。
3.2 中药资源遥感影像的研究现状
遥感技术研究可以为制定中药材生产、扶贫等政策和确定药材贸易数量的提供依据。基于普查调研的地物样本数据信息,运用卫星遥感影像大数据,提取不同地物的特征。使用遥感分析统计方法,进行特征参数组合,分层分类提取不同中药材的种植信息[30]。进而对中药材种植面积进行评估。通过中药材与地物特征的相关性分析,建立合适的产量相关模型,对中药材产量和适宜区进行预测。如图1 为基于遥感数据的药用植物种植面积及产量统计的研究流程图[31]。白吉庆等人以国产高分辨卫星资源三号和高分一号的多光谱多时相遥感影像为数据源,对不同时间白及种植地区的光谱特征、纹理特征和形状特征进行分析识别,白及种植面积可达403.05 亩,为指导陕西地区白及的产业发展奠定基础[32]。张飞以无人机低空遥感获取的数据为样本,以高分二号遥感影像为数据源,利用支持向量机的方法对豫西山区洛宁县的中药资源进行分类,并通过精度验证确定中药资源种植区域的空间分布位置准确性,为当地中药材产业扶贫提供基础[33]。
3.3 单品种中药区划的研究现状
以GIS、GPS技术和中药资源普查实际调研的物种分布数据为基础,使用最大熵模型物种潜在适宜分布区域与生态环境进行分析。并结合化学成分分析,进行药用植物的品质区划研究。通过分析化学成分与生态因子之间的关系,预测高品质中药材的适宜生长环境。
最大熵模型(Maxent)是一种机器学习算法,可以通过已知的物种分布数据结合大量的生态因子数据,预测潜在的物种分布[34]。它可以展示不同物种最适宜分布的生态因子条件,通过结合ArcGIS 软件和Biosim 软件,可以预测物种在研究区域的生态适宜性区域及高品质区域,研究的技术流程图如2 所示。方清茂等人以遥感与GIS空间分析、空间数据建库等技术为基础,对暗紫贝母生长的环境指标进行量化和综合分析,得到四川道地药材暗紫贝母的适宜分布范围,实验结果与实际产地情况吻合,说明该方法可以为暗紫贝母种植的区域布局提供技术支持[35]。另一方面,中药资源产业与农业不同,通过数据分析进一步确认中药资源的高品质区域,可以为这些物种的野生抚育、引种栽培和建立GAP 生产基地提供了科学的理论基础。李静等人通过实地采样并结合空间气候数据,对其化学成分和生态因子数据的关联性进行分析,为多指标评价枸杞质量提供了分析方法,为科学引种高质量的药材奠定基础[36]。
图1 基于遥感数据的药用植物种植面积及产量统计的研究流程图Fig.1 Research flow chart of medicinal plant planting area and yield statistics based on remote sensing data
3.4 数据挖掘模型在中药大数据的分析与预测中的应用
数据挖掘是指从大量的数据检索出隐藏于其中的、具有特殊关系性的信息和知识的方法[37]。基于数据挖掘技术,可以高效准确的找出对各行业具有价值的信息,数据挖掘技术的主要分析流程如图3 所示[38]。数据挖掘模型主要可以分为分类、回归、聚类、关联规则等方法[39]。虽然已经建立多个中药大数据库进行数据的储存,但是运用数据挖掘模型进一步的分析其规律的研究仍然较少。只有根据实际情况建立合理的数据挖掘模型,进一步对中药资源的空间分布、方剂配伍、临床使用等方面开发研究,才能发挥出中药大数据的实际应用价值。
图2 药用植物生长适宜性区划和品质适宜性区划研究流程图Fig.2 Research flow chart of medicinal plant growth suitability zoning and quality suitability zoning
图3 数据挖掘技术的主要分析流程Fig.3 The main analysis process of data mining technology
充分了解中药资源的空间分布情况是保护中药资源,合理指导中药种植生产的重要举措。孙成忠等人综述了基于聚类的空间数据挖掘技术在中药资源分析中的应用,并结合实例证明其方法的可行性,为政府宏观调控中药材种植产业提供依据[40]。赵怀润等人利用空间数据挖掘技术基于聚类分析的原理,将中药资源产地的气候因子数据、地形因子数据、土壤类型数据结合,综合分析每一种药材的最适宜种植区域,有效指导了20 多种药材的适宜性种植区域,并且发现了很多在未来有可能成为药材产地的区域。另一方面,数据挖掘和中药指纹图谱相结合等识别方法是中药质量鉴定的重要方法[41]。刘沐华等人,通过基于数据挖掘对4 个不同产地的269 个白芷样本和6个不同产地的380 个丹参样本进行了红外光谱法的产地鉴别,将其数据进行为中药材产地的自动鉴别提供了新的方法[42]。
4 中药资源大数据的发展问题及建议
随着5G 时代的到来,互联网技术及物联网技术的飞速发展必然会进一步推动大数据的应用与发展,本文从以下几个方面总结了中药资源大数据在今后发展中应当注意的问题:
4.1 中药材单品种区划研究发展问题
目前,中药的种植多局限于县级以下单位,因此进行县级以下或更小区域范围的区划,对指导中药材具体的生产实践活动非常有必要,但是目前的区划研究大多以省市级为单位,因此进行更小范围的区划研究是有必要的。同时,细致的区域研究需要更大信息量的药用植物资源分布数据作为支撑,这对中药资源数据的收集整理提出了挑战。为了使中医药的发展面向世界,有必要收集大量的全球中药资源分布数据,结合全球的生态因子、土壤和海拔等数据,用以预测药用植物在更大范围的适宜种植区,比如预测青蒿在全球范围的适宜种植区对疟疾的治疗具有重大意义[43-44],各地区的相关管理机构也应当有将特色药用植物资源向世界发展的思维,积极的结合最新的大数据技术进行发展。最后,区划研究不是独立的,应当将中药资源区划研究与社会经济宏观发展规划、土地利用规划、国土空间规划等大数据的进行结合,赋予中药区划更多的功能,这将成为中药资源领域发展的新方向[45]。
4.2 多来源、高质量的遥感影像及深度学习技术的应用
遥感研究的数据来源和质量对进一步研究具有关键的影响。在已经广泛使用的中国的资源3 号卫星、欧洲哨兵2 号卫星和美国Landsat 卫星等数据来源的基础上,进一步使用具有更高分辨率的卫星,或者使用不受气候因素影响的雷达遥感技术,都是未来研究的趋势[46-48]。因此对更多的卫星进行合理的商业化运营和成本的降低具有重要意义[49-50]。另一方面,在基于现有的深度学习及其相关技术的飞速发展,为开发中药资源大数据的遥感图像处理方面提供了进一步研究的可能性,也是我们目前正在研究并且是需要持续关注的领域。比如深度学习的CNN 网络的深度学习神经网络的研究[51],可以有效应用于遥感影像处理时的中药资源物种特征识别、图像分类和图像切割等内容。这对于中药资源大数据的研究处理具有重要意义。
4.3 政府机构相关政策的支持
大数据产业作为新兴的产业力量,实施大数据产业发展战略,需要政府的提供相关的政策扶持,帮助搭建起市场和企业间的沟通桥梁。中药资源大数据平台的建设离不开相关机构的监督管理。在收集大数据时,很有可能会涉及到个人、企业和国家的隐私数据,这需要政府出台相关的政策、法规进行约束。对于数据分析结果的公正性也需要专业的第三方机构或者公众进行评判。同时,通过市场化程序对大数据分析运用进行评级,建立合适的大数据产业运营机制,使其适应市场的发展,拥有更加宽阔的发展前景[52-53]。
4.4 跨学科领域专业人才的需求
目前,各中医药院校,农林院校已相继设立中药学、中药资源学等专业,以满足中药资源产业对专业领域人才的需求[8]。中药资源相关专业要求更为广泛的知识储备,需要在本专业知识体系之外,涉及农学、法学、生物学等其他专业知识。因此中药资源学专业培养的人才需要具备较为全面的知识,并且可以及时了解中药资源产业发展的前沿动态,使不同的科学技术成为中药资源产业的发展动力。另一方面,随着大数据技术的融入,无论是深度学习还是其他的数据处理技术,在对中药资源大数据进行运算分析时,终究需要以人的专业判断作为基础。因此对于能同时精通中药资源专业和计算机学、地统计数学等专业人员的培养至关重要。
4.5 大数据的开放性与保密性
在进一步的科研中需要更高精度的数据,但是这些数据的价格高昂或具有保密性要求,因此从数据来源上很难满足进一步研究的要求,这使得中药资源大数据难以应用于实际生产中。因此数据要在开放中充分挖掘纷繁复杂数据背后的价值,合理进行商业化。但是政府部门统计出来的很多数据,如天气报告、土壤条件、地图、水资源、市场环境、市场需求一定程度上限制了使用者的获取。在面对大量数据的情况下,需要更多的专业人士参与数据的整理研究[54],如中国科学院北京基因组研究所的大数据中心提供了一套开放的数据库资源,为国内外学术界和产业界的研究提供帮助,为生物多样性的保护发展提供了巨大的帮助[55],类似的开放性大数据库的建立可以促进中药资源领域的全面发展。所以,政府和相关部门应积极推动相关中药资源数据开放。特别值得关注的是要制定一个被广泛认可、采纳的数据格式国家标准,从而推动大数据的开发和利用[56]。
另一方面,中药资源大数据除了一般大数据所具备的数量大、数据类型多的特征之外,也包含了疗效和传统应用信息,其中大量资源物种的精确分布信息以及涉及的农户、企业、市场信息等会涉及保密要求,因此需要进行保密处理[57]。因此如何做到数据隐私,防止造成破坏性采挖,恶性竞争的局面是需要重点关注的。在进行数据收集是应公开进行,确保涉及到的相关隐私数据需征求被收集者的授权[58],政府也要制定合理的数据管理制度,平衡好数据的开放性和保密性。
4.6 大数据分析结果展示
随着云计算和大数据技术的发展,海量数据的运算速度大大提升。空间信息平台已能做到同时快速调取多层数据并快速成图展示。通过平台权限的管理,所有与中药资源产业相关的工作人员在开展业务时,随时都可在地图上浏览、查询、分析、下载,通过空间数据展示系统和借助中药资源大数据平台做好审批和决策工作[59]。中药资源大数据在空间上最直观的体现方法是以地图形式表达。研究人员根据不同的用途调取需要的数据配置成各种地图,使管理人员及决策人员能直观的看到所需要的信息。因此,基于时空数据库架构的自然资源数据协同共享,需要搭建自然资源数据协同共享平台,通过空间数据引擎,数据库的内容以可视化图片展示。
5 结语
中药资源和大数据的结合是中药资源产业未来发展的必经之路。传统中药资源产业的发展只有结合最新的科学技术,利用好大数据及相关分析和挖掘技术,才能挖掘出在历史发展中未被发现的产业价值或者解决还存在的发展问题。中药资源是中医药发挥疗效的重要基础,中药材的品质下降会限制中医治病疗效从而系那只中医药行业的发展。随着社会各界对中医药需要量的增加,野生中药资源情况的摸底和种植中药资源的质量提升都是重中之重,栽培是解决野生中药资源短缺的最有效的手段之一,提高栽培中药材质量是解决这一问题的关键。而大数据的结合可以有效对当前中药材生产现状进行统计分析,明确栽培药材质量控制中存在的问题,可以科学合理的提高药材质量和产量。本文通过总结当前中药资源大数据的建设情况,为各地区及全国的中药资源大数据建设提供一种参考,为有效控制中药质量问题和促进中药资源产业的发展,提高中国中医药产业的水平,从根本上为解决中医药治疗中药材质量不佳,高质量中药资源匮乏的问题提供一种途径。