打好万里长征的每个根基
——“国家标本资源共享平台及其应用”专刊序言
2018-03-18肖翠
肖翠
中国科学院植物研究所,北京 100093
以“关键科学领域的全球性合作,以及实现该合作的下一代基础设施”为着眼点的 e-Science 概念的提出,使得全球性的、跨学科的、大规模科研合作,跨越时间、空间、物理障碍的资源共享与协同工作成为可能。e-Science 技术的应用了改变科学家们从事科研活动的方法和模式,极大地促进交流合作,推动科学研究的发展。2002年e-Science 概念引入我国后,特别是不同学科和领域的大量数据库构建以及在此基础上开展的国内外广泛的科研合作,对我国各个学科的科研信息化都起到了非常重要的推动作用。国家标本资源共享平台的构建以及在此基础上开展的技术研发和广泛的科研协作对我国生物多样性信息学的发展起到了非常重要的推动作用。
2003年,我国科技部启动了“标本资源的标准化整理、整合与共享平台建设项目”。在此项目的基础上,衍生了国家标本资源共享平台项目。连续 15年的持续建设,国家标本资源共享平台 (National Specimen Information Infrastructure,NSII) 项目目前已经成为拥有 1427 万标本记录,606 万标本照片的国内最权威的标本资源共享平台。如此大的标本数字化量,为本领域的科学研究、大众科普起到了怎样的推动作用。
《科研信息化技术与应用》2017年专门策划了“国家标本资源共享平台及其应用” 专刊 (第 8 卷第 4 期),从整体上介绍了国家标本资源共享平台及其体系。但在内容上以 NSII 总平台[1]、各子平台[2-4]和特色数据[5-8]分析总结为主,而在技术应用[9-12]和产品开发[13]内容相对较少。为了充分体现科研信息化在国家标本资源共享平台建设中取得的进展,我们策划了第二期“国家标本资源共享平台应用”的专刊。
第二期更强调 NSII 标本数据对生物多样性研究过程中的具体问题的解决,是对数据的深层挖掘,更偏向于生物多样性信息学的技术与应用层面。第二期专刊从 NSII 数据为科学研究、大众科普方面着手,基于 1400 多万份生物标本,特别是 1002 万植物数字化标本,重点侧重 NSII 数据在解决不同科学问题方面的作用。同时,基于 NSII 的标本数字化大数据,结合现代比较时髦的人工智能技术,产生的花伴侣、标本伴侣等实用性的工具。量变引起质变,我国标本数字化的长期积累,终将更好地服务国家,服务公众。
标本数字化对我国标本采集空白区的预测,新种的发现,特殊物种分布模拟都有一定的助推作用。戴迈凡等 (2018) 根据中国植物志中记载的 39586 种植物数据为基础,与已经数字化的标本数据库进行比对,探索生物热点地区及新种发现的可能;姜承勇等 (2018) 对 NSII 数字化植物标本和中国科学院植物研究所标本馆 (PE) 馆藏标本数据整理分析,绘制植物标本区域分布图,预测可能的采集空缺;桂略宁等 (2018) 通过不同标本数据库的整理和分析,提出植物采集密度越高,发现新物种的几率越大,因此采集密度的调整将有利于我们对植物类群的保护与开发;詹琳等 (2018) 对昆明植物所植物标本数据库中的藏药资料收集,整理做出我国藏药植物的分布图,对藏药资源研究提供了有利信息。和丽芳等 (2018) 通过对十大功劳属数字化标本的研究发现洪雅十大功劳与其关键节点的物种的区别并确定洪雅十大功劳属的新种地位。
标本数字化有利于我国植物专科专属的研究,特别是专科专属植物标本采集地理偏差、标本数据质量的评估。张玉雪等 (2018) 基于国家标本资源共享平台 (NSII) 杜鹃花科的标本数据,分析我国杜鹃花科植物标本采集地理偏差;尹朝露等 (2018) 基于 NSII 兰科标本数据分析我国兰科植物标本记录采集地理偏差并给出环境因子解释;王凯莉等 (2018) 分析了蔷薇科植物标本记录的采集地理偏差;田慧敏等 (2018) 对黄土高原标本采集完整性进行评估并给出环境解释。
NSII 是一个大网络,始终坚持以标本数字化为核心,并以标本辐射至照片、名录、文献,多脉络,多渠道,多资源共同维护 NSII 大网络。省级植物标本馆旨在从省级节点上,完善 NSII 数据。陈建平等 (2018) 对于 NSII 省级数字植物标本馆的开发和应用做了系统性的展示和介绍,呼吁更多专家通过省级数字植物标本馆完善各省标本信息,提高标本数据质量。李敏等 (2018) 以植物数字化标本大数据为基础,结合人工智能技术,使得标本的自动化识别成为现实,大大提高了标本鉴定的水准。
肖翠等 (2018) 整体上对 NSII 近 15年来积累的植物数字化资源 (植物标本数字化、彩色照片、植物志书等文献资料) 进行统计分析,特别给出了标本数字化薄弱地区、标本记录空白区、标本空白科属、彩色照片空白科属名录,通过对外公开薄弱和空白区的方式,呼吁更多专业人员共建我国植物资源的数字化数据库 (标本、彩色照片、文献)。进而提出NSII未来发展的几点思考。
万里长征,需要稳固每块基石。好的数据基础,才能借助现代化工具,更好地服务科研。NSII 仍然需要以数据为核心建设,深入挖掘数据的服务能力。