农用微生物数据与资源关联应用研究
2020-03-16顾金刚李世贵马晓彤梁瑞珍
顾金刚 马 锐 李世贵 马晓彤 梁瑞珍
(1.中国农业科学院农业资源与农业区划研究所,北京 100081;2.农业农村部农业微生物资源收集与保藏重点实验室,北京 100081)
1 引言
科学数据主要指在自然科学、工程技术科学等领域,通过基础研究、应用研究、试验开发产生的数据及通过观测监测、考察调查、检验检测等方式取得并可用于科学研究活动的原始数据及其衍生数据[1]。在科学大数据时代,科学研究者、科学设备和科学数据三者之间的相互作用和影响促进了科学协作[2]。澳大利亚V.B.D.Skerman 教授于20 世纪60 年代在世界培养物保藏联盟(World Federation for Culture Col‐lections,WFCC)主导下建立了世界微生物数据中心(World Data Centre for Microorganisms,WDCM),主要用于微生物菌种保藏机构和保藏菌株信息发布,侧重于微生物菌种目录信息的整理。1997—2011 年该中心移交到日本Kazuo Komagata 和Hideaki Suga‐wara 教授管理,建立了世界菌种索引数据库(http://www.wdcm.org)并向公众网络开放。2011 年该中心移交到中国科学院微生物研究所管理,目前该中心已经建设有资源文献引用、专利菌株统计、参考菌株、全球微生物菌种目录等数据库。基于生物学数据的微生物资源整理与共享,2003 年我国启动了国家微生物资源平台建设。
农用微生物的高效利用始终贯穿着整个农业生产过程,农用微生物数据是指微生物自身型生物学数据以及与微生物密切关联一些特定生态环境和功能的数据。生态型和功能型微生物数据日趋关键。2019 年12 月16 日,美国国家科学院、工程院和医学院联合发布了题为“Science Breakthroughs to Ad‐vance Food and Agricultural Research by 2030”的研究报告,重点提出建立农业微生物数据库,在分子水平上分析土壤、植物和动物微生物组之间的相互作用,并通过改善土壤结构、提高饲料效率和养分利用率以及提高对环境和疾病的抵抗力等,增强农业生产力和弹性。我国在近十年发展中,农用微生物资源保藏量突破50 万株,菌种基因组、宏基因组、微生物多样性测序占比众多,但农业种-养体系中农用微生物功能型数据严重匮乏和缺少系统性统筹。农用微生物数据基于微生物资源产生,其功能效用、监测方法都以资源属性为依据实施,2017 年农业农村部启动农业基础性长期性科技工作[3],开始弥补农用微生物功能数据这一短板。
2 农用微生物资源
农用微生物资源与资源生物学数据是统一的整体,农用微生物数据产生基于微生物资源以及其附加的功能。微生物菌种资源是指可培养的、有一定研究意义或实用价值的一类生物资源[4]。农用微生物是应用于农业生产、农产品加工、农业生物技术和农业生态环境保护等应用微生物的统称。农用微生物数据获取与应用范畴密切相关,农用微生物应用广泛,覆盖种植业、养殖业以及农业环境等,包括获取农业微生物基因、植物病原、生物防治、肥效、饲料、能源、土壤微生态环境调控治理、农药和农业废弃物降解、食用菌等微生物(图1)。对于种植业应用而言,应用的微生物菌剂有根瘤菌剂、菌根菌剂、溶磷菌剂、促生菌剂(PGPR 和PGPF)、腐熟菌剂、农药降解菌剂等;对于养殖业,应用的微生物菌剂包括青贮菌剂、益生菌剂、水产微生物制剂等。农用微生物菌剂生产菌株必须正确鉴定,确保没有毒素产生,研究生产过程的菌种必须安全保藏和定期检查,发酵产品进行毒素的常规检测。
微生物数据是微生物资源保藏管理和可持续利用的基础,我国微生物资源工作处于由“量变”到“质变”关键阶段,多元化、规范化的数据获取积累、存储加工和利用尤为关键。微生物资源保藏机构起源于欧洲18 世纪末,捷克微生物学家Fran-tisek Kral 最早从事微生物菌种的公共性保藏[5]。我国的农业微生物资源保藏经过40 余年的发展,已形成以中国农业微生物菌种保藏管理中心为综合型保藏机构,以及厌氧菌、菌根菌、根瘤菌、食用菌、乳酸菌、虫生真菌、芽孢杆菌、苏云金杆菌(Bt)等专业型保藏机构相结合的微生物资源收集保藏工作体系。2014 年出版的《中国农业菌种目录大全》收录502 个属、1 786 个种、11 320 株的农业微生物[6]。张金霞等“食用菌种质资源鉴定评价技术与广适性品种选育”研究中收集保藏了食用菌8 000 余株,涉及418 个种,占国内外栽培品种90%以上[7]。国家农用微生物数据中心对中央、省级、地级农科院、大学等单位的调查发现2010—2020年农用微生物资源工作进展迅速,全国库藏农业微生物资源51万余株(表1),但完成分子准确鉴定信息和功能评价的比例偏低,资源信息完整度不高。对微生物资源研究是重数量而轻质量,国内的单位对资源工作的传承性、数据获取与收集、规范性整理与保存重视不够。微生物资源工作是基于各种自然和应用环境,分离、鉴定、筛选、评价所需微生物菌种资源,培养组学[8]和原位培养[9]等技术为发现新资源提供了可能。
3 农用微生物数据
农用微生物数据是微生物数据和农业应用数据想结合的独立范畴,依据微生物生物体和作用环境,将农用微生物数据划分为两个类型数据(表2):第一,微生物自身型生物学数据,包括培养组、基因组、转录组、蛋白质组和代谢组信息数据。微生物组(mi‐crobiome)是指包括细菌、古菌、低(高)等真核生物、病毒等微生物的基因和基因组,及其周围环境在内的全部[10],涉及微生物培养组、DNA和mRNA信息。蛋白质组(proteome)一词最早在1994 年由澳大利亚科学家Wilkins 等[11]提出的,意指一个组织或细胞中的全部蛋白质由基因组表达。1995 年第一篇蛋白质组学文献报道以来NCBI Pubmed 数据库中已有88 300篇文献[12]。基于磁共振分析基础,英国研究者Nich‐olson 等于1999 年首次提出代谢组学概念[13],主要应用于探究相对分子质量很小(<150 Da)的分子物质,后者多为糖、脂质、蛋白质代谢过程的中间产物或最终产物。这些小分子物质不仅能够说明细胞内部的生理代谢变化,也表现出细胞接受环境污染物和药物等外界因素的影响,代谢组学拥有组学研究的“终点”之称[13-14]。第二种类型的农用微生物数据为微生物关联型数据,是与微生物密切关联一些特定生态环境和功能的数据,包括两个层面,一为生态学数据,包括微生物多样性、宏基因组、宏蛋白组、宏代谢组等;二为功能型微生物数据,如根瘤菌与豆科植物互作的结瘤率、固氮效率,从枝菌根菌的侵染率等。第二、三代测序技术通量的提高和费用的下降极大地推动了微生物组领域的发展,拓宽了微生物组研究对象的深度和广度[15]。
表1 国内主要农业微生物单位及保藏功能微生物类群和数量Table 1 Key domestic agro-microbe collection centers and their collection information
表2 农用微生物数据类别Table 2 Classification of Agro-microbial data
4 农用微生物数据应用
基于微生物多元信息构建数据库是实现微生物高效应用的前提。我国的微生物数据库类型多以菌种资源信息型居多(表3),多数单位的资源信息仅课题组保藏,没有标准化信息整理和数据共享系统。国内涉及微生物基因组信息数据开始起步(https://gc‐meta.wdcm.org/),在微生物基因组、转录组、蛋白质组、代谢组等领域严重依赖国外数据库和工具软件,其中美国国家生物技术信息中心(The National Cen‐ter for Biotechnology Information,简称NCBI,https://www.ncbi.nlm.nih.gov/)的生物学数据收集与积累占有绝对优势地位。微生物生态学学科的快速发展产生了大量的序列数据集,目前一般存储在NCBI、ENA 和MG-RAST 等国际生物信息学数据库。中国科学院成都生物研究所李香真团队经过近3 年的开发与迭代,微生物组数据库v1.3 版本现已正式上线(http://egcloud.cib.cn),微生物组数据库的一大特点是同时收集微生物测序数据和与之关联的环境参数信息,为用户提供数据的存储、检索和分析服务,当前版本更新了生物信息分析流程、增加了生物信息模块分析、实时多元生态统计分析和可视化功能。
在微生物应用层面数据库建设处于初级阶段,数据和应用场景生态还需要持性积累。许哲平等从基础层、资源层、组织层和应用服务层等四个层次来提出农业生物多样性大数据平台的顶层建设框架[16]。陈峥等建立芽胞杆菌菌种资源库的收集保藏系统和基于脂肪酸、rRNA 和传统生理生化特性的细菌鉴定系统,以气质联用、液质联用鉴定结果构建细菌次生代谢物库,在此基础上建立一整套针对作物病害、虫害、线虫为害以及杂草的微生物农药候选菌株的筛选评价系统[17]。潘恺等借助空间数据库技术、网络地理信息系统(WebGIS)技术,设计并构建了包含土壤及微生物数据集成、数据可视化、知识发现和区域空间制图等功能的中国土壤微生物组数据平台[18]。黄家乐等建立制药企业微生物鉴定技术和监测数据库,以达到微生物溯源调查、回顾分析和法规符合性的要求[19]。杨瑞恒等基于野生香菇资源的文献以及公共数据库中的序列信息,调查了香菇在我国以及世界范围内的地理分布,通过多样性分析显示我国野生香菇的多样性中心分布于西北和西南地区[20]。
表3 国内主要农用微生物菌种保藏管理中心网站Table 3 Keywebsitesof domestic agro-microbial culturecollections
文献和专利是现阶段微生物数据的重要载体,相关数据库的建设和应用日趋成熟(表4)。我国近几年加强了科技期刊、学生论文、出版物等数据库的经费投入,文献搜索实力不断增强,我国微生物数据和文献关联性数据库和知识发现相对匮乏。
表4 重要的国内外农用微生物文献数据库Table 4 Key domestic and internationalagri-microbialdatabases
农用微生物资源与资源生物学数据是统一的整体,基于科学发现的培养组、基因组、微生物多样性等科学数据积累会提高资源的认知水平。关联性数据库建设和知识发现,必然依托于农用微生物资源与数据分类、关联性特征数据的纽带联系(图2),如基于微生物培养组学研究,第一,有助于发现新资源、新类群、新性能;第二,培养条件改变,导致转录调控改变,从而改变菌种的蛋白质学和代谢组学,可以促进微生物应用功能的改善与提高。
微生物资源信息系统、基因组数据、科研观测数据以及文献分别属于独立系统,数据之间的关联性是资源和数据是价值最大化的限制因子。微生物资源信息微生物菌种的名称、菌种编号,基因数据库中基因编号、基因组编号,科学观测数据库中的采样地点及样品编号、采样时间等,是实现多元化数据高效整合应用分析的核心关键。菌种编号、基因序列号、基因组编号、样品编号的唯一性,能够确保数据的关联的准确性(表5)。国内大多数期刊发表文章没有严格要求论文中所涉及的微生物菌种名称、菌种编号,以及基因序列号等,信息数据关联度不够。
基于多数据库的SCI 文献和相关专利的互联网检索,是知识发现的重要途径。作者参与“863”项目课题“微生物数字化信息集成标准规范研发及知识库集成”中,基于知识挖掘模型的数据关联技术,将属于农用微生物语义网的肥效、生防、饲料、环境污染物降解、食用菌等五类农用微生物领域的331 个微生物实体概念引入微生物领域本体,完成与中文文献70 万条、英文文献20 万余条、菌株1 万余株、国内专利15万余条、国际专利8 万余条、相关化合物3 万余条、相关基因5万余条的关联处理。
表5 微生物资源与数据库系统关联字段设置Table 5 Keywordsof themicrobial resourcesand database
5 展望
农用微生物数据获取与收集需要多元化、系统化和规范化。种植-养殖体系中的微生物生态系统包括微生物与微生物之间、微生物与宿主之间、以及微生物与环境之间的相互关系,与时间、空间、土壤理化因素、气候、种养模式、品种、动植物健康状况等相关。微生物组学要准确理解样品中的微生物种类,多度及其功能,微生物组技术对认知和理解农业系统运行至关重要,多组学联合应用将是微生物组研究常规手段。针对多元化的数据,数据的获取和集成需要国家层面专业化统筹设计和通量化的数据整理。
农用微生物生物型、生态型与功能型数据的匹配性。我国农用微生物数据以资源生物型和生态型数据居多,随着测试技术通量提高和费用降低,微生物基因组、宏基因组、蛋白组、代谢组数据,以及微生物多样性数据呈井喷式积累,但功能型数据的获取需要实验设计和传统测试技术,现代化测试技术助力有限。农用微生物生物型、生态型与功能型数据在同一位点、动植物物、环境匹配协同,其蕴含的关联问题更具价值。
农用微生物功能监测数据缺乏标准化和长期监测积累,是制约我国微生物应用领域科技原始创新的短板之一。加强科学监测工作统筹设计,在全国范围内科学系统布局观测实验站和监测点,稳定数据监测队伍和经费支持,保证监测数据长期性和连续性,发展科学监测数据获取或分析手段方法,挖掘数据潜力价值,尤为迫切。