基于Hadoop_8的新疆棉田土壤微生物资源大数据平台建设与可视化分析
2021-05-24刘海燕侯彤瑜姚兆群王海江
刘海燕 杨 榕 侯彤瑜 赵 维 姚兆群 王海江 张 泽 高 攀 吕 新*
(1.新疆兵团农业大数据国家地方联合工程研究中心,石河子 832000;2.石河子大学信息科学与技术学院,石河子 832000;3.石河子大学农学院/新疆绿洲农业病虫害治理与植保资源利用重点实验室,石河子 832000;4.中国科学院天津工业生物技术研究所,天津 300308)
1 引言
根据我国农业大数据发展现状,农业大数据未来发展需要特别关注的是平台与数据、需求与应用、交易与共享[1]。在农业科技活动中,长期积累和整编的海量科学数据,具有重要的保存和开发利用价值,随着微生物组学数据的日益剧增,微生物大数据的高效管理与分析越来越受到研究者的关注[2]大量的数据本身是没有价值的,需要新的方法和方法来处理、构造、分析、可视化并将数据集成到模型中,通过生物大数据平台推动生物大数据产业发展[3]。目前,农业生物多样性大数据平台框架建设取得了一定的成绩[4],土壤科学中的大数据往往是高度异构的[5],土壤微生物群落的主要驱动因素非生物土壤参数包括精确的GPS地理坐标和气候条件、土壤类型、土壤质地、土壤pH 值等稳定的土壤物理化学性质,农业有关的研究,还包括施肥制度、耕作、植物保护措施、和植物生物量等属性[6]。国际上跨国公司,欧盟和美国都纷纷启动了作物微生物组的重大项目,并已经进入到了功能性研究的阶段,如孟山都及诺维信对解淀粉芽孢杆菌(Bacillus amyloliquefaciens)和绿木霉菌(Trichoder‐ma virens)开展科学配比与成分优化研究,成功研制种子包衣剂,能够改善作物在苗期的营养元素供给[7]。
我国农用微生物菌剂在蔬菜及粮食作物,如小麦水稻上研究较多[8-9],而在经济作物如棉花上的研究相对滞后,棉花作为世界性的重要经济作物,新疆生产建设兵团以下简称“新疆兵团”建立了具有地域特色的现代植棉体系,由于耕种条件限制严重,长年连作等问题突出,农药肥料滥用、环境污染、病害威胁严重及地力下降,连作病害发生的主要原因就是土壤生态环境中微生物组的失衡。农用塑料在新疆棉花生产上有着重要作用,农业可持续性发展方面存在白色地膜污染严重,新疆土壤环境脆弱易污染不易恢复,高通量测序技术和生物信息学方法的快速发展为解决这些问题提供强有力的技术支撑。生物药剂滴施对棉花黄萎病及根际土壤微生物数量和多样性的影响[10],溶磷真菌的筛选及耐盐特性分析,为今后新疆盐碱土壤改良和棉田生物肥料中菌种的选择提供理论依据和试验基础[11]。新疆棉田蕴含丰富的放线菌资源[12],陆生蓝藻资源[13],益生菌及其功能基因改善农作物氮、磷、铁等元素高效吸收[14],克服连作土壤中微生物群落失衡引起的连作障碍非常重要。最新的研究表明,土壤微生物可以通过活性酶高效降解农业残存塑料,通过对废物回收过程中的微生物组协同作用的研究,可实现对农业废弃物的高效处理[15-16]。中国土壤微生物组数据平台的构建与实现建成[17-18],新疆棉田土壤微生物大数据平台是新疆兵团棉花生产大数据平台的重要组成部分。利用获得的棉田土壤微生物多样性测序数据以及文献发表的数据,对现有数据进行整合,建设土壤生物大数据平台,以实现体系的业务标准规范、安全得到保障[19]。
本研究开展大面积的棉田土壤微生物调查,建立高质量的微生物组参考数据库,开发高效的微生物数据分析流程,最终创建高效分析及整合利用的大数据平台。根据大数据采集决策支持管理平台的设计思想[19-20],收集整合的数据资源主要包括土壤微生物组数据及环境因子数据两部分,为日后搭建更为完善以及有针对性的可视化系统提出了经验和技术积累。实例分析,通过2017—2019 年三年的棉田土壤微生物多样性分析,阐明博乐,奎屯,石河子,阜康及哈密地区棉田细菌群落结构差异及与环境因子的相关性,利用已获得的数据构建模型,最终为土壤微生物多样性资源的保护和利用提供科学基础。
2 系统平台构架设计
新疆棉田土壤微生物多样性大数据平台管理与分析功能依托星环科技(中国,上海,http://www.tran‐swarp.cn/)开发的企业级容器大数据平台,在数据资源整合及数据库建设完成的基础TDH6.2 大数据平台,其中Hadoop 版本为hadoop version_8。采用Xshall 及R 作为空间数据管理及相关分析功能的开发引擎,建成了新疆棉田土壤微生物大数据平台。新疆棉田土壤微生物大数据平台系统架构如图1 所示,该系统在标准规范体系及运维体系前提下,自下而上可分为基础存储层、数据层、算法模型层、使用层。
2.1 使用层
图1 新疆棉田土壤微生物大数据平台总体架构Fig.1 Framework of the soil microorganism big data platform in Xinjiang cotton field
新疆棉田土壤微生物大数据平台使用前需要安装运维助手,安装WinSCP-5.13.8-Setup,XShall,登录堡垒机。石河子大学校园网,经过管理员授权,直接用IE 浏览器登录网页(https://10.255.1.4/index.php/In‐dex/index)。非石河子大学校园网,外网需要在石河子大学计算机信息管理中心备案,开通账号,安装Easy Connect方可使用。
2.2 数据层
数据层是平台数据资源管理的基础,数据层主要是系统建立的数据总库,分为生产数据库和共享数据库:土壤微生物数据库,土壤养分数据库,气象数据库,植被类型数据库,元数据库。数据目录由元数据库提取数据库关键描述信息生成,数据交互接口则负责数据层与其他层次的数据交互,包括数据资源的检索、集成、修改等。数据由用户通过数据交互接口集成至平台。
2.3 算法模型层
土壤微生物定制化分许与数据挖掘,Mapreduce分布式深度学习,R语言动态运行,Discover支持R语言引擎,用户可以通过R 访问HDFS 中的数据,还支持访问存储在Inceptor分布式内存中的数据。在Dis‐cover中,用户既可以通过R 命令行,也可以使用图形化的软件执行R 语言程序来访问https://10.255.1.4 中的数据,易用性极高。Discover 内置了大量常用机器学习算法的分布式实现,可以与R语言中的数千个算法混合使用,配合TDH 内置的高度优化的专有算法,可高速分析现有平台中的海量数据。此外,Discover还集成了多个机器学习算法库,包含了统计算法、分类算法、聚类分析、回归分析、频度关联分析和神经网络在内的常用算法,方便用户快速构建大规模数据挖掘系统和方案。
2.4 基础设施层
基础设施层包括网络、服务器、防火墙等硬件设施,需要为平台提供足够的数据存储能力、计算能力、网络带宽及信息安全保障。基础层主要分为物理层和虚拟层。物理层包括存储主机、计算机等硬件设备,虚拟层包括计算机网络平台、服务器和数据存储虚拟化。互联网:专网接入;存储设备:本地储存;信息安全设施:下一代防火墙,安全运维管理系统,入侵防御系统;标准规范运维体系:石河子大学信息网络中心,安全运维管理系统(堡垒机V0.8);计算设施:可支持大数据平台,采用横向扩展的架构,可随着节点的增加而使得CPU、内存、存储、网络等均在一种平衡模式上增加,确保扩展没有瓶颈。平台由多个单机组成的大数据集群架构,所有组件可选配万兆以太网或者Infiniband网络或者千兆以太网互联。本平台通过虚拟化等技术将12 台服务器集群的硬件资源池化,以作为土壤微生物组数据存储及计算分析的基础。支持在线升级,保证随数据存储和计算需求的增长而平滑升级。
3 平台数据库建设与分析流程
3.1 外部数据资源整合数据库建设
首先利用获得的土壤微生物扩增子数据进行本地录入,整合更多的国际与国内的有NCBI 序列号扩增子数据,对土壤微生物扩增子定制化分析,与土壤养分、气象,植被等跨领域数据整合,形成完整数据集。R 语言动态运行可视化技术实现对土壤微生物多样性数据集的挖掘和利用,MapReduce分布式深度学习,构建开放开源的土壤微生物大数据处理利用的通用接口,建立一个以土壤微生物大数据为核心的包括对海量数据进行有效管理、高效分析和可用易用的综合大数据系统,促进新疆棉田土壤微生物多样性资源保护和土壤微生物分布格局构建。
(1)土壤微生物数据库:本地测序数据扩增子序列/NCBI 已发表的扩增子序列。微生物多样性数据和测序序列数据,采用了统一规范的采样及分析方法,所集成的微生物数据质量较好。
(2)土壤养分数据库:环境因子数据主要是新疆绿洲生态实验室成立以来积累的实际测定的数据。同时,通过账号申请获得中国土壤数据库(http//vdb3.soil.csdb.cn/)及土壤科学数据中心(http//soil.geodata.cn/)部分数据。
(3)气象数据库:通过账号申请获得中国气象数据网气象数据。中国气象数据网(http://www.nmic.cn/site/index/.html)。
(4)植被类型数据库:实际调查及年统计数据。
(5)元数据库:依据“土壤科学数据元数据”(GB/T 32739-2016)国标,确保平台数据具有良好的完整性与可用性。
3.2 基于GIS 的棉田土壤微生物及环境因子数据库建设
取样点在新疆博乐,奎屯,石河子,阜康及哈密地区绿洲棉田中(40.50-40.83N,81.15-81.48E),选取58块条田作为样地,其中2hm2≤y≤5hm2地块31 个,5hm2≤y≤10hm2地块17 个,10hm2≤y≤30hm2地块10 个。GPS 定位取样的中心位点采用五点采样法采集土壤样品,利用直径5 cm的不锈钢土钻取0~20 cm的土壤样品,均匀混合,四分法取样,每个样品分别装到两个灭菌塑料袋中,一袋用半导体车载冰箱冷藏保存运回实验室,储存在4℃冰箱中用于提取土壤总DNA;另一袋常温运回土样去除杂质,经自然风干、研磨过筛后储以供土壤理化性质测定[21]。
3.3 土壤细菌16S rRNA 扩增子动态运行可视化分析流程
通过设计16S rRNA 基因引物,扩增和测序来鉴定样本中的微生物种类[22]。本次16S rRNA 基因测序及分析平台,采用高通量测序技术(Illumina),具有所需样本量少、高通量和高精确性等特点,一次性获得几百万条的16S rRNA 基因序列,并利用生物信息学分析方法进行快速的物种鉴定。对于测序所得到的序列,通过去除低质量碱基、Ns、接头污染序列等过程完成数据过滤,得到可信的目标序列,用于后续分析。过滤后的序列,称之为Clean Reads。首先,将双端测序的相应的Read1与Read2(Read1与Read2是指分别从5’和3’端两个方向测序所得到的序列片段)利用序列拼接方法PEAR[23]进行拼接;然后,对拼接后的序列我们利用软件QIIME1.8.0 版本进行分析[24-26],包括OTUs 的提取、OTUs 的交叠分析、聚类分析、LEfse分析、系统发生树的构建、α-多样性分析、β-多样性分析等[27]。
3.4 细菌群落结构差异分析
基于高通量测序,共获得7 313 614 条高质量的土壤细菌16S rRNA 基因序列,平均每个样本检测到73 136 条细菌序列。在97%的相似度水平下对序列进行聚类后,分别获得了20 078 个细菌OTU。将所有样品在相同深度下进行分析后,平均每个样品检测到1434±177 个细菌OTU。在门水平上,变形菌(Pro‐teobacteria),酸杆菌(Acidobacteria),疣微菌(Verruco‐microbia),以及绿弯菌(Chloroflexi)在棉田土壤中为优势物种。但不同地区物种差异较大,变形菌占20.9~29.8%,酸杆菌占16.1~30.6%,疣微菌占8.7~28.9%,绿弯菌占6.6~21.2%,结果如图2所示。
图2 新疆棉田土壤微生物在门水平的物种组成Fig.2 Bacterial community composition on phylum level in Xinjiang cotton area
选取LDA score 大于3.3 的为显著差异物种,具有统计学差异的Biomarker 共计255 种,选择LDA score 大于4.5 的差异物种进行LDA 分布柱状图展示(图3B),其中柱状图的颜色代表各自的组别,长短代表的是LDA score,即不同组间显著差异物种的影响程度,例如放线菌门(Actinobacteria),酸杆菌门(Ac‐idobacteria),疣微菌门(Verrucomicrobia),绿弯菌门(Chloroflexi),浮霉菌门(Planctomycetes)、拟杆菌门(Bacteroidetes)、芽单胞菌门(Gemmatimonadetes)。γ-变形菌纲(Gammaproteobacteria),β-变形杆菌(Beta‐proteobacteriales),α-变形菌(Alphaproteobacteria)。鞘脂单胞菌目(Sphingomonadales),脱硫杆菌目(De‐sulfobacterales),地杆菌属(Geobacter)是北疆棉区微生物群落结构的主要差异物种。
从不同的取样地区分析可见,博乐主要微生物为:放线菌门(Actinobacteria),酸杆菌门(Acidobacte‐ria),疣微菌门(Verrucomicrobia),绿弯菌门(Chloro‐flexi),γ-变形菌纲Gammaproteobacteria 中的Pseudo‐monadaceae,放线菌门中的类诺卡氏菌科(Nocardioi‐daceae)。奎屯主要包括:放线菌门(Actinobacteria),酸杆菌门(Acidobacteria),绿菌门(Chloroflexi),浮霉菌门(Planctomycetes),绿菌门(Chloroflexi)中的An‐aerolineae 纲Anaerolineales 目Anaerolineaceae科UTCFX1属,浮霉菌门(Planctomycetes)中的Phyci‐sphaerae 目Tepidisphaerales科。石河子主要包括:放线菌门(Actinobacteria),绿弯菌门(Chloroflexi);放线菌门(Actinobacteria)中的Propionibacteriales 目,No‐cardioidaceae、Pseudonocardiaceae科,Aeromicrobi‐um、Amycolatopsis属;Alphaproteobacteria 纲Azospi‐rillales 目Azospirillaceae科Skermanella属。阜康主要包括:放线菌门(Actinobacteria),疣微菌门(Verru‐comicrobia),绿菌门(Chloroflexi),拟杆菌门(Bacte‐roidetes)。γ-变形菌纲,β-变形杆菌,Pseudomonadales目,Moraxellaceae、Gallionellaceae、Burkholderiaceae科,Cavicella、Sideroxydans。哈密主要包括:放线菌门(Actinobacteria),酸杆菌门(Acidobacteria),绿弯菌门(Chloroflexi)、芽单胞菌门(Gemmatimonade‐tes)。γ-变形菌纲Gammaproteobacteria,β-变形杆菌Betaproteobacteriales,Pseudomonadales 目,Moraxella‐ceae、Gallionellaceae、Burkholderiaceae科,Cavicella、Sideroxydans。放线菌门中的类诺卡氏菌科(Nocardi‐oidaceae)。
进一步从不同熟性的适宜棉区来看,早中熟棉区,早熟棉区,特早熟棉区及非棉区存在显著差异:特早熟棉区石河子主要差异微生物为放线菌、疣微菌、浮霉菌、Tepidisphaerales 目,Planctomycetes、Mar‐moricola属,非棉区(阜康)主要差异微生物为p_Ver‐rucomicrobia,早中熟棉区的哈密主要差异微生物为浮霉菌科Planctomycetes浮霉菌科Phycisphaerae,Tepidisphaerales目。
3.5 棉田土壤细菌群落结构与环境因子的相关性分析
土壤理化因子:速效钾、有机质、速效磷、全氮、电导率、pH;采样季节的气候因子:平均地表气温、平均气温、平均风速、日照时数、平均相对湿度、平均本站气压;适宜棉区分区因子:全年有效积温(≥10℃)及7月平均温度;地理因子:经度及纬度共计18 项环境因子与门水平所作冗余分析结果表明:RDA1 解释度为40.18%,RDA2 解释度为6.27%。土壤理化因子速效钾对优势菌门的指示作用成显著正相关(p<0.05),电导率对优势菌门的指示作用成显著负相关(p<0.05);理化因子对优势菌门的指示作用均达到显著显著水品。适宜棉区分区因子中七月份的平均气温对优势菌门的指示作用达到极显著正相关(p<0.001)。采样季节气候因子中平均风速度对优势菌门的指示作用达到极显著正相关(p<0.001)。地理因子经度对优势菌门的指示作用达到极显著负相关(p<0.001),纬度对优势菌门的指示作用成显著正相关(p<0.05)。
4 讨论
新疆土壤微生物大数据分析平台,平台目前支持的生物信息分析流程共2 个,基于QIIME 和Mothur算法搭建的用于16S rRNA 基因测序数据分析流程,基于QIIME 和Mothur 算法搭建的用于ITS 测序数据分析流程。基于16S rRNA基因序列的数据分析一般包括序列提取、质量控制、序列OTU 聚类、种属分类鉴定、alpha与beta多样性分析、以及其他特异性统计分析[2]。构建经典的二代测序数据分析流程,由数据的获取和分析流程的构建和自动化实现两部分组成[28]。美吉生物(www.majorbio.com)诺和诺禾致源一站式大数据分析平台16S rRNA扩增子分析流程便捷,为有偿分析的云平台,适合初学者及经费充足的研究人员。本研究致力于并实现各个环节的高效自动化管理和分析,为所有注册用户提供土壤微细菌16S rRNA 扩增子分析流程“数据存储—生物信息学分析—统计分析和可视化”一站式服务,让用户能够进行生物信息分析、统计分析和可视化:支持的实时统计分析模块共4 个:变化趋势分析、基因/物种组成分析,差异丰度分析、相关/回归分析;支持的生物信息分析模块共3 个:Tax4Fun 功能预测,Picrust2 KEGG 功能预测及FAPROTAX 微生物生物地球化学循环功能预测。减轻研究者前期的工作负担及经费压力,促进相关领域进一步对基因组测序研究项目的顺利开展。
图3 土壤微生物LEfSe分析的进化分支图(A)和LDA值(B)(LDA值>4.5)Fig.3 Least discriminant analysis(LDA)effect size taxonomic cladogram(A)and LDA score of the discriminants com⁃paring soil bacteria(B)
图4 RDA冗余分析Fig.4 RDA redundancy analysis
使用层,用户管理模块负责平台账户管理与用户权限控制,新疆土壤微生物大数据分析平台在专项团队内部开放试运行。与中国生物多样性大数据平台不同,为平台访问安全和信息共享安全提供保障,是一个由总平台、子平台和合作共享的数据源组成的生物多样性数据共享网络体系。数据录入层面,目前数据大部分只是本地数据录入,未来数据资源持续丰富以及相关计算制图模型持续完善上仍有一些问题。在算法模型层,土壤微生物组成、多样性、功能基因的时空变化特征和驱动机制,建立土壤微生物多样性变化与环境因子相关的模型,土壤微生物资源与多元异构农业资源数据间的信息有效整合。
李涛等基于Hadoop 的气象大数据分析使用分布式多节点集群可以有效提高海量气象数据的存储和计算效率,解决了传统网络地理信息系统(Web‐GIS)平台数据存储与计算的局限性问题[29]。潘恺等利用WebGIS 技术,构建包含土壤及微生物数据集成、数据可视化、知识发现和区域空间制图等功能的中国土壤微生物组数据平台,在未来数据资源持续丰富以及相关计算制图模型持续完善上仍有一些问题[18]。利用新疆及其邻近国内外173 个观测站点的气候资料,分析气候变暖下新疆不同熟性棉花种植区划变化特征[30],安徽省植保大数据平台建设与应用展望,未来要进一步补充平台所缺乏的遥感、气象、土壤等方面的信息化数据,黄萎病不同发生程度棉田中土壤微生物多样性[31],吕新等棉花生产农业大数据平台有效整合农业资源环境、种质资源、气象资源、水资源等分散异构系统的农业信息资源[19-20],面对兵团棉花生产领域多年来积累的海量数据,以农田土地为管理主线,构建新疆棉田土壤微生物资源大数据平台,实现各类农业微生物资源数据的管理、融合、共享、分析挖掘和应用发布,结合农业大数据的地域特征(空间性)与物候特征(时间性),破除数据孤岛,研究建立结合农业地域性与物候性的时空一体化土壤微生物资源大数据模型,实现适合农业领域的点源大数据采集的尺度提升,为农业政策制定、农业精准管理提供依据。在数据整合方面,农业大数据影响因素多,缺乏有效的数据共享机制,不同来源的数据格式规范有较大的差异,限制了土壤微生物的大数据的分析和挖掘。本研究开展,大面积的棉田土壤微生物调查,建立高质量的微生物组参考数据库,实现高效的数据可视化分析;开发高效的微生物组数据分析流程,最终创建对微生物组数据的系统管理、高效分析及整合利用的大数据平台是微生物组数据研究的迫切需求。
国际相关研究全球表层土微生物组群落结构和功能,这说明了这些微生物对全球养分循环的相对贡献存在地理分布差异[32-33]。Ruth E 通过研究5000 多个样玉米根际微生物,发现其特殊的功能,可作为育种的候选性状[34]。国内,褚海燕等研究空间尺度对华北平原麦田土壤细菌群落的影响,对整个NCP 的243个小麦-玉米轮作土壤进行了调查,选择青藏高原土壤进行比较研究,从而了解耕地和自然系统间随机性与决定性的相互作用差异[35]。杨云峰等对华东地区,以秦岭淮河为界,大规模调查不同纬度农业土壤微生物群落结构及多样性,结果表明低纬度地区玉米和水稻土壤微生物群落差异较大[36]。王光华等利用分子生态网络研究东北黑土区不同纬度农田土壤真菌,认为土壤的pH 值和土壤全氮含量是同时影响真菌分布的主要理化因子[37]。西北地区,盐度是自东向西的沙漠生态系统中土壤微生物群落的关键决定因素[38],许多研究表明,非生物土壤参数是全球和局部尺度上土壤微生物群落的主要控制因子[5]。刘海洋等研究,阿克苏,库尔勒及石河子地区黄萎病不同发生程度重病田,轻病田,无病田土壤微生物多样性,发现作物根际的微生物群落对土壤生态环境及作物健康有至关重要的作用[39]。基于全球定位系统(GPS),本文研究了新疆博乐,奎屯,石河子,阜康及哈密地区棉田土壤细菌群落的空间分布,通过分析区内土壤优势菌种,可以帮助我们积极管理土壤,促进土壤中益生菌定殖生长,这对于发展大空间尺度的农业栽培生态系统具有重要意义。
5 结论
基于Hadoop的新疆棉田土壤微生物资源大数据库平台已集成约1.7 GB 的土壤微生物数据和5-6 GB各环境因子数据,实现了数据集成和可视化分析,并在专项团队内部开放试运行,新疆生物物种、生物资源和生物技术数据极其丰富,构建服务于新疆农田土壤微生物组研究的专业数据集成和分析平台,为新疆农田土壤微生物资源的系统化、集约化管理、研究和功能评价,提供全方位的信息支撑,破除数据孤岛,为区域尺度土壤环境管理、多主体跨介质协同治理提供数据与决策支撑。随着平台数据资源及功能的不断丰富和完善,期望将其建设成为涵盖不同作物土壤微生物组研究领域的重要公共支撑平台,为新疆易污染、不易恢复的脆弱绿洲生态环境、绿洲农业可持续生产发展及极端耐盐碱微生物资源保护与开发等问题起到应有的贡献。