APP下载

宏基因组生物信息学分析方法

2022-12-28孙璐

青海畜牧兽医杂志 2022年1期
关键词:基因组测序物种

孙璐

(青海大学畜牧兽医科学院,西宁 810000)

微生物是地球上分布最广的生物群和重要的分解物,在许多方面起主导作用。传统的微生物研究通常是在实验室中通过分离和培养进行的,而在现实中,环境中大量的微生物是无法通过培养的方式被解析的。随着高通量测序技术的发展,扩增子测序被用于特定生态环境中的微生物组成、物种间的进化关系和群落多样性研究,而菌群的遗传性、功能潜力及微生物、环境与宿主之间的关系则需要宏基因组来实现。宏基因组(metagenome)又被称为微生物环境基因组(Microbial Environmental Genome)或元基因组,其概念早在1998 年由Handelsman J等提出,定义为“the genomes of the total microbiota found in nature”,即生境中全部微小生物遗传物质的总和,包括可培养和不可培养微生物的基因,目前主要指的是环境样品中细菌和真菌的基因组总和[1]。宏基因组学(metagenomics)是以环境样品中微生物群体的所有基因组为研究对象,以功能基因的筛选和测序分析为手段,以微生物多样性、种群结构、进化关系、功能活性、协作关系以及环境之间的关系为目的的微生物研究方法[2]。

其研究流程包括微生物样本DNA的提取,构建文库后上机测序,测序数据质量控制后进行组装和拼接,对组装好的大片段进行基因预测、物种注释和功能注释等,从基因和功能水平进行分析,拓展了微生物功能代谢研究。宏基因组的研究可以分为测序数据的产生和测序数据的生物信息学分析两个部分。

1 宏基因组测序数据的产生

宏基因组测序数据经过样品DNA提取、文库构建、上机测序等流程产生。

1.1样品DNA提取

宏基因组样品总DNA 的浓度、纯度、片段大小和偏好性等将直接影响到宏基因组文库的质量和代表性。宏基因组研究中,DNA的提取方法分为直接提取法和间接提取法。直接提取法又称原位裂解法,是通过物理、化学和酶法等直接裂解环境样品中微生物的细胞壁提取和纯化DNA的方法。该法获得DNA的效率高、操作简单、成本较低、具有良好的重复性,但是提取的DNA片段较小(1-50kb),纯度较低,需通过纯化处理之后才能继续后续的分子生物学操作。间接提取法是将微生物细胞从样品中分离出来,通过较温和的方法提取 DNA并纯化,该方法能够获得较高纯度的DNA大片段(20-500kb),但是操作复杂,成本高,且在温和的条件下一些具有较厚细胞壁的微生物DNA不容易提取。直接法和间接法各有优缺点,目前关于环境微生物样本DNA 的提取大多采用直接提取法。

1.2文库构建

DNA片段的大小决定了基因组文库的完整性,构建宏基因组文库时要考虑到研究的总体目的和获得的DNA的数量、纯度及片段的大小等。宏基因组常用的载体包括质粒(plasmid)、细菌人工染色体(bacterial artificial chromosome)、柯斯载体(cosmid)、福斯黏粒(fosmid)等,能够满足不同插入片段大小的要求[3]。无论选用哪种载体构建文库,都必须使文库最大程度地覆盖样本中所有微生物的基因组。宿主菌株的选择主要考虑转化效率、基因的表达、重组质粒在宿主细胞中的稳定性以及目标性状的筛选等[4]。最常用的宿主有大肠杆菌(E.coli)、芽胞杆菌(Bacillus)、变铅青链霉菌(Streptomyceslividans)和恶臭假单胞菌(Pseudomonasputida)等[5]。

1.3上机测序

第二代测序技术依托的高通量测序平台主要有罗氏公司的454测序仪、Illumina公司的Solexa Genoma Analyzer测序仪和ABI公司的SOLi D测序仪,它们的测序深度在一定程度上弥补了读长较短的问题,深入且快速的测序过程使得他们成为目前应用最广泛的测序平台。454焦磷酸测序仪是最早的循环微阵列测序平台,获得的读长可达400bp,但存在着无法精确测量同聚物长度和测序通量较低的缺点。基于“边合成边测序”原理的Illumina 测序需要的样品量较少,文库构建过程简单,运行成本较低,逐渐成为目前市面上的主流测序平台,但是由于光信号的衰减和移相,导致序列读长较短。SOLi D平台采用的是基于连接测序的双碱基测序技术,以一个荧光信号对应两个碱基为基础,使每个位点都被检测两次,具有误差小和自主校正的优点。

2 宏基因组的生物信息学分析

宏基因组的生物信息分析内容主要包括质量控制、序列比对、序列组装、基因预测、物种鉴定等,分析工具也主要在Shell和R两种语言环境下运行,分析流程涉及到大量的软件和数据库,不同的分析流程影响着宏基因研究的准确性和精确性。

2.1质量控制和去除宿主序列

宏基因组测序的数据是由样本中大量微生物的短序列组成,存在一定比例的低质量数据,在研究动植物的微生物群落时,宿主的遗传物质也会被测序,导致数据污染和测序成本增加,为了确保后续分析结果的精确性和可靠性,需要对原始序列进行质量控制(quality control,QC)和去除宿主序列的干扰,获得纯净序列(clean reads)。

质量控制指的是从测序数据中去除人为添加的引物、接头以及产生的低质量序列,常用的软件主要有Trimmomatic、FASTX-Toolkit、Cutadapt、PRINSEQ等。基于Illumina平台输出而设计的Trimmomatic软件是采用序列碱基和质量分数两种信息对序列进行过滤处理的分析工具,能够去除引物、接头和低质量序列,并将序列剪切到一定长度且不干扰下游序列的分析。FASTX-Toolkit可以对序列进行汇总统计,但是产生结果的质量不如Trimmomatic。Cutadapt可以去除任意指定的接头。PRINSEQ可以剪切序列和碱基外,还可以通过 GC 含量过滤序列,对序列进行汇总统计。采用比对宿主序列的方式去除宿主序列,使用的软件主要有TopHat2和Bowtie2。TopHat2 是利用计算机将序列映射并与参考基因组比对的软件,需要有较高计算能力的计算机支持。Bowtie2是将测序的reads比对到长的参考序列,是一个快速、节约内存的序列比对工具。

2.2基于序列(Read-based)的分析

宏基因组研究中基于序列(Read-based)的分析是将质量控制和去除宿主后的clean reads直接比对到数据库,获得物种组成和功能信息的研究方法,该方法需要依托较完善的参考数据库,目前人类各项研究的数据库质量比较高,该方法较适合于人类相关研究。

MetaPhlAn2是分析宏基因组测序数据中微生物群落组成的工具,它是从全基因组数据库中使用分支特异性标记基因注释序列,获得细菌或古菌的物种水平分布。MetaPhlAn2很少单独使用,目前被整合在有参宏基因组分析流程HUMANn2中,可直接使用reads获得物种、功能、以及功能对应物种组成信息。HUMANn2采用分层式算法比对标记基因、泛基因组和蛋白数据库,能够快速、准确获得种水平的功能组成,建立物种与功能的联系,并引入贡献多样性的概念(contributional diversity),解释不同微生物群体类型生态学组装的模式,使我们从类多样性角度重新认识微生物组功能组成,以及与物种间的联系。

物种注释用于表明物种间关系远近,不同分类数据库注释的结果差别较大,不同的注释方法也会影响到物种注释的准确性、分类水平高低、注释的速度、计算机的资源消耗、系统兼容性等。目前基于序列层面的宏基因组物种注释主要有两种:一是将待注释的序列比对到数据库中,通过序列的相似度进行物种注释,该方法受限于数据库的完整性,比对结果不准确。 二是基于k-mer频数的打分策略,利用参考基因组中所有kmer根据LCA进化树,将reads的kmer进行索引,利用比对kmer频数确定物种分类丰度的方法,是目前宏基因组研究公认的物种注释较准确的方法,常用软件有Kraken系列、Clark、Kaiju等。

2.3基于组装(Assembly-based)的分析

在实际研究中,我们通常面对的是环境中大量未知的微生物,且参考数据库并不完善的情况下,无法采用基于序列的分析方法获得微生物组成和功能。针对该问题,出现了基于组装(Assembly-based)的分析方法,即将原始序列组装成重叠群(contigs),对重叠群进行基因注释,根据已有的数据库挖掘物种组成和功能。还可以在重叠群的层面上进行分箱(Binning)或宏基因组组装基因组(metagenome assembled genome,MAG),拼出未培养菌(未知菌)的基因组,探索细菌基因组中的代谢通路等。宏基因组基于组装的分析主要分为组装(assembly)和分箱(binning)两个关键步骤。

2.3.1组装(assembly)

将测序获得的短基因片段拼接成较长基因片段的过程叫做组装(assembly)。测序获得的读长通过计算机软件根据读长之间的重叠区关系进行拼接获得的更长的序列被称为重叠群(contigs),将重叠群中间用N连接后形成的更长序列被称为框架(scaffold)。基于德布莱英图(De Bruijn Graph,DBG)的组装算法代表软件有MEGAHIT,适合30G~300G范围的多样本混合组装,默认按95%相似度的种水平聚类,但是无法拼接至株水平。metaSPAdes是目前宏基因组领域组装指标最好,但最消耗时间和内存的软件,适合单样本组装,可以拼接株水平重叠群。

基于组装的序列,我们可以实现基因预测、物种注释、功能注释等相关分析,研究微生物菌群的结构、功能和作用机制。但是组装过程中存在着两大难题,一是宏基因组数据量大组装过程复杂,序列相似性高组装难度大。二是在开展动物胃肠道微生物、植物内生菌等研究时,宿主污染不可避免,过滤宿主DNA的前提需要有宿主的基因组信息。Prodigal软件是基于动态规划的评分模型进行预测,主要用于细菌和古菌的基因预测,无法预测真核生物。该软件被许多分析流程整合,运行速度快,支持多线程读取,本地安装或conda安装等都很方便,还有在线分析平台,适合初学者使用。MetaProdigal 是Prodigal基因预测的宏基因组版本,提高了宏基因组分析中的基因识别能力。GeneMark软件采用的是无监督学习模型的预测方法,是具有强大功能的软件家族,可以实现多种类型的基因预测,包括宏基因组、宏转录组、真核生物、转录本、病毒、噬菌体、质粒等,GeneMarkS-2是宏基因组基因预测的最新版本。组装获得的基因或基因集的功能需要通过基因注释实现,即在特定的功能数据库中对基因或蛋白序列进行比对,将基因或蛋白质与特定的功能联系起来,帮助了解相关的代谢通路,并进一步理解宿主与菌群、宿主与环境之间的关系,常用的功能注释数据库主要有KEGG、EggNOG、CAZy、CARD、VFDB、MetaCyc等。

2.3.2分箱(Binning)

将组装的重叠群(contigs)按照物种、亚种或者属进行分类的过程被称为Binning(中文翻译为分箱)。宏基因组分箱技术有助于获得不可培养微生物的全基因组序列、新物种的基因组序列和功能,是测序技术不成熟的产物,适用于研究复杂的微生物体系,对于分离的纯菌和第三代测序技术获得的准确率和测序深度较高的长片段该技术不适用。早在2011年宏基因组分箱技术首次应用于牛瘤胃的样本研究,引起广泛关注,也逐渐出现了很多宏基因组分箱工具,如MEGAN、 MG-RAST、 LikelyBin、TETRA、 SCIMM、Abundance-Bin、 Canopy、MetaBAT、MaxBin和GroopM等,各软件分析结果差异很大,流程多样复杂,耗时费力,缺少评估和可视化的工具,使得宏基因组分箱研究带来困难。2018年发布的两款分箱提纯工具 metaWRAP和 DAS Tool,将 3~5 款分箱工具进行整合,从原始数据直接到宏基因组bin和相关下游分析,它包括混合算法,来实现多种软件分箱结果的整合,在人工重组和自然样本数据中结果均优于大部分主流软件,还包括物种注释、丰度估计、功能注释和可视化等多个宏基因组分箱结果的下游分析功能。[6]

3 宏基因组在线分析平台

3.1EBI Metagenomics

EBI Metagenomics是 2011 年由欧洲生物信息学研究所(EBI)开发的宏基因组数据管理、分析、存储平台。注册后可以上传宏基因组的原始核苷酸读数并在平台中保留2 年,且以唯一的登录号自动存储在欧洲核苷酸档案(European Nucleotide Archive,ENA)中。分析结果可以通过 EBI Metagenomics平台的网络界面获得,提供多种下载格式,能够实现在线或独立工具之间的兼容,平台还提供比较分析工具,可以对数据库中已经存储的样本数据进行快速比较分类和功能分析。[7]

3.2IMG/M

IMG是由美国能源部联合基因组研究所(Joint Genome Institute,JGI)开发的宏基因组数据存储、管理和分析系统。IMG/M是将宏基因组数据集与来自IMG系统的微生物基因组整合在一起,是IMG的一个特定领域的工具,能够与微生物群落的测序数据兼容,为微生物基因组和宏基因组数据的注释、分析和发布等提供了免费支持。预处理、质量控制和输入数据的注释由JGI的宏基因组注释系统执行。能够使用KOG、FEGG、PFAM、GO等参考数据集对IMG/M存储的数据进行注释,包括系统发育组成、单个微生物组内的功能或代谢潜力,以及微生物组间的比较等内容。[8,9]

3.3MG-RAST

MG-RAST是一个开源的服务器,最初构建在 SEED 项目框架上,于 2007 年首次发布,是最早的宏基因组在线分析工具之一。它不完全依赖 SEED 技术,而是使用 SEED 子系统作为首选数据源,实现微生物的组成和功能分类。除了数据访问之外,用户注册后还可以提交自己的 FASTA、FASTQ 和 SFF 格式的原始宏基因组数据以及详细的样本信息。该服务器支持包括系统发育、功能、代谢和两个或多个宏基因组的比较分析。还提供了选择数据库的工具,以便根据测序数据对微生物种群进行定量分析。注册用户有权公开发布他们的数据或对数据保密,并可以在多个用户之间共享数据并保护机密,在分析、隐私和数据共享方面提供了极大的灵活性。[10,11]

3.4NMDC

NMDC国家微生物科学数据中心是以中国科学院微生物研究所作为依托单位,联合中国科学院海洋研究所、中国疾病预防控制中心传染病预防控制所、中国科学院植物生理生态研究所,中国科学院计算机网络信息中心等单位共同建设的关于微生物的免费的一站式生物信息分析云平台。截止2021年,中心数据资源总量超过3PB,数据记录数超过40亿条,数据内容完整覆盖了微生物资源、微生物和交叉技术方法、研究过程和工程、微生物组学、微生物技术以及微生物文献、专利、专家、成果等微生物研究的整个生命周期。可提供包括生物信息在线分析工具、计算资源、公共参考数据的整合在线服务。图形化操作界面,每项分析都可以自定义分析参数,实现在鼠标点击之间即可在线进行生物信息数据分析。目前国家微生物科学数据中心已经上线了84个分析工具和自定义的数据分析工作流,涵盖了宏基因组分析流程、基因组拼接、基因组结构分析、基因组注释分析、元基因组分析、比较基因组分析、便携分析等7大功能。

4 展望

宏基因组学的研究经过不断的发展,已经渗透到多个领域。在2019年武汉出现的原因不明肺炎,通过使用高通量测序技术迅速确定引起该病的病原为新型冠状病毒,并获得全基因组序列,为该病的病原核酸检测、抗体检测等检测方法的建立提供了最重要信息,为发现早期病原提供了技术支持,在控制疫情传播方面给予很大程度地帮助,为战胜疫情提供了保障。动物领域,宏基因研究主要关注动物发育与免疫应答、饲料利用率、疾病预防等。农业领域主要研究集中于生物地球化学循环、作物栽培管理、病害预防和治理、土壤抗生素抗性机制研究、生物修复和生物肥料等。

宏基因组为捕捉不可接近的微生物世界提供了可能。同时将宏基因组学与宏转录组学、代谢组学、蛋白质组学等的联合应用,以及伴随着生物信息学、分子生物学等多学科理论知识的丰富,各类数据库的完善,先进数据分析工具的应用,为微生物的研究带来了新的曙光。

猜你喜欢

基因组测序物种
两种高通量测序平台应用于不同SARS-CoV-2变异株的对比研究
“植物界大熊猫”完整基因组图谱首次发布
牛参考基因组中发现被忽视基因
生物测序走在前
外显子组测序助力产前诊断胎儿骨骼发育不良
科学家找到母爱改变基因组的证据
血清HBV前基因组RNA的研究进展
回首2018,这些新物种值得关注
基因测序技术研究进展
电咖再造新物种