APP下载

基于大数据的微生物高通量测序

2022-05-09章玉鲜申铁

华东科技 2022年4期
关键词:填埋场高通量测序

文/章玉鲜,申铁*

(贵州省信息与计算科学重点实验室,贵州贵阳 550001)

1.实验部分

1.1 Illumina Novaseq 6000高通量测序

随着生物信息学科的兴起,高通量测序成为大数据分析方式中高效的分析测序方法,有利于相关部门高效快捷地得到所需数据。例如,我们将采集的样品送往青岛市百迈客生物测序公司进行Illumina Novaseq 6000高通量测序,具体操作如下:首先将样品进行DNA提取,按照实验设计获得相应的引物,并且在引物的最后位置加上所需要的测序接头,在对引物进行PCR扩增后进行提纯检验和使用量的定值设置,进而形成最终的测序文库。测序文库也要经过质量检查才能进行最终的测序。

1.2 大数据结合下的生物数据

伴随着高通量技术发展而产生的海量多元组学数据,为生物信息学的快速发展提供了丰富的数据资源。实验基于大数据分析,基于binary jaccard、bray curtis、(un)weighted unifrac(限细菌)多种算法展示测序物种的多样性并形成可视化的矩阵。分析主坐标并进行可视化展现,以及受到哪些环境因子影响、与该样本中的组成间相关性如何等的分析算法,使用的都是排序分析。

1.3 信息分析

我们首先通过原始数据处理与样品序列统计对16S rDNA高变区序列测序,测序区域为v3+v4_b区;对测序得到的Raw Reads进行过滤,目的是实现所得引物的序列可以被识别到。根据实验需求,我们队引物的序列进行了筛选,这一步是为了获得Clean Reads,即没有引物后的序列。接下来,我们用overlap方法拼接对每一个测序样本的Clean Reads,同时选择测序样本中所需要的长度进行相应的筛选,在去除嵌合体序列后得到有效数据。我们利用有效数据就可以应用相应软件进行数据的计算和分析了,例如对样本的多样性进行分析、对不同样本间的差异进行分析、对各个样本间的相关性与差异性进行分析等。最后,我们根据所获得的Reads读数,在97.0%的相似度下进行物种的聚类,从而得到OTU值,进一步进行获得想要的多样性测序。

2.结果与讨论

2.1 OTU分析

大数据数据库的选择可以对生物序列分析起到直观、精确的作用。Venn图的作用是:一方面可以展示测序样本自身特殊的特征数目,另一方面能直观地展示各个样本间相同特征的重叠部分,如图1所示。

大数据可视化将生物数据以三维方式呈现,将复杂的数字可视化,利用相关软件呈现物种丰度,从而更直观地展现物种的不同程度。由图1可以看出,A组总的特征个数>B组的特征个数>C组的特征个数,垃圾填埋场中的土壤微生物特征含量大于普通土壤微生物特征含量。A、B、C三组之间共有的OTUs个数达到了1442个,A组特有的OTUs个数最高,有104个;C组特有的OTUs个数最少,只有59个。结果说明,在垃圾填埋场土壤中的微生物OTUs高于校园里土壤中微生物OTUs的含量。从A组组间分析可以看出:A1、A2、A3共有的OTU数是1269个,A3特有的OTU含量最高,达到了172个;B组组间共有的OTU数为1524个,其中B1特有的OTU最高,108个;C组组间共有的OTU特征数是1338个,其中C2特有的OTU最高,109个。结果表明,生活垃圾中所含有的物质对周围土壤生物多样性有促进作用。同时,这也体现出生物信息学作为新型交叉学科,能够利用大数据分析来提高研究效率。

2.2 物种分布图

如何从已有的生物数据中有效获取到信息,需要利用数据挖掘工具。数据挖掘工具是基于大数据中存在的海量资源,获取所需的实验数据。由图2可知,各土壤样品中包含最多的微生物是变形菌门(Proteobacteria),其 次 是酸杆菌门(Acidobacteria);相对于B组和C组,A组拟杆菌(Bacteroidetes)高于B组和C组土壤样品中的拟杆菌。拟杆菌具有纤维素降解和发酵产酸的能力,在垃圾填埋场中占据绝对优势,对垃圾降解能起到非常大的作用。大多数拟杆菌存在于人体中,其可能的原因是:垃圾填埋场大多数是生活垃圾,经过垃圾渗滤液长期侵蚀,造成伴生土壤中的拟杆菌数量高于其他土壤。己科河菌门(Rokubacteria)、匿杆菌门(Latescibacteria)、硝 化 螺旋菌门(Nitrospirae)在A组中几乎不存在,但在B组中的比例相对来说是最大的,这与贺晓凌等人的研究结果一致。其原因可能是:A组的伴生土壤已经有5年以上,其中的垃圾差不多已经被降解,土壤中的N03--N、NH4+-N的浓度受垃圾渗滤液的影响效果不大;而B组土壤距垃圾填埋场只有约50米远,垃圾渗滤液经过地下径流仍然对周围土壤中的微生物多样性产生了影响。例如在参与亚硝酸盐氧化的过程中,由于是异养菌群,己科河菌门通过醋酸或脂肪酸的降解来获取能量。垃圾填埋场中大多数是生活垃圾(包括厨余垃圾),在发酵过程中会产生大量的乳酸;其余生活垃圾厌氧发酵也会产生一些腐殖酸;拟杆菌门发酵膳食纤维产生丁酸、丙酸和乙酸这些短链脂肪酸,且大多数来源于人体中,所以在A组、B组中的含量明显高于C组。酸杆菌门适合在pH浓度较低的环境中生长,C组土壤虽然是山上的,但是经常有人在上面活动,动物产生的粪便也在一定程度上影响了土壤性质。

2.3 Alpha多样性指数分析

伴随着生物信息大数据的发展,在生物信息学作为多学科交融的历程中,生物学数据多样性分析和数据可视化在生物信息学中急速发展。以Alpha多样性(Alpha diversity)为例,它可以呈现每一个样品的物种丰富程度和该物种的各个数值的多样性情况,如表1所示。

由表1可知样品的有效序列数。另外,计算机科学与技术也在生物信息学中起着至关重要的作用,例如数据公示的计算和可视化。比较各样品ACE值和Chao1值,得到的结果是样品B>样品A>样品C,物种丰富度总体表现为:靠近垃圾填埋的地方,土壤的微生物多样性要高于距离垃圾填埋较远的土壤中的微生物多样性。公式为:

表1 Alpha多样性指数统计

[其中,H=样品的信息含量(彼得/个体)=群落的多样性指数;S代表在这个群落中物种的丰富度值,即物种有多少类型;pi代表物种i的相对丰度值;x一般取2或e]。如果是完全均匀的群落(上式中,pi=1/s),Shannon指数的值能达到最大。

3.结语

生物数据分析依赖于大数据平台的发展。基于Illumina Novaseq6000高通量测序平台对采集样品测序显示,物种丰富度总体表现为:靠近垃圾填埋的地方,土壤的微生物多样性要高于距离垃圾填埋较远的土壤中的微生物多样性,垃圾渗滤液通过地表径流对土壤微生物多样性产生直接影响。各土壤样品中包含最多的微生物是变形菌门,其次是酸杆菌门。FCPU426、纤维杆菌门(Fibrobacteres)、蓝 细 菌(Cyanobacteria)和BRC1是A组伴生土壤中独有的优势细菌。B1中含量较突出的新型细菌门植物钙化物(Calditrichaeota)能为垃圾填埋场渗滤液对土壤微生物多样性研究提供有力支持。

猜你喜欢

填埋场高通量测序
两种高通量测序平台应用于不同SARS-CoV-2变异株的对比研究
高通量卫星服务专用网络的应用模式探索
新一代高通量二代测序技术诊断耐药结核病的临床意义
安徽安庆某飞灰填埋场边坡工程地质特征与稳定性评价
生物测序走在前
外显子组测序助力产前诊断胎儿骨骼发育不良
高通量血液透析临床研究进展
比较高通量血液透析与血液透析滤过在尿毒症患者中的应用效果
How To Sort The Trash Around Us
庞大垃圾填埋场提前25年被填满