宏基因组分类分析方法的研究与应用
2021-07-12章广能
章广能
实现样本分类需要提取不同状态的样本差异性特征,本文深入研究了不同样本的16S rRNA基因序列,通过分析模拟数据,验证群落结构的可行性。保障样本多样性,可以提升样本物种丰富的信息,同时可以降低样本特征维度。多样性特征还结合了群落独立进化信息和舞种丰度,是非常理想的样本特征。
1 宏基因组学概述
宏基因组学主要是研究环境样本中国提取的微生物遗传物质。针对传统的微生物研究,主要是分离培养和提纯微生物,但是利用分离培养方法会破坏微生物的多样性。而宏基因组分学突破了一直以来对于微生物的研究,宏基因组主要是通过研究物质,为拓展了相关课题研究的思路[1]。
在自然环境各处都存在微生物,此外在人体环境中也存在大量的微生物,利用传统的分离培养技术,没有充分地认识人类和微生物的关系。因此,在研究阶段开始利用宏基因组学。宏基因组学首先是研究单一微生物的群落聚集,其次,系比较不同微生物群落,最后分析微生物之间的关系。选择研究方法包括功能筛选和序列分析等,发展利用宏基因组学,可以为各种难题提出针对性方法。例如选择功能筛选,因为宏基因组测序数据中包含微生物的基因序列,利用费培养研究方法,有利于研究未知微生物。此外,在研究过程中利用宏基因组学,可以获得新的活性物质,例如在宏基因组样本中发现阿霉素和四环素等天然产物。
在宏基因组学研究中利用序列分析方式,通过分析微生物基因序列的生物信息学,一方面有利于研究环境微生物多样性,工作人员在研究阶段可以利用相关方法探索各种微生物群落。另一方面可以根据序列对比,明确微生物群落的结构特征。通过分析不同的微生物样本,明确不同微生物的基因序列,从而明确其中的差异性,对于未知微生物也可以起到预测作用[2]。
近些年,在各个行业发展研究阶段都开始利用宏基因组的相关知识和方法,可以拓展整体工作思路。例如在医学领域当中,可以利用宏基因组分类分析方法研究口腔微生物,根据这一微生物的特征和习性等,确定相关疾病的治疗方法。例如,医学人员通过在倡导菌群研究中利用红基因组学分析样本的微生物序列,确定儿童孤独者患者通常都具有紊乱的长大菌群结构。在生态学中,利用宏基因组分类分析方法分析微生物多样性和降解基因丰度,利用研究结果,可以在水污染治理中利用活性污泥。
当前,在各个领域的微生物研究中都开始利用宏基因组分类分析方法,同时这一方法还具有良好的应用前景,在实际工作中不断出现海量微生物基因序列样本,因此更多的研究者注重分析宏基因组分类分析方法。利用宏基因组分类分析方法,可以对于医学诊断和人体生理状态检定等方面提出新型思路。当前我国主要是在微生物全基因组序列中利用宏基因组分类分析方法,但是很少研究基于微生物保守序列的样本分类方法[3]。
2 宏基因组样本分类流程
2.1 分类流程
根据16 rRNA测序数据,明确宏基因组分类的分析流程,并且结合模拟数据评估分析六层的正确率。结合宏基因组的测序计划,得出以下的流程步骤:
(1)计算样本{S1,S2,…,Sn}的OTU表{T1,T2,…,Tn};
(2)根据样本的OTU表{T1,T2,…,Tn},选择样本特征为丰度,主要分为α多样性或者β多样性;
(3)工作人员可以利用随机森林分类算法,在计算阶段秩序将样本特殊数据输入进入,即可实现样本分类。
在宏基因组分类过程中,首先需要明确不同样本的特征,随后再利用随机森林的分类算法,针对不同宏基因组样本状态实施分类,因此,获取各种时间和各种空间的样本[4]。
2.2 宏基因组样本特征
2.2.1 物种相对丰度
微生物菌群的相对丰度对于环境和素质产生的影响具有较大的差异性。例如,通过分析肠道菌群的拟杆菌门,发现肥胖症患者的相对丰度通常较低,因此宏基因组的样板特征可以选择群落的相对丰度,在样本分类中可以利用群落相对丰度。
通过16 rRNA测序数据,可以计算出菌群的相对丰度值,在实际计算阶段:工作人员首先需要分别统计样本微生物,根据计算结果制定OTU分类学综合信息表。数据和数据库经过预处理之后,再经过筛选和过滤之后,将不符合要求的序列去掉。经过聚类获取序列相似性信息。分别统计样本中OTU中reads数目,因此确定每个样本的OTU丰度。其次,完成分类分析,工作人员可以对照silva库中参考序列鉴定样本舞种。最后,需要结合物种分类学信息注释OTUtable,因此建立OTU分类学综合信息表,同时利用统计学分析方法计算物种相对丰度。样本特征选取群落物种相对丰度,在样本类别判断阶段,需要选取群落的微生物数量差异。利用这一特征,可以对于各行业的问题落实样本分类分析。
2.2.2 α多样性
利用α多样性可以准确地描述物种多样性。例如改变人体微生物群落物种多样性,人体健康将会受到影响,对比较胖的人群,较瘦人群具有较高的肠道微生物物种多样性。如果某人胃内油门螺旋杆菌处于阳性,那么油门螺旋杆菌将会破坏胃内微生物群落多样性,这类人很容易感染溃疡等疾病。
在实际工作中加入其他的样本特征信息,加入特征可以是时间、地点以及年龄等,例如研究人体皮肤表面的微生物群的过程中,为了保障研究结果的可靠性和代表性,研究人员需要提取身体各个部位的皮肤样本,因为人与人之间具有巨大的差异性,因此在分析阶段可能会发生样本分类错误问题,因此在α多样性特中加入特征信息,可以使样本分类的准确性得到提高[5]。
2.2.3 β多样性
在针对两个群落物种开展研究的过程中可以利用β多样性,同时可以将群落物种的变化显示出来。在群落间差异分析阶段可以利用很多传统的度量方法,但是根据系统发育关系的β多样性指数,可以将反应群落差异准确地反映出来。
当前在很多微生物分析过程中都开始利用群落β多样性,这一理念的基础是系统发育,通过分析不同群落之间的β多样性,可以明确不同群落之间的相似性和差异性。例如,在哺乳动物肠道菌群进化阶段,通过比较分析微生物群落,可以明确生物圈进化情况。通过研究健康成人的微生物群落,因为随着时间和空间的变化,人体微生物群落也会发生变化,这些变化可以确定微生物对于人体疾病预防的作用,同时也可以明确人类治病原因。
综上所述,α多样性代表微生物群落结构信息,其中包括群落物种个数和物种比例等信息,α多样性和β多样性以及群落微生物功能的基础为物种丰度的基础都是物种丰度,因此,物种丰度可以各种样本特征。
3 结语
微生物和人们生产和生活具有紧密的联系,通过研究和应用宏基因组分类分析方法,有利于研究整体环境微生物基因,帮助人员更好地揭示微生物世界。但是因为微生物比较复杂,仅此在今后工作中,需要根据实际工作情况进一步改进宏基因组分类分析方法,提高样本分裂的准确率。