见微知著:微生物组局部比对算法检测疾病
2023-10-23侯国森张明乾张文科苏晓泉
侯国森 张明乾 张文科 苏晓泉
微生物是一种极小的生物体,广泛地分布在人体、土壤、海洋等各种生态环境中,已成为自然界中重要的组成部分。绝大多数情况下,微生物不会孤立存在,而是以“微生物群落”(亦称“菌群”)的形式,与其周围的环境进行着密切的相互作用。为了更好地描述菌群的特征,通常用“微生物组”来表示某个环境中所有微生物信息的总和。“人类基因组计划”(Human Genome Project)完成以后,人们意识到单纯地解密人类自身的遗传信息无法完全掌握疾病与健康之间的全部聯系。随着测序技术以及生物信息学的发展,“人类微生物组计划”(Human Microbiome Project)等研究发现微生物组与人体健康状况的变化和疾病的发生发展密切相关。
微生物组研究中常使用β多样性来反映不同群落之间的差异程度。β多样性不仅是微生物组的重要特征之一,而且也是解码复杂的微生物群落与其环境之间互作关系的纽带,为微生物组技术在各个领域的应用奠定了基础。利用β多样性分析,科学家们能够判断出微生物组的结构和功能是否与环境的某些状态有着密切的关联,进而根据β多样性指标,对人体健康和疾病类型等特性进行评估,使得微生物组能够服务于疾病识别、干预策略制定、预后评估等领域。
如何计算微生物组两两之间的量化差异是β多样性分析的核心。通常,微生物组之间的差异计算采用“全局比对”的模式,即利用群落中所有的组成成员来计算整体水平上的差异。一个微生物群落中可能包含数百种不同物种的微生物物种,它们各自的丰度(群落内微生物物种的相对含量)也不尽相同,而且物种之间也存在着进化层面的亲缘关系。在“全局比对”模式下,对于两个菌群,如果它们含有相同或亲缘较近的微生物物种,并且其丰度也基本一致,那么这两个样本就具有很高的相似程度,差异也就越小。微生物组β多样性分析中常用的Bray-Curtis距离、UniFrac距离[1-3]以及Meta-Storms[4-5]相似度等便是采用了这种思路。
利用“全局比对”,在计算出所有微生物组两两之间的β多样性后,如果来自相同健康状态的菌群之间差异很小,而不同健康状态的菌群之间差异很大,就可以利用这种β多样性特点来区分和识别疾病。目前已经证实,许多疾病,如炎症性肠病[6]和结直肠癌[7]患者的肠道菌群中存在这种β多样性模式,从而为基于微生物组的疾病检测和早筛提供了基础。
然而,对于某些疾病,例如自闭症等只与肠道中的一小部分微生物成员有关,难以在“整体层面”对菌群间的β多样性产生影响,从而模糊了微生物组与疾病之间的关联,为微生物组的疾病检测提出了新的挑战。
为克服上述难题,笔者团队成功研发了面向微生物组的“局部比对”算法[8-9]。与常规的“全局比对”不同,“局部比对”算法仅根据特定的目标微生物物种或生物标记,计算菌群之间的局部相似性和差异,能够更精准地建立微生物组的复杂特征和疾病之间的联系,使得检测某些只与部分微生物成员相关的疾病成为可能。
理论上讲,“局部比对”需要提取出与疾病相关的目标物种进行比较,但在实际研究中却面临两个难题。一是生物标记识别问题,假如两个菌群之间大多数物种相似,其β多样性的差异仅与部分物种有关,那么这类物种被称为“精确标记”。而如果微生物组测序错误或者数据分析存在误差,某个“精确标记”很有可能被错误地识别成其他近似物种,从而降低了比对的灵敏度。二是数据稀疏问题,由于精确标记物种的数量较少,且相对含量较低,菌群间用于计算量化差异的共同特征数量将会非常少。如两个微生物组并不共享任何精确标记。这样的数据稀疏性会导致相似度接近于0,严重干扰比对的准确度。
在笔者团队开发的“局部比对”算法中,采用“弹性特征提取”技术来解决上述问题。除了精确标记外,弹性特征提取同时也额外关注与精确标记在进化关系、代谢功能和生物学分类极其相似的微生物成员,即“近似标记”。同时,根据近似标记和精准标记之间的亲缘差异进行加权合并分析。运用前期研发的Meta-Storms算法[4-5]计算菌群之间β多样性差异,从而完成“局部比对”,进一步聚焦微生物组特定组成和疾病状态之间的关联。因此,该方法既能够提高检测灵敏度和准确度,又能很大程度上避免了数据的稀疏性。
自闭症,也称为孤独症,是一种较为严重的发育障碍性疾病,会影响一个人的社交交往能力、语言沟通能力和行为模式。由于该疾病的症状表现非常复杂,因此临床诊断非常困难。大量研究表明,自闭症与肠道微生物组有着密切联系,且仅与小部分肠道微生物有关,例如乳杆菌属(Lactobacillus)和副拟杆菌属(Parabacteroides)等[10-12]。值得注意的是,自闭症与健康对照组之间仅存在7个精确标记,占整个微生物组总数的1.75%,因此会造成严重的数据稀疏问题,极大地扭曲了菌群之间的β多样性分布规律。常规的“全局比对”(如Bray-Curits算法、MetaStorms距离、UniFrac距离以及Phylo-RPCA算法)无法将自闭症菌群与健康对照组区分开。而“局部比对”算法采用弹性特征提取,额外考虑了92个近似标记物,建立起自闭症与肠道微生物之间的隐藏联系,可得到可靠的疾病分类信息。
结直肠癌是最常见的消化道癌症之一。90%的早期结直肠癌患者可以存活至少5年。但由于早期症状不明显,多数患者直到晚期才被确诊为结直肠癌,因此结直肠癌的早期诊断具有重要的意义。相比于只影响少部分肠道微生物的自闭症,结直肠癌会对肠道微生物组产生整体性影响[7]。那么,相比于“全局比對”算法,“局部比对算法”是否仍适用?笔者团队对来自结直肠癌研究的真实微生物组数据进行分析后发现,对于结直肠癌来说,大多数“全局比对”算法可成功捕捉到患者组和健康对照组之间β多样性的分布规律。而“局部比对”算法通过灵活地从整个群落中提取精确和近似的标记,能够合理地放大不同组别之间的细微变化,其检测效果相较于“全局比对”算法有明显提升,这也为后续研发非侵入性的早筛方法打开了一扇新的大门。
“细节决定成败”,相信在未来的微生物组研究中,聚焦局部细节的“局部比对”算法将扮演不可或缺的重要角色,更深刻地揭示微生物组与疾病之间的关系,为微生物的探索和人类健康的改善做出巨大贡献。
[1]Lozupone C, Knight R. UniFrac: A new phylogenetic method for comparing microbial communities. Applied and Environmental Microbiology, 2005, 71(12): 8228-8235.
[2]Hamady M, Lozupone C, Knight R. Fast uniFrac: Facilitating high-throughput phylogenetic analyses of microbial communities including analysis of pyrosequencing and PhyloChip data. Isme Journal, 2010, 4(1): 17-27.
[3]McDonald D. Striped UniFrac: enabling microbiome analysis at unprecedented scale. Nat Methods, 2018, 15(11): 847-848.
[4]Xiaoquan S, Jian X,Kang N. Meta-storms: Efficient search for similar microbial communities based on a novel indexing scheme and similarity score for metagenomic data. Bioinformatics, 2012, 28(19): 2493.
[5]Su X, Wang X, Jing G, et al. GPU-Meta-storms: Computing the structure similarities among massive amount of microbial community samples using GPU. Bioinformatics, 2014(7): 1031-1033.
[6]Vazquez-Baeza, Yoshiki, Gonzalez, et al. Guiding longitudinal sampling in IBD cohorts. Gut Journal of the British Society of Gastroenterology, 2018, 67(9): 1743-1745.
[7]Wirbel J. Meta-analysis of fecal metagenomes reveals global microbial signatures that are specific for colorectal cancer. Nature Medicine, 2019, 25(4): 679.
[8]Su X. Elucidating the beta-diversity of the microbiome: from global alignment to local alignment. mSystems, 2021, 6(4).
[9]Zhang M, Zhang W, Chen Y, et al. Flex meta-storms elucidates the microbiome local beta-diversity under specific phenotypes. Bioinformatics, 2023, 39(4).
[10]Strati F, Cavalieri D, Albanese D, et al. New evidences on the altered gut microbiota in autism spectrum disorders. Microbiome, 2017, 5(24): 24.
[11]Liu J, Gao Z, Liu C, et al. Alteration of gut microbiota: New strategy for treating autism spectrum disorder. Frontiers in Cell and Developmental Biology, 2022, 10.
[12]Xiao L, Yan J, Yang T, et al. Fecal microbiome transplantation from children with autism spectrum disorder modulates tryptophan and serotonergic synapse metabolism and induces altered behaviors in germ-free mice. mSystems, 2021, 6(2).
关键词:微生物组 β多样性 局部比对算法 疾病检测 ■