多组学生物信息学分析在家畜脂肪沉积研究中的应用研究进展
2022-10-12庞卫军
李 睿,蔡 瑞,庞卫军
(西北农林科技大学动物科技学院动物脂肪沉积与肌肉发育实验室,陕西杨凌 712100)
家畜脂肪主要以皮下脂肪的形式存在,还有部分脂肪以肌内脂肪的形式存在,这类脂肪含量少,但与肉质多汁性、嫩度和风味密切相关。对家畜脂肪沉积机制进行研究能为改善家畜肉品质提供理论支持,然而家畜脂肪沉积是一个复杂的生物学过程,受遗传因素和营养因素共同调控,多种类型的细胞也在这一过程中发挥着不同的作用。还有一些研究结果表明,家畜肌内脂肪沉积过程与肌纤维和脂肪细胞的发育机制有关。
生物信息学能为这类复杂生物学过程研究提供有效的分析方法。一方面,利用生物信息学能分析和整合一个生物过程中多种因素的作用关系,将各种因素进行网络建模,系统地研究生物过程,有利于对复杂的生物过程做出更全面的解释。另一方面,过去几十年来已经积累了大量的生物数据和研究结论,在如今的后基因组时代,基于统计学规律挖掘大量生物数据中的关系,再结合实验方法进行验证,是生物机制研究的一种新思路。本文从基因组、转录组、蛋白质组和多组学联合分析4个角度对生物信息学分析(以下简称生信分析)方法在家畜脂肪沉积研究中的应用进行综述,同时介绍一些其他生物学研究中应用的新兴生信分析方法,旨在对家畜脂肪沉积相关的研究提供参考和思路。
1 基因组生信分析挖掘家畜脂肪沉积候选基因
基因可以控制生物的性状,家畜脂肪沉积规律也受基因控制,挖掘脂肪沉积相关基因对于家畜的遗传改良十分重要。与家畜脂肪沉积相关的主效基因或基因区域可作为分子标记为选种和遗传改良提供参考,对脂肪沉积相关基因的作用机制进行研究,还能解析家畜脂肪沉积的分子机制。在第二代基因测序技术产生以后,随着大量研究数据的积累以及计算机技术的发展,运用计算机软件分析庞大的碱基序列中蕴含的生物信息,是动物功能基因挖掘的主要策略,并出现了基于生物信息学挖掘家畜脂肪沉积相关基因的方法。
1.1 全基因组关联分析法挖掘家畜脂肪沉积相关基因全基因组关联分析(Genome Wide Association Study,GWAS)可定位与家畜复杂性状相关联的基因组区域,GWAS 的基本流程为:对家畜群体在全基因组范围内的遗传变异标记多态性进行检测以获得基因型,再将基因型与表型结合进行群体水平的统计学分析,从而筛选出最有可能影响目标性状的遗传变异标记或基因组区域,最后利用数据库对这些区域进行注释,挖掘与目标性状相关的基因。近年来一些学者运用GWAS 挖掘与家畜脂肪沉积相关的候选基因或遗传变异位点。
Martins 等对Nellore 牛进行背部和臀部的脂肪厚度测定,用SNP 芯片检测基因型数据,进行GWAS分析后,最终通过Ensembl 数据库对候选基因组区域进行注释,鉴定出了影响牛背部和臀部脂肪沉积的候选基因,还利用STRING 数据库分析了这些基因的相互作用。Zhang 等通过Single-step GWAS 在杜洛克猪中找到一些显著提高肌内脂肪含量但不影响背膘厚,甚至与背膘厚呈负相关的候选SNP,这些SNP 可能通过组合作用影响表型。因此,利用GWAS 挖掘家畜脂肪沉积这一复杂生物学过程的相关基因是一种可行的方法。虽然使用高密度的SNP 芯片或采用全基因组重测序检测SNP,可以提高定位的准确性,但这种方法存在的问题是:对候选基因区间进行基因功能注释后,仍需要进行文献查证、实验验证等方法,才能最终确定候选基因或遗传变异位点的功能。此外,由于GWAS 需要大量样本的基因型数据和表型数据,而基因分型费用较高、肌内脂肪含量等表型不易测量,这使得GWAS 在应用时成本较高。
1.2 选择信号法挖掘家畜脂肪沉积相关基因 选择信号法挖掘候选基因的基本流程是:利用全基因组测序技术或基因芯片,检测家畜基因组上的SNP 以估计等位基因频率,基于位点频谱、连锁不平衡、群体分化等方法检测基因组上受到选择的区域(选择信号),最后利用数据库对这些基因组区域进行注释,挖掘出与目标性状相关的候选基因或遗传变异。
近年来,选择信号法被广泛地应用于家畜表型多样性和重要经济性状相关候选基因的鉴定,也有一些学者利用这种方法挖掘家畜脂肪沉积相关基因。例如,徐忠采用基于连锁不平衡的单倍型ROH 选择信号和基于群体分化的PLS 选择信号,筛选到金华猪含有等与肌内脂肪含量相关的基 因。Ahbara 等联合采用Fst、hapFLK 和Rsb 这3 种选择信号检测法筛选到一些与埃塞俄比亚本土绵羊脂肪沉积有关的候选基因,如。
选择信号法在运用时只需利用全基因组重测序或基因芯片,收集研究对象的基因分型数据,不需要获得表型观测值就能挖掘出受到高强度选择的基因,为挖掘脂肪沉积相关基因的研究提供了便利。但缺点是不同选择信号检测方法的适用性不同,种群历史演变过程中在基因组上的印记会造成选择信号的假阳性,因此在应用时需要综合群体内和群体间选择信号检测、多种选择信号检测结果相互验证、值校正等方法,才能保证该方法的准确性。此外,随着来生物数据库的不断完善,可以利用的样本基因组数据越来越多,也有利于提高选择信号法的准确性。
上述两种方法是基因组层面揭示复杂性状遗传机制的主要策略,并且目前猪、牛、羊等家畜的参考基因组已经构建完成,为采用这类方法的研究奠定基础。表1 总结了近年来这两种方法在家畜脂肪沉积研究中的应用情况。综上所述,基因组序列差异在一定程度上解释了动物个体间的表型差异,而不同的家畜群体或品种在皮下脂肪含量、肌内脂肪含量等脂肪沉积相关性状上存在差异,因此利用有表型差异的个体间或群体间的基因组数据进行分析能够在基因组水平挖掘与家畜脂肪沉积相关的基因或遗传变异。但这类方法主要基于统计分析,建立性状与遗传变异位点间的联系,尤其是运用GWAS 时,需要大量的样本才能保证分析的准确性。此外,在家畜脂肪沉积过程中,基因表达具有时空特异性,饲养条件的改变也会对基因表达产生影响。因此仅从基因组水平进行家畜脂肪沉积研究是不充分的,有必要在转录组水平上,运用生信分析的方法探究家畜脂肪沉积机制。
表1 近年来全基因组关联分析和选择信号法在家畜脂肪沉积研究中的应用
2 转录组生信分析探究家畜脂肪沉积机制
转录组是指特定物种特定组织或细胞转录的所有RNA 集合,比较不同组织及同一组织不同时期RNA 表达量,可反映生物个体在某一特定生长发育阶段的特定细胞、组织或器官所有基因的转录表达水平,揭示基因表达的时空动态性,分离与性状相关的基因。在转录组水平上通过生信分析方法对家畜脂肪沉积相关基因表达调控规律进行研究,能在基因组水平研究的基础上进一步探究家畜脂肪沉积的相关机制。近年来发展出了单细胞测序分析、空间转录组测序分析,以及三项被《Nature》评选为2021 年值得特别关注的生信分析技术(High-throughput Chromosome Conformation Capture,Hi-C;Cleavage Under Targets and Tagmentation,CUT&Tag;Simultaneous High-throughput ATAC and RNA Expression with Sequencing,SHARE-seq),这些生信分析技术为转录组水平探究成脂相关细胞的类型、功能、分化机制,提供了新的技术支持或研究思路。
2.1 单细胞测序解析家畜脂肪细胞的异质性 针对家畜脂肪沉积这类复杂生物学过程的机制,通常需要在活体、组织和细胞水平上进行研究。在细胞水平上,即使同一个体同种类型的细胞在相同环境下,也可能出现基因和蛋白质表达水平的差异,从而导致细胞的异质性。单细胞RNA 测序(scRNA-seq)分析相较于传统的RNA-seq 分析能获取和解析动物组织中单个细胞的转录组信息,避免了传统RNA-seq 只能获得组织中多细胞水平上均一化后的RNA 表达信息的问题,能够反映同一块脂肪组织中不同细胞的基因表达状况,从而为解决脂肪细胞具有异质性的问题提供了有效途径,这对于阐明不同亚细胞群在家畜脂肪沉积过程中的作用至关重要。相较于单细胞测序,单细胞核转录组测序(snRNA-seq),具有一些特点:能够使用冻存样品分析,能避免解离细胞时诱导基因表达,但不能检测细胞质的基因表达量。在解析家畜脂肪细胞异质性的研究中,需要根据实验目的、样品准备情况等,选择合理的技术方案,也可以考虑将scRNA-seq 与snRNA-seq 结合,获得更全面的研究数据。
Li 等通过scRNA-seq 分析确定了和基因为鸡肌内脂肪细胞的生物标志物;Qiu 等联合运用scRNA-seq 分析与蛋白质组学关联分析技术研究了瘦肉型猪和肥胖型猪的细胞谱系,发现Ca的调节在2 种来源的肌细胞之间有显著差异,肌细胞比例较高和分化能力较强是瘦肉型猪肌源性分化能力较高、肌内脂肪沉积含量较低的主要原因。张悫利用scRNA-seq 鉴定了猪皮下和肌内前体脂肪细胞的亚群,并发现两处组织都含有一种特异表达基因的多能干细胞,其可能来源于猪皮下脂肪组织的循环祖细胞,可浸入至骨骼肌内参与肌内脂肪的形成。目前运用单细胞测序分析进行的家畜脂肪沉积相关研究较少,在人和鼠的脂肪细胞研究上较多,这些研究能为单细胞测序在家畜脂肪沉积研究中的应用提供借鉴。如Vijay 等对肥胖人体的组织标本进行scRNA-seq 分析,发现内脏和皮下的脂肪组织间存在细胞组成差异,内脏脂肪组织含有一类特殊的脂肪细胞祖细胞;Sun 等在小鼠和人中使用snRNA-seq 分析来探究脂肪细胞的异质性,并在小鼠体内发现了一种在高温下丰度增加的罕见脂肪细胞亚群。
上述研究表明,单细胞测序分析能够解决人及动物脂肪细胞具有异质性的问题,有助于明确家畜脂肪和肌肉中不同细胞的类型、功能和相互作用。目前,还未见利用单细胞测序在不同猪品种,或牛、羊等其他家畜上进行脂肪沉积相关研究的报道。因此,利用单细胞测序分析对皮下脂肪或肌内脂肪含量有显著差异的品种或物种的脂肪细胞类型进行对比研究,有可能在细胞水平上进一步揭示家畜脂肪沉积机制。此外,传统的单细胞测序需要先通过流式细胞分离技术分离出单个细胞再单独建测序文库,通量很低难以广泛运用,而近年来基于标签(Barcode)的单细胞鉴别,可以通过一次建库测得数百上千个单细胞的信息,解决了检测效率低的问题。但细胞在组织中是呈三维排布的,细胞间也存在相互通讯的机制,如何保留空间信息以及整合细胞间相互作用信息,是单细胞测序分析所面临的挑战。
2.2 空间转录组技术揭示家畜脂肪沉积相关细胞相互作用的应用前景 单细胞测序技术虽然能够解决细胞异质性问题,获得单个细胞的基因表达信息,却由于需要将样本制备成细胞悬液导致细胞间的空间位置信息和相互作用信息丢失,而近年来空间转录组技术(Spatial Transcriptomics)的应用推动了不同空间位置的单细胞基因表达调控的研究,这为深入解析含多种细胞类型组织的生长发育机制和细胞间相互作用提供了一种新的解决方案。
Moncada 等联合运用空间转录组技术和单细胞测序技术,对胰腺肿瘤组织进行分析,不仅对组织中不同细胞类型进行了识别和定位,还利用其基因表达信息将细胞间的状态关系进行了细分,根据数据分析结果预测癌细胞状态和成纤维细胞亚型之间存在相互作用,并进行了实验验证;Maynard 等对人脑组织也采取空间转录组联合单细胞测序方案,并将分析结果与已知基因关联,进而解释了不同脑组织与其功能的联系。这些研究表明,利用空间转录组技术和单细胞测序技术联合分析可以探究同一组织中不同细胞在功能上的联系,揭示复杂组织的细胞间相互作用。目前,利用这种分析方法研究家畜皮下脂肪沉积或肌内脂肪沉积机制尚未见报道,但Bäckdahl 等运用空间转录组技术和单细胞测序技术联合分析的方案,发现人类白色脂肪组织的细胞可分为18 种类型,这些细胞的空间分布不同,并对其中的3 种细胞进行验证,发现它们各自的基因表达谱和对胰岛素的敏感性不同,这项研究为联合利用空间转录组技术和单细胞测序技术探究家畜脂肪组织的细胞异质性和细胞间相互作用提供了参考依据。目前国内公司能够提供动物肌肉组织的空间转录组测序方案,这为进一步研究家畜肌内脂肪沉积机制中肌纤维细胞、肌卫星细胞及脂肪细胞间的相互作用提供了技术支持。
因此利用空间转录组技术和单细胞测序技术联合分析的生信分析方法,对家畜皮下脂肪组织、肌肉组织进行研究,同时保留这些组织中所有细胞的空间位置信息和基因表达信息,不仅能够弥补单细胞测序的技术缺陷,还有可能进一步揭示不同细胞间的相互作用,完善家畜脂肪组织和肌肉组织中,不同类型细胞在脂肪沉积过程中发挥作用的机制,有助于解析家畜脂肪沉积规律,实现提高肌内脂肪含量改善肉质的家畜遗传改良。
2.3 生信分析方法挖掘家畜脂肪沉积相关转录调控元件生物的性状并不完全是由DNA 序列决定,在转录水平还有一些调控因子会对基因表达产生影响,使细胞中的基因表达在时间和空间上处于有序状态,并对环境条件的变化作出反应。而多种生信分析方法可以筛选出与目标基因表达相关的调控因子或转录调控元件,为实验研究家畜脂肪沉积的在转录水平调控机制提供指导方向。
表达数量性状基因座(Expression Quantitative Trait Loci,eQTL)分析是研究遗传突变与基因表达量之间的相关性,从而定位染色体上一些能特定调控mRNA和蛋白质表达水平区域的生信分析方法。Cesar 等通过eQTL 分析筛选与牛肌内脂肪含量性状相关的候选基因调控区和转录因子。Criado-Mesas 等通过eQTL分析发现1 个基因的SNP 位点对该基因表达调节起重要作用,从而影响猪的肌肉生长和脂肪沉积。这些eQTL 分析只是将基因调控区或转录因子与基因表达情况做相关分析,寻找有可能调控目标基因的候选基因区域或调控因子。然而基因的表达还与染色质开放性、转录因子在DNA 序列上的结合等因素密切相关,因此需要更多的技术和生信分析方法来筛选家畜脂肪沉积相关调控因子。近年来出现了通过ATAC-seq、CHIP-seq 和RNA-seq 联合分析,证明基因转录表达的差异是由转录起始的某些调控因子所引起的方案,并有研究者利用该方案探究了一些调控因子在猪脂肪沉积中所发挥的作用,如候晔利用miRNA-seq 获得猪成肌细胞诱导转分化为脂肪细胞过程中差异表达的microRNA 数据,组蛋白H3K4me3 和H3K27ac 进行ChIP-seq 鉴定出的启动子和增强子数据,以及ATAC-seq 鉴定的染色质开放区域数据,进行联合分析,验证和分析了一些猪骨骼肌和脂肪组织中差异表达的microRNA 在成肌细胞转分化为脂肪细胞过程中的调控机理。近年来人们也逐渐意识到基因组三维构象对基因表达调控的影响,而这一重大发现离不开Hi-C 技术的贡献,这是一种将染色质三维空间上所有位点间的相互作用转变成能被PCR 检测的线性结构的技术。Pan 等利用Hi-C 技术研究了人脂肪细胞中基因启动子和远端元件之间的相互作用。
值得关注的是,Buenrostro 等开发了一种同时进行ATAC-seq 和RNA-seq 的方法(SHARE-seq),该方法不仅解决了传统RNA-seq 和ATAC 技术联合运用时只能将1 份样本分成2 份再分别扩增DNA 或RNA 而带来的信息丢失问题,实现了在单细胞中同时高质量、高通量地检测基因表达和染色质可及性,还可以利用染色质开放性预测细胞轨迹和最终状态,并且作者认为利用这种方法获得基因表达信息结合拟时序分析后,相较于Peter 基于单细胞RNA 测序分析的RNA velocity 法,在细胞分化期间能在更长时间尺度上更准确地预测细胞命运。目前还未见利用该方法进行其它研究的报道,但这项技术可能为研究脂肪细胞的起源与分化潜力提供技术支持。如果能合理将SHARE-seq 与eQTL、CHIPseq、Hi-C 等研究基因表达调控的生信分析技术结合,研究家畜脂肪组织和肌肉组织中的前体脂肪细胞、间充质祖细胞、肌肉干细胞等多种祖细胞,就可能为这些细胞谱系的追踪提供便利,或是进一步阐释细胞状态转换的潜在机制,从而有可能在细胞成脂分化和成肌分化机制的研究中做出新的突破,为抑制家畜皮下白色脂肪细胞生成,促进家畜肌内脂肪生成的遗传改良提供理论支持。
3 蛋白质组生信分析鉴定家畜脂肪沉积相关蛋白
上述基因组和转录组水平的研究,虽然能通过研究基因及转录因子的作用机制,解析家畜脂肪沉积的部分生物过程,但生物功能的实现最终还是要依靠蛋白质,一些蛋白在家畜脂肪沉积过程中发挥着重要作用。例如调控脂解的Perilipin 蛋白,脂肪分化相关的ADRP蛋白等,因此在蛋白质组水平研究家畜脂肪沉积规律也是有必要进行的。随着生物信息学的发展,出现了一些利用生物信息学方法在蛋白质组水平解析生物过程的研究。
目前,生物信息学在蛋白质组学中的应用,主要体现在利用蛋白质数据库结合质谱技术鉴定蛋白质,预测和分析蛋白质的功能及其相互作用。Peng 等首先利用MALDI-TOF MS 飞行质谱技术结合UniprotKB蛋白质数据库分析出差异表达的蛋白质,再利用Go 和KEGG 数据库进行差异蛋白的富集分析和功能注释,分析出了一些与鸡脂质代谢有关的蛋白质,还用IPA 软件得到了相关蛋白的互作网络。Han 等采用label-free LC-MS/MS 质谱比较不同尾型绵羊尾部蛋白的表达量,后续分析流程与Peng 等类似,但采用了Ensembl 蛋白数据库和g:Profiler 富集分析网站,最终鉴定了一些与绵羊肥尾性状相关的蛋白标志物。由此可见,蛋白质数据库的完善和数据分析的准确性对蛋白质组研究至关重要。随着各种蛋白数据库及大数据处理技术的不断完善,不但家畜脂肪沉积相关蛋白质的鉴定和功能分析将更加准确,而且基于大数据的数据匹配和算法,能够对蛋白质的结构、功能和相互作用进行预测。Jumper 等开发的基于机器学习的人工神经网络模型AlphaFold2能够在原子级别的精度预测蛋白质结构,如果能进一步开发这一技术并将其运用到畜牧研究领域,将对家畜脂肪沉积相关蛋白的功能验证实验有重大的指导意义。
4 多组学联合分析在家畜脂肪沉积研究中的应用
单一组学分析方法可以提供同一个体不同时期,或不同个体间差异的生物信息,但各个组学水平的分子机制并不能反映整个生物体的实际情况。因此在上述各组学水平的分析基础上,对多个组学数据整合分析是近期热门的家畜脂肪沉积研究思路。Khanal 等通过基因组学和微生物组学的联合分析,发现在评估猪脂肪沉积相关性状的遗传力时,整合肠道微生物组信息使脂肪沉积相关性状与基因组信息的相关性下降了20%。Bergamaschi 等将猪基因组上的SNP 与微生物组学分析后获得的与猪脂肪沉积相关的肠道微生物菌群特征关联,进行全基因组关联分析,发现猪基因组上存在与这些肠道微生物菌群显著相关的SNP 和基因区域。这两项研究揭示了有可能存在宿主基因组与肠道微生物的相互作用从而影响家畜脂肪沉积,而这种作用机制是家畜脂肪沉积研究领域尚未涉及和明确的研究方向。Zhan等研究不同湖北恩施黑猪群体肌内脂肪含量差异的分子机制时,用转录组学分析找出差异表达的基因,用代谢组学分析找出差异的代谢物,将二者数据进行相关分析,发现等基因与花生酸、甘油三酯等脂肪相关代谢物显著相关。Zhou 等对背最长肌肌内脂肪含量有差异的硒都黑猪进行蛋白质组和脂质组的生信分析,发现存在差异蛋白和脂质组分,并且一些蛋白质和脂质存在相关性,这项研究为猪肌内脂肪沉积的分子机制研究提供了更可靠的候选蛋白和脂质组分。Wang 等则是对背最长肌肌内脂肪含量有差异的南阳黑猪运用转录组与蛋白质组联合分析方案,从2个组学数据中寻找交集基因作为决定其肌内脂肪含量的候选基因。
这些研究整合多个组学水平的信息进行生信分析,相较于单个组学的生信分析具有许多优势。整合多组学数据,分析家畜脂肪沉积这一生物过程中候选因子在不同层面的变化,有助于更精确地挖掘出脂肪沉积相关的关键基因或因子。不同组学水平分析结果的相关性,为进一步实验研究各个分子之间的因果关系,以及这些分子对家畜脂肪沉积的调控作用,提供更多参考依据。此外,从多个组学的角度解释家畜脂肪沉积机制,符合生物系统的复杂性,能更深入地认识控制家畜脂肪沉积这一复杂性状的分子机理和遗传基础。但目前在家畜脂肪沉积研究领域,运用多组学联合分析的研究较少,整合2 个以上组学信息探究家畜脂肪沉积分子机制的研究还有待完善。由于多组学联合分析相较于单一组学分析,数据量更大、数据关系更复杂、结果出现假阳性的可能性更高,机器学习的朴素贝叶斯、随机森林、Boosting、人工神经网络等相关算法,可能更适用于处理多组学联合分析的数据,从而提高分析的准确性和速度。图1 总结了运用多组学生信分析方法,探究家畜脂肪沉积分子机制及应用于家畜脂肪沉积相关生产问题的模式。
图1 运用多组学生信分析探究家畜脂肪沉积分子机制及应用模式图
5 展 望
综上所述,基因组、转录组、蛋白质组和多组学联合分析中所使用的以生物信息学和先进技术为基础的分析方案,为家畜脂肪沉积的相关研究提供了新的技术支持或思路,促进了家畜脂肪沉积研究领域的发展。然而,各个组学水平的分子机制并不能代表整个生物体的实际情况,要站在系统生物学的角度看待问题,运用多组学联合分析将各个水平的数据整合为一个类似于生物复杂调控网络的模型,从更高维度解析家畜脂肪沉积的某一生物过程,才符合生物系统的复杂性,进而做出更全面更准确的机制解释。因此运用生物信息学的方法建立基因表达网络、代谢网络、蛋白互作网络等生物网络,并整合多组学数据,系统分析家畜脂肪沉积规律的研究还有待完善。此外,机器学习是近年来发展迅速的一门新兴学科,其主要研究如何让计算机模拟人类的学习行为,自动从大量数据中获取新的知识,并不断改善自身的性能。目前机器学习正逐渐在各行各业中应用,如果能将机器学习的深度学习算法与现有表型测量技术结合,开发出更精准、更简便的表型测量方法,将有利于肌内脂肪含量等表型数据的收集,为家畜脂肪沉积研究中表型组学和分子机制的理论研究,提供更好的表型数据支持。最后,随着生物数据库和生物学理论的不断完善,生物学的发展正朝着类似于物理学那样由实验研究到理论研究再到理论指导实验的方向前进,而生物信息学基于大数据分析所发挥的预测作用,使生物信息学成为了连接理论研究与理论指导实验这两个过程的桥梁。未来更多的研究或将转向先运用生物信息学对某一分子功能或生物过程进行预测,再通过实验进行验证的方式,这种研究方式会让家畜脂肪沉积机制的研究更加高效,从而为改善家畜肉质,减少家畜生长过程中不必要的脂肪沉积造成的饲料浪费,甚至是人类医学治疗肥胖,提供更多理论支持。