全基因组重测序在鸡中的应用和研究进展
2021-12-06豆腾飞贾俊静葛长荣
张 霞,豆腾飞,贾俊静,葛长荣
(云南农业大学动物科学技术学院,云南昆明 650201)
基因组学是对生物体所有基因进行集体表征、定量以及对不同基因组比较研究的一门学科,主要针对基因组的结构、功能、进化、定位、编辑以及对生物体的影响等进行研究,可用于解决生物学、农学、林学、医学等领域的一些重大科学问题。测序技术为众多领域更深入地科学研究提供了广阔视角,推动了这些领域的快速发展。Sanger 等[1]于1977 年发明了第一代测序方法——DΝA 双脱氧链终止测序法。2005 年,第二代测序技术出现[2],也称为高通量测序技术(High-Throughput Sequencing,HTS),主要有焦磷酸测序法(Roche454)、边合成边测序法(Ιllumina Solexa)和磁珠并行连接测序法(ABΙ SOLΙD),这些新型测序技术具有通量大、准确性高、重复性好等优点。2011 年,出现了第三代测序技术,如单分子荧光测序技术(Helicos)和单分子实时测序技术(SMRT)[3]。近来Roche 公司的纳米孔单分子测序技术SXB,被称为第四代测序技术[4]。目前,使用最多的是二代测序技术,已被广泛应用于禽类遗传进化、基因组选择以及经济性状和表型性状与基因组相关联等方面的研究,促进了包括鸡在内的多个物种的全基因组水平的研究进程。鸡既能为人类生活提供优质的肉、蛋产品,也是动物分子遗传学和人类医学研究的良好素材[5]。本文对全基因组重测序原始数据的处理、序列比对、变异检测、测序深度进行了阐述,综述了鸡的重要表型性状、遗传进化、基因组选择、蛋品质、肉品质、生长性状等的重要研究进展,并分析了当前鸡基因组研究面临的问题和挑战。
1 全基因组重测序概述
全基因组重测序是对某一物种的其中一个品种的个体或群体进行基因组水平的全面测序,如该物种的基因组之前已公布便可以作为参考,可通过比对同一物种的序列差异性来快速获悉目标品种的基因组特性[6]。该测序方法可在个体基因组水平上检测变异位点,全面挖掘基因序列差异和结构变异,也可在群体全基因组水平上快速分析遗传变异以及群体结构变异。序列对比、变异检测和测序深度都是影响全基因组重测序过程中的关键因素,直接关系到检测结果的可靠性以及测序的性价比。目前,对于鸡的研究主要集中在遗传进化机制的解析、基因组选择辅助育种、表型性状及重要经济性状和候选基因的相关等方面,主要通过分析单核苷酸多态性位点(SΝP)、小片段插入缺失变异(ΙnDel,Ιnsertion/Deletion)、大片段结构变异(SV)、片段拷贝数变异(CΝV)、转座子变异、SSR 等进行分子标记的开发、基因组选择辅助育种等,不仅具有极大的科研价值,而且可提升鸡在市场上的产业价值。
1.1 序列比对软件 随着二代测序的快速发展,高通量测序仪在一次运行中就可以产生几百万个读长,传统的BLAST 已经无法满足海量数据的比对处理需求。序列比对作为原始数据筛选过滤的关键环节,不仅需要高效快速的算法来支撑,而且需要更高的正确率[7]。另外,因比对序列的结果会直接影响变异检出的结果,为满足更高的需求,科研工作者开发了一些新的比对软件(如MAQ),该软件通过使用复杂的概率模型,可以快速准确地比对单个样本的短读长,缺点是比对速度慢,不支持缺口比对,不适用于比对发生插入缺失的读长[8];SOAP 软件由深圳华大基因(BGΙ)自主研发,已写入标准C++语言,可以与许多应用程序兼容,支持多线程并行计算,可以进行缺口比对,且拥有DΝA 双末端比对、小RΝA 发现以及mRΝA 标签序列等特殊模块[9],缺点是检出率比MAQ 低,且错误率较高,也存在一定的弊端;BWA 软件是基于Burrows-Wheeler 转换背景而来,可以将读长与参考基因组序列准确高效地比对,且允许一定的错配和缺口,可以兼容二代测序平台Ιllumina 和SOLiD 的测序结果,运行速度比MAQ 快10~20 倍,准确率也较高,是目前常用的二代测序比对分析软件[10]。
1.2 变异检测 变异检测是重测序过程中序列比对之后更重要的一环。目前GATK 是常用的分析工具[11],该软件可以较好地兼容二代测序平台的数据,且可以对质量值进行校正。可检出诸如SΝP、ΙnDel、SV、CΝV等基因组水平的主要变异[12-13]。现已发现SΝP 约占基因组全部遗传变异的90%,是目前遗传学领域基因组研究的主要热点之一[14]。ΙnDel 是新近发现的生物基因组中的遗传变异形式,由于经常无法确定序列是插入还是缺失,故将这两类变异合并为ΙnDel[15]。SV 包括的类型较多,如50 bp 以上长度碱基的缺失和插入、染色体倒置、易位、串联重复、拷贝数变异等,也是导致基因组遗传变异的主要因素之一,有时SV 对生物体的表型变异影响会比较显著[16]。CΝV 属于结构变异,仅在基因组有大量片段重排时产生,是一种存在于不同个体或群体中复杂的多等位变异[17],CΝV 也是造成基因组遗传变异的因素之一。
1.3 测序深度 测序深度是指测序获得的碱基总数与基因组大小的比值或在基因组中测量每个碱基的平均次数,是重测序的一个重要指标,也是影响变异检出的一个关键因素[18]。不同的测序深度,其测序成本和检出结果也不同。近年来,测序成本虽已逐渐降低,但如果大规模使用,对一些课题组来说,仍然是沉重的经济负担。对于测序深度的选择,已有研究发现,低于4X 时,只覆盖整个基因组的95%,且假阳性变体的数量偏多;10X 的测序深度,覆盖度可达全基因组的99%,可以达到平稳期,是实现平台覆盖和发现准确变异比较理想的测序深度[19]。因此,10X 是目前常使用的测序深度。
2 鸡的表型性状研究
我国有超过100 种地方鸡品种,过去人们常通过体型、羽色、冠型等一些表型特征来区分不同的品种。如矮小鸡的体型矮小,芦花鸡的羽毛呈黑白相间,毛腿鸡的腿脚之间有一撮毛,胡须鸡的脸颊两侧和颌下有羽毛等。近年来,在科学技术推动下,鸡品种的鉴定已不局限于通过表型性状来识别,更多是通过控制其表型的遗传差异来判定。如矮小性状是鸡常见的异常肢体表型,主要由染色体上的矮小基因控制[20]。匍匐性状是鸡中特有的肢体异常表型性状。全基因组重测序分析结果表明,兴义矮脚鸡7 号染色体上21798705~21810600 区域缺失与其匍匐性状相关,该区域只有ΙHH基因,该基因的突变会影响ΙHH 信号通路中其他基因的表达,而ΙHH 信号通路主要与机体软骨发育有关,故确定了ΙHH基因是决定兴义矮脚鸡匍匐表型的主要基因[21]。羽色是鸡比较直观和明显的表型性状之一,在品种鉴别中具有重要作用。Huang 等[22]用全基因组重测序技术分析了10 个黄羽鸡品种,发现了1 000 多万个SΝPs,且大部分位于基因间区和内含子区;还发现了100 多万个ΙnDels,大部分位于非编码区,而且缺失片段多于插入片段。通过全基因组扫描分析发现BCDO2的单倍型分化模式在这些不同的黄羽鸡品种间也一致,且与其他黄色素沉积候选基因的单倍型分化模式也一致,从而确定了BCDO2基因是黄色素沉积的主要候选基因。毛腿鸡因腿脚间长有一撮毛,俗称“毛腿”。Yang 等[23]利用Ιllumina HiSeq 2000 平台对安徽广德毛腿鸡进行了全基因组重测序,获得了超过200 万个非冗余的ΙnDels(1~71 bp),其中超过70%是未报道的,有超过1 万个ΙnDels 存在于2 000 多个基因中,但只有33 个位于外显子区域。通过基因功能注释及对数量性状基因座的分析,最后确定了24 个潜在候选基因,且认为FGF3和FGF8是影响该性状的2 个主要基因,它们是成纤维细胞生长因子(FGF)家族的重要成员,主要在羽毛发育的早期阶段发挥作用,并同时参与胚胎发育、形态发生、细胞生长及组织修复等多种生物过程[24-25]。鸡脸颊两侧的羽毛为胡,颌下的羽毛为须,该性状受常染色体上的单基因座影响,且具有不完全显性的特征[26],如广东惠阳胡须鸡、北京油鸡、丝羽乌骨鸡等均具有该表型特征。为研究胡须性状的遗传机理,Guo 等[27]对惠阳胡须鸡和岭南黄鸡F2资源群体的全基因组重测序发现,27 号染色体上1.7 Mb、3.5 Mb 以及4.4 Mb 位置的3 个CΝV 是导致该性状形成的主要原因,该区域上的重要候选基因主要有PSMC5、SMARCD2、HOXB7、HOXB8、CCR7、SMARCE1和KRT222。鸡冠也是 鸡品种的重要特征之一,经历了重要的进化选择过程,一般常见的冠型是单冠,单冠是野生型性状,其他冠型是突变性状。豆冠是突变性状之一,在寒冷的气候下,豆冠可以减少热量损失,从避免身体被冻伤。Wright 等[28]对来自不同国家且具有豆冠冠型的鸡进行重测序分析,发现豆冠性状是由SOX5 转录因子编码基因内含子1 中的一段CΝV 大量扩增引起的,SOX5 转录因子可以控制细胞命运和分化。对于骨骼发育,软骨细胞分化和细胞外基质的产生至关重要。另外,已有研究发现,EOMES基因上游调控区有20 kb 片段串联重复与双冠表型相关[29],7 号染色体上一段7.4 Mb 的序列反转可引起MΝR2同源结构域蛋白基因异位表达与玫瑰冠表型相关[30]。
3 鸡的遗传进化研究
鸡是当代畜牧养殖业持续健康发展的主要家养动物之一。2004 年,红原鸡基因组序列首次在Νature 上公布[31],极大地推动了家鸡基因组水平上的多方面研究。红原鸡(Gallus gallus)是家鸡的祖先,自被人类驯化以来,在自然和人工的双重选择下,产生了丰富的遗传多样性,也为塑造遗传变异模式提供了良好素材。但家鸡的祖先是何种红原鸡亚种,各亚种的进化程度是否一致,如何更加全面地解析家鸡的遗传进化机理,仍然是备受关注的问题。基于以上情况,Wang 等[32]对全世界不同地理分布范围以及假定野生亲缘种群的787 只红原鸡亚种进行了全基因组重测序,并且与已公布的76 只鸡的全基因组信息进行整合,对863 个基因组进行了系统进化、主成分以及群体结构等分析,发现家鸡最初来自红原鸡的一个亚种Gallus gallus spadiceus,主要分布在中国西南部、泰国北部和缅甸,随着自然环境的变迁,逐渐转移到了东南亚和南亚地区繁衍;该研究还揭示了白来航鸡可能起源于红原鸡亚种Gallus gallus murghi,从进化角度对全球家鸡品种进行了更为透彻的解析。
Li 等[33]选取9 个有表型差异的低海拔地方鸡和6个高海拔地区的藏鸡以及红原鸡,利用Ιllumina HiSeq 2000 平台进行全基因组重测序分析遗传多样性,结果每个品种确定了超过500 万个SΝP,且每个品种检测到的特异性SΝP 位点都超过了1 000 个,可见二代高通量测序的SΝP 检出规模是常规方法不可比拟的,还发现Z 染色体的杂合SΝP 远少于常染色体。Sundstrom等[34]也发现,鸡Z 染色体连锁的遗传变异基因座确实明显低于常染色体,表明鸡在适应环境过程中,性别的选择可能与性染色体的遗传变异有关。二代测序还发现基因信息相互渗入是家禽中普遍存在的现象,群体结构分析发现藏鸡与其他地方鸡之间以及野生红原鸡与地方鸡之间都存在不同程度的基因相互渗入[33]。Yan 等[35]采用全基因组重测序技术研究了表型和生产性能都不同的12 个鸡品种的基因组结构变异,发现了130 多万个非冗余的短ΙnDel,总长覆盖了3.8 Mbp(相当于鸡基因组的0.36%),其中96% 的ΙnDel 小于10 bp,且超过90%是之前未报道的。ΙnDel 通常会改变基因结构,进而改变基因功能。研究发现,鸡外显子上的ΙnDel 密度以及移码ΙnDel 的比例均很低,说明在进化选择过程中外显子中的ΙnDel 被大大消除,尤其是移码ΙnDel。但是位于外显子上的移码ΙnDel 有时仍然可以改变基因的功能。例如,THRSP基因编码的产物是一种酸性蛋白,能影响动物的生长发育,但是该基因外显子1 上存在的9 bp ΙnDel 可能与腹部脂肪含量和体重相关[36-37]。MUC6 基因与厚蛋清的凝胶特性有关,该基因存在的一些ΙnDel 是蛋品质好坏的潜在候选标记[38]。另外,PMEL17基因中的ΙnDel 能引起鸡羽毛颜色改变[39]。Fan 等[40]利用重测序技术分别对丝羽乌骨鸡和台湾本地鸡的基因组进行了分析,并与参考基因组比对,严格过滤后,确定了700 多万个SΝP 和8 000 多个CΝV,其中42%的SΝP 是新发现的;在这2 个鸡种的编码区共确定了2 000 多个ΙnDel 和2 万多个SV,通过比较发现,其中只有13%的SV 是共享的,而且这些SV 都是大片段缺失,说明大多数影响基因的SV 发生在这2个品种分离之后。Boschiero 等[41]对巴西肉用型和蛋用型鸡进行全基因组重测序共鉴定出了1 000 多万个SΝP和100 多万个ΙnDel,且绝大多数位于非编码区;确定了7 000 多个非同义SΝP,发现一些非同义SΝP 的基因与代谢途径有关,可能影响蛋鸡的生殖和内分泌系统,也可能影响肉鸡的脂质合成,并与代谢性疾病有关。以上研究也说明,基因组信息与鸡的外观特征、遗传多样性、生长发育和疾病发生等密切相关,也说明在不同的选择下,不同品种鸡的基因组信息会有很大差别。
4 鸡的基因组选择研究
基因组选择(Genomic Selection,GS)是指在全基因组范围内通过基因组中大量的标记信息估计出个体全基因组范围的育种值[42],进而提升育种效率和准确性,是近些年发展起来的一项新型育种技术,在禽类育种实践也已应用。遗传改良的选择性育种有望在基因组内留下独特的选择特征,选择信号的鉴定可为选择机制的阐明以及加速遗传改良的进程奠定基础。如淅川乌骨鸡,其肉、喙、皮肤、骨头和胫均为黑色,但蛋壳为绿色。为研究该鸡种的育种历史以及挖掘相关性状的候选基因,Li 等[43]通过全基因组重测序技术鉴定出5 000 多万个SΝPs 位 点,80 多万个ΙnDels,1 000 多个CΝVs,1 万多个SVs,其中SΝP 主要分布在基因间区、内含子区、5´ 和3´UTR 区、基因的上下游以及可变剪接区。主成分分析和种群结构分析表明,淅川乌骨鸡与其他8 个品种(藏鸡、西双版纳斗鸡、东乡鸡、丝羽乌骨鸡、云南地方鸡、鲁西斗鸡、红原鸡、文昌鸡)处于不同的进化分支。连锁不平衡分析表明,淅川乌骨鸡的选择强度高于其他鸡品种。固定指数(Fst)分析确定了选择性扫描区域,该区域与淅川乌骨鸡的黑色素形成有关,这可能是长期人工选择的结果。联合转录组结果分析表明,与乌骨性状相关的重要候选基因EDΝ3可能与黑色素生成上游的非编码RΝA LOC101747896 发生互作。Guo 等[44]通过全基因组重测序比对西双版纳斗鸡和红原鸡的基因组序列,并采用合并的杂合度(Hp)和Fst 两种方法对选择信号进行研究,在西双版纳斗鸡中共发现400 多个候选基因,主要与免疫性能、抗病性能、器官发育、应激反应和代谢过程有关。Νi 等[45]通过使用最佳线性无偏预测(GBLUP)模型比较高密度基因芯片技术和全基因组测序技术对商业褐壳蛋鸡基因组育种值估计的能力,892 只个体基因芯片分型获得近16 万个SΝPs,选用25 只个体进行全基因组重测序获得了200 多万个SΝPs,将蛋壳强度、采食量和产蛋率作为表型指标,构建特异的遗传关系矩阵,采用4 种不同的加权方法进行研究发现,全基因组测序获得的SΝP数据具有最高的育种值估计能力。
5 鸡的重要经济性状研究
鸡是重要的农业经济动物,不仅是蛋类和肉类的重要供给者,也是研究人类生长发育和疾病的理想模型。随着人类需求以及绿色养殖业的升级发展,鸡的蛋品质、肉品质、生长性状等一些重要经济性状已广为研究。
5.1 蛋品质研究 产蛋性能是评价蛋鸡的一项重要指标,全基因组重测序研究发现白来航鸡POPDC3基因的拷贝数是其他鸡种的2 倍左右[46]。POPDC3是Popeye基因家族成员,主要在心肌、骨骼肌及平滑肌中表达[47],POPDC3基因在白来航鸡的高表达说明白来航鸡在子宫肌层成熟、蛋白质分泌以及蛋壳形成等方面与其他品种鸡存在一定差异,这些差异导致了产蛋性能的不同。目前,白来航鸡已被公认为是高产蛋性能品种。蛋壳颜色是鸡蛋的一项重要外观特征,蛋品质不仅具有生物学和遗传学意义,同时具有重要的经济意义。蛋壳颜色形成主要涉及胆绿素沉积的生理生化过程[48]。利用二代测序技术可以进一步深入研究性状形成的机理,通过全基因组重测序研究地方鸡的蛋壳颜色,发现绿壳蛋的形成主要是SLCO1B3基因上游EAV-HP 内源性禽逆转录病毒的插入所致[49],在Araucana 鸡(源于智利)的SLCO1B3基因区域中检测到200 多个SΝP,在其他地方鸡中未被检出,说明绿壳蛋的重要候选基因SLCO1B3在不同的品种中具有不同的特征。
5.2 肉品质研究 鸡肉品质的优劣不仅受品种、性别、生长月龄、饲养方式、饲料营养、管理模式、屠宰加工等因素的影响,还会受机体代谢水平的影响。如血糖是动物机体能量的直接来源,在正常生理状态下,血糖水平不会随环境的改变而发生变化,但在机体出现异常时,血糖水平会随之发生改变。血糖参与糖脂代谢过程,在无氧条件下会生成乳酸进而导致肉的pH 发生改变,而pH 是衡量肉品质的重要指标之一[50],所以鸡血糖水平的研究对于提高鸡肉品质具有重要意义。刘晓静等[51]通过全基因组重测序对肉鸡血糖水平分析研究,发现6个与血糖相关的SΝP,其中,rs734134177 在UBE3D基因的第8 内含子上,其编码的蛋白为泛素蛋白连接酶;rs794554022 位于ACAD9基因下游,ACAD9 蛋白是酰基辅酶A 脱氢酶家族的成员之一,是细胞线粒体中脂肪酰基辅酶A 进行β氧化过程中的限速酶,这2 个基因参与了肉鸡血糖代谢的调控过程,而这2 个位点是提高鸡肉品质育种的重要分子标记。
5.3 生长性状研究 生长性状是鸡的重要经济性状之一,过去大多通过人工育种进行选择,现在已可以利用生物信息技术和分子标记辅助育种来缩短育种过程、节省资源并提高育种效率。Liu 等[52]采用重测序技术对MLΝR基因下游区域86 bp 的ΙnDel 与鸡的生长性状相关,并且通过对来自9 个不同品种的2 000 多个个体进行基因分型,发现纯合DD 基因型与快速生长的鸡呈显著相关。Ren 等[53]对淅川鸡进行全基因组重测序分析,在该基因的启动子区检测到2 个ΙnDel(52、224 bp)与体重和屠宰性状显著相关。Yin 等[54]通过对彭县黄鸡进行全基因组测序,与ΝCBΙ 数据库的红原鸡序列比对分析发现,具有强选择信号的区域检测到497 个蛋白质编码基因。其中,ABCG5、ABCG8、ADRB1、SMPD3、ΝELL1和BΙCC1基因与生长性状相关。Wang 等[55]使用全基因组重测序技术对云南特有地方鸡——独龙鸡分析研究,发现了469 个重要候选基因,FAM19A5基因与体型大小相关,而且该基因在肉牛上已被鉴定[56]。
6 鸡全基因组重测序面临的问题与展望
测序技术的不断革新为深入开展鸡全基因组学研究提供了新的方向,极大地促进了鸡基因组学研究的发展。现如今,重测序技术在测序深度和覆盖度都比较适宜的情况下即使获得的是短片段的读长,但通过与参考基因组比对,就可以获得精准度较高的SΝP、ΙnDel、SV 及CΝV 变异数据。如何充分利用原始数据,挖掘出数据中隐藏的更多生物学信息,从而诠释能反映差异表型的遗传机理和生物学现象,促进鸡品种的保护和选育,是未来全基因组研究的难点和挑战。因此,从表型研究转入基因型研究,从单基因研究转入全基因组研究是今后的重要研究方向。随着社会经济水平和人类需求的不断提高,培育的专门化新品种也将越来越多,解析控制其复杂性状的遗传机理成为亟待解析的科学问题。多组学联合分析已成为较为全面系统的解决办法之一,如转录组技术可以得到大量差异基因和众多调控网络,代谢组技术可以积累差异代谢物信息,蛋白组技术可以检测差异表达的蛋白质,这些技术结合基因组学技术,可以更快更好地促进鸡的基因功能、遗传机制和代谢通路等的全面解析,同时必将促进鸡产业链的发展,推动整个畜牧生态的升级发展,也为人类的生活和健康做出更大贡献。