全基因组测序在山羊上的研究进展
2021-10-21字向东
李 恒,字向东
(西南民族大学动物科学国家民委重点实验室,四川成都 610041)
山羊(Capra hircus)是最古老的家养动物之一,起源于扎格罗斯山脉附近(伊朗地区),驯化时间大约是一万年前的新石器时代[1],此时人类生活方式由狩猎转向农耕[2],山羊能为人类提供稳定的肉、奶、毛皮等生活物资,逐渐在经济、文化、宗教上与人类文明建立起密切的关系[3]。随着人类的迁移和商业贸易,山羊迅速传播到世界各地。根据联合国粮农组织统计,全世界有超过579 个山羊品种,山羊存栏量10 亿只,中国和印度的山羊共占世界存栏量的32%。
基因组学是解析生物表型变异和遗传基础的重要学科,可对生物基因序列进行定位与功能分析[4]。全基因组测序是研究该学科的重要手段,主要集中在从头组装测序和重测序2 个方面。其中,重测序手段最为常见,可对已知基因组序列物种的个体或群体进行表型变异分析[5]。为实现早期选择,降低育种成本,加速山羊的改良进程,本文总结了山羊全基因组测序相关理论成果,旨在为后续山羊功能基因组学研究提供基础资料,为山羊分子育种工作提供新视角。
1 从头组装测序
2013 年,Dong 等[6]利用新一代测序、全基因组酶切图谱等技术对云南黑山羊进行深度测序,从头组装了首个山羊参考基因组序列CHIR_1.0,完成基因组的结构和功能注释工作,其中Contig N50 为18 720 bp,Scaffoled N50 为16.3 Mb。2014 年,Du 等[7]利用辐射杂交图谱等数据对CHIR_1.0 进行优化,获得了更准确、更完整的山羊参考基因组 CHIR_2.0(表1)。2015 年,Dong 等[8]又对伊朗野山羊(Capra aegagrus,bezoar)从头组装测序,构建了野山羊的参考基因组,并家养山羊代表品种的重测序数据分析进行比较,发现毛色相关基因ASIP存在拷贝数变异(拷贝数越高,毛色越浅),CACNA1C与HTR3A基因分别在野山羊和家山羊中快速进化,行为变化由警觉到温顺,推测与驯化有关。2017 年,随着三代测序技术的逐渐成熟,BickHart 等[9]结合二代 Illumina、三代 Pacbio 单分子测序、光学图谱BioNano 和Hi-C 等技术对圣克利门蒂山羊进行从头组装,获得了仅含663 个空白序列的高质量山羊基因组精细图谱ARS1。与之前的组装版本CHIR_1.0 和CHIR_2.0 相比,ARS1 完善组装了高度重复的着丝粒和端粒区域,解决了超过1 kb 的重复结构,不仅为山羊的基因组表型分析提供高质量的遗传信息,也为其他物种基因组的装配提供参考。
表1 山羊不同版本的参考基因组比较
2 基因组重测序
2.1 生理特征 山羊的驯化是多起源的[10-11]。驯化后的山羊随着人类活动快速扩散并成功适应不同生态地区,极具地域特色。如生存在炎热沙漠地区的Draa 山羊频繁喘息,为解释这一现象,Benjelloun 等[12]对Black、Draa 和Northern 3 个种群共36 只山羊全基因组扫描分析,在Draa 山羊群体中发现呼吸系统调节和气体交换类别的GO 条目富集,可能与Draa 山羊利用喘气散热有关。西藏绒山羊可在高寒缺氧的恶劣生存环境中生存繁衍,为阐释其表型适应的遗传机制,Song 等[13]对330 只绒山羊外显子进行测序分析,结果表明,EPAS1、PTPRJ、DSG3等心血管系统相关基因可能在高海拔适应性中发挥重要作用。后续针对低海拔和高海拔山羊种群的DSG3基因16 个外显子重测序分析也佐证了这一观点[14]。也有研究发现,CDK2、SOCS2、NOXA1、ENPEP基因也与高海拔适应性密切相关[15]。土著山羊虽生产性能较低,但对当地恶劣的生存环境或特定的疾病具有耐受性。据报道,乌干达本土山羊增强自身免疫能力以抵御非洲热带环境中寄生虫的感染[16];韩国本地山羊群体中发现了抗腰麻痹病基因(CCR3、CLNK、HM13、IGSF10、ROBO1)和抗沙门杆菌及革兰氏阴性菌基因(NTMLBP、BPI)[17-18]。这些遗传标记均是山羊种质保护的重要遗传资源,为山羊品种改良及育种计划提供了重要基础。
2.2 羊绒性状 山羊绒素有软黄金之称,其价值由颜色、长度、细度和产量决定。羊绒颜色是单基因控制的质量性状,但其长度、直径与产量都属于多基因控制的数量性状。因此,探明羊绒性状的遗传机制难度较大。
Wang 等[15]对8 个不同地区的家养山羊品种(太行黑山羊、藏山羊、内蒙古绒山羊、陕北绒山羊、安哥拉山羊、波尔山羊、崂山奶山羊和贵州小山羊)进行表型分析时,鉴定了羊绒性状候选基因LHX2、FGF9与WNT2。Li 等[19]在80 个绒山羊个体中也扫描到FGF5、ROCK1、PRKCD、SGK3等多个羊绒性状的候选基因。绒由山羊的次级毛囊产生,LHX2基因调控毛发产生与再生[20],其循环表达参与山羊次级毛囊的发育[21];FGF9 能够促进毛囊损伤后的再生[22];WNT2参与毛囊的启动[23];ROCK在调节人角质细胞的增殖和终末分化[24-25],这些基因均可能是调控羊绒周期生长的关键基因。白绒因具有极大的可染性被视为最珍贵的羊绒,因此,白色被毛颜色基因MC1R和调节毛发长度的基因FGF5[26]与绒山羊的选择目的(白色和长纤维)一致。Zhang 等[27]实验表明,PRDM6基因可能与羊绒性状有关,但因基因组测序的样本量过小,该基因未得到明确的功能注释。此外,66K SNP 捕获芯片虽在内蒙古绒山羊(二狼山型)群体中筛选出AKT1、ALX4、HK1和NT-34 个绒毛细度性状的候选基因[28]。但目前商业化山羊SNP 芯片均是基于少数几个品种全基因组测序数据设计而成,并不适配所有山羊品种。因此,全基因组测序研究的不断深入有利于商业化SNP 芯片的设计,从而提高山羊性状全基因组关联分析结果的准确性。
为加速高产绒山羊品种选育进程,吴海青等[29]在同一群体中选择高产绒量(>1 000 g)和低产绒量(<480 g)的母羊各3 只进行基因组重测序,选择性消除分析高产组和低产组的全基因组数据发现,CUL1、FBXL3、YY1和EZH2基因参与调控绒山羊次级毛囊发育的重要信号通路。
羊绒品质直接受遗传因素影响,不同品种的羊绒品质差异极显著[30]。除遗传因素调控外,环境和营养对羊绒的品质和产量影响显著[31-32]。上述研究加深了人们对羊绒性状的了解,但并未完全解析羊绒性状的遗传基础。因此,对受外界因素影响的绒山羊次级毛囊进行转录组分析可能是强有力的手段[33-34]。蛋白质是生物体内生理功能的执行者,毛囊以及皮肤中微环境对绒毛的生长发育、凋亡至关重要。利用蛋白组学了解毛囊生长周期相关的功能蛋白对绒毛的性状、产量和质量的调节也具有十分重要的意义[35]。
2.3 繁殖性状 繁殖特征是山羊产业重要的经济指标。山羊的繁殖性状是多基因和多因素共同调控的数量性状,遗传力较低,采用传统的育种技术很难对其改良。目前我国只有济宁青山羊、大足黑山羊、川中黑山羊等少数几个高繁殖力山羊品种,探明山羊繁殖性状的遗传机理对山羊的分子育种具有理论指导意义。
近年来虽然已发现较多与繁殖相关的候选基因,但山羊的繁殖力研究未取得突破性进展。其原因可能是山羊繁殖性状涉及多个基因、位点的相互作用[36]。因此,利用全基因组测序技术分析多基因与多位点对繁殖性状的调控作用尤为必要。Lai 等[37]分别对崂山奶山羊高、低繁殖力的2 个极端种群进行基因组重测序,分别鉴定12 458 711 和12 423 128 个SNP,CCNB2、AR、ADCY1、DNMT3B、SMAD2、AMHR2、ERBB2、FGFR1、MAP3K12和THEM4在高繁殖力组中被特异性选择,KDM6A、TENM1、SWI5和CYM在低繁殖力组中被特异性选择。Lai 等[37]还认为基因外显子区域SNP 可能对山羊产羔数至关重要,统计分析非同义突变的同源SNP 发现高繁殖力组中仅鉴定出SETDB2基因c.C1540T 非同义突变,且该突变可能由人工选择压力导致;2 组共有候选基因的多个非同义SNP 在群体间具有较强的遗传分化,如低繁殖力组CD3D基因中c.A65G,高繁殖力组CDH26基因中c.A1063G、c.G1035A、c.T1034C,以及EML1基因c.G560A 突变,均可能在奶山羊繁殖力调控中发挥重要作用。也有研究表明,基因表达调控的转录起始位点(TSSs)周围SNP 分布和基因组拷贝数变异(CNVs)也可能影响崂山奶山羊产羔数[38-39]。
以大足黑山羊为实验动物,在第3 胎产羔数的基础上,分别构建高产山羊群体(产羔3~5 只)和低产山羊群体(产羔1~2 只)基因组混池,通过混池重测序扫描山羊重要基因组区域及与产羔数相关的候选基因,共鉴定96 个候选基因,包括NR6A1、STK3、IGF2BP2、AR、HMGA2、NPTX1、ANKRD17、DPYD、CLRB、PPP3CA、PLCB1、STK3和HMGA2,通过信号通路的功能分类与注释对候选基因进行分析发现,一些新的候选基因富集在生殖相关的通路中,如雌激素信号通路和卵母细胞减数分裂[40]。Wang 等[41]对济宁青山羊群体按第1 胎产羔数1、2、3 只分成3 组进行全基因组扫描,具有最高选择特征的候选基因双羔组为KIT、KCNH7、KMT2E,3 羔组为PAK1、PRKAA1、SMAD9,同时,在细胞程序性死亡参与细胞发育的功能条目和胰岛素受体调控的通路中,42 个候选基因的表达最为丰富,其中还包括类固醇代谢过程的生殖相关通路和激素刺激的细胞反应。这些候选基因涉及到山羊产羔数的调节,多个基因富集在雌激素信号通路和类固醇代谢过程的生殖相关通路中,暗示激素参与调节山羊产羔数的重要性。这些候选基因的发现拓展了人们对繁殖力遗传基础的认识,为繁殖性状的研究提供重要线索。
山羊的季节性繁殖虽没有绵羊明显,但发情配种也多集中在秋季。光照信息通过视觉接收后经视交叉上核传入松果体,调节松果体褪黑素的分泌[42-44]。褪黑素调控下丘脑-垂体-性腺轴调节促卵泡素(FSH)和促黄体素(LH)等激素的释放,从而影响配子的发生与性腺生殖激素分泌[45-46]。因此,季节性光照是决定山羊季节性繁殖活动的重要因素。管代禄[47]对年光照时间差异极显著的大足黑山羊(1 279 h)与内蒙古绒山羊(3 000~3 400 h)进行全基因组测序,筛选到光感受活性和蓝光感受活性的关键基因BIRC6可能是调控山羊季节性繁殖的关键基因。下丘脑是调控动物季节性繁殖的关键部位,不同光照时长条件下的山羊下丘脑转录组中差异表达基因TACR1、TACR2、TACR3在山羊季节性繁殖活动中可能发挥重要作用[48]。
Guo 等[49]利用比较种群基因组学在多胎美姑黑山羊群体中发现的基因KHDRBS2;Berihulay 等[50]在埃塞俄比亚本地山羊群体基因组数据扫描到强选择信号基因CAMK2D、KANK4 NIN、RSPH6A和UGT2A2;努比亚山羊、隆林山羊和努隆杂交山羊F1代家系的表型差异基因ADAM2、ADAM18、AZIN2和RAN[51],均在山羊的繁殖过程中发挥重要作用。SRD5A2、MSMB、STAR和3BHSD等基因以及多个miRNA 在卵巢中的高表达与金堂黑山羊的多羔性状相关[52-53]。
综上,山羊高繁性状调控基因的高通量测序挖掘虽取得较大进展,但并未找其主效基因。笔者认为其原因是山羊的繁殖性状由多个主效基因共同调控,各主效基因间可能存在平行或者互作关系。因此,山羊繁殖性状的候选基因调控网络的构建,仍有待基因组测序工作的深入挖掘。
2.4 产肉性状与产奶性状 随着人们生活水平的提高,纤维细嫩、营养丰富、风味独特的羊肉逐渐受到人们的喜爱。山羊的产肉性状是重要的经济性状。Zhang 等[27]对不同用途的品种山羊(雷州山羊、萨能奶山羊和辽宁绒山羊)进行全基因组测序,发现在肉用山羊群体中强选择信号基因(HMGXB3、SLC26A2、HITA1、SLC35A3、LPR4等)。除部分基因参与山羊的体型大小和骨骼发育[54],剩余基因具体功能还需进一步探明,可能与参考山羊基因组功能和结构并未完全注释有关,但这些基因也为肉用山羊的经济性状研究提供了新思路。TGF4、ACACA、LPL基因是努比亚山羊的产肉性状的关键调控基因[51]。之前研究表明,TGF4基因与西门塔尔牛的屠宰率和净肉率性状显著相关[55],ACACA是反刍动物肌肉沉积的主要因素,其表达水平与总脂肪酸和反式脂肪酸呈正相关[56],LPL基因编码甘油三酯水解为游离脂肪酸的关键酶。TGF4、ACACA和LPL基因可能分别在努比亚山羊的产肉率、肉品质和风味方面发挥重要作用。
奶是人类膳食中一种重要的蛋白来源,其含有丰富的营养成分与生物活性物质,对新生哺乳动物的健康成长至关重要。乳脂、乳蛋白是衡量产奶性状的重要指标。玛哈巴[57]初步鉴定5 个调控山羊产奶性状的候选基因,后续利用这些基因的保守SNP 位点扩群验证,与产奶量关联分析的结果提示EIF4G1、VPS13C均可能是调控山羊产奶性状的关键基因,且EIF4G1基因中g.9003G>A 位点有望作为奶山羊高产量的分子遗传标记。也有研究发现,RPL3、VPS13C等基因对萨能奶山羊的泌乳至关重要[27]。
迄今为止,肉用山羊与奶山羊群体的全基因组测序研究较少,需进一步深入。蛋白组学、转录组学分析技术的应用,也有利于山羊产肉、产奶性状功能基因的挖掘与定位[58-61]。
3 展 望
目前,基因组测序工作虽可深层次揭示山羊基因组蕴藏的遗传信息,加深人们对山羊基因组和功能关系的认识,但部分工作仍有待推进:①山羊参考基因组需继续完善;②消除假阳性信号、精确鉴定山羊性状调控基因的大样本深度测序工作有待进行;③基于基因组测序已公布的SNP 位点和候选基因等遗传标记应用于山羊奶、肉品质的改良等品种培育工作,还需不断实践验证;④为阐明山羊性状的复杂遗传机制,以全基因组测序为基础,多组学协同构建和完善“突变-基因-表达-蛋白”生物过程的工作有待开展。多组学时代下的生命科学研究,全基因组测序不仅是探究生物表型变异的技术手段,更是多组学协同阐释遗传变异机理工作的基石。可考虑大规模深入开展全基因组测序研究,从而发挥其基石作用,加速山羊分子育种进程。