基于全基因组重测序筛选绵羊经济性状候选基因
2022-02-20李旭静张配颖锡建中陈晓勇王建涛周荣艳
李旭静,张配颖,锡建中,周 营,陈晓勇,王建涛,周荣艳*
(1.河北农业大学动物科技学院,河北保定 071001;2.唐山市畜牧工作站,河北唐山 063000)
小尾寒羊是我国地方优良品种,成年公羊体重为50~60 kg,成年母羊体重为24~35 kg,常年发情,全年均可配种,以双羔为主,产羔率高达250%,是肥羔生产的理想母本品种。萨福克羊是肉用型绵羊培育品种,成年公羊体重为115~140 kg,成年母羊体重为70~96 kg,生长速度快,是世界肉羊生产中终端杂交的优良父本。2个绵羊品种体形外貌和生产性能存在较大差异。在绵羊的驯化史上,自然选择和人工选择在对绵羊重要经济性状表型进行选择的同时,绵羊基因也受到了定向选择,群体结构发生了定向改变,经长期选育形成了具有特定表型的品种。选择信号是指在表型发生改变的同时基因组结构也发生改变并留下选择印记,对2个及以上群体进行选择信号常用检测方法为群体分化固定指数(Fst)法,Fst值为与检测群体所属总群体相比亚群中杂合性的减少量,减少量越大,种群分化程度越大。Fst值能衡量多个群体之间的遗传差异,其取值范围为0~1,0表示种群间完全没有分化,1则表示种群间完全隔离,Fst值在0.25以上即表示群体间已经产生极大的遗传分化。Fst作为统计量最早由Wright提出,已广泛用于畜禽方面的研究。本研究选择9个小尾寒羊和9个萨福克羊的全基因组重测序数据进行选择信号分析,利用群体分化指数Fst检测2个群体间的遗传分化程度,并结合基因功能和基因富集分析筛选与绵羊经济性状相关的候选基因。
1 材料与方法
1.1 基因组比对与质控 利用基因组比对软件BWA的mem模式,将NCBI SRA数据库中9个小尾寒羊样本共156.603 Gb全基因组数据(SAAMN04306123、SAAMN04306124、SAAMN04306125、SAAMN043061 26、SAAMN04306127、SAAMN04306128、SAAMN0 4306129、SAAMN04306130、SAAMN04306131)和9个萨福克样本共628.24 Gb全基因组数据(SAAMN052 16768、SAAMN05216769、SAAMN05216770、SAAM N05216771、SAAMN05216772、SAAMN05216773、S AAMN05216774、SAAMN05216775、SAAMN0521677 6)与参考绵羊基因组(Oar-v3.1)进行比对和质量控制。
1.2 SNP变异检测 在比对到参考基因组序列的基础上,利用GATK中Haplotype Caller模式和joint calling方法进行群体SNP检测。
1.3 群体遗传分析 利用EIGENSOFT v6.0.1中的smartpca进行主成分分析(PCA),并作图。利用PopLDdecay v1.29(https://github.com/BGI-shenzhen/PopLDdecay)计算连锁不平衡(LD)平均系数,并绘制LD衰减图,进行连锁不平衡分析。
1.4 群体固定指数 利用Weir等提出的方法计算群体固定指数(Fst)。利用Vcftools v0.1.14按100 KB窗口、50 KB步长进行划窗,计算每个窗口内的Fst,并 将Fst转 化 为ZFst值,ZFst=(Fst-μFst)/Fst,结果用R v3.1.1(https://www.r-project.org/)绘图。
1.5 受选择基因分析 选取ZFst值top5%或ZFst值≥5为受选择基因组区域,并进行基因注释,结合GeneCards数据库和参考文献查阅基因功能,筛选与经济性状相关的候选基因。
1.6 基因的富集分析 通过GO富集分析和KEGG通路分析对ZFst值top5%内的目标基因进行富集分析,KEGG通过超几何检验找出目标基因中与整个基因组背景相比显著性富集的通路。
2 结果
2.1 小尾寒羊和萨福克羊全基因组比对及SNP统计结果参考基因组的长度为2 534 335 866 bp,小尾寒羊过滤后的每个个体平均Reads数为138 098 147,平均比对碱基数为16 941 342 435 bp,平均比对率为97.358%,平均高质量Reads率为92.328 %,平均测序深度为6.287,平均覆盖度为98.071%;萨福克羊过滤后的每个个体平均Reads数为408 723 722,平均比对碱基数为56 583 284 595 bp,平均比对率为91.964%,平均高质量Reads率为93.114%,平均测序深度为20.729,平均覆盖度为99.286%。利用软件GATK对2个群体样本高质量Reads进行分析,筛选出30 370 984个SNP变异位点,进行后续分析。
2.2 群体遗传分析 主成分分析可将各亚群聚类,根据各亚群的差异程度推断不同亚群间的进化关系。图1为小尾寒羊和萨福克羊数据样本的主成分分析图,小尾寒羊和萨福克羊的样本各自聚集在一起,并无样本间的交叉重叠,可进行下一步分析。连锁不平衡分析可通过LD衰减(LD decay)速度推断各亚群受选择强度大小。LD衰减速度在2个不同亚群间有很大差异。萨福克羊相对于小尾寒羊LD衰减速度更慢(图2),表明该群体遗传多样性较低。
图1 主成分分析
图2 LD衰减图
2.3 选择信号和富集分析结果 Fst代表一个种群内亚群间的遗传分化程度,Fst值一般在0~1之间。Fst值越大,代表亚群间的遗传分化越大。应用软件Vcftools v0.1.14对小尾寒羊和萨福克羊两群体的30 370 984个SNP变异位点进行Fst值计算,将Fst值转化为ZFst,获得全基因组选择信号分析图(图3),并设置阈值线为ZFst值的top5%,共有391个受选择区域大于此阈值,经过GO富集进行基因功能注释,只在分子功能显著富集,所包含的基因为,这些基因与G蛋白偶联嘌呤能核苷酸受体活性和G蛋白偶联核苷酸受体活性有关(<0.01);KEGG通路分析显示,受选择基因显著富集在嗅觉传导、花生四烯酸代谢和系统性红斑狼疮通路(<0.01)。另一方面,由于受选择基因较多,提高筛选条件,筛选ZFst值大于5的选择信号区域,共筛选出51个区域,包含89个基因,经过数据库和文献查阅,其中46个基因与生长发育、疾病和抗病、适应性、乳品质、生殖、毛和被毛颜色性状有关。和基因是与生长发育相关的候选基因,和基因是与绵羊乳腺炎有关的候选基因。和基因与家畜的多发性疾病有关,和基因为免疫相关候选基因。和基因是适应环境相关的候选基因。和基因是与乳品质相关的候选基因。和基因与生殖有关。和基因与羊毛品质和被毛颜色性状相关。
图3 小尾寒羊和萨福克全基因组选择信号分析图
3 讨 论
小尾寒羊和萨福克羊体形外貌和生产性状存在明显差异,常用于杂交利用以生产羔羊。本研究通过对小尾寒羊和萨福克羊进行选择信号检测,筛选小尾寒羊和萨福克羊经济性状有关的候选基因,对ZFst大于5的受选择区域进行分析,筛选出46个基因与生长发育、疾病和抗病、适应性、乳品质、生殖、毛和被毛颜色性状有关。
生长性状是绵羊重要经济性状,筛选出和基因是生长发育相关的候选基因。基因簇与肉羊体型、脂肪沉积、肌肉发育相关。c.343A>G SNP与猪肌肉紧实度显著相关。rs42417924与牛饲料转化效率相关,并用于肉牛饲料效率的小型SNP芯片的开发和验证标记。1号染色体QTL与苏格兰黑脸羔羊胴体性状显著相关,而为唯一位于此区域的候选基因,其与细胞的生长和分化有关。基因的蛋白产物是的磷酸酶,可降解可通过CX43蛋白表达诱导成肌细胞分化,可通过调节在体内的含量,调节成肌细胞分化。
乳腺炎的发生在很大程度上降低了奶品质。和基因是与绵羊乳腺炎有关的候选基因。和为奶绵羊天然的乳腺炎免疫候选基因。在Lacaune绵羊群体中,3个与乳腺炎性状显著相关的SNP位于3号染色体上QTL的狭窄区域,2个最重要的突变位点位于基因(R96C非同义)和基因(内含子),与乳腺炎的抵抗力降低有关。脂多糖诱导的和基因在绵羊的乳体细胞中差异表达。
疾病影响绵羊健康,造成畜产品低产。和基因与家畜多发性疾病有关。编码一个110 kD的跨膜糖蛋白,在人类单核细胞和组织巨噬细胞中高表达,和与绵羊抗炎及炎症反应有关。的移码突变与红奶牛家族性多发性关节弯曲病有关。的等位基因变异决定了T淋巴细胞对马动脉炎病毒感染的易感性。很有可能与绵羊蓝舌病病毒感染有关。在NF-kappa B信号通路介导的布鲁氏菌病中起保护作用,可作为治疗布鲁氏菌病的一个治疗靶点。可能是山羊抵抗乳腺炎和胃肠道寄生虫感染的潜在遗传标记。此外,和与疾病相关。相关的疾病包括基底神经节疾病和Wolf-Hirschhorn综合征。是一种蛋白质编码基因,与相关的疾病包括猩红热。是定位在紧密连接处的细胞粘附分子,许多在肠道中表达。(-/-)小鼠显示有严重的肠道缺陷,包括粘膜溃疡、上皮细胞脱落和炎症。
免疫是一种生理功能,能抵抗微生物或寄生物的感染,防止病原体的入侵,维持动物机体的健康。和基因为免疫相关候选基因。在抗原呈递细胞中表达,并定位于免疫突触,参与主要组织相容性复合体II类信号转导和免疫突触的形成。基因的相关途径包括先天免疫系统和I类MHC介导的抗原加工递呈,基因与牛羊免疫应答和免疫调节相关。损伤可导致多种疾病,包括单基因常染色体显性超免疫球蛋白E综合征,控制了的表达,从而调控免疫功能。基因通过调节核因子B的活化在自身免疫和组织稳态中起作用。基因是编码脂氧合酶家族的一种蛋白质,已被证明发挥调节炎症和免疫的作用。
动物快速适应环境变化能力对其生存及生产性能非常重要。和基因是适应环境相关的候选基因。编码一种完整的膜蛋白,负责建立和维持Na和K在细胞膜上的电化学梯度,当动物暴露在环境压力下时,ATP1B2蛋白质会优先表达。变异位点是中国荷斯坦奶牛耐热性状的遗传标记。EVI5为与环境适应性有关的强信号候选基因。属于谷胱甘肽过氧化物酶家族,负责过氧化氢的解毒,位于花生四烯酸代谢途径,能将花生四烯酸转化为,1有效地扩张了肾小球血管并刺激了水的重吸收。此外,绵羊和人体组织中在肾脏和肾皮质中的表达水平显著增高,意味着可能在沙漠环境适应中发挥核心作用。与高原环境有关,位于经典的缺氧诱导因子(HIF-1)途径,该途径在调节细胞对缺氧的反应中发挥核心作用。
和基因是乳品质相关候选基因。乳脂小球膜蛋白(MFGM)的组成是衡量乳营养品质的重要指标,属于MFGM蛋白,研究发现包含在内的一些MFGM蛋白在驴的成熟乳中均有高表达或特异表达,参与内吞作用,与驴的乳品质有关。位于基因下游19:26 780 952的SNP与牛奶中脂肪和蛋白质显著相关。与奶牛产奶量、脂肪和蛋白质百分比显著相关。与牛乳脂率相关,基因与新西兰山羊的奶产量、脂肪、蛋白质和体细胞评分显著相关。位于与北欧荷斯坦牛的产乳量和产脂量2个性状的重叠QTL内,表明可能同时与奶牛的产乳量和乳脂量有关。
绵羊繁殖率的高低直接关系到养羊经济效益,是制约绵羊产业发展的重要因素。和基因与生殖有关。和在睾丸中广泛表达。基因与俄罗斯绵羊繁殖性状有关。SHBG是一种雄激素转运体,通过控制血浆中类固醇激素浓度来发挥作用,缺乏的MH1单倍型与奶牛生育能力丧失可能存在联系。是一种精子形成必需的蛋白质,由睾丸特异性基因编码,仅在发育中的精子细胞中表达。基因变异与牛雄性生殖性能有关。和中的突变导致隐性无精子症。作为转录因子协同激活雌激素受体反应的基因转录,其表达由雌激素受体家族的2个成员调节。
羊毛品质和被毛颜色是重要的经济性状。和基因与羊毛和被毛颜色性状相关。参与动物角化细胞终末分化过程中表皮脂质重组中的鞘脂、甘油磷脂、胆固醇和脂肪酸的转运,影响羊毛品质。外根鞘过表达与过表达产生的短毛表型相似,支持了和可能通过同一途径调控毛发生长的假设。和在信号系统中发挥作用,控制皮肤中的毛囊形态形成和干细胞分化,是羊驼纤维生长和纤维颜色的候选基因。是与巴基斯坦山羊毛色有关的候选基因。一项全基因组关联分析中,伊朗Markhoz山羊13号染色体上的基因与黑色和棕色被毛的颜色显著相关,并且在基因中发现了仅存在于黑色动物中的SNP,基因的一个16 bp的重复区(g.1875_1890dup CCCCAGGTCAGAGTTT)是与巴塞特猎犬和彭布罗克威尔士柯基犬马鞍棕色和黑底褐斑色表型相关。
4 结 论
本研究对小尾寒羊和萨福克羊各9个全基因组数据进行全基因组选择信号检测,筛选到ZFst值大于5的选择信号区域有51个,包含89个候选基因,其中46个基因与生长发育、疾病和抗病、适应性、乳品质、生殖、毛和被毛颜色等性状有关,也为绵羊经济性状形成的遗传基础研究提供参考。