全基因组选择信号解析剑白香猪和从江香猪的遗传差异
2023-10-09张雨丹张依裕顾晓龙杨红文
袁 巍,毕 欢,张雨丹,张依裕,顾晓龙,杨红文,陈 伟*
(1.贵州大学动物科学学院 高原山地动物遗传育种与繁殖教育部重点实验室,贵阳 550025;2.贵州省动物遗传育种与繁殖重点实验室,贵阳 550025;3.贵州大学香猪研究所,贵阳 550025;4.贵州省贵阳德康农牧有限公司,贵阳 550025;5.贵州省畜禽遗传资源管理站,贵阳 550025)
猪的养殖在我国历史久远、分布广泛、数量众多。我国复杂的地貌环境、多元化的饮食文化带来的多样化选育目标是中国形成多个地方猪种质资源的重要原因,多样化选育目标致使我国是世界上地方猪种质资源最丰富的国家,约占世界猪种质资源的1/3[1]。许多本地猪品种都有自己独特的特点,例如抗病性、饲料效率和高生育率。贵州香猪是一种小型猪种,包括从江香猪和剑白香猪两种类型。在贵州独特的喀斯特地貌和多民族混居的人文环境的影响下,形成了近交不退化的优势和基因高度纯合的特点。作为贵州地区宝贵的地方猪种遗传资源,通过全基因组选择信号解析剑白香猪和从江香猪的遗传差异,有助于提高对从江香猪和剑白香猪种群的保护状况、遗传多样性、群体结构和和适应性进化的认识,制定更有效的保护策略以维护地方猪的遗传多样性和生态系统的稳定性。由于长期以来的猪种杂交和人工选择,地方猪种的遗传多样性正在不断减少[2],本地猪种和群体大小的数量均大幅减少[3],因此,评估中国本地猪品种的遗传多样性和群体结构成为必要的举措,以便制定更加有效的保护策略,避免品种的基因流失。随着测序技术和计算方法的快速发展以及测序费用的大幅下降,二代测序技术已被广泛应用于家畜遗传多样性和群体结构的研究中,如猪[4-5]、牛[6]、羊[7-8]、鸡[9-10]、鸭[11]等。通过对基因组水平的研究,这些研究筛选出了大量与适应性、表型、重要经济性状等相关的候选基因和遗传标记。这些研究结果不仅有助于人们深刻了解家畜物种的起源、驯化机制、人工选择和自然选择,而且还为家畜的遗传改良和育种提供了基础。目前,对于从江香猪和剑白香猪的研究主要集中在基因的表达[12]、经济性状[13]、生产性能[14]上,在基因组层面上,对剑白香猪和从江香猪的遗传差异研究较少。因此,了解从江香猪和剑白香猪种群的保护状况、遗传多样性、群体结构和适应性进化等方面的信息非常重要。通过全基因组选择信号分析,揭示了剑白香猪和从江香猪的遗传差异,为实现上述目标提供重要的基础和支持。
1 材料与方法
1.1 样品采集
随机选取贵州保种场2岁龄从江香猪和剑白香猪各5头,采集其耳组织,用DEPC水处理后放入无RNA酶的冻存管中,液氮中冷冻,后转入-80 ℃的超低温冰箱储存,用于提取DNA。从江香猪及剑白香猪如图1所示。
图1 从江香猪和剑白香猪照片Fig.1 Photos of Congjiang and Jianbai Xiang pigs
1.2 建库测序和数据处理
委托北京诺禾致源生物信息科技有限公司完成从江香猪与剑白香猪的总DNA提取和建库测序,主要测序平台为Illumina HiSeq 2500,测序策略为PE125,深度为5 x~10 x。用Fsatp v0.19.10软件[15]对测序原始数据进行过滤,去掉adaptor和低质量序列,将过滤后数据用bwa v0.7.17-r1188软件比对到猪参考基因组Sscrofa11.1上,并进行排序和去重复处理,获得bam文件用于变异检测。
1.3 变异检测和过滤
1.4 遗传多样性分析
群体有效大小(Ne)、多态位点比例(PN)、观测杂合度(Ho)和期望杂合度(He)是分析种群遗传多样性的常用参数。利用SNeP v1.11 软件[16]计算群体有效大小Ne,使用Plink v1.90b6.21软件[17]计算多态位点比例(PN)、观测杂合度(Ho)和期望杂合度(He)。有效群体大小Ne根据不同的SNP数据量和历史背景进行计算,因此其接近最近世代的程度也会不同。
1.5 群体选择信号分析
群体间遗传分化指数(the fixation index,Fst)、核苷酸多样性 (nucleotide diversity,π)与群体内选择检验(Tajima’s D)均由vcftools v0.1.16软件基于数据集Data1计算,窗口大小为100 000 bp,滑动距离为1 000 bp,分组信息为从江香猪(coj)和剑白香猪(jab),最后用R包ggplot2可视化。具体参数为--fst-window-size 100 000 --fst-window-step 10 000,--window-pi 100 000 --window-pi-step 10 000,--TajimaD 100000。群体间分歧度(the reduction of diversity,ROD)值公式为1-π1/π2,其中π1为剑白香猪群体平均π值,π2为从江香猪群体平均π值。
1.6 受选择区域分析
分别取Fst和ROD结果前5%位点,提取其在染色体上位置等信息,用R编写脚本合并为Fst和ROD是否同时满足前5%位点信息表。将Fst阈值线设置为0.2,ROD阈值线设置为0.55,利用R包ggplot2绘制点图。并将同时满足Fst和ROD前5%的位点使用bedtools v2.30.0合并重叠窗口位点,然后根据合并位点提取候选基因信息。具体参数为“bedtools intersect -F 0.1 -b gff3,bedtools merge” 。
1.7 注释与通路分析
将已鉴定到的猪特有家族基因和显著收缩与扩张基因与KEGG、GO数据库比对,进行通路分析。KEGG通过R包clusterProfiler v4.0[18]调用KEGG数据库官网(https://www.kegg.jp/)API直接用于KEGG分析,并通过R包内置函数dotplot进行可视化分析;GO通过R包org.Ss.eg.db v3.16.0(http://bioconductor.org/packages/release/BiocViews.html#___OrgDb)进行分析,并使用clusterProfiler内置函数dotplot进行可视化分析;最后通过在线网站基迪奥生信云工具(https://www.omicshare.com/tools/Home/Soft/cog)进行可视化。
2 结 果
2.1 SNP及INDEL检测结果
从江香猪和剑白香猪中平均检测到2 100万个SNPs位点,其中从江香猪23 021 994个,剑白香猪20 433 662个。同样平均检测到460万个INDELs位点,其中从江香猪4 949 456个,剑白香猪4 389 623个。在外显子区域,均检测到的SNPs位点数约为17万个,其中从江香猪188 674个,剑白香猪164 383个;平均检测到的INDELs位点数约为10万个,其中从江香猪11 841个,剑白香猪10 613个。这些外显子区域上的SNP和INDEL变异可能会影响蛋白质的结构、功能、表达和稳定性,从而影响生物体的表型。利用R包Venn Diagram根据SNPs位置信息绘制的韦恩图显示,从江香猪和剑白香猪群体共有的SNPs位点数为16 158 002个,从江香猪特有的为6 863 992个,剑白香猪特有的为4 275 660个(图2A);共有的INDEls位点数为3 275 375个,从江香猪特有的为1 674 081个,剑白香猪特有的为1 114 248个(图2B)。
图2 从江香猪和剑白香猪SNP(A)及INDEL(B)检测结果韦恩图Fig.2 The Venn diagrams depicting the SNP (A) and INDEL (B) detection results of Congjiang and Jianbai Xiang pigs
2.2 从江香猪和剑白香猪群体的遗传多样性分析
利用plink软件分析群体有效大小(Ne)、多态位点比例(PN)、观测杂合度(Ho)和期望杂合度(He),结果如表1所示。通过plink计算的剑白香猪和从江香猪的最近世代群体有效大小为18头,最近世代为13。从江香猪的多态性位点比例为0.875 7,高于剑白香猪的多态性位点比例0.813 2。另外,从江香猪和剑白香猪各自群体内的观测杂合度均大于期望杂合度,说明二者群体内部都存在较高的遗传多样性。选择压力等因素导致群体内的杂合子数量增加,有利于个体对环境的适应和进化。
表1 从江香猪和剑白香猪遗传多样性参数Table 1 The genetic diversity parameters of Congjiang and Jianbai Xiang pigs
2.3 剑白香猪和从江香猪群体选择分析
以从江香猪作为参照组,对剑白香猪进行群体压力分析。通过滑动窗口计算从江香猪(coj)和剑白香猪(jab)群体的核苷酸多样性π值(图3A,B)、群体遗传分化指数Fst(图3C)。统计从江香猪和剑白香猪每条染色体上高于0.01阈值的核苷酸位点数量(图3D),结果显示从江香猪的每条染色体上均存在高核苷酸多态性位点,而剑白香猪的chr4上不存在高核苷酸多态性位点。从江香猪的总核苷酸多态性位点数为1 288个,高于剑白香猪的1 035个。Fst图中,每条染色体均存在大量高于阈值线的多态性位点,表明剑白香猪和从江香猪之间在每个染色体上都存在遗传分化情况。
图3 从江香猪和剑白香猪的π值、Fst值以及核苷酸多态性在染色体上的分布Fig.3 The distribution of π values, Fst values, and nucleotide polymorphisms along the chromosomes of the Congjiang and Jianbai Xiang pig breeds
2.4 从江香猪和剑白香猪分化水平
将从江香猪和剑白香猪基因组中每条染色体上的核苷酸多样性π值、群体间分歧度检验Fst、群体分歧度ROD以及群体内选择检验Tajima’sD的计算结果取均值后绘制成图4。结果表明,从江香猪和剑白香猪的核苷酸多样性均小于0.5%,且群体内选择检验Tajima’sD值均大于0。此外,剑白香猪和从江香猪的ROD值为0.553 1,Fst值为0.736 2。
图4 从江香猪和剑白香猪分化水平参数Fig.4 The differentiation level parameters of Congjiang and Jianbai Xiang pigs
2.5 剑白香猪群体受选择区域
对于受选择区域的筛选,一般考虑群体间分歧度高及群体分化率高的区域。以从江香猪为对照组,结合群体间分歧度ROD和群体间分歧度检验Fst的计算结果,筛选出剑白香猪基因组中前5%受到强烈选择作用、高度分化的区域,并从中识别出了共计775个受选择区域基因,其分布情况如图5红色区域所示。
图5 剑白香猪Fst-ROD的受选择区域Fig.5 The Fst-ROD regions under selection in Jianbai Xiang pigs
2.6 剑白香猪群体受选择区域基因富集分析
对受选择区域基因进行了KEGG富集分析(图6A),结果表明前20种KEGG富集通路涉及轴突引导、ECM与受体的相互作用、局部粘附、PI3K-Akt信号通路、硫辛酸代谢、cGMP-PKG信号通路、MAPK信号传导途径、核苷酸切除修复、阿佩林信号通路、心律失常性右心室心肌病等通路。
图6 剑白香猪群体受选择区域基因KEGG(A)和GO分析(B)结果Fig.6 The KEGG (A) and GO analysis (B) results of the genes located in the selected regions in the population of Jianbai Xiang pigs
同时,对受选择区域基因进行了GO富集分析(图6B),发现在从江香猪和剑白香猪的775个候选基因中,有367个基因显著富集于751个GO条目(P<0.05),其中包括113个分子功能类,553个生物过程类,85个细胞组分类。在分子功能中,受选择区域基因主要富集在结合和催化活性;在生物过程中,受选择区域基因富集最集中的GO条目在细胞过程、单一生物体过程、生物调节、新陈代谢过程和生物过程的调节上;在细胞组分中,细胞、细胞部分、细胞器条目上的基因富集较多。
3 讨 论
遗传分化由长期自然选择和人工选择造成,受环境、基因漂变、基因流动和遗传漂变等因素的影响。ROD基于两个群体间的核酸多态性π的差异识别信号,被引入用于测量两群体间的群体多态性损失,ROD平均值越接近1,群体多态性损失越大。本研究中,从江香猪和剑白香猪的ROD值为0.553 1,表示从江香猪和剑白香猪之间存在一定的群体多态性损失,群体分歧度较高。Fst值主要受遗传漂变和迁移等因素的影响,种群中对于特定环境经历的适应性进化会增大种群分化水平,当Fst值大于0.25时表示群体间遗传分化程度较大,Fst越接近1,表明两种群间越存在明显的种群分化[19]。尤桂爽等[20]对四川盆地6个地方鸡群体的遗传关系研究发现,丰岩乌骨鸡和岩水鸡黑羽群体之间具有较高的遗传分化(Fst=0.183)。本研究中,从江香猪和剑白香猪的Fst值为0.736 2,结果显示从江香猪种群和剑白香猪种群之间存在着明显的种群分化。群体内选择检验Tajima’s D用于检验正选择效应[21],本研究中从江香猪和剑白香猪的Tajima’s D值均大于0,说明二者基因组内存在大量的中等频率等位基因,可能是由于群体瓶颈效应,群体结构或者平衡选择等原因所致。
群体有效大小越小意味着该群体的基因多样性越低,本研究发现,从江香猪和剑白香猪在13个世代之前的群体有效大小为18头,明显低于商品猪群体有效大小[22],同时也低于目前报道的梅山猪(50~65头)[23]、陆川猪(35头)[24]和撒坝猪(21头)[25],高于凉山猪(15头)[26]等中国其他地方猪种群体有效大小。多态位点比例与群体中等位基因的数目和频率有关,用来表示群体中某一位点多态性的程度,以评估群体的遗传多样性[27],本研究发现从江香猪和剑白香猪群体的多态位点比例分别为0.875 7和0.813 2,稍低于西方猪种0.90~0.98的多态位点比例范围[28],剑白香猪的多态位点比例稍低于里岔黑猪(0.827)[29]。说明从江香猪和剑白香猪相比其他群体遗传多样性较低,这对一个种群的长期生存和变化环境的适应是不利的。期望杂合度是指理论计算得出的杂合度,观测杂合度是指随机抽取的两个样本的等位基因不相同的概率。若观测杂合度高于期望杂合度,表明群体内存在较高的遗传多样性,群体可能受到迁徙或者基因流的影响[30]。本研究中,从江香猪和剑白香猪的期望杂合度均高于观测杂合度,说明二者群体可能出现过迁徙事件或者有外来血缘的引入,这与杭猪[31]、青峪猪[32]、马身猪[27]、通城猪[33]、丫杈猪[34]群体的研究结果相似。
虽然剑白香猪与从江香猪同为小型猪种,但本研究中的5个剑白香猪样品中有3个经过14代自交培育,相比之下,剑白香猪种群更为纯正,遗传背景更为稳定。根据KEGG分析结果,剑白香猪和从江香猪的受选择区域基因中差异表达的通路涉及了多个生物学过程和信号通路,其中包括涉及轴突引导、ECM与受体的相互作用、局部粘附、PI3K-Akt信号通路、硫辛酸代谢、cGMP-PKG信号通路、MAPK信号传导途径、核苷酸切除修复、阿佩林信号通路、心律失常性右室心肌病等通路。从这些通路中可以初步推断出剑白香猪在某些方面的优势。PI3K-Akt 信号通路和MAPK 信号通路等与生长和发育[35]、代谢调节[36]、细胞存活和凋亡[37]等生物学过程有关,因此剑白香猪在这些方面可能表现出更好的生物学特性。硫辛酸代谢也与肝脏解毒、生物体对药物的代谢、胆固醇代谢、维生素代谢相关[38],因此剑白香猪在物质代谢方面也可能有优势。猪由于其在体型、解剖结构、生理、营养物质代谢、药物代谢和疾病发展方面与人类相似,所以被广泛作为人类疾病研究的生物模型[39],Fanjul等[40]就使用小鼠和猪模型来研究衰老对心脏代谢疾病的影响,本研究KEGG分析结果中,剑白香猪群体受选择区域基因富集到心律失常性右室心肌病通路,可以考虑将剑白香猪作为研究心律失常性右心室心肌病的生物医学模型。根据GO富集分析结果,受选择区域基因富集在结合和催化活性条目,这说明剑白香猪在分子功能方面具有更多的活性相关基因,这可能意味着该品种在代谢、生长和发育等方面具有更强的能力;而在细胞过程、单一生物体过程、生物调节、新陈代谢过程和生物过程调节的富集,表明剑白香猪在生物过程和生物调节方面可能具有更为丰富的功能;细胞、细胞部分、细胞器条目的富集,表明剑白香猪在细胞结构和细胞器的功能方面具有更多的相关基因。
4 结 论
综上所述,4个统计数据(Ne、PN、Ho、He)共同表明,需要提高从江香猪和剑白香猪群体内的遗传多样性,减少外来血缘引入导致纯种度降低的风险。群体全基因组选择信号分析表明,剑白香猪和从江香猪之间存在一定的群体多态性损失,群体分歧度较高,两种群间存在明显的种群分化,而二者群体受选择区域基因富集分析表明,剑白香猪在代谢、生长和发育等方面具有更强的能力。自交培育的剑白香猪可以用作研究心律失常性右室心肌病的动物模型。这些发现有助于更深入地了解贵州地方香猪品种的遗传特征和潜在用途,科学制定对贵州地方香猪的保护和利用策略,以保障其种质资源的可持续利用。