基于RNA-seq结果开发猪SSR标记
2021-06-30李文霞吴怡琦张燕伟蔡春波高鹏飞郭晓红李步高曹果清
李文霞,吴怡琦,杨 帅,张燕伟,路 畅,杨 阳,蔡春波,高鹏飞,郭晓红,李步高,曹果清
(山西农业大学动物科学学院,太谷 030801)
微卫星标记,又称简单序列重复(simple sequence repeat, SSR)或短串联重复序列(short tandem repeat, STR),主要分布于真核生物基因组,原核生物基因组中也偶有发现[1-2]。SSR标记由核心序列与侧翼序列组成,核心序列为1~6个核苷酸串联重复,重复次数为10~20次左右,如(AC)n、(CT)n、(TAT)n等;侧翼序列位于核心序列两侧,属于保守的特异单拷贝序列,使微卫星特异地定位于基因组特定部位[3]。Schlötterer和Tautz[4]认为,SSR因核心序列重复次数的改变而显现出高度变异性。SSR作为常见的分子遗传标记,具有数量大、分布广泛、检测便利及信息含量高等特点,在遗传多样性分析、遗传连锁图谱构建、亲子鉴定等方面具有积极的应用价值[5-7]。李军成等[8]对高原小型蕨麻猪进行遗传检测,结果发现9个微卫星位点的平均等位基因数为6.11,平均杂合度为0.731 9,平均多态信息含量为0.765 9。牛荣等[9]利用35个微卫星位点对版纳小耳猪的5个家系进行遗传检测,结果发现,各家系均已构成独立的遗传群体,其基因多态性和遗传多样性相比于普通商品猪较低。Rębaa等[10]利用16个SSRs标记通过对数似然比方法成功鉴别了欧洲野生与家养猪种。Lin等[11]利用13个四核苷酸重复的SSR标记和1个性别鉴别基因构建了猪DNA鉴定系统,该系统可用于猪个体识别、亲子鉴定及其他遗传育种试验。
开发SSR标记对于猪遗传多样性研究、特定性状辅助育种及遗传图谱绘制等多个方面具有重大意义。传统SSR标记的开发是通过构建基因组文库进行筛选,过去大多数微卫星序列均是利用该方法获取的。Groenen等[12]从猪基因组文库中成功分离出了30个微卫星克隆,其中10个可作微卫星标记。传统开发SSR标记方法操作繁琐,费时费力且费用昂贵,一定程度上限制了SSR标记的研究与应用[13]。近年来,高通量测序技术的发展为全基因组水平筛选短串联重复序列变异提供了基础,已有大量基于高通量测序数据开发SSR标记的成功案例[14-16]。Liu等[17]利用基因组重测序数据,筛选出16 527个高质量多态性微卫星标记,将其应用于猪系统发育关系分析,结果发现,所有中国猪,包括两头野猪,聚集为一个分支,而所有商品瘦肉型猪聚集为一个分支。基于转录组测序结果开发SSR标记已在沼泽水牛[18]、四川白鹅[19]、黄菇鱼[20]、罗氏沼虾[21]、苹果蜗牛[22]、南极鱼[23]、泥鳅[24]、窄足真蚋[25]等动物中取得成功。
本研究基于课题组前期获取的大白猪与马身猪背最长肌RNA-seq结果,从预测的10 488个SSRs位点中随机选择154个进行检测,共筛选出25个高多态性位点,并用于马身猪、大白猪、晋汾白猪及山西黑猪等4个猪种的遗传多样性分析,为进一步开展猪品种资源的保护和利用工作提供科学依据。
1 材料与方法
1.1 试验动物和样品采集
试验动物选自山西大同市种猪场,采集健康、个体间无直接血缘关系的6月龄马身猪(MS)、大白猪(LW)、晋汾白猪(JW)及山西黑猪(SB)等4个猪种各30份耳组织样品(大约0.5 g),放于装有1 mL 700 mL·L-1乙醇的1.5 mL离心管中,于-80 ℃超低温冰箱中保存备用。
1.2 主要试剂与仪器
1.2.1 主要试剂 2×Taq Plus Master MixⅡ购自诺唯赞公司;Tris碱和EDTA购自华美公司;SDS(十二烷基硫酸钠)、50×TAE电泳缓冲液、TEMED、Tris饱和酚、过硫酸铵、N,N-亚甲基二丙烯酰胺等购自北京索莱宝科技有限公司;6×DNA Loading Buffer购自康为世纪公司;DL500 DNA Marker、Mini BEST Agarose Gel DNA Extraction Kit Ver.4.0、pMD 18-T Vector、E.coliDH-5α Competent Cells购自TaKaRa公司,其余试剂为国产分析纯。
1.2.2 主要仪器 Veriti 96 Well PCR仪(ABI,美国);ND-1000核酸蛋白测定仪(Nanodrop,美国);DYY-6C电泳仪(六一仪器厂,北京);Centrifuge 5430R高速冷冻离心机(Eppendorf,德国);D1008E微型离心机(Scilogex,美国)、MX-S旋涡混合仪(Scilogex,美国)等。
1.3 试验方法
1.3.1 猪转录组数据来源及SSR位点分析 猪转录组数据来自于课题组前期利用Illumina HiSeq 2500测序平台对6月龄大白猪和马身猪各3头猪背最长肌的转录组测序结果[26-27]。首先对测序获取的原始数据(raw reads)使用Perl脚本进行质量控制,去除接头序列、>10%的未知核酸序列以及质量分数≤10的碱基数占到整个碱基数50%以上的冗余序列,得到clean reads。利用bowtie2(v2.2.9)对clean reads建立索引,并通过Trinity软件对clean reads进行拼接、过滤及组装后得到高质量Unigenes,再利用tophat(v2.0.12)将质控后的序列片段mapping到猪基因组中,已知转录本信息以Ensembl ID命名,未知转录本信息以TCONS ID命名。
使用位点挖掘工具MISA(http://pgrc.ipk-gatersleben.de/misa/)对猪转录组测序结果中序列长度大于1 kb的clean reads进行SSR位点搜索,检测的SSR位点为单核苷酸至六核苷酸重复6类,设置参数为单核苷酸重复至少10次,二核苷酸重复至少6次,三、四、五及六核苷酸重复至少5次。复合SSR的两个位点间最大间隔碱基数为100 bp。将最终生成的文本文件整合导入到Excel(Microsoft Office Excel 2016)中,并对SSR位点信息进行特征分析。
1.3.2 SSR位点筛选与引物设计 通过前期RNA-seq结果预测的SSR位点,根据其染色体位置、碱基类型、重复次数等差异将Excel中的所有SSR位点进行分类与统计,并利用OFFSET函数(=OFFSET(A$1,(ROW(A1)-1)×50)实现每隔50个位点自动筛选1个SSR位点,最终选择200个SSRs位点进行引物设计。根据基因Unigene ID在Ensembl数据库中查到SSR位点所对应的基因序列,从中选出合理长度并包含SSR位点的序列,使用Primer 3.0最终成功设计154对引物,由上海生工合成,部分引物信息见表1。
1.3.3 PCR扩增及多态性位点的筛选 按照酚/氯仿抽提法提取猪耳组织基因组DNA。将马身猪、大白猪、晋汾白猪、山西黑猪等4个猪种分别10个 DNA样品取适量体积,均匀混合为1个DNA池,最终每个猪种混合为3个DNA池。以混合DNA池为模板,用合成的154对引物进行PCR扩增和PAGE电泳,筛选多态性位点。PCR反应总体积为10 μL:DNA模板1.0 μL,2×Taq Plus Master MixⅡ 5.0 μL,Primer F(10 μmol·L-1)和Primer R(10 μmol·L-1)各0.5 μL,ddH2O加3.0 μL。 反应程序:95 ℃预变性4 min;95 ℃变性30 s, 退火(表1)30 s, 72 ℃延伸30 s,35次循环;72 ℃ 延伸5 min,最后4 ℃保存。扩增产物经10 g·L-1琼脂糖凝胶电泳检测,将检测效果较好的产物经100 g·L-1聚丙烯酰胺凝胶电泳检测,可产生丰富多态性的SSR位点即为新筛选的SSR标记。利用筛选的多态性SSR对4个猪群体中所有个体进行PCR扩增和PAGE检测,以评价新开发SSR位点的有效性和群体遗传多样性。
表1 引物信息
1.3.4 SSR多态性位点的克隆测序 为了验证本研究所获取SSR标记的准确性,对部分位点进行了克隆测序。采用“1.3.3”条件进行PCR扩增,总体系为200 μL。采用10 g·L-1琼脂糖凝胶电泳检测扩增结果,使用Mini BEST Agarose Gel DNA Extraction Kit Ver.4.0对目的片段进行切胶回收,利用ND-1000核酸蛋白测定仪测定回收DNA浓度。将回收产物与pMD 18-T Vector 16 ℃连接过夜,采用热激法将连接产物转化至E.coliDH-5α感受态细胞中,在固体培养基中使用Amp抗性、X-Gal与IPTG筛选阳性菌株,37 ℃培养12 h。挑取阳性单个白色菌落在含Amp抗性的LB液体培养基中过夜培养,随后进行菌液PCR鉴定,最后筛选阳性菌液送至华大基因公司测序。
1.3.5 数据处理 使用Pop Gene 3.2软件统计SSR位点的平均等位基因数(allele number,Na)、有效等位基因数(effective allele number,Ne)、观测杂合度(observed heterozygosity,Ho)、期望杂合度(expected heterozygosity,He)等参数;使用PIC CALC程序计算多态信息含量(polymorphism information content,PIC);使用NTsys 2.10e软件计算遗传距离。
2 结 果
2.1 SSR位点数量与分布特征
利用MISA搜索猪转录组序列SSR位点,设置的SSR长度均大于10 bp。结果从36 693条转录组Unigene序列(序列长度>1 kb)中搜索到10 488个SSRs位点,分布于6 953条Unigene序列中,碱基数目总长度221 838 bp,平均长度为21.15 bp。SSR发生频率(含有SSR的Unigene数目与总Unigene数目之比)为18.95%,出现频率(检出SSR个数与总Unigene数目之比)为28.58%。其中4 727条Unigene含有单个SSR,2 226条Unigene含有2个及以上SSRs。在评估的所有Unigene序列中,SSR位点类型以纯合型为主,有9 424个,以复合型存在的SSR有1 064个。
猪转录组SSR位点重复类型多样,单核苷酸至六核苷酸重复的SSR均有出现,所占比例变化较大。SSR位点数量分析结果见表2,单核苷酸、三核苷酸及二核苷酸重复是优势重复类型,分别有6 428、 2 414、1 413个,占比分别为61.29%、23.02%和13.47%;四、五、六核苷酸重复的分布频率逐渐递减,占比分别为1.62%、0.4%和0.2%。除三核苷酸重复外,SSR分布频率随核苷酸重复数增加而依次递减。SSR重复次数主要集中于5~22次, 其中在5~11次的SSR最多,有6 032个,占比为57.51%;在12~22次的SSR次之,有3 917个,占比为37.35%;重复次数>22的SSR数量最少,有539个,占比为5.14%;重复次数在5~11、12~22、>22的SSR数量依次减少,表明SSR位点数随重复次数的增加总体上呈现下降趋势。其中单、二、三、四、五、六核苷酸重复数量最多的重复次数分别在12~22、6、5、5、5、5次。
表2 基于转录组猪SSR重复类型特征
2.2 SSR位点基序长度特征
统计SSR基序类型,将所有可循环的碱基序列及其互补碱基序列归为一类。统计结果见表3,SSR共有121种基序类型,单至六核苷酸重复的基序类型分别有2、6、28、48、19、18种。SSR基序类型多样(图1),其中单核苷酸重复的A/T类型数量最多,有5 804个,在单核苷酸重复中的占比为90.29%,总占比为55.34%;双核苷酸重复的AC/GT类型数量最多,有400个,所占本类型比例为28.31%,总占比为3.81%;CA/TG的数量也较多,有392个,所占本类型比例为27.74%,总占比为3.74%;三核苷酸重复的GCC/GGC数量最多,有404个,所占本类型比例为16.74%,总占比为3.85%;CGC/GCG次之,有230个,所占本类型比例为9.53%,总占比为2.19%;四核苷酸重复的AAAC/GTTT数量最多,有20个,所占本类型比例为11.76%,总占比为0.19%;五核苷酸重复的AAAAC/GTTTT数量最多,有8个,所占本类型比例为19.05%;六核苷酸重复中的18种基序类型中,AGGCGC/GCGCCT、CCGGGG/CCCCGG均有2个,所占本类型比例均为9.52%;其余15种六核苷酸重复的基序类型均有一个,所占本类型比例共为71.43%。
图1 基于转录组猪不同基序类型分布
表3 基于转录组猪SSR基序类型分布
2.3 猪转录组SSR可用性评价
SSR标记在种群中的多态性及多态性的高低是判断其可用性的依据,而SSR序列片段总长度是影响多态性高低的重要因素之一。为了提高微卫星潜在的多态性差异,并增加结果的实用性,本研究只搜索长度在10 bp以上的SSR。结果见图2,所发现的10 488个微卫星长度存在显著差异,转录组SSR基序长度大多为10~20 bp,共7 817个,占比为74.53%;其次为21~30 bp,共1 480个,占比为14.11%;30 bp以上的微卫星数量相对较少,共1 191个, 占比为11.36%。研究结果表明,基于猪转录组测序结果获得的SSR标记基序片段长度大多较长,总体具有较高的多态性和较强的实用性。
图2 基于转录组的猪SSR重复长度分布图
2.4 SSR引物有效性检测
用设计成功的154对引物对马身猪、大白猪、晋汾白猪及山西黑猪等4个群体共120份DNA进行扩增,共有124对引物能扩增出明亮、特异的条带,扩增效率为80.52%。经100 g·L-1聚丙烯酰胺凝胶电泳检测,有25对SSR引物具有多态性(图3),占比为16.23%。
M. DNA相对分子质量标准(100~500 bp);A、B、C、...... 为等位基因
2.5 SSR多态性位点克隆测序验证
选择多态性较好的6对引物P10、P22、P24、P59、P61、P66进行扩增,对PCR产物进行克隆测序,测序结果符合微卫星特征(图4),且与RNA-seq结果及聚丙烯酰胺凝胶电泳结果相符,表明本研究获得的SSR位点真实可靠。
图4 6对SSR引物的测序结果
2.6 SSR在不同猪种的遗传多样性分析
用上述开发的25个多态性SSR引物检测马身猪、大白猪、晋汾白猪及山西黑猪等4个群体的遗传多样性,共获得131个等位基因,等位基因数为2~7个,平均等位基因数为5.24,平均有效等位基因数为3.487 1。各位点PIC值介于0.378 3~0.805 3之间,平均值为0.646 7,观测杂合度、期望杂合度分别为0.200 0~0.931 0、0.277 8~0.829 2。
不同猪种各位点等位基因频率见表4,不同等位基因分布不均匀,各个位点都有优势等位基因存在,其等位基因频率大于0.5。就大白猪而言,P10A(P10的A等位基因,下同)、P24B、P146A等等位基因分别是其座位上的优势等位基因;就马身猪而言,P10B、P24A、P146A、P147A等分别是其座位上的优势等位基因;就晋汾白猪而言,P10A、P24A、P56A、P146A、P147A等分别是其座位上的优势等位基因;就山西黑猪而言,P10A、P56A、P146A、P147A等分别是其座位上的优势等位基因。同时,P24E、P24F仅在马身猪中出现,是马身猪特有的等位基因,可作为区分马身猪与其它品种的特异性标记;P147D仅在山西黑猪中出现,可初步判定这些等位基因或者其组合可以作为品种特异性标记。
表4 部分位点等位基因频率
25对多态性引物中有23对引物在4个猪群中总体PIC大于0.5,属于高度多态位点,而P10和P146在4个群体中的PIC均小于0.5,属于中度多态(表5)。每个位点在不同猪种的多态性表现略有差异,马身猪的P56位点多态性最高,其PIC为0.618 7;晋汾白猪的P69位点多态性最高,其PIC为0.716 8,表明马身猪和晋汾白猪遗传多样性丰富。
表5 部分SSR引物在不同猪群体中的遗传多样性参数
2.7 不同猪群体间的遗传相似性和遗传距离分析
本研究利用25个微卫星位点分析了马身猪、大白猪、晋汾白猪及山西黑猪等4个群体间的奈氏遗传相似性和遗传距离,结果见表6。4个猪种间的遗传相似性在0.473 7~0.800 7之间,其中,晋汾白猪与大白猪的遗传相似性最高,为0.800 7,山西黑猪与晋汾白猪的遗传相似性最低,为0.473 7。4个猪种间的遗传距离在0.200 1~0.526 3之间,其中,晋汾白猪与大白猪的遗传距离最近,为0.200 1,与马身猪的次之,为0.428 6。该结果与晋汾白猪遗传组成相一致。晋汾白猪是以大白猪、长白猪、马身猪、二花脸为亲本杂交培育而成的品种,在遗传组成上,大白猪占50%的血液,马身猪占6.25%的血液[28]。
表6 4个猪种间的遗传相似性和遗传距离
3 讨 论
3.1 基于转录组的微卫星分布与特征分析
本研究对猪转录组测序结果中的Unigene进行SSR位点分布及序列特征分析,结果从36 693条 Unigene中找到10 488个SSRs位点,共分布于6 953条 Unigene。SSR发生率为18.95%,与其他物种相比,本研究中SSR位点的发生频率明显低于牙鲆转录组中的发生频率(27.12%)[29],而高于中华蜜蜂幼虫肠道转录组SSR位点的出现频率(17.82%)[30],产生差异的原因可能与物种特异性有关,也可能与搜索标准的设定、原始序列数据、软件类型、长度不同等有关。
本研究中,转录组测序结果的SSR种类丰富,包含一至六核苷酸重复类型,除单核苷酸重复外,三、二、四核苷酸重复为其优势重复类型,分别有2 414、 1 413、170个,占比分别为23.02%、13.47%、1.62%,共占97.78%,五、六核苷酸重复类型数量较少,共计2.22%。本结果与大黄鱼[31]和美洲大蠊[32]的优势重复类型情况相同,与多数报道的以二、三、四核苷酸重复为其优势重复类型的鲤鱼[33]、团头鲂[34]、东方实蝇[35]等不同,可能与物种特异性主导微卫星重复类型有关。重复基序类型中,二核苷酸重复的AC/GT类型出现的频率最高,与裂口腹鱼[36]情况一致;三、四核苷酸重复基序类型中,GCC/GGC和AAAC/GTTT出现的频率最高,其与日本七鳃鳗[37]和黄鲶[38]情况不同。并且所有三核苷酸重复类型中,GC含量较高,这种差异可能与物种组成结构相关,也可能与转录组SSR来源、密码子偏倚、编码蛋白质频率较高有关,表明猪在生物进化地位中可能位于较高的进化水平。SSR位点多态性由于碱基数和重复数的不同而产生序列长度多态性。本转录组测序结果的微卫星基序长度大多集中于10~20 bp,共7 817个,占比74.53%;其次为21~30 bp,共1 480个,占比14.11%;大于30 bp的数量较少,共1 191个,占比11.36%。Temnykh等[39]提出,SSR长度大于或等于20 bp时,多态性较高,长度为10~20 bp的多态性中等,小于10 bp的多态性极低。所以本转录组测序发掘的SSR位点大多具有多态性潜能且多态性较高,可用于SSR标记的开发以及遗传多样性分析。
3.2 基于转录组测序结果开发SSR标记
理想情况下,微卫星属于中性DNA标记,其特征相对恒定,只受随机过程影响,如突变和遗传漂变。但由于人工选择的存在,微卫星标记实际上并不完全中立,过去开发的微卫星标记用于现在的遗传育种工作,其准确性和实用性就会受到限制。Brenig和Schütz[40]研究表明,2004—2014年,ISAG推荐的12个微卫星组合标记小组对于牛亲子鉴定准确性下降,需添加新的微卫星标记增加其准确性。但传统开发SSR标记效率低下,费用昂贵,随着高通量测序技术的兴起,使得基于转录组测序结果开发新SSR标记变得简便高效。
Liu等[41]基于转录组测序结果随机挑选出100个位点,共有31个新开发的微卫星位点显示出多态性,从中筛选出20个微卫星用于大白鲟的亲子关系分析,其结果准确可靠。Gao等[42]基于转录组测序结果,随机选择50个SSRs位点检测多态性,最终35对引物成功扩增,并在28只斑点海豹个体中检测到显著多态性。Lu等[43]基于转录组测序结果,随机选择43对引物对西伯利亚虎的DNA进行检测,最终14对引物的扩增产物具有多态性,开发的SSR标记成功应用于野生和圈养西伯利亚虎的种群遗传分析。Zhang等[44]基于转录组测序结果,随机选择300对SSR引物,对长湖、洪湖、南湖及洞庭湖的4个野生黄颡鱼群体进行扩增验证,其中263对引物有效扩增,57对引物在48条黄颡鱼个体中被鉴定为多态性SSR位点。本研究基于猪RNA-seq结果,随机选择154个预测的SSRs位点检测多态性,最终在马身猪、大白猪、晋汾白猪及山西黑猪等4个群体中筛选到25个高多态性位点。以上结果表明,基于高通量转录组测序结果开发SSR标记是可行的,且能够用于动物的遗传多样性分析、遗传连锁图谱构建、亲子鉴定等遗传育种工作。
3.3 不同猪种遗传多样性分析
本研究基于RNA-seq结果开发出25个SSRs标记,将其应用于4个群体的遗传多样性分析,结果共识别到131个等位基因,等位基因数为2~7个,平均等位基因数为5.24,平均有效等位基因数为3.487 1,平均PIC为0.646 7,平均Shannon指数为1.355 1,总体表现出较高的多样性。贺希文等[45]采用19个SSRs分析大白猪群体的遗传多样性,平均PIC为0.565 2;李桢等[46]研究表明,大白猪群体的PIC为0.408 4;与本研究结果相比,两者均低于本研究结果(0.617 2),表明本研究开发的SSR标记多态性高。曹果清等[47]利用FAO-ISAG推荐的21个微卫星标记检测马身猪遗传多样性变化趋势,发现马身猪群体PIC为0.341~0.441;而本研究中,马身猪群体的遗传多样性较高,平均PIC为0.588 9,高于前者研究结果,表明本研究获取的SSR标记多态性高,能充分反映马身猪群体的遗传多样性,这与马身猪丰富的遗传组成相一致。
4 结 论
本研究基于猪转录组测序结果开发出25个多态性较高的SSRs标记,可用于马身猪、大白猪、晋汾白猪及山西黑猪等4个群体的遗传多样性分析,结果丰富了猪可用SSR标记数据库,对猪的起源进化、群体遗传结构分析、亲子鉴定、遗传图谱构建、分子标记辅助育种等具有重要意义。