鲤鱼(Cyprinus carpio)全基因组微卫星分布特征研究
2021-10-20王慧琪马宇璇李亮徽张国松
梁 霞,王慧琪,马宇璇,宋 磊,吴 超,李亮徽,张国松
(菏泽学院生理生化及应用实验室,山东 菏泽 274000)
微卫星DNA,又称为简单重复序列(simple sequence repeats,SSRs),是广泛存在于真核、原核以及病毒基因组中[1-2]的1~6个碱基串联重复,随机分布于基因间区、基因的内含子区和编码区等区域. 微卫星由高突变性的核心序列和较为保守的侧翼序列两部分组成,具有杂合率高、分布均匀和共显性遗传等特点,研究人员通常在微卫星侧翼序列设计引物对微卫星序列进行PCR扩增,以探究物种的遗传多样性和筛选功能标记等. 作为优良的第二代分子标记技术,微卫星已在遗传图谱构建[3]、种群遗传多样性评估[4-5]以及分子标记辅助育种[6-7]等领域中广泛应用.
鲤鱼(Cyprinuscarpio)属于鲤形目、鲤科、鲤亚科,广泛分布于除澳洲和南美洲外的全世界淡水水域,也是我国淡水鱼类中品种最多、分布最广、养殖历史最悠久、产量最高者之一. 2014年,中国水产科学院联合多个单位完成了鲤鱼全基因组注释和图谱绘制,成为了国际上首个完成全面解析的异缘四倍体硬骨鱼类基因组图谱. 研究表明,其基因组大小约为1.69G,含52 610个功能基因,约为已完成基因组测序的硬骨鱼类基因数目的两倍. 重复元件分析表明鲤鱼基因组包含了超过31%的转座元件,显著超过了目前完成基因组测序的模式鱼类(仅少于斑马鱼),揭示了鲤鱼较高的基因组复杂度. 细胞遗传学证据表明,鲤鱼在减数分裂过程中其100条染色体形成50个二价体而非25个四价体,进一步证实了鲤鱼基因组的异缘四倍体起源特征. 为深入研究鲤鱼基因组四倍化特征,科研人员开展了鲤鱼(2n=100)和近源模式鱼类斑马鱼(2n=50)的比较基因组研究. 结果表明,二者染色体呈现典型的2∶1同源共线关系,与斑马鱼相比,鲤鱼基因组获得了加倍. 该研究首次在全基因组水平证实了鲤鱼基因组的四倍化特征和其独特的全基因组复制事件. 鲤鱼全基因组测序和图谱的完成,标志着鲤科鱼类重要经济性状的遗传解析和遗传选育研究正式进入了基因组时代[8].
目前国内外关于鲤鱼微卫星方面的研究已有较多报道:如孙效文等[9]利用微卫星等多种分子标记对柏氏鲤与黑龙江鲤的杂交子二代的单倍体样品做基因型分析,构建了初步的鲤鱼遗传连锁图谱;赵兰[10]利用鲤鱼微卫星标记和SNP标记构建了鲤鱼较高密度的遗传连锁图谱以及遗传-物理整合图谱;郑先虎等[11]利用4个鲤鱼群体构建了鲤鱼的整合图谱,并根据图谱比较分析了不同群体生长性状QTL的分布及变异规律;吴明林等[12]利用10对微卫星标记对长江野鲤和两种养殖鲤群体进行了遗传多样性评估.
传统开发SSR标记的方法主要是使用重复探针筛选基因组文库和小片段阳性克隆测序等来开发SSR引物[13]. 目前关于鲤鱼微卫星标记的开发方法主要集中在磁珠富集法、探针筛库法及ISSR片段扩增法等[14-16],成功开发的微卫星标记主要应用于鲤鱼不同地理群体的遗传特征评估、分子辅助育种研究及种质资源鉴定等. 然而,这些传统筛选方法操作困难、耗时低效. 近年来,随着二代测序技术的迅速发展,许多物种的基因组相继公布并得到了极大地开发和利用,这为在全基因组水平上搜索微卫星奠定了基础. 目前越来越多生物[1,17-19]的全基因组微卫星研究已被报道. MISA工具(MicroSatellite identification tool)是近些年用于筛选物种全基因组微卫星的一种较为普遍、高效、快捷的微卫星搜索软件,适用于EST序列、文库核酸序列及基因组测序序列等多种类型材料[20];且具有运行指令简单、运行耗时短及不需联网等优点,已成为更多物种基因组微卫星搜索的首选工具[21-23]. 本研究利用MISA微卫星筛选软件对鲤鱼基因组数据库(NCBI已公布)检索,针对鲤鱼全基因组中的微卫星进行搜索并分析其分布规律. 同时对外显子区含有微卫星的基因进行GO注释、富集和KEGG富集分析,来进一步研究微卫星在黄颡鱼基因序列中的分布特征以及功能定位,这对于今后分析鲤鱼全基因组特征、评估不同地理群体遗传特征以及开发鲤鱼大量高质量微卫星标记等具有重要的参考价值.
1 数据与方法
1.1 数据来源
本文中使用的1.7Gb鲤鱼全基因组下载自NCBI Genome数据库(https://www.ncbi.nlm.nih.gov/),登录号为GCF_000951615.1.
1.2 SSR搜索方法
本研究利用MISA微卫星搜索软件,从鲤鱼全基因组中筛选1~6种完整型微卫星序列. 搜索标准参考MISA软件默认参数,即1~6种微卫星核心序列最少重复次数分别为10、6、5、5、5和5. 本研究统计原则将所有可循环的序列及其碱基互补序列归为同一类别,如ACT重复拷贝类别,可以与之合并为一类的重复拷贝类别是CTA、TAC、TGA、GAT和ATG.
1.3 微卫星所在外显子上的基因GO注释和KEGG富集分析
利用鲤鱼基因组GFF注释文件和运行MISA软件得到的微卫星位置信息(misa文件),对全基因组中所有微卫星进行定位. 结合本实验室编写的Python脚本及使用Blast2 GO软件[24]进行GO注释,利用 KOBAS 2. 0在线软件进行GO富集和KEGG富集分析[25].
2 结果与讨论
2.1 鲤鱼全基因组微卫星总体分布规律
利用MISA微卫星筛选软件在1.7Gb鲤鱼全基因组中共搜索到837 004个完整型微卫星,相对丰度为488个/Mb,微卫星总长度为15 513 551 bp,占鲤鱼全基因组大小的0.91%,相对密度为9 051 bp/Mb. 1~6碱基重复类型的微卫星数目差异较大,其中单碱基重复数目最多,占微卫星总数的67.11%;其次分别是二碱基、三碱基、四碱基和五碱基. 其中六碱基类型出现频率最低,仅有596个微卫星,在所有微卫星中占比0.07%(图1和表1).
图中数字代表该碱基类型在全基因组中的数量,百分比代表该碱基类型在所有微卫星中所占比例图1 鲤鱼全基因组中6种微卫星类型数量分布Fig.1 Quantitative distribution of six types of microsatellites in the Cyprinus carpio whole genome
表1 鲤鱼全基因组中6种微卫星重复类型统计分析Table 1 Different types of microsatellite sequences in the Cyprinus carpio genome
2.2 鲤鱼全基因组中6种微卫星类型不同类别分布特征
除了6种碱基类型微卫星在基因组中分布频率差异显著外,每种微卫星类型中不同碱基类别的分布规律也有很大差别(表2和表3).
表2 鲤鱼微卫星中出现频率最高的10种重复拷贝类别Table 2 The 10 types of repeated copies with the highest frequency of microsatellites in the Cyprinus carpio
表3 不同碱基类型微卫星前3种优势类别在鲤鱼基因组中的分布Table 3 Distribution of the first three dominant categories of microsatellites of different base types in the Cyprinus carpio genome
在单碱基类别中,A类别(A、T)占有绝对的碱基优势,共搜索到478 415个,占单碱基总数目的 96.57%;相比较而言,C类别(C、G)出现频率较低,在基因组中仅有17 006个,在单碱基中占比3.43%.
在二碱基四种类别中,AC类别数目最多,共出现122 398个,占二碱基总数目的54.58%;其次分别是AT和AG类别,在二碱基中分别占比28.02%和17.23%;CG类别数目最少,仅占比0.17%.
在三碱基、四碱基和五碱基类别中,也均表现出明显的A、T碱基优势. 在三碱基中,AAT类别出现频率最高,共出现48 895次,占比68.85%. 其次分别是AAC和AAG,在三碱基中分别占比12.15%和5.94%. CCG类别出现频率最低,仅有112个,占比0.16%. 在四碱基中,AAAT为出现频率最高的类别,占比44.34%,其次分别为ATCT和AAAC. 在五碱基中,AATAT、AAAAT和AAATT为数目最多的前三种类别.
由于六碱基微卫星在基因组中出现频率较低,绝大部分六碱基类别出现次数较少,部分类别甚至缺失. AACCCT为六碱基中数目最多的类别,共有74个,占比12.42%. 其他类别占比均较低.
2.3 鲤鱼全基因组微卫星重复拷贝数分布
尽管微卫星在鲤鱼6种碱基类型中的数目分布和各碱基不同类别数目差异较大,但每种微卫星的核心序列拷贝数变化趋势是一致的. 即1~6种碱基均随着核心拷贝数的增加,其微卫星数目逐渐递减(图2).
图2 鲤鱼各碱基类型微卫星不同拷贝数分布Fig.2 Distribution of different microsatellite repetitions in Cyprinus carpio
鲤鱼基因组中每种微卫星核心序列的拷贝数变化范围较大,从5~4 029拷贝数不等. 但6种微卫星核心序列拷贝数均集中在5~40次,占微卫星总数的99.44%. 单碱基核心拷贝数主要集中在10~33次,占单碱基微卫星总数的99.84%;二碱基核心拷贝数在6种微卫星中最为分散,主要集中在6~40次,在二碱基中占比98.22%. 其中最高拷贝数为4 029次,在6种微卫星拷贝范围中拷贝数最大:三碱基、四碱基和五碱基核心拷贝数范围较窄,分别集中在5~21次、5~25次和5~20次,分别占比99.37%、97.96%和 95.70%. 六碱基核心拷贝数更为集中,主要集中在5~9范围内,占比88.59%.
2.4 GO功能注释、富集和KEGG富集特征
通过对鲤鱼全基因组中搜索的微卫星进行定位,并对微卫星定位在编码区的基因进行功能注释. 结果表明,包含60 139个基因注释的鲤鱼基因组中,17 678个基因的外显子与微卫星有重叠. 基因的GO功能注释主要分为生物学过程、细胞组分和分子功能三大类. 通过对外显子上包含微卫星的17 678个编码基因进行GO功能注释,共得1 758个GO条目. 注释到生物学过程的条目数和编码基因数均最多,其中注释条目数共1 120个,占比63.7%,涉及的生物学过程主要包括细胞过程(cellular process)、单组织过程(single-organism process)及代谢过程(metabolic process)等;注释到细胞组分的条目有416个,占比23.7%,主要包括膜(membrane)、细胞(cell)和细胞成分(cell part)等;222个条目(占比12.6%)注释到分子功能(molecular function)方面,主要集中在连接(binding)、催化活性(catalytic activity)以及信号传感器活动(signal transducer activity)等方面,其中注释到结合活性(binding)功能的基因在所有注释功能中最多(图3). GO功能富集最为显著的条目是代谢过程的调节(P=8.47E-15)、大分子代谢过程的调控(P=1.24E-14)以及细胞生物合成过程的调控(P=5.55E-14)(表4).
细胞组分:1.膜;2.细胞;3.细胞组分;4.膜组分;5.细胞器;6.大分子复合物;7.细胞器组分;8.细胞外区域;9.细胞连接;10.膜封闭腔. 分子功能:11.结合活性;12.催化活性;13.信号传感器活性;14.分子传感器活性;15.转运活性;16.核酸结合转录因子活性;17.分子功能调节剂;18.结构分子活性;19.转录因子活性;20.翻译调节器活性. 生物学过程:21.细胞进程;22.单组织过程;23.代谢过程;24.生物调节;25.生物过程调节;26.刺激应答;27.发送信号;28.定位;29.细胞组成或生物发生;30.多细胞生物过程;31.发展过程;32.生物过程的负调控;33.生物粘附;34.生物过程的正调控;35免疫系统过程.图3 鲤鱼微卫星分布于外显子的基因GO功能注释Fig.3 The GO function annotation of exon microsatellites in Cyprinus carpio
表4 鲤鱼微卫星分布于外显子的基因GO富集Table 4 Gene GO enrichment of the microsatellite distributed in exons from Cyprinus carpio
对微卫星分布于外显子上的基因进行KEGG富集分析,共富集到细胞过程(cellular processes)、环境信息处理(environmental information processing)、遗传信息处理(genetic information processing)、代谢(metabolism)和有机系统(organismal systems)五大分支中,包括280条通路. 其中机体系统分支富集到的基因总数最多,共6 520个. 环境信息处理分支中的鞘脂信号通路(sphingolipid signaling pathway)基因富集最为显著(P=2.36E-10),PI3K-Akt 信号通路(PI3K-Akt signaling pathway)上富集的基因最多,共有319个. 分布到代谢分支的通路种类最为广泛,包含113条通路,共富集到1 609个相关基因. 其次是有机系统(81条通路),分布到遗传信息处理的通路种类和基因总数均最低(22条通路,881个基因)(表5).
表5 鲤鱼微卫星分布于外显子的基因KEGG富集Table 5 The KEGG enrichment of exon microsatellites in Cyprinus carpio
2.5 鲤鱼全基因组微卫星总体特征分析
本研究以鲤鱼全基因组为基础,利用生物信息学方法对全基因组中的完整型微卫星进行了搜索、统计并分析. 在1.7Gb全基因组中共搜索出837 004个完整型微卫星,占鲤鱼全基因组大小的0.91%,其比例低于已公布的人Homosapiens(3%)[18]、小鼠Musmusculus(2.85%)[26]和大鼠Rattusnorvegicus(1.41%)[27],但与红鳍东方鲀Takifugurubripes(0.73%)、双斑东方鲀Takifugubimaculatus(0.84%)、菊黄东方鲀Takifuguflavidus(0.84%)[28]及红原鸡Gallusgallus(0.49%)[29]相比所占比例较高. 可见在鲤鱼全基因组中微卫星的含量较为丰富. 究其物种间含量差异原因,可能是由于不同物种间基因组大小和基因组内碱基组成及排列方式的差异导致的.
在鲤鱼6种完整型微卫星中,单碱基微卫星分布数目最多,占完整型微卫星的59.19%,总长度也最大,在基因组中占比41.43%. 这一现象与已报道的大熊猫Ailuropodamelanoleuca、北极熊Ursusmaritimus[30]、食蟹猴Macacafascicularis[31]等哺乳动物和红鳍东方鲀、双斑东方鲀、菊黄东方鲀、黑青斑河鲀Tetraodonnigroviridis[28]等水生动物的优势碱基类型相同.而在中国对虾Fenneropenaeuschinensis[32]、三疣梭子蟹Portunustrituberculatus[33]和中华鳑鲏Rhodeussinensis[34]等水生动物中均为二碱基占优势. 由此可知,不同物种的优势微卫星类型也各不相同. 因而,不同物种的微卫星序列既存在基因组间的进化现象,也可能存在着一定的保守现象.
2.6 鲤鱼6种微卫星中多种类别特征分析
在鲤鱼全基因组1~6种微卫星类型中,均表现出明显的A、T碱基优势. 在单碱基类别中,A类别(A/T)微卫星数目占比96.57%,跟C类别(3.43%)相比具有明显的优势. 这种现象同样存在于人、果蝇Drosophilamelanogaster[35]、食蟹猴[31]、大熊猫和北极熊[30]等绝大部分物种中.
在二碱基类别中,AC类别占有较大的比例,其次是AT和AG. 而在黄颡鱼[36]、金钱鱼[21]、斑鳢[23]和 4种河鲀[28]等水生动物中二碱基前三类别排序均为AC、AG和AT. 尽管AG和AT在不同物种二碱基中排序不同,但均有AC类别占比较大,AG、AT类别占比相差较小的特征.
AAT、AAC和AAG分别为三碱基中的前三类别,这表明AAN(N代表除A以外的任何碱基)类别在三碱基中具有绝对的碱基优势. 该现象与人[18]等三碱基分布相一致. 研究表明,在6种完整型微卫星中,三碱基微卫星不同于其他碱基类型,其与生物体的遗传疾病具有一定的相关性[37]. 而Toth[35]报道在外显子中,三核苷酸重复在6种碱基类型中总是最丰富的. 因此猜测,伴随着微卫星核心序列拷贝数的随机波动,有可能会改变鲤鱼功能基因的结构,从而影响其相关性状的表达,引起鲤鱼部分遗传疾病的发生. 因此对鲤鱼三碱基微卫星进行定位和研究分析,将有利于对其相关遗传疾病做出早期的预防与判断.
在四碱基、五碱基和六碱基类别中,AAAN、AAAAN和AAAAAN(N代表除A以外的任何碱基)的数量较为丰富,这与灵长类和啮齿类等物种中微卫星的研究相一致[35]. AACCCT类别在六碱基中数目最多,在黄颡鱼[36]、红鳍东方鲀等4种河鲀[28]中同样很丰富,但在其他物种中分布较少. 推测该类别可能在水生生物遗传进化及环境适应方面发挥一定的作用.
2.7 鲤鱼6种微卫星核心拷贝数分布特征分析
鲤鱼全基因组微卫星分析表明,6种完整型微卫星均随着核心序列拷贝数的增加其微卫星的数目逐渐递减. 这种现象与人[18]、虎皮鹦鹉Melopsittacusundulatus[38]、虾夷扇贝Patinopectenyessoensis[39]、金钱鱼[21]以及4种埃博拉病毒[2]等绝大部分物种全基因组中微卫星的拷贝变化规律相一致. 有关研究表明,当6种微卫星核心序列拷贝数达到产生滑动突变的最低阈值时,DNA复制就会出现滑动突变[40]. 此外,对于各类别微卫星出现频率随核心序列拷贝数变化的规律性,Wierdl等[41]认为与微卫星的稳定性和突变率有关. 即随着微卫星长度的增加,其稳定性会越低,同时突变率会越高,这使得越长的微卫星序列其数目越少.
2.8 鲤鱼微卫星相关基因GO注释、富集和KEGG富集分析
微卫星在基因中的分布对于基因功能的表达非常重要. 在生物体内,不同基因相互协调行使其生物学功能,通过GO注释、富集能够分析目的基因集在基因功能上的集中体现,而KEGG通路显著性富集能够确定目标基因集参与的最主要生化代谢途径和信号转导途径. 本研究通过对外显子上包含微卫星的基因进行GO功能注释、富集和KEGG富集分析,来进一步探究微卫星在基因功能方面发挥的作用. GO注释分析表明,注释到细胞组分中的相关基因主要定位于膜、膜组分和细胞组分等;分子功能主要集中在结合活性、催化活性和信号传感器活性等方面;参与的生物学过程主要与细胞过程、单组织过程和代谢过程等相关. GO富集前十条目均与代谢调节、生物合成调控以及基因表达调控三个功能方面显著相关,其中以代谢过程调节、大分子代谢过程调控和细胞生物合成过程调控富集最为显著. KEGG共富集到280条通路中,其中环境信息处理类别中的鞘脂信号通路在所有通路中富集最为显著,这表明微卫星富集的较多基因与信号转导紧密相关. 综合KEGG 5个分支的通路富集情况可知,富集的目的基因主要参与了信号转导通路、代谢通路以及生长相关通路等通路的调节过程.
基于GO注释、富集和KEGG富集分析结果推测,定位在基因编码区域的微卫星功能可能集中表现在参与细胞间信息交流、信号转导、细胞新陈代谢以及生物合成调控几个方面. 通过与黄颡鱼[36]、绿尾虹雉[42]2个物种基因组中分布在外显子上的微卫星GO注释、KEGG富集比较发现,3个物种中GO注释的基因均与膜组分、信号转导、结合活性以及代谢过程功能紧密相关,KEGG富集的通路也都集中在信号转导通路和代谢通路方面. 因此猜测不同物种中定位在基因编码区域上的微卫星可能在参与信号转导、细胞代谢等过程方面发挥一定的功能.
3 结论
尽管关于鲤鱼微卫星开发及应用的报道已有很多,但可有效利用的微卫星标记仍相对较少,目前还不能够满足鲤鱼以及鲤科鱼类遗传育种相关的大量研究. 本研究利用生物信息学软件,在鲤鱼全基因组内对微卫星进行搜索分析,并对处于基因编码区域的微卫星进行了功能探究,这为鲤鱼后续的基因组分析、种群遗传信息评估、品系亲缘关系鉴定以及种群良种选育等提供了数据支持.