基于RNA-seq技术的北草蜥转录组中SSR位点信息分布
2021-11-07刘其则陈忠荫廖征蓝林炽贤
刘其则,陈忠荫,廖征蓝,夏 岩,郭 坤,杜 宇,林炽贤
(1.海南热带海洋学院a.水产与生命学院;b.海南省两栖爬行动物研究重点实验室;c.热带海洋生物资源利用与保护教育部重点实验室,海南 三亚,572022;2.温州大学 生命与环境科学学院,浙江 温州 325035)
0 引言
SSR(Simple sequence repeat)是一类常用的微卫星分子标记,通常是由1~6个碱基组成的基本单位重复多次组成的一小段DNA序列[1]。SSR在真核生物基因组中广泛存在,具有丰富的多态性。SSR广泛用于遗传图谱构建、遗传多样性分析、数量性状基因座(QTL)分析和系谱分析等[2-5]。传统的SSR开发技术的过程烦琐,效率较低。基于转录组测序得到的SSR具有数目多和质量优等特点,已被广泛用于植物种质资源分析和谱系分析[6-7]。近年来,科研工作者对多种鱼类进行了基于转录组测序的SSR位点开发,为辅助分子育种提供了良好的遗传信息基础[8]151,[9]123,[10]。
北草蜥(Takydromusseptentrionalis)是蜥蜴科草蜥属的一种爬行动物,为中国特有种,这种方式的SSR位点开发在越来越多的类群中都有不同程度的开展,以此进行种群遗传、亲子鉴定和遗传图谱等相关研究[11]。北草蜥广泛分布于我国的华北地区,其系统发育树的构建和遗传结构的分析有助于人们了解爬行动物的进化过程中的重要事件。北草蜥生境类型较多,体色变化具有环境温度依赖性,在其不同种群间也存在体色变化能力的差异[12]。说明北草蜥皮肤颜色和变化能力都与环境有很强相关性,在基因水平上也可能存在很大的种群差异性。本文基于北草蜥皮肤的转录组测序结果分析,得到了大量的SSR位点和SNP信息;从SSR位点和SNP信息的分布特点、出现的频率等方面进行分析,旨在为北草蜥的基因克隆、遗传图谱构建和进化关系分析等提供理论方法。
1 材料和方法
1.1转录组数据的获取
依据文献报道[12]8,下载北草蜥转录组测序数据。该数据是对来自湖南桂阳种群的雄性北草蜥皮肤样品,进行Illumina HiSeq测序后,通过Trinity软件拼接得到unigenes。
1.2 SSR位点筛选
通过SSR分析软件Micro SAtellite(MI-SA)对417 190条unigenes序列进行SSR搜索,设定筛选条件:重复单位的碱基数目为1~6个,SSR序列总长度大于10 bp,单碱基的重复基元的重复次数大于10,剩余的重复基元的重复次数大于5次[13]。
2 结果与分析
2.1 北草蜥转录组中SSR的分布及频率
通过Trinity拼接了9个样本的转录组测序结果(表1),得到417 190条转录本序列,合计全长479 055 094 bp。共计识别到60 968个SSR位点,其中包含SSR位点的转录本数目为56 456条(占总转录本数目的13.53%)。所有转录本序列中的10 644个unigenes有1个以上的SSR位点,存在复合形式的SSR位点的数量有4 513个。北草蜥中存在丰富的SSR类型,1~6个核苷酸重复的类型都存在。不同类型的核苷酸重复含量差异较大,单核苷酸重复型有27 028个(44.33%);2核苷酸重复型和3核苷酸重复型分别有17 876个(29.31%)和13 332个(21.87%);4~6核苷酸重复型含量极少,位点总数占比只有4.48%,其中,4核苷酸重复型有2 580个(4.23%),5核苷酸重复型和6核苷酸重复型分别只有112个(0.18%)和40个(0.07%)。不同个类型的SSR位点的序列总长度不一样,从大到小依次:1、2、3、4、5、6核苷酸重复型。SSR位点的平均长度为15.80 bp(963 422 bp÷60 968),各SSR位点的平均长度依次:11.15、17.32 、19.76、32.60、32.68、32.10 bp。从整体上看,在北草蜥转录组中,平均约7.86 kb出现1个SSR位点。
表1 北草蜥SSR类型和分布情况
在北草蜥转录组的SSR位点中,完美型重复(P型)有52 498个,复合型重复(C型)有3 957个。P型SSR位点有6种,分别为完美单碱基重复(P1)、完美双碱基重复(P2)、完美3碱基重复(P3)、完美4碱基重复(P4)、完美5碱基重复(P5)和完美6碱基重复(P6)。其中:P1、P2和P3数量较多,分别为274.46、251.49、224.04 kb;其次是P4,为69.10 kb;而P5和P6数量很少,分别只有3.48 kb和1.03 kb。在北草蜥转录组中,平均每Mb上有0.009个完美重复的SSR。
2.2 北草蜥转录组SSR特征分析
依据北草蜥转录组中不同类型的SSR位点重复次数分布的结果显示,一共有106种重复基元,1~6核苷酸重复基元的种类依次为2、4、10、33、31和26。单核苷酸重复型有A/T和C/G 2种,其出现的次数占绝对优势,分别有8 665个和18 363个,占总SSR数目的14.21%和30.12%。2核苷酸重复型中,AC/GT和AG/CT出现相对较多,分别有9 968和5 670个,占总SSR数目的16.35%和9.30%。3核苷酸重复型中,AAT/ATT数量最多有5 252个,占总SSR数目的8.61%;其次是AGG/CCT和AGC/CTG,分别有1 252和1 236个。4核苷酸重复型中的重复基元只有9个出现的次数超过100次,依次为AAGG/CCTT、AGAT/ATCT、AAAG/CTTT、AAAC/GTTT、AAAT/ATTT、AGGG/CCCT、AGGC/CCTG、ACAG/CTGT、ACAT/ATGT。5~6核苷酸重复型的基元较多,但是每个基元出现的次数都很少。
在北草蜥转录组SSR位点中,重复的次数有5~94次,其中,10次重复出现的概率最大,有14 700个位点出现10次重复,占比24.11%;其次是6次重复出现的概率,共有10 157个位点,占比16.66%;重复次数为13次及以上的位点较少,总占比10.96%。单核苷酸重复型、2~3核苷酸重复型的SSR位点的重复次数比4~6核苷酸重复型的SSR位点的重复次数更多,其中,以单核苷酸重复型SSR的重复次数类型的数目最多(表2)。
表2 北草蜥不同类型SSR重复次数分布
对SSR的长度分析发现,北草蜥转录组SSR的长度分布在10~102 bp。其中:小于12 bp的SSR位点为20 727个;12~20 bp的SSR位点为31 297个;大于20 bp的SSR位点为8 944个。在所有SSR位点中,高度多态性和中度多态性的SSR位点占总数的66%。
2.3 北草蜥转录组SNP分析
通过分析得到SNP位点有1 097 299个,平均每kb有5.73个SNP位点。其中:转换型SNP位点有C/T和A/G 2种,其位点分别有366 261和372 000个,占总位点数的比例为67.28%;颠换型SNP位点有A/T、A/C、T/G和C/G 4种,其位点分别有89 567、87 601、88 436和93 434个,占总位点数的比例为32.72%。
3 讨论
本研究在417 190条unigenes覆盖的参考基因组序列中,共检测到P型和C型2种SSR位点共计60 968 个,其中:P型位点较多,占位点总数的86.11%;C型位点极少,只占位点总数的6.50%。在所有SSR位点中,低核苷酸(1~3)重复型出现次数占所有核苷酸重复类型(1~6核苷酸重复型)出现次数的比例明显高于多核苷酸(4~6)重复型出现的比例,这与鱼类和昆虫中的研究结果类似[8]151,[9]125,[14]104,[15]12,[16]1803,[17]47,[18]54,[19]11。中度多态性的SSR位点的数目也明显多于高度多态性SSR位点数目,这也与鱼类和昆虫的研究结果类似[8]151,[9]125,[14]104,[15]12,[16]1803,[17]47,[18]54,[19]11。
在鱼类中,银鲳(Pampusargenteus)和江鳕(Lotalota)中的SSR以单核苷酸重复的数目最多;牙鲆(Paralichthysolivaceus)和印尼虎鱼(Datnioidesmicrolepis)中则以2核苷酸重复型的数目最多[9]125,[14]103,[16]1802,[19]10。分析具体使用的筛选条件时发现:银鲳和江鳕中,重复序列的阈值设定在了10 bp[14]103,[15]11;牙鲆和印尼虎鱼中,筛选阈值设定在了15 bp[9]123,[19]10。因此,筛选条件的差异可能是影响单核苷重复型和2核苷酸重复型SSR的数目产生差异的原因之一。但是在昆虫中,温带臭虫中SSR以单核苷酸重复型的数目最多;印度谷螟(Plodiainterpunctella)中SSR以2核苷酸重复型的数目最多;桔小实蝇(Bactroceradorsalis)中SSR以3核苷酸重复型的数目最多[16]1803,[18]54。研究其分析方法发现,在这3种昆虫的研究中选择的阈值是相同的[16]1802,[18]53,说明不同物种间SSR类型还是存在显著差异。但总体来说,低核苷酸(1~3)重复型出现次数占所有核苷酸重复类型(1~6核苷酸重复)出现数目的比例明显高于多核苷酸(4~6)重复型出现的比例,中度多态性的SSR位点的数目也明显多于高度多态性SSR位点数目[8]151,[9]125,[14]104,[15]11,[16]1803,[17]46,[18]54,[19]11。由于本研究采用的筛选阈值较为宽泛,因此可以筛选到更多的SSR位点,这有利于后续关于北草蜥体色种群遗传的相关性研究。
在对北草蜥转录组中的SSR位点进行分析发现,单核苷酸重复型有C/G的出现的次数显著多于A/T出现的次数。但是在江鳕、印尼虎鱼等鱼类,温带臭虫(Cimexlectularius)、印度谷螟(Plodiainterpunctella)等昆虫中,以及在大熊猫(Ailuropodamelanoleuca)等哺乳类的大多数物种中,单核苷酸重复型中A/T基因序列最为丰富[14]104,[16]1803,[17]47,[19]11,[20]。因此,北草蜥中单核苷酸重复型中C/G基因序列的高丰度可能是较为独特的存在。2核苷酸重复型中,AC/GT和AG/CT出现频率较高,而AC/GT基因序列最为丰富,这与江鳕、印尼虎鱼和奥地利罗非鱼(Oreochromisniloticus)等物种中的发现相一致[8]151,[15]11,[19]10。但是在印度谷螟和桔小实蝇等昆虫中,AT/AT基因序列出现的频率最高[18]53,[19]10。北草蜥中3核苷酸重复型和4核苷酸重复型的基元主要以AAT/ATT和AAGG/CCTT为主,而江鳕中主要以CTC/GAG和ATAC/GTAT为主[15]13,印度谷螟中则以CCG/CGG和AAAT/ATTTT为主[17]45。这表明3核苷酸重复型和4核苷酸重复型在物种中的变异比单核苷酸重复型和2核苷酸重复型都大。这可能与3核苷酸重复型基因序列除了形成了不同的DNA结构外,还可能与物种进化中产生物种特异性细胞因子时发挥着重要作用有关[21]。
(责任编辑:潘学峰)