APP下载

基于RNA-seq技术的江鳕转录组SSR位点信息分析

2019-11-27蒋艳琳杨天燕周剑光

淡水渔业 2019年6期
关键词:微卫星碱基核苷酸

孟 玮,蒋艳琳,张 林,杨天燕,周剑光

(1.浙江省海洋水产研究所,浙江省海洋渔业资源可持续利用技术研究重点实验室, 农业农村部重点渔场渔业资源科学观测实验站,浙江舟山 316021; 2.浙江海洋大学水产学院,浙江舟山 316022; 3.中国水产科学研究院长江水产研究所, 农业农村部水产品质量安全风险评估实验室(武汉),武汉 430223)

江鳕(Lotalota)隶属于鳕形目(Gadiformes)鳕科(Gadidae)江鳕属(Lota),是鳕科鱼类中仅有的生活在淡水中的珍稀经济种,也是少数极地附近分布的鱼类之一,具有较高的商业开发潜力和科学研究价值[1-2]。有关江鳕繁殖生物学领域的研究,目前国内学者已开展了其精子保存、胚胎和幼体发育、苗种培育和病害防治等方面的工作[3-7],近年来江鳕人工繁殖和饲养驯化技术也相继在黑龙江[8]、新疆[9]、河北[10]、贵州[11]、北京[12]等省市获得重大突破,但有关江鳕种质资源多样性保护和良种选育方面的基础性研究仍存在空白。

微卫星DNA又称为简单重复序列(SSR)、简单序列长度多态性(SSLP)或短串联重复序列(STRs),通常由1-6个碱基组成基本单元,呈串联重复状散布于真核生物基因组中的重复序列[13-14]。作为一种共显性分子遗传标记,微卫星技术具有多态性信息容量高、在基因组内分布广泛且均匀、易于检测等优点,已大量应用于鱼类遗传连锁图谱构建和QTL定位、个体识别和亲本鉴定、种群遗传多样性分析和系统发育重建等领域[15-16]。关于江鳕SSR分子标记技术的研究,Sanetra等[17]于2005年首次构建了江鳕基因组富集文库,并报道了21对多态性二核苷酸微卫星位点(CA)15和(CT)15信息。上述研究为江鳕遗传学背景和分子标记开发提供了宝贵的基础数据资料。然而,由于传统方法开发SSR标记的数量较少且程序复杂,所能揭示的江鳕遗传多样性水平有限。近年来,以RNA-seq为代表的二代测序技术因具有效率高、速度快和通量大的优点,成为解决制约传统分子标记开发方法瓶颈问题的有效手段,使得大规模开发微卫星标记成为现实。

本研究拟采用转录组测序RNA-seq方法,运用生物信息学方法挖掘江鳕微卫星标记,并探讨其分布规律和组成特征,研究结果以期为开展江鳕遗传多样性以及系统分化分析、开发有效分子标记并进行辅助育种等提供宝贵资料。

1 材料与方法

1.1 样品采集

研究用10尾江鳕于2019年3月采自新疆维吾尔自治区额尔齐斯河流域的布尔津河,剪取肝脏、肾脏和脑组织充分浸泡于RNAhold(北京Transgen生物)保存液中备用。

1.2 总RNA提取和cDNA文库构建

取约100 mg组织,采用TRIzol法提取总RNA[18]。采用Nanodrop、Qubit 2.0、Aglient 2100方法分别检测RNA样品的纯度、浓度和完整性符合要求后,将不同个体的组织样品mRNA进行等量混合。采用美国Clonetech公司的SMART(Switching Mechanism At 5' end of the RNA Transcript)试剂盒构建cDNA文库。文库构建完成后,分别使用Qubit2.0和Agilent 2100方法对文库浓度和插入片段大小进行检测,使用Q-PCR方法对文库的有效浓度进行准确定量,以保证文库质量。

1.3 建库测序和拼接组装

基于Illumina Hiseq4000高通量测序平台,测序读长为PE150。对获得的江鳕各组织混合样本转录组Raw data进行过滤,去除接头序列及低质量Reads后得到高质量Clean data。使用Trinity软件[19]对序列进行组装拼接得到转录本序列,所有测序读段通过De novo组装生成重叠群和单一序列。

1.4 SSR位点筛选

使用MIcroSAtellite identification tool(http://pgrc.ipk-gatersleben.de/misa/misa.html)软件对江鳕转录组中Unigene 进行序列分析,搜索和鉴定简单重复序列(SSR)。通过分析鉴定出6种类型的SSR:单碱基重复SSR、双碱基重复SSR、三碱基重复SSR、四碱基重复SSR、五碱基重复SSR和六碱基重复SSR。按照Weber[20]提供方法将微卫星DNA核心序列的差异将其分为完美型、非完美型和混合型三种类型。

2 结果

2.1 江鳕转录组中SSR的分布及频率

经过滤后的Reads片段进行质控,共得到20.78 Gb的Clean Data,平均GC含量为53.16%,且样品Q30碱基百分比不小于87.91%。通过聚类、从头组装和拼接,获得总长为7.49×107bp的Unigene共计106 084条,平均长度为706 bp。所有的Unigene中,共识别了17 619个SSR位点,包含SSR位点的Unigene序列数量为10 893条,占总Unigene的10.27%。其中,含有超过1个SSR位点的Unigene序列数量为4 427个,以复合形式存在的SSR 数量为1 208个。利用MISA软件对筛选得到的1 kb以上的Unigene做SSR分析,结果见表1所示。

江鳕转录组中SSR含量较为丰富,一至六核苷酸重复类型均存在。不同类型SSR的比例差异较大,单核苷酸、二核苷酸和三核苷酸重复占总SSR位点数的98.71%。其中,单核苷酸重复类型的数量最多(7 102个),占总SSR位点数的40.31%;其次是二核苷酸和三核苷酸重复类型,分别为6 749个和3 540个,占总SSR 位点数的38.31%和20.09%;四、五、六核苷酸重复类型的数量很少,累计仅占总SSR 位点数的1.29%。江鳕转录组SSR位点的序列总长达到270 630 bp,其中不同核苷酸重复类型的SSR位点的碱基总长表现为二核苷酸>单核苷酸>三核苷酸>四核苷酸>六核苷酸>五核苷酸。SSR 位点的平均长度是15.36 bp,各类型SSR 位点的平均长度分别是13.72、15.99、16.99、21.05、30.00和44.00 bp(表1)。从分布情况看,江鳕转录组中平均约每4.25 kb就出现1个SSR。

表1 江鳕转录组SSR位点分布情况

注:比例:各核苷酸SSR在总SSR中所占比例;频率:含有SSR的位点数目与总Unigene数目的比值;平均距离:Unigene总长度与SSR数目的比值。

江鳕转录组中鉴定出的SSR序列中,完美单碱基重复(p1)、完美双碱基重复(p2)、完美三碱基重复(p3)、完美四碱基重复(p4)、完美五碱基重复(p5)和完美六碱基重复(p6)分布数量分别为148.07、134.91、75.26、4.40、0.09、0.28 Mb,其中p1和p2数量较多,p3次之,p5数量最少,每Mb长度的Unigene序列上仅有0.09个。

2.2 江鳕转录组中SSR位点重复单元类型与频率特征

江鳕转录组中共检测到236种不同基序序列类型的SRR位点,从单核苷酸重复到六核苷酸重复依次有4、16、60、124、8、24种类型。其中,单核苷酸A/T、G/C重复基序具有绝对优势,分别占总SSR位点数的22.45%和13.05%;二核苷以AC/GT重复基序为主,所占比例为20.82%;三核苷酸重复中GGA/TCC重复基序数量最多,占总位点数量的4.11%;剩余几种重复基元类型所包含的重复基序类型比例均较低。江鳕SSR位点重复单元分布出现频率最多的单元是A/T(3 956个,占22.45%), 其次是G/C(2 300个,占13.05%),而五核苷酸、六核苷酸重复累计所占频率仅为0.02%和0.07%(表2)。

在江鳕转录组SSR位点中,以10次重复次数最多,达2 788个位点,占总SSR位点的15.82%;其次为6次重复,位点个数为2 457,占总位点数的13.95%。统计5~12 次重复的SSR 位点共有11 823个,占总SSR位点的67.10%,13~24 次重复的SSR位点共有2 888个,占16.39%(图1)。

3 讨论

本研究基于高通量测序对江鳕转录组进行测定,一次性可开发微卫星位点高达17 000余个。通过统计分析发现,江鳕混合组织转录组中含有SSR位点的Unigene占10.27%,这一比例高于银鲳(Pampusargenteus)[21],低于黄姑鱼(Nibeaalbiflora)[22]。SSR评价分布距离4.25 kb,低于大鳞副泥鳅(Paramisgurnusdabryanus)6.99 kb[23],高于巨魾(Bagariusyarrelli)2.07 kb[24]。SSR的密度可能由多种因素影响,如SSR检测标准,转录组结构和测序数据大小等。在重复序列中,单核苷酸重复(占比35.5%)的SSR为主要类型,其次为二核苷酸重复(32.29%)和三核苷酸重复(6.35%)。这与银鲳(P.argenteus)[21]、黄姑鱼(N.albiflora)[22]、银鲴(Xenocyprisargentea)[25]等鱼类的结果类似,但不同于牙鲆(Paralichthysolivaceus)[26]等以二核苷酸重复为主的鱼类,这可能与重复序列的种属特异性有关。在单核苷酸重复中,以A/T为主,在二核苷酸重复中,以AC/GT为主,与其它鱼类结果一致[21-25]。基序的重复次数是微卫星多态性的重要指标,江鳕微卫星的重复次数介于5~24之间,重复次数为10的微卫星数量最多,随着重复次数的增加,微卫星的数量慢慢下降。微卫星重复次数的变化,是微卫星序列在复制过程中滑移使得原序列长度扩增形成,可能在进化过程中受选择压力影响[27-28]。在结构基因中,这些重复次数的变化可能会引起基因的移码突变,对基因的功能有重要影响,是进化遗传研究中的一个重要的关注点。

表3 SSR主要重复单元的类型及分布比例

图1 江鳕转录组中SSR重复次数分布图Fig.1 Distribution of the repeats number of SSR repeats in L.lota transcriptome

SSR标记多态性的高低是判断其可用性的重要依据,而SSR长度是影响其多态性的重要因素。总体上来看,江鳕转录组SSR的片段长度从10~66 bp均有分布,大部分集中在10~24 bp,占SSR总数的87.24%。其中最大的片段长度为六核苷酸重复11次。根据Temnykh等[29]的研究,当SSR长度≥20 bp时出现多态性较高,长度在12~19 bp的SSR多态性中等,而当长度在12 bp以下时多态性极低。按照这一标准,将小于12 bp的SSR过滤掉以后,获得具有中等多态性的SSR位点10 079个(比例为57.21%),具有较高的多态性的SSR位点3090个(比例为17.55%)。根据以上结果,推测本研究中江鳕转录组SSR多态性在中等以上。这与Dreisigacker等[30]研究发现高级基元SSR多态性普遍比低级基元的低这一结论相似。本研究通过转录组测序开发了大量候选江鳕SSR标记,种类丰富、可用性高、覆盖整个基因组,研究结果可为这种珍稀冷水性鱼类今后开展种质资源的保护、遗传图谱构建和人工辅助育种等研究提供理论基础。

猜你喜欢

微卫星碱基核苷酸
单核苷酸多态性与中医证候相关性研究进展
酰胺质子转移成像和扩散峰度成像评估子宫内膜癌微卫星不稳定状态
绿鳍马面鲀全基因组微卫星分布特征
徐长风:核苷酸类似物的副作用
基于转录组西施舌微卫星标记开发及隐种鉴定
花斑无须鲶(Ageneiosus marmoratus)全基因组微卫星分布特征研究
应用思维进阶构建模型 例谈培养学生创造性思维
中国科学家创建出新型糖基化酶碱基编辑器
Acknowledgment to reviewers—November 2018 to September 2019
生命“字母表”迎来新成员