东海带鱼(Trichiurus japanicus)肝脏转录组SSR和SNP特征分析
2019-08-26柳敏海李凌刚徐志进李伟业殷小龙傅荣兵
章 霞,柳敏海,李凌刚,徐志进,李伟业,殷小龙,傅荣兵
(浙江省舟山市水产研究所,浙江 舟山 316000)
东海带鱼(Trichiurusjapanicus),俗称刀鱼、白带鱼和鳞刀鱼,属于亚热带性鱼类,主要分布于我国的黄渤海、东海以及南海海区[1-2],曾为我国重要的经济捕捞鱼类,年产量最高曾达50余万吨,约占世界同种鱼渔获量的70%[3-4]。带鱼是目前东海“四大海产”中唯一能形成较大渔汛的传统捕捞对象,在东海渔业中具有举足轻重的位置。近年来,由于过度的捕捞,东海带鱼渔业资源已经呈衰退趋势[5],捕捞群体出现了小型化、低龄化、产量下降等现象,可见东海带鱼资源保护刻不容缓。目前,国内外对带鱼的研究主要集中于其生物学特征[6]、年龄与生长[7]、摄食习性[1,8]、渔业资源[4]、种群结构分析[9]等方面,关于带鱼的分子标记开发、基因克隆和组学研究等现代分子生物实验技术应用于资源保护方面的研究寥寥。
表达序列标签SSR(Expressed sequence tag SSR,EST-SSR)和单核苷酸多态性(Single nucleotide polymorphism,SNP)是开展物种遗传多样性、分子标记开发、目标性状定位的重要技术手段。EST-SSR是指从cDNA文库或转录组数据中获得的与功能基因直接相关的SSR位点[10-11],SNP是指个体在基因组水平上发生单个核苷酸的变异,从而引起的DNA序列多态性。目前已有许多从水生动物转录组数据库中筛选SSR、SNP标记的成功案例,如基于转录组测序曼氏无针乌贼(Sepiellamaindroni)[12]和凡纳滨对虾(Litopenaeusvannamei)[13]SNP的开发,大口黑鲈(Micropterussalmonides)驯食相关[14]、三疣梭子蟹(Portunustrituberculatus)生长相关SNP位点的鉴定[15]等。但关于东海带鱼EST-SSR和SNP的研究未见报道。
本研究从已获得转录组数据(85 710个Unigene序列)中,利用软件筛选获得SSR和SNP,并对其进行统计分析,为后续开发东海带鱼的SSR和SNP标记提供科学数据。
1 材料与方法
1.1 试验材料与数据来源
东海带鱼样本于2017年在舟山市六横海域获得,样本数为6尾[体质量为(42.34±3.16)g],肛长为[(15.37±1.46)cm],标记为T1、T2、T3、T4、T5、T6。取其肝脏送上海凌恩生物科技有限公司,通过Illumina HiSeq(仪器型号Hiseq X-10)高通量测序技术(Illumina Xten PE150)获得转录组数据(RNA seq,结果未发表),数据量统计见下表1。
表1 东海带鱼转录组数据量统计
1.2 转录组SSR的筛选及分析
利用MISA软件(MIcroSAtellite identification tool)从东海带鱼的独立基因序列中进行SSR搜索,筛选标准:二核苷酸重复数大于等于6,三核苷酸、四核苷酸、五核苷酸、六核苷酸大于等于5;运用Excel软件对转录组的SSR各类型比例、序列分布和特征进行分析和统计。
SSR发生频率=含SSR的Unigene数/Unigene总数;
SSR分布的平均距离=总Unigene长度/搜索到的SSR数量。
1.3 转录组SNP的筛选及分析
以组装好的转录本为模板序列,将质控后的高质量序列使用BWA(BWA mem-k 32)与其进行比对。使用Samtools对比对的sam文件进行格式转换(Samtools view-bS-t ref_genome.fa.fai xx.sam>xx.bam)和排序(samtools sort-m 5920000000 xx.bam xx.sort)。对高质量的bam文件使用GATK“UnifiedGenotyper”功能(java-Xmx20G-jar GenomeAnalysisTK-2.7-2/GenomeAnalysisTK.jar-T UnifiedGenotyper-R ref_genome.fa-I xx.sort.bam-metrics xx.SNP.metrics-o xx.SNP.vcf-stand_call_conf 50-stand_emit_conf 50-dcov 2000-glm SNP)进行SNP和indel鉴定,并运用Excel软件进行相应的数据统计。
2 结果与分析
2.1 东海带鱼肝脏转录组序列SSR的特征分析
2.1.1 SSR重复基元的分布
经数据组装、去除冗余和进一步拼接后,最终获得85 710个Unigene序列,总长度68 387 598 bp。基于此结果上进行SSR检测分析,结果发现,能识别SSR总数为49 311个,分布在35 098条Unigene序列中。其中10 162条Unigene含有一个以上SSR位点,复合型SSR数目为4 687个。SSR的发生频率为40.95%,平均1.33 kb出现1个SSR位点。
2.1.2 东海带鱼转录组序列中SSR的数量和分布特点
各碱基类型中的不同序列组成的微卫星序列占比差异较大。由数据得,东海带鱼中共有68种重复基元。二、三、四、五、六碱基重复基元分别有4、10、26、17、9种。单核苷酸重复类型含量约占所有碱基重复类型的50.79%,比例最高,其中(A/T)n出现频率最高,占单核苷酸类型的95.53%;二碱基重复SSR含量约占总数的30.63%,其中出现的频率最多的是(AC/GT)n,占比约为72.16%;三碱基重复SSR占所有碱基重复类型的14.34%,四碱基重复SSR占比1.12%,五碱基、六碱基重复SSR所占比例较少。(AGG/CCT)n、(AAAT/ATTT)n、(AAAAT/ATTTT)n、(ACCAGG/CCTGGT)n在三、四、五、六碱基重复基元类型出现频率最多,在各自类型中占比分别是31.39%、16.64%、20.00%、31.25%(表2)。在所有的碱基重复模式中,各种重复基元中总SSR比例前五的依次为(AC/GT)n(22.10%)、(AG/CT)n(5.56%)、(AGG/CCT)n(4.5%)、(AGC/CTG)n(3.53%)、(AT/AT)n(2.87%),其他不同类型重复基元SSR占总SSR的比例分布见图1。
注:“其他”表示频率小于 0.50%的重复基元类型。
Note:“Other motifs” denoted the repeat motifs with frequency below 0.50%.
2.1.3 SSR长度分析
东海带鱼肝脏转录组中共发现有44 625个完整的SSR,bp片段长度由11至374不等,平均长度24.03 bp。在SSR序列中,主要是重复长度小于20 bp的序列,有30 997条,占总数的69.46%,其中在11~15 bp的数量最多,16~20 bp次之,具体见图2。SSR数量与长度(重复次数)的关系如图3所示,各种SSR的数量随着重复次数的增加而减少。单碱基重复次数达到23次时,SSR的数量突然增加,之后继续下降,二碱基重复达到11次时也出现类似的情况。三碱基重复数量随重复次数的增加而减少,其他SSR(四、五、六碱基重复)的数量呈此变化规律。在各个碱基类型重复次数达到一定数值时,各自的下降速率变缓慢,其中单碱基、二碱基、三碱基、其他碱基的重复次数点分别为25次、13次、9次和7次,具体见图3。
注:“其他”表示四、五、六碱基重复SSR的总和。
Note:“Others” denoted the total of trinucleotide,tetranucleotide,hexnucleotide repeats.
2.2 东海带鱼肝脏转录组序列SNP的特征分析
2.2.1 SNP颠换转、换信息
在所获得的转录组测序结果中,通过利用Samtools和GATK软件共筛选含有SNP位点的Unigenes为67 376条,占总转录组测序获得的Unigenes数的78.61%。这些序列上获得SNP位点数为876 199个,平均每76.8 bp含有1个SNP。其中颠换335 218个,转换540 981个,转换约为颠换的1.61倍。转换类型中C:G→T:A的发生频率高于T:A→C:G;颠换类型中T:A→G:C比例最高,占比10.50%(表3)。
表3 东海带鱼SNP颠换、转换信息
2.2.2 SNP碱基转换类型分析
对东海带鱼肝脏转录组序列碱基转换类型进行分析,在非编码区的SNP数量为578 020;在编码区的SNP总数298 179,其中同义SNP 为203 863个,非同义SNP为93 024个,stopgain SNP为1 189, stoploss SNP为103。东海带鱼在编码区的碱基转换类型中C→T占比最高,为22.09%,其次为G→A类型,占比21.91%,T→A占比最低,为2.92%,具体见表4。
表4 东海带鱼SNP在编码区的碱基转换类型数据分析
2.3 东海带鱼肝脏转录组序列SSR和SNP多态性分析
根据东海带鱼肝脏转录组序列结果,本研究提供各原始引物各10对,可用于今后的带鱼多态性分析和验证。引物信息见表5。
表5 东海带鱼肝脏转录组SSR和SSR部分引物信息
3 讨论
新一代的测序技术出现后,通过转录组测序筛选获得SSR和SNP已成为开发应用于遗传多样性分析、分子育种等分子标记的重要技术手段,此技术相较于基因组筛序获得分子标记,不仅能大大降低成本,且能快速精准地获得具有较高通用性的有用序列,使得开发利用分子标记更加有效便捷[16-17]。
本研究中在东海带鱼肝脏转录组Unigene序列中可识别SSR总数为49 311个,发生频率为40.95%,平均1.33 kb出现1个SSR位点,相较于其他水生动物SSR发生频率较高。据报道,大竹蛏(Solenstrictus)[18]的SSR发生频率为38.30%,黄姑鱼(Nibeaalbiflora)[19]为39.30%,凡纳滨对虾[14]为16.76%,马氏珠母贝(Pinctadamartensi)[20]为13.34%,缢蛏(Sinonovaculaconstricta)[21]为8.89%。SSR发生频率的巨大差异可能与不同物种、组织、测序平台的差异性有关[22]。另本研究结果表明带鱼肝脏转录组中的SSR数量较为丰富,总数为49 311个,共有68种重复基元。除单核苷酸重复类型外,二碱基重复类型数量最多,约占总数30.63%;三碱基重复类型次之,占比为14.34%;且呈现随着碱基数量增加,微卫星逐步减少的现象,符合众多真核生物的转录组微卫星组成情况[23-24]。同时,二碱基重复SSR中的GC/CG核心基元含量仅为二碱基重复SSR总数的0.1%,推测GC/CG重复SSR在所有物种的基因组中都极为罕见[11],但不排除是由于物种不同和微卫星搜索条件设定没有统一的标准,造成以上结果。
具有多态性的SSR位点才可能开发为微卫星标记,而多态性高低则决定SSR的可用性。一般动植物的多态性与其长度呈正相关[25-26]。Tenmykh等[27]认为,SSR长度≥20 bp,微卫星多态性较高,12 bp 本研究中筛选获得SNP位点的Unigenes为67 376条,占总转录组测序获得的Unigenes数的78.61%。这些序列上获得SNP 位点数为876 199个,平均每76.8 bp含有1个SNP。其中颠换335 218个,转换540 981个,理论上发生转换的概率与发生颠换概率的比值应该等于0.5 (1∶2),但有些生物的比值常常>0.5,这种差异被称为“转换偏差”[28]。在本文中发现转换概率约为颠换的1.61倍。大于理论值,说明存在转换偏差,这可能与碱基组成及进化过程的选择机制有关,表明碱基转换突变并不是随机产生[28]。另在研究中发现C/T发生频率在转换类型中最高,这可能与在CG序列上出现的高频率,胞嘧啶极易甲基化脱去氨基而形成胸腺嘧啶等因素有关[29]。 对东海带鱼转录组序列碱基转换类型进行分析,在非编码区的SNP数量为578 020;在编码区的SNP总数298 179,其中同义SNP 为203 863个,非同义SNP为93 024个。编码区内的同义SNP造成的编码序列的变化不会引起氨基酸序列变化;而非同义SNP则会影响蛋白质序列,导致生物性状改变[30]。因此,开发东海带鱼编码区非同义SNP(93 024个)具有重要的生物学意义。 综上所述,本研究基于东海带鱼幼鱼的肝脏转录组测序的基础上,进行了SSR和SNP的检索分析,并对SSR重复序列特征和SNP多态性特征进行了研究,补充和完善了带鱼基因数据库信息,今后可开展东海带鱼转录组序列GO分类、COG分类注释和代谢通路注释(KEGG pathway),EST-SSR、EST-SNP相关性状验证分析等工作,为带鱼的高密度遗传连锁图谱构建、物种鉴定以及种质资源保护等提供重要科学支撑。