五家渠尖缘螺线粒体基因组测序分析
2021-07-01阿尔祖古丽买买提吐尔逊张子俊张卫红
阿尔祖古丽·买买提吐尔逊,张子俊,张卫红
(新疆大学 生命科学与技术学院,新疆 乌鲁木齐 830046)
尖缘螺属OxylomaWesterlund,1885隶属于腹足纲(Gastropoda),柄眼目(Pulmonata),琥珀螺科(Succineidae)。广泛分布于非洲、欧洲、北美洲及亚洲等地。在我国尖缘螺属仅报道有印度尖缘螺(Oxylomaindica(Pfeiffer,1849))、狭长尖缘螺(Oxylomapfeifferi(Rossmaessler,1835))[1-2]和五家渠尖缘螺(OxylomawujiaquensisLi,Guo & Zhang,2017)[3]。五家渠尖缘螺已知仅分布于新疆。
线粒体基因组具有自己特殊的遗传物质,呈母系遗传,结构简单。作为高频率应用于生物系统进化研究的分子标记,线粒体基因组具有编码区高度保守、拷贝数高、重组率低等特点[4-5]。目前已广泛应用于动物系统发育、物种分类、群体遗传进化、种质鉴定等领域[6]。近年来腹足纲类群线粒体基因组测序数据的增加,促进了其系统演化问题的研究[7-9]。琥珀螺科的线粒体基因组目前报道仅有一种,White等[10]对肺螺亚纲10个种类的线粒体基因组进行测序和研究,首次获得了琥珀螺科的模式种腐败琥珀螺(SuccineaputrisLinneaus,1758)的线粒体全基因序列。利用高通量测序技术对动植物基因组进行测序现在成为新的基因组研究趋势[11-13],本研究使用高通量测序Illumina Hiseq及Sanger技术,对五家渠尖缘螺线粒体全基因组进行研究。研究结果可为我国琥珀螺科的系统分类学研究提供数据基础。
1 材料和方法
1.1 试验材料
五家渠尖缘螺样本(XJU S15001)于2015年6月14日采集于新疆五家渠市青格达湖湖坝边(N44°07.736′E08°33.678′)。-20 ℃存放于无水乙醇中。
1.2 DNA提取及检测
剪取软体腹足肌肉组织约30 mg,用天根公司提供的DNA提取试剂盒提取基因组DNA。DNA经Nanodrop 2000(Thermo Fisher Scientific,USA)检测浓度及纯度。
1.3 高通量测序
检测合格的DNA样品,通过转座酶打断DNA,两端加上接头构建测序文库。对文库应用高保真的聚合酶进行扩增,对获取的产物进行纯化,同时利用两步法筛选,最终筛选出片段峰值在300 bp的可测序文库。通过Invitrogen Qubit Spectrophotometer(Thermo Fisher Scientific,USA)确定文库的质量,用Agilent 2100 Bioanalyzer (Agilent Technologies,USA)确定文库的大小是否适合于测序平台。对质检合格的文库片段,在Illumina Hiseq 2500测序平台用2×150 的双端测序方法进行测序。测序结果中出现一些缺口,因无法正确测序这些片段,因此,利用Sanger测序技术,设计9对特异引物对其进行补gap测序。高通量测序与Sanger测序由上海天昊生物有限公司测序完成,引物信息见表1。
表1 五家渠尖缘螺基因组测序引物Tab.1 Primers for sequencing of the mitochondrial genome of Oxyloma wujiaquensis
PCR反应程序为:95 ℃预变性2 min;94 ℃变性20 s,62~64 ℃退火40 s,72 ℃延伸1~3 min,共11个循环;56~58 ℃退火30 s,72 ℃延伸2 min,共24个循环;72 ℃终延伸2 min,4 ℃冷却。PCR扩增体系包括1×GC/HotStarTaq 缓冲液1.5 μL、MgCl2(1.5 mmol/L) 1 μL、dNTP(2.5 mmol/L) 1 μL、上下游引物(10 μmol/L)各1.5 μL、HotStarTaq聚合酶(1 U/μL) 1 μL、模板DNA 1 μL、最终加ddH2O补足至20 μL。扩增产物经1%琼脂糖凝胶电泳检测后,在ABI3730XL测序仪上进行测序。
1.4 序列拼接、基因组装
通过测序平台获得的原始序列Raw reads,利用Trim galore在线过滤软件删除低质量、含有带接头的序列,最终得到高质量可组装的序列Clean reads。使用BWA软件比对至肺螺亚纲类群,按无脊椎动物组装策略使用mito Marker组装软件进行序列组装。
1.5 基因组注释
通过与近缘种序列进行比较后,选定琥珀螺科模式种腐败琥珀螺的线粒体全基因组序列为参考基因组,应用Genious R11.0 (Biomatters Ltd,Auckland,New Zealand)软件及在线注释软件MITOS Web Server[14],对线粒体全基因组序列进行注释,预测tRNA的二级结构、非编码区域的位置等。注释结果经OGORAW在线作图软件进行作图,最后将注释成功的线粒体基因组数据提交到GenBank。
1.6 序列分析及系统进化树
利用Genious R11.0软件对O.wujiaquensis线粒体全基因组的核苷酸序列进行分析,计算AT和 GC偏移值[15]。通过MEGA 7.0软件对五家渠尖缘螺密码子使用情况进行分析,并与腐败琥珀螺的线粒体基因组序列相比较。以新进腹足目Caenogastropoda的Lophinotomacerithiformis作为外群[10],选择腹足纲的肺螺亚纲及后鳃亚纲共6个种的线粒体基因组序列(表2),用最大似然法(Maximum likelihood,ML)基于13个蛋白质编码基因构建系统进化树,从基因组水平上初步探讨五家渠尖缘螺与其他类群之间的系统关系。
表2 腹足纲部分种类线粒体基因组序列GenBank登录号Tab.2 GenBank accession number mitochondrial genome sequences of some species in Gastropoda
2 结果与分析
2.1 五家渠尖缘螺线粒体基因组序列分析
通过高通量测序获得原始序列Raw reads为31 259 236 bp,过滤后得到序列Clean reads为27 485 002 bp。经过补gap测序、基因拼接和组装最终得到了14 086 bp的五家渠尖缘螺线粒体全基因组序列(GenBank 登录号:MT670402)。基因注释结果显示,其基因组共有37个基因组成,包括了13个蛋白质编码基因,22个tRNA基因,2个rRNA基因(图1)。 其线粒体全基因组序列与腐败琥珀螺的相似性为76.1%。
2.2 五家渠线粒体基因组基因组成
五家渠尖缘螺线粒体基因组各基因的序列长度、方向及密码子等情况见表3。在37个基因中重链(H)编码15个基因,轻链(L)编码22个基因,基因的排列顺序与腐败琥珀螺基因排列顺序一致。五家渠尖缘螺线粒体基因组序列中有14处存在基因间隔,长度在1~237 bp;12处存在基因重叠,长度在1~59 bp。腐败琥珀螺线粒体全基因序列15处存在基因间隔,长度在1~48 bp;12处存在基因重叠,长度在5~38 bp[10]。二者有所不同。
2.3 核苷酸分析
表4显示了2种琥珀螺线粒体基因组序列的核苷酸特征。五家渠尖缘螺线粒体基因组序列AT含量为75.64%、GC含量为24.36%;腐败琥珀螺的AT含量为77.00%,GC含量为23.00%,具有明显的A、T偏向性。五家渠尖缘螺的线粒体全基因组序列的AT skew为负值,腐败琥珀螺的为正值,GC skew均为正值,说明总体来看二者T、G碱基的使用率较高。但五家渠尖缘螺tRNA基因和rRNA基因的AT skew分别是0.03和0.01,为正数,五家渠尖缘螺这两类基因A碱基的使用频率高于T碱基。
表3 五家渠尖缘螺线粒体基因组组成Tab.3 Organization of the mitochondrial genome of Oxyloma wujiaquensis
表3(续)
表4 2种琥珀螺线粒体基因组核苷酸组成分析Tab.4 Nucleotide composition of mitochondrial genome of two species of Succineidae
2.4 蛋白质编码基因
五家渠尖缘螺线粒体基因组中13个蛋白质编码基因(Protein coding genes,PCGs)的总长为10 678 bp,AT含量75.41%,各基因的长度在132~1 680 bp。从表3得知,13个蛋白质编码基因使用ATG(6个)、TTG(3个)、TTA(2个)和ATT(1个) 为起始密码子;使用TAA(8个)、T(3个)、CAT(1个)、TAG(1个)为终止密码子。使用的密码子类型是肺螺亚纲类群中常见的起始和终止密码子。分析琥珀螺科2个种的线粒体基因组序列同义密码子使用频率发现(表5),五家渠尖缘螺线粒体全基因组序列共编码3 435个密码子,腐败琥珀螺共编码4 285个密码子(不含终止密码子),在2个线粒体基因序列中密码子UUA(Leu)、UUU(Phe)、AUU(Ⅱe)等均有较高使用次数。根据图2可知,甲硫氨酸(Met)在2个线粒体基因组序列中使用的密码子有所不同,在五家渠尖缘螺基因组序列中Met使用ATA、ATG、TTG、TCT等4种密码子,其中ATA的数量最多;在腐败琥珀螺基因组序列中Met使用ATA、ATG、TTG等3种密码子,其中ATA的数量最多。
2.5 tRNA、rRNA 基因及控制区
五家渠尖缘螺线粒体基因组中tRNA基因数目为22个,基因总长为1 818 bp,AT为75.96%,GC为24.04%。通过MITOS预测tRNA基因的二级结构,发现tRNASer1、tRNASer2缺少DHU臂。其他基因均能形成经典的三叶草结构,这与腐败琥珀螺和其他肺螺亚纲类群tRNA基因二级结构基本一致。多数后生动物线粒体基因组中tRNASer1基因的二级结构缺失DHU臂,成为典型的基因结构特征之一[15-18]。
五家渠尖缘螺线粒体基因组中的rRNA基因的位置与腐败琥珀螺的一样,16SrRNA位于tRNAVal、tRNAPro之间,12S rRNA位于tRNAGlu、tRNAMet之间。16SrRNA的长度为1 103 bp,12SrRNA为713 bp。rRNA基因序列的AT含量为76.75%,与腐败琥珀螺76.58%的含量相近,具有明显的A、T偏向性。
表5 2种琥珀螺线粒体基因组密码子使用情况 Tab.5 Codon usage in the mitochondrial genome of two species of Succineidae
后生动物线粒体全基因组序列中存在长度及位置不同的非编码区域,由于该区的A+T含量较高,又被称为控制区或A+T富集区,该区域负责调控线粒体基因组的复制与转录过程[19-20]。通过MITOS注释软件发现,在五家渠尖缘螺线粒体基因组中存在控制区,长度在42 bp左右,位于COX1和tRNAVal之间。腐败琥珀螺线粒体基因组序列中存在的控制区长度在50 bp左右,位于COX3与tRNAⅡe之间。2个线粒体基因组序列控制区的长度与其他肺螺亚纲类群出现差异[8,10,21-23]。在线粒体基因组序列中,控制区片段的A+T含量较高,易发生碱基突变,属于高度可变区。该区域会影响不同种的动物线粒体基因组长度的大小,甚至会导致线粒体基因组序列的测序失败[24-26]。
2.6 系统发育分析
系统进化树结果显示(图3),五家渠尖缘螺与同科的腐败琥珀螺紧密地聚在一起,形成一支。后鳃亚纲类群聚为一支,肺螺亚纲类群没有聚在一起。结果表明,肺螺亚纲类群并非单系类群,琥珀螺科和后鳃亚纲分别为单系类群。该结果与White等[10]的系统发育分析结果一致。
3 讨论
本研究通过高通量测序获得了五家渠尖缘螺线粒体基因组全序列,全长为14 086 bp。通过基因注释后得到了37个基因,基因排列顺序与同科的腐败琥珀螺线粒体基因组序列完全一致,但是在基因序列的长度、碱基含量、密码子使用情况及非编码区的位置和长度上存在差异。五家渠尖缘螺线粒体基因组序列中有14处存在基因间隔,长度在1~237 bp,腐败琥珀螺线粒体全基因组序列15处存在基因间隔,长度在1~48 bp,明显短于五家渠尖缘螺。五家渠尖缘螺线粒体基因组全序列及各基因序列的AT含量均少于腐败琥珀螺,全序列AT含量前者为75.64%,后者为77.00%。在编码蛋白质的基因中,五家渠尖缘螺线粒体全基因组序列共编码3 435个密码子,腐败琥珀螺共编码4 285个密码子。密码子的使用情况基本相同,但编码甲硫氨酸(MET)的密码子有所不同,前者使用ATA、ATG、TTG、TCT等4种密码子,后者则使用ATA、ATG、TTG等3种密码子。终止密码子也有所不同,五家渠尖缘螺COX3基因使用CAT为终止密码子,腐败琥珀螺则没有。线粒体基因组的非编码区域在五家渠尖缘螺中位于COX1和tRNAVal之间,长度为42 bp,腐败琥珀螺及其他的肺螺亚纲类群的非编码区域位于COX3与tRNAⅡe之间[10],长度为50 bp。在测序过程中发现五家渠尖缘螺的非编码区域的AT含量很高,导致全序列测序很困难。以上表明,五家渠尖缘螺与腐败琥珀螺线粒体基因组之间存在一定的差异,这些差异可能是测序过程的不足,或者是物种本身的基因序列特点引起的。由于在NCBI上琥珀螺科线粒体基因全组序列只有一条,因此无法更加系统地分析其在不同属种间的差异性。有关研究有待更多数据的补充。
基因组学及后基因组学的不断发展,对生物学的更深层研究带来便利。线粒体基因组学研究作为其中的重要领域,广泛应用于物种进化、遗传、基因流等研究中。目前,琥珀螺科中只有腐败琥珀螺的线粒体全基因组序列已经完成测序,本次获得的五家渠尖缘螺线粒体全基因组序列将增加琥珀螺科类群基因组数据,为琥珀螺科的资源保护、遗传多样性和系统发育研究提供基础数据。