烟草甲线粒体基因组序列测定与分析
2020-12-22夏丽媛孙为伟崔淼伍祎
夏丽媛,孙为伟,崔淼,伍祎*
1.国家粮食和物资储备局科学研究院,北京市西城区百万庄大街11号100037
2.河南粮食作物协同创新中心,郑州市金水区红专路13号北90米450002
3.江苏省现代粮食流通与安全协同创新中心,南京市玄武区光华路1号210023
烟草甲Lasioderma serricorne,又称烟甲虫,鞘翅目窃蠹科,于1848年在法国被首次报道[1],目前已广泛分布于世界各地[2],在我国的绝大多数省区烟草甲均有发生[3-4]。在烟草工业中,烟草甲是世界烟草储藏的头号害虫[5-6],每年引起的烟草损失约占烟草总量的0.7%~1%[7-8]。害虫的基础研究是有效防治的前提和基础,前期对烟草甲的研究主要集中在生物学特性和生态学层面[9-11],然而分子水平的研究还较为缺乏。随着分子生物技术中二代测序技术(Next-generation sequencing,NGS)的发展,线粒体全基因组信息在昆虫分子系统发育学、种群遗传学和分子诊断等方面的应用越来越多[12-14],基因序列特别是线粒体基因组信息可为烟草甲的分类鉴定、系统发育和种群遗传等研究提供重要支撑[15]。
昆虫线粒体基因组是一个双链闭合的环状分子,大小一般为15~18 kb,含有37个基因,其中蛋白质编码基因(Protein-coding genes,PCGs)13个(包括3个细胞色素氧化酶亚基基因cox1、cox2、cox3,7个NADH脱 氢 酶 亚 基 基 因nad1~nad6、nad4l,2个ATP合 成 酶 亚 基 基 因atp8、atp6和1个细胞色素b还原酶亚基基因cob)、转运RNA基因(tRNAs)22个、核糖体RNA基因(rRNA)2个和控制区(又名非编码区或AT富含区)1个,结构排列高度紧凑[16],且具有种间多态性大和进化速率较快的优势,其结构简单、基因重组少并易于PCR扩增,含有丰富的遗传进化信息[17]。然而烟草甲作为一种重要的仓储害虫,目前仅被报道了3条线粒体基因组序列,其基因组有待进一步研究。为此,基于二代测序的技术与方法,测定烟草甲基因组全序列,分析基因的组成及排列顺序,以期为烟草甲分类鉴定、系统发育和种群遗传等方面的深入研究奠定基础。
1 材料与方法
1.1 样品及DNA提取
烟草甲成虫样品由国家粮食和物资储备局科学研究院提供,2014年采集于四川绵阳,根据形态特征鉴定[18]后确认为烟草甲,饲养于26℃、75% RH全黑暗人工气候箱中。
实验材料为整头烟草甲成虫,使用PureLink基因组DNA动物组织和细胞提取试剂盒[赛默飞世尔科技(中国)有限公司],根据操作说明提取烟草甲基因组DNA,利用Quawell Q5000超微量紫外分光光度计(美国Quawell公司)检测总DNA质量。
1.2 序列测定及组装
委托北京贝瑞和康生物技术有限公司对烟草甲DNA基因组样品进行建库和测序,采用全基因组鸟枪法(Whole genome shotgun,WGS)策略构建文库,二代测序获取烟草甲线粒体基因序列,基于Illumina Hiseq2500测序平台,对这些文库进行双末端(Paired-end,PE)测序。将获得的原始序列进行质量剪切,去除读长(Reads)接头序列,去掉测序质量较低的读长(测序质量值小于Q20),并去除长度小于25 bp的片段,获得clean data数据集。
序列的组装运用Genious 11.0软件[19],采用“Map to reference”原则,即以线粒体上一段已知序列为组装的起始序列,通过重叠碱基将线粒体基因组进行组装,在组装过程中利用迭代的方法得到烟草甲的线粒体全基因组。Genious 11.0可从来自全基因组的高通量Clean data数据中重新获得线粒体基因组,其精确度超过99%。将烟草甲的Clean data数据集导入Genious 11.0软件中,用GenBank上已知烟草甲线粒体COI基因(GenBank登录号:KU494127)为参考作为锚定片段,组装线粒体基因组序列(k=50、10次重复),获得的重叠序列群采用99%可靠度,输出一致性序列。组装完成后与GenBank上已知的烟草甲rrnS和rrnL基因比对,确认为烟草甲线粒体,最终获得烟草甲线粒体基因组序列。
1.3 序列注释和分析
通过线上软件MITOS Web Server(http://mitos.bioinf.uni-leipzig.de/index.py),对烟草甲线粒体基因组的37个基因进行注释,确定各基因的位置,并用Genious 11.0软件导出注释结果,参考NCBI中已报道的药材甲的线粒体基因组注释结果进行人工校正。使用MEGA 7.0软件[20]对烟草甲线粒体基因组的碱基组成、密码子使用度和同义密码子使用相对频率进行分析,线粒体基因组碱基组成偏向性计算公式为:AT-skew=(A-T)/(A+T),GC-skew=(G-C)/(G+C)。
2 结果与分析
2.1 线粒体基因组结构
烟草甲线粒体基因组全长15 009 bp(GenBank登 录 号:MT254408)。共 有37个 基因,包 括13个PCGs、22个tRNA基 因 和2个rRNA基因,以及1个非编码区(图1)。37个基因在两条链的排列情况为:14个基因位于N链,包括4个蛋白质编码基因(nad5,nad4,nad4l,nad1)、8个tRNA基 因(tRNAGln,tRNACys,tRNATyr,tRNAPhe,tRNAHis,tRNAPro,tRNALeu,tRNAVal)以及2个rRNA基因(rrnl,rrns),其余23个基因位于J链(表1)。
图1烟草甲线粒体基因组结构Fig.1 Structure of mitochondrial genome of Lasioderma serricorn
烟草甲线粒体基因结构排列紧密,存在基因间隔及重叠现象(表1)。基因间隔共7处,总长为30 bp,其中最长一处位于tRNASer和nad1之间,长度为17 bp,其次是tRNAMet和nad2之间,间隔序列长度为6 bp。基因重叠有16处,共70 bp,nad5和tRNAHis之间重叠最长,为18 bp,其次为tRNATrp和tRNACys之间以及tRNATyr和cox1之间,均重叠8 bp。既无重叠又无间隔的区域有15处。
表1烟草甲线粒体基因组注释结果Tab.1 Annotation of mitochondrial genome of Lasioderma serricorne
表1(续)
2.2 线粒体基因组碱基组成及分析
如表2所示,烟草甲线粒体呈现AT碱基偏向性,全基因组中4种核苷酸的含量分别为:A:38.3%;T:40.4%;G:11.1%;C:10.2%。A+T含量为78.7%,明显高于G+C含量,且AT偏度为-0.027,GC偏度为-0.043,表明整个基因组更偏好使用T和C碱基。13个PCGs、22个tRNA基因和2个rRNA基因的A+T含量分别为77.6%,79.1%,82.8%,80.7%,其中PCGs和tRNA基因具有明显的AT碱基偏向性,蛋白质编码基因的AT偏度为-0.151,GC偏度为0.045,表明蛋白质编码基因更偏好使用T和G碱基,而转运RNA基因的AT偏度为0.005,GC偏度为0.169,偏好使用A和G碱 基。
将本研究结果与NCBI报道的烟草甲(GenBank登 录 号:MF417629.1)和 药 材 甲(GenBank登录号:MK947052.1)进行相似度比较分析,结果如表3所示。两条烟草甲的15个基因序列相似度在79.40%~100%之间,其中,rrns基因相似度最低,为79.40%;其次为atp8和nad5,分别为97.50%和98.33%;烟草甲两条线粒体基因组中,nad4l和nad6,相似度100%。本研究中的烟草甲与药材甲15个基因的相似度在59.75%~83.85%之间,rrns基因相似度最低,为79.40%;相似度最高的是3个细胞色素氧化酶亚基基因,cox1、cox2和cox3,分别为83.85%、80.83%和78.53%。
表2烟草甲线粒体基因组核苷酸组成Tab.2 Nucleotide compositions of mitochondrial genome of Lasioderma serricorne
表3烟草甲与药材甲15个基因相似度分析Tab.3 Similarity analysis of 15 genes between Lasioderma serricorne and Stegobium paniceum (%)
2.3 线粒体基因组PCGs基因
烟草甲线粒体基因组蛋白质编码基因序列共11 094 bp,占总基因组的73.9%。13个PCGs除cox2基因的起始密码子是TTG外,其余蛋白质编码基因的起始密码子均为通用密码子ATN,其中nad3以ATC作 为 起 始 密 码 子,nad6和nad1以ATA作为起始密码子,ATT和ATG分别是4个基因(nad2、cox1、atp8、nad5)和5个 基 因(atp6、cox3、nad4、nad4l、cob)的 起 始 密 码子;13个蛋白质编码基因除cox3、nad5和nad4以不完全的T作为终止密码子外,其余均以典型的TAA或TAG作为终止密码子(表1)。
烟草甲线粒体基因组13个蛋白质的编码基因共编码3 699个密码子(含终止密码子),编码最频繁的氨基酸是丝氨酸(Leu)、异亮氨酸(Ile)和苯丙氨酸(Phe),其所占比例分别为14.7%、11.2%和10.1%。相对同义密码子使用情况表明在编码相同氨基酸时,各密码子的RSCU(相对同义密码子使用度,Relative Synonymous Codon Usage)值相差较大,烟草甲线粒体基因组中密码子使用频率具有明显的偏向性(图2)。
图2烟草甲线粒体基因组相对同义密码子使用频率(RSCU)Fig.2 Relative synonymous codon usage(RSCU)in Lasioderma serricorne mitochondrial genome
2.4 线粒体基因组tRNA基因及rRNA基因
烟草甲线粒体基因组含有22个tRNA基因,总长度为1 417 bp,单个tRNA基因序列长度在61~71 bp之间。与其他鞘翅目昆虫tRNA基因的二级结构类似,烟草甲22个tRNA均能折叠成三叶草结构(图3),但tRNAAsp、tRNALeu和tRNAHis的二级结构中缺少TψC环,tRNAser(AGN)的DHU臂缺失,故该4个tRNA不能形成典型的三叶草式二级结构。常见的A-U和G-C配对存在于22个tRNA基因的二级结构中,此外,非标准及其他错配共25处,包括17处G-U错配,6处U-U错配,A-A和A-G错配各1处。G-U错配最多,主要发生在tRNAAla、tRNAArg和tRNAAsp上;U-U错配发 生 在tRNASer(UGA)和tRNALeu(UUR)上 各 有2处,tRNASer(UCU)和tRNAIle上各有1处;A-A错配和A-G错配分别位于tRNASer(UCU)上和tRNATrp上。
烟草甲线粒体基因组2个rRNA基因均在N链上,大小为758 bp(rrns)和1 261 bp(rrnl),分别位于tRNALeu和控制区之间,tRNAVal基因将其隔开。
图3烟草甲线粒体基因组tRNA基因的二级结构Fig.3 Secondary structures of tRNA genes in mitochondrial genome of Lasioderma serricorne
3 讨论
线粒体基因组大小与多种因素有关,包括间隔区及基因重叠等。烟草甲线粒体基因间隔总长为30 bp,而基因重叠共70 bp,整个线粒体基因排列紧密,这与鞘翅目其他储粮害虫不同,例如在花斑皮蠹Trogoderma variabileBallion中nad4和nad5基因之间存在一段较长的基因间隔区,长度为345 bp[21],在 小 露 尾 甲Carpophilus pilosellusMotschulsky的trnW和nad2基因之间存在一段长为190 bp的基因间隔区[22]。烟草甲线粒体基因组紧缩容量的净化选择是动物线粒体基因组进化上的一个特点,有利于缩短整个基因组的复制时间,导致烟草甲在自然选择中可能更占优势。
烟草甲和药材甲Stegobium paniceumL.是近似种,二者均为世界性的储藏物害虫,很难从形态上区分鉴定,同时基于分子数据的种群遗传结构和分布扩散趋势数据缺乏,通过13个PCGs基因和2个rRNA基因在同种和同属之间的序列相似度分析比较,烟草甲和药材甲中13种蛋白编码基因可以作为烟草甲与近缘种药材甲种间鉴定的参考指标;在2个rRNA基因中,rrns基因相似度低,表明rrns基因可作为烟草甲不同种群遗传差异研究的参考基因。但是,比较仅限于3条基因组序列,有一定的局限性,还需进一步丰富这两种重要仓储害虫线粒体的基因组数据。
4 结论
通过测定和分析重要仓储害虫烟草甲的线粒体全基因组序列及结构,显示烟草甲线粒体基因组是一个典型的双链闭合的环状分子,大小为15 009 bp,含有37个基因,A+T含量为78.7%,呈现AT碱基偏向性,同时基因组中密码子使用频率也具有明显的偏向性。22个tRNA基因中,除tRNAAsp、tRNALeu、tRNAHis和tRNAser(AGN)缺少TψC环或DHU臂,其他均能形成典型的三叶草二级结构。