APP下载

基于基因组和转录组数据的甲壳类系统发育研究

2019-06-17孙善肖韩志强

关键词:凡纳滨拷贝同源

孙善肖,韩志强

(浙江海洋大学水产学院,浙江舟山 316022)

目前有关物种系统发育的研究多基于线粒体基因和少量的核基因,如线粒体DNA 的COI、16S rRNA、Cytb 基因和核基因的18S rRNA、28S rRNA 基因[1-5]。仅利用少量分子标记开展系统发生关系的研究常常会遇到一些问题,如标记位点少、基因短片段太多等[6-7]。随着高通量测序的普及,利用转录组和基因组数据研究物种间的系统发育关系已成为可能,GONZÁLEZ,et al[8]利用转录组数据对31 种双壳贝类的系统发育关系进行了研究,HUGHES,et al[9]整合了144 种鱼类的基因组数据和159 种鱼类的转录组数据,采用新的生物信息学分析方法,筛选出1 105 个直系同源的外显子序列作为分子标记,构建了迄今为止最可靠的鱼类系统演化树。目前利用转录组和基因组构建系统发育树的主要的研究方法是通过OrthoMCL(http://orthomcl.org/orthomcl/)等软件通过Blast-to-blast 序列比对,查找物种间1:1 的单拷贝直系同源基因[10],该类型方法存在计算工作量巨大,随物种数增加,计算量程指数增长,此外受限于物种序列的注释水平,低质量的注释会造成将大量的单拷贝同源序列组装为旁系同源序列,从而造成大量的物种间单拷贝直系同源基因被误判为多拷贝基因从而排除在系统进化采用的基因位点集外。因此建立一种快速有效的利用基因组数据构建系统发育是必要的。

LI Chenhong,et al[11]对82 种后生动物的基因组编码序列进行了blast 比对,建立了一个可搜索的单拷贝编码序列数据库EvolMarkers,用于开发单拷贝标记,从而进行系统发育的研究。BUSCO(https://busco.ezlab.org/)是在基因含量层面上来评估基因组完整性的软件,它构建了几个大进化支的单拷贝基因数据[12],该数据库包含了多个物种的数据集合,其中包括真核生物、节肢动物、鱼类、脊椎动物、鸟类和哺乳动物。该数据除了可以用来评估基因组完整性,也可以用来进行系统发育研究。WATERHOUSE,et al[13]利用BUSCO中的哺乳类单拷贝基因构建了啮齿类系统发育系统树。在BUSCO 数据库中也包含节肢动物的单拷贝基因数据库,这个数据库中的所有基因都在节肢动物中存在且只存在一个拷贝,因此我们就可以以此为标准,对分析物种的基因库进行搜索,获得单拷贝直系同源基因用于系统发育树的构建。甲壳动物是节肢动物在海洋中最重要的类群[14],其基因组结构复杂、注释程度低,利用DNA 编码区和基因组间blast 比对寻找同源基因的方法有困难,因此我们尝试利用BUSCO 提供的单拷贝基因数据集在甲壳类物种间查找直系同源基因,进而用于系统树的构建。在本研究中我们选取了10 种甲壳纲物种,选择1 种蛛形纲物种为外群。

1 材料和方法

1.1 数据来源

本研究共分析了节肢动物门的11 个物种,除染色大绒螨Dinothrombium tinctorium 为蛛形纲以外,其余物种均为甲壳纲。甲壳纲的10 个物种中,棕虾Penaeus aztecus、粉红色虾Penaeus duorarum、日本对虾Penaeus japonicus、长毛对虾Penaeus penicillatus 以及凡纳滨对虾Litopenaeus vannamei 等5 种对虾所用序列为转录组数据经过de novo 组装、蛋白翻译后的氨基酸序列,转录组原始数据下载自NCBI (https://www.ncbi.nlm.nih.gov/)。而葛氏长臂虾Palaemon gravieri 为舟山近海海域采样所得,我们采集鳃和肌肉组织送生物公司测序得到其转录组数据。甲壳纲的真宽水蚤Eurytemora affinis、端足虫Hyalella azteca、蚤状蚤Daphnia pulex 和鼠妇Armadillidium vulgare 以及蛛形纲的染色大绒螨等5 个物种为基于基因组数据翻译的蛋白序列,这些蛋白序列均下载自NCBI,具体信息见表1。

1.2 转录组de novo 序列组装

采用Trinity[15]软件对上述5 个物种(棕虾、粉红色虾、日本对虾、长毛对虾、凡纳滨对虾)的转录组数据进行de novo 组装,内存设为100 G,使用的CPU 线程数为24。其中,使用--left、--rigth 参数对双端数据处理,使用--single 对单端数据处理。对组装结果提取最长的转录本作为Unigene。

表1 物种数据信息见表Tab.1 Species data information is shown in the table

1.3 TransDecoder 进行ORF 预测

采用Transdecoder[16]软件对上述5 种对虾的转录子Unigene 中的编码区进行识别,并预测蛋白序列。蛋白预测步骤分为:(1)首先使用TransDecoder.LongOrfs 命令寻找长度不小于指定值的ORF,我们设置最小值为50;(2)然后使用TransDecoder.Predict 命令进行ORF 预测,得到翻译后的氨基酸序列。

1.4 直系同源基因筛选

根据BUSCO[12]建立了节肢动物1066 个单拷贝的数据库,参照WATERHOUSE,et al[13]的方法我们利用hmmsearch[17](https://www.ebi.ac.uk/Tools/hmmer/about)对本文所研究的11 个物种的氨基酸序列进行搜索,CPU 设为60,其他参数设为默认值。选取11 个物种中被标记得分最高的单拷贝基因比对结果,用自定义的shell 脚本从中提取出基因序列,即得到最终的单拷贝同源基因。

1.5 系统发育树的构建

使用MAFFT[18](http://mafft.cbrc.jp/alignment/software/)对单拷贝同源进行多序列比对,使用Gblocks 提取单拷贝同源基因多序列比对结果的保守位点,序列类型参数设为蛋白序列,其余为默认参数。根据多序列比对结果进行系统树构建,使用软件MEGA-X[19](https://www.megasoftware.net/)的phylogeny 功能构建Nj 系统发育树,BootStrap 值设为1 000。

2 结果

2.1 转录组组装结果分析

利用高通量测序平台(Illumina HiSeqTM)对葛氏长臂虾进行转录组测序,得到了原始数据(Raw Data)及去除杂质之后的高质量读序(Clean reads),结果如表2 所示。我们共获得40 282 258 条Clean reads,GC 含量为48.11%,利用Trinity 软件对所获得葛氏长臂虾的高质量读序(Clean reads)进行组装,得到23 670 条转录本(transcripts),进一步去冗组装获得15 089 条Unigene,N50 为1 909 bp。

使用Trinity 对下载自NCBI 的棕虾、粉红色虾、日本对虾、长毛对虾以及凡纳滨对虾的转录组数据进行组装,得到Unigene 数量分别为11 747、118 427、68 077、12 778 和41 397 条。其N50 大小分别为659、484、1 532、511、1 397 bp,具体见表3。从结果中我们可以得到,日本对虾和凡纳滨对虾的N50 值比较大,组装结果质量好,尤其是日本对虾,其N50 值达到1 532 bp。

表2 物种数据信息表Tab.2 Species data information is shown in the table

表3 5 个物种转录组组装情况表Tab.3 Transcriptome assembly of 5 species

2.2 系统发育树结果分析

利用hmmsearch 将上述得到的11 个物种的氨基酸序列与BUSCO 建立的节肢动物单拷贝的数据库比对,聚类得到的总基因数为255 976 个,最终筛选出346 个直系同源单拷贝基因。使用Gblocks 提取多序列比对结果的保守位点44 883 个,其聚类情况见表4。

表4 11 个物种基因聚类结果表Tab.4 Results of gene of 11 species

基于上述1 个蛛形纲物种和10 个甲壳纲物种的11 个物种的基因组或转录组数据生成了346 个直系同源单拷贝基因,我们利用MEGA 软件构建了N-j (neighbor-joining)分子系统进化树,氨基酸替代模型选为JTT[20],如图1 所示。结果表明,属于滨对虾亚属的凡纳滨对虾与属于囊对虾亚属的日本对虾紧密聚为一枝,棕虾与明对虾亚属的长毛对虾聚为一枝,然后这两条进化枝合在一起与粉红色虾聚在一起,这样,十足目对虾科的五个物种紧密的聚为一枝。葛氏长臂虾属于十足目长臂虾科长臂虾属,系统发育树显示,葛氏长臂虾与对虾科的总进化枝聚在一起,因此本研究中的十足目物种均聚为一个分枝,接着甲壳纲等足目的鼠妇与之合为一枝,然后端足目的端足虫与上述合枝聚为一枝。这样包括鼠妇、端足虫和6 种虾在内的等足目、端足目和十足目三个目的物种合为一个大的进化枝。蚤状蚤属于枝角目蚤科,真宽水蚤属于哲水蚤目宽水蚤科,在我们的进化树中,这两个物种形成了一个分支,这个分支与上述大进化枝聚合在一起。最后,属于蛛形纲绒螨目的染色大绒螨作为外群聚在进化树的最外面。

图1 11 种节肢动物物种系统发育树Fig.1 Phylogenetic trees of 11 species

4 讨论

通过对葛氏长臂虾的Unigene 分析发现,其长度在1 000 bp 以上的有5114 条,占Unigene 总数的33.89%。而在其他虾类的转录组中,例如曾地刚等[21]研究的的凡纳滨对虾,其过滤掉低质量序列后,得到500 177 条clean reads,其最小长度为41 bp,最大长度为620 bp,进行组装拼接后获得了20 225 条Unigene,长度范围从50~8 980 bp。其他海洋生物的转录组测序数据也可供我们参考,例如口虾蛄Oratosquilla oratoria 转录组测序得到51 305 284 条clean reads,经组装后得到59 054 个Unigene,N50 为1 807 bp[22];大竹蛏Solen grandis 转录组去冗余组装获得190 856 条Unigenes,N50 为1 875 bp[23]。对比可知,葛氏长臂虾的转录组存在较多长片段序列,优于凡纳滨对虾的组装片段长度,与口虾蛄、大竹蛏的拼接结果相似,同有较高的组装质量。而我们组装的凡纳滨对虾结果优于曾地刚等基于高通量测序的凡纳滨对虾的转录组组装质量[19],粉红色虾、长毛对虾的Unigene 数量较多但N50 值却比较小,可能是包含了太多的短序列,故组装质量一般。

本研究中,选取的十足目的物种为棕虾、粉红色虾、日本对虾、长毛对虾、凡纳滨对虾和葛氏长臂虾。除了葛氏长臂虾为长臂虾科外,其余均为对虾科。对虾科可以进一步划分成多种对虾亚属,从我们的单拷贝同源基因构建的系统发育树可知,囊对虾属和滨对虾属聚为一支。而LAVERY,et al[24]认为粉对虾属和滨对虾属聚为一支,他使用对虾16S rRNA 以及对虾16S rRNA 与COI 数据合集构了两种系统发育树,结果支持上述结果。LAVERY,et al 的这一研究结果与MAGGIONI,et al[25]的研究结果一致,他们仅根据16S rRNA基因序列就得出结论,即粉对虾属和滨对虾属都是很好的单系群。然而,这些结果与BALDWIN,et al[26]和GUSMAO,et al 给出的结果有显著的差异。GUSMAO,et al 的COI 基因序列大部分来自BALDWIN,et al,按照BALDWIN,et al 在其论文中描述可见,这种差异完全是由于一个物种的误认,即粉对虾属的棕虾被认为是滨对虾属的白滨对虾Litopenaeus setiferus 造成的。从这个问题中我们可以看出对虾种群的一些很明显的特征,那就是虽然对虾的整个种群有着物种多样性,但各对虾在外观上总体上都是比较相似的,这使得很容易错认种类。

甲壳纲是节肢动物门中仅次于昆虫纲与蛛形纲的第三个大纲,现在分为8 个亚纲、33 目,8 个亚纲分别为头甲亚纲、鳃足亚纲、唇甲亚纲、桡足亚纲、蔓足亚纲、鳃尾亚纲、介形亚纲以及软甲亚纲等[27]。真宽水蚤属于桡足亚纲哲水蚤目,蚤状蚤属于鳃足亚纲枝角目,在我们的系统发育树中,这两物种却密切聚为一枝,这一现象不难解释,虽然鳃足亚纲具有甲壳动物中一些原始的特征并与桡足亚纲有所不同,但是它们均属于切甲类,与软甲亚纲的物种相比,它们显然是亲缘关系更近的一个类群。鼠妇属于软甲亚纲囊甲总目等足目,端足虫属于软甲亚纲囊甲总目端足目,系统发育树显示当等足目的鼠妇与十足目物种聚为一枝后,端足目的端足虫首先与鼠妇聚在一起,这与传统形态学分类中等足目和端足目均属于软甲亚纲囊甲总目结果相吻合。本研究借助已构建好的节肢动物直系同源数据库识别了较多的直系单拷贝基因,构建了可信的系统发育树,建立了一种快速可靠的基于基因组和转录组筛选直系单拷贝基因方法,为海洋生物系统发育研究提供了获得直系同源单拷贝基因的方法。

猜你喜欢

凡纳滨拷贝同源
药食同源
——紫 苏
两岸年味连根同源
以同源词看《诗经》的训释三则
凡纳滨对虾白斑综合征病毒防治研究进展(一)
唐氏综合征是因为“拷贝”走样了
虔诚书画乃同源
凡纳滨对虾与点带石斑鱼的混养模式
凡纳滨对虾CTSL基因与生长相关的SNP位点的特征
三聚氰胺在凡纳滨对虾中的残留消除规律研究
小小拷贝工.最快Windows拷贝工具