全球海洋病毒数据库中新型噬病毒体的发现

2021-08-24徐声忠盛伊建王永杰

生物学杂志 2021年4期

周亮，徐声忠，盛伊建，王永杰,2

(1. 上海海洋大学食品学院，上海 201306; 2. 农业农村部水产品质量安全贮藏保鲜风险评估实验室(上海)，上海 201306)

噬病毒体是一类小型双链DNA病毒，其基因组大小在13 kb到30 kb之间，编码16至34个基因。噬病毒体首次分离自巨病毒与真核宿主的共培养体系，随后证实了其在水环境中的广泛分布与普遍存在。该病毒不能在真核宿主细胞内独立增殖，必须依赖宿主的巨病毒病毒工厂进行增殖，从而造成宿主巨病毒的形态畸形和毒力下降。噬病毒体甚至可以将自身病毒粒子包装到巨病毒的核衣壳内，如同侵染巨病毒，因此将此类病毒统称为噬病毒体[1-2]。自2008年首个噬病毒体Sputnik[3]被分离出来后，这一类“不起眼”的小型病毒才引起了学者们的广泛关注。目前，通过共培养方法已分离出9株噬病毒体(Sputnik，Sputnik2，Sputnik3，Zamilon，Rio Negro Virophage，Mavirus，Guarani[4]，Platanovirus saccamoebae virophage，Chrysochromulina parva Virus-Polintons-like virophages[5])。

近年来，宏基因组学分析方法已逐渐被应用于环境样品中噬病毒体的基因组挖掘工作中，并取得了丰硕的成果。如在美国黄石湖宏基因组数据库中发现了7株噬病毒体(YSLV1-7)的全基因组序列[6-7]；在中国滴水湖和青海湖的宏基因组数据库中分别发现了8株(DSLV1-8)和1株(QLV)噬病毒体的全基因组序列[8-10]；在南极有机湖宏基因组数据中获得1株噬病毒体(OLV)的全基因组序列。显然，海洋环境宏基因组数据库中的噬病毒体研究还鲜有报道[11-12]。

针对上述问题，本研究基于全球海洋病毒数据库[13]，初步探究了全球海洋中噬病毒体的多样性特点，并通过数据挖掘获得了3条完整的新型噬病毒体全基因组序列，以期在一定程度上增进对全球海洋环境中噬病毒体多样性的认知，同时也为后续开展海洋中噬病毒体的研究奠定一定的理论基础。

1 材料与方法

1.1 材料

1.1.1 实验数据库

全球海洋病毒数据库2.0(Global Ocean Viromes 2.0，GOV2.0)(https://datacommons.cyverse.org/browse/iplant/home/shared/iVirus/GOV2.0)是通过采集全球海洋水体样本，经测序生成145个海洋水体宏病毒数据包，共3.95 TB的序列，序列拼接后由鉴定为病毒序列的重叠群序列构成的数据库[13]。

1.1.2 生物信息分析工具

Prodigal(Ver. 2.6.3)；Geneious prime (Biomatters)；BLAST+(Ver. 2.9.0+)；FastTree(Ver. 2.1)；InterProScan 5 program；NCBI Conserved Domain Searching program；Reputer program[14](http://bibiserv.techfak.uni-bielefeld.de/reputer/)。

1.2 方法

1.2.1 全球海洋病毒数据库2.0下载

使用icommands软件从iVirus数据库(https://datacommons.cyverse.org/browse/iplant/home/shared/iVirus/GOV2.0)下载GOV2.0中长度大于5 kb或者环状的重叠群序列(GOV2_viral_populations_larger_than_5KB_or_circular.fasta)。命令行：iget-N 16-r /iplant/home/shared/iVirus/GOV2.0/GOV2_viral_populations_larger_than_5KB_or_circular.zip-P./。

1.2.2 噬病毒体序列扫描

基于噬病毒体的保守单拷贝主要衣壳蛋白基因(Major capsid protein gene，MCP)，扫描全球海洋病毒数据库2.0中的重叠群序列。具体如下：首先采用 Prodigal软件预测GOV2.0重叠群序列编码的基因；随后，将预测出的全部基因序列构建一个本地蛋白数据库；最后，以已发表的噬病毒体的MCP基因作为查询序列(Query sequences)，基于Blastp程序与本地库进行序列相似性比对分析，发现与噬病毒体MCP基因有显著匹配的重叠群序列并调取该序列。基因预测命令行：prodigal-c-a final.contigs.orfs.faa-d final.contigs.orfs.fasta-i final.contigs.fa-m-o final.contigs.txt-p meta-q；本地库构建命令行：makeblastdb-in final.contigs.orfs.fa-dbtype prot-title assemblies-parse_seqids-out assemblie/assemblies-max_file_sz 1GB；Blastp程序比对命令行：blastp-query virophage.fasta-db assemblies-out virophage_related_contigs.fasta-outfmt 0-evalue 1e-3-num_threads 8。

1.2.3 噬病毒体基因组序列鉴定

将上述调取出来的噬病毒体相关的重叠群序列进行开放阅读框(open reading frames, ORF)预测，然后基于Blastp 比对NCBI nr数据库进行ORF功能注释，最后基于噬病毒体的4个核心基因(主要衣壳蛋白：MCP；次要衣壳蛋白：mCP；ATP 酶: DNA packaging ATPase；半胱氨酸蛋白酶：Cysteine protease)鉴定噬病毒体相关的重叠群序列。重叠群首尾两端的重复序列通过Reputer program[14]鉴定。

1.2.4 噬病毒体基因组注释

使用Geneious软件内置的ORF finder插件对其进行ORF的预测，参数设置如下：起始密码子ATG，ORF氨基酸序列长度最小阈值为 50, 预测模型为标准密码子表预测(codon_start=1)。将预测得到的所有ORF的氨基酸序列作为查询序列与NCBI的nr本地数据库进行比对(E值为1e-3)，对每个ORF进行功能注释。同时，使用InterProScan(http://www.ebi.ac.uk/interpro/search/sequence-search)和NCBI的CD search程序对各ORF进行蛋白功能预测。

1.2.5 噬病毒体系统发育分析

基于噬病毒体的MCP 氨基酸序列构建系统发育树。使用MUSLE工具的默认参数进行氨基酸多重序列比对。随后，将多序列比对结果导入FastTree 2.1.7[15]软件中进行系统发育树的构建，具体参数如下：WAG model, gamma parameter estimated，其他参数按默认值设置。

1.2.6 密码子相对使用频率分析

基于病毒全基因组分析其密码子相对使用频率。首先将病毒基因组上所有ORF的核酸序列提取出，然后提交到在线密码子使用分析网站(https://www.bioinformatics.org/sms2/index.html)进行密码子相对使用频率分析及结果统计。通过pheatmap(R package)工具绘制密码子相对使用频率热图呈现不同基因组间密码子相对使用偏好。

2 结果与分析

2.1 噬病毒体序列扫描与鉴定

采用Prodigal软件对GOV2.0数据库重叠群序列进行基因预测后，总共得到6 668 449个ORFs，最长为9 974 aa，最短为30 aa，平均长度为243 aa。经噬病毒体MCP氨基酸序列扫描后，共获得了281条与噬病毒体相关的重叠群序列，其中9条长度大于10 kb(表1)，除了序列Station193_SUR_ALL_assembly_NODE_1801_length_22789_cov_21.332674和Station205_MES_ALL_assembly_NODE_7463_length_10113_cov_5.523066缺少DNA packageing ATPase基因外，其余序列均编码有噬病毒体的4个核心基因(MCP；mCP；DNA packaging ATPase；cysteine protease)。这表明，这9条序列都为噬病毒体的基因组序列。此外，序列Station193_SUR_ALL_assembly_NODE_1801_length_22789_cov_21.332674和Station180_SUR_ALL_assembly_NODE_3882_length_26868_cov_6.178048的首尾两端分别有54 bp和134 bp的正向重复序列，Station168_SUR_ALL_assembly_NODE_3995_length_20501_cov_43.577326的首尾两端有105 bp的反向重复序列。说明此3条序列为噬病毒体的完整基因组，并分别命名为Global Ocean Virome Virophage_1 (GOV2_V1, Station180_SUR_ALL_assembly_NODE_3882_length_26868_cov_6.178048)，Global Ocean Virome Virophage_2 (GOV2_V2, Station193_SUR_ALL_assembly_NODE_1801_length_22789_cov_21.332674)和Global Ocean Virome Virophage_3 (GOV2_V3, Station168_SUR_ALL_assembly_NODE_3995_length_20501_cov_43.577326)。

基因组外部的数字表示核苷酸的位置；ORFs以箱型箭头标出；蓝线代表G+C含量。病毒名称、基因组长度、G+C含量以及ORF总数都在图谱中央显示；线性基因组GOV2_V3以开口环形显示，其首尾两端的反向重复序列用红色箭头表示。

表 1 含有噬病毒体MCP基因的重叠群序列信息

2.2 噬病毒体基因组分析

如图1所示，新发现的噬病毒体的全基因组长度分别为26 868 bp(GOV2_V1)、22 789 bp(GOV2_V2)和20 501 bp(GOV2_V3)；G+C含量在24.3%～32.7%之间；分别编码27(GOV2_V1)、30(GOV2_V2)和20(GOV2_V3)个ORFs。除了GOV_V1缺失ATP酶外，GOV2_V2/3都含有噬病毒体的4个核心基因(MCP；mCP；DNA packaging ATPase；Cysteine protease)，具体见表2。考虑到GOV2_V1含有10个ORFans(指在nr 库中没有匹配的基因序列)，故不能排除其含有ATP酶的远缘同源基因的可能性。有意思的是，GOV2_V1 ORF20与小球藻病毒ParameciumbursariaChlorellavirus OR0704.2.2的PBCVOR070422_409L基因有60%的氨基酸序列一致性，GOV2_V1 ORF25与微单胞藻MicromonaspusillaCCMP1545的假定蛋白有高达66%的氨基酸序列一致性(表2)；GOV2_V2 ORF21的最佳匹配为球石藻病毒Emiliania huxleyi virus PS401的EMVG_00282基因(氨基酸序列一致性为41%)，见表2；GOV2_V3 ORF1，ORF3和ORF20则分别与未归类的Megaviridae环境样品的假定蛋白，未归类的Gaeavirussp.的螺旋酶DNA结合蛋白和Acanthamoebacastellaniimamavirus 的多功能域(整合酶、锌结合酶和解旋酶)的蛋白基因分别有58%、32%和33%的氨基酸序列一致性(表2)。

表2 GOV2_Vs注释信息

2.3 噬病毒体系统发育分析

如图2所示，GOV2_V2，GOV2_V3和侵染阿米巴虫的Sputnik家族成员聚在一支(Bootstrap值为82)，表明GOV2_V2和GOV2_V3与侵染阿米巴虫的Sputnik家族成员亲缘性更近，原生动物巨病毒和原生动物可能是它们的病毒宿主和真核宿主。GOV2_V1则和侵染藻类巨病毒的潜在噬病毒体(QLV, DSLV2和YSLV1，4，6)聚在一支(Bootstrap值为99)，暗示GOV2_V1的病毒宿主可能是藻类巨病毒。

分离培养获得的噬病毒体及从宏基因组拼接获得的噬病毒体基因组分别用实线和点虚线分支表示；GOV2_Vs用粗体显示；Bootstrap值大于50的均显示在树的每个分支节点上，比例尺为0.5。

2.4 密码子相对使用频率分析

如图3所示，3个噬病毒体的密码子相对使用偏好分别聚类到3个组：I. GOV2_V3和Mavirus及其海洋鞭毛虫巨病毒宿主CroV; II. GOV2_V2和Sputnik及其阿米巴虫巨病毒宿主Mimivirus/Mamavirus; III. GOV2_V1和环境噬病毒体(如青海湖噬病毒体QLV，有机湖噬病毒体OLV)及其潜在的藻类大病毒宿主。此外，和预期的一样，基于分离培养出来的噬病毒体Sputnik 和 Mavirus 分别与它们的病毒宿主 Mimivirus 和 CroV 聚在一起。这证明基于密码子使用相对频率规律可以洞悉噬病毒体潜在的巨病毒宿主。该结果再次表明，原生动物巨病毒可能是GOV2_V2和GOV2_V3的潜在病毒宿主，而原生动物则是它们的潜在单细胞真核宿主；GOV2_V1的潜在病毒宿主可能为藻类巨病毒，真核宿主为藻。

PBCV: Paramecium bursaria Chlorella virus; TetV: Tetraselmis virus; CroV: Cafeteria roenbergensis virus; EHV: Emiliania huxleyi virus; OLPV: Organic Lake phycodnavirus. The full names of OLV, QLV and DSLV are shown in Table 1 and Figure 2，respectively. 行代表每个病毒基因组的密码子使用频率，列代表密码子。

3 讨论与结论

在之前的研究中[6]，通过检索环境宏基因组数据库，调取噬病毒体相关序列，发现噬病毒体广泛分布于全球水体环境中，且淡水(尤其是南极洲淡水湖)中噬病毒体的丰度最高，这似乎表明淡水环境甚至是极端淡水环境更适合噬病毒体的生长与增殖。此外，目前除了噬病毒体Mavirus是分离培养自海洋环境外，其余噬病毒体则均分离自淡水或其他环境中[11]。

为了探究全球海洋环境中噬病毒体的多样性特点，我们对全球海洋病毒数据库进行了噬病毒体的序列分析工作。通过噬病毒体序列扫描及鉴定，在南极洲的另一端海域(北冰洋)中获得了3条完整的新型噬病毒体全基因组序列。系统发育分析，GOV2_V1与藻类病毒的潜在噬病毒体亲缘关系最近，GOV2_V2/3则与原生动物巨病毒的噬病毒体亲缘关系较近。值得注意的是，在GOV2_V1的基因组上发现了微单胞藻的同源基因且氨基酸一致性高达66%。同时相关研究表明，微单胞藻为北极海域的主要微微型浮游植物类群，且具有内部结构简单、无细胞壁、含鞭毛等特点[16]，由此表明，微单胞藻更有可能是GOV2_V1的真核宿主。与此同时，GOV2_V3 ORF20与阿米巴虫原生动物巨病毒的多功能域蛋白基因有33%的氨基酸一致性，表明噬病毒体在进化过程中与阿米巴虫原生动物巨病毒有着密切的联系。此外，密码子相对使用频率分析显示，GOV2_V2/3与以原生动物为真核宿主的巨病毒及其噬病毒体具有较好的一致性，且GOV2_V3与以海洋鞭毛虫为真核宿主的巨病毒CroV及其噬病毒体Mavirus更为接近，故也不能排除其宿主病毒和真核宿主为海洋鞭毛虫巨病毒与海洋鞭毛虫的可能性。同样，在GOV2_V3的近亲噬病毒体Sputnik和Zamilon的基因组上，我们也发现它们分别与各自的宿主病毒共享3个(Sputnik中ORF 6、ORF12和ORF13分别与Mimivirus R196，R546和 L206/207有 42.11%、61.34%和21.28%的氨基酸序列一致性)[3]和1个同源基因(Zamilon中ORF8与Moumouvirus Monve的假定蛋白tv_L8有72%的氨基酸序列一致性)[17]。该发现进一步支持了对GOV2_V3宿主病毒的推测。值得一提的是，在GOV2_V2基因组上，我们还发现了3个次要衣壳蛋白编码基因，也是目前含有次要衣壳蛋白编码基因最多的噬病毒体(之前首次在Sputnik[3]上发现2个次要衣壳蛋白编码基因)，结合次要衣壳蛋白主要在病毒衣壳组装及稳定病毒形态上发挥重要作用，这似乎增强了GOV2_V2在极端环境下的存活能力。当然，此推测还需后续实验加以验证。

综上所述，本研究在全球海洋病毒数据库中发现了3条完整的新型噬病毒体全基因组序列。这些结果在一定程度上增进了对全球海洋环境中噬病毒体多样性的认知，同时也为后续开展海洋中噬病毒体的研究奠定了一定的理论基础。