哺乳动物病毒共受体的特征研究
2023-02-04彭友松
张 征,彭友松
(1.湖南农业大学植物保护学院,湖南省农业大数据分析与决策工程技术研究中心,长沙 410082;2.湖南大学生物学院生物信息中心,长沙 410082)
动物病毒识别并结合受体是其感染宿主细胞的第一步。动物病毒受体通常分布于宿主细胞的细胞膜表面,其分子类型包括蛋白质、糖类、酸和脂质等;其中,蛋白质对动物病毒的附着能力更强,特异性更高[1]。动物病毒与其对应受体的结合对于病毒靶向侵入特定的组织和细胞至关重要。病毒受体在宿主细胞或组织上的存在与表达是动物病毒感染宿主的前提条件[2-4]。过去的研究表明,哺乳动物病毒受体在被病毒感染的组织中的表达量较高[2,5],且在各哺乳动物中均有高度的保守性[1]。
在漫长且持续的进化压力下,病毒不仅通过改变自身基因组和逃逸宿主免疫防御机制等增加感染效率[6],某些病毒还选择了分布于细胞膜表面的多个蛋白作为病毒受体[1]。这提示,病毒在入侵细胞的过程中,可能需要多个蛋白受体的协同作用。根据与病毒的结合顺序,可将这些病毒受体分为第一受体和第二受体。病毒在与第一受体顺利结合后,第二受体通常作为辅助因子促进病毒进入宿主细胞,因此,第二受体也称为共受体、辅助受体(coreceptor)等[7-8]。例如,人类免疫缺陷病毒1 型(human immunodeficiency virus 1,HIV-1)在与第一受体CD4 结合后,还需进一步与CD4 的共受体CCR5 或CXCR4 结合形成复合体,最终通过膜融合的方式侵入宿主细胞[9-10]。先前的研究表明,HIV-1 的gp120蛋白与CD4 的结合是不稳定且可逆的[11],故而CD4与共受体CCR5 的表达水平差异会影响HIV-1 病毒对巨噬细胞的感染[12-13]。
目前关于病毒共受体的研究仅局限于单个动物病毒,而基于某一类别或整个病毒群体的系统性分析较少。病毒-受体相互作用是一个高度的动态过程,目前已知的病毒受体和病毒共受体数量较少。为了更加全面、深入地探索病毒共受体间的潜在关联,本研究从哺乳动物病毒-受体数据库Viral-Receptor[1]中收集病毒-受体蛋白相互作用关系,并将同一种病毒在同一种宿主中使用的多个病毒受体定义为病毒共受体(virus co-receptors),利用生物信息学方法从结构、功能、进化和组织表达等角度,系统分析了哺乳动物病毒共受体的共性特征。
1 材料与方法
1.1 材料
1.1.1 哺乳动物病毒受体和哺乳动物蛋白组
从哺乳动物病毒-受体数据库ViralReceptor(http://www.computationalbiology.cn:5000/viralReceptor)[1]中收集150 种哺乳动物病毒蛋白受体。于2021 年4 月5 日,从NCBI(https://www.ncbi.nlm.nih.gov/)网站下载所有哺乳动物参考蛋白组。对这些哺乳动物的参考蛋白组中的蛋白数量进行统计,发现其中157 种哺乳动物的蛋白数量要远远多于其他哺乳动物(表1),因此,本文选择这157 种哺乳动物进行分析。
表1 NCBI refseq数据库中157 种哺乳动物的蛋白数量Tab.1 The number of protein sequences of 157 mammal species in NCBI RefSeq database
1.1.2 哺乳动物病毒共受体组合及其对照组
从ViralReceptor 数据库中一共收集了322 对哺乳动物病毒-受体相互作用关系,包括142 种哺乳动物病毒种或亚种和150 种病毒蛋白受体[1]。使用两种或更多受体的病毒,得到其中每种哺乳动物病毒的共受体蛋白的两两组合,共形成277 种哺乳动物病毒共受体组合(其中包括249 种人类病毒共受体组合)。为了对比,在排除掉病毒共受体组合后,将各哺乳动物中的病毒受体蛋白的两两组合(共4 456 对)作为对照组1(其中包括4 311 对人类病毒受体蛋白的两两组合),简称非病毒共受体组。为了进一步保证试验结果的鲁棒性,随机选取300个人类细胞膜蛋白和300 个人类蛋白,并分别将蛋白两两组合,得到44 850 对人类细胞膜蛋白组合和44 850 对人类蛋白组合,它们分别作为对照组2 和对照组3。
1.1.3 人类病毒受体的组织表达
于2021年5月11日从Expression Atla 数据库[14]中收集了人类病毒蛋白受体的基因和其他人类基因在32 种常见人体组织中的表达量。其中基因表达量用每百万条映射读取的转录本(transcripts per million reads,TPM)表示。
1.1.4 人类病毒受体的蛋白相互作用网络
于2021 年4 月22 日从STRING 数据库(version 11)[15]中下载人类蛋白相互作用关系,并进一步挑选综合得分(combine score)大于或等于400 的蛋白相互作用关系作为人类蛋白网络。
1.2 方法
1.2.1 哺乳动物病毒共受体的结构共性分析
为了研究哺乳动物病毒共受体的蛋白结构共性,使用InterProScan 软件(version 5.30)[16]预测哺乳动物病毒受体以及随机选取的300 个人类细胞膜蛋白和300 个人类蛋白在Pfam 数据库中的蛋白结构域。
1.2.2 哺乳动物病毒共受体的功能共性分析
为了研究哺乳动物病毒共受体的功能共性,使用DiShIn 软件[17](https://github.com/lasigeBioTM/DiShIn)中Lin[18]提出的语义相似性度量方法,基于基因本体论(gene ontology,GO)数据库,分别计算哺乳动物病毒共受体组合与3 个对照组的蛋白功能相似性。在分析蛋白功能的相似程度时,按照得分大小分为以下几种情况:当得分≥0.8 时,可视为两个蛋白的功能极为相似;当0.6≤得分<0.8 时,可视为功能高度相似;当0.4≤得分<0.6 时,可视为功能中度相似;当0.2≤得分<0.4 时,可视为功能低度相似;当得分<0.2 时,说明两个蛋白之间的功能相似程度极弱,可视为功能不相似[19-20]。
1.2.3 哺乳动物病毒共受体的共进化分析
为了研究哺乳动物病毒共受体的共进化,参考常用于评估蛋白共进化的mirrorTree 方法[21]。首先,利用BLAST(version 2.6.0)[22]收集所有哺乳动物病毒受体分别在157 种哺乳动物中的同源蛋白。其中,同源蛋白的门槛设置为E值(E-value)<1e-10,覆盖率(query coverage)≥80%,序列一致性(sequence identity)≥30%,且仅选取每种哺乳动物中最相似的蛋白(E值最小)作为病毒受体的同源蛋白。然后,通过MAFFT 软件(version 6.240)[23]依次将每种哺乳动物病毒受体与其对应的所有同源蛋白进行多序列比对,并利用MEGA CC 软件(version 10.2.5)[24]中的邻接法(neighbor-joining algorithm)建立系统发育树。最终,使用perl 脚本从系统发育树中提取蛋白间的遗传距离,并基于Pearson 相关系数(Pearson correlation coefficient,PCC)计算两个蛋白家族的距离矩阵间的相关性,评估哺乳动物病毒共受体的共进化程度。此外,为了进行比较,分别对随机选取的300 个人类细胞膜蛋白和300 个人类蛋白进行了上述分析。在分析两个蛋白家族间的共进化程度时,按照相关系数的大小将共进化程度分为以下几种情况:当|PCC|≥0.8 时,可视为两个蛋白家族间的共进化程度极高;当0.6≤|PCC|<0.8 时,可视为共进化程度较高;当0.4≤|PCC|<0.6 时,可视为共进化程度适中;当0.2≤|PCC|<0.4 时,可视为共进化程度较低;当|PCC|<0.2 时,说明两个蛋白之间的共进化程度极弱,可视为没有共进化[19-20]。
1.2.4 人类病毒共受体的共表达分析
为了研究人类病毒共受体的组织表达关联性,本研究收集了人类病毒受体和其他人类基因在人体常见32 种组织中的表达量,并基于Spearman 相关系数(Spearman correlation coefficient,SCC)计算各蛋白组合在人体组织中表达量的相关性,评估人类病毒共受体及其他蛋白组合的共表达水平。在分析两个蛋白间的共表达程度时,按照相关系数的大小将共表达程度分为以下几种情况:当|SCC|≥0.8 时,可视为两个蛋白的共表达水平极高;当0.6≤|SCC|<0.8 时,可视为共表达水平较高;当0.4≤|SCC|<0.6 时,可视为共表达水平适中;当0.2≤|SCC|<0.4 时,可视为共表达水平较低;当|SCC|<0.2 时,说明两个蛋白之间的共表达水平极弱,可视为没有共表达[19-20]。
1.2.5 绘图与统计学分析
采用R 软件进行数据处理、图片制作及统计分析,其中衡量两组间差异的秩和检验通过Wilcox test 计算。若P值小于0.05,则认为有显著性差异。采用Adobe Illustrator软件进行图片编辑。
2 结果与分析
2.1 哺乳动物病毒-受体数据分布
基于ViralReceptor 数据库收集的哺乳动物病毒共来源于22 种病毒科,其中双链DNA 病毒的微小核糖核酸病毒科(Picornaviridae)、逆转录病毒的逆转录病毒科(Retroviridae)和双链DNA 的疱疹病毒科(Herpesviridae)的病毒数量最多,占所有病毒的47.2%[1]。从病毒受体的角度来看,收集的哺乳动物病毒受体共来源于13 种哺乳动物,其中人类病毒受体所占比例最高(96/150)(图1a)。如图1b 所示,一共有64 种哺乳动物病毒使用两个或更多病毒受体(其中Nipah henipavirus在人和小鼠中都存在多个病毒受体)。基于这些哺乳动物病毒中每种病毒的共受体蛋白,得到它们的两两组合,共形成277种哺乳动物病毒共受体组合。
图1 哺乳动物病毒受体的分布情况Fig.1 Description of mammalian virus receptors
2.2 哺乳动物病毒共受体的结构共性
首先,本研究分析了哺乳动物病毒共受体的结构共性。由于蛋白结构域的结构相对稳定、预测方法较为成熟,同时考虑到目前仅有少量哺乳动物病毒受体的蛋白三维结构被解析且还存在空间结构解析不完整的问题,选择基于Pfam 数据库中的蛋白结构域分析哺乳动物病毒共受体的结构共性。结果从277 对哺乳动物病毒共受体中发现,有32 对存在相同的蛋白结构域,其比例为11.6%。如果只考虑这些病毒共受体组合中的人类病毒共受体组合(共249 对),则有22 对存在相同的蛋白结构域,其比例为8.8%。可以看出,仅有少量病毒共受体中存在相同的蛋白结构域。在对照组的结构共性分析中,对照组1(4 456 对非病毒共受体)中仅有151对存在相同的蛋白结构域,其比例为3.4%;在对照组2(随机选择的44 850 对人类细胞膜蛋白)和对照组3(随机选择的44 850 对人类蛋白)中分别有1 467 对和184 对存在相同的蛋白结构域,其比例分别为3.3%和0.4%。相较于上述的病毒共受体组合,对照组中存在相同蛋白结构域的比例更小。
本研究还进一步统计了上述存在相同蛋白结构域的蛋白组合中相同蛋白结构域的数量。基于Pfam 数据库的分析结果表明,哺乳动物病毒共受体和人类病毒共受体中相同的蛋白结构域数目显著高于所有对照组(P <0.001 或P <0.05)(图2)。结果表明,相较于其他蛋白组合,病毒共受体拥有更多相同的蛋白结构域。
图2 哺乳动物病毒共受体的结构共性分析Fig.2 Analysis of structural commonality of the mammalian virus co-receptor
2.3 哺乳动物病毒共受体的功能共性
基于GO 数据库,本研究比较了哺乳动物病毒共受体的蛋白功能相似性。从生物过程来看,哺乳动物病毒共受体和人类病毒共受体的功能相似性的中位数得分分别为0.283 和0.281,蛋白功能相似性较低。这可能是由于这些病毒共受体彼此分工明确,在病毒入侵宿主细胞的过程中,各病毒受体参与不同的生物过程造成的。在对照组的功能共性分析中,对照组1、2 和3 的功能相似性得分分别为0.208、0.152 和0.111。结果表明,病毒共受体组合在生物过程中的功能相似性均显著高于所有对照组(P <0.001)(图3a)。
图3 哺乳动物病毒共受体的功能共性分析Fig.3 Analysis of function commonality of the mammalian virus co-receptor
从细胞组分来看,哺乳动物病毒共受体和人类病毒共受体的功能相似性中位数得分分别为0.615和0.620,蛋白功能相似性较高,表明这些病毒共受体的分布位置较为相似。在对照组的功能共性分析中,对照组1、2 和3 的功能相似性得分分别为0.594、0.591 和0.446。结果表明,病毒共受体在细胞组分中的功能相似性分别显著高于对照组1 和对照组3(P <0.05或P <0.001)(图3b)。
从分子功能来看,哺乳动物病毒共受体和人类病毒共受体的功能相似性中位数得分均为0.475,蛋白功能相似性适中。结合先前的分析[1],这可能是因为病毒受体虽分工明确,但大多均与蛋白结合有关。故这些病毒共受体在分子功能中的功能相似性要高于生物过程。在对照组的功能共性分析中,对照组1、2 和3 的功能相似性得分分别为0.406、0.240 和0.268。结果表明,病毒共受体在分子功能中的功能相似性均显著高于所有对照组(P <0.001)(图3c)。
2.4 哺乳病毒共受体的共进化
结果表明,参与本研究的150 种哺乳动物病毒受体分别在41~157 种哺乳动物中有同源蛋白,其中有74 种哺乳动物病毒受体在所有哺乳动物中均有同源蛋白(图4)。例如,人类病毒受体整联蛋白β1(integrin beta-1)作为纤连蛋白和骨桥蛋白等多种蛋白的受体,主要负责与蛋白的结合与识别,所有哺乳动物中都有其同源蛋白。从整体上来看,哺乳动物病毒受体平均在150 种哺乳动物中都有对应的同源蛋白。
图4 哺乳动物病毒共受体的共进化分析Fig.4 Analysis of co-evolution of the mammalian virus co-receptor
基于BLAST 的结果查看了哺乳动物病毒受体与其同源蛋白间的序列一致性。结果表明,两类蛋白的序列一致性得分在0.458~0.991 之间,平均得分为0.816。其中有99 种哺乳动物病毒受体与其同源蛋白的序列一致性得分高于0.8(图5)。与先前的研究结果相似[1],随机挑选的人类细胞膜蛋白和人类蛋白与哺乳动物病毒受体在其他哺乳动物中具有相似的同源蛋白数和序列一致性(图6)。
图5 哺乳动物病毒受体及其同源蛋白的序列一致性分析Fig.5 Distribution of the average pairwise sequence identities between mammalian virus receptors and their homologs
图6 哺乳动物病毒受体的保守性分析Fig.6 Conservation analysis of mammalian virus receptors
基于上述收集的哺乳动物病毒及其同源蛋白,本研究分析了哺乳动物病毒共受体间的共进化程度。哺乳动物病毒共受体和人类病毒共受体的共进化得分分别为0.436 和0.457,共进化程度适中。由此可推测,在病毒入侵宿主细胞的过程中,多个病毒受体的协同作用使得病毒共受体间的共进化程度获得提升。在对照组的共进化分析中,对照组1 的共进化得分为0.512,而对照组2 和对照组3的共进化得分分别为0.290 和0.324。结果表明,病毒共受体的共进化程度均显著高于对照组2 和3(P <0.001),但低于对照组1(图4),故推测这可能是由于收集的病毒受体数量不足导致的,即对照组1中可能存在真实的病毒共受体组合。
2.5 人类病毒共受体的蛋白相互作用
基于STRING 数据库下载的人类蛋白相互作用网络,查看了人类病毒共受体间的蛋白相互作用的比例。在人类蛋白相互作用网络中,249 对人类病毒共受体组合中有88 对存在蛋白相互作用,其比例为35.3%。而在对照组的蛋白相互作用关系中的结果显示:对照组1(4 311 对非人类病毒共受体组合)中仅有314 对存在蛋白相互作用,其比例为7.3%;在对照组2 和对照组3 中,分别有447 对和153 对存在蛋白相互作用,其比例分别为1.0%和0.3%。由此可推测,这可能是由于病毒受体间协同作用,使得病毒共受体间存在蛋白作用的比例明显高于对照组。
2.6 人类病毒共受体的共表达
基于32 种常见的人体组织,查看了人类病毒共受体的表达共性。人类病毒共受体的共表达得分为0.269,共表达程度较低。在对照组的共表达分析中,对照组1(4 311对非人类病毒共受体组合)的共表达得分为0.237;而对照组2 和3 的共表达得分分别为0.150 和0.239。结果表明,病毒共受体在常见人体组织中的共表达程度均显著高于所有对照组(P <0.001 或P <0.01)(图7)。这可能是由于部分病毒共受体组合在宿主蛋白相互作用网络中存在蛋白相互作用关系,所以这些病毒共受体才需要同步表达满足彼此间的相互作用。
图7 人类病毒共受体的共表达分析Fig.7 Analysis of co-expression of the human virus co-receptor
3 讨论
本研究基于迄今为止最为全面且高质量的哺乳动物病毒-受体数据库ViralReceptor,从结构、功能、进化、组织表达和蛋白相互作用等方面对哺乳动物病毒共受体的特征进行了系统性研究。结果表明,虽然相较于对照组,病毒共受体组合中相同的蛋白结构域数量更多,蛋白功能相似性也更高,但实际上拥有相同的蛋白结构域的病毒共受体比例并不高,仅占11.6%,且病毒共受体在生物过程和分子功能中的功能相似性也并不高。本研究推测,这些病毒共受体间不仅有合作,还存在明确分工。结合先前的研究[1],本研究认为,哺乳动物病毒在寻找蛋白受体时,更倾向于选择结构和功能多样性较高、且结构和功能不完全相似的蛋白作为病毒受体,以此增加入侵宿主细胞的多种途径。
在人类蛋白相互作用网络中,人类病毒共受体中的蛋白相互作用比例更高,是所有对照组的5 倍以上。这可能是由于病毒入侵宿主细胞的过程较为复杂,所以可能需要多个病毒受体的协同作用。先前的研究表明,部分病毒受体与其他病毒受体相互作用结合形成蛋白多聚体。例如,由整联蛋白α-V(integrin alpha-V)和整联蛋白β-3(integrin beta-3)形成的二聚体不仅能够与肌动蛋白、纤维黏连蛋白等蛋白相互作用,还能作为柯萨奇病毒[25]、疱疹病毒[26]和西尼罗河病毒[27]等病毒的蛋白受体。从实际大小来看,人类细胞的平均直径约为病毒的100~1 000倍,体积约为病毒的106~109倍;而人类蛋白相对来说则小得多,病毒的平均直径约为人类蛋白的10~100 倍,体积约为人类蛋白的103~106倍。由此可见,病毒与蛋白受体结合的过程中需要极大的能量,而单个蛋白受体可能无法胜任,需要利用多个蛋白聚合形成的多聚体将病毒聚集至宿主细胞的表面,进而侵染和进入宿主细胞体内。
在常见的32 种人体组织中,人类病毒共受体的共表达水平显著高于对照组。从结果来看,病毒共受体的共表达水平整体得分较低。本研究推测,这可能是因为病毒在感染不同组织或器官时,使用的病毒受体并不完全相同。然而,目前关于病毒在不同类型的组织或细胞中使用的病毒受体的详细数据较少,难以进行深入研究。
本研究存在一些局限性。首先,由于绝大部分病毒的受体蛋白尚未解析,导致病毒受体收录不完整且具有偏向性。根据目前收集的哺乳动物病毒-受体相互作用关系,在142 种哺乳动物病毒中,仅发现64 种哺乳动物病毒拥有多个病毒受体,其中54 种为人类病毒;而剩余的78 种病毒仅使用一种病毒受体。不排除分析结果可能会受到数据缺失、偏向的影响。而且由于收集的病毒-蛋白受体相关作用关系不足,导致更多病毒共受体尚未发现或被误认为非病毒共受体。另外,由于病毒-受体相互作用是一个高度的动态过程,病毒可能仅需利用部分病毒受体即可成功入侵宿主细胞。但由于已知的病毒共受体相对较少,本研究为了分析更多潜在的病毒共受体组合,将同一种病毒在同一种宿主中使用的多个病毒受体定义为病毒共受体,即收集的部分病毒共受体组合在病毒入侵宿主细胞时可能并不存在共同作用。再者,在哺乳动物病毒共受体的共进化分析中,由于各哺乳动物中原本存在的进化关系,导致分析结果受背景噪音的影响。因此,后续仍需尝试使用更好、更快的方法来研究病毒共受体间的共进化。
综上所述,本研究从结构、功能、进化、组织表达等方面对哺乳动物病毒共受体进行了系统分析,将有助于深入了解病毒共受体的共有特征,并为病毒受体发现鉴定等研究提供参考。