计算机在流感病毒(Influenza RNA)结构分析领域的应用
2009-01-14吕健雄刘永帆
吕健雄 刘永帆
摘要:甲型H1N1流感病毒(influenzavirusA)基因组含有8个RNA基因片段,本文主要介绍了RNA的结构,以及目前计算机在RNA结构分析领域的应用现状,以及应用最多的预测工具。
关键字:H1N1;RNA分子;RNA二级结构
2008年,墨西哥甲型流感的突然爆发使得甲型流感成为世界关注的焦点,继SARS之后, 甲型流感的来袭使得人们对H1N1产生了新的巨大的恐惧,新的流感病毒或过去不为人类所感染的流感病毒通过自身的变异正悄然侵袭人类。甲型流感究竟是由何而来?它与普通的感冒又有什么不同呢?这里我们先来介绍一下什么是甲型流感。
1 甲型H1N1流感病毒特征
甲型(A)流感病毒(influenzavirusA)基因组含有8个RNA基因片段[1],最大的3个RNA片段PB2(polymeraseB2)、PB1(polymeraseB1)和PA(polymeraseA)编码聚合酶;第4个编码血凝素(he-magglutinin,HA)蛋白(表面糖蛋白,主要抗原);第5个编码核蛋白(nucleoprotein,NP),其主要功能是RNA结合、合成和RNA核运入;第6个编码NA(neuraminidase,神经氨酸酶活性,主要抗原)和NB(neuraminidaseB)蛋白(NB蛋白在感染中起辅助作用);第7个编码基质蛋白M1(matrixprotein1)和M2(matrixprotein2);第8个片段编码非结构蛋白NS1,通过剪接还可以编码NEP/NS2蛋白。[2]
甲型流感病毒,包括上百种不同亚型的流感病毒。对于这些亚型的不同命名,来自于H和N的不同。所谓H和N,是指甲型流感病毒表面的两大类蛋白质。H是红细胞凝集素(Hemagglutinin),其作用像一把钥匙,帮助病毒打开宿主细胞的大门;N是神经氨酸苷酶(Neuraminidase),能够破坏细胞的受体,使病毒在宿主体内自由传播。
根据H和N的形态,甲型流感病毒可由15种H型和9种N型进行排列组合,比如H1N1和H5N1等。即使是同一种亚型的流感病毒,也可能因为基因序列的变化,在病毒的传播性、致死率等方面出现很大差异。
2 RNA分子
RNA--核糖核酸(ribonucleic acid)是一类具有重要功能的生物大分子,RNA 分子在细胞生命的组成中起着巨大的作用,RNA 是从作为遗传信息存储体的DNA到构成生命各种表征的蛋白质之间的信息传递中介[3]。很多研究者从根本上探索生命的起源时,从化学进化和生物学进化的角度,提出了"RNA 世界(RNA World)"的学说[4],即认为生命起源于RNA。随着生物学家们在 RNA 研究领域不断取得重大的突破和进展。一批具有重要功能的 RNA 新类别被陆续发现,使得人们对 RNA 的多样性和复杂性有了新的深刻认识。从而更加激发了人们认识RNA的兴趣。相对于RNA一维线性结构上的多样性而言,其二级结构和高级结构的多样性具有更多的生物学意义。RNA 二级结构的预测分析,对于研究RNA 分子的功能,具有极其重要的意义。由于RNA 分子的多样性,现有RNA 二级结构预测方法存在参数敏感、计算复杂度高、预测精度较低等问题,传统的预测手段已不能满足需求。
3 计算机基本特点
3.1 强的数据处理能力
计算机对数据的具有存储容量大、处理量大、操作简便、查询方便、输出检索快速、分析结果准确,同时还能做到有关的数据灵活增加、删除、修改等。有人曾作过对比,利用计算机管理系统进行检索所需时间,只有手工方法检索的几千分之一。
3.2 强大计算功能
计算机能够使技术人员按照自己编制的程序,输入或贮存原始数据,并迅速地进行统计分析,根据得到的所要数据,做出合理的决策。计算机具有越来越强大计算功能,运算速度快,能够显著地提高分析处理数据能力,减少计算误差,提高计算的准确性及工作效率。
3.3 究错能力强,安全性能好
计算机在数据录入时能够采用全屏幕编辑方式,并能对输入接收范围做出规定,若是非法输入将会提出警告信息,及时究错,从而保证了输入的正确性。在数据使用时可对主控模块和有关功能模块分别设置口令,规定使用权限。
3.4 维护性、扩充性能好
计算机管理采用结构化程序设计系统,层次清晰。程序编制时,使各模块间联系仅有一个入口和一个出口,能够做到尽量少,而每一模块内联系尽量使之紧密,具有独立性,所以维护、扩充性能好。
3.5 强的逻辑判断能力
计算机数据库管理系统的出现,使得非数值数据的处理成为计算机应用的主流领域,大大改变了模拟方法的面貌,使得计算机具有强的逻辑判断能力。
3.6 缩短时间和空间距离
计算机科学日渐成熟,现代信息技术几乎对任何信息都能进行数字化处理。同时现代信息技术利用客户机服务器模式可以形成网络化的信息高速公路,应用程序和后台数据库进行动态链接,实现资料数据共享,从而打破传统的时空观,有效缩短时间和空间距离。
4 RNA二级结构的预测
结构和功能是息息相关的,在物理方法测定结构没有得到质的飞跃之前,结构预测问题仍旧是生物学和生物信息学研究者所共同关心的问题。不同于DNA的双螺旋结构,RNA一般为一维线性结构,但是很多RNA需要通过碱基配对原则形成一定的二级结构乃至三级结构来行使生物学功能。相对于 RNA 一级线性结构上的多样性而言,其单链自身回折形成的特征性二级结构和高级结构的多样性具有更多的生物学意义。随着研究的不断深入和发展,出现了大量的核酸数据库(如RNA virus database等),其中包含了海量的RNA 一级序列数据,如果通过单纯的物理实验方法去测定很不容易。虽然测得的结果非常精确可靠,可是面对当前海量的生物序列,这样做实验的费用大,需要的时间较长。相比之下,基于计算方法预测RNA 的二级结构,则能较好地解决这个问题。计算机可根据输入的RNA 序列数据,使用现有的预测工具,直接预测出相应的二级结构,大大提高我们认识 RNA 空间结构的效率。RNA 二级结构预测问题,根据不同的情况衍生了不同的预测思路。
5 计算机在RNA二级结构预测领域的应用
目前有多种用于RNA 二级结构预测的软件和在线预测的网址,使用效果比较好的分别是:RNAfold、mfold、Srna、CARNAC、MARNA、Pfold、和RNAStructure,在这里我们所使用的是mfold的在线预测。Mfold是根据最小自由能模型的Zuker 动态规划算法进行预测的,所预测的序列为单一序列,Mfold工具的优越性有以下几个方面:可以人为设定先验知识; 支持环形RNA 的预测;可以设置内环/ 凸环的最大值;可以设置内环的最大不对称值; 可以设置碱基对之间的最大距离; 每次提供多个可选择结构; 提供图形化界面输出,只能预测单个序列。
6总结
综上,借助于计算机手段和各种数学方法从理论上去预测 RNA 的空间结构,为研究RNA 结构与功能的关系提供重要信息,大大提高了认识 RNA 空间结构的效率和预测精度,得到具有生物学意义的预测结果。
参考文献
[1]NicholsonKG,WoodJM,ZambonM.Influenza[J].Lancet,2003,362:1733-1745.
[2]2009年新型甲型H1N1流感病毒全基因组序列重组分析 殷建华等第二军医大学学报 2009年6月第30卷第6期
[3]Caspersson T, Schultz J. Pentose nucleotides in the cytoplasm of growing tissues. Nature,1939, 143:602-603.
[4]Szathm?ary E. The origin of the genetic code: amino acids as cofactors in an RNA world.Trends Genet., 1999, 15(6):223-229.