兰州大学 云计算为科研加速
2016-12-17张洋
文/张洋
兰州大学云计算为科研加速
文/张洋
基于IaaS的JPPF云计算药物筛选平台充分利用了不同架构和不同操作系统的云计算资源来进行药物分子的虚拟筛选,大大缩短了药物筛选的进程,节省了平台构建成本,为利用云计算技术来加快新药的研发提供了一种新的思路。
虚拟药物筛选和计算机
计算机辅助药物设计在高性能计算的带动下有了突飞猛进的发展。它的应用缩短了药物研究与开发的进程,提高了药物开发的效率。目前,在药物研究领域中对于新药的发现工作主要使用虚拟筛选方法。通过计算机的模拟来预测药物与受体生物大分子之间的作用关系,计算受体与配体的相互作用,从而设计出优化先导化合物的方法,最终可以筛选出在某些疾病中起到关键作用的蛋白靶点的抑制剂,这种抑制剂对研发这种疾病的药物有着非常重要的作用。
新药研制的关键之一是从大量的化合物样品库中发现有药理活性的化合物,其工作量极大,一般情况下通过常规药物筛选的命中率仅为0.01%,效率非常有限。目前由美国国家生物技术信息中心维护的有机小分子生物活性数据库Pubchem已经收录了大约6300多万化合物,同时ZINC药物数据库上可以购买的药物分子已经达到了3500多万,而且每年的药物分子数量还在不断的增加。面对待处理测试的近亿数目的药物,如果仅仅通过生物测试实验进行盲筛的话,需要耗费巨大的人力和财力,这对于一般的实验室和研究所来说是很难实现的。
为了提高筛选效率和命中率,人们开发了利用高性能计算机进行虚拟药物筛选这一新的途径。通过高性能计算对上百上千万分子进行模拟、预测药物与受体生物大分子之间的作用关系,模拟和计算受体与配体的相互作用,设计优化先导化合物的方法,最终可以筛选出在某些疾病中起到关键作用的蛋白靶点的抑制剂,大大提高了筛选命中率。据国际上公布数据显示,基于高性能计算的药物筛选命中率为2%~24%,是常规药物筛选命中率的上百倍甚至上千倍,从而极大地降低了新药研制周期和成本。
虚拟筛选是一种计算密集型应用,计算诸如静电力和范德华力等非绑定交互作用的时间占整个过程的绝大部分,需要大量的CPU参与计算并且耗费大量的计算时间。如果要筛选的药物数量增加就需要更多的计算资源。
网格技术一直是药物筛选应用最广的技术,也具有很大的潜力,但是它需要先进的架构,如智能的服务器、快速的连接;而且,为了最大化利用共享的资源和架构还需要使用高效的工具、软件和技术来管理整个网格。这些技术的集成、整合成本是非常高的。而且网格技术严重依赖分散的数据管理。一些软件的定义不是很明确,有些应用必须修改才能以适应网格的使用,尤其是异构网格。另外,其性能也是研究者一直质疑的问题,尤其是它的技术已经落后于云计算和GPU的发展,所以导致了这项技术比较难以进一步推广和应用。
大规模筛选对云的需求
目前云计算已经渗透到许多领域,如金融、教育、医疗、电子政务以及电子商务等。在这期间,云计算在生物信息化领域也得到了良好的发展。尤其在新药研究方面,全球大的制药公司辉瑞、强生、葛兰素史克等都把云计算技术引入到新药研究的过程中,开展如蛋白质结构预测、基因序列比对、虚拟筛选和蛋白质靶点分析等应用,大大减少了药物研发的时间。进行大规模的虚拟筛选需要很多的计算资源,云计算为实现这种大规模的应用带来了机会,我们可以把不同架构、不同操作系统的云计算资源组织起来就可以提供强大的计算能力,从而用来进行大规模的药物虚拟筛选。
在三种云计算服务中,IaaS把数据中心以及基础设施硬件资源通过Web分配给用户使用,用户可以部署和运行任意软件,比较适合生物化学中的分布式计算应用。IaaS也是目前在药物研究中用的最多的一种云计算模式。比如亚马逊的IaaS云计算就可以快速地提供多个节点的集群服务,用它来实现大规模的并行计算。
Hadoop也被用于虚拟筛选研究,但是Hadoop的HDFS文件系统对本地服务器的磁盘读写要求很高,而且会在节点间产生大量的流量,对于网络的通畅性要求很高,所以Hadoop架构只有在完成网络优化后,才有可能实现计算性能提升。
云计算下的大规模虚拟筛选应用
J PPF是目前一个较为开放的计算框架,既可以通过接口设计J AR包来完成自己的计算任务,也可以通过修改源代码,在编译的过程中就可以完成计算任务;除此之外,J PPF支持的平台比较广泛,除Windows、L inux和OS之外,还支持Android系统以及平板电脑等移动设备,并通过指令快速完成相关计算任务。
2014年,兰州大学基础医学院采用IaaS云服务,并设计了一个基于J PPF(Java Parallel Processing Framework)的异构分布式计算框架(如图1所示),它可以调用IaaS提供的不同架构和不同操作系统的计算资源,并将虚拟筛选作业自动分配在这些资源上,从而完成大规模的虚拟筛选。
图1 基于JPPF的异构分布式计算框架
该系统主要包括四个部分:客户端,服务器端,数据库中心,计算节点。通过客户端提交任务到Server端进行分配,Server端通过蒙特卡洛罗的算法将待筛选的任务分配到相应的计算节点;计算节点执行Server端分配的任务,并从数据库中心下载要进行筛选的药物分子,完成虚拟筛选后再把结果传输到数据库中心。其中我们采用如下公式来有效地管理整个计算任务的生命周期,使得整个时耗t最优,公式:
其中Ai代表程序初始化和数据分配所需要的时间,Bi代表在计算节点运算的时间,Ci是最后数据结果收集和处理所耗费的时间。最后我们通过基于分子动力学模拟的MMPBSA方法来准确的预测药物分子与筛选抑制剂之间的结合自由能(Δ GBind),如公式:
其中Δ Grec-lig、Δ Grec和Δ Glig分别代表在动力学模拟计算过程中的配体-受体组成的复合物、受体和配体的平均自由能。
基于上述平台,我们进行了基于β 2肾上腺素受体(β 2AR)的药物筛选研究。β 2肾上腺素受体属于G蛋白偶联受体的A类家族的成员之一,它可以通过激活Gs蛋白来调节细胞内关键的信号通路,进而影响生理过程,比如呼吸道和血管的平滑肌松弛调节。通过研究β 2肾上腺素受体在IaaS云计算模式上的药物筛选的分布式计算,可以为药物设计提供很好的计算范例。在一个由40个节点构建的校园IaaS云计算平台上进行了五万个药物分子的测试,结果表明该平台可以很好地协调这些计算资源进行药物筛选,并给出了很好的药物筛选结果。
基于IaaS的JPPF云计算药物筛选平台充分利用了不同架构和不同操作系统的云计算资源来进行药物分子的虚拟筛选,大大缩短了药物筛选的进程,节省了平台构建成本,为利用云计算技术来加快新药的研发提供了一种新的思路。目前很多高校都有药物研究方向,大多数学院都是构建自己的高性能计算集群来进行分子的模拟和计算。云计算的低成本、稳定性以及可扩充性为构建这种应用提供一种灵活的方案,让这些研究方向的师生体验更方便和快捷的计算服务。
(为兰州大学)