“算力+数据”双剑合璧加速新材料创新
2020-12-30郭涛
■ 本刊记者 郭涛
新材料产业不仅是制造业转型升级的产业基础,也是制造强国战略的重点发展领域。以往新材料的研发,大多采用试错法,一种新材料从最初的研究开发,经过性能优化、系统设计与集成、验证、制造再到投入市场,整个周期通常需要10~20年时间。不仅研发周期长、成本高,材料研发与应用之间的割裂还往往导致材料研发的成功率不高。
面对工业的快速发展,材料基因组计划应运而生。材料基因组计划是在现有数据库平台基础上,通过高通量计算、实验和大数据分析技术,加速材料发现-研发-生产-应用的全过程,从而缩短材料研发周期,降低材料研发成本。这种从应用需求出发,倒推符合相关结构功能材料的方式,可以说是对传统材料研发的一种的颠覆。该计划一经推出,就在全球范围内得到广泛响应,发达国家纷纷制定与新材料相关的产业发展战略,在抢占未来制高点的新材料上加大创新力度。我国也将材料基因组计划列为新材料产业发展的重要一环。
中科院物理所材料数据研究平台的三大诉求
中科院物理所是我国首屈一指的材料科学研究与应用机构,致力于运用高通量计算方法开展新材料研究。“一村三湖” 作为中国科学院物理研究所提出的长期计划,其中在北京怀柔雁栖湖的“两平台一装置”,其平台之一就是材料基因平台。中科院物理所一期材料数据研究平台的建设包括两部分:高通量材料基因计算平台和基因数据处理平台。针对这一平台的建设,中科院物理所具有以下三大诉求。
1.高算力:在材料基因研究过程中,高通量材料基因计算平台是整个一期项目建设的核心,需要采用高通量计算的方式进行海量的材料基因模拟计算和筛选。古人云,工欲善其事,必先利其器。计算工具是否给力,对材料研发的周期有着决定性影响。只有高算力,才能保证高并行处理性能,以满足高通量材料计算平台的计算需求。
2.大存储:在材料数据研究平台的建设中,仅仅拥有高算力这项利器只能说抢占了先机。数字化的数据、结构化的数据,可谓是建设材料数据研究平台的根本。作为材料数据研究平台不可或缺的一部分,基因数据处理平台不仅要满足计算数据的高效存储,还将要数据归档,以便于后续分析。
在高通量材料基因计算的运行过程中,成百上千的并行独立计算任务会产生大量的过程文件,这些文件需要被高速存储,以备执行后续的数据推衍和整合。此外,材料基因计算后产生的大量非结构化结果数据,也离不开存储。
3.广泛协作:数据除了安全存储,更重要的一点是尽可能挖掘数据价值。如前所述,中科院物理所建设新平台的目标,也包括了将材料基因计算中的数据结果、代码和计算工具进行共享,以帮助更多材料领域的研究人员提升其研究效率。这意味着以下三点要求:
①系统内部纵向和横向上的数据互通共享,打破业务壁垒,让业务产生的数据实现融合。
②需打通与其他部门之间的数据互通互联渠道,实现环境数据的交换共享。
③通过多源头多渠道多采集方式的海量互联网数据汇集,并经过数据清洗与存储,形成数据合规、统一管理、高效运转、分布式存储、资源共享平台。这也是中科院物理所构建私有云平台的初衷。
实现计算与数据双剑合璧
在经过一系列调研、评测和测试之后,中科院物理所最终选择了与戴尔以及英特尔进行紧密合作,引入了戴尔云战略及基于英特尔升级后的第二代至强可扩展处理器的戴尔易安信高性能计算端到端解决方案。在新一期高通量材料计算和数据处理平台的建设中,中科院物理所完成了160个计算节点、1个GPU节点、2PB的存储容量的部署,并在材料基因数据处理平台的数据中心中构建了完整的统一分级存储资源池,以及用于资源共享的数据云平台。
1.高算力——加速材料基因研发进程
基于中科院物理所的需求,戴尔灵活组合多款机架式服务器,协助其以集群的方式架设了一个高通量计算的作业流程系统。从算力角度出发,该系统部署了160台戴尔易安信PowerEdge C6420作为计算节点。C6420能够在2U空间里支持多达4台独立的热插拔双路服务器,这意味着每个节点可以多达56个核心,能够很好地满足高性能计算的苛刻性能需求;其内置的DPAT性能优化技术,针对高性能计算提供BIOS优化,进一步满足系统工作负载的性能需求。再者,戴尔易安信PowerEdgeC4140服务器作为GPU节点,其大规模并行处理能力,为大型数据处理提供了高计算性能,满足一系列科学应用程序的性能需求。此外,系统还部署了戴尔易安信PowerEdge R940xa服务器作为胖节点,以满足大内存并行计算的需求。经过方案的实施,中科院物理所的高通量计算平台的算力大幅提升,这也正是新材料筛选和模拟工作的第一诉求。
2.分级存储——解除数据后顾之忧
戴尔有着丰富的存储产品线,可以根据客户需求提供多样性的产品组合。针对高通量材料基因计算平台,戴尔提供了两台PowerVault ME4084高密度存储设备,总容量可达1,344TB。该存储设备采用了高性能的Lustre并行文件系统,不仅可支持数百PB数据存储空间以及数TB每秒的并发带宽,为计算节点提供高性能的读写访问,还具有良好的扩展性,中科院物理所可以灵活便利地根据需求对ME4系列存储设备进行扩展。
针对中科院物理所的数据处理平台,戴尔提供了4台H400 Isilon混合横向扩展NAS机和8台A2000 Isilon归档横向扩展NAS机,构成统一的分级存储资源池,分别承载数据分析和数据安全存储的重任。这两款产品具备出色的横向扩展特性,可帮助平台弹性地扩展存储容量。无论环境扩展到多大规模,都能够实现存储的轻松管理;内置的多协议支持提供了操作的灵活性,可以在单一平台支持广泛的非结构化工作负载;还具备多种数据保护和安全性措施,以确保平台数据的安全可靠性。
而随着时间的推移,数据的价值可能也会不断变化,那些不需要经常被读写访问的数据可以将其归档放到更经济的ECS存储中,从而降低数据存储成本。
3.云资源池——实现数据驱动产业协作
为了满足中科院物理所对于协作的需求,戴尔提供了6台戴尔易安信VxRail超融合一体机,来构建用于资源共享的云资源池。VxRail超融合架构能够与戴尔的SDDC (Software De ned Data Center,软件定义数据中心)软件体系完全集成,使平台能方便地基于VxRail超融合一体机部署VMware Cloud Foundation云环境。VxRail通过与VMware的深度集成,实现了一键部署、一键升级,以及从硬件到软件乃至整个云平台的全生命周期管理。此外,在中科院物理所后期项目建设中,VxRail还能够集成VMware基于AI的软件模块,无缝对接私有云和公有云,并支持容器技术,从而为客户后期项目工作的开展做到“未来就绪”。
新材料产业未来可期
中科院物理所在部署戴尔易安信高性能计算端到端解决方案和戴尔云战略之后,从业务角度来看,预计每天可执行3000个基于DFT理论的作业任务,完成100~700个(视材料复杂度不同)无机晶体材料的基因计算,全年可完成目前人类已知的所有无机晶体材料(去重后约10万个)的计算。
而在此之后的三到五年内,中科院物理所还将利用新平台提供的上述计算能力,对人类未知材料世界继续展开探索,将50万个未知材料的预测数据纳入平台的材料数据库中,从而将材料研究方法由传统的“发现-计算”转变为“计算发现”,使信息技术真正成为新材料研究的强大驱动力。
依托戴尔强大的技术实力和完备的产品线,中科院物理所还将持续优化和扩展材料基因计算平台规模;同时平台的计算对象也将由现在的无机晶体材料扩展到分子材料计算,令新材料研究范围变得更为宽广。戴尔也将持之以恒,始终从用户角度出发,通过对自身产品和技术的不断创新,助力中科院物理所在新材料领域实现更多突破。