高性能计算:企业需求升温
2020-03-16JohnEdwards
John Edwards
在当今数据驱动的世界中,高性能计算(HPC)正成为企业寻求深入了解基因组、计算化学、金融风险建模和地震成像等领域的首选平台。最初,高性能计算受到需要进行复杂数学计算的研究科学家们的欢迎,而现在,越来越多的企业开始关注这一领域。
高性能计算机数据存储系统提供商Panasas公司的系统工程总监Dale Brantly介绍说:“依靠数据的收集、分析和分发而蓬勃发展的环境,以及依靠可靠的系统来支持具有巨大计算能力的工作流程等等,都需要高性能计算。”
虽然中小企业采用的仍然相对较少,但对于愿意投资于技术和员工专业知识的企业来说,这项技术具有巨大的潜力。
通常,高性能计算应用情形主要集中在某种类型的仿真上。谷歌云首席技术官办公室高性能计算和量子计算技术总监Kevin Kissell解释说:“例如,机翼气流模拟、发动机燃烧、行星天气系统、核反应以及投资组合估值等。”其他应用情形则针对分析目标,例如,衡量广告投资回报率,或者评估业务部门的绩效等。还有其他的应用情形可以归类为转换应用或者转型应用。他说:“比如电影和视频渲染。”
没有超级计算机的高性能计算
很多企业和IT领导们都有一个误解,那就是所有的高性能计算系统都是基于超级计算机的。事实上,虽然由Atos、IBM、HPE/Cray和Fujitsu等公司生产的超级计算机是很多专业高性能计算系统的核心,但一种使用更广泛的方法是将多台小型计算机集中到互连的集群中,以提供高性能计算功能。在这种布局下,集群中的每台计算机都是一个节点。每个节点通常配置多个处理器,称为计算核心,用于处理计算任务。每个节点内的处理器、图形处理单元(GPU)和内存资源相互连接,以创建高性能计算系统。
由于实现并运行超级计算机及其定制软件的成本很容易达到数百万美元,因此,这项技术仍然远远超出大多数企业的财务承受能力。集群式的高性能计算机使用相对便宜的联网计算机,运行现成的软件,通常更易于部署和运行。尽管如此,对于大多数企业来说,特别是那些高性能计算需求有限的企业,即使是规模不大的集群型高性能计算也是很大的投资。
现在,这种情况正在改变。希望在不突破IT预算的情况下使用高性能计算的企业可以选择转向公有云服务,例如,谷歌云、微软Azure、亚马逊网络服务(AWS)和IBM云等。
数字服务和软件工程公司Ciklum的.NET技术主管Maksym Pavlov说:“利用这些服务,企业能够通过高性能计算功能来满足其业务需求,而无需对高性能计算集群的硬件基础设施进行大量投资。”IBM的百亿亿次计算副总裁David Turek补充道:“云的出现在某种程度上拉近了小企业和大企业之间的差距。”
从高性能计算集群到高性能计算云
北卡罗莱纳大学教堂山分校(UNC-Chapel Hill)长期以来一直依靠其内部高性能计算集群来支持多个科学、工程和医学领域的研究活动。然而,随着研究计算需求的不断增长,当前系统的计算资源和容量开始满足不了用户需求了。大学并没有扩大现有的高性能计算投资,而是决定转向云,为用户提供一个按需的高性能计算环境。
该方法证明既有成本效益又非常灵活。北卡罗莱纳大学教堂山分校临时首席信息官Michael Barker介绍说:“借助于云计算,我们可以提供完成必要工作所需的计算能力,并且只要工作需要,我们就可以随时提供这些计算能力。这是一种满足运行计算工作需求非常有效的方式。”
北卡罗莱纳大学教堂山分校高级研究助理Jeff Roach表示,迁移到云端既有必要,也非常受欢迎。他说:“我们有一个非常传统的本地集群。”然而,随着时间的推移,越来越明显的是,该系统逐渐跟不上需要先进计算能力和更快性能用户的需求。他说:“我们发现,我们的本地集群对其设计目标用户的工作效果非常好,但除此之外,其一些优势应用却变得不那么有优势了。”
随着计算需求应用情形迅速流行起来,北卡罗莱纳大学教堂山分校开始与谷歌云和仿真分析软件提供商Techila技术公司合作,规划进入高性能计算云的旅程。规划后的第一步是概念验证评估。Roach说:“我们找了一名在校研究人员,他的工作就是进行大量的高内存、交互式计算,我们想要测试一下他的工作量。”他说,这个结果绝对是成功的。“研究人员真的很喜欢,他完成了工作。”如果在大学的本地高性能计算集群上运行,同样的任务可能需要一个星期才能完成。Roach说:“而他仅用几个小时就可以完成很多工作。”
在大西洋的另一边,约克大学也决定采用基于云的高性能计算方法。英国皇家学会行业研究员、约克大学生物系教授James Chong介绍说,生物、物理、化学和计算机科学等理科系以及语言学和其他一些学科的师生广泛采用了高性能计算。
Chong的团队目前正在使用谷歌云来分析DNA序列数据。他解释说:“具体来说,我的团队对微生物群落很感興趣,这是一种混合微生物群落,参与了把废物(在我们的研究中,是污水污泥)转化为沼气的过程。我们使用高性能计算把DNA短序列重组成一个宏基因组,然后分离出不同微生物的基因组,这样我们就可以理解这些微生物是怎样对其生长条件的变化做出反应的。”
与北卡罗莱纳大学教堂山分校的同行一样,Chong也非常欣赏高性能计算云服务所能提供的强大功能和灵活性。他说:“我们的高性能计算能力能够满足一系列需求,有些用户需要大量的处理器,而有些则需要大容量内存机器。作为生物学家,我们使用的一些应用程序很快就会绑定到I/O,因此我们也非常需要超高速硬盘访问功能。”
大学使用的高性能计算云也能够适应不断变化的需求。Chong指出:“我们中的很多人开始使用机器学习技术,希望能够利用不同的体系结构。”他补充道:“这所大學的用户范围很广,这意味着我们还需要使用一系列不同的软件包。”与大多数高性能计算云一样,约克大学使用的服务支持各种类型的研究人员轻松快速地在软件工具之间切换,而不会在获取、部署或者配置问题上浪费时间。
使用超级计算机的高性能计算
虽然高性能计算云服务有某些优势,但对于关心安全和隐私的企业来说,它并不总是最佳或者最合理的选择。Turek注意到:“这些企业对于数据存放的位置非常敏感。例如,尤其是当考虑到欧洲的GDPR限制时。”(GDPR是欧盟隐私法《通用数据保护条例》的缩写。)
为了同时满足隐私和对巨大计算能力的需求,迈阿密大学最近选择投资一个基于超级计算机的内部部署的高性能计算新系统。最关键的是,该大学认为,拥有大量多维数据集的研究项目在专门设计的高性能超级计算机上能够运行得更快。
去年8月,该校推出了基于Power Systems AC922服务器的IBM Triton新型超级计算机。迈阿密大学计算科学中心主任、数据和研究计算副教务长Nicholas Tsinoremas介绍说,已有2千多名师生使用该系统开展气候预测、基因组学、生物信息学、计算机视觉和人工智能等项目。
虽然部署成功了,但还是遇到了一些基本的障碍,这是任何采用高性能计算的用户都能预料到的——无论其规模、领域或者计算需求如何。Tsinoremas说:“迁移总是一个问题。”还必须解决用户培训和再培训问题。他指出:“新系统与传统存储系统的集成则是另一个难题。”
所有这些问题都强调了这样一个事实:无论高性能计算系统是基于本地的还是在云端的,要想顺畅地采用都要做好计划和准备工作。Tsinoremas提醒说:“内部的专业知识是必要的,各部门也必须有计划。”理解工作负载的性质和要求也很重要。他说:“换言之,采用者应了解他们要解决的问题,自己知道希望高性能计算怎样帮助解决这些问题。”
高性能计算工作负载入门
另一个关键点是,要清楚地知道选择正确的资源管理工具非常重要,只有这样,企业才能使用好并优化高性能计算环境。仿真软件以及其他高性能计算工具和服务提供商Altair的高级产品管理主管Jérémie Bourdoncle说:“无论是购买传统的高性能计算硬件环境,还是在云端利用高性能计算,或者两者的结合,根据企业的工作类型和吞吐量需求选择合适的高性能计算工作负载管理器都是非常重要的。”工作负载管理器能够自动进行作业调度,实现管理、监视和报告功能。
Kissell建议应用策略应注重知识性、简单性、选择性和谨慎性。他建议:“这可能是一个漫长的旅程,所以计划好你的旅行,但也要给自己调整旅程的机会。”选择一个简单但有代表性的测试应用情形,从中可以清楚地看到从高性能计算模拟或者分析中获得的知识和深度分析结果。“然后针对你的问题类别选择一个简短的软件包列表,并进行尝试。”
John Edwards是一位资深的商业技术记者。他的文章发表在《纽约时报》、《华盛顿邮报》以及很多商业和技术出版物上,包括CIO、ComputerWorld、《网络世界》、CFO杂志、IBM数据管理杂志、RFID杂志和《电子设计》等。
原文网址
https://www.networkworld.com/article/3444399/high-performance-computing-do-you-need-it.html