高性能计算机可靠性的提升策略
2018-04-03吴晓风
吴晓风
(山西国际商务职业学院 山西·太原 030031)
一、高性能计算机概述
HPC高性能计算机的英文全称为:High performance computing,是指在较多处理器同时运行的情况下,完成单个运行设备与集群中多台计算机设备的资源整合,其计算系统或环境本身架构了更多的单独运行系统,相当于无限扩充了基础运算量和运行效率。多数HPC系统的界定标准可以从大型集群化程度来甄别,或者高度专用的硬件系统也是HPC高性能计算机的普遍应用状态。大多数基于集群的HPC系统使用高性能网络互连,诸如InfiniBand或Myrinet网络互联形式。基本的网络拓扑和组织通过运用总线拓扑,形成了更高的网络性能环境,网状网络系统构建了主机之间更短的潜伏期,故而加强了总体网络性能,乃至数据信息传输速率。因此,HPC高性能计算机反而超越了单体计算机的性能。
二、HPC的可靠性需求
近年来,各个行业的用户对于四路以上HPC高性能计算机系统的服务器需求量逐步增加。一方面,在云计算、移动互联、BYOD等新一代信息化应用快速发展的过程中,用户业务系统的访问压力在不断上升,而数据处理需求也在不断增加。另一方面,对于一些长期处于高危领域的应用系统而言,不间断的运行条件以及是否能够在运行期间保持长期的高速运行状态,是对于系统运行指标的终极需求。诸如军事、医疗、交通、金融等领域中,停止系统所造成的风险和威胁都可造成无法估量的损失。因此,HPC高性能计算机的系统可靠性成为诸多领域发展的必然需求。其中最为关键的便是RAS(Reliability可靠性,Availability可用性,Serviceability适用性)特性。
(一)系统运行可靠性
可靠性是对于计算机系统处理数据信息时的准确度与时效性要求,是对于计算机系统在加速运行状态下仍然保持较高的稳定性,仍然能够随机调动应用程序,而不出现死机或程序中断的可靠性指标。在占用最小内存空间的情况下,达到数据信息存储、传输、应用的最高效率,令占用网络带宽的比例最低,且能够完成稳定的数据输出,则代表HPC系统运行具备了这种可靠性。
(二)系统支持可用性
可用性是HPC系统在运行期间是否存在业务中断的评估标准,通过专用Metro Mirror实现存储数据复制,满足主机多应用、异构的存储高可用性需求,是长期以来HPC的可靠性需求表现。因此,在实现Global Mirror或Metro Mirror数据备份的效果上,也决定了无数据丢失的基本需求,是HPC系统发展的本质诉求。
(三)系统检测适用性
适用性是对于可靠性的补充,在RAS特性中适用性代表避免由于存储介质损坏导致的业务中断,是保障HPC系统运行条件的必要支持。在系统运行周期内的任何执行错误类型是否能够被快速检测、甄别、纠错、修复等,均为HPC系统运行的适用性。因此,适用性是对于可用性的补充,也是对于可靠性的最终验证条件,是进一步加强HPC系统可靠性的界定指标。
三、高性能计算机可靠性的提升策略
(一)优化数据完整性
HPC系统可靠性本身是对于数据信息的安全管理,在此方面主要以优化数据完整性及备份效果为基本策略。诸如金品计算机科技(天津)有限公司是国内服务器最新出品的金品K2400存储模型技术,在利用了切片以及负载均衡技术之后,充分利用硬件和网络的性能,构造高效数据通道,消除传统存储系统中由于压力不均导致性能变差的问题,从而提升数据写入带宽的总体速率,由单盘7200转SATA盘可提供50MB/s以上的聚合带宽信息共享度。在借助存储冗余算法之后,可以大幅提升副本情况下的存储磁盘利用率,在单台存储节点的配置上,使用冗余副本技术,可以获得80%的空间利用率。由于可以支持Linux、windows、MAC等多种操作系统,其集群计算应用性能更强,可以在可访问存储集群中随时更换硬件设备,因此其兼容性以及灵活性更加完备。
在数据安全可靠的性能优化方面,系统内置智能故障探测机制,可自动探测并处理存储异常,即使出现宕机、网络中断、磁盘损坏等情况,仍然能够保障数据完整性和数据服务的持续运行。真正数据完整性的设计方案,是借助多位验错,以及校错功能来实现的系统运行可靠性。在HPC系统中IOPS可以达到60万/秒的运行速率,同时支持NFS、ISCSI、Cinder、CIFS、KFS、S3、Swift、FTP 等协议,并借助Leo Raid技术,N+M纠删码模式,以及1-4副本模式完善了数据采集的基础条件,继而拓展了快照及克隆技术,数据信息的可靠性必然有所增加。NAS文件库、数据库平台、对象存储、企业云盘、备份机等多种存储路径中,纠错内存镜像的基础功能是进一步优化HPC可靠性的运行保障,因此其系统故障的排查能力更强,可以在最短时间内将备份数据进行加载,最大限度的提升HPC系统可靠性。
(二)芯片级可靠性保障
HPC系统运行能力与所选芯片的技术规格存在必然联系,而内存需求对于芯片级运行效率的需求也在不断加深。虽然目前我国芯片技术尚未达到较高的水平,但是仍然在借助了国外生产商的技术支持后,达到了较高的系统运行稳定性。其中主要以Intel安腾系列处理器为主,随着计算和数据分析的发展,HPC系统遇到了许多瓶颈,高可靠性的需求便是其中最为关键的技术支撑点。英特尔安腾系列处理器的可扩展系统框架,可以通过节能方式跨计算和数据,完成更为密集的系统运行状态和基础运算量,提供可扩展的解决方案。虽然安腾9500系列对于软件支持的效果欠佳,但是安腾处理器9700系列所提供的数据信息处理效果仍然是今为止HPC系统性能最高芯片级可靠性保障。8个内核及31亿个晶体管是9700系列的主要配置,双域及多线程的增强支持,加强了前端和后端流水线执行效果,并能够提高HPC系统吞吐量和可扩展性。通过实现芯片级电源监视和控制,从而提供更高的处理器增强频率,增强HPC系统工作负荷,并在散热层利用率上优化系统结构的负载量。因此,芯片级技术的开发成为HPC主流系统的高可靠性提升策略之一。
(三)运用标准协议内支持RAS架构
英特尔2016年发布的E7 v4处理器标准协议架构方式,取缔了原有的RAS技术结构,支持8路HPC系统,并最高可获得24TB内存。借助最高单插槽内存容量,该处理器产品可支持更为庞大的数据集存储,而且是数据信息在内存中的存储,而并非硬盘,那么相对的数据洞察与决策时间也会极大缩短。同时,作为纵向扩展平台中计算引擎的HPC系统协议优化方案,远比IBM Power8的解决方案可靠性更强。基于英特尔至强E7 v4处理器协议的技术优化方向,其解决方案本身可提供高达1.4倍的优化性能,拥有高达10倍的性价比,以及仅为50%的系统功耗。北京飞机维修工程有限公司主要为向航空公司提供航线维护、客机维修等服务。其日常工作内容中对于系统内存储的历史维护资料必须极为完整,而原有基于RISC架构的关键业务,并非绝对的稳定性与可靠性。而在运用了英特尔至强E7系列处理器的解决方案之后,HPC系统可同时满足2000名工程师的800个在线访问需求,系统可用性提升至99.99%、响应速度提升3.5倍。这种可靠性的提升,也是基于RAS能力的机制表现,并在协调系统内部组件功能需求之后,达到了运用标准协议的可能性,是进一步支持高性能计算机可靠性的优化方案之一。
(四)高可用性的系统优化方案
HPC系统服务器承担的应用场景均为核心数据库、中间件等关键应用场景,计划外停机与业务灾难存在必然联系。目前HPC系统连续运行水平虽然以RAS特性为评估条件,但是可用性的指标也是必然需要优化的性能指标。虽然英特尔芯片级处理器能够达到99.99%的高可用性,但是仍然存在每年停机时间不超过5分钟的风险。高可用性的发展目标是隔离故障,其中涉及到故障自动化监测、备用数据或设备切换、故障记录分析等方面。其优化路径在于健全周期性的服务器检测技术,进而在HPC系统运行故障出现后及时发现并报警,为修复系统漏洞提供更多的时间。同时在发现故障后,迁移至备用部分中,再次核实故障信息、修复、记录等基础内容。如果要增进高可用性,必然需要权衡信号、板卡、BIOS、部件等其他各个层面系统运行状态。
高可用需要部分资源闲置作为热备份,可能在一定程度上制约了服务器运行效率。诸如硬盘RAID 1技术,在两块硬盘中同时写入备份数据,硬盘空间的利用率则降为原有的50%。为了消解这一弊端,部分HPC系统设置了N共享热备技术,将多部件单元共享为同一个热备件,或者开发互享热备等技术类型。那么HPC系统服务器的复杂性也决定了热备策略及其技术的可拓展性。此前,天梭TS860的系统结构运用了类似技术,通过架构模块级、链路级、芯片级、系统级的四维体系,拓展了60余项高可用技术,其技术核心在于底层双工信号的传输效率是否完全可控,指导部件级别的热替换是否可行,以及硬盘、风扇、网卡、电源等模块对于热插拔的需求是否满足。因此,HPC系统用户在不停机状态下完成的部件替换,也是HPC系统可靠性的重要表现,是进一步优化HPC系统性能的主要策略。
(五)智能决策机制的优化方案
HPC高性能计算机系统要求更高的RAS(Reliability可靠性,Availability可用性,Serviceability适用性)特性,势必需要消解人为操作的干预和弊端。但是智能决策机制的实现方案并非一蹴而就,此前部分研究对于实际数据交换速率,在结合FPGA的I/O接口速率中是否能够突破达200Mbps的指标界限仍然并未达成一致。而对外A/D、I/O、RS485网络接口等都为双冗余设计的情况下,HPC系统结构的复杂性也会随之增加,能够创造的优化性能是否具备了快速剥离故障信息有未可知。
此前中标普华高可用性集群系统的设置方案是加强系统自身的自检性能,以watchdog的定时器来进行系统自检,本地机在意外停止运行60s时,则系统自启,以便恢复系统备份及数据处理。但是其中的时间滞后性也并不足以支持特定应用场景。
近期,浪潮M13服务器对于RAS的设计效果提出了 IMS(Intelligent Memory Surveillance)内存检测隔离技术,这种技术是利用开机时IMS测试结果作为系统智能化评估条件。系统启动成功后进入OS,IMS在实时检测内存运行效果时提出了保护和处理的双向执行条件。一方面,IMS系统以内存ECC错误信息为统计数据,针对错误地址进行验算,以IMS自带的多个测试算法为基础条件。待错误指令被确认后,智能化的预测效果也保障了系统运行的可靠性。另一方面,IMS系统对确认错误或预测所产生的不可纠错性,也支持了OS镜像隔离技术的延伸,能够在内存区域空闲的时间间隔内完成信息隔离,并离开原有的应用程序和执行路径。因此,智能化的决策机制在于支持预测效果的评估,并审核HPC高性能计算机系统是否达到了预期的可靠性,才能进一步优化其系统的稳定性,在出现运行错误之前自动解决和处理,进而优化和补充其系统性能的可靠性条件。
结语
综上所述,高性能计算机必须在更高可靠性的基础上完善系统性能,其运行效率必须更高,才能支持高速运行状态下的系统程序趋于稳定状态,且能够以降低出错率为指标,保障RAS性能发挥出更强的应用优势。为了保障RAS性能的突出作用,需要优化数据信息的完整度,并打造芯片级数据信息处理的可靠性。同时需要逐步开发更为稳定的技术类型,支持HPC性能逐步完善,运用标准协议支持RAS架构,开发智能决策机制的优化方案。继而支持HPC系统的可靠性,达到预期的开发与设计效果。