基于鲲鹏架构的国产化高性能服务器系统关键技术
2023-12-19李瑞杰
李瑞杰
深圳市宝德投资控股有限公司 广东 深圳 518000
引言
在我国通用服务器市场上,国内外厂商间的差距在不断减小。对于国产服务器厂商来说,掌握核心技术、在高端领域占据优势的企业将会有更好的发展前景。基于国产架构鲲鹏处理器,构建国产化自主安全可控高端服务器产品,实现4U高端服务器国产软硬件一体化的研发。采用业界最先进的软硬件,为客户量身定制,打造企业级融合高效架构。在激发软硬件潜能的同时,以软件定义和硬件重构为核心,根据信息处理需求可进行升级扩展。提供企业级的强劲计算性能和扩展能力,多核高并发,匹配海量数据需求,同构部署、零性能损耗,完美对移动应用云化,适用于对信息安全要求较高的处理型需求,为云计算、大数据、分布式存储、ARM原生应用、高性能计算和数据库等应用高效加速,满足企业用户多样性计算、绿色计算的需求[1]。
1 服务器规格设计
宝德鲲鹏服务器基于ARM架构鲲鹏处理器为核心,围绕鲲鹏处理器向外发展实现高性能整机化产品。服务器搭载2颗24/32/48/64核鲲鹏920高性能通用处理器,可提供强大的计算能力,帮助用户应对较重的计算压力;内存支持32个DDR4-2933插槽,多种硬盘选择方式;板载SATA3.0,传输速度更快、功耗更低、可靠性更高;最多可支持8个PCIe4.0 x8,2个板载网络插卡以及8*GE电口或者8*25GE/10GE光口,实现对智能阵列的支持,可显著增强I/O性能;板载RAID控制器,支持多种RAID保护级别,提供数据处理性能和保护数据功能,兼容SUSE、Ubuntu、CentOS、openEuler、UOS、麒麟软件、凝思、中科院软件所、拓林思、泰山国心、普华、湖南麒麟等操作系统。
2 鲲鹏架构高可靠高性能服务器系统关键技术
2.1 主板电路功能设计
高可靠高性能服务器产品定位为双路机架式服务器,为搭载两块鲲鹏920处理器,主板需要继承丰富的通用接口,方便用户快速搭建硬件演示平台及连接外部设备。主板核心为两块鲲鹏920CPU,每块鲲鹏920芯片可支持8通道DDR4 DIMMs 内存条,因此,主板上需包含32个DDR4 DIMMs内存插槽口。此外,主板涉及3个模块化增扩口,即3个Riser卡,主板需搭建一个RAID卡作为服务器数据安全保护功能之一,在内存方面,比对市面上现有的其他型号产品,服务器的设计搭载至少16个热插拔3.5/2.5英寸SATA/SAS/SSD硬盘,且需要前后搭载。此外,网卡插口为2个,在电口和光口上设计为模块化设计添加,板载设计两个FlexIO口、4个USB3.0接口、1个VGA接口,1个COM接口,主板内部PCIe接口设计,达到满足模块化需求,实现灵活的客户定制功能[2]。
2.2 BIOS设计
我国目前的BIOS系统设计几乎可以说是没有,包括BIOS在内的计算机系统底层设计长期被国外公司垄断,对计算机系统性能发挥,国产系统研发进度保证和信息系统安全造成了极大的危害。
本研究中所涉及的BIOS选型上需采用华为公司基于PMON研制出来的高端计算机主板BIOS。其主要原因在于该BIOS可以完美适配鲲鹏920处理器。BIOS系统的结构由总控逻辑进行控制、支持鲲鹏多核处理器和异构特性,涉及外设驱动、可靠性支持、主板及硬件状态检测、支持BIOS界面管理系统,并支持主板其他特性。该BIOS的功能逻辑设计如下图1所示:
图1 BIOS系统功能逻辑
2.3 高可靠性
本研究的主要目的是为了完善国内信息技术创新产业生态,因此,作为服务器的重中之重是自主创新。在处理器上选择鲲鹏920而非AMD或Intel公司的x86架构处理器的理由便在此。然而,服务器的安全并非只关注与信息盗取方面,因为不可控因素导致的数据储存错误,数据丢失甚至硬件损坏都是安全可靠性的一部分。本研究中需加装板载RAID控制器,支持多种RAID保护级别,提供数据处理性能和保护数据功能。除此之外,针对服务器常见的电磁辐射影响因素,本研究进行全屏蔽放电磁辐射、抗干扰、防静电的设计。另外,针对突发停电状况,本研究设计了冗余电源,提供掉电保护和多电源备用应急处理方案。同时,还搭配了Web端管理界面,丰富多样配置存储管理方式,使得管理人员可以分别在本地或远程异地实现设备设置、管理、监控和调整产品运行的功能,提供及时性操作,才能避免安全问题不能得到及时处理。在服务器登陆方式上,同样需要安全管理,客户端证书和证书密码双重因素认证方式作为宝德已有的成熟的安全管理登录方法,亦需要搭配上此项目产品。
2.4 低功耗设计
在芯片级,鲲鹏处理器具有良好的低功耗特性,通过设计优化实现了动态功耗管理。其核心思想是“按需计算”,即在保证性能的前提下,根据应用需求的变化动态调整芯片中硬件资源的状态,总是以最合适的资源来服务于当前应用,从而达到降低功耗的目的。
鲲鹏处理器通过采用7nm多阈值压设计、自动门控时钟、动态关闭cache等多种逻辑设计与物理设计手段来降低功耗。此外,处理器使用若干功耗管理措施来降低功耗,包括对处理器的动态时钟降频(核心时钟可以运行在全速时钟的1/8, 2/8,..7/8等模式,且通过软件读写寄存器进行频率切换,具有控制简单,切换速度快,没有切换延迟开销的特色)。此外,CPU可以通过软件对不必要运算的处理器核或IO模块进行动态的关闭,以进一步降低处理器功耗。与之强大的双精度浮点运算性能相比,其能效达到了1.6Gflops/Watt和6.4Gflops/watt。
2.5 国产安全操作系统
针对本项目产品,因为主打高可靠,鲲鹏高性能服务器选取较为成熟的麒麟操作系统作为主要搭载OS(Operating System),其他操作系统,例如UOS作为备选,满足客户需要。
麒麟操作系统应作为最成熟的选项。中标麒麟桌面操作系统产品以中标软件多年的UNIX/Linux研发经验为依托,可以为政府用户、行业用户、金融用户、PC生产商等大客户提供定制服务,开发特定的产品,并基于此类产品为客户提供解决方案,技术支持,产品服务。中标麒麟桌面操作系统采用开放的、架式系统设计方案,提供最新的稳定核心、硬件驱动及上层软件包,能够支持目前市场主流硬件,将提供更完善的CPU、主板、显卡、声卡、网卡、打印机等硬件的支持。同时中标麒麟桌面操作系统也提供良好的硬件适配,为用户方调整开发所需要的驱动程序以及周期性的进行软件驱动的更新升级。同时,中标麒麟桌面操作系统提供日常办公、娱乐所需的应用软件,如浏览器、邮件客户端、即时通讯、视频会议、办公软件、PDF阅读器、Java环境、多媒体播放器等,满足用户网络浏览、多媒体播放、办公、图像处理等多种应用需求。同时软件仓库中包含丰富的应用软件可供用户选择。
2.6 可靠性技术研究
RAS(reliability, availability,and serviceability可靠性,可用性和可维护性)是一体机中服务器系统最重要的特征之一。从RAS的角度看,系统的RAS都是建立在CPU的基础之上。基于CP1的计算系统的RAS将结合Processor、Memory、IO三个方面来实现。本研究使用国产处理器及零部件的高端服务器,根据以往的经验,势必会在硬件适配上出现可靠性问题。系统RAS不仅仅是Processor RAS和Memory RAS。使用这些组件的系统架构也是避免应用终止的关键。基于CP1的算机系统的RAS特点在设计的时候,也是要考虑基于系统的尺寸和使用的场景[3]。
本系统设计采用基于Linux改进的操作系统,同时使用了OPAL来提供硬件的抽象层能够直达操作系统,或者通过KVM也可以直接访问到操作系统。系统通过IPMI来提供系统管理,鉴于此,我们使用BMC而不是FSP来进行错误的处理。
2.7 硬件一体化可信安全机制
服务器在应用中面临各种安全问题,如非法用户登录、敏感数据泄露、系统完整性被破坏以及数据机密性。本研究采用如下关键技术以解决:
2.7.1 安全加密技术。服务器设计通过标准PCIE 8X接口扩展特定安全加密卡,主机可以通过安全加密芯片实现高速的对称加解密计算功能。系统支持两组SATA接口可以利用对称加密芯片及对称加解密控制逻辑实现SATA硬盘的透明加解密存储。
2.7.2 硬件支持的安全登录。采用多层次保护的安全登录机制。利用硬件USB-Key对用户进行身份认证,防止服务器被非法开机。同时,利用TCM芯片来保证BIOS的完整性,防止BIOS可写部分被非法改写。通过软硬件的相互配合,建立一个可信任的、可度量的计算机硬件固件环境,保证计算机登录的安全性。
2.7.3 可信计算密码支撑平台研究。利用TCM芯片设计可信计算密码支撑平台的硬件核心,将安全保密相关运算和关键数据从计算机分离出来,增加计算机系统的安全性。通过对TCM的调用,可信计算密码支撑平台能够实现平台的完整性,完成平台的身份可信验证,保护平台数据的安全。
2.7.4 安全应用中间件研究。将采用安全应用中间件技术实现外设端口管理、用户认证、安全存储、安全审计功能。在系统内核中增加相关控制模块,利用这些控制模块完成用户权限检查,只允许通过检查的用户获得物理外设端口的访问权。使用USB key认证方式防止非法用户访问。提供基本的加解密API接口,满足操作系统之上应用的安全存储需求。提供安全审计手段和日志信息保护机制,建立可追溯的安全审计体系[4]。
3 结束语
本研究基于鲲鹏架构处理器,构建高可靠高端服务器产品,实现高端服务器国产软硬件一体化的研发。适用于对信息安全要求较高的处理型需求,为云计算、大数据、分布式存储、ARM原生应用、高性能计算和数据库等应用高效加速,满足企业用户多样性计算、绿色计算的需求,在关系民生的重要行业陆续布局,助力构建“国产化”生态圈。