APP下载

自适应计算加速提升核心基础设施性能

2021-11-16常莽

计算机与网络 2021年18期
关键词:存储器加速器以太网

常莽

AI无处不在、随时在线和以数据为中心的时代,正催升对更高带宽的需求,而这已经超出了当今技术和产品的能力范畴,世界需要一种当前CPU和GPU技术所无法企及的更高效的、更普适的计算,自适应计算应运而生。

AI无处不在、随时在线和以数据为中心

金钱不算什么,数据才是推动当今世界运转的王者。从远程物联网终端为城市规划、健康跟踪、环境保护和业务改进等多样化用途采集数据,到我们热衷的视频流内容和在线分享生活,以及数据的迁移、管理和分析,正处于所有功能的核心,也促使消費者更广泛地使用随时在线的个人物联网设备,并让企业和科研越来越依赖以AI为中心的应用。

数字化的生活方式和新兴的物联网与云端计算及数据服务的快速增长密不可分。云是全新的生活与工作方式的中心,它存储着海量的内容,供人们随时随地进行访问;它托管点播音乐和视频流服务;它采集和分析工业数据或企业数据;它将功能强大的软件应用以按次计费的方式,低成本地提供给金融分析、数据库搜索或基因组测序等工作使用。

此外,5G New Radio(NR)引入了对海量机器通信(MMTC)和超低时延通信(ULLC)的支持,能实现全新的实时蜂窝通信服务。而这将给回传网、城域网以及核心网的容量和性能带来巨大压力。

核心基础设施面临越来越大的压力

如今,提高数据带宽和计算吞吐量是所有的云数据中心、电信网络和蜂窝通信回程网共同面临的强劲需求。涉及的主要基础设施组成部分包括进出数据中心的链路、连接地域分散型数据中心站点的数据中心互联(DCI)、基础设施接口卡和加速器卡。事实上,核心基础设施对数据带宽的需求名义上是以51 %的年均复合增长率增长,然而,单是5G的推出便可推动区域流量容量需求增长100倍。

利用协议处理芯片和接口芯片等分立组件打造新的、更高性能的设备来满足这些需求,不仅复杂费时,而且越来越难以按照性能需求进行扩展。此外,采用这种方式设计出的系统体积庞大、功耗惊人,无法满足数据中心和基础设施对空间占用、功耗和热管理的限制性要求。新一代设备必须在现有的物理、电气和热约束条件范围内大幅提升性能。

此外,设计工作需要在最终规格商定之前采用最先进的协议和标准,才能率先投放市场,尽早抓住机遇。对于想要率先将产品投放市场的设备提供商而言,等待标准成熟之后再部署肯定无法实现领先的预期,只有拥有随着项目的进展在硬件层面灵活地适应变化的能力,才能与时俱进领先同行。

具有突破性意义的可编程加速器

对于一些使用传统CPU或GPU的架构无法快速执行或功耗约束得不到满足的工作负载,高密度FPGA和异构的可编程片上系统IC(MPSoC)等可编程逻辑器件已成为理所当然的加速器选择。这些器件不仅可以通过高度并行的处理模式以极为高效的方式解决特定计算难题(例如信号处理和近期的神经网络),还提供了可编程器件固有的灵活应变能力。

现在,为了满足日益严苛的性能、带宽、功耗和集成目标,被称为自适应计算加速平台(ACAP)的新型可编程器件已经问世。赛灵思Versal ACAP内置一系列智能AI和DSP计算引擎、等效于FPGA逻辑架构的自适应引擎,以及应用处理和实时标量引擎,并通过片上可编程网络(NoC)互联紧密耦合。它还集成了软件控制平台管理功能和众多先进的接口,包括DDR4、100G以太网、PCIe Gen 5和数千兆位光通信接口。

Versal DSP引擎采用经过改进的DSP块,为INT8、32位浮点等操作数提供本机支持,从而提升了多种应用的速度和效率,不仅包括数字信号处理,而且也包括宽动态总线移位器、存储器地址生成器、宽总线多路复用器以及存储器映射I/O寄存器。标量引擎由一个双核Arm Cortex-A72应用处理器和一个双核Arm Cortex-R5F实时处理单元构成。ACAP的异构引擎能够实现重新编程,以适应随时间推移而变化的工作负载,或是随着算法实现或神经网络模型演进而变化的工作负载。

优化ACAP连接性

依托于这种新型可编程器件助力实现的创新,Versal Premium系列现已能够应对当今核心基础设施面临的压力。这些高带宽器件将高计算密度与附加的专用高速加密(HSC)引擎以及先进的网络接口相结合。

高密度网络连接功能包括:提供总双向带宽高达9 Tb/s的可扩展光纤收发器(支持最新的以太网和Interlaken速率与协议)、112 GB/s PAM4收发器、加密处理能力高达400 Gb/s的高速加密引擎,以及灵活应变的硬件。

与现有的58 GB/s PAM4技术相比,在核心网、城域网和DCI基础设施中采用112G PAM4收发器能够使每端口带宽密度翻倍,从而缓解前面板机柜空间的压力,并为电信和数据中心应用加倍提供单位体积带宽。与此同时,给定的数据有效载荷的传输时延降低50 %,提高了应用的响应能力,有助于降低时延对地域分散型数据中心互联的影响。

较之赛灵思16 nm Virtex UltraScale+ FPGA,片上集成资源提供了高达3倍的带宽和2倍的计算密度。另一方面,与专用的特定应用光传输网络(OTN)处理器相比,应用吞吐量提高了3~5倍。

提升计算密度

为了满足超大规模云服务提供商的当前及未来需求,Versal ACAP架构将极高的片上存储器带宽与高性能异构计算引擎紧密耦合,并通过动态功能交换(DFX)实现灵活的工作负载配置。与之前的16 nm FPGA相比,DFX交换内核的速度加快了8倍,支持加速器的动态配置,从而最高效地将器件资源用于随时间推移而变化的计算工作负载,如数据分析、机器学习视觉处理、基因组学、视频转码和加密处理等。

凭借多种类型的分布式片上RAM,高达1 GB的紧密耦合存储器可供使用,进而提供了最高123 TByte/s的等效片上存储器带宽。该带宽能实现各种处理引擎与存储器之间的高速交互,其速度比如今最优秀的GPU快9倍。此外,可编程NoC互联支持与片外DDR4存储器进行高速交互。

Versal Premium ACAP能够满足DCI设备的需求,兼容服务器侧和传输侧的多种光通信接口与协议,同时以安全、低成本的平台灵活适应新兴的、且不断演进的标准。1RU系统或单卡就能提供3.2 TB/s的容量,支持多种多样的标准化和新兴协议以及光通信接口。凭借其先进的连接和加密核心,单个Versal Premium ACAP器件就能为服务器侧的光通信接口提供4×25G NRZ连接的多条100 G FlexE以太网通道、为线路侧提供4×112 G PAM4连接的400 G以太网通道、线路速率为1.6 TB/s的AES256加密、控制和端口管理功能。

这些器件也非常适合用于高速客户端接口卡,具体方式是利用Versal Premium ACAP将数据流量与服务桥接并封装到行业标准的OTN封装程序中。Versal Premium ACAP内部集成通道化以太网、Interlaken、112 G和58 G PAM4 GTM收发器与32.75 G GTYP收发器,提供每秒多太位容量。这些资源以专用硬IP的形式集成,既能获得ASIC级的功率效率,又能释放ACAP逻辑架构用于映射、开销和SAR功能。

面向未来的AI加速

通过将异构计算引擎与高存储器带宽相结合,Versal Premium ACAP在处理高难度工作负载(如使用神经网络开展图像分类或对象检测)时,性能显著优于GPU。对比Versal Premium与领先GPU的性能,可以看到运行在680×680 YOLOv2模型上的对象检测速度在ACAP Premium器件上能提速高达7.7倍。

与FPGA和MPSoC架构相比,ACAP另一个有助于简化加速器开发的引人瞩目的特性是预先构建的外壳程序,通过它能硬连接到片外接口,如以太网、PCIe Gen 5、DDR4和光通信接口。这种高效的云连接基础设施提供了多重优势,包括允许在设备启动时进行CPU主机和系统存储器通信、简化内核布局与时序收敛、简化加速器虚拟化。外壳程序便于设计人员将器件的内部逻辑架构更多地用于定制功能,否则就需要实现必要的基础设施,如存储器和DMA控制器。

外壳程序和角色架构可以帮助设计人员快速高效地在Versal Premium ACAP中实现先进的智能零售技术。ACAP器件支持数据驱动的视频内容分析,有助于降低损失以及提供自动、实时、可执行的库存洞察,并提供可促进销售最大化的客户体验定制能力。借助Versal Premium ACAP能够在单个平台上托管视频分析解决方案,用于视频元数据的识别、提取和分类。

外壳程序提供了现成的连接与加密功能,而器件的DSP引擎和軟件可编程计算内核则可处理对象检测、图像分类以及视频编码、解码和缩放。而且能够在紧邻计算内核的地方提供最大1 GB的片上SRAM,面向AI加速提供高达123 TB/s的存储器带宽。通过消除GPU架构和基于GPU的架构所特有的存储器瓶颈与批次大小限制,分析加速器能够为Resnet50提供高达每秒13 000幅图像的处理速度。

尽管消费者和企业界越来越重视数据的价值,客户也越来越依赖于即时服务交付,但复杂性、计算强度和带宽耗用正成为瓶颈。ACAP将高效的分布式异构计算引擎与高速互联融为一体,以满足飞速增长的性能需求。通过综合运用硬IP、预先构建的创新型连接外壳程序、可编程逻辑架构和软件可配置资源,ACAP器件不仅能够助力提升性能,还能简化设计,同时提供面向未来的灵活性。

猜你喜欢

存储器加速器以太网
网络智能平台和云服务为以太网注入新动力
三大因素驱动创新提速以太网快步迈入“灵活”时代
三大因素驱动创新提速 以太网快步迈入“灵活”时代
独立拼装手机
等待“加速器”
存储器——安格尔(墨西哥)▲
头脑体操
Buffalo推出四硬盘网络存储器 主打Soho一族
基于ENC28J60的嵌入式以太网/CAN网关设计
关闭WindOWS 7下IE8中无用的网页加速器