面向未来英特尔布局加速计算和图形市场

2022-07-25张平

微型计算机 2022年5期

张平

2022年2月17日，英特尔在线上举行了2022年投资者大会，主要介绍了未来一年乃至更长期的发展战略，其公布的技术发展信息涵盖数据中心和人工智能、客户端计算、加速计算和图形、代工业务、软件和先进技术、网络和边缘计算以及未来的技术展望。会上，英特尔对2021年6月才成立的加速计算和图形AXG部门的规划最为引人关注，从中我们不仅可以透过行业巨头的眼睛去观察未来的计算世界，更可以了解科技将如何拥抱未来。

拥抱市场更为开放

英特尔将Core计算划分为三个阶段，1980年到2000年左右为第一阶段，Web 1.0连接了大约10亿台x86架构的PC终端，这个时代的主要任务是“数据化一切”。第二阶段则是从2000年至今，计算基于移动和云端，大约有100亿台连接上云端的设备，这个阶段的主旨是“连接一切”，客户端方面则以创意、创作和Web 2.0为主。第三阶段，则是2022年以后的时代，主要设备包括x86CPU、英特尔Xe架构GPU以及相关软件，大约有1000f乙设备连接，实现“无处不在的智能”。其主要的呈现方式是为每一个人赋能，实现每个人的内容创造和数字化产权，这个时代也被称为Web 3.0时代。

英特尔在加速计算和图形部分所需要执行的任务，就是为第二、第三个阶段的应用需求提供算力。英特尔认为2022年以后，将出现智能机器人、虚拟经济等内容，所需要的算力更为恐怖。现在人们大概需要10的10 -15次方的算力，未来可能会提升至10的30次方。这种数量级的大幅度增长依靠的就是持续增强的芯片算力和软件平台。

为此，英特尔将传统的核心计算和加速计算结合起来，在传统计算方面，数字化一切、连接一切、赋能一切是其运作的核心;加速计算方面，游戏、媒体、HPC以及虚拟经济是计算核心。这两者通过Zetta级别的算力以及元宇宙结合在一起，创造“无处不在的AI”和“持久沉浸的网络”体验。为了完成上述目标、持续推动计算发展，英特尔AXG将分为三个部门，分别是超级计算（主管HPC-AI以及媒体）、自定义计算（区块链、边缘计算）以及虚拟计算（游戏、内容创作和元宇宙）。英特尔估计，现在AXG部门的营收大约是100亿美元，而到2026年，这个数据将暴涨到1550f乙美元，其中超级计算部分年化增长率高达23%、自定义计算部分高达11%，虚拟计算部分增长率也有4%，2026年这三个部分将带来450亿美元、300亿美元、250f乙美元的营收，其余的550亿美元营收来自软件、系统和服务。

AXG部门在具体实现相关目标的时候，需要将整个计算系统进行细分。在Xe系统没有加入英特尔的系统架构时，英特尔将计算任务从内到外分为工艺、封装、内存、10、架构以及软件系统等多个部分。英特尔在工艺方面计划未来通过Intel 7、Intel 4、Intel 3以及Intel20A、Intel 18A等工艺来实现自己的目标。值得注意的是Intel 4，之前它的名称是Intel 5，但是这—次，英特尔认为其能够达到更高的效能，因此改名为Intel 4。在封装方面，英特尔提出了利用EMIB、Foveros、Foveros Omni和Foveros Direct等技术综合实现多芯片和封装架构的升级。内存方面则是DDR和HBM，10方面通过Ethernet以及PCle，架构方面则是未来的x86性能核心和x86效能核心。最后則是庞大的软件系统，英特尔将持续为Unity、KVM、vmware、Windows、Linux、XGBoost等：一揽子软件提供支持，使其更好、更快地运行在英特尔的软硬件平台上。

在英特尔加入了Xe架构家族之后情况发生了变化。在内存方面，英特尔增加了RAMBO缓存，这是—种连接CPU、GPU和HBM缓存的中介层，用于改善不同档次缓存之间的性能鸿沟，实现比较平稳的性能过渡。在10方面，英特尔加入了Xe Link以及CXL，其中前者是用于Xe GPU互联的总线，后者是英特尔基于PCle 5.0提出的连接扩展，可以使得内存和设备存储在保持缓存一致性的情况下，还拥有Bias灵活性，这种功能对大规模计算来说是非常重要的。在架构方面，英特尔加入了Xe LP、Xe HPG以及Xe HPC等多种GPU架构，为未来的加速计算打下坚实的基础。

不过，这还没有结束，英特尔庞大的IP库资源还需要全新的IDM2.0计划的加持。在IDM 1.0时代，所有这些IP都被英特尔绑定，尤其是制造工艺只依赖英特尔这一个单一来源。但是进入IDM 2.0时代后，英特尔对待市场和技术更为开放，在工艺方面加入了台积电作为合作伙伴，英特尔接下来将利用台积电的N7、N6、N5等工艺加强了自己的产能和技术实力。GPU路线图

在了解了英特尔有关产业的一些宏大构想之后，再来看看英特尔在虚拟计算领域的进展。

英特尔目前在虚拟计算领域的产品主要是支持英特尔DeepLink技术、具有x86核心和集成显卡的处理器以及英特尔ARC独立GPU。Deep Link技术是英特尔推出的可以自动同时调用集成显卡和独立显卡功能乃至性能的技术。英特尔宣称，目前旗下的ARC独立显卡在OEM厂商中拥有超过50款设计，超过100个软件方面的合作伙伴（主要针对XeSS技术和Deep Link技术），2022年将推出首款独立显卡，笔记本电脑的产品在第一季度推出，面向桌面的产品在第二季度推出，第三季度还将推出面向工作站的产品，预计全年英特尔将销售400万块ARC显卡。

2022年也就是即将推出的英特尔首款ARC独立显卡采用的架构代号为“Alchemist”，2023到2024年将推出Battlemage架构和对应的产品，2024年以后将推出Celestial架构的产品，整个发展节奏基本上是一年推出一代产品。与之搭配的CPU平台则分别是2022年的Alder Lake和Raptor Lake、2023-2024年的Meteor Lake或者下一代产品、2024年的更下一代产品。值得注意的是，如果使用英特尔CPU（包含集成的GPU）搭配ARC独立显卡，用户将会获得Deep Link和XeSS技术。并且从下一代开始，英特尔将以Tile GPU、SoC和CPU的方式来设计桌面处理器产品，其具体的指代还有待英特尔进一步给出结果。

最后在ARC显卡和相关产品部分还要提到的是，英特尔目前正在推进名为“Project Endgame”的云游戏平台，计划在2022年上线。这个平台将采用各种类型的”XPU”产品，不出意外的话，将以英特尔自家的产品为主。加强视频和媒体功能

本次加速计算和图形部分的另一个重要内容则是视频和媒体部分的加强。英特尔给出的数据显示大约有80%的互联网内容是以视频的形式存在的。这里面包合了直播、优质内容等，比如目前最流行的短视频社交和vlog等。这里面的计算需求包括视频框架gstremer、AI工具AI Analytics Toolkit、视频程序FFMPEG以及AI相关视频处理软件OpenVINO等，针对的应用包括视频转码、云游戏、虚拟桌面、媒体AI处理等。针对这些功能，英特尔推出了名为Arctic Sound-M的数据中心GPU产品，并称这款产品为唯一的开源媒体解决方案堆栈，且是首个支持AV1编码的GPU产品。Arctic Sound-M目前可以提供四种重要应用下的加速：一是媒体转码，Arctic Sound-M支持最多8条4K视频流同时进行处理，支持30多个1080p视频流进行同时处理;二是云游戏，Arctic Sound-M在720p分辨率下，最多同时支持30余个Android游戏同时运行;三是虚拟桌面，Arctic Sound-M能够同时支持最多60个虚拟桌面应用同时运行;四则是媒体A功口强功能，ArcticSound-M的最高算力在INT8模式下高达150TOPS，能够轻松完成大量的AI相关计算任务。ArcticSound-M在2月发布会上就已经进入样品阶段，预计将在2022年中期正式发布。

另外，在HPC AI计算方面，目前英特尔的至强处理器已经获得了超级计算机高达85%的市场份额，之前依靠的是Xeon SapphireRapids产品。而今英特尔又再接再厉，发布了全新的Xeon SapphireRapids HBM版本，通过板载HBM存储芯片，为处理器提供了更多的内存带宽，降低了处理器的内存延迟所带来的性能损失。英特尔宣称，新的Xeon Sapphire RapidsHBM的内存带宽是之前非HBM产品的4倍，并且相比第三代Xeon处理器，其性能最高能够达到2.8倍，这款产品将在2022年第二季度正式出货。同样是在HPC AI计算方面，英特尔之前预热很多次的PonteVecchio终于要正式发布了，它将在今年晚些时候正式上市，首个用户将会是美国国防部。英特尔宣称Ponte Vecchio是超级算力GPU，目前主要用于搭建名為Aurora的超级计算机，这款超级计算机预计将获得超过2Exa Flops的计算性能。单独评价Ponte Vecchio的话，英特尔宣称其性能也是之前的可比产品的大约2.6倍。

在算力目标方面，英特尔计划通过架构、功耗、处理器和封装、内存和10方面的进步，在2027年进入Zetta级别计算能力，Zetta级别计算能力是指大约1024倍Exa级别，考虑到现在超级计算机的能力尚未达到Exa级别，也就是说，英特尔计划在5年内将系统性能最高提升1000倍，这是一个艰巨的任务，英特尔在未来的时间段内究竟还有哪些做法还有待观察。

最后英特尔还梳理了—下未来的产品路线。英特尔认为，超算市场目前’将由Arctic Sound-M、XeonSapphire Rapids HBM、PonteVecchio以及相应的OneAPI、XeGPU、x86 CPU以及XPU来完成。在自定义计算市场目前的产品阵列是Blockchain Accelerator以及部分定制化的服务产品，其中前者是英特尔之前推出的区块链加速器，用于数据货币相关应用。而虚拟计算市场，英特尔将采用ARC独立显卡和后期的Celestial架构所使用的多芯片封装技术来占领，当然Deep Link技术也必不可少。英特尔的棋局

从计算的角度来看，英特尔在过去很长一段时间都是以CPU计算为主。CPU是典型的串行计算，逻辑计算能力强大但是无法做到同时处理大量的并行计算，而后者正是GPU的强项。在人们使用计算机的早期，串行计算占据主流地位，并行计算的需求还没有如此凸显。但是随着GPU的发展、计算需求的发展，人们还是逐渐发现，类似GPU这样以并行计算为主的产品，在合适的环境、软件和需求的配合下，能够实现比CPU强大百倍干倍的计算效能。于是，并行计算逐渐取代了串行计算，尤其是AI相关产业兴起后，GPU以及各类AI加速芯片，更是以狂奔的速度，带来了人类计算发展史上最大规模的扩张和前进。

其实英特尔并非没有为并行计算做过努力，英特尔在之前尝试过采用众多x86小核心组建Larrabee架构，实现片上大规模并行计算，但是这条路最终被证明难以和GPU抗衡，因此也以停产告终。最终，英特尔选择重新进入GPU产业界，推出了Xe架构和相关产品，这一次英特尔应该是走对了。

从目前的产品状况来看，英特尔的首款ARC独立显卡ARCAlchemist即将在2022年上市，并且英特尔宣称其全年销量可达400万片。从目前泄露的产品信息等内容来看，ARC Alchemist的性能可能不会太强，比如其对位产品可能是RTX 3060甚至RTX 3060 Ti.而对更高端的RTX 3090等产品几乎没有威胁，况且2022年AMD和英伟达都要更新产品线，可能届时ARC Alchemist只能定位中端。但是这并不意味着英特尔第一步走得不好。在GPU这类产品上，只有足够多的用户才能够有下一代产品的改善，用户会不断地给出使用反馈和产品反馈，未来英特尔才可能根据这些信息不断地改进产品，提升性能和使用体验。因此，只要有用户、有市场，ARC系列就能够持续存活，这样一来，2022年的首批400万片ARC独立显卡就显得颇为重要了，这不但是英特尔给市场的信心，也是给自己未来发展奠定的基础。

接下来，在拥有了Xe这样的GPU架构之后，英特尔在更多方面开始大展宏图。比如面向数据中心的Arctic Sound-M，以及Xe-HPC等产品。这意味着英特尔开始进入以GPU为主的计算市场，开始向英伟达的核心领域发起冲击了。

和英伟达相比，英特尔也在本次发布会上更清晰地梳理了自己的优势。比如x86 CPU的资源、自家强大的制程支撑、各种高级封装技术、各种内存和10技术等，在这些诸多优势的加持下，再加上Xe架构的相关产品，英特尔才有底气说自己能够在2026年进入Zetta时代。相比之下，英伟达在GPU方面的确优势巨大，但是其余的部分包括CPU、先进封装、先进工艺、存储和10等，都需要业内其他厂商的配合，这一点上英伟达面临的风险要更高一些。

从英特尔2022年的产业规划来看，随着首款高性能独立显卡上市，Xe架构在计算市场逐渐铺开，2022年将会是英特尔在加速计算和图形市场开端的一年，这一年的走势将决定英特尔未来数年如何面对这个市场和产业。