APP下载

蓝色巨人归来

2021-11-11

新潮电子 2021年10期
关键词:构架内核线程

Alder Lake将采用性能核+能效核的混合构架

其实2020年的构架日,英特尔便提及了AlderLake将采用混合构架的信息,不过当时并没有展开具体内容。时隔一年,英特尔将Alder Lake除了需要在10月发布会上公布的具体参数外的所有构架信息公之于众。

按此前公布的产品路线图,Alder Lake采用了Intel 7的优化设计,按英特尔自己的说法,这是至Skylake以来,英特尔十多年来为x86架构带来的最大进展之一。其中最核心的技术便是“性能混合架构”,将处理器核心分为性能核(P-Core)和能效核(E-Core),分别为8核16线程和8核8线程构架。

比起以往英特尔采用过的Atom Mont核,新的能效核微架构能够在低电压下运行,以降低功耗,同时为在更高频率下工作创造内部功率空间。如果与Skylake相比,单个能效核比单个个Skylake内核性能提升40%,功耗反而降低40%。Skylake 内核要达到同样的性能,功 耗会增加 2.5 倍。

Alder Lake的性能核同样被称为“迄今为止性能最高的CPU内核”,比起11代酷睿的CypressCove,在通用性能的ISO频率下,针对大范围的工作负载实现了平均约19%的改进。在我看来,这样的表述主要还是为了表明在单线程情况下处理器的最大负荷能力,当然具体的数值需要留待10月发布会时才会获知。

英特尔进一步表明,混合架构与ARM的大小核的设计不同,比如性能核和能效核与传统意义上的Cove和Mont并不相同,两者间是基于构架的结合,也就是性能混合的组合,由此可以组成一个更宽、更深、更智能的架构,它的执行并性行,时延和通用性能等参数上都超越以往的处理器平台,更适于大数据集和大型代码体积的应用程序。另外,性能核和能效核之间可以分别采用更大跨度的产品,理論上可以将高性能的台式机处理器和定位超轻薄的处理器以混合架构的形式进行组合。

当然,有人会说,采用混合构架提升CPU平台的功耗控制,对于台式机平台有什么作用呢?其实新构架能够带给CPU更合理的内部结构,要知道一个能效核在DIE上仅占性能核的1/4,却能有效增加多线程的执行能力;而性能核则为追求更高的单线程高性能、低时延,并提供AI加速能力,这样的构架比以往更加合理。

此次英特尔并未公布性能核和能效核是否在同一电压和频率之下,不过按现有的资料来看,AlderLake很有可能采用同步多核的技术。目前ARM构架的大小核很多都采用了异步多核架构,虽然异步多核能够实现小核心更极端的低频率、低功耗的运行,但异步频率架构会产生性能损失,核间通信延迟高。

更为高效的线程级资源调用—Intel Thread Director

英特尔混合构架与其他大小核构架的区别,我认为最重要的还包含这个英特尔硬件线程调度器(Intel ThreadDirector),它集成在CPU的硬件控制器(微控制器)内,主要能够让能效核和性能核实现智能协同运行。

与A RM构架大小核的资源调用不同,它首先是提供线程级的调用—“Thread Director”,并不参与到,具体任务的调用过程,而是将其与Windows 11的任务调度器对接,不需要软件开发人员改写需求。而ARM构架大小核是按任务来调用核心资源,比如会将短信、时钟、计算器等计算压力不大的任务分配给省电的小核;而将游戏、视频等任务分配给大核,虽然很多AMR构架会开放API供各个OEM厂商改写资源调用规则,但无论如何,软件工程师都不可能完全预估用户所有的应用场景,所以有可能出现“一核累死、多核围观”的情况。

其次,英特尔硬件线程调度器的智能协同运行按官方的原话是这样描述的:“更精细地监控指令组合、每内核当前状态以及相关的微架构遥测,从而更智能地协助操作系统对任务进行调度优化。它使用真实世界的硬件遥测来引导操作系统到正确的工作负载,这可以在正确的时间被引导到正确的核心。线程控制器是完全动态的、自适应的、自主的,而不是静态的、确定性的、软件的方法。”

我的理解是它采用了一个相对合理、动态的调用机制的。比如在性能核占满的情况下,有新的高性能需求的线程进入,调度器会协调一个性能核线程到能效核当中,保证高性能需求线程的及时响应。我们

不妨来看看线程的实际调用情况:一般而言,需要更高性能和更低时延的矢量任务(深蓝色)优先使用性能核,标量指令(绿色)和后台任务(浅蓝色)主要分配给能效核。上图的影视内容创造中便使用了这样的规则。

Office场景下,AI线程(橙色)主要在性能核下执行,而后台程序(浅蓝色)则进入能效核。我们可以看到,几乎所有的应用场景下,英特尔的这套混合构架非常注重性能的均衡,没有出现1核跑满,7核围观的情况出现。

另外,在我理解,英特尔硬件线程调度器只规定线程级的大规则,具体资源调的指令用交给Windows 11操作系统,这样的好处在于仅通过Windows升级便能优化资源调用效率,而且线程调用效率更高—约微秒的时间里确定一个线程的性质、归属,而传统的系统调度器需要上百甚至几百微秒,还可能分配错误。

不好的消息是,Windows 10系统的用户极可能享受不到这一功能,因为它仅有一个基础版的Intel HGS(硬件指引调度),针对Intel Thread Director进行优化前安装Alder Lake很可能仅是安装了一个主核性能升级的Rocket Lake,所以能升级的用户尽量升级啊!!!另外,据称英特尔也会针对Linux内核进行优化,目前暂未公布上市时间。

从产品形态来看,Alder Lake依旧包含了三类产品,10月发布会会具体公布产品型号:

1. 高性能、双芯片、插座式的台式机设计,具有领先性能、能效、内存和I/O。

2. 高性能笔记本处理器,采用BGA封装,配置图像单元,更大的 Xe 显卡和Thunderbolt 4 连接。

3. 轻薄低功耗笔记本处理器,采用高密度封装和配置优化的I/O和电能输出独立显卡终现,Xe HPG带来完全不同的显示微构架构架日前两天,英特尔公布了高性能显卡品牌“Intel Arc”,显然是比锐炬更高端的产品线。英特尔已经明确表示它将采用独立显卡构架,并支持基于硬件的光线追踪、AI驱动的超级采样,并完整支持DX12 Ultimate,这一点还是相当令人激动的。令我没想到的是,苹果M1显示芯片的光追功能,居然也是采用的英特尔光线追踪数据库,不得不说英特尔“软件优先”的强大实力依旧是行业领先的。

构架日上,英特尔主要谈及Xe显卡的微架构的设计方向,主要是关于高性能显卡Xe HPG部分的内容:此次,英特尔通过在一个统一的代码库中涵盖集成和独立显卡产品的驱动设计,第一款高性能游戏显卡将性能和质量放在首位;英特尔已完成了内核显卡驱动程序组件的重新架构,特别是内存管理器和编译器,从而使计算密集型游戏的吞吐量提高了15% (至多80%),游戏加载时间缩短了25%。

Xe HPG是一款全新的独立显卡微架构,Xe内核包含了16个矢量引擎、16个矩阵引擎,为Alchemist系列SoC提供动力,首批产品预计于2022年第一季度上市。值得注意的是,从这一代开始,英特尔不再使用EU的概念,不再以此为衡量显卡性能的单向标准。原因很简单,矢量引擎主要做画面处理运算,而全新的矩阵引擎(Xe Matrix eXtensions,XMX)则为了加速AI工作负载,提升游戏体验的指标将更为丰富。另外,新显卡还引入了一个全新升频技术(upscaling technology)—XeSS,这是为了进一步提高性能和游戏体验的新技术,英特尔会向包括竞争对手在内的产品上广泛开放这一技术,以提升这项技术的普及速度。

AI加速上,新的Xe显卡内置了XMX AI加速,它通过深度学习,可以合成接近原生高分辨率渲染质量的图像;另外还可实现对前一帧进行运动补偿,这其实也是通过相邻像素,重建子补偿帧的像素细节。另外,凭借DP4a指令,XeSS可以在包括集成显卡在内的各种硬件上提供基于AI的超级采样,这为AI功能建立起一个良好的采样基础。

与此前Xe HP、Xe LP相比,Xe HPG也进一步增强了功率释放。的确,如今市面上的独台显卡功率高至200W以上,针对移动平台设计的Xe LP明显便不满足竞争要求,所以Xe HPG需要在功耗上“更有弹性”,而且采用了更高密度的TSMC N6制程,放入更多的处理单元,进一步提升性能表现。

还需要谈到的是,Xe HPG的产品将在英特尔的产品体系中延续多代,不仅包括首代基于Xe HPG微架构的Alchemist SoC(DG2),还将包括代号分别为Battlemage、Celestial和Druid的后续几代产品。

下一代数据中心处理器平台SapphireRapids事实上,英特尔数据中心处理器平台Ice Lake才在4月份发布,仅4个月之后,英特尔便在构架日公布了基于Intel 7制程工艺技术制造的新一代数据中心处理器平台Sapphire Rapids。比起上一代,它进一步提升了速度、低时延和单线程应用性能的极限,并对工作负载进行优化,以在云、微服务和AI等弹性计算模型上提供高性能。

Sapphire Rapids的另一核心优势在于采用了分区块、模块化的SoC架构。它采用了英特尔的嵌入式多芯片互连桥接(EMIB)封装技术,在保持单晶片CPU接口优势的同时,具有显著的可扩展性。

Sapphire Rapids上集成了英特尔加速器接口架构指令集(AI A)、英特尔高级矩阵扩展(AMX)、英特尔数据流加速器(DSA)在内的内置加速器引擎,以在各种客户工作负载和使用中提升性能。

更为清晰地了解 IPU

在6月份发布这种可编程的网络设备平台IPU之后,英特尔在架构日进一步宣称了这一设计的优势。我们在此前针对IPU进行过2~3次专项报道,同时也对ACIS和FPGA两大技术流融合的趋势进行了具体表述。具体就英特尔的IPU而言,它比CPU在性

能利用率上有更大的优势:

优势一:能清晰地隔离基础设施功能和租户的工作负载,从而使租户可以全面掌控CPU

优势二:为基础设施功能减负

优势三:它支持迁移到全面的无磁盘服务器架构

另外,英特尔还谈及了Mount Evans和OakSprings Canyon两个IPU的基本应用平台:MountEvans是与一家一流的云服务提供商共同设计和开发的,它融合了多代FPGA SmartNIC的经验;OakSprings Canyon是一个IPU参考平台,基于英特尔至强 D 处理器(Intel Xeon-D)和拥有业界领先的功率、效率、性能的英特尔 Agilex FPGA构建。

英特尔还针对搭载至强服务器设计的SmartNIC开放了代号为“Arrow Creek”的N6000加速开发平台。它内置英特尔Agilex FPGA和用于高性能100GB网络加速的英特尔以太网800系列控制器,支持多种基础设施工作负载,使通信服务提供商(CoSP)能够提供灵活的加速工作负载,如JuniperContrai、l OVS和SRv6。

英特尔迄今为止最复杂的SoC

Ponte Vecchio是能充分显示英特尔在生产端(IDM 2.0战略)最强技术的产品之一。它拥有百亿亿次级运算的能力以及英特尔目前最高水平的计算密度和带宽。Ponte Vecchio基于XeHPC微架构,采用多种先进的半导体制程工艺、英特尔变革性的EMIB技术以及Foveros 3D封装技术,提供业界领先的每秒浮点运算次数(FLOPs)和计算密度,以加速AI、HPC和高级分析工作负载。

Ponte Vecchio的核心,基于台积电先进的N5制程工艺技术,是一个密集的多个Xe内核。它同样基于Intel 7制程工艺,针对Foveros技术进行了优化。

它是一个集成化技术相当高的多个GPU集合,它的一个基础单元便相当于一个GPU。

GPU间通过Xe 链路单元连接,支持每单元8个链路,也就是说每个单元均能够使用独立链路与其他单元相连,核间通信效率相当高。

进展迅速的oneAPI

此外,英特尔还公布了oneAPI的最新进展。自从2020年12月发布第一个版本以来,超过20万名开发者在获得Xe HPC之前就已经安装了英特尔的oneAPI产品。多个领域的独立软件开发商已经推出了超过300个采用oneAPI统一编程模型的应用软件。而且,英特尔有80多个支持Xe HPC的关键HPC应用软件、AI框架和中间件,它们利用oneAPI快速移植当前基于CPU或CUDA的GPU实施。

写在最后:

构架日最后,帕特·基辛格(P a tGelsinger)的一句”Intel is back”讓我们看到,曾经那个惟技术第一的蓝色巨人回来了。作为英特尔公司第一任CTO,作为主导过80486等在英特尔发展史上有标志意义的产品开发的技术人员,基辛格比以往任务一届CEO都更希望英特尔能够专注于技术路线的发展,所以英特尔最近半年才会以如此高的频度向媒体一再讲述英特尔在生产、技术和产品上的进展。今天的构架日公布如此多的信息,特别是像PonteVecchio这样秀肌肉的产品,正是英特尔用产品宣告重回技术之巅的决心。

猜你喜欢

构架内核线程
强化『高新』内核 打造农业『硅谷』
急诊PCI治疗急性心肌梗死的护理探索构架
基于嵌入式Linux内核的自恢复设计
Linux内核mmap保护机制研究
高可靠全平台ICT超融合云构架的设计与实现
略论意象间的主体构架
浅谈linux多线程协作
基于上下文定界的Fork/Join并行性的并发程序可达性分析*
Linux线程实现技术研究
么移动中间件线程池并发机制优化改进