APP下载

更多核心,更高效率 英特尔全新第三代至强可扩展处理器解读

2021-06-20徐昌宇袁怡男

微型计算机 2021年10期
关键词:指令集英特尔内存

徐昌宇 袁怡男

英特尔在企业级处理器产品市场上拥有非常明显的优势地位,即使是在最近几年AMD发布Zen 2、Zen 3架构的相关服务器处理器产品之后,这种优势地位依旧很稳固。这是因为英特尔的企业级解决方案是建立在一整套面向企业用户的解决方案之上,拥有非常深的技术护城河。2021年4月,英特尔发布了最新面向双路市场的第三代至强可扩展处理器,其全新的生产工艺、新增的功能技术以及平台的整体情况,都值得我们进一步了解。

英特尔在2021年4月7日发布了全新的第三代至强可扩展处理器的双路型号。相比之前发布的14nm制程、面向四路和八路市场的CooperLake系列处理器,新的Ice Lake-SP仅面向单路和双路市场,因此更为主流,也更受普通企业和行业用户关注。虽然定位不同,其扩展能力相比四路和八路产品存在差异,但从产品和规格角度来看,全新的第三代至强可扩展处理器由于涉及制程、核心架构和规格的变化,堪称英特尔近几年至强可扩展系列处理器中变化最大的一代。(若无特殊说明,下文所指的第三代至强可扩展处理器均为最新发布的10nm 工艺的双路型号。)

综述:第三代至强可扩展处理器的功能、特性

根据英特尔的介绍,第三代至强可扩展处理器采用10nm工艺制造、最大核心数量从前代产品的28个提升至40个;全新的Sunny Cove架构带来了大约20%的IPC提升;综合性能大约是上代产品的1.46倍(整数、浮点Stream TRIAD和Linpack测试的平均值)、AI性能大约是上代产品的1.74倍;和5年前的产品相比,综合性能大约是其2.56倍。

在功能方面,第三代至强可扩展处理器是目前唯一的、面向数据中心市场且拥有AI加速计算能力的处理器产品(支持Deep Learning Boost功能),并且还带来包括安全特性、SpeedSelect、AVX-512以及英特尔OneAPI在内的诸多功能。内存方面,新处理器最高支持6TB内存、每颗处理器最高可支持8个插槽,内存容量是上代产品的2.6倍、支持最多64个PCIe4.0通道,支持傲腾内存、傲腾SSD以及SSD产品,支持英特尔80系列网络设备以及英特尔Agilex FPGA加速等。

根据不同目标市场,英特尔宣称第三代至强可扩展处理器的相关性能分别是:云计算综合性能是前代产品(下同)的1.5倍、5G领域则是1.62倍、IoT市场是1.56倍、HPC是1.57倍、AI计算高达1.74倍。英特尔特别提到了AI计算性能,在英特尔设定的对比条件下,在图像识别性能上,新处理器是AMD EPYC 7763 (64核心、Zen 3架构)的25倍,甚至在20个比较主流的AI和ML工作负载中,第三代至强可扩展处理器的性能可达AMD EPYC7763的1.5倍,甚至是英伟达A100 GPU的1.3倍。软件方面,英特尔提到利用TensorFlow架构优化ResNet50模型后,新的处理器性能提升了10倍;利用Scikit-Learn优化SVC/kNN后,新的处理器性能提升了高达100倍等。

在安全特性方面,英特尔在2013年就推出了名为SGX (SoftwareGuard eXtensions,软件保护扩展)的软件保护解决方案,并一直在业内不断地推广和应用这个扩展平台的相关技术,目前已经有数百家企业采用SGX相关技术进行数据保护和安全控制。在新的第三代至强可扩展处理器上,英特尔带来两个全新的技术用于加强安全性,一个是全内存加密技术,可以实现内存的批量加密,从而对整个内存空间起到保护作用。另一个则是平台固件恢复技术,用于防御和维护底层固件,提高系统安全性。在笔者将英特尔透露的基本综述部分梳理清楚后,接下来本文将进一步深入分析第三代至强可扩展处理器架构的相关内容。

面向服务器和数据中心设计:第三代至强可扩展处理器架构解读

作为面向服务器和数据中心的产品,第三代至强可扩展处理器在设计方面和普通的民用处理器存在很大差异。比如针对服务器方面,英特尔就需要针对标量、数据并行、低延迟高带宽、芯片上的节点选择和调配上进行优化。因为针对数据中心,需要对性能一致性、数据计算的弹性以及高效率等方面进行优化。

有鉴于此,英特尔在第三代至强可扩展处理器上主要对4个方面做出优化。一是在微架构方面,采用全新的Sunny Cove架构,同时加入新的ISA指令集。二是在内存方面,英特尔针对企业越来越高的内存带宽需求,对处理器的内存控制器设置进行了比较重大的改革。三是在I/0方面,英特尔将本代处理器升级至支持64通道PCIe 4.0总线,相比上代产品大幅提升了外部IO带宽。最后则是处理器内部和外部的扩展方面,英特尔通过扩展独特的Mesh架构,保证了缓存、内存和内核之间的延迟保持平均和一致。

英特爾给出了简单的双路IceLake-SP处理器的双路搭配的架构图。从图中可以看出,双路处理器分别通过三个UPI通道实现互联,每个处理器都拥有8个内存通道,每个通道有2个DIMM,其中一个DIMM可以选择使用傲腾或者DDR4内存,另一个DIMM只能支持DDR4内存。处理器通过DMI总线和代号为“Lewisburg R”的芯片组进行连接。对双路系统而言,处理器可以选择任意一个和芯片组连接,这可能需要根据厂商设计的情况而定。

计算微架构:大幅度升级的Sunny Cove

英特尔之前的处理器核心微架构都和工艺制程捆绑,比如14nm工艺就一直使用Skylake微架构。在14nm工艺和Skylake微架构鏖战数年之后,英特尔终于在2019年发布了全新的Sunny Cove架构,并开始推动微架构和工艺制程解绑。最终在2021年得以实现,今年英特尔先是在桌面发布了第十一代酷睿系列处理器,采用了Sunny Cove微架构的14nm版本CypressCove之后,终于将Sunny Cove架构引入至强平台,这也是今天本文谈论的第三代至强可扩展处理器。

由于Sunny Cove微架构在本刊之前的文章中介绍过多次,所以在本文中只做简单介绍。总的来看,SunnyCove微架构在下列四个方面做出了增强:一是前端更高的容量和改进的分支预测;二是执行部分更大的分配单元、更大的结构和更多的执行资源;三是TLB的增强、单线程执行和预取的增强;四是更大的L2缓存和更高的向量吞吐能力。上述所有的改进加起来,带来了Ice Lake核心相比上代核心大约20%的IPC性能增强。

指令集结构:全新指令集加入

在全新的微架构之外,是全新计算体系架构,这里主要是指英特尔针对矢量计算、并行计算加入的大量全新指令集。其中包括针对密码学、大数算术(主要是AVX 512整数的IFMA操作)、矢量AES和矢量Carry less乘法指令、有关伽罗华域(Galois Field)的一些新指令集、有关SHA压缩和解压缩的一些指令集以及特殊的SIMD、有关比特代数的一些指令集以及VBMI矢量操作的指令集等。

由于这些指令集过于底层,因此大家不需要太过于关心其中的具体内容。英特尔给出了一个比较直观地对比就是在采用的新的指令集后,一些具体计算的加速情况。通过矢量CLMUL指令集、矢量AES指令集、VPMADD52指令集、SHA扩展指令集、GFNI指令集的加持以及相关软件和算法的支持, Ice Lake相比Cascade Lake每个核心能够带来最高5.63倍的性能增幅(RSA Sign 2048)、最低也有1.5倍(ZUC),其余的平均可以带来大约3~4倍的增幅,总的来看,所有10个测试最终可以带来大约3.264倍的性能提升,这个幅度已经相当惊人了。

当然,在实际的最终应用中,只是更换硬件平台也许暂时不太可能会有这么高的提升。但是考虑到目前很多软件已经开始支持这些指令集,以及英特尔软件部门会针对大客户做很多优化,最终大客户应该也会获得不错的性能收益。后文英特尔还对此给出了一些数据。

提升存储效率:缓存、内存和IO

缓存、内存和1O部分的改进也是本次第三代至强可扩展处理器的重点。英特尔给出的资料显示,新处理器的共享LLC缓存提升至之前产品的1.5倍,带来了新的缓存Hemispheremode模式,这个模式可以允许CPU对缓存交错存取,并且将缓存的访问进行一定程度的限制,从而起到降低延迟的作用。此外还有一些其他有关延迟、带宽和SoC扩展的改进,但是英特尔并未详细提及。内存方面,目前第三代至强可扩展处理器支持8通道DDR4 3200内存,在内存控制器方面做出了改进,降低了延迟并提高了带宽。外部IO方面,第三代至强可扩展处理器现在拥有64个PCIe 4.0通道, CPU之间的UPI链路拥有3条,单条速率为11.2GT/s,另外还有一些延迟的降低。

英特尔还给出了有关第三代至强可扩展处理器对比之前第二代产品的带宽、延迟的相关测试数据。一般来说,在启用处理器更多内存通道并获得更高内存带宽的时候,内存的延迟会显著提升。但是,在新的第三代至强可扩展处理器上,当数据占用内存带宽的数值逐渐提升的时候,相对应的延迟数值上升幅度要比前代产品的上升幅度更低。非常典型的情况是,当至强8280处理器在内存带宽占用率刚刚达到至强8380处理器大约一半的情况下,其对应的延迟值就上升至300ns,此时至强8380的延迟仅为约100ns,而最终至强8380在内存带宽翻倍的情况下,延迟也仅仅提升至400ns。另外的一组数据带来了相似的结果。这证明英特尔在新一代处理器的缓存、内存和I0方面的改善是极其有效的。

英特尔还提及了一些有关SoC层面的改进,其中包含无缝的电源管理架构、片上架构更改以提高整个系统的性能一致性以及最重要的缓解了AVX512启用时频率降低的情况。英特尔用Intel Data Plane DevelopmentKit (DPDK) BasicFwd应用程序做了测试,第二代产品的延迟速率大约在21ns左右,在第三代至强可扩展处理器上,这个数据降低至大约7~8ns,效果极为显著。

更低的延迟:缓存和内存性能表现

英特尔在第三代至强可扩展处理器做了一个非常巨大的改变,通过Mesh架构将处理器的核心数量大幅度提升至40个,相比之前产品的28个,大约提升了40%。在同一个架构基础上提升如此多的核心数量还是非常夸张的。因此,本文在下一部分将详细研究一下有关英特尔Mesh架构的内容。

英特尔在发布会上对新的处理器的Mesh架构内容颇为语焉不详,不过给出了第三代至强可扩展处理器和AMD EPYC处理器的相关延迟情况的对比。在缓存延迟方面,英特尔表示第三代至强可扩展处理器要强于AMD产品,尤其是在L3缓存方面。这个数据非常有意思,大家不妨参考我们列出的表格。

值得注意的是,第三代至強可扩展处理器在L1、L2、L3访问上的延迟呈现常态递增的状态,比如其L1和L2缓存的延迟周期略高于AMD EPYC7003系列处理器,但是在L3缓存上却有两种极端的情况。AMD处理器在32MB以内的数据命中延迟上是比英特尔新处理器小得多的,但如果是访问32MB以外的数据,那么AMD处理器的命中延迟则远大于英特尔第三代至强可扩展处理器。

此外,如果L3数据访问需要跨插座,那么AMD处理器的延迟(本地处理器访问2S系统的其他处理器)也会大幅度超出英特尔产品。在这里,英特尔给出的L3延迟数据可能是参考均值。因为Mesh架构下,英特尔的每一个处理器核心(Core)都有一个本地小型L3缓存,但是L3缓存又和Mesh架构紧密相连,对CPU的每一个Core来说,访问自己的L3肯定是最快的,英特尔没有说明访问远距离L3的延迟情况,考虑到Mesh架构片上通讯的高效率,我们猜测这里的延迟应该综合考虑了所有情况。

这里的数据不仅仅意味着延迟和控制问题,实际上它代表着AMD和英特尔两个厂商在设计思路和整体架构上的巨大差异。我们在下文再进一步详细解读。

内存方面,英特尔也给出了一些数据。这些数据显示AMD的内存延迟要比英特尔产品高一些,显然这是因为AMD采用Chiplet架构,而英特尔的内存控制器在Mesh的节点上,跨插座的话,AMD延迟也会更大。容量层面,英特尔因为支持傲腾,所以可以做到总容量更大。

深挖: 40核心的Mesh架构探秘

英特尔在多核心处理器的架构上使用过数个架构,包括非常有名的环形总线。其特点是延迟随着核心数量提高而提高,因此最终承载核心数量的能力是有限的。在英特尔的实际产品中,环形总线最多承载了28个核心。如果要进一步扩展更多核心的话,英特尔发现需要放弃环形总线,于是后来改用了网状总线,也就是本文提到的Mesh总线。

英特尔首次使用Mesh总线是在已经退市的至强融核处理器中,这种处理器有72个内核,因此环形总线是不可能为其工作的,在这个处理器中所有的内核沟通都依靠新的Mesh总線。相比环形总线,Mesh总线相当于为每一个处理器核心都增加了所有方向的数据沟通接口,形成了一个网格状分布,网格的交叉则落点在处理器的单个核心上。根据英特尔给出的资料,Mesh总线和整个SoC架构是由不同的功能片(Tile)组成,这些功能片形形色色,包括UPI、PCIe总线控制器、内存控制器、DMA和CBDMA、CPU核心以及CHA、SF和LLC等。其中CHA(Caching and Home Agent)是指缓存功能和本地代理, SF (Snoop Filter)是指Snoop过滤器,LLC (Last Level Cache)是指未级缓存,也就是L3缓存。

在这里我们可以看到, Mesh架构将处理器的每个核心以“分布式”的方式分散为片,英特尔只需要通过Mesh架构将不同的片组织起来即可。举例来说,在Mesh架构下,通过一个CHA/SF/LCC片搭配一个CPU核心片,就可以组成一个节点,几乎包含了一个处理器除了外部IO以外的所有功能。然后再为这个节点设置好本地CMS (Converged/CommonMesh Stop,信息Mesh站)就可以挂接在Mesh网络中了。CMS主要是用于监听、过滤、接收不同地方的信息,并且还要帮助其他处理器实现信息的转发。CMS站直接和处理器的LLC部分连接,并且和自己上方、下方、左方、右方四个方向的CMS站连接(如果有)。由于这种网络连接的形态,外加位于同一芯片上,因此可以实现非常低的延迟。对CPU来说,在操作上也不需要区分L3的位置,只需要将需求交给Mesh网络即可通过片上通信高速地转发和寻找得到信息。

英特尔首次启用Mesh网络是在Skylake-SP处理器上,这款处理器拥有最多28个核心。为了区分不同的市场并获得更好的良率,英特尔将其分为10个核心以下的LCC产品、18个核心以下的HCC产品以及拥有28个核心的XCC产品,所有类型的产品都采用的是Mesh网络连接。其最大的XCC产品采用6×6的模块化设计,顶部6个单元分别是3个PCIe控制器片、2个UPI片、一个混合了PCIe、DMI和CBDMA功能的混合片。下部的CPU采用6×5设计,总计30个单元,其中2个单元被内存控制器占用,所以最大核心数为28个。从Skylake-SP开始到上一代Cascade Lake SP,英特尔一直维持这样的架构,基本没有大的变化。在这种设计下,根据英特尔Mesh通信先竖向查找、后横向查找的工作模式,最远的通路是最左下角的CPU核心至最右上角的PCIe控制器,它们进行数据传输过程如果包含自己的节点的话,那么就需要经过11个节点。

在最新的第三代至强可扩展处理器也就是Ice Lake SP上,英特尔为了拥有更多的核心,扩展了Mesh架构的布局。全新的Ice Lake SP采用的是8x7结构,横向有8个片,纵向有7个片。顶部和最下部包含了所有的IO接口模块,另外还包含了三个占位符(Dummy)和4个处理器核心以及缓存。和上代产品有所不同的是,本代产品的IO功能片分列在整个Mesh阵列的,上端和下端,这可能是考虑到处理器通讯的便捷性,不用都集中在某一个方向进行数据传输,降低产生数据链路热点的可能性。

Ice Lake SP的CPU core Mesh架构的横向深度最多为8、纵向深度最多为6,从规格.上来看的话是一个8×6的设计,相比上代CPU部分6×5(整体为6×6)的设计扩大了不少。不过Mesh的特点在于内部两两互联,在Ice Lake SP上,Mesh路径最远的通路应该是左上角的CPU核心向右下角的PCIe控制器传递数据,整个传输过程如果包含自己的节点的话,需要经过13个节点,比上一代节点增加了2个,增加的实际延迟每多一个节点大约会增加10ns左右。而且,由于Ice LakeSP的Mesh架构中IO节点分布在整个架构的上下两侧,所以一般来说CPU核心会通过靠近自己的IO片进行通讯,因此,相比上代产品,延迟增加也很有限。

英特尔在Ice Lake SP上展示了Mesh架构的强大生命力,尤其是进步扩大芯片规模后并没有增加太多延迟。不过,在Ice Lake SP上,其CPU核心数量上还是远远落后于AMDEPCY 7003系列的单颗最高64核心。为什么英特尔不进一步扩大Mesh架构的规模呢?我们推测原因可能有几方面:一方面,每扩大一圈网格,都会继续增加总体延迟。目前Mesh架构下,英特尔自己的数据都显示;其L3延迟情况是略差于AMD在32MBL3以内的数值的,这可能和Mesh总线本身的运行特性有关,如果继续增加Mesh的规模,远距离通讯带来的延迟是否还会继续增加?是否延迟增加后会带来性能损失或者对整个处理器的性能平衡带来影响呢?相信英特尔自己的实验室是有结论的。另外,由于Mesh架构里还要留节点布置PCIe、UPI等1/0节点,也就是说,即使是增加到8x8的规模,也达不到64个核心。在按目前英特尔透露的只言片语来看,下一代至强可扩展处理器的核心数量规模也仅为50多个核心。

如果进一步将网格扩大两圈至9×9呢?那么不但有延迟的问题,还有制程方面的限制。因为即使是英特尔现在的10nm制程工艺,Ice LakeSP的40核心产品的芯片面积都超过了600平方毫米。进一步扩大面积来获取更多的核心也许会导致良率下滑。毕竟芯片面积已经足够大了,所以英特尔下一代产品也未必会用简单扩圈的方式来增加核心。在这种情况下,为了确保产品良率并细分市场,英特尔都会推出LCC、HCC和XCC三种不同类型的芯片,但是在本次Ice Lake SP发布会上英特尔没有提到这个内容,不过,英特尔展示的部分资料显示依旧有28核心的配置。因此,Ice Lake SP可能有10核心、18核心、28核心、40核心等多个芯片以对应不同的市场。不过这样的情况可能在下一代英特尔至强处理器上会发生变化。一些消息显示,2021年底英特尔新的、代号为“Sapphire Rapids”的至强处理器将改用MCM多芯片封装的方式,目前的消息是每个小芯片最多14個核心,4个MCM共计56个核心,CPU的微架构将采用新一代的GoldenCove,工艺采用10nm SuperFin的改进版本,TDP功耗预计为400W。新的处理器可能还会一起封装HBM2高带宽内存,同时也支持DDR5内存。如果这个消息最终被确认为真的,那证明英特尔将在下一代处理器上放弃Mesh架构,改用类似Chiplet的小芯片架构,不过具体如何排布整个芯片系统、是否采用独立的IO芯片以及如何匹配HBM2缓存和DDR5内存等,还有待英特尔进一步揭秘。

可信计算和安全

在第三代至强可扩展处理器发布会上,英特尔还介绍了有关可信计算的内容。这部分内容主要是指SGX带来的一些新的功能,包括:在操作系统、驱动、BIOS、VMM或者SMM被破坏的情况下还能防止进一步的软件攻击,在攻击者控制系统或平台的情况下持续提供数据保护,防止包括内存总线窥探、内存篡改、RAM内“冷启动”等攻击,基于硬件认证提供的有效的代码和数字签名等。这部分内容并不是本文的重点,因此就不展开讲述了。

性能:再度超越

和所有发布会最后的部分一样,英特尔也带来了大量的性能对比数据用于证明新的产品比旧的好,我们来简单来看一下。英特尔选择第三代至强可扩展处理器对比第二代、第一代至强可扩展处理器以及早期的至强E5等产品。从数据来看,第三代至强可扩展处理器在整数测试也就是IntegerSPECrate2017_int_base的测试中最高可达第二代产品的1.5倍、第一代产品的1.6倍、至强E5v4和至强E5v3的2.34和2.85倍。在浮点测试Floating PointSPECrate2017_fp_base中的性能是之前产品的1.52、1.62、2.6、3.8倍。其余的还包括内存带宽测试、LINPACK测试以及Geomen测试,新的第三代产品都以相当高的幅度领先了前代对手。其余的一些数据还包括对比DDIO、AVX-512测试、IntelCrypto Acceleration、 DL Boost开关前后的数据,这证明新的处理器在功能和特性上都有非常大的进步。

另外值得注意的是,英特尔特别使用第三代至强可扩展处理器的顶级型号也就是至强白金8380(40核心)的双路系统和AMD EPYC 7763(64核心)双路系统,运行了有关AVX-512的高性能计算、AVX-512的云计算以及支持DL Boost的AI计算后给出了相关性能的对比。这些测试显示,英特尔产品在性能中最少能够取得相对AMD产品1.18倍的性能增幅,最多可以取得25倍的性能增幅。这显示了英特尔在指令集、软件支持以及行业方面的巨大优势。当然,这样的比较对AMD来说略显不公,因为AMD目前尚不支持这些指令集,但两家是有专利互相授权的,所以AMD未来会支持也不一定,就好像现在AMD也支持AVX256。不过,至少目前来说,如果用户和市场有这类专项需求,英特尔还是优势十分明显的。

迈向新的计算时代

在本文的最后,我们再来总结一下相关的内容。第三代至强可扩展处理器相比前代产品的提升是:

1.CPU核心数量从前代产品的最多28个提升至最多40个, CPU架构采用了最新的Sunny Cove;

2.L1、L2和L3缓存容量受益于全新的Sunny Cove架构,得到了显著提升;

3. PCIe通道从之前的最多48个增加至最多64个,且升级至PCIe 4.0标准;

4.支持的最大内存容量提升至4TB,前代为3TB;

5.支持全新的SGX Enclave安全特性;

6.处理器插槽的数据传输带宽增加了7%;

7.支持DDR4-3200和傲腾DCPMM 200系列;

8.性价比的提升;

9.当然,还是有一些变弱的数据:比如单核心最高频率降低了,从之前的最高4GHz降低至3.4GHz;

10.多核心最高频率也降低了,从之前最高3.3GHz降低至3GHz。

11.TDP增加了大约32%,从最高205W提升至270W,其实对应芯片数量增加的规模和频率降低的规模来看,这是符合预期的。

总的来说,凭借全新的10nm工艺全新的Sunny Cove架构、全新的指令集支持、全新的安全控制技术以及扩展的Mesh架构等技术升级,10nm工艺的英特尔第三代至强可扩展处理器产品实力力大增,将给竞争对手带来更多的压力。

TIPS AMD EYPC 7003系列处理器简介

本文在这里也简单解释一下英特尔提到的AMDEYPC7003系列处理器在需要缓存的数据超过32MBL3缓存规模会导致延迟暴增的问题。根据AMD之前发布会的资料,AMDEPYC 7003系列处理器采用的是Chiplet设计,分为IO芯片和CCD芯片。每个CPU芯片拥有8个CPU核心和每个CPU核心绑定的L1、L2缓存,以及所有8个CPU核心共享32MB L3缓存。整个处理器拥有8个CCD芯片和1个IO芯片。

因此当同一个CCD芯片上的CPU核心访问本地缓存的时候,延迟是非常小的,甚至小于英特尔的Mesh架构,这是因为同一个CCD芯片上的CPU核心可以访问全部32MB缓存。但是,如果不同CCD芯片之间存在缓存访问的话,整个访问路径就需要跨过IO核心,延迟更接近于不同CPU插槽之间的访问延迟,比如AMD在这种情况下延迟高达112ns,接近英特尔跨插槽的延迟118ns。在不同插槽之间存在数据访问时,AMD方案需要跨越两个IO芯片才能得到数据,因此延迟更高,高达209ns。这就是Chiplet这类架构设计的弱点之一。当然,AMD也会考虑对此架构进行优化,将缓存数据优先放在最靠近的L3缓存中。毕竟32MB的缓存也足够大。按AMD的统计数据,很少有应用程序的缓存数据能够占满这么大的空间。

AMD采用Chiplet的架构设计也有自己独特的优势。那就是更容易扩展核心数量且更方便制造、成本更低。在更容易扩展核心数量方面,目前AMD推出64核心的处理器,采用了8个CPU芯片(被称为CCD),这8个CCD配合一个IO核心就实现了CPU核心数量上对竞争对手的碾压。并且有消息称,下一代产品AMD会将单个CCD中的CPU核心数量提升至12个,这样一来AMD就可以获得96核心的处理器。

至于AMD为什么不使用更多的CCD来连接搭配IO芯片,主要的原因可能还是目前CPU的PCB基板已经无法容纳更多的芯片布线了。AMD的Chiplet方案只需要分开生产面积较小的CCD和IO芯片,其中CCD的面积仅为73平方毫米,几乎只有英特尔完整CPU芯片的大约1/9。而AMD使用8颗芯片的总面积也只有约580平方毫米。从工艺良品率的角度来看,8颗73平方毫米芯片的生产难度要远远低于生产一颗560平方毫米的芯片,即使算上I0芯片的460平方毫米(12nm工艺制造,成本不高),AMD在总面积接近1000平方毫米的情况下,有可能成本上相对英特尔一个600平方毫米的芯片还更便宜。

TIPS環形总线架构介绍

环形总线架构在现在来看依旧是以一个非常经典且实用的设计,在核心数量较低的时候,能够非常好地满足核心内部的数据互通问题。而环形总线的发展也经历了单环、双环和多环等多个阶段。

当早期核心数量较少(小于10个)时,英特尔使用单环来连接CPU核心、内存控制器、PCIe总线控制器、PCU等所有部件并通过路由器的方法互相通信,此时如果某个核心的数据需要到达另一个核心,那么只需要将其发送至环并且在环上传输即可。虽然可能由于核心的距离等存在一定的延迟,但是在当时的技术条件下也是非常不错的设计方案。不过,在核心数量进一步增加后(小于20个),由于单环存在方向性,因此距离较远的核心通信延迟就开始变高。对于这类产品,英特尔使用了两个方向相反的双环,中间用GrossBar连接。双环通信进一步扩展了环状总线可以容纳的核心数量,但是两个不同环之间通信延迟会增加。

在双环通信之后,处理器的核心数量进一步提升至30个左右时,单独依靠双环就显得非常难以为继了。因此,英特尔将处理器核心数量进行了划分,10个和10个以下的核心数量成为一种产品,被称为LCC,采用单环通信; 10到20个之间核心数量的产品采用的是双环通信,被称为HCC;在20到30个核心的产品上,英特尔设计了1个单环和1组双环,并将两个环用Crossbar连接起来,被称为XCC。此时两个不同环的处理器发送数据需要先发送至当前处理器的环站,再上环后送至Crossbar,然后再下站至另一个环,最后进入目标处理器的环站。这意味着大幅度增加了数据传输延迟,两个不同环的处理器被认为是片上“非均匀内存访问(NUMA)”,但是英特尔声称其利用相关的内存感知技术,尽可能将数据保留在本地核心所需的环内,避免出现跨环访问数据延迟过高的情况。

猜你喜欢

指令集英特尔内存
外部高速缓存与非易失内存结合的混合内存体系结构特性评测
3DNow指令集被Linux淘汰
英特尔携手一汽集团,引领汽车行业全新变革
“春夏秋冬”的内存
英特尔扩充FPGA可编程加速卡产品组合
实时微测量系统指令集及解析算法
英特尔开源帮霍金“说话”软件
什么是AMD64
好平板有强芯 英特尔Bay Trail芯片解析
基于覆盖率驱动的高性能DSP指令集验证方法