APP下载

AI、5G与AloT时代 ASIC与FPGA谁将主宰定制化芯片未来

2021-09-10

新潮电子 2021年8期
关键词:矿机英特尔数据中心

全球科技变革的当下,AI、5G与AIoT时代的大门缓缓开启,众多新技术、新应用、新产品潜移默化推动人们数字生活变革的同时,各类定制化芯片开始崭露头角。在以数据为驱动的第五波计算浪潮下,ASIC与FPGA定制芯片开始频繁出现在人们眼前,对于习惯了CPU、GPU等芯片的大众而言,ASIC与FPGA芯片多少有些陌生,但对于整个半导体产业而言,ASIC与FPGA却代表着方向与未来……

定制化芯片大趋势

第五波计算浪潮下,异构计算、云AI、5G基础等领域不断崛起,催生市场对定制化芯片的需求。以人们熟悉的消费市场SoC芯片为例,芯片厂商设计完整的系统级解决方案,集成有CPU、GPU、ISP、DSP、基带、蓝牙、Wi-Fi等多种模块,可以为设备制造商大幅度减少研发成本和开发周期,这类SoC芯片属于通用型的标准芯片产品。而在数据中心、物联网、云AI、5G基础设施等多种企业级场景中,由于各厂商采用的运行逻辑存在很大差异化,很难通过标准的通用型方案来解决问题,于是厂商会采用ASIC芯片定制方案。

例如物联网市场,在各种物联网设备传输大量数据的过程中,各类厂商之间存在不一样的云端架构和数据处理逻辑,因此厂商会通过ASIC服务定制SerDes方案来提升数据传输能力,让网络和数据中心能够快速有效地处理大量特定类型数据,从而提升云端的处理速度,有效创建连接应用以满足特定需求。

除了ASIC定制化芯片之外,GPU(GraphicsProcessing Unit,图形处理单元)、半定制化的FPGA以及神经拟态芯片等技术架构芯片开始在AI、物联网等领域崭露头角,而随着时间的推移,定制化芯片领域开始出现ASIC与FPGA两大阵营,两大阵营产品在满足不同细分市场差异化需求的同时,也开始出现“交集”,而英特尔等实力强悍的半导体芯片厂商,更是同步推出FPGA、eASIC和ASIC在内的一系列自定义逻辑产品组合以满足终端消费市场差异化需求。与此同时,以矿机为代表的特定场景用途产品的崛起,开始让ASIC与FPGA成为越来越多大众市场消费者关注的对象。

具有科普性质的数字矿机

以往,ASIC与FPGA应用的领域更偏商用,普通消费者很难有清晰的认知,但在定制化芯片发展过程中,数字货币矿机成为ASIC与FPGA走向大众消费市场乃至重构市场对定制芯片认知的契机。

这些年随着以比特币为代表的虚拟货币市场的火爆,催生了一大批生产“挖掘”虚拟货币设备的“矿机”厂商,其中最为知名的要属比特大陆了。而比特大陆之所以能够在矿机市场异军突起,则主要得益于其自主设计的针对比特币矿机的ASIC芯片。因为相对于CPU、GPU来说,采用专用的ASIC芯片来“挖矿”

更具效率。以比特大陆的Antminer S9矿机为例,其内部集成了189个 ASIC芯片(BM1387),而且采用的是台积电16nm FinFET制程。同样,目前主流的矿机厂商都采用的是定制的ASIC芯片。这也使得ASIC芯片开始被大众所熟知。

而在比特大陸ASIC矿机风行以前,最早期的矿机其实是FPGA矿机,使用FPGA芯片作为算力核心的矿机首次出现在2011年末,在当时一度被看好,但活跃期并不长,后逐渐被ASIC矿机与GPU矿机取代,但在沉淀一段时间后,FPGA矿机开始重出江湖,除强于GPU的运算能力外,FPGA矿机拥有低于ASIC矿机的制造成本与更短的生产周期,再加上可编程设计,让矿机商可通过软件升级让矿机挖取不同算法的POW币种,进而重新受到大众欢迎。

事实上,ASIC与FPGA在矿机市场的争斗只是两者在定制化芯片领域应用的一个小小的插曲,但却在机缘巧合下成为ASIC与FPGA在大众市场的科普案例,人们进一步且更为清晰认识到两种芯片差异及可能的应用方向。

走近ASIC与FPGA

在解析ASIC与FPGA芯片应用方向及对数字社会推动作用以前,清楚明白地了解ASIC与FPGA异同格外重要。目前,在集成电路界ASIC被认为是一种为专门目的而设计的集成电路。是指应特定用户要求和特定电子系统的需要而设计、制造的集成电路。ASIC的特点是面向特定用户的需求,ASIC在批量生产时与通用集成电路相比具有体积更小、功耗更低、可靠性提高、性能提高、保密性增强、成本降低等优点。

而FPGA(Field-ProgrammableGateArray)指现场可编程门阵列,它是在PAL、GAL、CPLD等可编程器件的基础上进一步发展的产物。它是作为专用集成电路(ASIC)领域中的一种半定制电路而出现的,既解决了定制电路的不足,又克服了原有可编程器件门电路数有限的缺点。

ASIC具有高性能、低功耗的优势,但它们包含的任何算法—除了那些在软件内部处理器内核执行的—其余都是“冻结的”。所以这个时候我们就需要现场可编程门阵列(FPGA)了。早期的FPGA器件的架构相对简单—只是一系列通过可编程互连的可编程模块。总的来说,ASIC 可以更有针对性地进行硬件层次的优化,从而获得更好的性能、功耗比,但是ASIC芯片的设计和制造需要大量的资金、较长的研发周期和工程周期,而且深度学习算法仍在快速发展,若深度学习算法发生大的变化,FPGA能很快改变架构,适应最新的变化,ASIC类芯片一旦定制则难于进行修改。

两大芯片阵营技术的差异化带来应用情景的不同,而在AI、5G等各新兴技术领域崛起的大时代背景下,ASIC与FPGA在各实际应用中并没有绝对的优劣,各自推动着技术及产业的更迭。

半定制与全定制的博弈

在定制化芯片领域,FPGA(现场可编程门阵列)是一直可编程的半定制芯片,而传统ASIC则通常被称为全定制芯片。具体使用过程中,通电时,FPGA芯片将EPROM中数据读入片内编程RAM中,配置完成后,FPGA进入工作状态。掉电后,FPGA恢复成白片,内部逻辑关系消失,因此,FPGA能够反复使用。 因此,FPGA在理论上允许无限次的编程,可以被修改来改正程序中的错误和更便宜的造价。

全定制的ASIC则面向特定用户的需求打造,在批量生产时与通用集成电路相比具有体积更小、功耗更低、可靠性提高、性能提高、保密性增强、成本降低等优点。但ASIC需要较长的开发周期,风险较大,一旦有问题,成片全部作废,在一些体量较小的领域初创型企业希望用小批量产品打开市场时,ASIC就不太合适了。

但FPGA获得灵活性、可编程以及反复使用的优势并非没有代价,相同的工艺和设计下,基于通用的结构的FPGA上的速度理论上会慢于ASIC,这是因为FPGA内部是LUT(look up table),它可以实现加法器,组合逻辑等等,而ASIC,一般加法器就是加法器,而比较器就是比较器,FPGA结构上的通用性必然导致冗余;另外,作为FPGA基本单元是LUT(LUT组成SLICE,SLICE组成CLB——这是xilinx的结构),为此大的设计假如一个LUT实现不了,就得用两个LUT,一个SLICE实现不了就要用CLB,不同结构处于特定的位置,信号之间的互联,导致的线延迟(wiredelay)是不可忽略的一部分。

此外,FPGA贵在单片,开发工具和风险基本不存在。对于ASIC贵在流片的费用和开发工具,NRE费用随着工艺的提高变相当贵,除非你的芯片一次成功可以量产,否则单片费用同样会昂贵到一些企业直接放弃。

总体而言,ASIC用于大型项目,如CPU、DSP或多层交换芯片等,或者是应用于技术非常成熟且利润率非常低的产品,如家用电器和其他消费类电器,抑或是大量应用的通用器件如RAM、PHY等。而对于需要快速投放市场且支持远程升级的小型项目,FPGA则更为适合,如PDH、2.5G以下SDH设备和大部分的接口转换芯片等。

极具潜力的应用领域

AI、5G、数据中心等新兴技术领域的崛起为ASIC与FPGA提供广阔的应用空间,两者均能应用于这类新兴技术产业生态,不过在具体分支赛道上,却又各有不同。以AI领域为例,英伟达首款专门为深度学习从零开始设计的芯片Tesla P100数据处理速度是其 2014 年推出GPU系列的12倍。谷歌为机器学习定制的芯片TPU将硬件性能提升至相当于当前芯片按摩尔定律发展7年后的水平。正如CPU改变了当年庞大的计算机一样,人工智能ASI C芯片也将大幅改变如今AI硬件设备的面貌。如大名鼎鼎的 AlphaGo 使用了约170个图形处理器(GPU)和1200个中央处理器(CPU),这些设备需要占用一个机房,还要配备大功率的空调,以及多名专家进行系统维护。而如果全部使用专用芯片,极大可能只需要一个普通收纳盒大小的空间,且功耗也会大幅降低。

而从服务器,计算机到无人驾驶汽车、无人机再到智能家居的各类家电,至少数十倍于智能手机体量的设备需要引入感知交互能力和人工智能计算能力,这些领域对AI专用芯片的需求,都将成为ASIC 芯片的成长空间。至于灵活且运行深度学习算法能效更高的FPGA,新一代百度大脑也是基于FPGA平台研发。

事实上,ASIC与FPGA在应用上并非绝对固定的,不少企业在开发“深度学习处理单元”(DeepProcessing Unit,DPU)的芯片时,通常第一批产品就是基于FPGA平台开发研制出来的,这种半定制芯片虽然依托于FPGA平台,但是抽象出了指令集与编译器,可以快速开发、快速迭代,一旦产品成熟便会以ASIC芯片的形态大规模投入市场。

而在数据中心领域,数据企业对流水线并行和数据并行处理需求以及密集通信任务需求,让传统GPU芯片不堪重负,而CPU也难以兼顾功耗比ASIC专用芯片在吞吐量、延迟和功耗三方面都无可指摘,但其劣势也是非常明显的,微软曾因放弃使用ASIC专用芯片而给出这样的理由——“数据中心的计算任务是灵活多变的,而ASIC研发成本高、周期长。好不容易大规模部署了一批某种神经网络的加速卡,结果另一种神经网络更火了,钱就白费了。FPGA只需要几百毫秒就可以更新逻辑功能。FPGA的灵活性可以保护投资,事实上,微软现在的 FPGA玩法与最初的设想大不相同。数据中心是租给不同的租户使用的,如果有的机器上有神经网络加速卡,有的机器上有Bing搜索加速卡,有的机器上有网络虚拟化加速卡,任务的调度和服务器的运维会很麻烦。使用FPGA可以保持数据中心的同构性。”

因此,FPGA在数据中心里凭借稳定又极低的延迟以及充分的灵活性,适用于流式的计算密集型任务和通信密集型任务,

事实上,ASIC与FPGA在市场应用上并不存在绝对的竞争关系,FPGA常年来被用作专用芯片ASIC的小批量替代品,然而近年来在微软、百度等公司的数据中心大规模部署,以同时提供强大的计算能力和足够的灵活性。

积极落子的巨头们

“让专业的人做专业的事儿”——相对于传统CPU和GPU产品,ASIC与FPGA产品的出现,即大幅提升芯片产品能效,又获得了不输传统CPU产品的兼容性,更伴随AI、5G、数据中心等领域的崛起成为绝对的市场风口。而面对这些足以改变甚至重构全球数字生态,动辄达到万亿美元规模的科技基建领域,高通、英偉达等半导体科技领域巨头自然不会错过。

大举并购成为巨头们进入ASIC与FPGA最直接有效的方式。2020年10月27日,AMD与Xilinx(赛灵思)宣布达成最终协议,AMD以全股票交易的方式收购赛灵思,交易金额为350亿美元,收下赛灵思,AMD就兼备了CPU、GPU、FPGA、自适应SoC和软件的完整能力,业务横跨个人电脑、数据中心、5G通信、汽车芯片、游戏产品、航空航天等诸多产品领域;2021年,高通宣布以14亿美元的价格成功收购NUVIA,后者是一家专门设计用于各种应用程序(包括高端计算和服务器应用程序)的基于ARM的定制CPU的公司,此次并购NUVIA的交易表明,高通公司正在寻求将高端集成CPU设计纳入其产品组合,以及创建组合5G SoC设计的可能性。

而早在2015年,英特尔就以167亿美元的代价收购逻辑编程芯片巨头Altera公司,加上这次AMD收购赛灵思,业界两大独立的FPGA的厂商都被收购,那么此后江湖似乎再无规模稍大的FPGA厂商。公开资料显示,FPGA原有四大巨头分别是赛灵思、Altera、Lattice和Actel。英特尔收购Altera,Microsemi(美高森)收购Actel(微芯收购美高森),AMD收购赛灵思。

巨头们砸钱抢入ASIC与FPGA赛道绝不可能只是为了技术储备,新一代信息技术升级大背景下,布局ASIC与FPGA赛道的巨头早早地开始了红利争夺战。

率先开打的数据中心争夺战

相对于遥不可及的AI以及专业性更强、更细分的5G通信,数据中心成为众多巨头布局ASIC与FPGA赛道的关键目标,毕竟无论是数据中心本身还是云计算、大数据等相关领域,数据中心都能给市场带来巨大的想象空间和当下就已经存在的刚需与经济价值。

在不少人眼里,数据中心是一个无比丰盈的大市场,而且数据中心加速器的需求正爆发增长。据Semico研究公司预测,全球数据中心加速器(包括CPU、GPU、FPGA和ASIC)市场规模将从2018年的28.4亿美元增长到2023年的211.9亿美元,年复合增长率(CAGR)高达50%。其中增长最快的FPGA加速器,2018年只有10亿美元,到2023年将超过50亿美元,其增长驱动力主要来自企业级数据负载加速应用。事实上,包括微软、AWS到阿里云等几乎每个全球云计算巨头的数据中心都密布着大量的FPGA产品。

2020年10月,由于NVIDIA将基于Mellanox的SmartNIC卡(智能网卡)命名为“DPU”,DPU这一概念一炮而红。DPU(Data Processing Unit的缩写)也就是所谓的数据处理单元。它是最新发展起来的专用处理器的一个大类,为高带宽、低延迟、数据密集的计算场景提供计算引擎。算力源于芯片,目前数据中心中核心算力芯片包括CPU、GPU、FPGA和少量ASIC,其中各类通用CPU占比还是绝对统治地位。根据Nvidia和初创公司Fungible的预测,用于数据中心的DPU量级将达到和数据中心服务器等量的级别。服务器每年新增大约千万量级,每台服务器可能没有GPU,但一定会有一颗或者多颗DPU,好比每台服务器都必须配网卡一样。而且服务器每年新增大约1500万台,每颗DPU如果以1万元计算,这将是千亿量级的市场规模。

除NVIDIA外,有Intel (收购Bear foot)、Mellanox(已被Nvidia收购)、Mar vell(收购了Cavium)、Broadcom、Fungible(初创)、Pensando(初创)等企业都有推出DPU产品,但是每家的DPU在具体功能定位和技术上还是有明显差异的,其中,Intel是基于FPGA实现的,主要面向交换机、路由器芯片;Broadcom基于Arm实现,也是主要面向交换机、路由器芯片;Marvell通过收购Cavium,基于Arm实现,主要面向5G的基带;初创公司Pensando通过软件定义网络处理器,主要面向支持P4的SDN;另外一家初创公司Fungible基于MIPS实现,主要面向网络、存储、虚拟化;Nvidi收购Mellanox的网络方案,其他功能基于Arm实现,主要面向数据安全、网络、存储卸载。

然而,在DPU大举进入数字中心领域以前,以英特尔为代表的传统半导体企业一直牢牢把持着数据中心CPU产品,虽然英特尔自己也有相关DPU产品,但面对全面发力的DPU产品集团军,英特尔也走出了数据自己的融合与创新之路。

掌握着英特尔未来大门钥匙的IPU

如果说X86 CPU铸就了英特尔辉煌的过去,那IPU则成为英特尔打开未来世界的钥匙。在物联网时代,我们已经看到了太多以“xPU”命名的处理器,无论是英伟达的DPU还是谷歌的NPU与TPU,这类产品从数据中心入手,在万物互联大背景下,不断向传统CPU/GPU领域发起冲击,而英特尔在Six Five峰会上,公布了其对基础设施处理器(IPU)的愿景,除自身技术、产品系列升级外,同样可以看作是对“xPU”类产品的反击。

按照英特尔官方的介绍,推出面向基础设施应用的 IPU处理器是为了满足数据中心和云服务提供商的最新需求。据悉,IPU 全称为“InfrastructureProcessing Unit”,官方描述为一种可编程网络设备,旨在帮助云与通信服务提供商减少相关任务对中央处理器(CPU)的资源开销需求,并进一步释放相关平台的性能潜力。

X86时代,英特尔原本在数据中心市场拥有绝对的话语权,但随着5G、AI、云计算等新兴技术的崛起以及数据中心自身技术的更迭和应用的变化,大量ASIC芯片、FPGA芯片逐步渗透进入市场,大有动摇英特尔在数据中心市场地位的态势。

作为自身SmartNIC产品服务的延续,IPC产品不仅可以满足边缘计算需求外,IPU本身更可通过AI学习实现部分数据的处理,为CPU核心减负的同时,专注提升整个网络数据处理效率,同英特尔其他ASIC、FPGA芯片产品配合使用,进而提升整体数据中心解决方案的效率。

FPGA与ASIC的融合猜想

无论是众多半导体巨头推出的“xPU”产品还是英特尔主导的IPU产品,无非是将“分工”做到极致,让芯片专注某一方面甚至某一环节的工作,从而极大提升产品工作效率。既然芯片間可以协作,那芯片从设计之处,何尝不具备融合的可能?

随着新一代FPGA SoC的出现,人们发现当FPGA越来越像SoC,FPGA同ASIC的产品边际开始被打破。许多公司创建RTL并对其进行验证,但几乎不知道他们最终会选择FPGA还是ASIC,因为这个决定可能会变很多次。芯片设计企业可以从FPGA开始,当达到一定数量后,如果ASIC成本更低,就转到ASIC上,降低硬件成本驱动着芯片设计企业用更灵活、高效的方式完成产品从设计到量产的过程。

Intel继收购Altera之后,于2018年收购了芯片公司eASIC,该公司提供一种介于FPGA与ASIC中间的技术。通过半成品的结构化ASIC,能够节省NRE费用和设计时间,而芯片的性能和功耗又接近标准单元ASIC。此举被看作是Intel在FPGA和标准ASIC之间的战略布局。

相应的还有eFPGA的形式,例如Achronix,FlexLogix等厂商,通过将一个或多个FPGA以IP的形式嵌入ASIC或SoC等芯片中,实现数字可重构的结构,从而使芯片实现更高的灵活性和可重新配置的特性。

这种方法在航空航天、无线基站、无人驾驶等领域收到了相当大的关注,毕竟一个新兴技术领域的成长,需要从技术到产品不断的调试,才能最终成型,而这个不断学习甚至不断试错的过程,FPGA与ASIC的融合型产品能更好地满足市场差异化需求。

写在最后:放缓了的摩尔定律

随着摩尔定律的放缓,提高能效成本效益的唯一途径就是定制和专业化。人们心中最理想的芯片,其速度可以比肩GPU,效率不输ASIC,同时又具备CPU的适用性和FPGA的可定制性。越来越多半导体科技巨头开始往这方面尝试,谷歌的TPU、赛灵思的ACAP、英伟达、三星、ThinkForce、ThinCI、REXComputing、Graphcore、Cambricon、Cerebras、SpiNNaker和地平线等,巨头们升级自身技术及产品线更迭的同时,何尝不是想要在未来的搬到离领域获得足够多的话语权呢?

同时,FPGA与ASIC未来的竞争边界被模糊并不会让人感到意外,即使是在当下的数据中心应用领域,更实用的做法也是FPGA和CPU协同工作,局部性和重复性强的归FPGA,复杂的归CPU,唯有分工,才能让标准化推动整个行业的进步。

猜你喜欢

矿机英特尔数据中心
酒泉云计算大数据中心
英特尔携手一汽集团,引领汽车行业全新变革
杭州芯片公司VIDTOO计划推出新型Grin矿机G1
一种新型溜井放矿系统在某磷矿的应用
民航绿色云数据中心PUE控制
最多支持36块显卡 德国水冷品牌AlphaCool推出矿机机架
英特尔扩充FPGA可编程加速卡产品组合
挖矿世界的权力游戏
基于云计算的交通运输数据中心实现与应用
英特尔开源帮霍金“说话”软件