漫谈苹果M1全系列:半导体新时代!
2022-06-08林亦
林亦
在2022年的春季发布会上,苹果公司发布了M1系列芯片的新成员——M1 Ultra。一直讲究命名独创性的苹果,这回跟三星的Ultra手机&平板系列撞了个结结实实。当然三星也没错过这个机会,不到一个小时就发了条推特说自己赢了,现在全世界都知道三星的运营部门上班时间看苹果发布会了。
说完这个小插曲咱们回到正题,M1 Ultra是一张意义深远的芯片,对苹果乃至整个半导体产业,都是如此。虽然大部分人用不上这张芯片,但这不影响我们对它台前幕后的故事感兴趣。
對苹果来说,这标志着第一代M系列芯片全部发布完毕。这一点在发布会上,得到了苹果负责硬件工程的高级副总裁John Ternus的确认。作为最后也是最强大的一张M1,M1 Ultra走在了半导体产业先进封装这个新方向的前列。对整个半导体产业来说,这也是一张有里程碑意义的芯片,率先为我们勾勒出了摩尔定律2.0时代的轮廓。
关于半导体新时代,我们先从M1 Ultra芯片谈起。这张芯片的特点是由两块M1 Max缝合出来的,M1 Ultra最大能达到20个CPU核心、64个GPU核心,128GB统一内存。对比M1 Max的参数刚好翻倍。
芯片缝合参数翻倍这种事,以前也有,比如05、06年英特尔的奔腾D处理器,然而实际效果欠佳——虽然两晶片被缝合在一起,但两者却不能通信。大家小时候应该都经历过这种情况,就是跟好朋友闹翻了,谁也不跟谁讲话,所有事呢,都得靠一个共同的朋友来传话。当年奔腾D的两个晶片就是同样的情况,所以虽然参数翻倍了,但性能提升主要还是靠用户对自己进行心理暗示,我称之为“精神超频”。因此这种方案不仅没有发展成主流,反而衍生出了“胶水双核”这么个梗,专指这类骗自己的多晶片方案。所以今天常见的多核处理器、都是把CPU核心刻在同一块晶片上,保证核心与核心之间的高速通信。
不过这次两块M1 Max缝合出来的M1 Ultra又有了新变化,关键就是UltraFusion。UItraFusion的通信速度达到了2.5TB/s,而且这个TB的B是大写的、不是小写的。笔者十多年间收集的影视资源也就区区4个T,UltraFusion不到两秒就能给传完,这个速度是PCIe4.0 x16插槽的78倍、入门级M1统一内存的36倍。M1 Max的内存通信速度达到了400 GB/s,不到UltraFusion的1/6。实际上M1 Ultra自己的内存通信速度是800 GB/s,也不到UltraFusion的1/3。
这是一个值得讨论的话题。首先M1 Ultra内存800 GB/s这个数,是很说明问题的。MI Ultra里面有两个M1 Max,每个M1 Max的内存带宽是400 GB/s,假如上半部分一个CPU核心同时访问所有内存,它享受的带宽就应该是上面这块M1 Max的带宽、加上下半部分的内存被UltraFusion卡了一下之后剩下来的带宽。现在这个800 GB/s刚好是上下两部分加起来,400加400,所以这就侧面反映出UltraFusion的带宽确实是给够了,至少没耽误内存。
有国外博主提出另一种看法,他认为根据这个数字来说,应该还会有一款两块M1 Ultra两层叠起来的设计,总共四块M1 Max缝合到一起,原因就是UltraFusion这个2.5 TB/s的带宽是M1 Ultra内存800GB/s的三倍多,给两个M1 Ultra用也是足够的。
对此,笔者持怀疑态度。按苹果在发布会上的描述,M1 Ultra在软件实际调用的时候会被识别为一块单一芯片,不需要程序员额外注明任务怎么分配,两块M1 Max自己就能协调好,对外表现是一整块20核的处理器,而不是两块10核处理器。实际跑分结果也印证了苹果的这个说法。M1 Max的Geekbench多核跑分是1.2万,M1 Ultra是2.4万,实际性能上确实是翻倍效果。想要把融合效果做到这种程度,两张M1 Max之间的信号传输就不能只限于内存了。CPU、GPU、缓存,还有神经引擎、媒体引擎这些元件之间应该都要有信号传输,到极限情况M1 Ultra一起工作,2.5 TB/s可能也只是刚好够用而已,所以我对这套通过带宽反推新芯片结构的逻辑表示怀疑,但大家可以对四块M1 Max缝合这个事留个印象。
言归正传,回到M1 UItra本身。上文我们提到M1 UItra里两块M1 Max,可谓珠联壁合,宛若一体。再回看更早英特尔奔腾D的“胶水双核”,理念还是一个理念,但实际效果是天壤之别。从目前的Geekbench跑分来看,M1 Ultra超过了Mac Pro中英特尔的28核至强处理器,甚至接近了AMD 64核的线程撕裂者3990X,同时功耗却比这两者低得多。那为什么同样的理念,今天的效果却突飞猛进?答案就是半导体产业这些年的一个新动向:先进封装。
什么是封装呢?半导体工艺流程分前段制程和后段制程。顾名思义,前段就是前面在晶圆上刻晶片、做电路的这些步骤,后段就是后面的步骤,封装就属于后段制程。这一步简单点讲,就是把前段制程里切下来的小晶片装到电路板上,扣上盖子,做成咱们日常能买到的比如英特尔i5、i7这些CPU。
这几年封装技术进步特别快,举个侧面的例子,就是“CPU”这个名词都开始有歧义了,像以前我们说CPU指的就是这一整块芯片,但是现在随着封装技术的进步,芯片这个盖子里集成的功能越来越多,CPU反而只是其中的一块了。尤其是像M1 Ultra,你说CPU具体指M1 Max里的CPU区域,是M1 Max,还是整个M1 Ultra呢?
这就是人类语言追不上技术的一个典型例子,也侧面反映了先进封装技术对半导体产业的颠覆性。先进封装,就是把今天复杂、大型的晶片封成一块芯片的技术,也是半导体产业的一条新赛道。长期以来,半导体产业的主要精力都在前段制程上,通过缩小晶片上的晶体管尺寸来提高晶片性能,但晶体管越小,再往下缩面临的物理限制就越多,难度可以说是指数级上升。当年英特尔就是因为低估了问题的难度,高估了自己的能力,在加号地狱里无限轮回,最终导致了苹果的跑路,如今换了一个技术出身的CEO才终于又有了起色。不过从整个半导体产业来看,晶体管尺寸的物理限制是所有人都要面对的难题。无论英特尔、台积电还是三星,近年的制程升级节奏都在变慢。所以前段卡住,发力后段做先进封装,就成了行业的共识。除了今天的这张M1 Ultra,英特尔也在做EMIB和Foveros 3D封装,而AMD的3D封装芯片、R7 5800X3D将在4月20日面世。
M1 Ultra芯片由两块M1 Max强强合体,给你磅礴动力,处理各种庞大艰巨的工作。运行复杂的粒子模拟,或是执行过去难以实现的大型三维场景渲染,现在都得心应手。M1 Ultra的媒体处理引擎资源也同样翻倍,可支持同时播放多达18条8K ProRes 422视频流,这在个人电脑上是极具颠覆性的。
其实摩尔定律本来就是说每18个月芯片上的晶体管数目翻一番,就没提过晶体管尺寸。今天的晶片已经很小很小了,借助先进封装技术扩大芯片面积,从而增加晶体管数目,同样可以维持摩尔定律,支撑半导体产业的发展,因为不同于长期以来缩小晶体管尺寸的思路,所以封装产业将这个新方向称作是摩尔定律的2.0阶段,今天的M1UItra,包括即将开卖的AMD 5800X3D,都在证明这个方向的可行性,而这两款产品的制造企业其实是同一家,就是台积电,包括摩尔定律2.0这个概念,也是台积电的工程人员提出来的。
讲先进封装,一定绕不开台积电。台积电在先进封装技术上是起步最早的企业之一,这背后也有段故事。
2011年,重新执掌台积电刚刚两年的张忠谋,宣布要做先进封装。2011年的时候英特尔还在32纳米制程上,那时提到先进封装大家想到的也是拉胯的胶水双核,所以老先生的这句话很多人想不通。封测大厂日月光的财务长董宏思就评价说“这种技术只会被用在极少数的特定高端产品中,影响有限”。当时在台积电负责先进封装研发的人,是今天的台积电副总经理余振华,他就回击说“先进封装这个技术,以后所有高阶产品都会用,市场很大”,说自此专注于先进封装的研发。
到了2013年,FPGA厂商赛灵思成为了台积电先进封装技术的第一个客户。一年之后,英特尔正式进入14纳米制程,开启了一场以加号为主题的奇妙旅程,制程困局的倒计时,正式开始。今天回头来看,张忠谋可谓慧眼如炬。再看看苹果的M1 Ultra、AMD的5800X3D,余振华当年的话也在逐渐成为现实。
话说回来,台积电的先进封装在M1 Ultra的制造上,到底干了啥?根据当年电子时报的报道,UltraFusion使用的大概率是台积电的CoWoS-S技术,也有可能是成本更低的InFO-LSI、类似英特尔的EMIB。这里我们以CoWoS为例解释一下,这几个技术主要区别是材料的用量不一样,相应地成本也不一样,但原理相通。CoWoS的全名是chip 0n Wafer on Substrate,名字很直白,描述的就是这么个三层结构,Chip是晶片,在最上面,Wafer指的是硅介质层,夹在中间,英文叫Silicon Interposer。蘋果发布会上Johny Srouji讲UltraFusion的时候,左一个interposer、右一个inte rposer,说的就是夹在中间的这个硅介质层。最下面一层就是Substrate——载板,通俗点叫电路板。这三层里面最创新的是中间这层。它的作用是缩体积、降功耗。硅介质层和晶片的材料一样都是硅,内部电路结构可以比下面的电路板更细、更密,电路宽度可以做到1/10甚至更细。M1 Ultra有大量的功能电路和通信电路,晶片放不下的就可以由中间这个介质层来分担,但如果没有介质层,让电路板来分担,那体积和功耗都要成倍增加,因为电路板的线太粗了。形象点说,如果没有这种先进封装技术,那MI Ultra根本放不进Mac Studi0这个小盒里,如果硬要把这些信号通道刻在电路板上,M1 Ultra的尺寸可能比苹果的27寸显示器还大,耗电量可能超过家用空调和冰箱的用电之和。所以这就是台积电先进封装的意义,因此M1 Ultra才成为了可能。
那么问题来了,即使是有台积电的先进封装,但M1 Ultra上面有1140亿个晶体管,为了让两块M1Max珠联璧合,宛若一体,这些晶体管之间又要有无比复杂的通信电路。若干晶体管和电路的故障是大概率事件,就算有冗余设计,像M1 UItra这么复杂的晶片,良品率也有限。生产成本这么高、再加上新芯片巨大的设计成本,售价必然高不可攀。不过不用担心,咱们看看苹果的CEO是谁?Tim Cook,工业工程出身,资源优化大师。1998年3月临危受命来到苹果,七个月后把产品库存量从30天减少到6天,到1999年又进一步减少到惊人的两天。“库存克星”这个称号对库克是一种羞辱,因为有库存才需要克星,而库克的目标是“没有库存”。当年库克在lBM学的就是JIT制造模式,“Just in Time”,需要多少做多少,不留库存。有这样一个领导者,你可以相信苹果能解决M1 Ultra的成本问题。
接下来,咱们就来讲一讲苹果的20210217702A1号专利,全名是“晶片连接的系统与方法”,这里面有UltraFusion的结构描述,也有上文提到的成本问题的解决思路,更有下一代大型芯片的预先规划,我称之为“苹果自研芯片全面剧透”专利。
这篇专利公开于2021年7月15日,相比M1 Ultra的发布提前了半年多。芯片投产前就做专利保护是很正常的,但为什么提前这么多?听我慢慢道来。
首先关于ultraFusion的具体结构方面,专利书第31段、第37段,第42到48段,以及结尾部分的20条专利主张都进行了描述。首先两块M1 Max晶片在分界线两边各有一条信号缓冲带,M1 Max上需要通信的元件,比如CPU、GPU、内存都与信号缓冲带连接,信号从这些元件走到缓冲带,再经由缓冲带上的通道穿过分界线,到达对面的缓冲带,最后到达目标元件。
搞清楚结构,我们就可以讲前面的成本问题了。根据专利书上的描述,芯片生产过程中,工厂会先在晶圆上排满M1Max晶片,然后逐一检查,把相邻且内部电路完好的晶片找出来,在这些晶片之间搭建信号通道、填充电介质,连上之后,一对对儿切下来,M1 Ultra就成了。剩下的晶片,如果只是负责跨晶片通信的电路有问题,就单独切下来,当M1 Max来卖,这就是为什么去年的M1 Max芯片下面,全都额外有一条信号缓冲带,这个并没有什么用的结构,我称之为“库克的微笑”。这也是为什么苹果去年七月就要公开专利,因为10月M1 Max就要发布了,生产M1 Max其实就是在生产M1 Ultra,所以要提前保护。不过降成本这条路走到这儿还没完,M1 Max的结构也挺复杂,万一也做坏了呢?没关系,库克也做了预案。如果生产缺陷是在下半部分,横着来一刀,它就变M1 Pro了,照样卖。这些都是很优秀的成本控制设计。这样一来呢,良品率变高,生产成本和设计成本却被摊薄了。再进一步,设计成本其实还能往下摊。虽然M1 Pro没法直接砍成M1,但是像CPU、GPU核心、雷电控制器等,很多元件都可以在M1上原樣复用,每卖出去一张M1,同样也是在分摊整个M系列芯片的设计成本。如此来看,我们可以理解为M1 Ultra才是整个系列的主角,其余产品都是为了它的诞生而服务。顺着这个思路,iPad Pro和iPad Alr为什么上M1芯片,也就终于有答案了。我之前觉得苹果上M1是想用iPad取代电脑,现在我觉着我判断错了,至少是因果关系反了。对苹果来说,只要iPad散热压得住,上M1之后都是好事。性能强、有噱头、有关注度,还能分摊M系列芯片的设计成本,而且还省了设计iPad芯片的成本,所以对苹果来说没什么理由不给iPad上M1。让iPad取代电脑,最多就是有了上M1这个打算之后的想法,或者干脆就没有这个想法。照这个思路,未来基础版iPad、甚至iPad mini,只要散热压得住,很可能都会上M系列芯片。再往外推一步呢,苹果的长期目标,很可能就是把手机、平板和电脑的芯片都统一到同一个芯片产品线上,理论上来说这样可以最大程度地减少浪费,还能增加生产线运营的灵活性。比如说某段时间iPad Air的销量远高于MacBook Air,那就把给MacBook准备的M1芯片,调给iPad Air,这种极致的优化,刚好是今天的苹果CEO库克最擅长也最喜欢的事。假如真有那么一天,苹果就会变成一个运营效率极高的科技工业体,能不能做出改变世界的产品要靠运气,但每年的财报绝对会非常好看。那时,苹果就真的是库克的苹果了。
这件事到底有没有可能呢?我们再回到苹果的专利书。专利书的本质就是通过公开来换取保护,把你想做的和有可能会做的事都写上去,写得越全,获得的专利保护才能越全面。苹果这篇专利书的第39段(找原文标记)介绍了这套晶片缝合方案的潜力。这套方案并不局限于两块晶片,任何数量都可以,比如三块、四块。晶片的缝合边也不必局限于一条,最多可以给四条边都加上信号缓冲带,这样四条边都可以与其他晶片缝合。这就是明确说了四块晶片合体是可行的,而且合体方式不是叠放、也不是通过插槽中转,而是多边缝合。有了这个信息,首先可以确认M1 Max不可能四块合体了,因为M1 Max上只有一条信号缓冲带,如果想四块晶片合体,按照苹果专利书里的方案,每块晶片至少要有两条缓冲带,明显M1 Max就不行了。然后就是刚才说的手机、平板、电脑全线芯片统一,这事的可能性是存在的。今天手机跟电脑芯片的性能差距已经没那么悬殊了,未来手机用单晶片,平板和轻薄本用双晶片,专业本和台式机用四晶片,好像也不是不可以,那就真成摩尔定律2.0了,但是在这种缝合方案的成本降下来之前,这都只是猜想。
今天我们从M1 Ultra的参数谈起,先追溯了老一代封装方案“胶水双核”的黑历史,然后就M1 Ultra的实际性能结合半导体产业的现状,讲了封装技术的“老树开新花”,那讲到了先进封装,就不能不提台积电和摩尔定律2.0,以及台积电先进封装如何让M1 Ultra成为了现实。翻阅苹果的UltraFusion专利书,从M1 Ultra的成本控制出发,梳理了M系列全产品线的关系,展望苹果未来,我们一起等待时间验证。