英伟达方法:把客户逼成敌人
2023-12-06贺乾明邱豪
贺乾明 邱豪
英伟达CEO黄仁勋。图/视觉中国
8月下旬,英偉达召开例行全员会。当时英伟达股价随着销量大涨,市值稳定地回到万亿美元以上,员工手中股票的价值已经是年初的3倍多。英伟达CEO(首席执行官)黄仁勋提醒他们,不要太早激动,公司的市值会到2万亿美元。
全球只有苹果、微软、谷歌的市值到过2万亿美元,各自牢牢抓住十多亿用户。它们也全部都是英伟达成为万亿公司的原因。ChatGPT火爆后,它们向英伟达下了总额数十亿美元的大订单。
11月13日,英伟达发布了新款GPU H200,与上一代最大的差别是用了新款内存芯片,连计算能力都没明确公布,其市值就应声涨了700多亿美元。英伟达称已经给H200找到了买主——明年它会密集出现在亚马逊、谷歌、微软等公司的数据中心中。
在英伟达冲向2万亿美元的道路上,这些客户还会继续下大订单,但也会和它直接竞争。11月16日微软的Ignite大会是这种关系的直接体现,微软一边发布自研的AI芯片Maia100,一边邀请黄仁勋到场宣布新的合作。
微软之外,Meta、谷歌、亚马逊、特斯拉等英伟达的大客户,今年都投入更多资源研发AI芯片,甚至OpenAI都开始筹备芯片项目。
两倍于LVMH的利润率,大客户们自研芯片的动力
英伟达成立至今30年,前20多年专精于游戏显卡这一个小众市场。加密货币带来的巨大挖矿需求让英伟达激活了显卡销量,英伟达的业绩和市值因此跃升,不仅收入在2018年冲破百亿美元、利润率冲上30%,股价也在2016年到2018年10月间大涨800%。随着比特币在新冠疫情肆虐之际冲上6.8万美元,英伟达的市值也逼近万亿美元,成为最值钱的芯片公司。
2023年3月发布的GPT-4点燃了整个人工智能行业。根据芯片研究机构SemiAnalysis获取的信息,OpenAI用2.5万张英伟达A100GPU训练了三个多月,才做出GPT-4大模型。
A100是英伟达2020年发布的GPU。在GPT-4发布前几个月,英伟达推出了H100GPU,把计算能力提升到A100的3倍,专门为Transformer架构(大模型的底层)做了优化——当时ChatGPT还没有面世。
对于想要研发更强大模型的OpenAI和追赶OpenAI的公司,H100都是需要大量囤积的战略资源,它立即变得供不应求。OpenAI发布GPT-4后,两度因为GPU短缺停止付费用户注册。
埃隆·马斯克(ElonMusk)说H100“比毒品都难买”。迫切需要算力的公司们,转而订购A100。受美国政府贸易限制,中国公司只能购买降低性能的A800和H800。这些GPU的产能也远远跟不上需求。
红杉资本在今年9月称,许多公司的增长瓶颈不是客户需求,而是英伟达最新GPU的产能。
英伟达是设计公司,并不直接生产芯片,它需要请台积电生产芯片,从其他公司采购高性能内存,再交给供应商组装成一张卡。一颗H100的成本约3000美元,而英伟达卖3万多美元,翻10倍:
英伟达向台积电下订单,用4纳米的芯片产线制造GPU芯片,平均每颗成本155美元。
英伟达从SK海力士(未来可能有三星、美光)采购六颗HBM3(HighBandwidthMemory,高带宽内存)芯片,成本大概2000美元。这是因为GPU处理大模型任务,还需要搭载比手机、电脑更大、数据传输速度更快的内存,才能保证效率。
台积电芯片产线生产出来的GPU和英伟达采购的HBM3芯片,一起送到台积电CoWoS封装产线,以性能折损最小的方式加工成H100,成本大约为723美元。
H100被送到其他英伟达的供应商处,四颗或八颗组装在一起,加上数据传输单元,做成服务器。
利润丰厚的H100推动英伟达利润率攀升到40%,超过了所有芯片同行,达到全球最大奢侈品集团LVMH的近两倍。
英伟达高昂的利润,就是它客户的成本。为了借着大模型浪潮来抓住用户、激活业务,许多大公司采购GPU后,不惜赔钱对外提供服务。GPT-4发布后,微软将其用于必应搜索,让用户免费使用。
黄仁勋常说的“买得GPU越多,省得越多”成为过去式。大公司买得越多,英伟达赚的越多,它们亏损越多。一个显而易见的选择出现了:自研一款芯片,可能省的更多。
过去十多年,研发一款芯片的难度持续下降:台积电、三星等代工厂存在,让它们不用担心芯片代工问题;芯片人才充分流动,降低了设计芯片的难度。
芯片研究机构SemiAnalysis的首席分析师迪伦·帕特尔(DylanPatel)说,自研一款类似微软Maia100的AI芯片,每年的成本大概1亿美元——对于研发费用每年上百亿美元的大互联网公司来说,并不算什么。
ChatGPT带动了大模型热潮,大公司不用担心使用场景问题。咨询机构Gartner今年8月预测,全球AI芯片市场规模随着ChatGPT火热快速增长,到2027年就会达到近1200亿美元,是去年的2.7倍。
大公司们想在AI芯片研发能力上追上英伟达,投入五年到十年也不一定能实现。不过它们只需要花英伟达同样的成本,做出十分之一的效果,就已经有利可图了。
训练更强的大模型,需要很多GPU。“训练一个对标GPT-3.5的大模型,用2000张至3000张A100GPU就可以。但想要训练对标GPT-4的大模型,上万张GPU只是一个入场券。”一家中国科技公司的大模型负责人说。
训练完成还不是结束。当用户使用大模型的时候,这些企业得靠GPU调动大模型——即大模型推理。大模型要处理用户输入的问题,基本上每个字都要单独跑一遍大模型。给出回复时,类似的情况还要再来一遍。参数上千亿的大模型,每次跑一遍都要调用多张GPU。
多位大模型從业者估算,如果千亿参数或更大的人工智能模型被广泛使用,大模型的训练成本和推理成本会达到2∶8,甚至1∶9。推理GPT-4或更强的大模型,基本上离不开英伟达高性能的GPU。
《财经》了解到,参数更大的大模型推理会产生巨大的算力需求,而且不可能在本地设备上实现(70亿参数的大模型就需要14G内存,超出了几乎所有手机的硬件配置和绝大多数电脑配置),不少英伟达员工因此相信公司市值会继续上升。
科技公司自研AI芯片,出发点都是推理参数较小的模型,然后再进一步扩展。阿里巴巴的含光800、百度的昆仑芯片都是推理芯片,谷歌、亚马逊、特斯拉做AI芯片,也是从推理入手,然后再做训练芯片。
自研芯片不用向英伟达交税,性能低一些也能节省成本。根据迪伦·帕特尔等人的测算,按照谷歌的报价,使用其最新的AI芯片TPUv5e在训练、推理参数少于2000亿的大模型时,成本低于用A100或H100。
大公司通常先在自己的业务中使用自研AI芯片,比如谷歌的TPU最先支持的是谷歌翻译,最新的TPUv5e首先用在了GoogleBrad和一系列用大模型改造的业务中(比如Gmail)。微软Azure芯片部门副总裁拉尼·博卡尔(RaniBorkar)11月16日在发布会上说,微软正在必应、Office等业务中测试自研的AI芯片Maia100,预计明年初投入使用。
芯片经过内部测试后,大公司会通过云计算平台对外提供服务,与英伟达争抢客户。11月8日,谷歌投资的Anthropic宣布大规模部署TPUv5e,处理其大模型Claude的推理工作,这些任务原本属于英伟达的GPU。
英伟达2万亿美元攻防战
“我们不需要假装公司一直处于危险之中。事实上,我们一直处于危险之中,而且我们深有体会。”11月9日,黄仁勋在一场活动中说。
芯片行业先驱、英特尔联合创始人安迪·格鲁夫(AndyGrove)曾说“成功滋生自满,自满导致失败,只有偏执狂才能生存”。英伟达也是硅谷最偏执的公司之一,从管理风格到战略蓝图都是。
大约十年前,黄仁勋在俄勒冈州立大学向台下的毕业生传输经验:“当有人全力以赴时,他们就能做你做不到的事情。全力以赴,不留后手。”他从不对冲风险,也不会多重押注,只在自己觉得对的路线上全力押注。
从2006年开始,为了让GPU在游戏、电影之外也有用武之地,英伟达将大笔资金投入到CUDA研发中,投资人和华尔街的分析师们不理解,为什么要给游戏显卡不断增加计算性能,让它们越来越贵和难卖?
直到大约十年后,人工智能和深度学习展现了商业价值,英伟达早期投资得到认可,CUDA成了英伟达隐形的护城河。
为了顾及手机、笔记本电脑的功耗,苹果、英特尔等竞争对手的芯片常常一年只能提升不到20%。而英伟达的AI芯片只考虑性能这一个目标。
黄仁勋不满足“摩尔定律”每18个月性能翻一番,他提出了更快的“黄氏定律”,并要求团队以此为目标,两年发布一款新品,保持计算性能的绝对优势。明年3月,英伟达将发布下一代产品GPUB100,预计性能会大幅度超过H100和加速追赶的所有竞争对手。
虽然从P100、V100到A100,功耗都在250W到400W之间,而H100的功耗直接来到了700W,是FPGA或ASIC路线下AI芯片功耗的数十倍。但更强的计算性能,让英伟达的GPU拥有着不可替代的地位。
面对更激烈的市场竞争,英伟达加快了新品推出的速度。11月13日刚发布的H200,是英伟达第一次在两代旗舰产品中插入一个“过渡款”。据SemiAnalysis的信息,英伟达将在2025年发布B100的下一代产品,发布周期从之前的两年一更,加速到了一年一更,还会延续下去。
芯片市场需求和产能经常错置,但黄仁勋从不在意周期。一旦有重要且抢手的零部件,他就会下单锁定产能,哪怕冒着用不完的风险,也要确保自身供应,挤压竞争对手。
目前AI芯片供应瓶颈主要是CoWoS先进封装和HBM3,英伟达包下了台积电约六成CoWoS产能,向HBM的三家供应商SK海力士、三星和美光下了巨额订单。
根据英伟达财报,截至今年7月底,英伟达账上还有价值111.5亿美元的订单、库存和产能采购承诺,另外还有38.1亿美元的供应合约预付款——同行里没有第二家公司有这么多的库存和预付款。
英伟达的大手笔采购,让供应商都感到担心。台积电董事长刘德音在今年二季度业绩会上说,看不清楚AI的火热需求是不是短期泡沫。但英伟达的订单就在那里,台积电只能选择大幅扩产跟上。
在英伟达的一再追单下,台积电已经计划将明年的CoWoS产能提高到3.5万片/月、同比增长120%。
这样极致的供应链掌控策略刻在英伟达的基因里。1997年,黄仁勋向台积电下了1.27亿美元的代工订单。台积电创始人张忠谋每隔一段时间就要回访,重听一遍黄仁勋的业务讲解、确保他真的需要这么多晶圆——那年英伟达的全年营收只有2700万美元。
英伟达还拿出了奢侈品行业惯用的“配货”策略。渠道商和客户们想要H100、A100这样的旗舰芯片,就得先买够一定量的L40S等适合更小模型的推理芯片,无形当中将竞争对手从够得到的市场赶走。
地缘政治是英伟达面前最大的阻碍。上一财年,中国市场为英伟达贡献了47%的收入。美国政府在去年和今年10月两度收紧高性能芯片出口,英伟达是最主要的限制对象。
英伟达的反击就是贴着红线出新品。第一轮管制后不久,英伟达就将A100的带宽缩水,交出既符合规定,同时不影响算力的中国特供版芯片A800,接着在半年内继续交出旗舰芯片H100的替代版本H800。
今年11月初,美国更新芯片禁令不到一个月,英伟达又拿出了符合新要求的H20GPU。虽然H20单卡算力只有296TFLPOS,是中国公司顶级AI芯片的57%,但更高的内存、带宽都保证了它可以串联起来使用,买得够多就依然有很强的竞争力。英伟达股价跟着上涨近10%。
把客户的客户变成自己的客户
全球的万亿美元公司,除去沙特阿美,都是黏住几亿甚至几十亿消费者的科技公司。
英伟达是当中异类。它的品牌长期只覆盖少数PC游戏用户,现在50%收入来自寥寥数个大型云计算公司和互联网巨头:亚马逊、微软、Google、Meta、字节跳动、阿里巴巴等。
大公司购买英伟达的处理器有一部分是自用,但更多是将其通过云计算平台租给其他客户。客户关系最终还是留在这些云计算平台公司手上。如果有一天,它们有了性能足够强的产品,随时可以换掉英伟达。
英伟达靠着CUDA绑定了数百万AI开发者,吸引着大型云计算公司采购它的GPU。如知名分析师本·汤普森(BenThompson)所说:“英伟达既不是一家硬件公司,也不是一家软件公司:它是一家将两者融为一体的公司。”
现在这套逻辑依然成立,在人工智能前沿探索中,CUDA仍然让英伟达的GPU具备优势。但现在黄仁勋还要再进一步,直接把云计算平台的客户变成自己的。
今年3月,GPU最稀缺的时候,英伟达推出云计算服务DXGCloud:英伟达把卖给云计算公司的GPU租回来,由英伟达员工进一步优化,再出租给需要GPU算力的客户。
一来一回,云计算平台承担了数据中心的建设成本,客户却去了英伟达。但微软、谷歌、甲骨文依然加入了英伟达的计划。作为回报,它们很快就有了最稀缺的H100。全球最大的云计算供应商AWS拒绝合作,直到今年7月才上线了H100算力出租服务。
“这是我们有史以来最大、最重要的业务模式扩展。”黄仁勋说,“英伟达不仅为云计算公司提供GPU,还把自己推向市场。”
OpenAICEO山姆·阿尔特曼(SamAltman)近期接受采访说,虽然今年GPU緊缺,但明年情况会更好。因为谷歌、微软等公司自研的新款AI芯片将会投入市场。OpenAI已经开始测试微软发布的AI芯片。
“这就是资本主义的魔力,现在很多公司都想成为英伟达。”阿尔特曼说。而英伟达的步步紧逼,也没有给它们其他选择。