英伟达，被黄仁勋带向何方？

2022-05-30马点秋

看世界 2022年19期

关键词：算力架构芯片

马点秋

英伟达首席执行官黄仁勋

最近，百度推出的“AI作画”首款产品文心·一格正式上线，掀起了一阵“你说我画”的热潮：用户只要输入一段文字，就能一键生成各式各样瑰丽绚烂的画作。

不仅是“一键作诗”“一键作画”，AI热潮席卷之下，从“阿尔法狗”到L4级别的自动驾驶训练，乃至对新冠药物的分子动力学模拟与病毒机制的分析，都离不开AI技术的助力。

然而，美国芯片巨头英伟达8月31日公告称，其被美国政府要求，限制向中国出口用于加速AI训练任务的最新两代旗舰GPU计算芯片—A100和H100。另一芯片巨头AMD的数据中心级GPU—MI100与MI200，也同样遭到限制。

那么，AI加速芯片和GPU到底是什么，为何如此重要？

英伟达带动GPU发展

GPU即图形处理器，由英伟达在1999年发布GeForce 256时提出，一直沿用至今。对应于CPU“中央处理器”的名称，GPU的雏形“图形加速卡”在上世纪80年代的雅达利2600游戏机上诞生之初，便是为了弥补CPU进行图形处理时遇到的性能瓶颈而生。

CPU的设计理念基于冯·诺依曼架构，经过内存读取—转译—运算—输出等步骤处理数据，以低延迟为导向，专为串行处理而优化。这样的设计理念让CPU中的核心数较少，且绝大多数的晶体管都用在了控制电路和高速缓存上，用来完成实际运算的晶体管只占少数。这就限制了其进行大规模并行计算的性能。

而在3D图形运算中，往往需要对模型的每一个顶点进行同样的坐标变换，或是对每一个顶点按照同样的光照模型计算颜色值—这样的运算虽然简单，但需要计算的次数非常庞大，让早期的单核CPU叫苦不迭，专为图形计算进行优化的GPU设计理念就此诞生。

与CPU努力降低延迟不同，GPU以数据吞吐量为导向，由成千上万个更小、更高效的“小核”构成，专为处理并行任务而设计。形象地说，CPU的核心就像餐馆里的“大厨”，负责各类复杂任务的处理和调配;而GPU的核心就像“小工”，以人海战术高效处理各类简单任务。两者各司其职，构成了如今高性能计算机的基础。

GPU的发展史，基本上就是英伟达的发家史。

1993年，祖籍中国浙江、出生于宝岛台湾的黄仁勋刚及而立之年。他在斯坦福大学求学期间，为了追求喜欢的女孩，提出了30岁会成立自己公司的承诺。随后女友变成了妻子，黄仁勋也如约在1993年8月与另外两个伙伴共同创立了英伟达，并担任CEO。

CPU的核心就像餐馆里的“大厨”，而GPU的核心就像“小工”，以人海战术高效处理各类简单任务。

2021 ChinaJoyAMD展台

他不知道的是，这家公司的市值将在2022年初超越台积电和三星，成为全球市值最高的半导体公司，相当于4个英特尔或高通。而作为芯片公司中为数不多白手起家的企业，英伟达的起步无疑是极为艰难的。黄仁勋在一次演讲中说：“创立公司时，我清楚地记得当时兜里只有200美元，而市场上当时已有250个竞争对手。”

碰壁后，迎合市场主流

彼时，图形显示领域的大哥ATI（后来被AMD收购）已成立多年，而诸如3dfx等后起之秀也层出不穷。众多风投公司判断，图形显示市场已基本饱和，再成立类似公司前景不明朗。

然而，初出茅庐的英伟达潜心打磨两年，还是推出了旗下第一款面向游戏主机的显示芯片NV1。NV1集成了当时最大最全的游戏方案，不仅同时支持2D、3D处理能力，甚至还集成了音频处理功能，为当时竞争趋近白热化的游戏主机市场，带来了“保姆级”一站式解决方案，理论上应该成为某款传奇游戏主机的心脏，来大放异彩。

2022年世界人工智能大会

一款成功的硬件产品，首先要符合市场主流的技术标准和规范。

然而，NV1为了用更少的计算量实现更光滑的3D效果，选择了方形绘图的渲染架构。不巧的是，在NV1发布的同一年，微软发布了沿用至今的DirectX API图形标准的前身—Direct3D，加上此前的OpenGL（用于渲染2D、3D矢量图形的应用程序编程接口）都采用了三角形繪图渲染，这意味着NV1与业界的通用标准完全无法兼容，导致销量冷淡。

“叫好不叫座”的NV1，让英伟达出师不利，账面资金一度仅够公司维持运转30天。“记住，公司距离倒闭只有30天。”这也成为了黄仁勋激励员工不能松懈的口头禅。

公司陷入绝境之时，好在位于日本的世嘉游戏公司看上了英伟达的技术实力，其采购了NV1芯片用于自家的土星游戏主机上，并随后要求英伟达为其开发下一代游戏主机DC的显示芯片。

虽然这一合作再次因为英伟达坚持方形显示理念而与世嘉产生分歧，最终导致NV2芯片流产，但彼时财大气粗的世嘉并未收回700万美元的开发资金，这给了英伟达至关重要的一次机会。前两次失败的经验也让英伟达意识到，一款成功的硬件产品，首先要符合市场主流的技术标准和规范。

接下来，英伟达在1997年推出的采用NV3芯片的riva128显卡，便采用了三角形绘图渲染，并支持Direct X和OpenGL等主流应用编程接口（API），凭借极高的性价比赢得了市场的青睐。它随后发布的TNT与TNT2，又以低廉的价格与更新的API，击败了当时显示领域巨头3dfx旗下的Voodoo系列显卡。

终于，在1999年，英伟达以GeForce 256为名，发布了世界上第一款GPU，将原本依赖于CPU的3D计算完全转移到显卡上进行，并在之后的数年间开始了与ATI的争霸之路，直至2006年，以ATI被AMD收购告终。

虽然在这之后，AMD仍在延续ATI的Radeon显卡产品线，但英伟达已经坐稳显卡领域第一的宝座。

“皮衣刀客”黄仁勋

2006年，英伟达发布了通用并行计算架构，也就是大名鼎鼎的CUDA。其更是让GPU除了计算3D模型外，具备了进行通用计算和编程的能力。

同年发布的8800 GTX，堪称英伟达最经典的显卡产品之一。其不仅引入了沿用至今的流处理器概念，而且采用的Tesla架构，更是成为了同年发售的首代AI加速卡C870的前缀，并在这之后沿用多年。

自此，英伟达就在通用计算和CUDA编程软件平台上越走越远，并在2013年的AI热潮中脱颖而出，以强于同价位CPU数倍的模型训练速度，与优秀的软件适配，让原本仅用于游戏和建模领域的显示芯片，在人工智能的赛道上一往无前。

纵观英伟达旗下的产品线，可以看到其业务发展的清晰思路，如专注于游戏和个人消费领域的GeForce系列、专注于3D建模与渲染的Quadro系列，以及此次被限制出口的主角—专注于AI加速领域的Tesla系列。

有趣的是，英伟达在2020年发布Tesla系列加速卡时，因为与著名电动车品牌特斯拉“撞名”，容易产生不必要的误会，而放弃这一前缀，之后的产品仅以采用的架构名称缩写+数字方式命名，如采用安培Ampere架构的A100，和采用赫柏Hopper架构的H100。

GeForce与Quadro系列的最大区别，在于其提供的驱动程序不同。GeForce系列的驱动更注重游戏性能的优化，Quadro系列则注重于对专业图形设计与渲染软件性能的优化。两者的硬件规格差距不大，更多的是软件层面的区别。Tesla系列则不同。

首先，GPU中对于计算机常用到的浮点计算，需要由不同类型的核心来完成，主要分为FP32单精度计算核心，与FP64双精度计算核心。同时，还有FP16的“半精度”，与最近正在推行的FP8格式，以进一步简化AI计算所需要的精度要求，来提升效率、降低能耗。

世界上第一款GPU GeForce256

即便如此，超高精度的FP64，仍是诸多科研工作中不能忽视的计算需求。毕竟在特定领域，如军工、大气和病毒结构分析等對计算结果精度要求高的行业，有时一两位有效数字的差别，结果就可能谬以千里。而针对这些专业情况下所用到的计算需求，英伟达为Tesla系列芯片配备了大量的FP64计算单元。

在A100的GA100核心中，FP64与FP32的比例为1比2，而这一数字在如今消费级旗舰3090ti搭载的GA102核心上，仅为1比64—游戏渲染和AI任务的区别一目了然。

这也使得3090ti的FP32算力达到了45TFLOPS，但FP64仅有不到0.7TFLOPS。而A100的FP32算力虽然仅有19.5TFLOPS，但FP64算力则达到了恐怖的10TFLOPS，是3090ti的14.3倍。英伟达最近发布的下一代产品H100的FP64算力，甚至能达到30TFLOPS之多。

这样精准的“刀法”，在英伟达旗下的产品里屡见不鲜，又因为黄仁勋每次发布会上都身着一身黑色皮夹克，他也被游戏玩家授予了“皮衣刀客”的名号。