图形处理器:人工智能时代的算力核心
2024-08-06南之瑉
| 图形处理器:从游戏图形渲染到人工智能计算 |
如今,图形处理器(GPU)在人工智能通用计算领域中扮演着不可或缺的角色,是支持聊天生成式预训练转换器(ChatGPT)等深度学习模型进行高效计算的关键技术之一,被誉为“人工智能时代的算力核心”。
GPU起初被称为“显示芯片”或“图形芯片”,是显卡上执行图像和视频输出任务的核心元件,其历史可追溯到20世纪70年代。那时,图形显示技术尚处于萌芽阶段,并首次在家庭游戏机上得到商业应用。到了1999年,英伟达推出了革命性的精视256产品,是首款正式被称为GPU的设备,专注于游戏图形渲染,以提供更为逼真的视觉效果和更加流畅的游戏体验。
21世纪初,英伟达推出了“酷达”并行计算架构,极大地扩展了GPU的功能,使其能够高效解决之前只能用中央处理器(CPU)处理的大规模并行计算任务。此项创新为人工智能领域带来了革命性的变化,因为深度学习模型的设计和训练需要进行大量矩阵运算,而这正是GPU擅长的。
GPU的广泛应用范围几乎覆盖了所有高端技术领域。在科学研究中,它被用于物理模拟、化学分子建模、生物信息学数据分析和气候模型模拟等。在媒体产业,它为视频编辑、特效制作和色彩校正等后期处理作业提供动力。在医疗领域,它处理复杂的成像数据,同时也被用于药物发现和基因研究。在汽车工业,特别是在自动驾驶技术中,GPU负责处理传感器数据、执行机器视觉任务以及支持决策制定。而在金融领域,GPU被用于加速风险评估、市场模拟及高频交易策略的回测工作。
在现代数字娱乐领域,GPU为虚拟现实与增强现实打造沉浸式的体验。桌面虚拟化技术也从GPU强大的图形支持能力中受益良多。同时,随着向量处理、光线追踪和量子计算等前沿技术的持续发展,以及它们与人工智能及机器学习应用的不断融合,GPU的角色预计将越发重要:它不仅是推动当前技术发展的引擎,也会是开启未来革新之门的钥匙。
| 巨头英伟达 |
作为全球GPU巨头,英伟达从游戏市场起步,近年搭上元宇宙、加密货币以及人工智能的东风,牢牢掌握了深度学习芯片市场的主导权。时至今日,GPU已成为全球数据中心支持人工智能应用的必备硬件资源,被誉为“英伟达大金砖”的A100与H100芯片系列在市场上大受追捧。2020年7月,英伟达首次超越英特尔,成为美国市值最高的半导体厂商。2022年11月,开放人工智能公司推出ChatGPT聊天机器人,引爆了全球对生成式人工智能大模型的热情,而英伟达的GPU产品在大模型训练方面几乎没有可以与之匹敌的竞品。到了2024年2月,英伟达市值攀升至1.83万亿美元,仅次于微软和苹果,位列美股市值第三。仅仅4个月后的6月18日,英伟达市值达到3.34万亿美元,超越微软和苹果,成为全球市值最高的公司。
英伟达设备的毛利率接近70%,这个比率对竞争者的吸引力,就像血腥的鱼饵吸引鲨鱼。近年来,丰厚的利润吸引着越来越多的厂商纷纷涌入人工智能芯片领域。英特尔、超威半导体等半导体界的重量级玩家陆续公布了它们的人工智能芯片研发计划,而开放人工智能、微软等下游厂商也在自主研发芯片,试图挑战英伟达的市场统治地位。2024年春,英伟达布莱克维尔GPU架构和超级芯片GB200以及英特尔高迪3相继亮相,当前人工智能芯片市场呈现出英伟达GB200、英特尔高迪3和超威半导体MI300系列三巨头竞争的格局,但英伟达依然一家独大,竞争对手无法望其项背。英伟达首席执行官黄仁勋称,英伟达的GPU“如此出色,即使竞争对手的芯片免费,也还不够便宜”。一位华尔街分析师感叹道:“在人工智能的战场上,英伟达是唯一的军火商。”
| 起自游戏显卡 |
1993年,毕业于俄勒冈州立大学电气工程专业的黄仁勋联手资深微芯片设计师克里斯·马拉科夫斯基和柯蒂斯·普里姆共同创立了英伟达。当时,马拉科夫斯基和普里姆希望设计出一款能让竞争对手“嫉妒得眼红”的芯片。黄仁勋建议将公司命名为英伟达——这个名字源自拉丁语,意指“嫉妒”。莎士比亚有句名言:“嫉妒是一个绿眼的妖魔。”而英伟达的标志就被设计为一只绿色的眼睛。
GPU是英伟达的主要产品。起初,英伟达将它们卖给电子游戏玩家。到了2006年,黄仁勋开始向超级计算机论坛推销它们。2013年,他把英伟达的未来押在了人工智能上。长期以来,人工智能一直让投资者失望,时任英伟达首席深度学习研究员布莱恩·卡坦扎罗回忆说:“我曾担心他会陷入人工智能的困境,但十余年过去了,事实证明,他的选择是正确的。”
黄仁勋是一位实际派,不喜欢空谈理论或冒险投机,从未读过一本科幻小说。他从最基本的原理出发,凭借对芯片现有能力的准确判断,坚信它们将在未来大放异彩。“我尽我所能不让公司倒闭,竭尽全力不让自己失败。”他说。
在加州圣克拉拉市的英伟达总部中心,有两座巨大的建筑,每座都呈修剪过角的三角形。这一设计元素贯穿建筑内外,从沙发和地毯到小便池的防溅板,无处不在。员工们将这两座建筑称作“宇宙飞船”,其宽敞明亮的空间给人空旷而神秘的感觉。
在股价飙升前,英伟达就已被列为美国最佳工作场所之一。每座建筑顶部都设有酒吧,定期举办派对,员工们被鼓励将办公室视为多功能空间,在此用餐、编程和社交。尽管如此,大楼内部依然一尘不染——英伟达利用视频监控系统和人工智能全天候监控员工动态。如果有员工在会议桌上用餐,人工智能会在一小时内安排清洁工前来打扫。黄仁勋曾表示,他期待一个机器人像家用电器一样普及的世界,“未来所有带动力的设备都将实现自主移动。”
在英伟达,可能唯一看起来不那么开心的人便是质量控制技术员了。在没有窗户的实验室里,面色苍白的年轻男子们戴着耳塞、穿着短袖,在用于冷却GPU的高速风扇发出的尖锐噪音中工作。而正是这些电路板使得人工智能革命成为可能。
在传统的计算机架构中,CPU承担了大部分的工作。程序员编写程序,将计算任务交给CPU去处理,CPU作为计算机的核心,负责解释和执行程序指令以及管理系统资源。传统CPU的核心数量较少,但它们通常拥有更强的单线程处理能力。多年来,CPU的主要制造商是英特尔,而英特尔曾多次试图将英伟达逼出市场。“我离英特尔远远的,”黄仁勋将两家公司的关系比作猫鼠游戏,“每当英特尔靠近,我就抱起我的芯片狂奔。”
英伟达决定另辟蹊径。1999年,公司上市后不久,便推出了名为“精视”的显卡,公司市场部负责人丹·维沃利称之为“图形处理器”。“我们创造了这一类别,所以我们能在此领域遥遥领先。”维沃利说。与CPU不同,GPU含有成百上千个小核心,专门用来同时处理多个并行操作,适合用于执行简单但高度重复的计算任务。简而言之,CPU就像一位多才多艺的厨师,能够巧妙地处理每道独特而精致的菜肴;而GPU则更像是一队整齐划一的快餐店员工,专门负责快速而批量地制作相同的汉堡,高效地满足大量客户的同一需求。在需要大规模并行处理的领域,GPU能带来巨大的性能优势。它最初主要被用于图形密集型的电子游戏和图形设计应用,比如三维建模、动画渲染和图形效果的实现。
精视系列大获成功。它的流行正是得益于《雷神之锤》系列游戏,它们利用并行计算来渲染玩家可以用榴弹发射器射击的怪物。游戏中还推出了多人对战的“死亡竞赛”模式。为获得最佳体验,游戏玩家在每次精视卡更新换代时都会抢先购入。2000年,斯坦福大学计算机图形学的研究生伊恩·巴克将32张精视卡串联起来,搭配八台投影仪玩《雷神之锤》。“这是第一个8K分辨率的游戏设备,它将整面墙变成了屏幕。简直太美了。”巴克说。
| 为超级计算打造的酷达平台 |
巴克想知道精视卡是否适用于游戏之外的其他领域。在美国国防高级研究计划局的资助下,他开始探索GPU执行通用并行计算任务的可能性。之后,巴克加入了英伟达。作为计算机科学的狂热爱好者,秃顶的巴克带着智慧的神采。过去20年,他一直在测试英伟达芯片的极限。“人类习惯于线性思考。”他说,“例如,如果需要告诉某人如何从这里到星巴克,我们会给他一步步的指令,而不会教他如何从任意地点到达任意一家星巴克。对我们来说,并行思考就是很难。”
自2004年以来,巴克一直负责英伟达的并行计算平台酷达的开发。酷达是一种创新的编程模型,它允许开发者直接利用英伟达的GPU进行高性能计算,极大地扩展了GPU的应用范围。
在巴克开发软件的同时,英伟达的硬件团队开始在微芯片上为超级计算操作分配空间。这些芯片密布着数十亿个电子晶体管,通过错综复杂的电路实现高速运算。英伟达的首席芯片工程师阿尔贾·普拉布将微芯片设计比作城市规划,芯片的不同区域专门负责不同的任务。2006年底酷达发布时,华尔街的反应却并不热烈。黄仁勋将超级计算的概念带给了大众,但大众并未表现出他们需要这种技术。“英伟达为这种新的芯片架构投入了巨资,大概数十亿美元,”科技播客节目《获得》的主持人本·吉尔伯特评价说,“瞄准的却是科学计算领域一个不起眼的角落。”黄仁勋坚信,酷达的出现将扩展超级计算领域的边界。这种观点最初并未获得广泛认同,到2008年底,英伟达的股价暴跌70%。
酷达下载量在2009年达到顶峰,随后连续三年持续下滑。董事会成员们忧心忡忡,担心英伟达低迷的股价可能会吸引“企业掠夺者”的觊觎。“我们尽力保护公司,防止有激进的股东试图拆分公司。”资深董事会成员吉姆·盖瑟如是说。2013年刚加入董事会的市场营销高管道恩·哈德森则评价道,“那时,英伟达的发展明显处于停滞状态。”
在推广酷达时,英伟达努力开拓包括股票交易员、石油勘探员和分子生物学家在内的多元化客户群体。他们甚至与通用磨坊食品公司合作,借助模拟技术来研究冷冻披萨在烹饪过程中的热物理学过程。与此同时,英伟达在人工智能领域的投入并不多,在21世纪的前十年,这个领域被大多数人所忽视,图像和语音识别这些核心技术的发展几近停滞。在这个不被看好的学科中,有一个更被边缘化的领域——神经网络,它是一种受人类大脑启发的计算模型。许多计算机科学家认为神经网络已被证明不可信。“我的导师劝我不要投身神经网络领域,因为它们当时被视为过时且无用。”卡坦扎罗深深地记得这段经历。
他将继续从事神经网络研究的人称为“荒野中的先知”,其中一位便是多伦多大学教授杰弗里·辛顿。2009年,辛顿的研究小组使用酷达平台训练了一个能识别人类语音的神经网络。他对出色的研究成果感到惊讶,并在同年晚些时候的一次学术会议上作了展示。然后,他联系了英伟达。“我发了一封电子邮件说,‘看!我刚刚和1000名机器学习研究人员说,他们都应该去买英伟达的显卡。你们能给我赠送一张吗?’”辛顿说,“他们拒绝了。”
尽管受到冷遇,辛顿仍然鼓励他的学生们使用酷达,包括他的一位乌克兰出生的门徒——天才程序员亚历克斯·克里泽夫斯基。2012年,克里泽夫斯基和他的研究伙伴伊利亚·苏茨克弗在经费拮据的情况下,从亚马逊购买了两张精视显卡。然后,克里泽夫斯基在酷达平台上训练一个图像识别神经网络,并在一周内对其输入了数百万张图片。“他在自己的卧室里让那两块GPU板卡嗡嗡作响。”辛顿说,“而支付相当可观的电费的,是他的父母。”
苏茨克弗和克里泽夫斯基对这些显卡带来的性能感到震惊。就在那年早些时候,谷歌训练了一个神经网络来识别猫咪视频,用了大约1.6万个CPU。而苏茨克弗和克里泽夫斯基仅用两块英伟达的电路板就取得了世界级的成果。
| 神经网络 |
克里泽夫斯基在他父母家中训练的卷积神经网络——“亚历克斯网络”(AlexNet),如今可以与莱特兄弟的飞行器和爱迪生的灯泡齐名。2012年,克里泽夫斯基携带亚历克斯网络参加年度“图像网”数据集图像分类竞赛。“图像网”数据集是当前世界上最大的图像识别数据集之一,自2010年起每年都会举办一次与数据集同名的图像分类竞赛,吸引全球图像识别领域的顶尖选手同台竞技。2012年,神经网络还不够流行,克里泽夫斯基是唯一使用这种技术的参赛者。亚历克斯网络在比赛中的超凡表现最初让组织者质疑克里泽夫斯基是否作弊了。“那是一个大爆炸时刻,是范式的转移。”辛顿说。
十年来,描述亚历克斯网络架构的那篇九页的论文被引用超十万次,成为计算机科学史上最重要的论文之一。亚历克斯网络能正确识别摩托车、豹子和集装箱船等的图像。克里泽夫斯基不仅开创了许多重要的编程技术,更重要的是,他发现用专用GPU进行神经网络训练,其速度能比用通用CPU快上数百倍。“如果没有酷达,做机器学习研究可就太困难了。”辛顿不无感慨地说。
仅仅几年时间,图像分类竞赛的每一位参赛者都转向使用神经网络。到了2015年左右,借助GPU加速,神经网络在图像识别的准确率上已达到了令人难以置信的96%,超越了人类。黄仁勋深知神经网络将彻底改变社会。英伟达副总裁格雷格·埃斯特斯回忆道:“周五晚上,黄仁勋发出一封电子邮件,宣布我们不再是一家图形处理公司。到了周一早上,我们就已变身成为一家人工智能公司。真的,就是这么快。”
2017年,谷歌研究员推出“转换器”神经网络训练架构,翌年它便被开放人工智能公司用来构建首个生成式预训练转换器(GPT)。GPT模型在英伟达的超级计算机上接受训练,利用GPU大幅提升训练速度、处理庞大的数据集、优化模型的性能和准确度。在推理阶段,即ChatGPT响应用户提问时,GPU同样发挥着重要作用,能够高速处理数据,提供流畅的交互体验。
2022年底,经过多次迭代的ChatGPT对外发布。而在人工智能技术迅猛发展的大背景下,英伟达的人工智能芯片开始出现供不应求的局面。公司2022年3月推出人工智能训练模块DGX H100——一个重达370磅的金属盒子,售价高达50万美元,预订量很快就排到了数月后。DGX H100的运行速度是先前训练ChatGPT所用硬件的五倍,能在不到一分钟的时间内完成亚历克斯网络的训练。
前脸书首席技术官亚当·德安格洛曾说:“人工智能热潮之所以被人低估,一个重要原因便是GPU和TPU(张量处理器,谷歌专为深度学习定制的硬件加速器)的短缺。这种短缺正在限制产品的发布和模型的训练,而这些限制并不明显。相反,我们所看到的,仅仅是英伟达市值的飙升。一旦供应跟上需求,人工智能将会加速发展。”
对于高端的人工智能模型,英伟达会销售装配有数十台DGX H100的全套系统。如果这还不够,公司会将这些计算器像图书馆的书架一样排列,用价值数千万美元的超级计算设备填满整个数据中心。人工智能的能力似乎无穷无尽。“如果你愿意相信人工神经元能像生物神经元一样运作,这就意味着你其实在训练一个大脑。”苏茨克弗这样说,“那么理论上,它们应当能做到我们能做到的一切。”
ChatGPT的后继者GPT-4可以将餐巾纸上的草图变成一个网站。它在美国法学院入学考试中的得分高于88%的考生。在接下来的几年里,英伟达的硬件将高速训练更多类似的人工智能模型,它们可以管理投资组合、驾驶无人机、窃取并复制肖像、模仿逝者的声音、充当自主机器人的大脑,甚至创造基因定制药物、创作音乐与诗歌。如果我们不够小心,或许很快就会有一天,其中一个将比我们更聪明。
| 工业元宇宙 |
黄仁勋说:“我从不满足。不管是什么,我只看到不完美之处。”当被问到目前是否在进行任何类似20年前那样的冒险时,他立刻用一个词回答:“全息宇宙。”
全息宇宙代表了英伟达为精细模拟现实世界所作的尝试,黄仁勋称之为“工业元宇宙”,旨在通过高度精确的仿真技术,创建一个虚拟数字孪生体,以在虚拟世界中精细地再现真实世界的物理规律和业务流程。“工业元宇宙”借助GPU加速,实时分析并处理海量数据,使得企业和研发团队能在一个绝对可控且安全的仿真环境中测试、优化和验证其设计和系统,可用于制造业、建筑业、自动驾驶车辆测试、机器人技术等诸多领域。
自2018年以来,英伟达的显卡引入了“光线追踪”技术,该技术能够精细模拟光线在各种表面的反射,以实现极为逼真的视觉效果。在一次产品演示中,英伟达的演示专家向观众展示了一家日本拉面店的三维渲染场景。当视角切换时,可以观察到金属柜台上的光线反射,以及一锅沸腾汤面上升起的蒸汽。这个场景如此真实,以至于几乎无法辨认出这并非一个现实中的场所。
接着,专家展示了名为“黛安”的数字化头像,这个头像能说五种语言,并且外观异常逼真。这是由一个强大的生成式人工智能在分析数百万人的视频后创造的角色。最令人印象深刻的是那些不完美之处——黛安鼻尖的黑头和上唇的细小汗毛。唯一能表明黛安不是真人的线索,是她眼白中不自然的闪光。“我们正在针对这一问题进行改进。”专家说。
黄仁勋的愿景是将英伟达的计算机图形研究与其生成式人工智能研究结合起来。在他看来,图像生成式人工智能将很快变得如此先进,以至于它们不仅能够渲染出可居住的三维世界,还能在这些世界中注入栩栩如生的虚拟人。与此同时,语言处理人工智能可以实时解释口令,这些技术一旦与光线追踪技术融为一体,便能通过语言来创造宇宙。
至于这些技术背后隐藏的风险,黄仁勋表示他并不忧心。2023年5月,数百位行业领袖支持一项将失控人工智能与核战争的风险相提并论的声明,黄仁勋没有签署它。有经济学家观察到,工业革命导致全球马匹数量相对下降,希望知道人工智能是否可能对人类产生同样的影响。“马匹的职业选择本就有限,比如,它们不会打字。”黄仁勋说,“我了解人工智能是怎么工作的,它和微波炉的工作原理并无二致,所以没什么好担心的。”
编辑:周丹丹