APP下载

GPT、Sora为什么都来自OpenAI?

2024-03-18蒋馨尔陈志芳王亚赛

科学大观园 2024年6期
关键词:马斯克模型

蒋馨尔 陈志芳 王亚赛

视频生成模型 Sora 横空出世半个月后,仍在强势刷屏。

这款 AI 可以生成长达 60 秒的高质量视频。最令人恐惧的是,其学习的对象不局限于画面、像素,Sora 还“学会”了一些视频中呈现的物理规律(比如人在雨后走过,水面有倒影)。因此,研发它的 OpenAI 称其为“世界模拟器”。

但很多人的疑问是:几乎所有的科技巨头都在投入大模型研究,为什么这次出圈的模型,又是来自 OpenAI?

真正的伟大,无法被计划

2015 年 OpenAI 成立之初,对如何实现目标毫无头绪。

公司的创始人兼 CEO 萨姆·奥尔特曼回忆道,最初这个团队连办公室都没有,大家聚集在公寓里,他脑子一直在想:我们该怎么办?

这种状态持续了很久。OpenAI 成立一年多时,所有事情都进展缓慢。大家只是胡乱尝试一通,钻研了解决视频游戏的系统,在机器人技术上花费了大量精力,然后发几篇论文。

奥尔特曼想起当时公司的景象时说:“我们知道我们想做什么,我们知道为什么要这么做,但我们不知道怎么做。”

不过,这个团队一直被一种乐观力量所驱使,大家对于 AGI 的疯狂愿景,让事情在最终迎来了转机。所谓 AGI,即通用人工智能,也就是像人类一样完成复杂任务的 AI。

这个愿景人类期待了很久,奥尔特曼和他的团队也是。

奥尔特曼 8 岁时,父母送给他一台电脑。一次玩至深夜,他的脑海中突然闪现出一个想法:“有一天,这台计算机将学会思考。” 等奥尔特曼 2003 年进入斯坦福大学就读时,他仍想完成年少时的梦想,为此修了部分人工智能的课程,但他觉得这些“根本没什么用”。

退学后,奥尔特曼进入科技孵化器 Y Combinator 工作,并在 28 岁接任 CEO。那时,计算机已经能通过深度学习和神经网络完成一些任务,比如给照片贴标签、翻译文本等。这些进步第一次让他相信,AGI是触手可及的。

然而,把AGI交到大公司手中,让他感到担忧。奥尔特曼认为大公司会过于专注自己的产品,而无法抓住机会尽快开发出通用人工智能,即使他们真的开发出来,也可能很鲁莽地将其公之于众。

当时,奥尔特曼一直在考虑竞选加州州长,但很快他意识到,自己可以做一件更大的事:“领导一家可能改变人类的公司。”奥尔特曼开始寻找一些同行者,帮他共同创办一家新型人工智能公司。

彼时,埃隆·马斯克正因与谷歌联合创始人拉里·佩奇的一场AI 讨论,而倍感不快。马斯克事后在 CNBC 的一次节目中谈到此事,佩奇认为机器人和人类应当拥有平等的权利,并指责自己是物种歧视者。这种对于AI安全的“漠然”态度,让马斯克感到担忧。

奥尔特曼和马斯克一拍即合。几个月内,奥尔特曼就从马斯克和里德·霍夫曼等人那里筹集了资金。奥尔特曼开始招兵买马,他将招聘范围定得极窄:必须是AGI的信徒。凭借他本人和马斯克的号召力,以及探索AGI这套诱人的话术,奥尔特曼挖来了 Stripe CTO Greg Brockman和谷歌大脑核心科学家 Ilya Sutskever 等人。

转折点出现在公司成立一年多后,OpenAI先后等来了一个人和一项技术。

一个人是传奇AI研究员Alec Radford。他 2016年加入 OpenAI 时,最大的兴趣是让神经网络与人类进行清晰的对话。

他先是通过20亿条Reddit评论来训练语言模型。和OpenAI的许多早期实验一样,这个实验失败了,但这个23岁的年轻人获得了继续前进、再次失败的许可。Alec Radford继续使用1亿条亚马逊评论训练模型,去预测、生成评论中的下一个字符。这一模型能够判断评论是正面还是负面的,如果让模型创建一条正面或负面的评论,它也能做到。“这完全是意外之喜”,辨别评论的情感是一个复杂函数,但不知为何,Alec Radford的模型找到了一点感觉。

而OpenAI等来的技术则诞生自它的竞争对手谷歌。2017 年初,一篇由 8 位谷歌研究人员合著的研究论文预印本出现了,但并未引起人们的注意。这篇论文的正式标题是“Attention Is All You Need”,它后来被称为“Transformer 论文”。Transformer使神经网络能够更高效地理解和生成语言,通过并行分析语料,找出哪些元素值得关注。这极大地优化了生成连贯文本以响应提示的过程。后来人们意识到,同样的技术也可以生成图像甚至视频。

虽然该论文后來被称为当前 AI狂潮的催化剂,但在当时,Ilya Sutskever只是少数几个了解这一突破有多么强大的人之一。Brockman 回忆道,Ilya 看到 Transformer 出现时,惊喜地喊道:“这就是我们一直在等待的。”

之后,Alec Radford 开始试验 Transformer 架构。他表示,当时在两周内取得的进展超过了过去两年的进展。

Radford 和他的合作者给他们创建的模型起的名字是“generatively pretrained transformer”——这就是今天我们耳熟能详的 GPT 一词缩写的全称。最终,这个模型被通称为“生成式 AI”。该模型包含 1.17 亿个参数或变量,在理解语言和生成答案方面的表现优于之前的所有模型。

仅从事后的叙述来看,OpenAI 的成功仿佛是一步一个脚印的,它把握住了所有关键时点,无一遗漏。但是奥尔特曼仍然强调:“我们没有总体规划。”OpenAI所做的一切就像“穿过迷宫到达终点”,而终点即是安全的 AGI。

即便是对于GPT的诞生,奥尔特曼也感到吊诡。他10岁时,对于AI的想象遵循这样的路径:有机器人后,先体力再脑力;在初级脑力工作后,再会做复杂脑力工作,比如证明一个数学定理,最后才是拥有创造、写作等深层次能力的 AI。但“事实正朝着完全相反的方向发展”。

OpenAI的科学家肯尼斯·斯坦利和乔尔·雷曼在近期出版的书籍《为什么伟大不能被计划》对此进行了高度总结:真正的伟大无法在计划中诞生。

作者乔尔·雷曼在一次专访中表示OpenAI做了很多了不起的事,但ChatGPT绝对不是OpenAI 成立之初的目标。OpenAI的许多早期探索还与电子游戏、多代理模拟(multi-agent simulations)和機器人有关,许多通往 ChatGPT 的踏脚石都没有把 ChatGPT 当成最终目标。

某种意义上,ChatGPT 的紧急推出,也是一种营销策略。

营销踩点,OpenAI 抢走谷歌风头

OpenAI 成立之初,颇有一层与谷歌对抗的意味。奥尔特曼和马斯克都认为:与其让大公司控制少量的 AI 系统,不如让大量独立的 AI 系统同时存在予以制衡,人们可以根据开放的源代码建立各自的 AI 系统。

彼时的谷歌确实是 AI 领域的老大哥,ChatGPT 最初依赖的 Transformer 架构即来源于谷歌。但现在的 OpenAI 至少在 AI 领域,已有足够的底气和谷歌掰手腕。

仅从事后的叙述来看,OpenAI 的成功仿佛是一步一个脚印的,它把握住了所有关键时点,无一遗漏。但是奥尔特曼仍然强调:“我们没有总体规划。”OpenAI 所做的一切就像“穿过迷宫到达终点”,而终点即是安全的 AGI。

最近一次商战在 2 月 16 日。

当时,谷歌推出了据称性能上超越 GPT-4 Turbo 的 Gemini 1.5 PRO ,而仅仅在两小时后,OpenAI 就推出了 Sora。Sora 推出后,奥尔特曼在社交媒体X上在线接单,按照用户给出的提示词一连发布了 8 条视频。此外,OpenAI 官方号还进驻 TikTok 发布 Sora 视频,仅一周时间就收获了超 14 万粉丝。这些方式进一步“炒火”了 Sora。

很难说,这只是一种巧合。我们发现在谷歌推出某项新产品、新模型或新计划后,奥尔特曼常常会从“武器库”里翻出一把利器。人们的目光便立刻从谷歌身上移开,并且不再回来。360 创始人周鸿祎对此表态:“OpenAI CEO 是个营销大师,知道怎样掌握节奏,他们手里的武器并没有全拿出来。”

这样的例子并不鲜见。

谷歌在 2023 年 3 月 22 日推出聊天机器人 Bard,当被问及与 ChatGPT 的区别时,Bard 就回复:“我不仅基于文本和代码,并且有互联网上的真实世界的信息作为支撑,因此我能够做到 ChatGPT 做不到的事。”仅仅两天后,OpenAI 就宣布向部分用户开放插件和联网功能。

到了 2023 年 5 月,谷歌和 OpenAI 的擂台仍不休止。前脚是谷歌在开发者大会上宣布一系列 AI 成果——推出据称部分能力超越 GPT4 的 PaLM 2 模型、演示 Bard 联网,后脚 OpenAI 就宣布向会员开放插件和联网功能。

当然 OpenAI 的营销瞄准对象并不仅谷歌一家。

OpenAI在2022年4月份小范围内推出了文生图模型 DALL·E2,不过很快风头就被开源的 Stable Diffusion 和另一竞争对手 Midjourney 盖过。数以百万计的用户都在使用文生图产品,一时间呈现出病毒式传播现象。

OpenAI 从中获得的启示是,向大众公开生成式 AI 产品,不仅能吸引大量用户,收获有价值的用户数据,还可能引来更多资金。

那什么样的营销事件能让话题关注度迅速回来?

OpenAI 的答案是聊天机器人。

彼时,OpenAI 在 GPT 4 上已经花了一整年,模型也基本准备就绪。但是来自市场层面的压力迫使 OpenAI 调转车头,迅速发布一个聊天机器人。从计划推出 GPT 4 转到做一款聊天机器人,仅仅13天后,ChatGPT 就诞生了。

这种策略后来被称为“迭代部署”,构建所谓的“最小可行产品”:先拼凑出一个很酷的演示,吸引一小群喜欢它的用户,并根据用户反馈进行改进,再把产品推向全世界。最终,如果足够幸运并且做得正确的话,这将吸引大量用户,点燃媒体炒作周期的导火索,巨额资金将随之而来。

暴力美学,Scaling Law信仰

这次出圈爆火的Sora可以生成长达 60 秒的高质量视频。令人恐惧的是,其学习的对象不再限于画面和像素,它还“学会”了视频中展示的物理规律。

Sora使用一种新的Diffusion Transformer模型,它融合了扩散模型与自回归模型的双重特性。不过,在 Sora 的技术文档里,OpenAI并没有展开模型的技术细节,只有透露了诸如“patch(视觉补丁)技术”“重新字幕技术”等拼图碎片。

但是,一个核心理念——Scale又再次被提及。文档写道:Sora基于的Diffusion Transformer 模型也是符合规模效应的(scale effectively),随着训练计算量增加,视频质量显著提升。

这一理念以 Scaling Law(规模法则)的名称为业内熟知。根据 Scaling Law,模型性能会在大算力、大参数、大数据的基础上像摩尔定律一样持续提升,这不仅适用于语言模型,也适用于多模态模型。

OpenAI 是 Scaling Law 的忠實信徒,其将 Scale 列为企业核心价值观之一:“我们相信规模——在我们的模型、系统、自身、过程以及抱负中——具有魔力。如有疑问,扩大规模。”

来自 OpenAI 的科学家乔尔·雷曼在一次专访中对此强调:有一条主线贯穿 OpenAI 研究的始终,即规模——大型神经网络、大数据、大量算力的重要性,很多人迟迟没有意识到这一点。这一表述揭示了 OpenAI 持续领跑的另一原因。

无论是一年多前风靡全球的 ChatGPT,还是目前火出圈的 Sora,再到 OpenAI 早期爆发业内地震的 GPT-3(有 1750 亿参数,一位图灵奖得主称“全宇宙无非是 4.32 万亿个参数而已”),可以说都是 Scaling Law 的产物——当模型足够“大”,就会产生智能涌现的能力。

那么,模型一定是越大越好吗?如果数据量足够大、算力足够充沛,是否永远触不到上限?目前的观点仍是莫衷一是的。

支持者认为,超大规模及足够多样性的数据、超大规模的模型、充分的训练过程,是让 AI 智能“涌现”的必由之路。路途之中,可能会出现出人意料的惊喜,也可能是惊吓。

反对者认为,大模型虽好,但其性能有一个上限,虽然这个上限尚不明确。

最易被人理解的原因是“数据是有限的”,一篇 2022 年 MIT 的论文给出了这样的估算结论:高质量的语言数据将会在 2026 年左右用光,低质量语言数据会在 2030 到 2050 年用光,低质量图像数据会在 2030 到 2060 年用光。

还有一种观点认为大模型存在方向上的路线错误。这一派观点主要认为:大模型本质上只具有通过观察进行因果归纳的能力,不具备因果演绎的能力。但是,AGI 应该是一个“能够理解世界的模型”,而不仅仅是描述世界。

◎ 来源|澎湃新闻(有删减)

猜你喜欢

马斯克模型
适用于BDS-3 PPP的随机模型
秦刚与马斯克驾车交流
马斯克打脸简史
p150Glued在帕金森病模型中的表达及分布
重要模型『一线三等角』
梅耶·马斯克的“育儿经”
重尾非线性自回归模型自加权M-估计的渐近分布
埃隆·马斯克的新型脑机接口为何人开发?
3D打印中的模型分割与打包
马斯克预计“猎鹰”9可在12月复飞