大模型的小时代

2023-10-01马冬

商界 2023年8期

关键词：百度模型

马冬

“我是谁？”“从哪里来？”“要到哪里去？”哲学史上，柏拉图提出的灵魂三问，是人们深刻、简明把握事物发展方向的思考路径。

当下，AI大模型热度比酷暑的热浪还高。在AIGC、ChatGPT的带动下，大模型概念开始被广泛讨论。2023年还未过半，就已经有包括百度、阿里、腾讯、商汤、京东、科大讯飞等多家互联网、AI公司陆续宣布对大模型展开探索。

但在众多大模型里，开一场发布会，讲清楚“我是谁”的居多，关于AI大模型“从哪里来，到哪里去”，或者说“做什么，为谁做”的进一步思考，却很少见得到。

如果把大模型的全球比拼，看成一场赛马，这场比赛早就从小型的速度赛，变成了大型的耐力赛。现在的重要问题已经变成，要培育自己的粉丝，种植一片自己的草原。

在AIGC和ChatGPT等热词带动下，大模型概念逐渐被关注。不过，大模型到底是什么，又能做什么，对很多人来说，这个问题的答案似乎很模糊。

一位中国传媒大学计算机技术硕士，在知乎上这样描述了大模型：如果说模型是一个盒子，那么普通模型就是一个小盒子，因为容量有限，所以其处理和存储的数据、信息也有限。因此，普通模型可以完成分类、预测、生成等简单任务。相较之下，大模型就是一个超级大仓库，往往需要数十亿，甚至上百亿个参数组成，可以完成更高级的思考和决策。比如，自然语言理解、语音识别、图像识别等。

而这个大模型，到底有多“大”？

举例来说，GPT-4使用了1 750亿规模的参数，微软推出的Turing-NLG有1 000亿参数，谷歌则推出号称有1.6万亿模型参数的Switch transformer。而作为对照，我们日常使用的智能语音通常只有几个亿的参数。

从数据上看，大模型的底层建设，就不是一般企业可以胜任的。

率先推出文心一言的百度有100亿参数、华为盘古大模型使用1 000亿参数。不过，过去的几个月，陆续加速布局大模型的国内公司却如雨后春笋，其中包括阿里的通义大模型、腾讯的混元大模型、科大讯飞的讯飞星火、京东的ChatJD等。

他们都通过自己平台沉淀的数据，来完成自家大模型的第一次迭代。

像是以搜索引擎为所长的百度，推出了类似GPT-3这样具备搜索属性的文心一言。

华为的盘古大模型则更加专注于自己比较有优势的TO B业务。在发布会上，华为也表示，在过去的2022年，华为盘古大模型主要是AI for Industry（AI赋能产业），为煤矿、水泥、电力、金融、农业等行业创造了更多产业价值，其中CV大模型早就有了许多用武之地。

比如在与能源公司合作的盘古矿山大模型案例中，矿井现场是一个40米长的采掘机，宽度仅2米左右，传统相机很难一下子捕捉到全部画面，只能用图中的九宫格视频画面。而通过“5G+AI”全景视频拼接综采画面卷，传输到地面，地面工作人员将来可以实现地面控制机器进行采矿，实现矿下无人、少人的安全作业。

但从目前国内推出的几款大模型产品来看，我们似乎仍在等待和寻找自己的“iPhone时刻”。即，无论是百度的文心一言、华为的盘古大模型，还是科大讯飞的讯飞星火，似乎仍停留在从自己原本的优势入手的“集大成者”，相对缺少更多的创新，也缺少对整个行业的颠覆性产品。这就导致，大模型的应用，始终停留在“术”的层面而不能带来整个技术生态的变革。

行业媒体在报告《ChatGPT浪潮下，看中國大语言模型产业发展》中讨论过中外大模型研发的差距，其中，对百度等国内大厂而言，在数据、算力、工程化能力等关键要素上存在短板，短期内难以对国外领先大模型实现赶超，为跟随者角色，长期更需要国内AI全产业链整体进化。

要补充短板，一个重要的因素，就是人才。因此，大厂也都纷纷行动起来。

BOSS直聘上，百度、腾讯、阿里、蚂蚁集团等纷纷发布了相关岗位的招聘信息。其中，百度以25～40k/月招聘AI大模型算法工程师、20～40k/月招聘模型构架工程师；蚂蚁集团以45～75k/月招聘深度学习大模型GPT工程师；阿里以40～70k/月招聘大模型训练及算法工程师；腾讯则以30～60k/月招聘大模型预训练方向的工程师……

值得注意的是，这些岗位几乎都在一日内被回复了超过10次，负责招聘的联络人也几乎都是“正在活跃”的状态。由此可见，求职者对于大模型相关岗位充满信心，且招聘者也正在如火如荼地争夺人才。

而从脉脉发布的《趋势报告》中可以看出，自Open AI推出的2021年以来，对于AIGC相关的人才争夺就已经开始了。2021年1-2月，AIGC相关岗位招聘同比上升281.88%。

诚然，人才的争夺只是第一步。对不少大厂来说，积极投入研发的最终意义是赚钱。而大模型目前的商业化分成了C端与B端两个路径方向——对于C端来说，以GPT为例，通过开源方式将用户和数据引进来，再逐渐转化成订阅制；而就B端而言，比如Open AI与微软Azure的合作，间接实现“模型即服务”，小B开发者可以调用其大模型API。

商业模式上，ChatGPT已经明确指向API、订阅制和战略合作（嵌入微软Bing、Office等软件）3种营收方式，且已在用户数据积累、产品布局和生态建设层面充分领先；Google虽有意追赶，但由于聊天机器人这样的产品形态对于其主营的搜索引擎业务的助益有限，因此在与搜索引擎结合方面较为审慎，更希望借助大模型能力开展“模型即服务”范式，开拓其当前市占率较低的云服务业务的市场空间。

国内大厂也几乎是在这两条路上摸索。比如百度文心一言更倾向于C端市场的探索，而“文心千帆”产品则剑指B端市场，意图进一步带动云服务营收。

不过无论是靠哪一条“腿”走路，想要实现商业化，大模型产品仍需要解决几个紧迫的问题。

比如，信息准确性和版权。在目前大模型较多应用的文字和图形创作上，如何保证原创性也成了一个关键问题，这可能会牵扯原创的道德问题，以及更实际的，涉及版权的问题。

最重要的是，大模型是一个实打实的，没有终点的“吞金兽”。由于所需要的数据规模巨大，因此对算法、算力、数据存储空间都有极大的要求，需要大量的资金。

当大语言模型出现以后，云端就开始被开发出来，云端的竞争将成为下一场互联网竞争的窗户。

据网络数据显示，去年中国云计算市场同比增长10%，前四大云计算厂商阿里云、华为云、腾讯云和百度智能云，合计增长9%，占云服务客户支出总额的79%。

对于应用而言，“对话即平台”成为现实，对话可以解决多模态的问题。例如，把ChatGPT的API接上以后，大模型就可以画图、做平面设计、写文案等等。

“算力是竞争的基础”，一个典型的例子是，作为算力基础GPU的供应商英伟达，市值一度突破万亿美元。据估算，GPT-3的单次训练成本就高达140万美元，对于一些更大的LLM（大型语言模型），训练成本介于200万美元至1 200万美元之间。在其中，大部分费用是电费，计算机专家吴军曾提到，“大概是3 000辆特斯拉的电动汽车，每辆跑到20万英里（约32.19万公里），把它跑‘死’，这么大的耗电量，才够ChatGPT训练一次”。

在如此高昂成本之下，各互联网大厂也争相入场。不可否认的是，未来的互联网竞争，几乎都要建立在大模型基础上。

很多人将现在比喻为大模型的战国时代。

首先，各大厂商都在运用自己的数据资产跑马圈地。

比如腾讯提出不做非聊天式应用，而是面向企业的行业大模型。实际上，在腾讯云公布行业大模型解决方案之前，各垂直领域的行业大模型早已被多家企业先后推出。腾讯不做通用的、聊天式的大模型，也是扬长避短。不过，从腾讯的企业特点上去推测，或许很多人会觉得其做通用聊天更具优势。反而在行业大模型上，更多创业企业远比腾讯更处于细分行业一线，如推出自动驾驶、医疗、地产、安全、智能物联等行业大模型的诸多背后企业。

而美图集中于视觉创作、商业摄影、专业视频编辑、商业设计等领域，试图将美图需求从C端生活场景向B端生产力场景进阶，将AI与影像生产力工具紧密结合。

360也认为GPT等通用大模型无法覆盖世界上太多的领域，这也正是行业大模型的机遇所在，“百模大战”最终比拼的将是各家应用场景落地能力。

其次，大模型还在成长初期，跑得快不代表跑得赢。

从目前来看，大模型从概念到落地的几年中，各个层面不断有突破。但大模型最终会成长为什么样子，至今没有公论。在这个前提下，各大厂商都在自己的领域不断探索，处在大模型的摸索和試错阶段。这个阶段的主要特质就是，跑得快、跑得早的，不一定跑得到最后或者跑得赢。就如ChatGPT出来之前，大家印象中最深的还是数年之前的阿尔法狗一样。而ChatGPT也并非大厂出来的产品。

某种意义上说，大模型的未来，需要乔布斯一样的人，来给这个行业带来颠覆性的改变。

在这点上，任何人都有机会。

大模型的应用未来里面，提出问题比解决问题更体现人的能力。这也是科技引发的新一轮革命的前提。

发生在欧洲的第一次工业革命，助力英国工业制造及商业运输等迅速崛起，并带来国运逆袭。发生在美国等国家的第二次工业革命浪潮，则诞生了通用电气、福特汽车、AT&T等大批知名企业。

可见，时代浪潮越大，对企业、产业乃至国家实力跃迁的红利也会更大。

无论是大模型在办公场景的落地，还是此前掀起热潮的ChatGPT形态的聊天机器人，这些都只是刚刚开始。比尔·盖茨在《人工智能时代已经开启》中表示，自1980年首次看到图形用户界面以来，OpenAI的GPT人工智能模型是他所见过的最具革命性的技术进步。王小川在用完ChatGPT之后，断言“通用人工智能时代已经到了”。这些稍显激进的判断，都在极大地扩充大模型应用的想象空间。

相关从业者表示，大模型将作为基础平台支持无数智能应用。浪潮将催生三类机会：一是原有产品因AI的加入变得能力更强，好比电商因为加入推荐引擎而获得突破；二是因新技术的产生，很多产品有机会重做一遍，类似于从PC到移动互联网的变化；三是更好的模型和更低的成本解锁了全新场景，催生此前未曾想过的应用。

目前，海外的应用切入点主要分为几类：以New Bing代表的下一代搜索，以Midjourney、Stability.AI为代表的AI绘画，Runway所代表的视频生成产品，Jasper.ai代表的行业工具。此外，代码生成、个人助手、社交社区也是目前较受关注的应用方向。

相比之下，国内虽有各种尝试，但标志性的大模型应用还在酝酿中。

现在是通用人工智能的奇点时刻，也是商业化应用的前夜。AI大模型还没有经过大量的商业包装和训练，需要从业者像园艺师一样去修剪，形成符合行业规律的商业化产品。

大模型承载了很多期待。以困扰许多厂商的“标准化-定制化”平衡难题为例，在阿里云的设想中，预训练大模型带来的新可能表现为，企业只需将数据放在专属数据空间，用于大模型自动学习，然后就能生成企业专属的大模型。

相比原本“什么都要从头做”的业务模式，大模型提供了效率更高的选择。

但这些变化目前还处于展望阶段，依然有很多问题等待解答——应用本身给客户、用户带来的是颠覆性的体验升级，还是只是叠加优化？大模型成本高，在习惯了免费或低价的竞争环境里，To B应用如何建立健康可持续的收入模式？要先“有”再“优”，厂商自己乃至整个大模型生态，需要进一步突破的是什么？

种种问题，都需要一个成功的落地应用来给出答案。