生成式AI迎来中国独角兽

2024-01-15王姗姗

第一财经 2024年1期

王姗姗

智譜是目前获得外部投资最多（25亿元人民币）的中国初创AI公司，与搜狗创始人王小川创立的百川智能融资规模（3.5亿美元）相当。同时，它也是国内少数估值达到10亿美元的AI初创公司，另外两家是百川智能和MiniMax。

自ChatGPT发布以来，“大模型”一词也跟着陷入通胀，国内的大模型竞争被描述为“百模大战”，各种新概念被不断抛出—金融大模型、工业大模型、天气大模型甚至政务大模型……这种语言上的通胀困扰的不只是用户，还有上游开发大模型的公司和CEO们。

但是，中国到底有多少家做基础大模型（Foundation Model）的初创公司？智谱AI的CEO张鹏给出的答案是“一只手就数得过来”。

智谱是目前国内少数估值达到10亿美元的AI初创公司之一，另外两家是百川智能和MiniMax。2023年10月27日，这家公司刚刚发布对标GPT-4的多模态模型ChatGLM3。但是，令张鹏困扰的问题，除了美国的AI芯片禁令，还有如何让公司的模型在混乱的市场中被看到并找到客户。

如果用L0层和L1层来区分，那么市面上大部分模型都是L1层的行业模型，只有少数才是L0层的基础模型，前者需要基于后者做针对某个行业的继续训练。这是华为提出来的概念，张鹏认同这种区分，不过整个市场的意见并不统一，尤其是从面向终端用户的角度。

没有人知道这种混沌状况会持续多久，与此同时，生成式AI高昂的研发成本和用户增长瓶颈等问题又冒了出来—每家公司都需要在多重挑战中选择自己做什么不做什么、跟随或者不跟随，以及如何投入资源去跟上自己认为重要的目标。

以下是我们与智谱CEO张鹏的对话，他谈到了智谱通过对标OpenAI提升模型水平的过程、生成式AI的成本问题、要不要从L0往上做L1的抉择、B端市场的挑战以及做C端应用的逻辑。

智谱的背景是清华的实验室，后来你们出于什么原因认为有必要成立一家创业公司？

我们实验室（注：指清华大学知识工程研究室）1996年就成立了。19 98年我进清华计算机系念书，2005年硕士毕业后就一直留在实验室工作。我们20 0 6年开始做的一个项目叫AMiner，它是一个技术情报挖掘系统，系统本身倒不是很特别，最有价值的部分还是底层的A I算法，包括传统的机器学习算法、数据挖掘方法，还有知识图谱等。

2017年，我们已经开始服务很多客户，于是就想做一些研究成果转化和产业化落地的事。我们想了各种办法，到2019年才把这条路走通。

你们在2022年8月推出的第一个大模型GLM-130B是1300亿参数，2023年推出的ChatGLM与之相比，最大的迭代是什么？

就像GPT-3迭代到ChatGPT这样的关系，它是一个不同阶段的迭代，并不是在同一个模型的基础上。最大的差异不是参数规模，而是训练采用的数据以及训练方法的迭代。

早期无论是我们的GLM-130B，还是OpenAI的GP T-3，都不能识别人类的意图到底是什么，后来加上有监督的指令微调（Supervised FineTuning，SFT），再加上一些基于人类反馈的强化学习（Reinforcement Learningwith Human Feedback，RLHF）才达到现在ChatGPT和ChatGLM的效果。

现在大家都在比拼参数大小，参数可以说明模型能力吗？

参数大小构成模型能力的天花板。参数越大，一般来说潜力越大，它能够学习更多的东西，不产生灾难性的遗忘，不产生太多幻觉，学习更多的东西时也很稳定。但是千亿参数的模型如果不加入SFT、RLHF这些步骤，它也会胡说八道，也会有很多幻觉。

从资源投入的角度，大公司和初创公司的做法有何区别？

大公司有比较丰厚的资源，选择面也更宽，创业公司就需要更聚焦。我们是国内第一家做大语言模型的创业公司，正因为我们比较聚焦，所以在大语言模型的效果上才会有一个比较领先的身位。

智谱在国内差不多是融资最多的公司，跟百川差不多，但相较硅谷公司仍然差一个量级。在不利条件下，中国公司该怎么办？

我觉得也不用太纠结这件事情。我们肯定还是要更聚焦，要节约成本，用更多更先进的技术去做到更好的效果。

智谱开发模型的最终目标是什么？

我们的目标特别明确，就是要面向AGI，去做更强的模型，我们是最早在国内做这些事情的公司。我们并不想做一个“够用就好”的模型，然后去开发应用，不是这样的。

是不是其实现在大家都没得选，都得开发AGI？

不一定，你看现在所谓的“百模大战”里边有多少是真正自己从基础模型开始干起的？很少。基于开源模型精调的不包括在内。

业内对开发AGI是否已经有相对有共识的路径，还是说它仍然属于开放的探索性问题？

这肯定还是一个开放的探索性问题。目前做得最好的当然是OpenAI，它的GPT-4和GPT-4V，智能水平已经超过了人类平均线。但OpenAI还在继续做，还没有达到所谓的AGI，说明还有很多问题需要解决。我们也是朝着这个目标，但是OpenAI确实比我们跑得快。对我们来讲，一个比较简单的路径就是瞄准OpenAI能做到的事情，我们尽快赶上它，赶上以后再考虑未来应该怎么办。

OpenAI好像也没有明确说为了达到AGI要怎么做？

做到AGI这件事本身就很难，很多事情都还在探索。OpenAI走在最前面，它有很多事情从GPT-3发布以后已经不再对外公布，不发论文，也不写详细的技术介绍。

关键在于，我们对标OpenAI的GPT-4，只能对标它能做的事。比如说，GPT-4相比GPT-3.5加上了多模态，我们就分析这件事情：OpenAI为什么这么做？从效果上看，是不是加了多模态之后，整个模型的推理能力、逻辑能力、智能水平就会上一个台阶？

我们要验证这件事，后来发现可能确实如此，那我们肯定也要往这个方向去发展，去研究具体怎么做，这一步就是我们得自己想办法的事情了。

智谱现在也做了文生图、文生视频的模型，能验证你刚才说的逻辑吗？

对，基本上可以验证这事情。

在这之后呢？

我们先赶上GPT-4再说。

做个机器人放在实体空间里面训练，或者做个智能体—这些不是这个阶段需要思考的事情吗？

你说的具身智能（注：基于物理身体感知和行动的AI系统），是把模型加到硬件里或者游戏里，是另外的探索方向和路径。这些探索都会对实现AGI有所帮助，而且都是很顶尖的研究者在做相关研究，我相信这些东西最终都会往AGI这个方向去靠拢。

目前来说，智谱还是比较聚焦在大语言模型和跨模态能力上。单纯从大模型本身的能力来看，我们还没有触达天花板，还有很多空间可以去探索。

从市场发展阶段看，智谱现在进入商业化阶段了吗？

当然，我们很早就有自己的商业化方案，在GLM-130B训练出来之前，我们在2021年就提出了模型即服务（Model as a Service，MaaS）的概念，我们把模型作为基座，提供不同类型的服务，包括API、私有化部署，还有介于两者之间的私有化方案。

你怎么看开源模型对大模型的商业化、特别是对B端市场的影响？

开源模型肯定会占掉一部分用户，但我觉得这不会是最主要的解决方案，大部分的商业用户还是会回归闭源版本的商业服务价值。

模型的开源版本和商业版本是很好的互补形态。我们在国内最早做开源这个事情，看中的就是开源生态社区更活跃、更有创意，保持了整个技术的多样性，有更多人参与这件事情能够保证有更新的技术和研究成果出现。

企业规模稍微大一些的商业用户更多还是会考虑服务的延续性、服务质量以及模型效果，毕竟模型的开源版本一般来说都没有那么大，模型的能力和精度也比商业版本要差一代或者一代半的水平。

你怎么看待针对C端的服务？

我们做过一些尝试，早期做了一些基于大模型的小应用，比如写作蛙、代码辅助工具，还有2023年8月上线的AI效率工具“智谱清言”。但相对来说，我们在C端的尝试其实是为了用户积累以及用户反馈数据的闭环。我们toC的产品暂时还是免费的。

是要达到一定的规模才会考虑商业化吗？

你可以看中国C端用户的付费意愿还在逐步培养的阶段，而C端的商业逻辑很多时候是流量变现。在我们看来，B端客户的商业化诉求更大更直接，这也是我们的基因，我们更多的还是偏向toB。

所以在基础模型之上推出一款C端应用，目的也在于向B端客户展示能力？

对，我们推C端产品的目的主要就是这个。

ChatGPT的全球用户量到达2亿后就不再上涨了，业界对此担忧吗？

也有人在唱衰，认为用户量不增长甚至有一些下降了，是不是表明生成式AI不能像预期的那样成为一个超级应用。但这个事情是这样：首先当然是技术的爆发，技术本身的突破让大家很惊讶，大家都很愿意以猎奇的心态去尝试这个东西；新鲜劲儿过去之后，大家了解了原理，就会觉得原来也就这样，开始反过头来找一些缺点，回归到一个比较理性的状态看待产品。但ChatGPT还有这么多用户，不像一些互联网产品，一旦热乎劲过去用户就会消失，就说明其实这个产品还是有很大价值。

生成式AI在一两年内会迎来商业化的爆发吗？还是仍然受限于技术的成熟度？

技术成不成熟其实不是决定性因素，不是说一个技术非要成熟到完美才能开始商业化应用，我觉得不矛盾。

ChatGPT和Copilot的订阅收入都难以覆盖使用成本。对此你怎么看？

对，大家都看到這一点了，因为生成式AI本质上还是用大量的GPU去做模型的推理。但你得从发展的角度看这个问题，只要它有足够的市场、用户和需求，必然会有人去做技术的优化和加速，并尝试压缩、降低成本。经过一段时间之后，成本自然而然降下来，盈利空间就会出现，自然也会有更多人来做C端应用，它是这样的一个逻辑。

之前有人统计过，使用一次Google搜索好像是几美分（注：摩根士丹利估计，Google 2022年的搜索量总计3.3万亿次，单次平均成本约为0.2美分）。

生成式AI的成本有可能降到像Google搜索这么低吗？

我判断不好，因为我不做硬件，生成式AI的主要成本还是来自于硬件。但是我相信它会持续下降，这一点上我相对还比较乐观。

目前公认的生成式AI能被很好利用的场景有哪些？

很难说有个共识，我个人的总结可能不完全正确。

第一个，大语言模型能解决人机交互问题。市场最大的一个需求就是让机器能够“听懂”人到底在想啥、要做啥，也就是自然语言用户界面。

第二，AI的自然语言甚至跨模态能力极大提升之后，整体智能水平提升了，以前受限于技术水平做不到的一些事，现在有了可能。比如原来直播带货只能是真人，但现在把大模型塞到虚拟主播的数据源背后，让它来控制这个“数字人”，这就是智能水平提升带来的新應用。

是否能根据生成式AI是不是足够胜任、能商业化了，划分出场景的难度等级？

这倒是一个很有意思的想法。我听到的划分等级的方法更多是直接按照模型本身所处的阶段。比如华为提出L0模型就是通用的基础模型，就像我们做的ChatGLM，然后L1是所谓的行业模型或者专用模型，它就分这么两层。

这种划分并没有考虑模型进入垂直场景的深度，或者说看它能具体解决多大的问题？

这好像不取决于模型本身，可能还是取决于这个场景下的需求。

但硅谷不少独角兽公司都是选中一个垂直领域，然后专注提升模型能力。