生成式AI迎来中国独角兽
2024-01-15王姗姗
王姗姗
智譜是目前获得外部投资最多(25亿元人民币)的中国初创AI公司,与搜狗创始人王小川创立的百川智能融资规模(3.5亿美元)相当。同时,它也是国内少数估值达到10亿美元的AI初创公司,另外两家是百川智能和MiniMax。
自ChatGPT发布以来,“大模型”一词也跟着陷入通胀,国内的大模型竞争被描述为“百模大战”,各种新概念被不断抛出—金融大模型、工业大模型、天气大模型甚至政务大模型……这种语言上的通胀困扰的不只是用户,还有上游开发大模型的公司和CEO们。
但是,中国到底有多少家做基础大模型(Foundation Model)的初创公司?智谱AI的CEO张鹏给出的答案是“一只手就数得过 来”。
智谱是目前国内少数估值达到10亿美元的AI初创公司之一,另外两家是百川智能和MiniMax。2023年10月27日,这家公司刚刚发布对标GPT-4的多模态模型ChatGLM3。但是,令张鹏困扰的问题,除了美国的AI芯片禁令,还有如何让公司的模型在混乱的市场中被看到并找到客户。
如果用L0层和L1层来区分,那么市面上大部分模型都是L1层的行业模型,只有少数才是L0层的基础模型,前者需要基于后者做针对某个行业的继续训练。这是华为提出来的概念,张鹏认同这种区分,不过整个市场的意见并不统一,尤其是从面向终端用户的角度。
没有人知道这种混沌状况会持续多久,与此同时,生成式AI高昂的研发成本和用户增长瓶颈等问题又冒了出来—每家公司都需要在多重挑战中选择自己做什么不做什么、跟随或者不跟随,以及如何投入资源去跟上自己认为重要的目标。
以下是我们与智谱CEO张鹏的对话,他谈到了智谱通过对标OpenAI提升模型水平的过程、生成式AI的成本问题、要不要从L0往上做L1的抉择、B端市场的挑战以及做C端应用的逻 辑。
智谱的背景是清华的实验室,后来你们出于什么原因认为有必要成立一家创业公司?
我们实验室(注:指清华大学知识工程研究室)1996年就成立了。19 98年我进清华计算机系念书,2005年硕士毕业后就一直留在实验室工作。我们20 0 6年开始做的一个项目叫AMiner,它是一个技术情报挖掘系统,系统本身倒不是很特别,最有价值的部分还是底层的A I算法,包括传统的机器学习算法、数据挖掘方法,还有知识图谱 等。
2017年,我们已经开始服务很多客户,于是就想做一些研究成果转化和产业化落地的事。我们想了各种办法,到2019年才把这条路走通。
你们在2022年8月推出的第一个大模型GLM-130B是1300亿参数,2023年推出的ChatGLM与之相比,最大的迭代是什么?
就像GPT-3迭代到ChatGPT这样的关系,它是一个不同阶段的迭代,并不是在同一个模型的基础上。最大的差异不是参数规模,而是训练采用的数据以及训练方法的迭代。
早期无论是我们的GLM-130B,还是OpenAI的GP T-3,都不能识别人类的意图到底是什么,后来加上有监督的指令微调(Supervised FineTuning,SFT),再加上一些基于人类反馈的强化学习(Reinforcement Learningwith Human Feedback,RLHF)才达到现在ChatGPT和ChatGLM的效果。
现在大家都在比拼参数大小,参数可以说明模型能力 吗?
参数大小构成模型能力的天花板。参数越大,一般来说潜力越大,它能够学习更多的东西,不产生灾难性的遗忘,不产生太多幻觉,学习更多的东西时也很稳定。但是千亿参数的模型如果不加入SFT、RLHF这些步骤,它也会胡说八道,也会有很多幻觉。
从资源投入的角度,大公司和初创公司的做法有何区别?
大公司有比较丰厚的资源,选择面也更宽,创业公司就需要更聚焦。我们是国内第一家做大语言模型的创业公司,正因为我们比较聚焦,所以在大语言模型的效果上才会有一个比较领先的身位。
智谱在国内差不多是融资最多的公司,跟百川差不多,但相较硅谷公司仍然差一个量级。在不利条件下,中国公司该怎么办?
我觉得也不用太纠结这件事情。我们肯定还是要更聚焦,要节约成本,用更多更先进的技术去做到更好的效果。
智谱开发模型的最终目标是什么?
我们的目标特别明确,就是要面向AGI,去做更强的模型,我们是最早在国内做这些事情的公司。我们并不想做一个“够用就好”的模型,然后去开发应用,不是这样的。
是不是其实现在大家都没得选,都得开发AGI?
不一定,你看现在所谓的“百模大战”里边有多少是真正自己从基础模型开始干起的?很少。基于开源模型精调的不包括在内。
业内对开发AGI是否已经有相对有共识的路径,还是说它仍然属于开放的探索性问题?
这肯定还是一个开放的探索性问题。目前做得最好的当然是OpenAI,它的GPT-4和GPT-4V,智能水平已经超过了人类平均线。但OpenAI还在继续做,还没有达到所谓的AGI,说明还有很多问题需要解决。我们也是朝着这个目标,但是OpenAI确实比我们跑得快。对我们来讲,一个比较简单的路径就是瞄准OpenAI能做到的事情,我们尽快赶上它,赶上以后再考虑未来应该怎么办。
OpenAI好像也没有明确说为了达到AGI要怎么做?
做到AGI这件事本身就很难,很多事情都还在探索。OpenAI走在最前面,它有很多事情从GPT-3发布以后已经不再对外公布,不发论文,也不写详细的技术介绍。
关键在于,我们对标OpenAI的GPT-4,只能对标它能做的事。比如说,GPT-4相比GPT-3.5加上了多模态,我们就分析这件事情:OpenAI为什么这么做?从效果上看,是不是加了多模态之后,整个模型的推理能力、逻辑能力、智能水平就会上一个台 阶?
我们要验证这件事,后来发现可能确实如此,那我们肯定也要往这个方向去发展,去研究具体怎么做,这一步就是我们得自己想办法的事情了。
智谱现在也做了文生图、文生视频的模型,能验证你刚才说的逻辑吗?
对,基本上可以验证这事情。
在这之后呢?
我们先赶上GPT-4再说。
做个机器人放在实体空间里面训练,或者做个智能体—这些不是这个阶段需要思考的事情吗?
你说的具身智能(注:基于物理身体感知和行动的AI系统),是把模型加到硬件里或者游戏里,是另外的探索方向和路径。这些探索都会对实现AGI有所帮助,而且都是很顶尖的研究者在做相关研究,我相信这些东西最终都会往AGI这个方向去靠 拢。
目前来说,智谱还是比较聚焦在大语言模型和跨模态能力上。单纯从大模型本身的能力来看,我们还没有触达天花板,还有很多空间可以去探索。
从市场发展阶段看,智谱现在进入商业化阶段了吗?
当然,我们很早就有自己的商业化方案,在GLM-130B训练出来之前,我们在2021年就提出了模型即服务(Model as a Service,MaaS)的概念,我们把模型作为基座,提供不同类型的服务,包括API、私有化部署,还有介于两者之间的私有化方案。
你怎么看开源模型对大模型的商业化、特别是对B端市场的影响?
开源模型肯定会占掉一部分用户,但我觉得这不会是最主要的解决方案,大部分的商业用户还是会回归闭源版本的商业服务价值。
模型的开源版本和商业版本是很好的互补形态。我们在国内最早做开源这个事情,看中的就是开源生态社区更活跃、更有创意,保持了整个技术的多样性,有更多人参与这件事情能够保证有更新的技术和研究成果出现。
企业规模稍微大一些的商业用户更多还是会考虑服务的延续性、服务质量以及模型效果,毕竟模型的开源版本一般来说都没有那么大,模型的能力和精度也比商业版本要差一代或者一代半的水平。
你怎么看待针对C端的服务?
我们做过一些尝试,早期做了一些基于大模型的小应用,比如写作蛙、代码辅助工具,还有2023年8月上线的AI效率工具“智谱清言”。但相对来说,我们在C端的尝试其实是为了用户积累以及用户反馈数据的闭环。我们toC的产品暂时还是免费的。
是要达到一定的规模才会考虑商业化吗?
你可以看中国C端用户的付费意愿还在逐步培养的阶段,而C端的商业逻辑很多时候是流量变现。在我们看来,B端客户的商业化诉求更大更直接,这也是我们的基因,我们更多的还是偏向toB。
所以在基础模型之上推出一款C端应用,目的也在于向B端客户展示能力?
对,我们推C端产品的目的主要就是这个。
ChatGPT的全球用户量到达2亿后就不再上涨了,业界对此担忧吗?
也有人在唱衰,认为用户量不增长甚至有一些下降了,是不是表明生成式AI不能像预期的那样成为一个超级应用。但这个事情是这样:首先当然是技术的爆发,技术本身的突破让大家很惊讶,大家都很愿意以猎奇的心态去尝试这个东西;新鲜劲儿过去之后,大家了解了原理,就会觉得原来也就这样,开始反过头来找一些缺点,回归到一个比较理性的状态看待产品。但ChatGPT还有这么多用户,不像一些互联网产品,一旦热乎劲过去用户就会消失,就说明其实这个产品还是有很大价值。
生成式AI在一两年内会迎来商业化的爆发吗?还是仍然受限于技术的成熟度?
技术成不成熟其实不是决定性因素,不是说一个技术非要成熟到完美才能开始商业化应用,我觉得不矛盾。
ChatGPT和Copilot的订阅收入都难以覆盖使用成本。对此你怎么看?
对,大家都看到這一点了,因为生成式AI本质上还是用大量的GPU去做模型的推理。但你得从发展的角度看这个问题,只要它有足够的市场、用户和需求,必然会有人去做技术的优化和加速,并尝试压缩、降低成本。经过一段时间之后,成本自然而然降下来,盈利空间就会出现,自然也会有更多人来做C端应用,它是这样的一个逻辑。
之前有人统计过,使用一次Google搜索好像是几美分(注:摩根士丹利估计,Google 2022年的搜索量总计3.3万亿次,单次平均成本约为0.2美分)。
生成式AI的成本有可能降到像Google搜索这么低吗?
我判断不好,因为我不做硬件,生成式AI的主要成本还是来自于硬件。但是我相信它会持续下降,这一点上我相对还比较乐观。
目前公认的生成式AI能被很好利用的场景有哪些?
很难说有个共识,我个人的总结可能不完全正确。
第一个,大语言模型能解决人机交互问题。市场最大的一个需求就是让机器能够“听懂”人到底在想啥、要做啥,也就是自然语言用户界面。
第二,AI的自然语言甚至跨模态能力极大提升之后,整体智能水平提升了,以前受限于技术水平做不到的一些事,现在有了可能。比如原来直播带货只能是真人,但现在把大模型塞到虚拟主播的数据源背后,让它来控制这个“数字人”,这就是智能水平提升带来的新應用。
是否能根据生成式AI是不是足够胜任、能商业化了,划分出场景的难度等级?
这倒是一个很有意思的想法。我听到的划分等级的方法更多是直接按照模型本身所处的阶段。比如华为提出L0模型就是通用的基础模型,就像我们做的ChatGLM,然后L1是所谓的行业模型或者专用模型,它就分这么两层。
这种划分并没有考虑模型进入垂直场景的深度,或者说看它能具体解决多大的问题?
这好像不取决于模型本身,可能还是取决于这个场景下的需求。
但硅谷不少独角兽公司都是选中一个垂直领域,然后专注提升模型能力。
这个不是我们的选择。
为什么不呢?
我们想做的事情,就像公司slogan“让机器像人一样思考”,是持续提升通用智能水平。具体应用场景我们可能会做一些,但我们更希望拿通用智能水平比较高的一个模型帮助大家开发行业应用。
有好多概念是很容易混淆的,所谓的行业模型和通用模型,它们之间的差别和关系到底是什么?我更愿意接受华为的说法,就是L0层(指基础模型)和L1层(指行业模型)。并不是说L1是完全独立于L0的,L1理论上是基于L0增强得到的,这样才更好。
我们只做L0,其他都不做,那么就需要靠生态帮你补完上面那一部分—从L1到应用,再到用户。从L0到用户,跨度就会比较大。
中国真正做L0的公司有多 少?
真正做L0的无非就是几个大厂。创业公司里面,我一只手都能数得过来。
只做L0需要有一个很大的部署团队或者是销售团队吗?
所以我们也在培养生态,要拉很多生态合作伙伴进来。我们提供L0以及从L0向L1进化的方法,甚至提供上层应用的开发经验—这个模型怎么调、怎么使用这个模型效果更好,这些东西我们可以提供给客户。但要真正把每个客户服务到最后一米,需要大量人力。
回到之前的问题,像ChatGPT这样的超级应用全球用户一共才2亿,其他很多生成式AI应用都是昙花一现,你们怎么做才能做好?
是,这个产品从来都不简单。