国产大模型哪家强

2023-08-10文|马迪

今日中国·中文版 2023年8期

文| 马迪

在ChatGPT 火爆的背景下，很多国家都主动或被动地加入了大模型的竞赛。据报道，全球共有数百个大模型上线，那么中国在这个领域的发展如何呢？

相信大家已经被ChatGPT刷屏过好多次了—它以生成式AI为支撑，以强大的回答问题的能力惊艳了所有人，上线两个月就狂吸1亿用户，成为有史以来用户增长最快的APP。在这股热潮中，很多国家都主动或被动地加入了大模型的竞赛。据报道，全球共有数百个大模型上线，那么中国在这个领域的发展如何呢？

7月在上海举办的2023年WAIC（世界人工智能大会）展馆里，30多个国产大语言模型集体亮相，展馆里人头攒动。大会还宣布了由上海人工智能实验室与百度、阿里、科大讯飞、360、华为、中国移动的专家担任中国首个大模型标准化专题组联合组长。下面就让我们来介绍这场竞赛中的几位首发队员。

百度：文心大模型和文心一言

百度早在2010年就开始了人工智能的研发，迄今在AI上的投入超千亿人民币。ChatGPT的火爆让百度有了“终于等到你”的兴奋，也表现出了事事争先的气势。3月率先发布“文心一言”，成为中文互联网中第一个对标ChatGPT的存在。

从模型来看，文心一言是高度本土化的AI模型，更加匹配中文环境的使用习惯。文心一言的训练数据来自百度旗下的问答、百科等知识图谱，以及百度爬虫抓取的万亿级的网页数据。这些作为百度基本盘的业务，不仅能够提供巨大的基础数据，也让文心一言天然在中文搜索上具有显著优势。

在首次发布会上，李彦宏使用视频PPT展示文心一言的多个使用场景，引发了巨大争议，让很多网友对文心一言的真实能力一度产生怀疑。随着产品逐渐向更多普通用户开放，在实测中逐渐挽回了口碑。本次世界人工智能大会上，百度发布文心大模型3.5版本，模型效果提升50%、训练速度提升两倍、推理速度提升30倍。

阿里：通义大模型和通义千问

紧随百度的步伐，今年4月7日阿里“通义千问”开放测试，成为中国第二个类ChatGPT产品，紧接着又在6月1日和7月7日分别上线了音视频大模型“通义听悟”和AI绘画创作大模型“通义万相”，实现了三个月连推三个不同产品的壮举，进一步向多模态模型靠近。

通义千问的训练数据来自阿里巴巴旗下的淘宝、支付宝、天猫等产业中抽取的大量中文对话和文本数据。阿里还宣布未来会将所有产品都接入通义千问，进行全面改造升级，包括天猫、淘宝、钉钉、天猫精灵、闲鱼、盒马等。

更具有想象力的是，阿里将通过开放通义千问，帮助所有企业结合自己的应用场景、知识体系、行业特殊需求，形成专属的企业大模型。这意味着即使是中小企业，也能够以较低的门槛打造自己的智能客服、智能导购、智能语音助手、自动驾驶助手。

其他科技大厂的大模型路径

前文之所以单独介绍了百度和阿里的类ChatGPT产品，一方面是它们更早面世，另一方面是因为它们是to C型产品，也就是面向所有普通用户，每个人都有机会使用。但其他大厂显然选择了不同的道路—在他们看来，面向B端（机构用户）、赋能千行百业才是大模型的重点。

这其中就包括了华为的“盘古”、腾讯的“混元”、字节跳动的“火山方舟”、京东的“言犀”等等。它们分别根植于不同的数据和技术土壤之上，彼此之间的差距会随着时间和数据的变化而越发扩大。但它们面临的难点是一致的：将大模型用在业务里，AI模型和客户核心数据的结合必须更加紧密，深度私有化必不可少。换言之，这些厂商们也许需要帮助客户从头对核心数据进行标注、训练，再进行模型训练，时间和成本都将大大增加。

从3月如雨后春笋般冒头至今，短短4个月的时间，中国大模型跑出了中国速度—技术层、配套设施层、应用层、政策监管、安全措施，各个环节都在同步发展，而不是等着底层技术成熟后才慢慢跟上。行业热闹之中，人们也看到了大模型技术路径、产业落地、配套设施搭建、开发者生态都仍处于早期阶段，你追我赶的过程才刚刚开始。