多模态GPT-4发布，AI 冲击算法之巅

2023-04-04张毅

电脑报 2023年12期

张毅

ChatGPT 的热度还没过去，它的进阶版就来了。3月15日，距离AI（人工智能）聊天机器人ChatGPT 的亮相还不到4 个月，它的开发商OpenAI 又推出了新版多模态预训练大模型——GPT-4。与基于GPT-3.5的ChatGPT 相比，GPT-4 的表现更为惊人，让许多网友大呼：“这下AI 真的要取代人类了！”

能玩梗能考律师的GPT-4来了

3月15日凌晨，OpenAI发布了多模态预训练大模型GPT-4，这也是其大型语言模型的最新版本。

与此前的版本相比，GPT-4具备强大的识图能力，文字输入限制也提升至2.5 万字；GPT-4 的回答准确性也显著提升，还能够生成歌词、创意文本从而实现风格变化。同时，GPT-4 在各类专业测试及学术基准上也表现优良。

“这是OpenAI 努力扩展深度学习的最新里程碑。”OpenAI介绍，“GPT-4 是一个大型多模态模型，它接受图像和文本输入、进行文本输出，虽然在许多现实场景中它还不如人类，但在各种专业和学术基准上表现出与人类相当的性能。”OpenAI 介绍称，在日常对话中，GPT-4 与GPT-3.5 之间的差距或许微妙，但当任务复杂度足够高的时候，GPT-4 将具备更可靠、更具创造性的特点，且能够处理更细致的指令。

例如，根据OpenAI 公布的实验数据，GPT-4 通过模拟律师考试且分数在应试者的10% 左右。相较之下，GPT-3.5 版本大模型的成绩是倒数10%。

除了普通图片，GPT-4 还能处理更复杂的图像信息，包括表格、考试题目截图、论文截图、漫画等。此外，在多语种方面，GPT-4 也体现出优越性。在测试的26 种语言中，GPT-4 在24 种语言方面的表现均优于GPT-3.5 等其他大语言模型的英语语言性能，其中包括部分低资源语言如拉脱维亚语、威尔士语等。在中文语境中，GPT-4 能够达到80.1% 的准确性。

GPT-4开启AI多模态时代

“多模态、推理能力、预测扩展性”是GPT-4 的三大亮点，而多模态可以说是GPT-4 最大亮点。GPT-4 可以接受文本和图像的提示，允许用户指定任何视觉或语言任务。具体来说，给定由穿插文本和图像组成的输入，GPT-4 生成文本输出（自然语言、代码等）。

多模态算法即融合文字、图片、音视频等多种内容形式的AI 算法，多模态出世之前，AI 模型只专注于单一领域，例如自然语言处理或计算机视觉等；多模态技术出现后，模型已经从早期单一的自然语言处理和机器视觉发展成自动生成图画、图像文字、音视频等多模态内容，极大地推动了AIGC 的内容多样性和通用性。

AI 要渗透到各行业，向多模态发展是必然趋势。各个应用场景需要交互的输入输出各不相同，例如AI 绘画从输入图像或者文字得到图像，PalM-E 同时处理视觉、语言和传感器，极可能应用到工业生产中。同时多模态的大模型也可以通过细分领域数据微调，高效地应用到各个领域。毕竟现实世界中的数据天然就是多模态的，通用人工智能必然需要有能感知和理解多模态数据的能力，未来的人形机器人能和人类一样，可以综合通过听觉视觉触觉来与世界做出各种交互。

初探“人類思维”

GPT-4与GPT-3.5对比各项考试成绩，资料来源：OpenAI官网

视觉输入：图表推理（格鲁吉亚和西亚的日均肉类消费量总和是多少？），资料来源：OpenAI官网

GPT-4 相较于GPT-3.5模型更加强大，更可靠、更有创意，且更能够理解细微的指令，表现出来的性能为，在各种专业和学术考试以及NLP（自然语言处理）基准测试上达到或超越人类水平。

GPT-4 具备极强的复杂推理机制，无论是复杂的逻辑推理、编程推导或者是密集型内容帮助，GPT-4 皆表现能力不俗，例如ChatGPT 可以对税务人士进行密集的内容帮助，该模型快速得到了标准答案，并且可以做到“理解它的解释”。如此，GPT-4 会对编程、内容审核等场景产生深远影响。

研发团队在机器学习传统基准测试上（包括MMLU、HellaSwag 等）比较了GPT-4 和GPT-3.5、SOTA 等模型的性能，结果显示GPT-4 在这些基准测试上的表现大大优于现有的大型语言模型，并且在大多数测试中超越了目前最先进的SOTA 模型。

总体来讲，GPT-4 具有更强的生产力属性，尤其是在应用层面，GPT-4 可能快速改变各行各业的生产和消费模式。从政府治理、社会治理的数字智能化，到教育、就业、个人发展的新形态，它都可能为人类带来不可替代的利好作用，成为我们身边稳定存在的伙伴。随着GPT-4 对人机交互模式的改变，多模态能力首先有望重塑从浏览器到文档智能等的软件交互，未来还有望重塑从手机、PC、智能手表到智能家居的硬件交互。

OpenAI模型的应用场景正加速落地

由于大模型的规模化效应（scalinglaw），增加模型参数量、数据量有助于提升模型表现。过去数年中，行业推出大模型时也往往标榜模型规模之大。然而本次GPT-4 并未在论文中提供参数量、数据量等信息，AI 行业渐渐尝试逐渐走出单纯强调模型规模的时代，降低使用门槛、提高实际落地效果成为通用AI 新的发展方向。

而这次OpenAI 在发布GPT-4 的同时，推出便于落地的工具并开源了Evals 评估框架便于用户选择模型。这意味着使用千分之一至万分之一的算力就能够可靠地预测GPT-4 在下游垂直领域使用的性能，下游厂商可以先以较小的成本广泛试用，最终选择最适合自己需求的大模型。具体在应用方向上，现阶段，大模型的能力还主要体现在NLP 上，因此主要用于搜索（如微软继承了大模型的NewBing）、航程辅助、聊天机器人变种（猎头使用软件、智能客服、智能音箱、游戏NPC 等），而1～5 年内，随着多模态的发展，大模型首先会用于Office 类办公工具，还将有多类简单多模态方案落地（智能家居、工业视觉、行业化机器人）、行业专家（AI 医疗、教育等）、智能助理（聊天、工作安排、点外卖、购物等）。

未来，结合复杂多模态方案的大模型将具备完备的与世界交互的能力，在通用机器人、虚拟现实等领域得到应用。