人工智能大模型时代的机遇和挑战

2023-12-28戴新宇

视听界 2023年5期

戴新宇

一、什么是智能？什么是人工智能？

（一）人类对自身智能的认知仍然有限

整个人类的发展历史，其实就是一个进化的历史。几百万年前环境的变化驱动了人类的进化，从类人猿到直立行走，到会使用工具，到进入工业化时代，到今天的智能化时代，都是环境的改变驱动人类的进化，进化驱动大脑的发育，发育驱动大脑的进化。

人的智能是从哪里来？或者说人的智慧从哪里来？人类慢慢知道大脑是人类智能的中枢控制系统。因为大脑有神经系统，可以控制我们的思维，控制我们的行动，控制我们的学习能力等。大脑是思维的一个中枢系统，但是真正让人类进化和改变世界其实是靠我们这双手，手是智能的外化。也就是说，实际上是手使用工具，大脑只是思维和思考，真正去执行，去使用技术，还是依赖我们这双手。从使用简单的智能工具，到使用工业革命之后的机械化工具，到现在使用互联网和移动互联网，都离不开这双手。

驱动人类智能进化的核心是语言。我们今天讲的大模型，其实最早就是大语言的模型，是多模态的模型。语言也是智能的关键。生物也有智能，包括低等生物都有智能，但是所谓的人类的高级智能，是因为我们有语言。语言是我们交流的工具、知识的载体，或者是传递的载体，它是智能进化的一个关键，它让我们表达、交流，驱动技术的发展。

其实从人类有意识开始，大家就在想，能不能用人工去模拟我们的智能？古典哲学家有一个基本的假设，所谓的人工智能能不能实现？人类的思考过程、思维过程，大脑怎么运作的？能不能符号化、机械化？因为只有符号化、机械化，人才能用机器替代它。但是很可惜的是，人类其实对自身智能的认知非常有限。现在脑科学的研究仅仅停留在大脑有各种各样的区域，这些区域有的控制我们的记忆，有的控制我们的学习能力，有的控制我们的推理能力，有的控制我们的语言能力，各个区域有一定分工。人类大脑虽然有800亿到900亿的神经元，这个神经元驱动我们大脑的整个思维过程，但是大象可能有2000多亿的神经元，但它为什么没有人聪明？科学家说人类更多的神经元是集中在大脑的皮质层，皮质层帮助我们有很强的学习能力、推理能力等。所以，我们对人类智能的认知还是非常有限，我们并不清楚大脑是怎么工作的。

（二）从功能主义角度去模拟人类的智能

那么人工智能假设就有问题了，我们不知道大脑怎么工作的，怎么对它做符号化、机械化呢？其实没有关系，我们从功能主义的角度去模拟人工智能。首先，我们不要求对人类的认知过程、人脑的运转机理有完整的了解，我们试图用符号化、机械化的方式模拟这些能力就可以了。

人类有哪些智能呢？人类有感知能力，有各种感官系统，通过眼睛、耳朵、皮肤，我们可以感知到外部的世界，获取外部世界的信息；我们有抽象能力、记忆能力、学习能力等，再进一步高级智能，我们有推理能力、决策能力、语言能力、类比能力、创造能力等，这是人类智能的各种能力。尽管我们现在对人类的认知机理不是那么清楚，但是并不妨碍我们去设计各种各样的人工智能系统，去仿真或者模拟这样的能力。

马文·闵斯基是人工智能奠基者之一，1956年达特茅斯人工智能会议的创始人之一，他认为“人工智能就是让机器来完成那些由人来做则需要智能的科学”。就是某一件事如果要人来做，需要某种能力才能完成，通过机器来做，那就是人工智能。

其次，我们不要求人工智能全面地达到人类的智能水平。如果全面地研究脑科学，研究人脑怎么工作的，怎么全面地去做仿真，我们现在达不到（这个能力），只能去做模拟，所以我们不需要全面达到。其实全面达到也是有问题的，现在很多人说人工智能威胁论，真的全面达到可能会产生威胁。所以我们只要它做事就可以了，不需要它具有意识，不需要它具有情感。当然这个情感、意识等，很多科学家也在做相关研究了。

鸟类也有智能，它的脑袋只有几克重量，但鸟的智能水平也挺高，它在树林穿梭绝对不会碰到一片树叶，而我们的无人机现在避障还没有鸟那么灵活。鸟会做路线规划，会做食物辨别，等等，有很强的智能。我们并不知道鸟的大脑的工作原理，不知道它怎么避障，但是并不妨碍我们现在可以做出自主巡航的大飞机。所以我们可以做一个类比，一个是生物智能，一个是人工智能。

我们要用机器去实现人工智能。机器实现人工智能有哪些要素呢？比如人类有学习能力，那人工智能有学习能力，包括深度学习能力；人类有听力，有语言表达能力，所以人工智能可以语音识别、语音合成；人类有眼睛，那人工智能有计算机视觉，可以采集各种外部数据；人类有语言交流表达能力，所以人工智能有一个研究领域叫自然语言处理；人可以做专家，人工智能以后会有专家系统，可以做决策，做推理；人可以做规划，比如路线规划，那导航就是一个人工智能系统，帮我们做路线规划；人可以运动，机器人就是仿造人类的运动能力。

二、人工智能大模型简介

（一）人工智能进入大语言模型时代

我们通常说1956年是人工智能的元年，经过快70年的发展，其实人工智能已经赋能我们生活的方方面面。我们每天都在接触人工智能的产品，虽然我们有的时候并没有意识到它的存在，但都在享用人工智能赋能我们生活带来的便利。

人工智能还可以赋能各个行业，即人工智能+X，这个X可能是金融行业、教育行业、电力行业、法律行业等，包括我们今天的传媒主题。

最近半年，人工智能有一个颠覆性的动作，就是人工智能进入大模型时代。这个大模型技术，其实过去几年一直在发展。2022年11月30日，OpenAI发布了ChatGPT，引起了全社会的震撼。ChatGPT为什么影响这么大？因为每一个人都可以使用它，每一个人都可以感受到它的强大。我们可以跟它聊天，跟它讨论问题，询问它一些信息，它可以跟我们的生活息息相关。它本质上是一个自然语言对话方式的人机交互系统。

我们一直想让机器跟人类实现自由的交互。ChatGPT在发布2个月后，全球达到了1亿用户。有数据对比，在全球范围内，TikTok 9个月达到了1亿用户，Facebook几十个月达到了1亿用户，而手机用了15年达到了1亿用户。再往前推，传统的固定电话，用了75年才达到了1亿用户。所以ChatGPT这个人机对话系统带给大家的震撼力是非常强的。

哲学家维特根斯坦说：语言的边界就是世界的边界，知识的边界。我们从小到大的学习过程，其实也是不停地跟父母、跟老师、跟同学、跟朋友的交流过程，我们学到了各种知识，了解了这个世界。整个学习过程是用语言交流完成的。其实ChatGPT就是做这么一件事情，当它把整个语言的知识都学会，它就能够了解世界的边界，了解知识的边界。

更通俗地去解释这件事，就是人和机器要互动，要交互。ChatGPT最终完善的版本，应该是完全懂人话，说人话。现在它是能懂点人话，会说点人话。它通过语言交流学到了各种知识，了解了这个世界之后，它在一定程度上学会了思考，有一些通用能力，一些创造力。大模型就是这样。

（二）GPT类大模型

ChatGPT，CHAT是聊天，GPT是什么？ChatGPT是一个人工智能的对话系统，一个互动系统，GPT的英文是Generative Pre-trained Transformer，是生成式的模型。第一个叫Generative（生成），它一个字一个字蹦出来，就像我们说话一样的，叫生成式。然后它是一个预训练的Transformer，是一个网络结构，它本质上是语言大模型，实际上是一个词语接龙的游戏。ChatGPT的参数规模是1750亿个参数，预训练的目的就是准确预测下一个接龙单词是什么。基于海量的数据，经过预训练，ChatGPT拥有相当量级的参数规模，模型能力已经很强大，剩下的是怎么进一步驯化它。

互联网上有很多的数据，大模型也好，人工智能也好，数据是基本要素之一。数据经过预测模型，预训练之后可以得到一个能力很强大的魔兽，但是这个魔兽有的时候不知所措，它不知道每个时间点该完成什么样的任务，进一步经过指令学习，我们可以对它做训练和分工，比如扔给它一堆文字，你帮我翻译一下，它就做中英翻译；你帮我写一段代码，它就做代码的生成；你帮我去写一个新闻稿，它去写新闻稿。当我们把这样成千上万的数据喂给它，它就知道什么时候该干什么，你只要有一个正确的指令给它，它就知道下一步该做什么，但是这个时候我们还不敢用它，因为有的时候它会乱说，它说的内容不符合我们人类的价值观。所以下一步，我们要用人类反馈强化学习。我们要训练它说出我们想听的话，说出符合人类价值观的话。我们国内的各个大模型也在经过这几步的训练。

（三）大模型时代走向通用人工智能

在过去几十年，人工智能各个方面已经有了巨大的发展，有了各种各样的能力，但是之前是专用人工智能，比如说图像识别，它只能识别人脸，识别路况。现在是通用人工智能，ChatGPT可以做各种任务，可以写作、聊天、问答、翻译、编程，甚至可以参加考试。我们通过语言的训练来强化它的学习能力，它可以把任务之间的边界给打破，这也造就了现在大模型的学习能力强。它会现学现用，会举一反三，甚至有推理能力。它还有一定的创造能力，所谓AIGC，就是帮助人类生成各种各样的内容，这个内容的生成不能是简单的重复，还要有创造。其实，懂人话和说人话，是从感知智能到认知智能的一个巨大发展。

微软有一篇文章称ChatGPT是通用人工智能的火花。我们并不能说ChatGPT就是通用人工智能的唯一路径，但是起码它点燃了一个火花，或者说可能的一条路径出现了。ChatGPT+X，就是ChatGPT在各个行业做一些应用和探索，比如跟传媒行业的结合。

三、大模型赋能传媒行业内容生成、交互方式

（一）ChatGPT+X：赋能传媒

1.内容生成（AIGC）

内容生成并不是刚刚有的，过去十年一直做这个事情，只不过现在大家对AIGC这个概念提得更多了。其实内容生成主要是数据源在哪儿。数据源有官方数据库、专业数据公司，企业数据库、互联网数据、社交媒体、论坛等。2014年美联社推出WordSmith，2015年腾讯推出DreamWriter，2016年新华社推出快笔小新。2022年11月30日，ChatGPT出来之后，很多人开始迅速用它创作，其实是快速做了一个推进。当然这里也会带来一些问题，比如假新闻，甚至多模态的创作生成的图片是AI生成的，我们怎样审核，这是一个非常重要的课题。

2.新的交互方式

大模型时代最大的推动，是交互方式的改变。人在几百万年的进化过程中，人和人交流，人和人互动，对人类社会的发展起到巨大的作用。计算机诞生之后，人也在跟机器自然地互动，而且这几十年的发展，人机互动进入了一个新的阶段，最早的人机互动是鼠标键盘、电脑系统，但是我们一直希望人和机器可以用自然语言做交互，这是最顺畅的。我把它归结为几个时代：第一个时代是互联网时代，人机交互是用百度、谷歌，人主动去检索，我们称为主动搜索的时代。第二个是移动互联网时代，机器会主动地推个性化的信息给不同的用户，机器主动发起，人类是被动的，所以是被动的内容推荐时代。第三个是大模型时代，我们真的实现人机的互动，双向的交互，大模型时代最核心的就是多轮的对话交互。这种交互方式的改变给传媒业带来什么变化？

（二）人机双向交互——视频媒体的视角

人机交互的方式变化以后，从媒体视角来看，AIGC怎样创作用户喜欢的内容？怎么满足用户个性化的需求？内容怎么传递给用户？从内容角度来看，用户在内容选择上，经历了选频道—关键词搜索—个性化推荐几个时代，和人机交互的演变过程是一样的。从传播角度来看，用户经历了名主播—大众主播—数字人主播，下一个阶段是什么？下一步就是人机双向交互。用户跟主播做交互，但是主播就一个，怎么能够响应那么多用户的需求？所以主播也会分身，有数字分身，不同的用户需求不一样，主播的数字分身可以与不同用户交互。还有就是用户之间也变成双向交互，有点类似于元宇宙的概念。

四、大模型的挑战

（一）大模型时代的挑战

大模型还是存在不足，一是没有可解释性，缺少透明的机制。它中间的神经网络是一个黑盒子，你也不知道它怎么预测下一次。二是违背事实的一本正经的胡说八道，缺少可控机制。我们说ChatGPT可以懂人话，可以说人话，但是我们希望它不乱说话。三是无法应对复杂的系统任务，缺少符号推理的机制。人是有一些结构化知识的，怎么结合，这个也是一个问题。四是模型无法实时更新，ChatGPT的大模型不能快速更新它的参数，它有一些方法可以去快速更新，但是没有办法把它整个模型做一个更新，所以它缺少在线学习机制。五是深层次的编码机制，语言编码和图像编码的差异，缺少理论支撑。

还有一个很大的挑战，新的技术带来新的国家安全和社会管理风险。用户隐私怎么保护，生成的内容版权怎么界定，生成的内容是不是符合伦理，我们在用它的时候有没有审查机制，怎样保证整个AI系统的安全性，会不会被攻击等等。