APP下载

人工智能大模型时代的机遇和挑战

2023-12-28戴新宇

视听界 2023年5期
关键词:大脑人工智能人类

戴新宇

一、什么是智能?什么是人工智能?

(一)人类对自身智能的认知仍然有限

整个人类的发展历史,其实就是一个进化的历史。几百万年前环境的变化驱动了人类的进化,从类人猿到直立行走,到会使用工具,到进入工业化时代,到今天的智能化时代,都是环境的改变驱动人类的进化,进化驱动大脑的发育,发育驱动大脑的进化。

人的智能是从哪里来?或者说人的智慧从哪里来?人类慢慢知道大脑是人类智能的中枢控制系统。因为大脑有神经系统,可以控制我们的思维,控制我们的行动,控制我们的学习能力等。大脑是思维的一个中枢系统,但是真正让人类进化和改变世界其实是靠我们这双手,手是智能的外化。也就是说,实际上是手使用工具,大脑只是思维和思考,真正去执行,去使用技术,还是依赖我们这双手。从使用简单的智能工具,到使用工业革命之后的机械化工具,到现在使用互联网和移动互联网,都离不开这双手。

驱动人类智能进化的核心是语言。我们今天讲的大模型,其实最早就是大语言的模型,是多模态的模型。语言也是智能的关键。生物也有智能,包括低等生物都有智能,但是所谓的人类的高级智能,是因为我们有语言。语言是我们交流的工具、知识的载体,或者是传递的载体,它是智能进化的一个关键,它让我们表达、交流,驱动技术的发展。

其实从人类有意识开始,大家就在想,能不能用人工去模拟我们的智能?古典哲学家有一个基本的假设,所谓的人工智能能不能实现?人类的思考过程、思维过程,大脑怎么运作的?能不能符号化、机械化?因为只有符号化、机械化,人才能用机器替代它。但是很可惜的是,人类其实对自身智能的认知非常有限。现在脑科学的研究仅仅停留在大脑有各种各样的区域,这些区域有的控制我们的记忆,有的控制我们的学习能力,有的控制我们的推理能力,有的控制我们的语言能力,各个区域有一定分工。人类大脑虽然有800亿到900亿的神经元,这个神经元驱动我们大脑的整个思维过程,但是大象可能有2000多亿的神经元,但它为什么没有人聪明?科学家说人类更多的神经元是集中在大脑的皮质层,皮质层帮助我们有很强的学习能力、推理能力等。所以,我们对人类智能的认知还是非常有限,我们并不清楚大脑是怎么工作的。

(二)从功能主义角度去模拟人类的智能

那么人工智能假设就有问题了,我们不知道大脑怎么工作的,怎么对它做符号化、机械化呢?其实没有关系,我们从功能主义的角度去模拟人工智能。首先,我们不要求对人类的认知过程、人脑的运转机理有完整的了解,我们试图用符号化、机械化的方式模拟这些能力就可以了。

人类有哪些智能呢?人类有感知能力,有各种感官系统,通过眼睛、耳朵、皮肤,我们可以感知到外部的世界,获取外部世界的信息;我们有抽象能力、记忆能力、学习能力等,再进一步高级智能,我们有推理能力、决策能力、语言能力、类比能力、创造能力等,这是人类智能的各种能力。尽管我们现在对人类的认知机理不是那么清楚,但是并不妨碍我们去设计各种各样的人工智能系统,去仿真或者模拟这样的能力。

马文·闵斯基是人工智能奠基者之一,1956年达特茅斯人工智能会议的创始人之一,他认为“人工智能就是让机器来完成那些由人来做则需要智能的科学”。就是某一件事如果要人来做,需要某种能力才能完成,通过机器来做,那就是人工智能。

其次,我们不要求人工智能全面地达到人类的智能水平。如果全面地研究脑科学,研究人脑怎么工作的,怎么全面地去做仿真,我们现在达不到(这个能力),只能去做模拟,所以我们不需要全面达到。其实全面达到也是有问题的,现在很多人说人工智能威胁论,真的全面达到可能会产生威胁。所以我们只要它做事就可以了,不需要它具有意识,不需要它具有情感。当然这个情感、意识等,很多科学家也在做相关研究了。

鸟类也有智能,它的脑袋只有几克重量,但鸟的智能水平也挺高,它在树林穿梭绝对不会碰到一片树叶,而我们的无人机现在避障还没有鸟那么灵活。鸟会做路线规划,会做食物辨别,等等,有很强的智能。我们并不知道鸟的大脑的工作原理,不知道它怎么避障,但是并不妨碍我们现在可以做出自主巡航的大飞机。所以我们可以做一个类比,一个是生物智能,一个是人工智能。

我们要用机器去实现人工智能。机器实现人工智能有哪些要素呢?比如人类有学习能力,那人工智能有学习能力,包括深度学习能力;人类有听力,有语言表达能力,所以人工智能可以语音识别、语音合成;人类有眼睛,那人工智能有计算机视觉,可以采集各种外部数据;人类有语言交流表达能力,所以人工智能有一个研究领域叫自然语言处理;人可以做专家,人工智能以后会有专家系统,可以做决策,做推理;人可以做规划,比如路线规划,那导航就是一个人工智能系统,帮我们做路线规划;人可以运动,机器人就是仿造人类的运动能力。

二、人工智能大模型简介

(一)人工智能进入大语言模型时代

我们通常说1956年是人工智能的元年,经过快70年的发展,其实人工智能已经赋能我们生活的方方面面。我们每天都在接触人工智能的产品,虽然我们有的时候并没有意识到它的存在,但都在享用人工智能赋能我们生活带来的便利。

人工智能还可以赋能各个行业,即人工智能+X,这个X可能是金融行业、教育行业、电力行业、法律行业等,包括我们今天的传媒主题。

最近半年,人工智能有一个颠覆性的动作,就是人工智能进入大模型时代。这个大模型技术,其实过去几年一直在发展。2022年11月30日,OpenAI发布了ChatGPT,引起了全社会的震撼。ChatGPT为什么影响这么大?因为每一个人都可以使用它,每一个人都可以感受到它的强大。我们可以跟它聊天,跟它讨论问题,询问它一些信息,它可以跟我们的生活息息相关。它本质上是一个自然语言对话方式的人机交互系统。

我们一直想让机器跟人类实现自由的交互。ChatGPT在发布2个月后,全球达到了1亿用户。有数据对比,在全球范围内,TikTok 9个月达到了1亿用户,Facebook几十个月达到了1亿用户,而手机用了15年达到了1亿用户。再往前推,传统的固定电话,用了75年才达到了1亿用户。所以ChatGPT这个人机对话系统带给大家的震撼力是非常强的。

哲学家维特根斯坦说:语言的边界就是世界的边界,知识的边界。我们从小到大的学习过程,其实也是不停地跟父母、跟老师、跟同学、跟朋友的交流过程,我们学到了各种知识,了解了这个世界。整个学习过程是用语言交流完成的。其实ChatGPT就是做这么一件事情,当它把整个语言的知识都学会,它就能够了解世界的边界,了解知识的边界。

更通俗地去解释这件事,就是人和机器要互动,要交互。ChatGPT最终完善的版本,应该是完全懂人话,说人话。现在它是能懂点人话,会说点人话。它通过语言交流学到了各种知识,了解了这个世界之后,它在一定程度上学会了思考,有一些通用能力,一些创造力。大模型就是这样。

(二)GPT类大模型

ChatGPT,CHAT是聊天,GPT是什么?ChatGPT是一个人工智能的对话系统,一个互动系统,GPT的英文是Generative Pre-trained Transformer,是生成式的模型。第一个叫Generative(生成),它一个字一个字蹦出来,就像我们说话一样的,叫生成式。然后它是一个预训练的Transformer,是一个网络结构,它本质上是语言大模型,实际上是一个词语接龙的游戏。ChatGPT的参数规模是1750亿个参数,预训练的目的就是准确预测下一个接龙单词是什么。基于海量的数据,经过预训练,ChatGPT拥有相当量级的参数规模,模型能力已经很强大,剩下的是怎么进一步驯化它。

互联网上有很多的数据,大模型也好,人工智能也好,数据是基本要素之一。数据经过预测模型,预训练之后可以得到一个能力很强大的魔兽,但是这个魔兽有的时候不知所措,它不知道每个时间点该完成什么样的任务,进一步经过指令学习,我们可以对它做训练和分工,比如扔给它一堆文字,你帮我翻译一下,它就做中英翻译;你帮我写一段代码,它就做代码的生成;你帮我去写一个新闻稿,它去写新闻稿。当我们把这样成千上万的数据喂给它,它就知道什么时候该干什么,你只要有一个正确的指令给它,它就知道下一步该做什么,但是这个时候我们还不敢用它,因为有的时候它会乱说,它说的内容不符合我们人类的价值观。所以下一步,我们要用人类反馈强化学习。我们要训练它说出我们想听的话,说出符合人类价值观的话。我们国内的各个大模型也在经过这几步的训练。

(三)大模型时代走向通用人工智能

在过去几十年,人工智能各个方面已经有了巨大的发展,有了各种各样的能力,但是之前是专用人工智能,比如说图像识别,它只能识别人脸,识别路况。现在是通用人工智能,ChatGPT可以做各种任务,可以写作、聊天、问答、翻译、编程,甚至可以参加考试。我们通过语言的训练来强化它的学习能力,它可以把任务之间的边界给打破,这也造就了现在大模型的学习能力强。它会现学现用,会举一反三,甚至有推理能力。它还有一定的创造能力,所谓AIGC,就是帮助人类生成各种各样的内容,这个内容的生成不能是简单的重复,还要有创造。其实,懂人话和说人话,是从感知智能到认知智能的一个巨大发展。

微软有一篇文章称ChatGPT是通用人工智能的火花。我们并不能说ChatGPT就是通用人工智能的唯一路径,但是起码它点燃了一个火花,或者说可能的一条路径出现了。ChatGPT+X,就是ChatGPT在各个行业做一些应用和探索,比如跟传媒行业的结合。

三、大模型赋能传媒行业内容生成、交互方式

(一)ChatGPT+X:赋能传媒

1.内容生成(AIGC)

内容生成并不是刚刚有的,过去十年一直做这个事情,只不过现在大家对AIGC这个概念提得更多了。其实内容生成主要是数据源在哪儿。数据源有官方数据库、专业数据公司,企业数据库、互联网数据、社交媒体、论坛等。2014年美联社推出WordSmith,2015年腾讯推出DreamWriter,2016年新华社推出快笔小新。2022年11月30日,ChatGPT出来之后,很多人开始迅速用它创作,其实是快速做了一个推进。当然这里也会带来一些问题,比如假新闻,甚至多模态的创作生成的图片是AI生成的,我们怎样审核,这是一个非常重要的课题。

2.新的交互方式

大模型时代最大的推动,是交互方式的改变。人在几百万年的进化过程中,人和人交流,人和人互动,对人类社会的发展起到巨大的作用。计算机诞生之后,人也在跟机器自然地互动,而且这几十年的发展,人机互动进入了一个新的阶段,最早的人机互动是鼠标键盘、电脑系统,但是我们一直希望人和机器可以用自然语言做交互,这是最顺畅的。我把它归结为几个时代:第一个时代是互联网时代,人机交互是用百度、谷歌,人主动去检索,我们称为主动搜索的时代。第二个是移动互联网时代,机器会主动地推个性化的信息给不同的用户,机器主动发起,人类是被动的,所以是被动的内容推荐时代。第三个是大模型时代,我们真的实现人机的互动,双向的交互,大模型时代最核心的就是多轮的对话交互。这种交互方式的改变给传媒业带来什么变化?

(二)人机双向交互——视频媒体的视角

人机交互的方式变化以后,从媒体视角来看,AIGC怎样创作用户喜欢的内容?怎么满足用户个性化的需求?内容怎么传递给用户?从内容角度来看,用户在内容选择上,经历了选频道—关键词搜索—个性化推荐几个时代,和人机交互的演变过程是一样的。从传播角度来看,用户经历了名主播—大众主播—数字人主播,下一个阶段是什么?下一步就是人机双向交互。用户跟主播做交互,但是主播就一个,怎么能够响应那么多用户的需求?所以主播也会分身,有数字分身,不同的用户需求不一样,主播的数字分身可以与不同用户交互。还有就是用户之间也变成双向交互,有点类似于元宇宙的概念。

四、大模型的挑战

(一)大模型时代的挑战

大模型还是存在不足,一是没有可解释性,缺少透明的机制。它中间的神经网络是一个黑盒子,你也不知道它怎么预测下一次。二是违背事实的一本正经的胡说八道,缺少可控机制。我们说ChatGPT可以懂人话,可以说人话,但是我们希望它不乱说话。三是无法应对复杂的系统任务,缺少符号推理的机制。人是有一些结构化知识的,怎么结合,这个也是一个问题。四是模型无法实时更新,ChatGPT的大模型不能快速更新它的参数,它有一些方法可以去快速更新,但是没有办法把它整个模型做一个更新,所以它缺少在线学习机制。五是深层次的编码机制,语言编码和图像编码的差异,缺少理论支撑。

还有一个很大的挑战,新的技术带来新的国家安全和社会管理风险。用户隐私怎么保护,生成的内容版权怎么界定,生成的内容是不是符合伦理,我们在用它的时候有没有审查机制,怎样保证整个AI系统的安全性,会不会被攻击等等。

(二)大模型时代的发展趋势

大模型时代短期内的发展趋势,一个是通用大模型,像垂直领域的大模型,比如传媒大模型,贴合传媒业务,还有一个是语言对话系统,往人工大脑方向发展。

AIGC的发展方向,从语言文本,到音视图文,再到动作行为,最终的发展趋势,人类社会往人机共生的社会发展,媒体行业有什么新业态,可以进一步思考和探讨。

猜你喜欢

大脑人工智能人类
人类能否一觉到未来?
人类第一杀手
1100亿个人类的清明
2019:人工智能
人工智能与就业
数读人工智能
下一幕,人工智能!
人类正在消灭自然