APP下载

GPT爆发背后:自然语言处理的20年动荡

2023-07-25巩周周

飞碟探索 2023年2期
关键词:语义语言模型

巩周周

AI(人工智能)时代,语义处理会成为操作系统的核心,所有软件技术都会基于语义处理技术的进展而确立上限。而GPT-4,又一次敛住了所有老牌科技企业的光彩。

在ChatGPT被誉为范式转变之作的第3个月,谷歌推出PaLM-E(PathwaysLanguageModelwithEmbodied,直譯为具象化Pathways语言模型)视觉语言模型。功能上,除去让AI获得理解文字、图片的能力,额外增添了输出指令生成机器人行动计划的控制回路。

——谷歌显然急了,在OpenAI和微软的左右夹击下,直接甩出“大招”。

这场与过往相似的戏码谷歌再熟悉不过——移动互联网时代的手机系统之战,以操作系统起家的微软没能在智能手机发展初期抓住切入点,败北后起新秀谷歌、安卓。如今,紧锣密鼓研发大模型的谷歌被后浪OpenAI的突然成功打了个措手不及。即使谷歌发布参数量高达5620亿(GPT-3模型的参数量为1750亿)、目前世界上最大的视觉语言模型PaLM-E,也没能挡住GPT-4收获巨大胜利。

回溯2015年,埃隆·马斯克和山姆·阿尔特曼大概都不会想到,OpenAI这家非营利组织能够在10年内追平谷歌的技术进展,打破AI核心技术巨头的垄断格局。GPT的先发公测和底层平台开源也意味着更多、更广的技术会以此为基础进行开发。这是个漂亮的开端。

任何成功的背后都有着极为复杂的过程。自然语言处理技术跨越了3个阶段,现在终于迎来变革。接下来,让我们借由本文从当下回到过去,了解关于以下4个方面的内容:

1.自然语言处理的两次重要转折;

2.BERT和GPT这两种自然语言处理模型的应用差异及成因;

3.GPT为什么没有出现在中国;

4.自然语言处理是通用人工智能最重要的基础。

Word2vec:让机器感知语义

我们把时间线拉到20年前——

2003年,约书亚·本吉奥正式提出神经网络语言模型(NeuralNetworkLanguageModel,以下简称NNLM),而NNLM依赖的核心概念就是词向量(WordEmbedding,译为单词嵌入)。

如果说卫星定位导航是物理世界中标记位置的符号,那么词向量就是语言世界中标记距离的符号。

2010年,谷歌的托马斯·米科洛夫团队对NNLM进行改进,提出基于递归神经网络的语言模型(RecurrentNeuralNetworkbasedLanguageModel,以下简称RNNLM),目标是利用所有上文信息来预测下一个词语。但RNNLM存在长距离梯度消失的问题,上下文记忆能力有限,很难追溯更远时间的信息。而且,只通过孤立单词或上文信息,不足以让机器“感知”特定环境下的单词含义。

于是,2013年,米克洛夫团队提出Word2vec(单词到向量)。Word2vec的目标不再专注于构建语言模型,而是利用语言模型学习每个单词的语义化向量。

在1986年出版的《并行分布式处理》(ParallelDistributedProcessing)里有过这样的观点:“人类比当今的计算机更聪明,是因为人的大脑采用了一种更适合于人类完成他们所擅长的自然信息处理任务的基本计算架构,例如,‘感知自然场景中的物体并厘清它们之间的关系……理解语言,并从记忆中检索上下文的恰当信息。”

研究人员想到,如果能够把每个词汇都标注为数字,以编码形式输入,那么编码器网络就可以通过反向传播,在这些样本上进行训练。但是,一个非常重要的问题是,机器无法像人类一样获取单词或短语之间的语义关系。语言学家约翰·费斯在1957年把这一思想表达为:你会通过与一个单词一同出现的词来认识它。比如“生气”往往和“愤怒”出现在同一语境,“大笑”和“愉悦”也常被放在同一语境。

研究人员建立的“词汇表”发现,在使用大量英文语料训练词向量后,queen和king的词向量之差得到的向量与woman与man之差得到的向量几乎一样,继而可以得到一个等式:queen-king+man=woman。

这就是著名的“国王和女王”的例子,也是自然语言处理向理解语言更进一步的重要标志。

Word2vec,包含CBOW(连续词袋模型)和Skipgram(跳字模型)两组模型,分别根据上下文预测中心词以及根据中心词来预测上下文,简化网格结构;使用HierarchicalSoftmax、NegativeSampling两种算法提升训练效率,优化词向量和语义方面的能力。

在对机器进行词语、对话或是理念传达时,不同的语言使用方式和其所处环境密不可分。因此,要消解机器对模糊词、隐喻等产生的困惑,构建机器对世界的认知系统,数据和模型就变得格外重要。

当单词可以用坐标作为数字输入时,就大大提高了神经网络在自然语言处理中的性能。RNNLM虽然也能获得单词的分布式表达,但为了更好应对词汇量的增加,提高分布式表示的质量,Word2vec很快成为主流。

Transformer架构和BERT:从理论走向实践的一次蜕变

再把时间线拉到近5年内——

2017年,谷歌团队在论文AttentionisAllYouNeed中首次提出的Transformer架构,造就了一场关乎自然语言处理研究的始发性变革。

深度学习时代,自然语言处理准确率的提升带来模型对有标注数据的高度依赖。因为数据稀缺和人力成本高昂,大型自然语言处理模型的训练进入瓶颈期。

Transformer预训练模型主要分为两段训练:先在大规模未标注语料库训练一个初始模型,然后在下游任务中利用标注数据对初始模型进行精调。相对而言,预训练模型效能更高,对标注数据的要求更低。

很快,预训练模型成为自然语言理解任务中的基准模型。

GPT和BERT,这两个代表现代自然语言处理技术发展的模型都建立在Transformer架构上。谷歌团队把这个语言架构浓缩成一句话:“Attentionisallyouneed.(注意力机制就是你所需要的全部)”

2018年10月,谷歌团队发布的BERT语言模型让这项技术从理论走向实用。这是自然语言处理的一场全领域的狂欢,同时也预示着自然语言处理有史以来最强烈的一次进化即将开启。

在过往许多研究AI、自然语言处理、通用人工智能技术的书籍中都提到过一个词,叫“意义的障碍”。机器和人类间存在着阻碍交流的沟渠,所以创造出一种让机器理解人类写作、说话方式的能力,进而使其协助人类,这是自然语言处理的初衷。

人类拥有的能力之一,是感知并反思自己的思维方式,即透过现象,以某种本质、深刻的方式来理解周围情景,而机器并不具备这种理解能力。自然语言处理的目标就是让机器在理解语言上像人类一样智能,弥补人类交流(自然语言)和计算机理解(机器语言)之间的差距。

但语言这种具象表达方式,从标引符号演变为象征符号,再演变为语法,是个漫长的过程。自然语言是一种“活着”的语言,它不断演進、生长。从过去到现在,有许多俚语不断被淘汰,又有许多词语生成。基于此,这种可以择时生存的自然语言处理技术的研发变得相当困难。

在BERT发布前,大部分自然语言处理任务是基于Word2vec+RNNLM的基本架构的。由于数据匮乏,自然语言处理技术的进展一直不像计算机视觉开发那么顺利,于是,有些学者就将基于计算机视觉的思想应用到预训练+微调的架构上,ELMo(一种上下文词嵌入模型)和GPT就是采用了这种方式。

BERT在两个方向进行了创新。首先提出两阶段模型,第一阶段双向语言模型预训练,第二阶段具体任务Finetuning(微调);其次,将特征提取器变为Transformer。几乎所有的自然语言处理任务都可以采用BERT两阶段的训练思路,所以此后的几年,几乎所有企业都在以BERT为基础进行改进,研发方向也就此发生转变。

BERT和GPT模型的应用差异及成因

从自然语言角度出发,自然语言处理大致可分为理解和生成两个部分。

自然语言理解:让计算机能够理解文本的含意。具体来说,就是把语言以可分解的符号或语音进行表示,从中提取有用的信息用于下游任务。研究方向包含语言结构、信息抽取、信息检索、词性标注和句法分析。

自然语言生成:按照一定语法和语义规则生成自然语言文本、图表、音视频,即以人类可读形式进行语义信息的表达。简单来说,就是从文本规划到语句规划再到实现传达。主体分为三大类:文本到文本(TexttoText)、文本到其他(TexttoOther)、其他到文本(OthertoText)。

以BERT和GPT为例,即使它们都属于预训练模型,但在技术研发方向上存在分流。

BERT(BidirectionalEncoderRepresentationsfromTransformers,直译为来自Transformer的双向编码表示模型)

双向语言模型,可以同时利用上下文信息进行预测,是自然语言理解任务中的基准模型。由Transformer的Encoder(编码)模块构成,采用预训练+微调两阶段模型训练,属于半监督学习模型:在预训练时使用大量无标注数据,属于自监督训练;而微调时采用少量有标注数据,属于有监督训练。

BERT的预训练包含掩码语言模型(MaskedLanguageModel,简称MLM)和下一句预测(NextSentencePrediction,简称NSP)两个任务,引入基于自编码的预训练任务进行训练。这种训练方式让BERT可以有效捕捉文本中的语义信息,因此被广泛用于文本分类任务,如机器翻译、情感分析、垃圾邮件识别、新闻分类、问答系统、语义匹配等方向。

GPT(GenerativePre-trainedTransformer,直译为生成式预训练Transformer模型)

单向语言模型,采用自回归语言建模方式,进行两阶段训练:生成式预训练(无监督)+判别式任务精调(有监督)。

第一阶段,利用大规模数据训练出基于深层Transformer的语言模型;第二阶段,在通用语意表示的基础上,根据下游任务特性进行领域适配。微调通常是在一个较小的数据集上进行的,因此可以使用较小的学习率和少量的训练迭代次数进行训练。

单向训练方式只能利用之前的文本从前往后进行预测,因此适用于自然语言生成、问答系统、机器翻译等任务。

BERTVS.GPT

在表征和表达能力上,相较单向语言模型(GPT),双向语言模型(BERT)能力更强。因为在单向语言模型中,只能依赖于前词,而无法获取后词信息,在处理复杂自然语言任务时,这可能会由于无法充分捕捉上下文信息,影响模型的性能。反之,双向语言模型优势明显。

BERT的双向性增强了它的理解能力,但在一定程度上限制了生成能力,相较于单向模型仅通过上文即可进行续写生成,双向模型在缺乏下文语境时生成能力受限。对整个句子进行双向处理,也意味着模型更大、训练和推理时间更长,所需计算资源和存储空间更多。GPT在简化程度、训练及推理速度上更快,更加适用于实时性要求高的场景。

相对于GPT这种单向语言模型,BERT等双向语言模型虽然存在缺点,但在实际应用中更加灵活和更具有表达能力,也更容易迁移和扩展。在模型研发方面,BERT更注重模型的复用性和通用性,适用于多种自然语言处理任务的应用。

研发上,BERT引入了Transformer的Encoder(编码)网络结构,用于对输入的序列进行编码;GPT则采用Transformer的Decoder(解码)的网络结构,用于生成自然语言文本。

模型复杂度方面,BERT比GPT的模型架构更加复杂。训练方式上,BERT需要在自定义数据上进一步微调,与GPT比较,BERT也就更加复杂和烦琐。

“梅须逊雪三分白,雪却输梅一段香。”总的来说,BERT和GPT两者各有千秋,设计和应用方向的差别,决定它们适用于不同的应用环境。

BERT提出后的一年内,涌现出许多对其进行扩展的模型,其中包含XLNet模型、RoBERTa模型等。并且,大多数自然语言处理子领域研发模式切换为:预训练+应用微调/应用ZeroShotPrompt、FewShotPrompt模式。

XLNet模型:XLNet使用Transforner-XL(XL即extralong,表示更擅长处理较长上下文,能更有效建模长期记忆)代替Transformer作为基础模型,提出了一个新的预训练语言任务:PermutationLanguageModeling(排列语言模型)。模型将句子内的词语打乱顺序,从而使得预测当前词语时可以利用双向信息。XLNet相对BERT也使用了更多语料。

RoBERTa模型:RoBERTa采用了与BERT相同的模型结构,同样采用了MLM掩码语言模型进行预训练,但舍弃了BERT中的NSP下句预测模型。此外,RoBERTa采用了更大规模的数据和更棒的微调方法,从而取得了更好的表现。

GPT为什么没有出现在中国

GPT目前已经发布5代,从GPT-3起与BERT逐渐拉开差距。实际上,它不仅是一项具体的技术,更多的是关于大语言模型的不同发展理念。

ChatGPT是从生成式预训练Transformer,即GPT-3.5在经过文本和代码的混合语料训练后,再微调得到的,使用了利用人类反馈的强化学习技术,即带有搜索启发式的强化学习。它将两种目的紧密结合,用以解决复杂的搜索问题,也是目前大语言模型与人类意图较匹配的方法。

反观自然语言处理的发展史,虽然谷歌的模型升级更迭贯穿始终,竞争力较强,但DeepMind一直以来的重心在强化学习和AI技术方面,在生成式模型研发上押注不够。

以往,GPT的可商用场景不明确,BERT的商用趋势却十分明显,因此语义理解精准度一直是领域发展重点,国内外大部分企业也是沿着BERT模型路线进发。面对当前情形,尽管谷歌反应够快,2022年4月便发布Pathways(谷歌提出的一种接近人脑的AI通用构架)和PaLM(基于Pathways系统训练的一种语言模型),全力追赶大语言模型技术,但仍显得入局尚晚。

经不完全统计,我国自然语言处理领域目前布局有52家,大部分布局重心在前端,即应用端,虚拟人、智能语音、翻译及基于自然语言处理技术的机器人流程自动化(RoboticProcessAutomation,以下简称RPA)这几类,发展较为靠前。科技发展中所重视的“技术在前,应用在后”,在我国似乎体现不明显。

不过,谷歌尚且在大语言模型上落后一线,这只能说明在之前的研发理念上就存在分歧。目前来看,百度、阿里、华为、讯飞等企业的大语言模型研发能力存在潜力,数据、技术积淀方面国内有相对优势。

国内一些企业在发展新技术时往往会首先看重商用化可行性,包含医药研发在内,许多领域都会考虑短线收益,这种方式并不适合新技术的产生。

从整体走向局部,从应用走向基础,着眼算力、芯片、框架逻辑、理念意识才是关键,决定技术进展的往往是基础科研。

自然语言处理是通用人工智能最重要的基础

GPT-4的出现让自然语言处理社团分成两股:相信通用人工智能的和不信通用人工智能的。

进入大模型时代,范式改变给自然语言处理带来内核上的转变,许多独立存在的子领域被纳入大语言模型,不再独立存在,大语言模型热度空前。

2023年2月25日,OpenAI首席执行官阿尔特曼在博客中分享其对通用人工智能的规划,以及OpenAI驾驭AI的风险。

他的短期计划是使用AI来帮助人类评估更复杂模型的输出和复杂系统的监控;长期计划是使用AI来帮助人们提出新的想法,以实现更好的对齐技术。他认为,一个错位的通用人工智能可能会对世界造成严重伤害。

微软于2023年3月发布的长篇报告说:“考虑到GPT-4功能具有的广度和深度,我们可以合理地认为它是通用人工智能系统的早期(但仍不完善的)版本。”

不过,他们也承认,“虽然GPT-4‘对处理许多任务而言达到或超过人类水平,但其整体‘智能模式显然不像人类。所以,大致来讲,即使它确实表现出色,但仍然不能完全像人类一样思考”。

微软提到了一个词——思考。

许多哲学家认为,即使通过图灵测试的机器实际上也不会真正进行思考,而只是对思考的模拟。

斯坦福大学教授克里斯托弗·曼宁在2017年提出,“到目前为止,深度学习已经使得语音识别和物体识别的错误率大幅下降,但其在高级别的语言处理任务中并没有产生同等效用”。

人类语言往往依赖于常识及对世界的理解,这也使得机器在处理更高级别的语言任务时,要完全理解人类语言,具备人类的常识和无意识行为。目前大语言模型还很难做到。

不过,20世纪90年代,发明家、未来学家雷·库兹韦尔发现这样一个规律:一旦技术变得数字化,或者被编程为以0和1表示的计算机代码,它就能够脱离摩尔定律的束缚,开始呈指数级加速发展。简单来说,技术发展后的产物会被用来加速技术升级,这就创造了一个正反馈循环。根据该理论,技术改良以过去的成就为基础,每10年革新步调就会成倍加速。

传说西塔发明了国际象棋而使国王十分高兴,国王决定要重赏西塔,西塔说:“我不要你的重赏,陛下,只要你在我的棋盘上赏一些麦子就行了。在棋盘的第一个格子里放1粒,在第二个格子里放2粒,在第三个格子里放4粒,在第四个格子里放8粒……依此类推,以后的每一个格子里放的麦粒数都是前一个格子里的2倍,直到放满64个格子就行了。”

区区几粒麦子,这有何难,国王令人如数付给西塔。计数麦粒的工作开始了,第一格内放1粒,第二格内放2粒,第三格内放4粒……还没有到第二十格,一袋麦子已经空了。一袋又一袋的麦子被扛到国王面前,而麦粒数一格接一格飞快增长,国王很快就发现,即便拿出全国的粮食,也兑现不了他对西塔的承诺。

独立指数技术加速浪潮,已经开始呈现出与其他技术加速浪潮融合的趋势。比如,自然语言处理技术的加速发展,不仅是因为自然语言处理或大語言模型的单项技术在加速发展,还因为AI、深度学习、神经网络等技术正加速发展,并且都在向这个范围靠拢。

2000年,互联网创始人提姆·伯纳斯·李提出“语义网”概念。他希望建立一个以“本体”为基础的、具有语义特征的智能互联网,不仅能够理解语义概念,还能够理解语义之间的逻辑。突破单句限制,根据整个动态交互过程中的语义和语境的变化情况,对用户实时输入的语句进行处理并生成结果,是实现“语义网”的基础。

正常的发展逻辑是,首先通过解决语义表达,让计算机利用对现有信息的经验积累和理解,上升到更高层次。这也意味着,AI时代,语义处理会成为操作系统的核心,所有软件技术都会基于语义技术的发展而不断确立上限。

自然语言处理的发展,目前主要通过大数据、模型框架及训练模式的互补和变化来构建。数据存在歧义性。大语言模型时代,数据成为重要核心,机器在进行对话或理念传达时,模型的使用环境和使用方式可以左右最终的结果。因此,要消解机器对模糊词、隐喻等的困惑,构建机器对世界的认知系统,人,在这种体系中格外重要。

猜你喜欢

语义语言模型
重要模型『一线三等角』
重尾非线性自回归模型自加权M-估计的渐近分布
语言与语义
让语言描写摇曳多姿
累积动态分析下的同声传译语言压缩
3D打印中的模型分割与打包
“上”与“下”语义的不对称性及其认知阐释
FLUKA几何模型到CAD几何模型转换方法初步研究
认知范畴模糊与语义模糊
语义分析与汉俄副名组合