从逻辑学视角看人工智能语言模型ChatGPT
2023-11-08王刚李晟
王 刚 李 晟
(四川师范大学 哲学学院,四川 成都 610066)
大型语言模型ChatGPT(Chat Generative Pre-trained Transformer)是由美国人工智能研究公司OpenAI研发的一款自然语言处理工具;更直观地讲,ChatGPT是一款人工智能聊天机器人程序,它能够根据对话语境对提问者的问题作出较为精确的理解,从而针对相关问题生成具有合理性的自然语言文本[1]。正是基于上述性能优势,该程序一经推出,就引起社会各界的广泛关注和讨论。我们将从逻辑学视角对这一语言模型背后的逻辑机制进行探讨,并以该模型的局限性为出发点,对机器学习和自然语言处理的未来可能研究路径加以分析和展望。
一、基于归纳逻辑机制的语言模型ChatGPT
从人工智能应用研究的领域来看,语言模型ChatGPT属于自然语言处理的范畴;但从技术层面来看,ChatGPT是一种机器学习系统,这是因为,ChatGPT背后的关键技术是建立在深度学习算法的基础上。因此,为了探讨ChatGPT背后的逻辑机制,需要对机器学习的基本原理作出必要的解释。
机器学习不仅是当代人工智能研究领域的一个重要分支,而且已经发展成为一门具有广泛而深刻影响的独立计算机学科,并被成功应用于模式识别、自然语言处理、数据挖掘、生物信息学等各个领域。机器学习的广泛应用标志着人工智能研究在经历了以“逻辑理论家”等程序为代表的“推理期”和以“专家系统”为代表的“知识期”之后,进入到了又一具有广阔前景的发展阶段。所谓的机器学习,是指“通过对计算机进行编程,使计算机能够从可用的输入数据中进行‘学习’;简而言之,机器学习就是将经验转化为专业知识的过程,给学习算法输入的是代表经验的训练数据,学习算法输出的是专业知识”[2]。机器学习最早可追溯至20世纪50年代,并在此之后经历了联结主义(connectionism)、符号主义(symbolism)、统计学习(statistical learning)等发展阶段[3]10-12。
从本质上看,机器学习的目标是使计算机系统具备人类的学习能力。具体来说,机器学习旨在使计算机系统从经验数据中学习一般性规则,进而构建出简单实用的数学模型,并运用这些模型对新情况作出预测或从经验数据中获取知识,以此优化系统自身的任务处理性能。例如,为了了解某一商品的潜在客户,计算机系统可以凭借现有客户的数据信息(如年龄、性别、职业、个人收入等)推断出能够反映潜在客户特征的一般性规则,并基于该规则在海量人群中初步判断其是否为潜在客户。
机器学习的学习路径可以概括如下:首先,选择训练数据的类型,使计算机系统从中进行学习;其次,确定计算机系统的学习任务,即确定系统所要学习的目标函数(target function);再次,选择一种表示(representation),用于描述目标函数;最后,确定学习算法,使计算机系统能够学到与目标函数近似的函数[4]。基于上述学习路径,我们可以对机器学习的基本原理进行简要阐释。
机器学习致力于研究计算机系统如何从经验数据中进行学习,因此,根据经验数据是否拥有标记,可以对以下两种基本的学习问题作出区分,即监督学习(supervised learning)问题和无监督学习(unsupervised learning)问题。
在监督学习中,涉及两种类型的空间,即输入空间(input space)X和输出空间(output space)Y。具体来说,计算机系统从数据中学习的过程也被称为训练(traning),为了学习,首先需要为系统提供一组示例(instance)或样本(sample)xi,这些示例构成的集合X={x1,x2,…,xm}就是所谓的输入空间或样本空间(sample space)。每一个示例xi都拥有相应的标记(label)yi,用于表明xi的某种特征;所有标记构成的集合就是所谓的输出空间或标记空间(label space)。拥有标记yi的示例xi被称为样例(example),可以记作(xi,yi)。在训练过程中,所有样例构成的训练数据集合{(x1,y1),(x2,y2),…,(xm,ym) }被称为训练集(traning set)。就监督学习而言,学习的任务是从训练集中学习由输入到输出之间的映射,即示例与标记之间的函数关系f:X→Y。根据具体的学习情况,所学得的函数关系可以用决策函数Y=f(X)或条件概率分布P(Y|X)来表示[5]。从本质上看,上述函数反映了已知样例的一般性规则或潜在规律,这种规则又被称为模型(mo-del)、假设(hypothesis)或预测规则(prediction rule)。
不同于监督学习,在无监督学习中,训练集仅仅由不拥有标记的示例构成。也就是说,学习过程中所使用的训练数据仅仅由一组输入的示例组成,至于这些示例属于哪一种类别,则是未知的。因此无监督学习无法像监督学习那样,学习输入到输出之间的函数关系,而只能从输入的示例中概括和提取某种潜在的规律或内在的结构。例如,作为非监督学习的一种常见方法,聚类(clustering)的学习任务是,将训练集中具有相似特征的示例归为一类,并在此基础上将所有示例划分为若干个组。
由于机器学习旨在基于所学得的模型或规律“解释已被发现的样例以及类推到先前未见过的新样例”[6]652,因此,在学得模型或规律之后,需要使用该模型或规律对新样本进行预测,从而分析该模型或规律是否能够很好地适用于新样本,并反映出所有潜在样本的普遍规律。运用模型或规律进行预测的过程被称为测试(testing),而所学得的模型或规律对新样本的预测能力则被称为泛化能力(generalization ability)。一般而言,所学得的模型或规律在泛化能力方面经常会出现两种情况:第一种情况是“过拟合”(overfitting),即所学得的模型或规律能够很好地反映出训练数据的特性,但对新样本的预测能力较弱;第二种情况是“欠拟合”(underfitting),即所学得的模型或规律未能充分习得训练数据的一般特性,无法对训练数据作出较好的解释,进而也无法对新样本作出较好的预测。
计算机系统从经验数据中进行学习的整个过程是通过执行某一具体的学习算法(learning algorithm)来实现的[3]2。换言之,计算机系统需要利用学习算法从经验数据中学习模型。因此,学习算法在机器学习中起着至关重要的作用,在学习过程中,计算机系统最终有可能获得与训练集一致的多个模型,这些模型都可以对训练集的所有训练数据作出正确的解释。由此造成的后果是,当运用这些不同的模型对同一个新样本进行预测时,可能获得截然不同的预测结果。这一事实表明,如果同时面对多个模型,那么计算机系统无法对未知样本作出确切的预测。为了避免上述情况的发生,学习算法需要从多个模型中选择一个,以此作为计算机系统从经验数据中学到的最优模型。此时,学习算法自身对某类模型的偏好(bias)决定了它最终将从训练数据中产生哪一个模型。问题在于,怎样的偏好才可以被视作合理呢?在机器学习中,对于学习算法的偏好,需要遵循一个基本原则,即“奥卡姆剃刀”(Occam’s Razor)原则:给定可比较的经验误差,简单模型相较于复杂模型而言,泛化能力更优,对数据的解释也更加可信,因此对简单模型的偏好应当胜过复杂模型[7]。也就是说,在面对众多模型时,应当选择更简单的模型,而非更复杂的模型。基于这一原则,似乎可以推断出,偏好简单模型的学习算法优于偏好复杂模型的学习算法。然而,根据“没有免费的午餐”定理(No Free Lunch Theorem)可知,在某一数据集上表现出良好性能的学习算法,在面对其他数据集时可能会表现出极差的性能,因此所有学习算法的平均性能都是相同的[6]692-693。这一定理表明,不存在某一学习算法的性能优于另一学习算法的情况;或者说,并不存在性能最优的学习算法。由此可见,为了使机器学习成为可能,需要设立一个前提条件,即“每一个学习问题仅仅通过合适的算法才能够被解决,而该算法无法处理其他的学习问题”[8]722。
随着机器学习的迅猛发展,基于神经网络的预训练语言模型已成为自然语言处理领域的研究重点。在人工智能自然语言处理研究领域中,目前最具代表性的预训练语言模型当属ChatGPT。作为大规模预训练语言模型,ChatGPT的创建得益于深度学习技术的不断迭代和升级。深度学习是机器学习理论的一种研究进路,同时也是一种具有代表性的机器学习方法和技术;事实上,深度学习是一种基于深度神经网络的机器学习理论。进而言之,深度学习是运用深层非线性网络结构“将观测数据进行分层特征表示,从而将底层特征抽象为高级特征表示的过程”[9]。从本质上看,ChatGPT是一种深度学习模型;更进一步地讲,ChatGPT是基于GPT-3.5模型而构建的人工智能语言模型。GPT-3.5模型是GPT系列模型中的一种,GPT的全称为生成式预训练语言模型(Generative Pre-trained Transformer),该语言模型经过改进,衍生出一大批GPT系列模型,例如GPT-2、GPT-3、GPT-3.5和GPT-4。GPT系列模型的核心在于,采用预训练加微调(fine-tuning)的学习模式。换言之,GPT系列模型的训练过程可以分为两个阶段,即无监督的预训练阶段和有监督的微调阶段。预训练阶段的目标是从数据中训练出一个通用的预训练语言模型,因此,在该阶段,运用预训练技术,通过无监督学习在大规模无标记语料库数据上训练深层的网络结构,并由此获得一组训练参数,这种训练出的多层网络结构就是所谓的“预训练语言模型”[10]。需要指出的是,GPT系列模型都是建立在神经网络模型Transformer的基础上,原因在于,它们在预训练阶段都需要使用Transformer来完成预训练任务。也就是说,GPT系列模型都需要将编码后的数据输入到Transformer中并产生相应的输出,并在此基础上训练出更加通用的预训练语言模型。在完成预训练阶段之后,随即进入有监督的微调阶段,即根据特定任务的需求,通过监督学习对预训练后的语言模型进行微调,从而使模型能够应用于各种任务中。
ChatGPT的前身是InstructGPT,两者的区别仅仅在于前者是由GPT-3.5提供支持的语言模型,而后者是基于GPT-3所创建的语言模型。由于ChatGPT与InstructGPT的训练方式基本上相同,因此我们可以基于InstructGPT来讨论ChatGPT的训练过程。具体而言,InstructGPT的训练过程大致可以分为三个步骤[1]:
第一步,使用有监督的微调训练初始模型。即利用人工标注数据对GPT-3模型进行有监督的微调,从而获得有监督微调(supervised fine-tuning,以下简称SFT)模型。
第二步,训练奖励模型(reward model)。为SFT模型输入数据并获得不同的输出结果,标注人员基于人类的偏好对这些输出结果按照质量的好坏程度进行排序,然后根据这些排序的结果训练奖励模型。奖励模型的目标是:评估SFT模型的输出是否符合人类的偏好。
第三步,基于强化学习(reinforcement learning)对初始模型进行优化。再次为SFT模型输入数据并获得不同的输出结果,同时运用训练好的奖励模型为这些输出结果打分,根据分数的高低对这些结果进行排序。根据排序结果,更新SFT模型的参数,从而进一步优化SFT模型。从本质上看,上述整个过程就是所谓的强化学习。通过循环往复地进行强化学习,SFT模型不断地迭代升级和优化。
根据上文对机器学习和ChatGPT的基本原理所作的探讨,我们发现,从逻辑学视角来看,ChatGPT是一种建立在归纳逻辑基础上的自然语言处理模型。一般而言,归纳逻辑是对以下两种命题之间的关系加以刻画的推理系统,即基于给定数据的命题与超出这些数据范围之外的命题。例如,基于给定数据对未来的数据进行预测,或从给定数据中推导出超越这些数据的一般性结论[11]。显然,无论是机器学习,还是依赖于机器学习技术的大型语言模型ChatGPT,它们采用的推理手段都是归纳推理,因而它们都属于广义的“归纳学习”(inductive learning)或“从样例中学习”(learning from example),即从特殊性知识中概括出一般性结论的学习。这是因为:第一,机器学习在学习的过程中运用了统计学理论和概率理论,通过收集、观测并分析经验数据,从各种具体的经验数据中推导出通用的数学模型,以此提取出一般性规则。机器学习能通过逻辑推理从给定的经验数据中学到新的知识。事实上,这种基于个别的经验数据推断一般性知识的推理路径属于归纳推理。第二,基于深度学习机制的ChatGPT融合了统计学习理论和深度学习的基本观点。一方面,运用统计学习理论,ChatGPT从单一类型、结构化的数据样本中学习并抽取模型;另一方面,凭借深度学习机制,ChatGPT从复杂异构的大数据中学习和提取各种知识。基于上述分析,我们认为,ChatGPT的推理机制本质上属于归纳逻辑的范畴,这种推理机制融合了统计推理和概率推理的思想。
二、从因果推理的视角看ChatGPT的局限性
ChatGPT号称是目前自然语言处理领域中最先进的人工智能程序。不可否认的是,ChatGPT的强大性能使其可以出色地完成大量任务、成功地生成令人满意的文本,但ChatGPT亦具有诸多局限性,其中最为严重的缺陷就是其自身的“黑箱”问题。
具体来说,在人类看来,ChatGPT输出的答案可能与输入的问题是南辕北辙、毫无实际关联的,但在ChatGPT看来,这些答案却是正确的,由此造成了ChatGPT有时会“一本正经地胡说八道”。这一现象表明,ChatGPT缺乏深度理解能力,无法理解自己生成的内容,它仅仅能够依据大规模语料库中的数据生成具有逻辑连贯性、符合人类思维以及没有语法错误的文本,但却无法识别数据中所蕴含的信息之真伪[12]。进一步言之,ChatGPT在生成文本的过程中,只依靠概率与统计的思想,针对特定问题生成最符合人类偏好的答案,但是难以从海量数据中推导出不同对象之间的因果关系,进而无法对问题与答案之间的因果关系作出合理的判断,以致经常给出错误的答案。归根结底,造成这一现象的根本原因在于,“ChatGPT并没有探索人脑结构和认知机制,它仍然是一种基于统计学习神经网络的黑箱模型,不能够解释其内部的工作机制”[13]。换句话说,由于ChatGPT的“黑箱”问题,ChatGPT既无法理解自己的生成内容,也无法正确识别模型的输入与输出之间的因果关系。
鉴于ChatGPT的上述局限性,我们尝试从因果推理的视角出发,为这一问题的解决提供一些思路。
近年来,随着计算机技术的发展和大数据时代的来临,因果关系研究愈发受到人工智能和机器学习领域研究者的重视,如何从海量数据中有效地发现因果关系,已经成为一个研究热点。著名人工智能专家朱迪亚·珀尔(Judea Pearl)曾指出,“因果关系是客观世界的实在性和人类理解这种实在性的基本构件”[14],因此“因果关系才是我们理解世界的基础和推动力”[14]。基于这一认识,珀尔认为,机器具备发现因果关系的能力是实现强人工智能的突破口[15]。从本质上看,因果关系是客观事物或现象中普遍存在的一种内在关系,“原因”和“结果”的概念可以用来解释事物或现象之间的必然联系。从各种数据中发现特定事物或现象之间的因果关系,这不仅有助于揭示和理解事物背后的本质规律,同时还对人们的预测、决策、判断等行为起到指导作用。
然而,在运用经验数据学习和提取知识的过程中,以ChatGPT为代表的机器学习技术更多关注的是数据之间的相关关系,而非因果关系。那么,相关关系和因果关系有何联系与区别呢?相关关系是指两个特定对象之间存在一定的关联性;这种关联性的特点在于,当其中一个对象发生变动时,另一个对象也会随之发生变动[16]。大数据时代的到来使得一些学者认为,相关关系可以取代因果关系,“在大数据基础上建立起来的模型没有关于‘为什么’的理解,只有‘是什么’”[17]。显然,这种观点有待进一步商榷。事实上,相关关系与因果关系之间存在本质差别:因果关系是一种必然性的联系,而相关关系则不是。对于具有因果关系的两个特定对象而言,它们之间通常也具有相关关系;但对于具有相关关系的两个对象而言,则不一定具有因果关系。相关关系不拥有必然性联系的事实表明,数据之间的相关关系不一定可靠,这种相关关系有可能是一种虚假的相关关系。换言之,尽管一些数据看上去似乎具有相关关系,但实质上可能并不存在任何关联性。因此,如果忽视数据之间的因果关系,只重视相关关系,那么极有可能导致凭借数据之间的虚假相关关系而获得错误的知识。正因如此,ChatGPT有时会“一本正经地胡说八道”的现象实则可以归因于它从数据中获得了一种虚假的相关关系。前文已经提到,机器学习的目标在于从数据中获取知识,以便在面对新情况时用这些知识进行预测。通常而言,这种知识是建立在相关关系的基础上,而不是因果关系的基础上。相较于相关关系,因果关系能够反映出数据之间的本质联系和内在规律,因此,基于因果关系所作的预测比基于相关关系所作的预测更加准确和可靠。由此可见,为了最大限度避免ChatGPT的上述缺陷,机器学习领域需要进一步加强对因果关系的研究,将关注的重心从相关关系的发现向因果关系的发现倾斜。
如何发现因果关系呢?一般而言,传统的因果关系发现方法和基于观测数据的因果关系发现方法是两种用来推断因果关系的主流方法[18]。传统的因果关系发现方法是通过随机控制实验来推断因果关系,但由于该方法的局限性过多,人们更倾向于从观测数据中推断不同变量之间的因果关系。从逻辑学视角来看,这种从观测数据中发现因果关系的推理方式本质上属于因果推理。从观测数据中发现因果关系的方法还可以进一步细分为两种常见的类型,即基于约束的因果发现方法和基于函数因果模型的因果发现方法[19]。
基于约束的因果发现方法主要是利用贝叶斯网络模型进行因果推断。具体来说,凭借贝叶斯网络,基于约束的因果发现方法构建了因果贝叶斯网络。因果贝叶斯网络通过有向无环图来表示变量(或对象)之间的因果关系结构。有向无环图由一组节点和若干条带有箭头的边(即有向边)组成,其中,每一个节点表示一个随机变量,每一条有向边表示两个变量之间的因果关系。如果两个节点被一条有向边连接起来,则表示变量之间存在因果关系,其中箭头指向的节点表示结果变量,与之对应的另一个节点则表示原因变量。反之,如果两个节点之间不存在有向边,则表示变量相互之间是条件独立的。基于约束的因果发现方法的基本步骤可以概括为:在诉诸有向无环图的基础上,首先判断变量之间是否具有条件独立性,以便确定变量之间的因果关系;然后依据一系列规则确定变量之间的因果方向,从而构建出因果网络结构。
基于约束的因果发现方法存在一个很大的缺陷,即难以完全确定所有变量之间的因果方向,而基于函数因果模型的因果发现方法可以有效地解决这一问题。基于函数因果模型的因果发现方法是一种将函数因果模型引入到因果网络中的因果推断方法。函数因果模型假设原因变量x和结果变量y之间具有一种函数映射关系,即y=f(x,n),x⊥n。其中,f可以是任意形式的函数,x表示原因变量,y表示结果变量,n表示噪声变量(即扰动变量),x⊥n表示x与n相互独立。基于函数因果模型的因果发现方法规定,如果x是原因变量、y是结果变量(即x→y),则它们必定满足以下条件:即,当x→y时,x⊥n成立;且当y→x时,x⊥n不成立。这表明,基于函数因果模型的因果发现方法主要通过判断原因变量与噪声变量是否相互独立来确定变量x和y之间的因果方向。
因果发现方法可以有效地推断出数据之间的因果关系,提取数据中蕴含的知识,解释数据的产生机制,这些显著的优势让这个方法在人工智能和机器学习领域获得了越来越广泛的应用。在因果发现方法的众多应用中,最具代表性的应用当属半监督学习(semi-supervised learning)与因果推理的融合。
半监督学习是一种将监督学习和无监督学习的思想结合起来的学习方法,其基本原理可以归结为:在缺乏足够数量的有标记样本时,同时使用有标记样本集{(x1,y1),(x2,y2),…,(xl,yl) }和未标记样本集{xl+1,xl+2,…,xl+u}来训练模型,以此学习输入到输出之间的函数关系f:X→Y。需要指出的是,这些样本都服从一个未知的分布。
从本质上看,因果发现方法对半监督学习任务具有极大的影响。如果x对应于原因变量、y对应于结果变量,那么P(x)和P(y|x)彼此独立。这意味着,P(x)不能告诉人们关于P(y|x)的额外信息。在这种情况下,半监督学习无法进行下去。反之,如果y对应于原因变量、x对应于结果变量,那么P(y)和P(x|y)之间彼此独立。这意味着,P(x)和P(y|x)之间并非相互独立。在这种情况下,半监督学习可以起到作用[20]72-74。由此可见,为了使半监督学习有效,首先需要运用因果发现方法推断出数据背后的因果结构。
因果发现方法在半监督学习中的应用为我们反思ChatGPT的局限性提供了一些启示。以发现相关关系为目标的机器学习虽然能够从数据中获取不同对象之间的相关关系,并基于该关系来预测未来,但是这些相关关系缺乏可解释性,也就是说,其无法合理地解释不同对象之间的关联性,比如难以解释为什么两个对象之间具有相似的属性。从某种意义上讲,ChatGPT的黑箱式生成机制正是源于机器学习的上述缺陷。相对于ChatGPT的黑箱式生成机制而言,建立在因果推理机制上的因果发现方法具备更好的可解释性,它可以有效地揭示数据之间产生相互影响的内在机制,发现蕴含在数据背后的因果关系和本质规律,从而确保计算机系统能够从数据中学到正确的知识。正因如此,我们认为,基于因果推理的因果发现方法有助于增强ChatGPT的生成过程及其内容的可解释性,进而在一定程度上避免ChatGPT“一本正经地胡说八道”的现象。
总之,通过上文的分析,我们发现,与统计推理和概率推理相比,机器学习领域对因果推理的运用和讨论相对较少。事实证明,因果推理能够让以相关关系学习为基础的机器学习技术变得更加完善、更具合理性。在机器学习领域,无论是统计推理、概率推理,还是因果推理,都是必不可少的推理手段。因果推理在机器学习算法中同样可以起到至关重要的作用,尽管学界对“如何将因果推理有效地应用于机器学习算法”这一问题的研究还有待进一步深化,但毫无疑问,运用因果推理来思考和理解机器学习中的难题是一个具有广阔前景的研究方向。有鉴于此,我们认为,为了克服ChatGPT这一目前最具代表性的机器学习技术所面临的局限性,诉诸于因果推理显然是一种值得尝试的选择。如何将因果推理、统计推理和概率推理这三种推理手段有机地结合,是包括ChatGPT在内的机器学习理论和技术未来应当努力的方向。
三、从演绎逻辑的视角看ChatGPT的局限性
ChatGPT令人印象深刻的原因在于,它可以针对相关问题从经验数据中提取出具有一定合理性的知识或答案。显然,这些知识并非从白板中自动产生,而是ChatGPT借助机器学习的基本原理获得的。
根据前文的论述,我们认识到,机器学习的基本原理可以归结为从经验数据中推断出一般性模型,这种推理是一种基于经验的归纳推理。而推断出的结论(即模型)之所以具有合理性,是因为它建立在奥卡姆剃刀原则的基础上,即对于从经验数据中推断出的多个模型,偏好并选择其中最简单的一个。然而,“没有免费的午餐”定理已经表明,奥卡姆剃刀原则“并非唯一可行的原则”[3]7。基于奥卡姆剃刀原则来选择简单模型的事实并不能证明偏好简单模型的学习算法在性能方面比偏好复杂模型的学习算法更优,学习算法在性能方面的优劣需要视具体的学习问题而定。换言之,即使依据奥卡姆剃刀原则挑选的简单模型在某一学习问题中的泛化能力非常强,但在另一些学习问题中的泛化能力却不一定比复杂模型强。有鉴于此,我们是否真的能够信任基于奥卡姆剃刀原则所选出的模型?显然,答案是否定的。仅仅依据奥卡姆剃刀原则就对计算机系统凭借归纳推理所学到的模型产生信任,这种做法缺乏充分的说服力。归根结底,在归纳推理中,前提与结论之间不具有必然的联系,而是仅具有或然的联系。这表明,归纳推理的前提和结论之间的推理关系不具有保真性,归纳推理的结论只有一定程度的可靠性。因此,尽管机器学习运用归纳逻辑可以从经验数据中轻易地推断出一般性规则,但是由于归纳推理自身的缺陷,这种规则的真实性和可靠性无法得到保证。正因如此,机器学习虽然在众多领域被广泛应用,人们却始终难以完全信任计算机系统的学习结果。
由于ChatGPT是建立在机器学习机制的基础上,因而它不可避免地需要面对上述提到的问题。换言之,ChatGPT凭借归纳推理从经验数据中提取的知识不具备完全的可靠性。从某种意义上讲,ChatGPT自身的局限性在很大程度上源于其背后的机器学习机制仅仅将归纳推理作为唯一可靠的推理手段。正是基于这一认识,在下文中,我们将试图跳出归纳推理的窠臼,从演绎推理的视角出发,来思考上述问题的破解方案。
作为一种大规模预训练语言模型,ChatGPT代表了自然语言处理领域的最新研究进展和成果。从研究方法来看,ChatGPT采用的是自然语言处理中的一种基本研究进路,即经验主义。一般而言,在自然语言处理的研究领域中,存在两种截然不同的研究进路,即理性主义进路和经验主义进路。理性主义进路认为,计算机系统可以根据人工构造的规则和推理程序将自然语言理解为符号结构;而经验主义进路主张使用统计学、机器学习等方法从经验数据中构建数学模型,以此学习复杂的语言结构[21]。从逻辑学视角来看,经验主义进路的实质是凭借归纳推理机制来研究语言;相比之下,理性主义进路则倾向于运用演绎推理机制来研究语言。
鉴于ChatGPT代表了自然语言处理领域的最新技术,因此它的创建表明,基于归纳推理机制的经验主义进路是现阶段自然语言处理研究中的一种主流进路。事实上,在自然语言处理领域的不同发展阶段,基于演绎推理机制的理性主义研究进路也曾占据主导地位,究其原因,主要是演绎推理机制在人工智能中同样具有不可替代的优势。例如,在机器学习领域,虽然基于归纳推理的学习算法在大量任务中具有优良的表现,但难以对学得的模型作出理解;尽管学习算法能够基于学得的模型对新样本作出正确的预测,但对于人类而言,要想理解学习算法依据何种标准来实现这一点,并非易事,而演绎推理在这一方面具有极大的优势[8]719。就ChatGPT而言,演绎推理对其“黑箱”问题的解决亦有裨益。前文提到,“黑箱”问题引发了一种现象,即尽管ChatGPT“能够针对人类的输入产生类似于人类的反应,然而,它并不知道它知道什么,也不知道它不知道什么,并不能真正地理解自然语言”[22];实际上,除了这种现象之外,“黑箱”问题还导致人们目前尚无法完全理解ChatGPT的运行机制与工作原理。在应对这些因“黑箱”问题造成的困境时,演绎推理同样具有独特的优势。
关于演绎推理机制在自然语言处理中所体现出来的优势,可以通过短语结构语法(phrase structure grammar)加以说明。短语结构语法是自然语言处理领域中一种以演绎推理机制为基础的方法,该方法被广泛用来构建自然语言处理的形式模型。在运用短语结构语法构建的众多形式模型中,美国著名语言学家乔姆斯基(N. Chomsky)的短语结构语法是最具代表性的模型之一。从本质上看,短语结构语法是一种旨在对人类语言的语法结构作出形式化描述的形式语法,这种形式语法是一个由若干条重写规则构成的集合,根据这些规则,可以生成各种具体的自然语言语句。
一般而言,短语结构语法涉及四个参数:由非终极符号构成的集合N、由终极符号构成的集合T、由重写规则构成的集合P,以及初始符号S。在此基础上,一个短语结构语法G可以被定义为一个四元组:G=(T,N,S,P)。根据语法G,可以生成自然语言LG[23]。需要指出的是,终极符号被用来表示语言LG中的词(例如图1中的符号“中学”),它只能出现在最终生成的语句中,因此无法基于重写规则而被继续重写。非终极符号是指不能出现在最终生成的语句中的符号(例如图1中的符号“NP”),这种符号能够基于重写规则而被再次重写。重写规则的形式为α→β,其中α和β表示符号串,即由符号构成的有穷序列。根据重写规则,可以从一个符号串推导出另一个符号串,或者说,可以将一个符号串重写为另一个符号串。此外,一个短语语法结构必须有一个指定的初始符号,该初始符号源自集合N。
短语结构语法的基本原理是,运用重写规则从初始符号串推导出新的符号串,再运用重写规则从新的符号串推导出另一个新的符号串,以此类推,直至推导出由终极符号构成的符号串,该终极符号串就是语言LG中的一个语句。作为对这一原理的说明,以下提供一个简单的短语结构语法[24]80-81:
G=(T,N,S,P)
其中,T={教材,中学,研究,教师,撰写,语文,……};N={NP,VP,N},且NP表示名词短语,VP表示动词短语,N表示名词;S=S,且初始符号S可以解释为一个语句;P包含五条重写规则,分别是:①S→NP+VP,②NP→N+N,③VP→V+NP,④N→{中学,教师,语文,教材……},⑤V→{撰写,研究,……},且规则①表示“一个句子可以由一个名词短语和一个动词短语组成”,其他四条规则的含义以此类推。
根据上述短语结构语法,可以生成语句“中学教师撰写语文教材”,该语句的生成过程可以用图1中的剖析树来表示。
图1 根据G生成的语句“中学老师撰写语文教材”的剖析树
通过对短语结构语法的分析,我们发现,基于演绎推理机制的理性主义进路在自然语言处理领域同样具有自身的优势。具体而言,该进路的一大特点就是用形式化方法来描述和解决自然语言处理中的问题,而形式化方法具有很多优点:其一,它可以使自然语言处理中的相关问题获得较强的解释力;其二,它简洁明了且易于操作,对相关问题的描述和表达非常明确,因而“很多语言事实都可以使用语言模型的结构和组成成分直接地、明显地表示出来”[24]635;其三,它保证了推理的结论具有可靠性。正是凭借自身的优点,基于演绎推理机制的理性主义进路可以处理基于归纳推理机制的经验主义进路无法解决的难题。然而,不可否认的是,基于演绎推理机制的理性主义进路同样具有局限性,该进路的一个典型缺陷是:形式化方法无法涵盖自然语言中的全部现象,因而难以灵活且全面地描述自然语言处理中的所有问题。这意味着,运用形式化方法处理大规模的真实文本是难以实现的任务。
基于演绎推理机制的理性主义进路在自然语言处理中所体现出来的优势表明,在面对以ChatGPT为代表的自然语言处理技术时,演绎推理机制同样可以发挥重要作用,它可以轻而易举地克服归纳推理机制的某些局限性,完成归纳推理机制无法处理的任务。诚然,归纳推理机制具有独特的优势,因而这一推理机制极大地促进了自然语言处理研究的发展。然而ChatGPT自身的局限性表明,仅仅凭借归纳推理机制,并不能解决自然语言处理研究中的各种问题。这是因为,自然语言处理是一门涉及计算机科学、语言学、逻辑学、认知心理学、控制论等多个领域的交叉学科,其需要面对和处理各种复杂的问题与任务,但无论是单凭归纳逻辑,还是单凭演绎逻辑,都无法充分应对。从自然语言处理领域的研究历程来看,基于归纳推理机制的经验主义进路和基于演绎推理机制的理性主义进路都推动了自然语言处理在理论上和应用上的不断发展,两种研究进路并非处于非此即彼的不相容关系中。我们认为,自然语言处理的研究,甚至是机器学习的研究,都应当克服理性主义和经验主义的二元对立[9],基于归纳推理机制的经验主义研究进路和基于演绎推理机制的理性主义研究进路应当是相辅相成的关系。无论是在自然语言处理领域,还是在机器学习领域,经验主义进路和理性主义进路都不是截然二分的对立面,要想在自然语言处理和机器学习领域取得突破性进展,应当在经验主义进路和理性主义进路之间保持必要的张力。对于上述两个领域而言,归纳推理和演绎推理都是基本的推理方法,因此应当充分发挥这两种方法的积极作用。然而,对于自然语言处理和机器学习而言,归纳推理和演绎推理都具有自身的局限性,如何将归纳推理和演绎推理融合起来,利用两种推理机制的优势来弥补双方的不足,进而找到一条将归纳推理机制与演绎推理机制有机结合起来的研究进路,这是自然语言处理和机器学习取得突破性进展的关键,也是其在未来可能的发展方向。有鉴于此,我们认为,对于自然语言处理在现阶段的代表性技术ChatGPT而言,只有以上述思想为出发点,其局限性才有获得破解的可能,其性能才有可能得到进一步改进和提升。
四、结 语
从逻辑学视角来看,基于机器学习机制的大型语言模型ChatGPT本质上属于广义归纳学习的范畴,这是一种从特殊性知识中概括出一般性结论的相关性学习,其推理机制建立在归纳逻辑的基础上。然而,ChatGPT还面临着诸多局限性。一方面,ChatGPT的局限性可归因于一个事实,即机器学习仅以发现数据之间的相关关系为主要目标,因而只将统计推理和概率推理作为主要的推理手段。从因果推理的视角来看,因果发现方法可以为其局限性的消解提供有益的启示。另一方面,ChatGPT的局限性源于机器学习仅将归纳推理作为唯一可靠的推理手段,基于这一点,我们认为仅从因果推理的视角出发是不够的,还应当跳出归纳逻辑的窠臼,从演绎逻辑的视角出发,这亦可以为突破ChatGPT的局限性提供启示。总之,我们认为,无论是对于ChatGPT而言,还是对于自然语言处理而言,抑或是对于机器学习而言,只有将统计推理、概率推理、因果推理和演绎推理有机地结合起来,才能取得突破性进展。