APP下载

ChatGPT 来了!人工智能时代的人文社会科学

2023-10-09施春宏王德夫等

写作 2023年2期
关键词:语言学人工智能语言

李 昱 施春宏 王德夫等

2023年2月15日,武汉大学文学院言吾学社在振华楼多功能会议室举办了“ChatGPT 来了!人工智能如何改写人文社会科学的教学与研究”圆桌论坛。北京语言大学语言科学院施春宏教授、武汉大学法学院王德夫副教授、华中科技大学青年教师陈禹老师、刘星老师等人文社会科学各个研究领域的专家学者作为特邀嘉宾在论坛上做了精彩发言,武汉大学文学院的李建中教授、郭婷婷副教授,青年教师代表杨旭老师等文学院师生也积极参与了此次讨论。论坛由武汉大学文学院李昱老师主持,在李昱老师对ChatGPT 的发展历史、原理和应用现状做了介绍后,特邀嘉宾和武汉大学文学院师生就人工智能的技术发展情况,人工智能对人文社科领域学术发表、法律体系、国家安全的影响及其应对方法,人工智能和社会科学教学和研究之间的关系和未来趋势展开了热烈讨论。

一、人工智能产品给本科教学带来挑战与变革

李建中(武汉大学文学院教授,武汉大学通识教育中心主任):作为武大通识教育的负责人,我对人工智能产品的更新换代怀有一种深深的忧虑。武大通识教育有两门必修课——“人文社科经典导引”和“自然科学经典导引”,每一门课程都有8次小班研讨,最后还有一篇结课论文,小班研讨差不多要写8次小论文,最后结课还要写一篇论文。前几年我们就发现有同学用人工智能作弊,为此我们还专门购买了查重系统。现在看来,人工智能的一些最新产品(比如ChatGPT)很有可能成为新的作弊工具。如何防止有同学用人工智能产品作弊?或者换一种思路:如何从正面引导同学们将人工智能产品用作通识课程学习的辅助工具?这是需要我们认真思考和严肃应对的问题。

大学通识教育的首要任务是培养学生的批判性思维、独立思考意识和学术的或文学的表达能力。西方文论讲“陌生化”,中国古代文论讲“望今制奇”,禅宗讲“熟路上不著活汉”,实际上都是在讲批判性思维,讲创新。可是人工智能的情况正好与之相反,它就给你一些套路,一些程序化的东西,一些正确的废话。当然有一些文本,像法律文本、财经文本、平面设计、工作总结等等,都可以拿来做,这个是没问题的。但是,学术写作,艺术创造,是最需要创新的,如果不正确使用人工智能,就会对正常的学术生态、艺术生态还有教育生态形成伤害甚至破坏。

魏子超(武汉大学文学院2019 级本科生):我认为从语言学的角度来看,可以考虑通过一些语言学方法来识别ChatGPT 生成的文本。有学者比较了人类专家和ChatGPT 的回答在词汇特征、情感、词类、依存关系等方面的差异,发现了一些区别①Guo Biyang et al.,“How Close is ChatGPT to Human Experts? Comparison Corpus, Evaluation,and Detection.”arXiv preprint arXiv:2301.07597(2023).。我用他们的语料也做了一些语言学分析,发现ChatGPT和人类语言在词汇丰富度、重复率以及相对重复度等几个指标方面具有显著的差异。

另外关于作弊,我觉得以后可能需要改革布置作业和考核的方式。学生总是接受新技术比较快,教师需要有更好的应对办法,比如说如何从技术上识别它。

李昱:魏子超刚才提到的改革,比如说改革我们的考试方式。有可能以后考试会越来越难,以前只是需要写一篇论文,你还可以去参阅参考文献,但以后的考试就可能变为现场来创作一篇文章。

魏子超:我个人是不太担心这种改变的。我们过去的很多考试都是强化记忆的类型,在这个领域上,人类永远不可能超越大型自然语言模型。在这种赛道上,我不敢想象怎么去和人工智能比较,所以以后必然会转向更强调人的创造性和临场反应能力的考核方式。作为学生,我们必须掌握流畅的自我表达能力和随时创作的能力。

彭志豪(武汉大学文学院2019 级本科生):我个人对ChatGPT 的准确度持怀疑态度,因为我看到它对于中国历史知识的一些回答,它会生成一些很莫名其妙的答案。之前我们可能会有思维定势,认为机器的回答具有准确性,可能会产生依赖。但现阶段的ChatGPT 可能会编造答案,在这一点上我并不信任它。另外,它虽然具有摘要总结的能力,但是我认为我们自己完成学术作业,首先自己要去查阅很多资料,在这样一个过程中自己就会获得很多知识,这是机器无法替代完成的。机器无法替代人类去提升自己的能力。如果用ChatGPT 去完成作业,那就与布置作业的目的背道而驰了。

李昱:乔姆斯基也是这样的看法。如果学生的学习工具越丰富越便利,我们对学生的要求就会越来越高,对老师的要求也越来越高,如果当一个老师的课不能再吸引学生的话,那么学生上课走神,用各种各样的工具来敷衍学习,这是一个意料中的结果。所以乔姆斯基说这就迫使老师只有把上课变得更有趣,才能够让学生回到课堂。

人工智能的产生,一方面给我们的学习和科研带来了很多便利,另一方面也对我们提出了更高的要求。我们总有一天会接纳它,只是我们现在正处在一个过渡的阶段,目前还没有做好准备,所以暂时对他采取了一种看似抵制的态度。等到做好准备的那一天,我们自己必须进化出更好的能力,既然它给我们提供了很多的便利,省去了写作、润色的时间,就会留给我们更多思考的时间、创新的空间,这其实给人提出了更高的要求。

二、ChatGPT给学术写作带来冲击与机遇

李昱:还有一个大家比较关心的问题,大家都从事科研工作,ChatGPT 对我们未来学术写作可能会产生一定的影响。就在最近一段时间,国际上很多知名学术期刊,包括《自然》和《科学》,都发表声明禁止将ChatGPT列为合著者。国内的一些期刊也已经做出类似反应。今天我们也有幸请到了《语言教学与研究》杂志主编、北京语言大学教授施春宏先生来参加我们的讨论。请问施老师,站在语言学杂志主编的角度上,您对此有何看法?

施春宏:人工智能必然会在某种程度上影响未来的学术论文写作和发表,但从目前来看,对我们专业性学术期刊影响不大,不是太可怕,因为这要看人工智能到底是怎么写作的,它写出来的东西是怎样的产品。也就是说,看它输出的内容是否有学术性,是否合乎学术写作规范。

杂志如何判断文章的质量?

我们从编杂志的角度判断一篇文章好不好,实际上有三个基本要求。

第一个要求是要有知识创新。学术论文的根本特点是为知识积累和发展提供前人没有发现的东西。创新度的高低是判断论文学学术性的根本依据。

第二个要求是要有论证过程。论文的基本论证方式有两种:一个是证实,另一个是证伪。证实比较好办,举出与论点一致的例子来支持自己;而证伪则比较难,要给自己的理论画一个边界,并指出超出这个边界的东西从理论上看应该都是错误的,或者是当下的理论所不论及的。相对而言,证实比较容易,如果有的课程或者有的专业偏向于用证实法来论证,那么受人工智能的影响可能更大。如果将来ChatGPT 能够自己通过大数据运算而发现一个数学定理、物理规律,而且能够证明,那么它就完全满足了这两项要求了。

第三个要求是要符合基本的学术规范。这点看上去似乎比较简单,而实际上ChatGPT 实现起来还真不容易,至少目前就ChatGPT的输出方式和结果来看,还难以达到理想状态。对比较注重学术规范的期刊来讲,作者在引用别人的观点时,要明确地标识来源,让编辑和读者能够有效溯源。但是目前ChatGPT 给出的答案,都没有明确清晰地对所引用的观点来源做出说明,就凭这一点,也能够说明它不符合学术规范。还有就是学术表达的规范问题,作者自身的表达方式实际上是具有唯一性的。但ChatGPT 那里,更多的是整合别人已有的表达。另外,ChatGPT 从“正能量”设定出发,在伦理方面做得很好,不提供负面的回答,这种规范跟学术规范也是不一样的。

那么ChatGPT“写”出的东西有没有用?要不要反对?实际上还是有用的,某些情况下甚至非常有用、好用。因为它用来训练和生成的数据库特别大,用到的参数非常多,能给使用者思考问题提供帮助。很多新的工具能拓展我们认知的边界,能够帮助我们做一些前期的分类加工工作,甚至跟外界的互联互动都有可能建立起来。所以我觉得ChatGPT是一个非常有用而强大的工具。但是从学术创造的角度来讲,它又是一个非常受限的工具,我们刚才讲的几点它都很难实现。其实,目前ChatGPT的应用场景也不在此。

ChatGPT能写出什么样的论文?

我们学术研究中的很多问题,不是那种有一个明确答案的问题。这个问题可以换一个角度看,就是ChatGPT能为论文提供哪些帮助,它到底是助手还是合作者,甚至是唯一作者?它可能更多的还是一个助手,所以没什么可担心的。它生成的文本是依赖于它接受训练的数据以及它背后的数据库的。这不是说它没有任何“创造性”,文字内容整合本身也是一定的“创造”;但这种所谓的“创造”主要还是一种组合式、库藏式的链接。总体而言,它是一个“知道分子”,不是一个知识分子。知识分子是要创造的,而ChatGPT 只是基于我们当下的知识。如果它将来和中国知网之类的学术资源库合作的话,而且用学术研究和写作的方式来训练,那么对学术论文的写作和发表的冲击可能就更大了。那个时候要判断ChatGPT 生成的产品是不是学术论文,就看杂志编辑和审稿专家的眼光和水平了。越是容易放水的杂志,辨别力可能就更低。

拿综述性文章来说,将来如果ChatGPT跟规模巨大的学术资源库绑定以后,它必然给我们写综述提供很大方便,甚至可能比一般学生写综述的水平还要高。现在某些领域就已经有帮助我们写提要的工具了。语言学学科历史维度的资料很多,现在做综述主要还是靠自己一篇一篇地读,然后归纳整理。ChatGPT肯定还在迭代,现在是3.5代,说不定现在是为了推出GPT-4代做一个预演,未来可能还有5 代、6 代出来,它的水平可能就越来越高,那么它在综述方面肯定会写得更好。目前ChatGPT 有两个功能:搬运和整合。凡是侧重于这方面的综述,例如你要讲怎么成为一个高尚的人,怎样做一个旅游攻略,它一二三四五,分析得特别好,已经达到常人的水平。实际上,ChatGPT目前输出的“知识”多带有综述性、分类性,越是确定的知识框架和内容,它做起来越方便。

有一个方面它一定写得不好,就是批评性的内容,尤其是针对具体观点的批评,针对当前正在发生的特殊现象的批评。ChatGPT 背后的程序给了伦理道德上的规定,因此在内容批评性创新上就有很大欠缺。文科论文,特别是我们语言学论文,多是先讲学界研究现状,并从中发现某些研究不足,再陈述自己的看法,采取事实论证、逻辑论证或者是证伪论证等等。批评是学术成长的重要动力。

批评性文字难,让我想起了托尔斯泰的一句话:“幸福的家庭都是相似的,不幸的家庭各有各的不幸。”我们做论文做的就是后半段——不幸的家庭各有不各的不幸。批评的难度还在于从特殊性当中发现普遍性意义。

总的来说,从我们学术论文的角度,我觉得ChatGPT对写某些类型的综述可能帮助大一些。这倒进一步给我启发,对我们如何带研究生会有帮助:我们要在哪些方面训练和培养研究生?它能做得好的,让研究生自己去学,省了不少事;它做得不好的,要着意培养。如此一来,对研究生将来的学术研究和发展应该是有帮助的。

如何应对ChatGPT对学术发表产生的冲击?

从学术期刊的角度可能就是8 个字:与狼共舞,规范使用。狼来了你也回避不掉,在你的院墙外叫了;要是你的窗子又破的话,它就往里蹿了。所以只能是与狼共舞,考虑怎么样把基本功搞好。

ChatGPT 写出来的都是“平庸”文本,机械生成的文本,这里的“平庸”要打引号,是中性的。它这种“平庸”文本是基于共享的知识整合出来的。我们在这个基础上怎样创造一个非平庸的文本?我们实际上很多研究在消灭“平庸”的同时也在制造“平庸”,是因为“平庸”,所以我们“平庸”了,我们很多研究都是这种路径。

国内的学术杂志会不会像国外某些杂志那样,出台一些针对人工智能写作论文的限制性措施呢?暂时恐怕不会,因为没有必要。如果将来有必要,那就是它真的跟知网之类的学术资源库合作了。目前,国外杂志对ChatGPT 的使用限制,基本上体现在是否允许ChatGPT 署名的问题上。我想,像《自然》《科学》这样的杂志,难道作者用ChatGPT这种工具写出来的东西,也能发出来吗?

国内两家杂志已经发表了类似限制人工智能写作使用的声明,但目前来看这个意义还不够明朗,所以还是要回到根本,看ChatGPT 到底写的是什么样的“论文”。将来难以预测,我们只能说当下:如果是以创新为主导追求的期刊的话,那么目前我们看不出来它有多大的威胁。像我们这种语言研究,连训练的语料库都没有,它目前还会对我们有威胁吗?

我们换一个角度,从正面来看是不是更好一点?任何新技术肯定会带来一些负面的东西,但是一定会推动着更多的东西向前走,而且对我们的学术研究一定是个好事。

今后最好能实现它协助人去创新,然后一道前行。如果它真的从人造意识到了有自我意识,那个时代才真是一个特殊的时代。它一旦真的有了共情能力,有了自我想象的空间,有了“无中生有”的创造,有了反事实的判断,有了证伪的思考方法,有了独立的伦理问题,在那种情况下,学术杂志的编辑部,就不是现在这个样子了,可能我们就在给它打工了。

就目前我的理解而言,撇开伦理问题,ChatGPT 等人工智能技术和产品并不可怕,怕的是我们在害怕,因为从进化的角度看,人类对异常的东西容易产生惧怕的心理。经历了,回头一看,都是往事,都是充满不确定的美好回忆。

李昱:谢谢施老师的精彩分析,施老师从比较独特的角度,帮我们分析了一些我们可能无法分析到的问题,看得出来,施老师对新技术的出现目前还是比较乐观的。ChatGPT 目前来看应该欠缺思维的能力,更谈不上批判性或者原创性的思维,所以他要代替人做科研和写学术论文,现阶段可能性比较低。或者说它的水平,显然是不能跟人类相比的。但是另外一方面,它也可以作为一种写作工具,来帮助科研工作者更有效率或者说更有质量地来完成科研论文的写作。

三、ChatGPT背后的数据安全风险和法律问题

李昱:今天我们也很高兴能够请到来自武汉大学法学院知识产权方向的专家王德夫老师来参加我们的讨论。我们也想请教一下王老师,ChatGPT 的出现引发了不少关于知识产权方面的担忧,比如关于人工智能剽窃的界定。那么从法律的角度来看,ChatGPT 的出现是否带来了网络和数据安全方面的风险?人工智能工具的大规模使用可能引发的争议又主要有哪些?

王德夫:谢谢李昱老师。在知识产权方向上,我认识有人在中国顶级的律师事务所里做一些前沿法学研究。从法律人的角度,我们第一反应是ChatGPT 能干什么?它能拿来干什么坏事?它背后的数据我们管不住怎么办?我们中国如果依赖外国的ChatGPT,它如果对我们断供怎么办?我们一般都是琢磨它怎么干坏事。

我自己是编程序出身的,我大致知道自然语言处理在我们整个人工智能学科里面的重要性,它绝对不是一个聊天或者说翻译的工具。它对我们整个现代社会,我们的数字中国,我们的智能制造,我们能想到的一切的时髦的前沿的词汇,包括我们中国式现代化,它都起到一个基础设施的作用,关键在这个地方。它是我们自然人和信息系统沟通的这么一个桥梁。

ChatGPT技术上有何突破?

我们今天谈论的ChatGPT,它其实有两部分内容,第一部分是让机器知道人想要什么,这一点很关键。第二步才是他知道了人要什么东西,他去找能做这件事情的资源,这是两部分。我们一直都有做事情的资源,中国是全世界工业门类最为齐全的国家之一。但是计算机信息系统不知道我们人能干什么,人想干什么。以前谁负责让机器了解人类的意图?那是程序员。

刚才李老师说了,最基础的自然语言处理是基于规则和概率。这跟我们智能电饭煲其实是一样的,第一步先加米,第二步加水。到了多少分钟的时候高火,到了多少分钟的时候,我又想做一锅稀饭出来,为什么这时候往往走不通?因为事情太复杂了,你得需要多少个规则去做?所以它一定会撞上一面叫复杂性的墙。

那么最近这些年人工智能火起来之前,自然语言处理学家在干什么?刚才我听李老师讲,是在做神经网络。说得再具体一点,在做卷积神经网络。但是卷积神经网络的问题是效率低,它是顺序进行处置的。卷积神经网络处理不了很长的文本。它在处理长句的时候,每一个字的翻译和理解只能管它前后这么一点点。一旦这个句子走到了下一段,它马上就忘得差不多了。所以说,这是我们卷积神经网络不可避免的一个技术障碍。

但是现在ChatGPT 进行预处理,它首先对每个字进行编码,之后它要定位滚动到什么位置,定位完了他的预处理这个模型的转变输出什么,它把文章中的每一个字或单词和每一个字的关联度进行计算。稍微扯远一点,它涉及我们智能时代的计算问题,我们经常讲计算,我们计算的是什么?它最开始的计算是二进制数字,只能做加法。智能时代是算向量的,所以说到了ChatGPT 的时代,它变得很复杂,有很大的计算规模。

人工智能发展到ChatGPT 阶段,我们不能把它只当做一个好玩的工具。就ChatGPT 实话实说,文章写得好不好,表达得像不像人,说的俏皮话是不是真的像一个诙谐幽默的人,其实我本人并不是很关心这些事,我关心的是什么?是它背后有很多很基础的东西,它其实是把简单的事情重复多次的。ChatGPT 聊天只是个副产品,它不是拿来玩的,它是让我们的机器世界知道我们自然人在干什么,想要什么,这个就很厉害。

比如说作为一个聊天机器人,它陪我解闷的时候,它能理解我,讲讲笑话,它能理解我的需求。比如说假如我是开饭馆的,我需要一个自动化的系统。今天我要进肉进蛋,我今天用了多少食材,它能知道我是开饭馆的,然后在另一端去调用、做菜、管账。这本身也是一个十分开放的环境。

ChatGPT会带来数据安全风险和知识产权问题?

从法律的角度来看,我们眼下最关注的是ChatGPT 能不能够马上拿来做坏事。它可以做很多坏事,如果我们这里开个讨论会,说现在的ChatGPT 之类的自然语言模型能够做多少坏事,我们讨论到明天都没问题。

我们要看它的背后。我们给有关部门提交的报告中,很少直接用“ChatGPT”这个词。我们用的是“美国自然语言模型人工智能”。一定要强调“美国“这两个字,因为美国真的查能会跟我们断供。ChatGPT 发展到一定程度以后,如果它不开源了,我们就只是一个用户了。想想看,如果我们的智能产品是基于美国人告诉我们中国的机器中国人想干什么,我们还依赖它,美国把API(Application Programming Interface,应用编程接口)关了,我们不就傻眼了吗?所以说我们第一个考虑的问题是被断供的风险。

第二个风险,提一些涉及政治立场的问题,比如说我问它中国民用气球失控进入美国领空,中国有没有侵犯美国人的主权?它的回答可能会有政治风险。这里头其实就是第二个隐藏的风险。没有野生的人工智能,全部都是家养的。这个家是谁呢?往小了看,是微软投资的企业,往大了看,背后一定有着政治实体的影响。所以说它的有害信息的问题、它的立场、它对我们信息投放的问题,都纳入了我们做的一个规划。

第三个像刚才已经讨论很热烈的作弊的问题。假设我们学校的领导说我们本科生写作业不能用这种自然语言模型来帮你写,否则的话就要评零分甚至开除。你说得再吓人,只要发现不了,那就没有意义。但是能不能发现?其实这个事情不难。我们讲人工智能的时候,经常讲有个概念叫“系统性风险”,系统性风险里面有一个很重要的概念叫“趋同”,什么是趋同?打个比方,假如李老师问ChatGPT 一个问题,我也问它这个问题,魏同学也问它这个问题,它的输出文本是差不多的。在金融的自动合约、自动交易里面这种问题比较常见,比如说自动交易定盘的这个软件,大盘如果下跌出现某种信号,就抛售手中的股份。如果我们不同的券商用的都是同一款人工智能,这个事情就遭殃了,这就产生了踩踏。

我们给有关部门提供的这种建议很多。能运营这种自然语言模型人工智能的公司数量不会太多,这个东西门槛很高,就那么几家公司。你要求他做一些技术上的处理,这是很容易的事情。比如说加一些冗余的代码,加一些不隐藏于外的识别标志,甚至说对某一个区域,比如说武汉大学校内的IP访问进行一些统计,都是很容易做得到的事情。

从法律的角度,还可以有很多的讨论。比如说知识产权,我们很多时候在讨论机器人能不能成为作者的问题。这种讨论没有任何意义,起码我觉得没有任何意义。因为《中华人民共和国著作权法》上写的清清楚楚:作者是自然人。作者能不能从自然人扩展到到机器人?这是一个严肃的科学问题,不是闲聊。我们只能从法律、从利益的角度来讨论。等到机器人他画的画、写的诗歌、创作的音乐甚至创作的视频,在网络上铺天盖地的时候,机器人有著作权意味着什么?意味着你作为用户,你看一眼、听一下都要付费。你们现在在网上下载一点东西,甚至只是个空表格,他都要你来注册、收你几块钱。如果这些机器生成了大量的充斥于网络空间的、有使用价值的文字图像,它享有著作权,就意味着有人可以收费。知识产权的本质是对信息流动的限制,我觉得这是不利的。所以说从这个角度,我们所发出的声音都是拒绝承认机器人的作者地位。不是因为我喜欢或者讨厌机器,我从小就喜欢机器。但是要考虑利益因素。

李昱:非常感谢王老师非常精彩的发言,把我们今天这个主题提升到了一个新的高度和维度。刚才王老师从国家战略安全的角度分析,人工智能现在已经成为了一种基础设施,它不仅仅是一个聊天工具、一个帮我们写论文的东西,而是以后我们生活中可能离不开的东西。除了思考可能存在的风险,我们更应该考虑如何更好地使用它。

四、ChatGPT引发对人类语言和语言学理论的新思考

李昱:ChatGPT 从根本上来说是一个语言模型,跟人类的自然语言和语言学理论有着密不可分的关系。今天我们也请到了几位语言学专家,请他们就ChatGPT 这个语言模型与当下的语言学理论之间的关系谈谈看法。

杨旭(武汉大学文学院讲师):关于ChatGPT 对语言学界的影响,我先介绍三个名人的观点,再提出自己的一些疑惑或想法。

第一个是特德·姜(科幻小说家),他在《纽约客》发表了一篇题为“ChatGPT 是网络上的一个模糊的JPEG 文件”①Chiang Ted.“ChatGPT is a blurry JPEG of the web”.The New Yorker,2023.,https://www.newyorker.com/tech/annals-oftechnology/chatgpt-is-a-blurry-jpeg-of-the-web.的文章,引起了很大的反响。JPEG 相对RAW 是一种压缩后的格式,会丢失很多重要的信息或数据,他认为ChatGPT转述信息就是一种压缩,如果将来人工智能产生的语言也被喂进模型,那么丢失的信息或数据会越来越多,这就好比一张照片经过无数次复印会变得越来越模糊不清。

第二个是乔姆斯基(语言学家),他说ChatGPT 是一种高科技抄袭和避免学习的方式。从乔姆斯基嘴里说出这句话,好像显得有点平庸,因为好多媒体都在讨论人工智能剽窃的问题。但我个人认为这也是一种隐喻,就是说,ChatGPT 并不像人类语言一样具有创造性,它只是基于大语言模型的概率模式生成语言,但不理解语言,也无法创造思想——这种认识其实和特德·姜类似。

第三个是赵智恩(Jieun Kiaer,牛津大学韩语教授),她在新近出版的著作《与人工智能同行:一位语言学家对ChatGPT 的回应》中讨论了ChatGPT 带来的种种问题,尤其是从语言学视角提出了人工智能的两个缺陷:其一是缺乏语言多样性,即人工智能的主要语言是英语,在非欧洲语言中的运行效果并不好;其二是缺乏语用多样性,即人工智能尚无法重现人类交际过程中微妙而复杂的语用意义。

下面是我个人的疑惑或想法:

1.人类沟通很重要的基础是社会认知能力,就是说我们会在交流中有意无意地猜测他人的知识、意图和信念,以此来决定如何交流。李昱老师提到一个研究,说ChatGPT 的达芬奇-003(davinci-003)可以解决93%的心智理论任务,与9 岁儿童的表现相当,表明其可能发展出了一定的心智理论,这值得我们进一步探究。

2.那么我们是如何猜测他人的心理状态的呢?我们是通过身体感觉到的各种线索,就是常说的多模态。但是ChatGPT目前只能进行文字交流(所谓“聊天”只是书面聊天,好比过去的短信),如果线索的种类没有那么丰富,那么ChatGPT猜测我们心思的能力就很值得怀疑,运用语言交流的能力(而非语法能力)也会存在问题。

3.人工智能除了缺乏语言多样性和语用多样性,还缺乏变体多样性。ChatGPT 的训练数据主要是书面语言,语言学史中的书面偏见阻碍了语言学进步,如果不认识到这一点也将阻碍人工智能的进步。事实上,书面和口语二元对立无法涵盖所有的语言变体,还包括各种社会方言、情景方言、个人方言等变体,这都是人工智能暂时难以胜任的地方。

4.人工智能可以成为语言学家的助手甚至合作者,比如赵智恩就邀请了ChatGPT 成为她的合作者。人工智能掌握了大量的语言数据和语言学知识,因此可以协助语言学家处理各种语言学难题,比如对已有的“三千万种语法理论”①Mac Cawley James D.Thirty Million Theories of Grammar.Croom Helm,1982.进行反思,为人工智能的下一次升级提供来自语言学的智慧。

5.在人工智能的发展中,语言学或语言学家好像缺席或隐身了。我问了ChatGPT 这方面的问题,它说参考了语言学的一些成果,但没有采用某个具体的理论(ChatGPT 的全称是Chat Generative Pre-trained Transformer,即聊天生成式预训练转换器,里面出现了“生成”和“转换”的字眼,但和转换生成语法没有什么关联),而是采用了一些不同于传统语言学中的方法和技术。我们都听过“每当我们解雇一名语言学家,我们的系统都会变得更准确”的说法(来自IBM 的工程师Frederick Jelinek),个人感觉这将进一步加重语言学的危机感,或者说会推动语言学发生范式变化甚至革命。

6.ChatGPT 的火热也给语言学带来很多新的议题,比如ChatGPT 等聊天机器人产出了一种新的语言,值得我们对语言的定义和本质进行更深入的思考。ChatGPT 虽然基于自然语言,但无论是底层逻辑还是表层形式,都不同于人类语言。此外,ChatGPT 还带热了古已有之的对话体,很多文章都以截图或转录的方式直接呈现对话记录,这证明了它不止是一种工具,更是一种数字人(Digital Human)的角色,可以以主体身份参与到我们的创作活动中。

陈禹(华中科技大学中文系讲师):我想说三点感想,一是追求极致的效率会带来风险,二是人工智能尚未实现自反性,三是面对ChatGPT的到来仍然要高扬人文精神。

首先,追求极致的效率是人工智能不断发展的根本动力,计算机不怕累,拥有超强的记忆力、反应力,几乎在卡尼曼所述的“系统二”(system 2)之中的每个方面都远超人类。追求极致的效率,必须大量使用人工智能,才能保证在教育、科技、工业、商业的竞争不落下风,但一旦相关人工智能服务出了问题,或者某个环节被卡了脖子,造成的风险或许是灾难性的,最近芯片的摩擦就很能说明问题。

其次,我们语言学评价一种理论,一个很重要的方式是看“自反性”,也就是这个理论能不能用来解释这个理论自身,比如说结构主义动用离心结构、向心结构描写语言,但这些说法本身也是语言,结构主义理论能给出其确立的合理性吗?似乎不能,于是就有了后面的其他新的理论流派。以ChatGPT 为代表的人工智能也可能存在这个问题,它虽然似乎知道很多问题的答案,但是它知道它究竟回答的是什么吗?并且它知道它为什么要回答吗?更进一步它知道是怎么做到能够回答这个问题的吗?我作为人可以意识到,我相信现场的各位也可以意识到。不过我非常怀疑ChatGPT 能够做到这种自反性。

结合第一点,我们在发展人工智能的同时,一定要注重缓冲力量的制衡。结合第二点,自反性或许是我们永不会被ChatGPT所取代的关键,我们有感觉、有直觉、有自我意识、能够不断反思。所以我依然认为在人工智能时代到来之际,依然要高扬人文主义的精神,也就是说“即使有汽车火车飞机替代了人类的双脚,人类也不应放弃步行”。

刘星(华中科技大学中文系讲师):我是比较倾向拥抱新技术的。但在拥抱这个技术之前,我们可能还需要储备一些能力,来更好地发挥它的作用,我觉得其中一个比较重要的能力就是提问能力。我第一次用ChatGPT 是给印度尼西亚的一个学校写信,请求学校允许我在那里实习的研究生返回中国完成毕业论文,我最初的预想是他可能会写一封中规中矩的信,但最后这封信的内容有点超乎我的想象。它不仅把我的核心需求用几句话就交代清楚了,还尝试去说服对方学校允许办成这件事。我想这说明,通过描述问题的背景它是能明白我的需求的。同一个问题换一个问法,可能会有不同的结果。和杨旭老师不同,我是这么问的:“你好,我是一名生成语言学的研究者,我想知道生成语言学理论对ChatGPT 有什么影响,”它的回答就不太一样:它说我们用到了很多语言学的理论来完善ChatGPT,其中就包括生成语言学理论,然后说它既有基于大数据,也有基于这种规则性的这样的一些方法来训练他们的模型。总的来说,我们还是得给它更多背景信息才能更好地让它明白我们想做什么,当然这其中当然也存在着一定的风险,这是我的一些使用体验。

杨逸云(武汉大学文学院写作学博士研究生):我的博士论文的方向就是人工智能写作,看到各位老师或是一些公众号的说法,认为ChatGPT 改变了一个时代,但从技术方法的角度看,我觉得它其实没有质的改变。因为自然语言处理到现在为止,我们可以把它总结为两种大的方法,一种是理性主义,一种是经验主义。

最原始的聊天机器人是任务型的,我认为它就是理性主义的方法,是一种基于规则的方法。包括刚才老师们在讨论说乔姆斯基跟人工智能有什么关系,其实乔姆斯基跟人工智能的关系应该就在这个地方。它是基于乔姆斯基的理论构建的,它把我们的语言规则总结出来,然后在人工智能当中运用。

到了20世纪90年代的时候,我们就换成了生成型的方法,也就是经验主义。至今,包括ChatGPT,人工智能的写作这方面其实一直都是经验主义为主。经验主义存在一个问题:它是一种概率统计,我一个不会写作的人也可以用人工智能写作的软件去写作,ChatGPT实际上还是在做概率计算,只是实现了算法上的提升和数据上的扩大。

所以我一直在思考的一个问题,就是这种经验主义它的尽头在哪儿。国内的学者像冯志伟先生,还有国外的邱奇先生,他们很早就提出了这个问题。是不是这个数据越多,然后算法能力越强,它就能生成越好的文章,它有没有一个尽头?或者说,它的尽头是不是还是要回归到理性主义上?

魏子超:一个语言学家,他能遍历多少语料?他们自己能了解多少个单词?他基于这部分语料总结出来的规律可靠吗?这个我觉得是值得怀疑的一点。尽管我更倾向于相信我的语言学知识是可靠的,但实践的结果让我怀疑这一点。我觉得只有那种复杂的训练才能导向更可靠的知识,这对研究者来说可能是一个很悲观的回答。我们可能真的没有人工智能懂语言。以阿尔法狗(Alpha-Go)为例,他对围棋的造诣,可以说已经是“超乎技近乎道”了,已经超越了一切人类棋手,这时候再要求阿尔法狗去学习我们人类,这对他的水平不一定有提升。

郭婷婷(武汉大学文学院副教授):看来子超同学是坚定的经验主义的支持者。现在的ChatGPT这种大语言模型,它是需要用海量的数据去训练的,简而言之就是“大力出奇迹”,但这样的一种方式显然不是真正意义上的我们人类的思维模式。我们人类的思维是小而美、小而精的,不需要海量的数据一样能够进行推理和创新。

经验主义的人工智能产品确实有非常广阔的应用场景,但我个人觉得它和理想中的具有真正理性的人类智能还是有差距的。我之前参与了一些语言知识工程的项目,主要采用的是理性主义的方式,这跟目前的经验主义的方法是不同的思路。如果今后的人工智能能够把两个方向进行结合或许是一条比较理想的路径,比如说用大数据的方式,去帮助我们挖掘有关语法、语义规则的知识,就能再进一步去完善产品,提升产品性能。

经验主义的方法还有两个问题。一是成本问题,处理大规模数据的费用非常高昂,只有资金实力极为雄厚的大公司才可能开发类似的产品,这势必会带来人工智能技术的垄断;二是风险信息的问题,刚刚王德夫老师也说了类似的观点,人工智能背后都带有开发者的价值观、世界观、伦理观,它或许只想让你看到它想让你看到的内容。因此,我们应该秉持更加理性的态度去看待当今人工智能的发展,经验主义和理性主义两个方向我们都没有必要去完全肯定或是完全否定。

王德夫:我长期以来都有一个核心的观点:没有天上掉下来的智能。基于大数据的这种海量数据挖掘,是我们用强大的计算机把简单的事情飞快地做了无数遍。我相信我们现在所有体现出的智能都是把简单的事件重复一千万遍。ChatGPT 背后是人工智能的优势:扩散算法,其核心在于想办法减少计算机的运算而不是增加。任何计算机都支撑不起指数级别数据的运算。所以我们在考虑能不能把计算机的智能做到更小,这就是郭老师所说的小而美,也可以叫小数据大智慧。地球是圆的,你一直往错误的方向走,也能绕着地球转一圈,那我们在大数据的道路上“南辕北辙”能不能也能到达终点?

李昱:今天非常感谢各位专家从各种不同的角度,像施老师从科研和学术发表角度、王老师从法律、知识产权、数据安全等角度,陈老师和刘老师从各自的研究领域给我们做的分析。非常感谢各位专家提供了自己非常独到也很有价值的见解。我相信今天是一个小而美的讨论会。对于新事物,每个人接受的程度和对它的态度都不一样,有的人可能对它比较谨慎,有的人甚至对它比较警惕,但是我相信更多的人会去拥抱新的技术。从下个学期开始,我们很多老师可能就要开始跟ChatGPT 斗智斗勇。虽然我们面对新技术,一开始会感觉到有一点惶恐或是错愕,但是我相信我们未来会慢慢习惯它渗入到我们生活的方方面面。谢谢大家。

猜你喜欢

语言学人工智能语言
语言是刀
2019:人工智能
人工智能与就业
让语言描写摇曳多姿
数读人工智能
认知语言学与对外汉语教学
累积动态分析下的同声传译语言压缩
下一幕,人工智能!
我有我语言
语言学与修辞学:关联与互动