主持人语大模型时代语言智能应注重科学基础和社会应用

2023-08-01饶高琦

语言战略研究 2023年4期

饶高琦

语言智能被称作人工智能皇冠上的明珠。自然语言的理解和生成被视作由计算智能、感知智能迈向认知智能所必须实现的重要能力。语言之于人类的关键作用，决定了掌握语言是人工智能融入人类社会、落地生产应用不可或缺的环节。作为术语，“语言智能”与“自然语言处理”“计算语言学”等高度关联，并且在发展过程中深度融合。这3个术语现今常被视作近义词，在很多语境中可以互相替代。

人类对机器拥有语言智能的渴求由来已久，东西方古代神话中都曾出现过能说会写的人造物。利用机器处理语言的严肃思想实验则在近代出现。到20世纪中叶，图灵测试的提出、人工智能学科的诞生以及机器翻译工程的实现等共同催生了语言智能。同时，随着当代语言学、逻辑学的高速发展，语言模型的理论，句法、语义形式化表示的方法，在很大程度上使语言智能发展成为可能。可以说，语言智能一诞生就具有语言学、数学和计算机科学的交叉学科属性。

伴随着人工智能学科的发展，语言智能也经历了低谷和复兴。1950年，图灵提出了依靠语言行为检测智能的“图灵测试”，标志着语言智能研究的开始，同一时期，美苏两国的机器翻译工程吹响了语言智能研究的号角。ELIZA等早期人机对话系统也在这一阶段问世，基于规则和词典的方法是这一时期的主流。然而，1966年美国科学院发布《语言与机器》报告，宣称“在近期或可以预见的未来，开发出实用的机器翻译系统是没有指望的”，建议停止对机器翻译和相关项目的支持。语言智能研究由此陷入萧条。

然而在随后的10年中，计算机软硬件技术和形式语言学的研究并没有停止。在这一时期，以贾里尼克为代表的学者开始尝试使用统计方法进行语言建模。20世纪70年代中期，统计机器翻译系统和统计语音识别方法取得进展，这些都标志着语言智能研究开始复苏，并出现统计方法转向。从20世纪70年代末到21世纪第二个十年，计算能力按摩尔定律飞速提升，互联网出现并迅速普及。语言智能的需求快速增长，其发展所需的数据、技术也日益完善，新算法层出不穷。对人类语言进行统计建模的思想在理论和实践上都取得了辉煌的成就。机器翻译、人机对话、信息抽取、语音识别与生成等任务上的系统性能快速提升。几乎所有信息产业巨头都参与到语言智能技术和产品的研发中。技术进步和资源投入反过来刺激了数据、算法和算力的进一步发展，形成了正反馈效应。基于联结主义的深度神经网络建模思想在这一时期逐步完善。2012年，卷积神经网络助力文字识别取得突破性进展，并由此揭开持续至今的深度神经网络时代。卷积神经网络、循环神经网络、注意力机制和转换器模型等技术持续推动语言智能各项任务的性能提升，语音识别和语音合成、机器翻译、人机对话和文本生成都在这一时期快速达到商用程度。语言智能技术渗透进语言生活的方方面面。深度神经网络方法中，网络结构、数据特征和参数之间的关系极其复杂，模型训练存在随机过程，这些因素导致其呈现“黑箱效应”，输出结果的可解释性较差。

今天，学界相信语言智能已进入大规模语言模型（以下简称大模型）时代。大模型是一种预训练语言模型，是深度神经网络技术发展的高峰。它使用大规模语料进行预训练，然后使用面向特定任务的小规模语料，根据迁移学习的原理进行微调，形成面向具体语言智能任务的模型。其中基于转换器的生成式预训练模型（GPT）成为当前语言智能研究的核心技术。GPT利用转换器模型的编码器和解码器，从语言大数据中获取了丰富的语言知识，在语言生成任务上达到了相当高的水平，被视为从感知智能迈向认知智能的标志性成果，并引发了社会各界对通用人工智能的遐想。

纵观语言智能的发展史，算法、算力和数据三大要素起到了至关重要的作用。它们彼此促进又互相制约。人类对语言的显性认识体现为形式化建模中所使用的算法，更多的隐性知识则蕴含于语言数据之中。算法得以运行，数据得到运用，都取决于算力的大小。神经网络的观念诞生于20世纪中期，到20世纪末已获得了相当程度的发展，但未能成为语言智能或人工智能中的主流方法，其重要原因就是数据和算力无法对其运行形成有效支持。而规则和词典方法在20世纪长期居于主流，很大程度上也是因其对算力和数据的需求较小，适应于当时的生产力水平。语言智能的性能及其能调配的算力、使用的算法、拥有的语言数据息息相关。大模型的优异表现正源于“能力涌现”现象，而这一现象是大数据、大算力和深层网络交织产生的。

面对大模型这一“工程奇迹”，人类对其背后的工程机理和科学奥秘都所知有限。在这一历史时刻，收获确定的答案还为时尚早，提出恰当的问题显得更有价值。在工程上，如何有效评估大模型的能力已成为学界热点，人类语言测试的理论和实践有多少可以借鉴，大模型评测如何开展，都成了当今“显学”。国内高校、科研院所和部分企业，在测试集模式、人工体验模式、过程检测模式等研究路线上开展了大量富有成效的研究。另外，大模型如何“瘦身”，如何适应低算力、低资源场景，是令其在各细分领域落地的关键。

在科学发展方面，大模型的能力涌现现象必将引导语言学、复杂科学等学科展开全新的探索。如何从海量无标注、少标注语言数据中萃取知识？多语种数据联合建模如何形成多语能力？数学题、程序代码等非传统语言数据如何被语言模型所“习得”？大模型能力和人类能力的相同与相异之处在哪里？为了更加安全地使用大模型，如何提高深度学习的可解释性？这些问题共同构成了大模型时代语言智能的科学基础问题。并且我们还应注意，今天的语言智能，更多依赖于海量数据，以无监督和少监督方式获取知识。人类积累的显性知识若能有效融合使用，实現“数据-知识双轮驱动”，将显著改善现有语言智能可解释性、安全性、领域适应性、绿色节能等方面的问题。

在社会应用方面，对新生事物的有效治理和向善使用也是无可回避的话题。以下议题已经成为语言智能落地过程中的关键：智能体治理（尤其是语言治理），确保语言智能安全、向善使用；引导智能技术助力信息无障碍、语言应急、语言保护等事业，增强公益属性；促进“人机共生”的语言生活和谐繁荣发展。具体到语言文字工作者，工程上的语言资源构建、科学上的语言知识表示，治理上的语言伦理和语言安全研究，应当成为数智时代最重要的研究话题。

总之，在新时代，我们所面临的问题、所产生的需求，总是多于我们新增的知识，但这也恰恰是推动人类不断探索前行的动力。本专栏的几篇文章和多人谈，就是在这种思路上展开的。在深层科学基础方面，我们特别关注大模型的流利语言表达对图灵测试构成的直接挑战，以及它背后的语言哲学问题。在应用方面，我们重视大模型的治理和管理问题，大模型和语言资源的关系决定了它也适用于语言资源治理的原则和方法。语言智能技术转换为生产力，离不开人的教育，而技术本身也向教育提出了挑战，更带来了机遇，所以语言智能教育是我们不能忽视的话题。在社会实践中，语言无障碍是语言智能发展的重要目标，也是科技向善的重要提醒，然而现实情况仍不尽如人意，其中数据问题是最大瓶颈之一。对此本期也特别刊文加以探讨。希望本专栏能进一步推动各界对语言智能研究的关注，也期盼能得到学界的呼应和社会的支持。