拓展学科的疆域：大模型的涌现能力对学习科学的影响*

2024-04-14陈向东赵丽娟刘泽民

现代教育技术 2024年1期

陈向东赵丽娟刘泽民

陈向东赵丽娟刘泽民

（华东师范大学教育学部，上海 200062）

作为跨学科关注的热点，大模型的涌现能力已经在系统科学、心理学、语言学等多个领域产生了深远的影响，其对于学习科学研究和实践的价值也初露端倪。基于此，文章首先阐释了学习科学视角下的大模型涌现能力，指出大模型的涌现能力不仅本身可以作为学习科学研究的对象，还可以为学习科学的研究与实践提供新的手段和方法、创新的思路，也由此引入了新的伦理问题。之后，文章介绍了大模型的涌现能力拓展学习科学研究与实践的手段和表现，即借助大模型的涌现能力，通过提示工程、探针技术、仿真、内容生成等手段，可以拓展学习科学的多个研究与实践领域。最后，文章分析了目前研究的局限，提出未来学习科学研究需从认知模型构建、内在机制剖析、学习效果评估三个方面，持续、深入地研究大模型的涌现能力及其影响。文章从多个角度阐述了大模型涌现能力与学习科学研究的互动关系，剖析了大模型涌现能力对学习科学的推动作用，为探究和理解人类复杂的学习过程提供了一个新视角。而深入地分析大模型的涌现能力，有助于我们更好地理解学习过程中的认知机制，发现新的学习模式和教学策略，从而推动学习科学的理论和实践创新。

大模型；涌现能力；学习科学；跨学科

引言

ChatGPT、Claude、LLaMA等AI工具在生成文本、回答问题、进行对话等任务中展现出的创造性、逻辑推理和理解上下文等方面的强大能力，使大模型（Large Language Models，又称“大型语言模型”或“大语言模型”）的涌现能力（Emergent Ability）成为跨学科关注的热点[1][2][3]。“涌现”本身是一个古老的哲学概念，用于描述如何从基础的实体中产生更为复杂的属性或现象，通常涉及心灵与物质、个体与集体之间的相互作用。研究涌现的学者主要来自复杂系统科学领域，研究的对象涉及多个学科和领域[4][5][6]——不同学科和领域中的涌现虽各有特点，但都遵循从局部到全局、从简单到复杂的普遍规律。

大模型是基于深度学习的神经网络模型，被训练用来理解和生成人类语言。而大模型的涌现是指在模型训练和应用的过程中，出现了一些意想不到、高度复杂、综合性的能力和现象，这些能力和现象并未被直接编码，也无法简单地通过训练数据或参数进行预测，而是随着对各种数据集的深入训练而显现。目前，大模型的涌现能力通常包括自然语言理解和生成、跨领域知识整合、情感和风格理解、复杂问题解决、创造性表达等[7]。此外，大模型表现出了复杂的泛化能力，能够合理地推断其训练数据以外的信息[8]；同时，大模型也表现出了元学习的能力[9]，即学会了如何学习，能够以类似于人类的学习方式掌握知识与技能。

当前，大模型的涌现能力已经引起了多个学科领域的关注[10][11]，主要表现为：①在复杂系统科学领域，大模型的涌现能力不仅为复杂科学研究提供了新的实例，而且有助于研究者深入理解复杂网络中出现的新性质和行为，进一步推动复杂科学理论的发展。②在认知领域，大模型可以启发认知科学家从新的角度探索人类思维的机制和模式，如通过研究大模型怎样在预训练和微调阶段获取知识，并从不同角度了解人类学习的认知模式，深化对知识获取、迁移和认知演化深层机制的理解。③在语言学领域，语言学家可以关注大模型如何理解和生成自然语言，包括如何捕捉语义、语法和语境，以及大模型的生成内容与人类语言之间有何异同。④在创意相关的领域，涌现能力同样引发了文学、音乐、绘画等的革新和实验。例如，音乐家和画家关注大模型生成内容的创意性和多样性，以及如何利用大模型作为创作灵感的源泉。⑤在教育领域，研究者则关注大模型的自主学习和适应性特征，探索如何利用大模型促进学生的主动学习和个性化学习。总的来说，大模型能否真正模拟人类学习过程的核心机制、能否从其涌现能力得到关于人类学习的新洞见，这些问题目前尚无定论，但为未来的跨学科研究提供了新的视角。

一学习科学视角下的大模型涌现能力

作为一个跨学科的领域，学习科学关注人类学习过程中的各种因素和机制，包括认知、社会互动、技术支持等[12]。大模型的涌现能力不仅本身可以作为学习科学的研究对象，还可以为学习科学的研究与实践提供新的手段和方法、创新的思路，也由此引入了新的伦理问题。

①大模型的涌现能力本身就是一个有趣且值得研究的现象。大模型在预训练和微调阶段，以及执行下游任务时的零样本学习和少样本学习与人类学习的过程高度相似[13]，这为学习科学研究提供了一些新的问题视角：大模型如何模拟元认知策略和自主学习过程，且在没有明确指导的情况下如何从数据中“学习”？大模型的学习曲线与人类或其他生物的学习曲线有何异同，其背后存在什么样的学习机制、运用了什么样的学习策略？大模型如何识别模式、概念化和泛化知识，以及如何在不同的任务或领域之间迁移和应用知识？大模型如何响应并强化学习中的奖励机制，其相应的存储、检索和遗忘信息的内在机制是什么？……这些研究问题不仅有助于了解人类学习的阶段性特征和知识的获取、迁移机制，也有助于理解学习过程中的自组织、知识传递、认知建模等方面的复杂性，从而推动学习科学领域的理论发展。

②大模型的涌现能力为学习科学研究提供了新的手段和方法。大模型为学习科学的理论研究提供了一个独特的“虚拟实验室”，在这里研究者可以模拟、测试、验证各种学习理论的关键组成部分，这为深入理解人类学习机制和策略开辟了新途径。例如，通过模拟学习者在社交互动中的知识共建过程，可以探索语言、工具和文化符号在学习过程中所起的作用。虽然大模型不具有真实的情感，但可以研究其如何处理与情感相关的语言输入，来洞察情感与学习的关系。学习科学还可以利用人工智能领域的相关技术和方法，将大模型作为重要的研究环境和研究方法，如构建虚拟学习环境、模拟虚拟学习者、挖掘学习模式、提供个性化学习路径等。学习科学和人工智能领域的交叉合作将促进跨学科研究，而大模型的涌现能力为学习科学研究提供了新的工具和方法，能够帮助研究者更深入地探索学习的本质、机制和策略；同时，研究者也可从学习科学中获取丰富的理论和实践知识，并用于改进大模型的设计与应用。

③大模型的涌现能力为学习科学实践提供了创新的思路。涌现是指大模型基于训练的数据所展现出的、未被明确编程的能力和响应，这意味着大模型可以在各种未见过的情境中生成有意义的回应，包括个性化的资源生成、学习指导、环境创设和学习体验优化等[14]。例如，大模型通过微调适应不同任务，具有类似于个体学习者在不同学习环境下的适应性。学习科学可以利用这一特点，研究如何利用技术手段，根据学习者的学习需求和学习进度为其提供个性化的学习材料和反馈，从而优化教学效果。大模型的自主学习能力可以反映个体学习者的学习潜力，学习科学可以利用这种能力，探索如何在教育中鼓励学习者主动参与学习，并培养其自主学习能力。此外，大模型的多样性生成也为个性化教学提供了新思路，有助于教师更好地满足学习者的不同学习需求。基于大模型的涌现能力，教育者可以设计真实世界的模拟场景，让学习者在安全的环境中进行实践探索。例如，斯坦福大学和谷歌的人工智能研究团队创造的“Smallville”虚拟世界[15]，能以高度逼真的行为模拟来呈现虚拟角色的独立生活。大模型还可以与虚拟现实、增强现实等技术无缝融合，为学习者提供沉浸式学习体验，并引导学习者探索不同学科之间的联系，促进了跨学科的学习和研究。总之，大模型的涌现能力为教育和培训领域提供了一个强大的工具，能够促进个性化、实时、深度和跨学科的学习。

④大模型的强大涌现能力加大了公众对人工智能伦理和社会影响的关注。学习科学同样面临涌现带来的伦理问题：涌现的核心特点是不可预测性，当大模型生成出乎意料的、甚至是有害的输出时，会引发谁应该对此负责、如何控制此类输出的问题；如果训练数据中存在偏见，大模型可能会复制或放大这些偏见。这意味着大模型可能会在无意中加剧社会不平等，尤其是涉及少数群体、性别、种族等问题时，大模型可能基于特定文化或地区的数据进行训练，这会导致对其他文化和价值观的误解或忽视。另外，一些来自公共领域的训练数据可能含有敏感信息或私人信息，大模型的生成内容可能会泄露原始数据；鉴于大模型的复杂性，理解这些大模型如何做出特定的“决策”并非易事——这在需要解释和验证决策的场合（如政策制定、教育人才选拔等）尤其如此，决定着用户是否有权控制与大模型的互动、了解其工作方式并做出有知情同意的决策；大模型可以生成逼真的内容，这会引发关于虚假信息、误导和真实性的伦理问题，用户可能因为大模型的高性能而对其产生过度信任，导致忽视批判性思维的运用。当大模型被广泛应用于教育教学领域时，伦理审视对于确保教育的公平、有效、有益至关重要。

二大模型涌现能力对学习科学研究与实践领域的拓展

大模型的涌现能力作为人工智能领域的重要成就之一，不仅为学习科学提供了新的研究对象，还为学习过程、认知建模、教育方法等带来了新的视角和挑战[16]，有助于深化学习科学的理论和实践研究。下文将着重探讨大模型涌现能力拓展学习科学研究与实践领域的手段和表现。

1 拓展的手段

大模型的涌现能力为学习科学研究提供了认知科学的新视角。大模型需要基于海量、多样化的语料进行预训练，通过预测词序列，逐步习得知识的表达方式。而预训练过程中也会出现遗忘、干扰等问题，这就需要大模型通过重复学习形成知识的稳定表达——这种过程性训练体现了人类学习的连续性、逐步性、稳定性等特征。基于这样的研究视角，借助大模型的涌现能力，通过提示工程、探针技术、仿真、内容生成等手段，可以拓展学习科学的研究与实践领域。

（1）提示工程

提示工程是在使用自然语言与大模型交互时，精心设计输入提示（Prompts），以引导大模型生成特定输出的过程。对于学习科学而言，通过设计复杂的提示，可以测试大模型语言理解和概念处理的能力，生成个性化的教学材料（如问题、解释、案例），并评估大模型对不同认知水平的反应。在各类提示工程中，最著名的是“思维链”（Chain of Thought）提示。“思维链”一词最早由谷歌实验室提出[17]，旨在让大模型模仿人的思考过程。通过引导大模型沿着特定的思维路径，可以更容易地解释大模型的决策过程和生成的输出内容。

基于思维链，研究者进一步提出了许多拓展策略，如零样本思维链、思维链自洽性、思维树、思维图等[18]。这些提示借鉴人类思维和问题解决的方法，强调了反思、任务分解、渐进式解决和灵活性等认知策略的重要性。借助思维链、定义角色等提示，可以构建起一个连接机器计算过程和人类心理活动的“桥梁”：首先，可以更好地理解机器如何模拟人类的认知过程，从而为构建更加复杂、高效的算法提供指导；其次，可以让机器通过理解其自身的思维链和可能的选择路径，做出更加明智的决策；再次，可以帮助用户更好地与大模型互动，这为设计更加自然、直观和人性化的用户界面提供了支持；最后，可以提供关于人类认知的新洞见，并且机器的模拟过程可为揭示人类心智中难以觉察的思维方式和学习模式提供了新的途径。

（2）探针技术

探针（Probes）技术是一种使用特定任务或测试来探测大模型内部工作机制和知识表示的技术[19]。从学习科学的视角来看，可以通过探针技术分析大模型如何处理复杂的语言结构（如句法、语义等），从而理解大模型模拟人类记忆、注意力和推理的过程；也可以探测大模型如何实现内部知识表示和组织，以及这些知识随时间发展而变化的过程。

大模型可以通过应用特定的探针技术，实时读取内部状态矩阵的变化信息，这为观察和分析学习过程中的认知活动提供了“窗口”。例如，研究者可以使用探针技术，研究BERT模型表示是否编码了句法树结构的信息[20]，或者探测模型表示中的语义信息，如实体识别、语义角色标注等[21]。通过构建任务来测试大模型是否理解句子中的词汇关系和结构，有助于研究者理解大模型如何处理句法依赖和长距离依赖，或者将探针技术应用于研究多语言模型表示，如测试大模型是否在不同语言之间共享相似的语义或句法结构。目前，研究者已经针对大模型开发了一系列探测工具，来了解和解释大模型的工作原理。例如，激活图谱（Activation Atlases）通过激活可视化神经网络，揭示大模型在识别图像、文字或其他输入时关注的区域[22]，从而帮助研究者理解大模型在处理不同类型数据时的行为；注意力可视化（Attention Visualization）通过展示大模型在处理序列数据时各部分之间的关联强度，并揭示神经网络的“黑箱”内部结构[23]，来帮助解释大模型的决策过程，加深研究者对复杂模型行为的理解。

（3）仿真

仿真是使用大模型来重现或模拟现实世界事件、过程或环境的方法。在学习科学中，仿真通常涉及创建虚拟环境或情境来模拟教学和学习过程[24][25]，具体包括：①创建虚拟的教学场景，如模拟学生的学习行为或教师的教学行为，帮助研究者测试不同教育理论或策略的实际应用效果；②模拟人类的学习过程，通过观察不同学习阶段知识表示的变化（如语义关联结构的演进、概念属性特征的编码），来分析记忆编码、学习推理等认知能力的形成过程，尝试从不同角度建模并理解人类的学习过程；③模拟复杂的问题解决过程，为研究复杂认知任务提供示例，揭示解决复杂问题所需的认知能力和知识结构。基于大模型的仿真丰富了学习科学领域的研究和实践的工具箱，不仅有助于提升仿真环境的真实性和互动性，还为个性化学习和教学方法的创新提供了强大的技术支持。研究者可以利用仿真，探索和测试新的教学方法和理论，提供更加个性化和更多互动的学习体验，推动跨学科研究的不断深入。

（4）内容生成

大模型不仅能够理解和处理语言信息，还能创造性地生成新的内容。在学习科学中，内容生成作为一种研究手段已经得到了广泛的应用[26][27]：大模型能够生成学习科学研究的文本数据集，研究者可将这些数据集用于测试不同的学习理论和认知模型；通过生成描述性的教学场景或学习情境，研究者可以在控制环境中研究学习行为和过程；基于生成的内容，研究者可以开发和测试新的教学策略与方法；生成涵盖多个学科的内容，研究者可以整合这些内容，开展跨学科学习和研究；根据对生成内容的分析，研究者可以研究和改善学习者的体验，如模拟不同类型的教学材料来观察学习者的反应。此外，需要说明的是，大模型强大的自然语言表达能力作为生成内容的一种重要形式，也为学习科学提供了新的研究范式。以往的学习科学研究常依赖于对人类学习者的行为观察和测试，而大模型可以模拟人类学习者，主动进行交流和回答问题。研究者可以通过大模型生成的语言，来观察其知识状态、获取其学习过程中的洞见。这种基于生成语言的研究范式，提供了一种类似于对人类学习者进行知识诊断和指导的新方法。

大模型的预训练虽然与人类的学习存在相似性，但两者的认知处理、信息整合等内在机制并不一致。学术界的主流观点并不认为大模型具有真正的“意识”或“理解”能力，其只是基于数学和统计原理来预测词序列。研究者可以观察和分析大模型的行为输出和内部激活状态，但理解其如何工作仍然是一个开放性问题。尽管大模型与人脑认知之间存在明显的鸿沟，但大模型的涌现能力无疑为学习科学提供了探索人类学习与认知的新手段。

2 拓展的表现

大模型能够识别、模拟复杂的语言模式和知识结构，整合来自不同领域的知识，这对于理解学习过程中的认知模式、知识构建和信息处理机制至关重要。借助上述拓展手段，大模型可在以下方面对学习科学的研究与实践领域进行拓展：

（1）推进个性化学习

随着学习科学理论研究日益关注个体之间的差异性，其相应的实践研究也开始探索如何在教学中融入学习者的个人学习特征和学习需求，以实现真正的个性化学习。而大模型可以模拟多种角色，或为教学环境中的不同角色提供合适的学习代理，这为个性化学习的研究与实践提供了支持。具体来说，大模型可以通过提示工程或调整参数生成适应不同学习者的个性化学习助手，为不同学习者构建个性化的知识网络，以及模拟不同群体的语言风格生成不同类型的学习代理等，这无疑为个性化学习研究打开了新思路。同时，大模型可以通过在大型通用数据集上进行预训练，并使用针对特定个体或特定任务的数据集进行微调，来快速满足不同学习者的需求。通过生成内容，大模型可以创建针对学习者需求的内容，如个性化的习题、解答或学习建议等，并同时处理多项教学任务，如内容推荐、评估、反馈等。此外，大模型还可以通过分析学习者的互动记录、答题模式和评价反馈，捕获隐藏的学习模式，从而更准确地了解学习者的需求。当然，实现这些功能的关键在于充分利用大模型的涌现能力，通过大量的数据分析和适当的训练策略，为每个学习者提供有效的、个性化的学习体验。

目前，己经有许多基于大模型的个性化学习案例。例如，CodeGym课程使用大模型生成的编码练习[28]，以互动游戏的形式帮助学习者从零开始掌握Java编程，并根据每个学习者的学习特点，提供个性化的编程学习计划；AI阅读助手使用大模型作为预测引擎来响应用户查询[29]，并根据学习者水平自动校准生成内容的风格，以让每个学习者都能获得最佳的个性化学习体验，极大地提升了语言学习的效率。大模型为我们开启了一个不同以往的实践视角，并推动着个性化学习理论和实践的进一步深入。

（2）挖掘学习过程

学习科学致力于探索人们如何习得知识、技能和理解能力。学习不仅仅关乎最终的结果或成果，而是更多地涉及学习者在认知、情感、社交方面的经历。大模型为学习过程研究提供了一个独特的视角：研究者通过观察模型参数的变化和输出结果，来揭示知识编码与习得的方式；同时，借助大模型的可视化和错误分析，研究者可以了解学习过程中知识结构和概念网络的形成，这为学习理论提供了新的实证基础和解释性视角。

以机器翻译训练为例，研究者通过收集大模型在不同训练阶段输出的目标语言译文、分析语法错误类型的演变，会发现早期翻译存在大量的语法错误、而后期的语法错误逐渐减少，这展现了目标语言习得的过程。与此同时，研究者可以针对大模型特定的语法错误输出进行拓展训练，然后观察错误是否得到改善。值得一提的是，Transformer模型中的自注意力机制呈现了词语之间的关联，研究者可以选择特定词语作为锚点，观察其在模型训练过程中与其他词逐步形成的新关联，来模拟概念网络的构建过程。

需要指出的是，运用大模型进行学习过程的仿真和挖掘可能会过于简化人类学习的复杂性，且不能充分体现个体差异、社会情境等影响因素。此外，理解学习过程需要双向验证，不能仅依赖大模型内部状态的观察，还需借助学习结果进行评估。学习的个体经验也超出了语言描述的界限，难以被完整记录于大模型之中。尽管如此，大模型为学习过程研究提供了可视化和解释性的新途径，作为一种探索性的方法，可以与行为研究、认知神经科学等方法形成互补，以更全面地推进学习过程研究。

（3）基于不同场景复现经典的实验

利用大模型的强大自然语言处理能力和大规模训练数据，研究者可以开展控制实验，以在认知水平上验证经典学习理论在不同情境的适用性。不同于基于规则的智能系统，大模型主要采用自监督学习、在海量的文本数据上进行预训练，以捕获语言的统计特性，并从中获取语义、语法、常识等多方面的知识。在预训练阶段，大模型实际上“学习”了基础的语言知识。以此为基础，通过迁移学习，大模型能够在多种应用场景中运用这些知识。研究者可以选择适当的预训练任务、语料库和迁移学习任务，检验不同训练方式下的模型性能，以确保实验设计与理论假设之间有明确的对应关系。

利用大模型复现经典的心理学和认知科学实验需要借助一些工具，如BIG-bench和基于小插图的认知心理学工具。BIG-bench（Beyond the Imitation Game benchmark）是研究者常用的测试工具，包括204项任务，涉及语言学、儿童发展、数学、常识推理、生物学、物理学、社会偏见、软件开发等方面的问题，已被用于许多大模型的基准能力评估[30]。而Binz等[31]使用基于小插图的认知心理学工具，研究了大模型的决策推理、信息搜索、思考能力和因果推理能力。这些研究不仅有助于挖掘大模型的功能，还为理解人类的决策和思维方式提供了新视角。当然，如何设计反映人类学习本质的任务，以及如何正确解释大模型的学习行为，仍然是艰巨的任务。但是，大模型无疑为认知科学研究提供了一个强有力的新工具，通过与传统理论和心理实验的结合，不仅可以推进学科发展，还将有助于回答人类学习的一些重要问题[32]。

（4）预测人类学习者的知识状态和学习趋势

对人类学习者的知识状态和学习趋势进行预测，是学习科学研究的重要课题。由于人类学习过程涉及多个层次（如感知、注意力、记忆、思维等）和因素（如情感、动机、先验知识等），故从学习过程出发建立预测模型具有一定的挑战性。虽然大模型没有真正的“学习过程”或“意识”，但作为一个基于统计规律的算法模型，其可为相关研究提供一个可观测和对比的平台。

人类学习者具有情感、动机和社会交互等多维度的复杂性，而很多维度在大模型中是缺失的。尽管如此，在许多模拟的学习场景中，利用已有的基线测试，通过对比大模型与人类学习者的表现，可以进行知识状态和学习趋势的预测研究：经过一定量的学习后，可以比较两者在理解、运用关键概念方面的能力和知识掌握的效果；然后，引入新的学习内容，追踪并比较两者在获取新知识特征、错误类型等方面的异同；最后，改变学习内容的难度，观测两者对学习难度变化的适应能力。通过实验，可以对比大模型和人类学习者在不同学习阶段与条件下的表现，观察和分析两者的知识掌握效果、新知识获取特征、错误类型以及对学习难度变化的适应能力，从而建立一个针对特定学习场景和人群的仿真预测模型——此模型以人类学习者已有的认知能力、先验知识、学习风格和动机等特征作为输入，预测其可能的知识状态和学习趋势，并提供有关特定学习场景下人类学习者可能性表现和进展的洞见。

当然，预测过程需要更多地与人类学习过程对齐。尽管大模型在某些任务中的表现与人类相似，但这并不意味着大模型会经过与人类相同的学习过程来完成这些任务，因此任何从大模型预测中得到的结论都需要谨慎地应用于人类学习过程。在实际应用中，除了严格的实验设计和验证，还需要进行多中心、多样本的研究，以进一步确认模型和理论的普适性。因此，将大模型的“学习能力”与人类学习能力进行对照，是实现基于学习过程进行学习预测的关键一步，也为学习科学研究提供了新思路。

（5）模拟困难学习场景

利用大模型模拟困难学习场景，研究者能够在可控的实验条件下观察复杂的学习过程，找出并识别影响学习成效的关键因素，从而发现学习瓶颈之所在。在真实的教学环境中，很多影响学习效果的因素常常难以被单独区分，加上对传统行为研究变量的控制存在困难，这使得精确识别影响学习的关键因素变得更加复杂。相比之下，在可控的模拟环境中，研究者可以利用大模型逐项控制可能的影响变量，然后直接观察这些变量对学习成效的影响。这种模拟环境具有高度可控性，可以消除学科教学中的实际约束，将理论推至极致，有助于更深刻地理解学习的本质。例如，在语文教学中，虽然长难句对理解能力有一定的影响，但真实教学中很少出现过于复杂的句子。通过模拟环境，大模型可以被用来构建极其复杂的句子，以测试并观察其语言理解能力的极限，从而深入揭示学习复杂句型的困难之所在。

另外，利用大模型可以轻松地获取海量数据，这不仅解决了大规模实验数据人工获取困难的问题，还可以不受数据量的限制而从多角度评估学习效果，从而为复杂学习评估体系的构建提供支持。当然，用大模型模拟困难学习场景时，需要注意模拟环境的准确设置和学习评估体系的普适性，并要注意根据实证反馈不断优化模拟过程。

三研究局限与未来探索

1 研究局限

本研究从多个角度阐述了大模型涌现能力与学习科学研究的互动关系，但在实际的推进过程中，考虑到当前大模型在可解释性、透明度方面的缺陷，以及大模型技术资源供给的不足，需要重点关注以下研究局限：

①大模型涌现能力对学习科学研究有一定的推动作用，但在实际的推进过程中必须注意两者的差异。大模型的工作机制与人类学习存在显著差异，当前大模型只能模拟某些语言交互的外在表现，而无法全面反映复杂的内在学习过程。将大模型应用于学习科学研究，可能会存在过于简化人类学习的复杂性，导致得出的结论具有片面性的问题。另外，本研究对于大模型拓展学习科学的研究与实践较多地停留在思想实验的层面，缺少对实际应用环境及其效果的考量。学习是一个复杂的社会活动，不仅包含认知层面的知识习得，还受情感交互、文化差异等因素的影响，但目前的大模型还无法纳入这些维度，因而可能无法完全捕捉学习过程的真实复杂性，导致其预测和解释学习成效的能力受限。大模型虽为学习科学提供了新的手段和方法，但仍需与神经科学、教育统计学等传统方法相结合，打造差异化、互补的研究生态。

②虽然大模型涌现能力成为了公众关注的热点，但围绕这一能力的解释和理解一直存在不同的声音。涌现能力通常被认为是一种在小型模型中不存在而在大型模型中出现的能力，但有研究者提出了一个替代解释[33]，即认为目前大模型的涌现能力可能并不是由于其规模的增加而出现的相变，而是由于研究者选择的度量标准导致的结果。也就是说，观察到的涌现能力可能是由特定的度量标准塑造的，当使用不同的度量标准或更好的统计方法时，这种涌现能力可能会消失。另外，有研究者提出，由于大模型及其强大的能力引起了公众的广泛关注，并受到了媒体的大肆炒作，可能出现对这些大模型实际能力过高评估的现象[34]。尽管这些质疑的声音并不强烈，但凸显了一个重要的问题：需要更加严谨、客观地评估大模型的涌现能力。

2 未来探索

为了充分发挥大模型的优势，未来学习科学研究需确保大模型的学习过程与人类的学习过程存在可比性，同时建立可解释、可量化的语言交互分析框架。在此基础上，未来学习科学研究需从认知模型构建、内在机制剖析、学习效果评估三个方面，持续、深入地研究大模型的涌现能力及其影响，既充分利用大模型的计算能力，也规避其潜在的风险。

①认知模型建构。未来的一个重要研究方向，是构建涌现能力的认知模型。这就需要设计概念形成、逻辑推理、知识迁移等任务，通过多轮交互训练，观察大模型能否像人类学习者一样在任务完成的过程中逐步形成新概念和认知模式。同时，需要调整网络结构，加入外部记忆、具身组件等认知组件，使大模型涌现过程更符合人类认知的机制[35]。这种对涌现过程的认知建模和模拟，有助于揭示学习过程中新知识产生的内在规律。进行具体的研究时，可以开发新的认知任务和评估指标，以测试认知模型在概念形成、逻辑推理等方面的性能，并将大模型的认知过程与人类的学习过程进行比较，以更深入地了解两者的相似性和差异性。

②内在机制剖析。理解大模型涌现能力的内在机制，对于更好地发挥大模型的优势并规避其潜在的风险至关重要。这就需要通过梯度分析、注意力可视化等技术，深入剖析大模型在不同认知任务中产生新输出的内在机制。例如，利用探针技术分析不同层级的激活模式，以识别哪些层对输出的新颖性更为关键，以及注意力的分布是否关注到了更广域的上下文等。同时，设计对抗样本，观察不同的输入如何导致大模型产生错误的涌现，并对大模型在不同任务和条件下的表现进行比较，找出各类模型涌现脆弱性背后的真正原因。这些对涌现机制的理解，有助于实现大模型的定向优化。例如，通过对抗样本揭示的问题，可以进一步分析大模型内部机制，探索大模型能否准确地将先验知识应用于新情境，从而有针对性地应对迁移学习中的挑战。因此，借助内在机制剖析，可以开发更有效的教学策略，并有效解决学习者的迁移困难问题，从而促进知识的迁移与应用。

③学习效果评估。对大模型的涌现能力进行认知模型构建和内在机制剖析十分重要，但最终仍需回到怎样对学习效果进行评估的问题。未来研究需要构建系统的学习效果评估模型，重点评价大模型涌现内容的逻辑性、准确性等，以及能否真正促进不同学习者对知识的深化理解与迁移应用。这就需要结合知识测验、课堂调查、错题分析等手段，综合评估涌现内容的真正学习价值。只有持续开展这种对涌现内容学习效果的评估和优化，才能在学习科学中更安全、可控地使用大模型。例如，在大规模的教育实验中，可以采用随机对照实验或准实验的方式，对大模型生成的学习材料与传统教材的使用效果进行对比；也可以开发自动化评估工具，对大模型涌现内容的质量和学习效果进行评估，从而不断优化生成内容和相应的教学策略。

四结语

随着大模型的风起云涌，其在教育领域的落地成为了人们关注的焦点。本研究从学习科学的视角深入探讨了大模型的涌现能力，分析了涌现能力作为学习科学研究的对象、手段和方法的原因，在此基础上通过引入提示工程、探针技术、仿真、内容生成等手段，拓展学习科学的研究与实践领域，并从认知模型构建、内在机制剖析、学习效果评估三个方面对未来学习科学研究进行了探索。本研究发现，大模型不仅提供了一个探索和解析学习复杂性的独特工具，更重要的是，其涌现能力将深刻影响学习科学研究与实践的方向，这将为学习科学的新范式探索、新学习模式发现和教学策略创新提供宝贵的机会，并将进一步推动学习科学的理论和实践创新。

[1]Wei J, Tay Y, Bommasani R, et al. Emergent abilities of large language models[J]. Transactions on Machine Learning Research, 2022:1-30.

[2]Sorin V, Klang E. Large language models and the emergence phenomena[J]. European Journal of Radiology Open, 2023,10:100494.

[3][34]Webb T, Holyoak K J, Lu H. Emergent analogical reasoning in large language models[J]. Nature Human Behaviour, 2023,(9):1526-1541.

[4](美)约翰·霍兰德著.陈禹,方美琪译.涌现[M].浙江:浙江教育出版社,2022:3-19.

[5]Sawyer R K. Social emergence: Societies as complex systems[M]. Cambridge: Cambridge University Press, 2005:1-9.

[6]Jacobson M J. Complexity conceptual perspectives for research about educational complex systems[J]. The Journal of Experimental Education, 2020,(3):375-381.

[7]Lu S, Bigoulaeva I, Sachdeva R, et al. Are emergent abilities in large language models just in-context learning?[OL].

[8]Wang C, Zheng B, Niu Y, et al. Exploring generalization ability of pretrained language models on arithmetic and logical reasoning[A]. NLPCC 2021: Natural Language Processing and Chinese Computing[C]. Cham: Springer International Publishing, 2021:758-769.

[9]Hou Z, Salazar J, Polovets G. Meta-learning the difference: Preparing large language models for efficient adaptation[J]. Transactions of the Association for Computational Linguistics, 2022,10:1249-1265.

[10][33]Schaeffer R, Miranda B, Koyejo S. Are emergent abilities of large language models a mirage?[OL].

[11]Ichien N, Stamenkovic D, Holyoak K J. Large language model displays emergent ability to interpret novel literary metaphors[OL].

[12]Sawyer R K. The cambridge handbook of the learning sciences[M]. Cambridge: Cambridge University Press, 2014:1-43.

[13]Orrù G, Piarulli A, Conversano C, et al. Human-like problem-solving abilities in large language models using ChatGPT[J]. Frontiers in Artificial Intelligence, 2023,6:1199350.

[14]焦建利.ChatGPT:学校教育的朋友还是敌人?[J].现代教育技术,2023,(4):5-15.

[15]Park J S, O’Brien J C, Cai C J, et al. Generative agents: Interactive simulacra of human behavior[A]. Proceedings of the 36th Annual ACM Symposium on User Interface Software and Technology[C].New York: Association for Computing Machinery, 2023:1-22.

[16]苗逢春.生成式人工智能技术原理及其教育适用性考证[J].现代教育技术,2023,(11):5-18.

[17]Wei J, Wang X, Schuurmans D, et al. Chain-of-thought prompting elicits reasoning in large language models[J]. Advances in Neural Information Processing Systems, 2022,35:24824-24837.

[18]Chu Z, Chen J, Chen Q, et al. A survey of chain of thought reasoning: Advances, frontiers and future[OL].

[19]Wang J, Cao M, Shi S, et al. Attention probe: Vision transformer distillation in the wild[A]. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)[C]. Singapore: IEEE, 2022:2220-2224.

[20]Hewitt J, Manning C D. A structural probe for finding syntax in word representations[A]. Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies[C]. Minnesota: Association for Computational Linguistics, 2019:4129-4138.

[21]Reif E, Yuan A, Wattenberg M, et al. Visualizing and measuring the geometry of BERT[J]. Advances in Neural Information Processing Systems, 2019, 32:1-10.

[22]Carter S, Armstrong Z, Schubert L, et al. Activation atlas[J]. Distill, 2019,(3):1-15.

[23]Vig J. A Multiscale Visualization of attention in the transformer model[OL].

[24]Ratican J, Hutson J, Plate D. Synthesizing sentience: Integrating large language models and autonomous agents for emulating human cognitive complexity[J]. Journal of Artificial Intelligence, Machine Learning and Data Science, 2023,(4):1-7.

[25]Wu Z, Peng R, Han X, et al. Smart agent-based modeling: On the use of large language models in computer simulations[OL].

[26]Kasneci E, Seßler K, Kuchemann S, et al. ChatGPT for good? On opportunities and challenges of large language models for education[J]. Learning and Individual Differences, 2023,103:102274.

[27]Moore S, Tong R, Singh A, et al. Empowering education with LLMs: The next-gen interface and content generation[A]. International Conference on Artificial Intelligence in Education[C]. Cham: Springer Nature Switzerland, 2023:32-37.

[28]CodeGym. Learn Java online in a fun way [OL].

[29]Hsiao S, Collins E. Try bard and share your feedback[OL].

[30]Srivastava A, Rastogi A, Rao A, et al. Beyond the imitation game: Quantifying and extrapolating the capabilities of language models[OL].

[31]Binz M, Schulz E. Using cognitive psychology to understand GPT-3[J]. Proceedings of the National Academy of Sciences, 2023,(6):e2218523120.

[32]陈向东.大型语言模型的教育应用研究报告(中国人工智能学会系列白皮书)[M].上海:华东师范大学出版社,2023:89-104.

[35]郑旭东,王美倩,周子荷.人工智能推动教育具身何以可能——论具身的人工智能与具身的教育实践[J].现代教育技术,2023,(6):5-14.

Expanding the Boundaries of Discipline: The Influence of the Emergent Ability of Large Language Models on the Learning Science

CHEN Xiang-Dong ZHAO Li-Juan LIU Ze-Min

s: As the focus of interdisciplinary attention, the emergent ability of large language models (LLMs) have demonstrated their profound influence on system science, psychology, and linguistics and other fields, and its value for learning science research and practice is also beginning to emerge. Based on this, the paper firstly explained the emergent ability of LLMs from the perspective of learning science, pointed out that LLMs’ emergence ability can not only serve as the subject of learning science, but also provide new means, methods and innovative ideas for the research and practice of learning science, along with new ethical issues. After that, this paper introduced the means and performances of LLMs’ emergent ability to expand the research and practice of learning science, that is, with the help of LLMs’ emergent ability, the expansion of multiple research and practice fields of learning science through prompt engineering, probe, simulation, and content generation and other means. Finally, this paper discussed the research limitations of the current research, and proposed that the future research of learning science needed to continuously and deeply study LLMs’ emergence ability and its influence from three aspects of cognitive model construction, internal mechanism analysis and learning effect evaluation. This paper discussed the interaction relationship between the LLMs’ emergence ability and the research of learning science from multiple angles, and analyzed the promoting effect of the LLMs’ emergence ability on the research of learning science, which provided a new perspective for exploring and understanding the complex process of human learning. In addition, the in-depth analysis of the LLMs’ emergence ability will help us better understand the cognitive mechanism in the learning process, discover new learning models and teaching strategies, and further promote the theoretical and practical innovation of learning science.

large language models; emergent ability; learning science; interdisciplinary

G40-057

1009—8097（2024）01—0044—11

10.3969/j.issn.1009-8097.2024.01.005

本文为2023年全国教育科学规划一般课题“基于大语言模型的青少年人工智能教育研究”（项目编号：BCA230276）的阶段性研究成果。

陈向东，教授，博士，研究方向为共享调节学习理论、教育领域的循证实践、新媒体阅读和人工智能教育，邮箱为xdchen@deit.ecnu.edu.cn。

2023年9月9日

编辑：小米