基于大模型的教学智能体构建与应用研究
2024-08-12卢宇余京蕾陈鹏鹤
摘要:随着生成式人工智能的快速发展,基于大模型的智能体已经逐步具备了多模态感知、检索增强生成、推理与规划、交互与进化等能力。该研究提出基于大模型的教学智能体的基本概念与框架,以“大模型”为技术核心,重点构建“教育任务设定”“教育任务规划”“教育能力实现与拓展”“教育内容记忆与反思”“交互协作与动态进化”多个功能模块,支持与多类型对象交互并实现动态进化,涵盖人机交互、多智能体交互以及环境交互。基于所提出的框架,研究以项目式学习任务为应用场景,阐述了教学智能体作为“助教智能体”和“同伴智能体”,在个性化驱动问题提出、项目方案共同设计、项目作品协作完成、项目作品多角色评价多个环节的作用及相关支撑技术。最后,研究进一步探讨了教学智能体的发展方向与未来展望。
关键词:教学智能体;大模型;生成式人工智能;项目式学习
中图分类号:G434 文献标识码:A
* 本文系北京市教育科学“十四五”规划2021年度重点课题“人工智能驱动的新一代智能导学系统构建研究”(课题编号:CHAA21036)研究成果。
一、引言
随着生成式人工智能的快速演进,多模态大模型日益彰显其在多模态内容理解和生成方面的优势。多模态大模型(下文简称“大模型”)指能够处理并理解文本、图像、视音频等多种模态数据输入的人工智能模型。以GPT-4为代表的人工智能模型均属于多模态大模型。大模型通常具有超大规模参数,支持通过提示工程与微调等方式进行推理与决策制定,并在自然语言处理与视音频分析等多任务上表现出卓越性能。为进一步释放大模型的应用潜力,人工智能领域的研究者开始尝试构建基于大模型的智能体。智能体又被称为自主智能体(Autonomous Agent),指可感知环境并反作用于环境,以实现其自身目标的自适应系统[1]。自20世纪开始,设计与实现智能体已成为人工智能领域研究的主要目标之一,但该项研究长期受限于核心模型的智能化水平。大模型的出现,为构建和实现智能体提供了可行的技术路径,而智能体与外部环境的交互能力也可以促进大模型的下游任务适配。因此,基于大模型的智能体构建在人工智能领域和多个垂直领域受到日益重视[2],但在教育领域尚缺乏系统设计与全面论述。
在教育领域,国内外学者对智能体的研究尚处于起步阶段。早期研究关注面向知识共享及其组织管理模式优化的智能体构建[3],也有研究尝试设计可以与学习者互动的教育智能体,以实现以学生为中心的个性化在线学习[4]。近年来,研究者从认知学习的作用机制[5]与社会线索设计[6]等角度对智能体开展研究,强调学习主体的高阶意义加工和交互创新[7]。随着大模型等生成式人工智能技术日趋成熟,研究者尝试构建基于大语言模型(Large Language Model,LLM)的通用智能体,利用其作为用户交互助手进行数学公式的格式转化[8]。此外,研究者尝试利用多个通用智能体,模拟教师和学生之间的课堂交互,实验结果表明在教学方法、课程和学生表现等维度与真实课堂环境具有高相似度[9]。
当前教育领域研究多停留在对通用智能体的教育应用尝试,尚缺乏明确定义和体系化架构设计。因此,本研究提出“教学智能体”概念,旨在充分利用生成式人工智能对环境感知、推理规划、学习改进、行动决策等方面的自主适应能力,在课堂教学、课后辅导、教师研修、家校合作等多种教育场景下,为教育各利益相关方提供教与学的智能化服务。本研究将基于生成式人工智能领域的最新技术进展,结合当前教育领域的实际需求,开展教学智能体设计与实现路径研究。
二、基于大模型的智能体
(一)基本概念
在人工智能领域,智能体需要能够感知其外部环境并做出行动,以对外部环境产生影响。通常情况下,智能体与外部环境间的感知与行动不断循环,形成密切交互,以完成具体任务目标。图1为基于大模型的智能体的基本框架,其中大模型是智能体的基础支撑与核心。对于给定的任务,智能体首先通过环境感知能力,采集信息以了解外部动态变化的环境。进而,智能体可通过推理规划方式,基于逻辑思维分步求解给定任务中的具体问题。在此过程中,记忆检索机制支持存储与读取过往经验,有助于提升推理规划的质量。同时,智能体也可以利用海量数据找寻客观规律进行学习改进,从而提升自身性能,并存储于记忆中。在此基础上,智能体通过权衡推理规划中的行动利弊,做出合理决策并选取执行工具,将决策转化为对外部环境的实际作用和影响,以完成任务目标。与传统人工智能领域的智能体相比,基于大模型的智能体具有以下多项核心能力。
(二)核心能力
1.多模态感知与生成
多模态感知与生成通过整合视觉、语音、文本等多种数据通道,以单独或组合的方式实现外部信息获取,从而赋予智能体理解并解析自身所处环境的能力。依托视觉与语言的理解与生成能力,智能体可以实现视觉问答(Visual Question Answering,VQA)与文本生成图像(Text-to-Image Generation)等多种图文感知与生成任务[10]。例如,视觉问答任务要求智能体基于图像信息,回答“计数”“属性识别”“物体检测”等场景理解类问题。在此基础上,基于外部知识的视觉问答任务(Outside Knowledge VQA)则要求智能体回答无法仅通过图像信息理解的问题,并鼓励其通过外部知识库检索与图像理解相结合的方式生成答案[11]。当前,智能体的多模态感知与生成能力已经拓展至视频领域,支持对连续图像帧进行解读与构建,从而较为准确地解答针对视频内容的提问或生成逻辑合理的高画质视频。此外,对于具身操作的实体机器人或虚拟环境角色,多模态感知可以支持其实现实时环境交互的信息更新,辅助智能体完成任务规划、路径规划、推理与决策等复杂任务。
2.检索增强生成
为缓解大模型生成与事实相悖的“幻觉”、数据更新不及时等问题,检索增强生成(Retrieval-augmented Generation,RAG)技术开始逐步被广泛采用。检索增强生成技术可基于知识库检索器,为大模型提供与待解决问题相关且可靠的外部知识。该技术主要包括三个基本步骤,即索引建立、问题检索与内容生成[12]。索引建立步骤需要基于指定任务信息构建知识库,其知识资源类型可以涵盖文档、网页、知识图谱等形式,并利用语言模型的词嵌入等方法抽取资源的文本语义特征,然后将特征在线或离线存储于知识库。问题检索步骤将用户提问内容作为检索请求,抽取其文本语义特征,检索得到知识库中与之匹配的数据内容,作为提问的辅助信息。内容生成步骤中,大模型基于用户提问信息与检索得到的辅助信息,通过数据增强或构建注意力机制等方法,完成问题答案的生成[13]。卡内基梅隆大学团队基于检索增强生成理念,为智能体提供了接口文档查询功能。通过查询液体处理器的接口文档,该智能体可以基于用户的文字指令,借助紫外可见光谱测量工具与Python计算工具,实现对液体处理器的精准控制,可用于科学实验的自动设计、规划与执行[14]。
3.推理与规划
智能体的任务规划致力于将复杂任务拆解为多个可执行的子任务,主要依托的是大模型的推理能力。通过构建能够激发大模型推理能力的提示信息(Prompt),智能体可以自主完成多步骤推理,将复杂任务拆解为多个可执行的子任务,从而自主规划用于完成任务目标的具体行为序列。目前已有多种被证实有效的提示信息构建方法,包括典型的基于单路径推理的思维链(Chain of Thought,CoT)、基于多路径推理的自我一致性思维链(Self-consistency,CoT-SC)、思维树(Tree of Thought,TOT),以及融合行为反思的规划方法ReAct等。
思维链[15]作为最早被提出的推理方法之一,旨在激发大模型在推理过程中使用多步骤思考,从而引导大模型单路径执行具体任务。在此基础上,自我一致性思维链[16]考虑到大模型生成内容的随机性,通过多次重复执行单路径推理思维链的方式,构建多组并列的思维链,最终选取一致性最高的结果作为答案。思维树[17]则进一步细化推理过程并整合以上两者优势,构建树形结构的问题解决方案。树形结构中的每一条路径代表一种解决方案,每一个节点代表一个中间步骤。思维树依据不同的问题属性,分解任务推理的中间步骤,力求每一步均以相对可靠的小步骤执行,从而在当前节点上生成下一步可能的解决方案。思维树通过设置针对每个节点独立的质量评估机制或多节点间的投票机制,为后续搜索算法提供启发式的路径选择依据。最终,依据不同的树形结构,使用广度优先或深度优先搜索算法选取最佳的问题解决路径。ReAct[18]规划方法则进一步在推理过程中整合了任务执行的反馈信息,使智能体实现自主与外界的资源交互、任务规划更新、异常情况处理等功能。在具体任务规划过程中,ReAct规划方法由思考(Thought)、行动(Action)与行动结果观察(Observation)三个基本行为组成。通过循环执行这一行为组合,生成包含多轮推理步骤的最终解决方案。ReAct方法在问题回答、事实验证、文本游戏、网页导航多种语言与决策任务中,均表现出较好的性能,其生成的任务轨迹也具有可解释性与可信度。
4.交互与进化
智能体可通过与外部环境、人类以及其它智能体的交互,开展协作并完成复杂任务,进而实现自主进化。在与外部环境的交互中,智能体可以基于自身数据、可用工具、库存资源、环境描述等信息,自主设置任务并探索外部世界。在探索过程中,智能体可以基于机器语言的自检机制,构建技能库积累技能,实现复杂且有意义的自主进化行为。例如旅行者Voyager作为大模型驱动的智能体,在沙盒生存游戏中实现了自主的世界探索和技能进化[19]。
在与人的交互中,智能体支持用户自定义集成多种大语言模型与工具,开展自主规划与人机协作,从而有效解决编程、数学、操作实验、在线决策、问答等多领域多类型任务。例如,智能体可通过自动解题方式解决复杂数论问题,且当问题解答错误时,可通过人机协作方式,获取人工反馈提示,改进并更正自动解答中的错误[20]。智能体可基于用户输入的指令完成有机合成、药物发现以及材料设计等任务,在测试中实现一种驱蚊剂与三种有机催化剂的自动合成,并通过人机协作引导人类发现新型发色团[21]。
多个不同的智能体间也可以开展交互与协作,推进复杂任务的解决与自我进化。例如通过构建“规划、执行、感知、学习”(Plan,Execute,Inspect,and Learn,PEIL)引导机制,可实现基于多智能体的任务规划与工具执行、视觉感知与记忆管理、主动学习与方案优化,并在视觉问答与推理问答等任务中表现出卓越性能[22]。同时,多智能体之间的辩论式交互,可用于提升其复杂推理问题的解决能力,并已在常识性机器翻译与反直观的算数推理任务中展现有效性[23]。此外,智能体还可以通过角色分工与多智能体间协作,模拟和实现特定业务流程及其任务目标。例如,MetaGPT多智能体协作框架可以为多智能体赋予角色分工(例如产品经理与软件开发工程师)并设定工作流,通过引入人类作业机制,实现多角色智能体的串联工作及其之间的数据流转,从而实现软件开发的自动化流程[24]。
此外,智能体的记忆机制在交互与进化中起到重要作用,支持了智能体的交互历史回顾、知识获取、经验反思、技能积累与自我进化。斯坦福大学提出的生成式智能体(Generative Agents)在沙盒游戏引擎构建了虚拟小镇场景,可实现虚拟个体的动态行为规划以及模拟可信的人类行为[25]。该生成式智能体构建了一套记忆流机制,可将感知到的虚拟环境信息与个体经历存储在记忆流中。智能体可以基于个体记忆作出行为决策,同时可以用于形成长期的行为规划与高层次的反思,为后续行为决策作记忆储备。例如,在有关“是否参加派对”的行为决策中,智能体首先从记忆流中检索相关的记忆记录,依据每条记录与决策任务的时效度、相关度以及重要程度,加权求和计算每条记忆的综合得分,排名靠前的记忆将作为决策依据,被纳入到提示信息中,辅助其行为决策。
(三)实现方式
智能体将大模型作为核心控制器,强调智能体与信息之间的动态交互、推理与规划能力的整合、记忆与反思机制的建立、工具使用与执行任务能力的实现,以及与外部交互过程中能力的不断进化。这些特性共同赋予智能体高阶信息理解与加工能力,使其在决策方式上更加接近人类,并表现出对复杂情境的理解和处理能力[26]。为支持基于大模型的智能体落地实现,目前已经有多个工程框架被开发并开源,例如支持单智能体实现的LangChain[27]与AutoGPT[28],以及支持多智能体协作的AutoGen[29]、BabyAGI[30]与CAMEL[31]。这些框架为研究人员和开发者提供了重要资源,便于开发和测试智能体的多场景应用。
在上述实现框架中,LangChain与AutoGen分别是应用较为广泛的单智能体和多智能体框架。LangChain可提供结构化的大模型应用流程,便于智能体的工程落地,其技术组成模块包括模型I/O、检索、智能体、链与记忆等。LangChain支持丰富的工具与工具包调用,并可以实现检索增强生成、ReAct规划等多项智能体核心能力。AutoGen则支持用户依据需求,灵活定义多智能体之间的交互模式与人机协作模式,例如由一位智能体主持、人工参与多智能体交互的动态群组讨论模式,或由两个智能体分别负责编码与执行调试的协作编码模式等。AutoGen可支持多智能体的交互记忆读写,可通过调用Python第三方工具包实现工具的使用(例如调用Matplotlib绘图库完成数学制图),并且支持将任务转化为机器语言解决,例如利用代码分步执行任务,并通过智能体间的代码执行与调试(Debugging)确保程序的成功运行。
LangChain与AutoGen均为智能体实现提供了可行方案,还可以通过配合使用发挥二者各自优势。例如,可以利用AutoGen灵活构建并实现智能体的交互框架与基于机器语言的任务执行,并利用LangChain协助连接外部丰富的工具库(例如ArXiv、Office365、Wolfram Alpha等)以及自定义工具(通过用户提供工具功能描述、方法实现代码、输入输出格式等信息实现),从而拓展智能体的能力边界。
三、基于大模型的教学智能体构建
基于当前教育领域大模型的快速演进和发展[32],本研究提出构建基于大模型的教学智能体。如图2所示,教学智能体以“大模型”为核心,其主要功能模块包括“教育任务设定”“教育任务规划”“教育能力实现与拓展”“教育内容记忆与反思”。同时,教学智能体支持与多类型对象交互并实现动态进化,涵盖人机交互、多智能体交互以及环境交互。
(一)教育任务设定
“教育任务设定”模块涵盖教育场景设定、教育需求设定与教育角色设定等关键信息的提供。其中,教育场景的设定为智能体提供教育任务的背景信息,例如以学生为主体的项目式学习场景、在线自主学习场景、传统课堂教学场景等;教育需求设定为智能体提供对教育任务的具体目标描述,例如为项目式学习提供策略性支架、评价学习者问题解决能力、协调小组协作学习等;教育角色设定为智能体赋予教育任务中需扮演的特定角色信息,例如教师助教、学生学伴、研修助手、家庭助理等。教育角色的设定有助于智能体更有效地与教育用户互动,提供个性化交互体验,提高辅助效果。多个教学智能体之间还可通过扮演不同教育角色,以分工协作、辩论对抗、人机协同等形式,满足特定教育场景下的关键教学需求。
(二)教育任务规划
基于所设定的教育任务信息,教学智能体可以实现自主任务规划,其基本步骤与顺序分别为“任务方案思考”“方案分解规划”与“执行结果感知”。首先,“任务方案思考”步骤基于所设定的教育场景、需求和角色等关键信息,结合相关的教育标准或框架、教育资源与辅助工具,进行整体方案的推理和生成;“方案分解规划”步骤将所生成的整体方案,分解为多个可实现、可管理的子任务,包括规划具体的教学活动、教学资源、教学工具、教育评价方式等。教学智能体还可以根据教师或学习者的反馈实时调整各子任务,确保教育任务规划的适应性与有效性。规划的子任务执行完成后,“执行结果感知”步骤负责获取执行结果以及多维度交互信息。通过引入评价反馈机制,基于任务执行结果,智能体可以自主推理判断或人工评价子任务完成质量。若发现问题或未达成规划目标,则重新开始“任务方案思考”步骤,直至达成目标后方可退出循环机制。利用上述教育任务规划流程,智能体能够迭代优化教育任务执行过程与策略,满足高效个性化教育需求。
(三)教育能力实现与拓展
教学智能体可以实现和拓展多项基本能力,以执行所规划的具体教育任务。首先,教学智能体可以调用外部专业教学工具及其运行环境,包括但不限于数学计算工具、教育教学软件与协作学习工具。例如,教学智能体可以调用数学计算工具Wolfram Alpha[33],通过基于自然语言或数学公式的交互,解答多学科所需的精确计算问题。这些外部工具可以为教学智能体提供大模型不具备的专业能力,从而帮助其完成所规划教育任务中的专业问题解决。
教学智能体可以通过检索增强生成等方式,避免输出错误教育信息,拓展其知识与能力边界。教育服务的提供通常需要具备高准确度与可解释性,因此需要为智能体提供实时更新且可靠的信息源。例如,智能体可以从国家教育资源公共服务平台、专业教育学术期刊以及教育新闻网站等渠道,获取和整合最新教育资源和实时教育数据,实现检索增强生成教育内容,并能清晰解释其提供内容的依据,确保所提供教育服务的时效性和准确性。
此外,教学智能体在对教育场景要素感知与理解后,可以自动生成包括教学文本对话、视音频教学资源等形式的教育内容和制品,为所设定的教育角色提供全流程支持。例如,当教育任务执行涉及编程与逻辑推理时,可借助大模型的代码生成与调式能力,将任务翻译为Python等机器语言并辅助学习者完成编程任务。对于需要具身操作的教育任务,教学智能体可以基于物理环境感知能力,自动生成操作流程并根据教育用户指令完成软硬件实时控制。
(四)教育内容记忆与反思
教学智能体的教育内容记忆主要用于存储与读取教育任务规划与执行过程中的重要数据,支持智能体的自我反思。具体而言,教育内容记忆可以存储所有步骤的教育任务规划及各步骤执行的基础性数据,例如教育任务解决方案数据、智能体与学习者的交互问答数据、外部工具调用的过程与结果数据、软硬件控制与操作数据等。基于所存储的基础性数据,智能体可以通过大模型的自我提问或归纳总结等方式,反思加工得到教育知识与经验等高阶信息。例如,教学智能体可以通过反思,得到所服务学习者的个性化特征及其教学交互效果等信息。结合试错机制或交互反馈,教学智能体还可以总结失败或低效率的教学经历,再次遇到类似教育任务时,作为教学策略自主优化与改进的参考依据。此外,智能体所存储的丰富教育记忆与反思,还可以作为重要的参考知识与资源,支持其教学能力的拓展。
基于权限维度划分,教育内容记忆可分为公有记忆与私有记忆。公有记忆指教学智能体所积累的教育知识与教学资源,包括学科知识图谱、教学法知识、课程标准、教学材料、教辅材料等;私有记忆则为与教育用户及其角色密切相关的个体信息,例如个体学习者的历史交互与学习评价数据、个体教师的教学视频、教学方案与教学评价数据等。教学智能体需要合理使用不同权限的记忆数据,尊重教育用户隐私,建立相应的教育数据使用规范。
(五)交互协作与动态进化
教学智能体可通过与不同角色的教育用户、其它智能体及教育环境进行交互,实现教育任务的协作规划与执行,促进自身的动态进化。在与教育用户的交互中,教学智能体能够充分理解不同角色的教育用户意图,从而提供多种形式和模态的人机交互服务。例如,针对学习者在线自主学习场景,提供多类型支架式智能导学交互服务,支持推荐文本、视频和音频教学资源在内的多模态教学内容,实时提供进度评价与反馈信息。在与其它智能体的交互中,智能体可以依据不同智能体的角色扮演及教育任务,实现督促引导、讨论交流、分工协作甚至有序辩论对抗等交互模式。例如,开展多智能体的辩论式交互,实现复杂教育任务的科学拆解与合理规划。另外,可以将教育对象引入多智能体交互过程中,实现人机协作模式下的教育目标达成。例如,在协作组卷过程中,依据教师提供的学科、知识点、区分度等需求信息,不同智能体可分别作为出题者、被试者以及批阅者完成组卷,并最终交由教师审核组卷质量。在与教育环境的交互中,智能体在充分感知和理解教育场景与环境要素的基础上,可以充分利用外部软硬件工具及其人机交互能力,实现具身操作与人机协同。例如,智能体可通过对实验仪器状态的实时感知与机械臂的精准控制,协同学习者完成物理、化学等学科类的复杂实验操作或科学探究类的实践过程。
教学智能体在与教育用户、其它智能体及教育环境的交互中,通过对过程性与结果性数据、反馈信息进行持续采集与分析,可以逐步形成教育经验与反思性知识。这些经验与知识可以被智能体记忆存储与读取,并用于未来教育任务的规划与教育能力的执行,从而实现其问题解决能力的动态提升与进化。例如,通过反思人机交互过程信息、总结科学仪器控制流程,教学智能体可以更高效地规划科学实验步骤,并为学习者提供实验操作的实时支架与科学探究的协作服务。
四、基于大模型的教学智能体应用
基于前述所提出的框架,本研究以项目式学习场景为例阐述教学智能体的应用。项目式学习是培养学生核心素养与高阶能力的有效教学模式[34],在典型的项目式学习过程中,学习者通常需要教师与同伴的持续支持以完成项目作品。教学智能体可以通过项目式学习任务设定,为项目式作品的完成进行具体任务规划,支持与项目式学习相关内容的记忆与反思,提供多模态项目资源生成、检索增强生成式的学习支架、高质量代码生成与反馈等多种能力的实现与拓展,同时支持人机交互与多智能体交互模式。如图3所示,教学智能体可以担任“助教智能体”与“同伴智能体”两类教育角色,在不同项目环节中具有不同的任务设定、拓展能力与个体记忆,从而表现出能力与功能差异,为学习者提供多种交互支持。我们以信息科技或人工智能课程中常见的“垃圾分类”跨学科主题为例,阐述教学智能体在项目式学习各个环节中的作用。
(一)个性化驱动问题提出
项目式学习需要基于真实情境提出驱动问题,使学习者能真实地感到解决该问题的迫切性和可行性,从而激发其进行深入探究与完成项目的内在动力。因此,在驱动问题提出环节,“助教智能体”可以首先依据预设的学习情景,建立驱动问题引导框架。在此基础上,“助教智能体”能够与学习者开展多模态形式的在线讨论,并依据学习者的特点与学习意图,采用个性化对话路径与交互策略,最终引导学习者自主提出项目的驱动问题。“助教智能体”可以利用前述LangChain开源技术框架中的智能体模块(Agents Module)实现此主要功能,通过将预设的引导框架作为每一轮对话的目标问题,并将学习者作为每一轮任务规划中必选的咨询工具,实现主动向学习者提问并开展讨论。
例如针对“垃圾分类”这一环保主题,“助教智能体”可以为学习者创设真实情景,调用外部ERNIEViLG多模态大模型[35]的图片生成能力,绘制“海洋垃圾漩涡”“难以降解的塑料垃圾”等情景图片。同时,“助教智能体”基于大模型的对话能力,与学习者进行垃圾治理迫切性的在线讨论。结合学习者的具体反馈,“助教智能体”可以继续提出垃圾治理的可能必要步骤和方法,从而引导学生自主思考并明确具体要开展的项目活动,例如“如何宣传垃圾分类环保理念”或“如何制作一个智能垃圾桶用于垃圾分类”。
(二)项目方案共同设计
为解决学习者提出的个性化驱动问题,教学智能体可以搭建学习者与智能体间的动态讨论小组,基于其教育任务规划能力帮助学习者确定具体解决方案,并对方案进行分解规划。小组讨论可以依据项目目标与学习者风格,采用“智能体领导”或“学习者领导”两种模式开展。在“智能体领导”模式下,教学智能体可以利用前述的AutoGen开源技术框架,构建多个“同伴智能体”,模拟和扮演人类小组成员在项目式学习过程中的不同角色,开展人类学习者与多个“同伴智能体”间的多角色交互。在此过程中,“助教智能体”主要负责基于小组对话历史内容及项目目标,选择每一轮的发言者(人类学习者或“同伴智能体”),并将发言内容广播给所有小组成员,从而在多轮发言与信息传达中实现项目实施方案的协同设计。在“学习者领导”模式下,学习者则可直接自主选择与不同“同伴智能体”展开对话。
具体而言,在“智能体领导”模式下,为解决驱动问题“如何宣传垃圾分类环保理念”,教学智能体可以首先利用其任务规划能力,将驱动问题的解决方案分解为“了解垃圾分类规则”“搜集各类典型垃圾示例”“制作宣传素材和载体”等多个可执行的子任务。基于所规划的子任务,教学智能体可构建多个“同伴智能体”与学习者针对具体项目方案开展讨论,提供策略性支架,并对学习者的意见进行实时理解与及时反馈,逐步引导学习者共同完成项目方案的设计。例如针对“制作宣传素材和载体”这一子任务,多个“同伴智能体”在小组讨论中,可以提出海报、网页或微信小程序等不同宣传形式的解决方案。如果学习者基于自身兴趣和专长提出支持网页形式,“助教智能体”则选择具备相关能力的“同伴智能体”发言,基于制作“垃圾分类宣传网站”展开方案设计和讨论,帮助学习者明确如何设计和搭建宣传网站。随后,“助教智能体”可以在小组内广播得到的方案,并选择其他“同伴智能体”细化建议,例如需要首先明确“垃圾分类”的规则并将其展示在网站重要位置。
(三)项目作品协同完成
基于所设计的项目方案,教学智能体可以构建相应的“同伴智能体”,与学习者协同完成项目作品的制作。项目作品的制作首先需要进行相关素材和信息的采集。例如在 “了解垃圾分类规则”子任务中,需要学习者搜集当地最新的垃圾分类标准。由于世界各地垃圾分类标准不同且更新变化,“助教智能体”可采用RAG方式为学习者提供准确的内容生成。如图4所示,“同伴智能体”利用LangChain框架提供的多种函数快捷实现RAG流程。首先,“索引建立”步骤通过智能体自动爬取或人工筛选互联网上的政府环境部门官方网站资源,利用LangChain中的文档加载(Document Loaders)方法收集可靠的信息,并利用其文本切分(Text Splitter)方法将长文本切分为语义相关的短句。在此基础上,“问题检索”步骤选取大模型抽取文本特征向量,并利用Chroma向量数据库进行存储,构建“垃圾分类标准”的特征检索知识库。进而,利用基于问答的检索方法(Retrieval QA)抽取用户提问的文本特征,并基于特征相似度检索与提问信息最为相关的向量数据库中的信息。最后,“内容生成”步骤将检索得到的信息与用户提问信息输入提示模版(Prompt Template),构建完整的提示信息,利用大模型最终生成最新且正确的各地垃圾分类规则。
在相关素材收集完成后,“助教智能体”可以进一步协助学习者制作“垃圾分类宣传网站”。在此过程中,学习者可以通过多模态方式与智能体交流,为其展示手绘的网站前端设计样稿,或用文本与智能体沟通网站后端设计理念。“助教智能体”可以调用多个外部网页设计脚本语言库,自动生成对应的网页代码。同时,教学智能体可利用AutoGen框架内嵌的机器语言执行环境,直接执行生成的代码,并将执行结果与错误提示反馈给“助教智能体”,指导其进一步自动修改和完善代码。学习者也可以基于已生成的页面,通过页面截屏或自然语言方式反馈修改意见,从而“助教智能体”可依据反馈内容进一步调整优化网站。
(四)项目作品多角色评价
在项目作品展示与评价环节,“助教智能体”与“同伴智能体”可以从各自角度,分别开展项目作品的教师评价与同伴评价。智能体根据个性化驱动问题与项目方案,预先生成相应的过程性与结果性评价量规。在学习者汇报展示人机协同制作的项目作品过程中,“助教智能体”与“同伴智能体”可依据各自记忆模块存储的不同过程性信息及相应评价量规,从教师与外组同伴角度对汇报内容进行项目实施的过程性评价。例如针对“垃圾分类宣传网站”项目作品,智能体可以根据学习者在小组讨论和网站制作过程中的贡献程度,进行客观评价。同时,智能体还可以利用其环境交互能力,实现对网页的点击访问,对网站的设计进行交互测试与量化统计,例如从网页的元素数量、色彩选择、多媒体使用等角度,得到对该项目作品的结果性评价。此外,智能体可以基于其多模态感知能力,将学习者汇报内容以视频形式输入,对学习者项目汇报的语言流畅度、内容逻辑性、阐述完整度等方面进行评价。
基于本轮项目作品的评价信息,“助教智能体”与“同伴智能体”可以结合各自存储的记忆,从学习者的知识掌握、技能获取、交互有效性等方面进行反思提问,促进其教育任务规划、教学与交互能力的同步提升。从而在下一轮的项目式学习中,智能体面对新的学习者群体,可以更有效地开展相同主题下的项目式学习,实现智能体教育能力的进化。
五、总结与展望
基于大模型的教学智能体是生成式人工智能在教育领域重要的未来研究方向和应用落地形式之一,也是解决教育领域人机协同模式的核心技术路径。本研究提出的教学智能体架构,以大模型及其多种能力为核心,结合教育领域的多场景需求和多角色服务特点,致力于启发和帮助未来高智能化教育系统的设计和实现。在此基础上,详细论述了项目式学习场景下,教学智能体的角色、功能及其与学习者的协作实践路径。教学智能体的研究目前仍处于起步阶段,本文针对其未来发展提出以下研究展望:
1.设计和研发教学智能体亟需受到重视,以确保教育领域可以充分利用生成式人工智能等前沿技术,快速提高各类教育产品和服务的智能性与交互性。需要重视多智能体技术的应用,利用智能体模拟和扮演不同教育关键角色,实现“讨论-实践-反思”等多种模式的高效教学交互过程。同时,需要充分发挥智能体与人类各自的智慧优势,实现更为合理有效的人机协同教育模式。
2.与通用领域或其它垂直领域智能体相比,教育领域智能体构建具有领域自身的特殊需求和特点,需要充分考虑教育场景与教学对象的复杂性,设计专有教育大模型及其核心教育能力。教育大模型需要深入理解教育资源、教学对象以及教学过程,具备相关教育理论与学习科学理论的支撑。
3.教学智能体的设计需要充分考虑其对学习者价值观和伦理观念的影响,确保智能体的行为符合社会的道德标准和教育目标。在教育任务执行过程中,教学智能体需要具备持续学习和自我优化的能力,在与教育利益相关方的互动中不断积累经验,提高其教育服务的可靠性与可信性,提供包容性的教育资源和教学策略,避免偏见和歧视。
参考文献:
[1] Franklin S,Graesser A.Is it an Agent,or just a Program :A Taxonomy for Autonomous Agents [A].International Workshop on Agent Theories, Architectures, and Languages [C].Berlin,Heidelberg:Springer Berlin Heidelberg,1996.21-35.
[2] Xi Z Chen W,Guo X,et al.The Rise and Potential of Large Language Model Based Agents:A Survey [DB/OL].https://arxiv.org/abs/2309.07864,2023-09-19.
[3] Soller A,Busetta P.An Intelligent Agent Architecture for Facilitating Knowledge Sharing Communication [A].Rosenschein S J,Wooldridge M.Proceedings of the Workshop on Humans and Multi-Agent Systems at the 2nd International Joint Conference on Autonomous Agents and Multi-Agent System [C].New York:Association for Computing Machinery,2003.94-100.
[4] Woolf B P.Building Intelligent Interactive Tutors: Student-centered Strategies for Revolutionizing e-Learning [M].Burlington:Morgan Kaufmann,2010.
[5] 刘清堂,巴深等.教育智能体对认知学习的作用机制研究述评[J].远程教育杂志,2019,37(5):35-44.
[6] 刘清堂,巴深等.视频课程中教育智能体的社会线索设计研究[J].电化教育研究,2020,41(9):55-60.
[7] 刘三女牙,彭晛等.数据新要素视域下的智能教育:模型、路径和挑战[J].电化教育研究,2021,42(9):5-11+19.
[8] Swan,M.,Kido,T.,Roland,E.,Santos,R.P.D.Math Agents:Computational Infrastructure, Mathematical Embedding, and Genomics [DB/OL].https:// arxiv.org/abs/2307.02502,2023-07-04.
[9] Jinxin S,Jiabao Z,et al.CGMI:Configurable General Multi-agent Interaction Framework [DB/OL].https://arxiv.org/abs/2308.12503,2023-08-28.
[10] Durante Z,Huang Q,et al.Agent AI:Surveying the Horizons of Multimodal Interaction [DB/OL].https://arxiv.org/abs/2401.03568,2024-01-25.
[11] Marino K,Rastegari M,et al.Ok-vqa:A Visual Question Answering Benchmark Requiring External Knowledge [A].Robert S.and Florian K..Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition [C].Piscataway:IEEE Computer Society,2019.3195-3204.
[12] Gao Y,Xiong Y,et al.Retrieval-augmented Generation for Large Language Models:A Survey [DB/OL].https://arxiv.org/abs/2312.10997,2024-01-05.
[13] Li H,Su Y,et al.A Survey on Retrieval-augmented Text Generation [DB/OL]. https://arxiv.org/abs/2202.01110,2022-02-13.
[14] Boiko D A,MacKnight R,Gomes G.Emergent Autonomous Scientific Research Capabilities of Large Language Models [DB/OL].https://arxiv.org/ abs/2304.05332,2023-04-11.
[15] Wei J,Wang X,et al.Chain-of-thought Prompting Elicits Reasoning in Large Language Models [J].Advances in Neural Information Processing Systems,2022,35:24824-24837.
[16] Wang X,Wei J,et al.Self-consistency Improves Chain of Thought Reasoning in Language Models [DB/OL].https://arxiv.org/ abs/2203.11171,2023-03-07.
[17] Yao S,Yu D,et al.Tree of Thoughts: Deliberate Problem Solving with Large Language Models [J].Advances in Neural Information Processing Systems,2024,36:1-11.
[18] Yao S,Zhao J,et al.ReAct:Synergizing Reasoning and Acting in Language Models [DB/OL].https://arxiv.org/abs/2210.03629,2023-03-10.
[19] Wang G,Xie Y,et al.Voyager:An Open-Ended Embodied Agent with Large Language Models [A].Colas C,Teodorescu L,Ady N,Sancaktar C,Chu J.Intrinsically-Motivated and Open-Ended Learning Workshop@ NeurIPS2023 [C].Cambridge,MA:MITPress,2023.
[20] Wu Q,Bansal G,et al.Autogen:Enabling Next-gen LLM Applications via Multi-agent Conversation Framework [DB/OL].https://arxiv.org/ abs/2308.08155,2023-10-03.
[21] Bran A M,Cox S,et al.ChemCrow:Augmenting Large-language Models with Chemistry Tools [DB/OL].https://arxiv.org/abs/2304.05376,2023-10-02.
[22] Gao D,Ji L,et al.AssistGPT:A General Multi-modal Assistant that Can Plan, Execute,Inspect,and Learn [DB/OL].https://arxiv.org/ abs/2306.08640,2023-06-28.
[23] Liang T,He Z,et al.Encouraging Divergent Thinking in Large Language Models through Multi-Agent Debate [DB/OL].https://arxiv.org/ abs/2305.19118,2023-05-30.
[24] Hong S,Zheng X,et al.Metagpt:Meta Programming for Multi-agent Collaborative Framework [DB/OL].https://arxiv.org/abs/2308.00352,2023-11-06.
[25] Park J S,O’Brien J,et al.Generative Agents:Interactive Simulacra of Human Behavior [A].Follmer S,Han J,Steimle J,Riche N H.Proceedings of the 36th Annual ACM Symposium on User Interface Software and Technology [C].New York:Association for Computing Machinery,2023.1-22.
[26] Wang L,Ma C,et al.A Survey on Large Language Model Based Autonomous Agents [J].Frontiers of Computer Science,2024,18(6):1-26.
[27] LangChain.LangChain [EB/OL].https://python.langchain.com/docs/get_ started/introduction,2023-11-12.
[28] Auto-GPT.Auto-GPT [EB/OL].https://docs.agpt.co/,2023-12-29.
[29] AutoGen.AutoGen [EB/OL].https://microsoft.github.io/autogen/,2023-12-28.
[30] BabyAGI.BabyAGI [DB/OL].https://github.com/yoheinakajima/ babyagi,2023-12-28.
[31] Li G,Hammoud H,et al.Camel:Communicative Agents for “mind” Exploration of Large Language Model Society [J].Advances in Neural Information Processing Systems,2024,36:1-34.
[32] 卢宇,余京蕾等.多模态大模型的教育应用研究与展望[J].电化教育研究,2023,44(6):38-44.
[33] Wolfram.WolframAlpha [EB/OL].https://www.wolframalpha.com/,2023-11-11.
[34] 马宁,郭佳惠等.大数据背景下证据导向的项目式学习模式与系统[J].中国电化教育,2022,(2):75-82.
[35] Zhang Z,Han X,et al.ERNIE:Enhanced Language Representation with Informative Entities [A].Korhonen A,Traum D,Màrquez L.Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics [C].Stroudsburg:Association for Computational Linguistics,2019.1441-1451.
作者简介:
卢宇:副教授,博士生导师,研究方向为人工智能及其教育应用。
余京蕾:在读博士,研究方向为人工智能及其教育应用。
陈鹏鹤:讲师,博士,研究方向为人工智能及其教育应用。
Design and Application of Pedagogical Agent with Foundation Model
Lu Yu1,2, Yu Jinglei1, Chen Penghe1,2
1. School of Educational Technology, Faculty of Education, Beijing Normal University, Beijing 100875 2. Advanced Innovation Center for Future Education, Beijing Normal University, Beijing 100875
Abstract: With the rapid development of generative artificial intelligence, agent with foundation model has gradually acquired the capabilities of multimodal perception, retrieval and augmentation generation, reasoning and planning, interaction, and evolution. In this study, we propose the basic concept and framework of pedagogical agent with foundational model, with foundation model as the core, focusing on the construction of “educational task setting”, “educational task planning”, “educational capability realization and expansion”, “educational content memory and reflection”, “interactive collaboration and dynamic evolution”. It also supports interaction with multiple types of objects and dynamic evolution, covering human-computer interaction, multi-agent interaction, and environment interaction. Based on the proposed framework, this study takes the project-based learning task as an application scenario, and describes how the proposed pedagogical agent can be used as “assistant agent” and “peer agent” in personalization-driven problem posing, co-design of the project plan, collaborative completion of the project work, and multi-role evaluation of the project work. Finally, this study further discusses the future development and outlook of pedagogical agent.
Keywords: pedagogical agents; foundation model; generative artificial intelligence; project-based learning
责任编辑:赵云建