APP下载

教育提示语工程:构建数智时代的认识论新话语

2023-11-09赵晓伟祝智庭沈书生

中国远程教育 2023年11期
关键词:人工智能语言模型

□ 赵晓伟 祝智庭 沈书生

一、引言

从模拟心理治疗师的聊天机器人Eliza 到人性化可定制的计算机实体Alice,从充满幽默感的陪伴式虚拟朋友Kuki 到内容生成的对话式智能工具ChatGPT,自然语言的人机对话走过了漫长的道路,人类智慧与人工智能也在交汇融合中相互成就。作为人机对话新的里程碑,以ChatGPT为代表的生成式人工智能踩在了强弱智能的边界,使人们重新燃起对AGI(通用人工智能)的希望,它超越了传统基于规则的聊天机器人,在序列化指令遵循、跨模态内容生成和创意性灵感启发等方面展现出无限潜力,并在教育领域引起笛卡尔所言的“钦叹”效应(祝智庭等,2023;沈书生等,2023)。然而,其也因易生成虚假内容、误导信息、隐性偏见而备受争议,因此有人指出,类似于老式计算设备的“垃圾输入、垃圾输出”问题也存在于像ChatGPT 这样的人工智能中(Gewirtz,2023)。借助生成式人工智能,我们可以发现模式、提取见解、产生高质量输出并获得个性化响应,从触手可及的大量数据中释放无限可能性,但要打开这个神奇的魔盒,必须掌握开启它的钥匙——提示语工程(Prompt Engineering)。

提示语工程是以获得大语言模型的预期响应为目标,通过设计模型应执行任务的自然语言文本,有组织地将提问想法转化为具有一组输入集或指令集的过程。将想法转化为提示语并产生令人惊叹的结果绝非易事,需要优化指令输入以便与ChatGPT 有效沟通,而这正是提示语工程的用武之地。目前,提示语工程正成为人工智能和自然语言处理的热门子领域,ChatGPT的火爆也使得作为互补性职业的提示语工程师引起社会各界的广泛关注,世界经济论坛将其誉为“未来的工作”(WEF, 2023),Open AI 首席执行官Sam Altman 将其描述为“惊人的高杠杆技能”(Clark,2023),未来人人都将直接或间接地成为提示语工程师,提示语设计技能也将融为个体技能。鉴于ChatGPT对教育领域产生的革命性影响,分析提示语所带来的认识论话语转向,思考提示语的教育价值及其核心类型,探索教育提示语工程的可为路径,对教育领域释放大语言模型的无限潜力具有重要意义。

二、认识的话语变革:数字语言中的提示语范式

提示语本质上是控制大语言模型理想输出的语言,是一种“做事”的语言。控制大语言模型的行为就要从研究控制它的语言做起。人类对语言的使用塑造了人与世界的关系,人类在漫长的发展历程中经历了三次话语转向:从古希腊时期以日常语言言说世界的本原,到近现代时期以符号语言言说关于世界的认识,再到数智时代以数字语言为中介认识与言说世界,每一次转向都改变了人们对世界的看法或与世界互动的方式。正如维特根斯坦所言“我的语言的界限意味着我的世界的界限”(维特根斯坦,1996),语言既像阻碍视线的围墙阻挡人们看到墙外之事,也像导航世界的地图指引人们探索更多未知。数智时代的数字语言作为人机通用语言,帮助人们冲破阻隔、扩大地图,并使用新语言(提示语)探索无限世界。艾伦·图灵设计的机械自动化抽象计算模型,本质上是根据特定规则和输入数据执行一系列任务的机器,实现了人工智能与人类语言的最初碰撞,引发并推动了提示语的产生与设计。自此,计算机科学家尝试设计能够理解人类自然语言的程序,帮助人类更好地认识与改造世界。随着自然语言的发展以及深度学习的出现,提示语设计愈加复杂并作为新兴领域(提示语工程)而出现。

(一)基于先验规则的“匹配—预测”范式

早期基于先验知识的符号规则遵循理性主义范式,机器遵循预先设定的规则进行模式识别并生成响应,模仿人类对话,譬如在与机器人治疗师Eliza 对话时患者可以在脚本中键入消息并收到响应,生成下一步沟通的提示。这是提示语工程的萌芽。由于人类认识无法全部形式化,也难以预设处理无限问题的所有规则,使得机器对提示语的理解和响应能力受到限制。基于概率统计的机器学习实现了从理性主义向经验主义的过渡,利用预定义标记数据提炼规律生成模型并处理新的语言现象。不同于Eliza 的有限响应且受规则约束,聊天机器人Jabberwacky 没有硬编码规则而是依赖于反馈规则,通过上下文模式匹配识别内容,并借助机器学习改进响应;机器人Alice 则通过启发式模式匹配规则与人类对话。随着自然语言处理以及理解技术的发展,提示语被广泛应用于语音识别系统、聊天机器人和虚拟助手等应用中,Siri、Watson、Alexa 等综合运用进阶自然语言处理、自动推理、监督/无监督学习等开放式问答技术,基于提示语的语境与语义从海量数据库中提取答案,实现人机对话。随着世界范围内的数据扩张与算力提升,基于神经网络的深度学习则使用神经网络架构,以半/无监督学习的方式训练标记数据、特征提取与建模,形成了具有代表性的静态语言模型,尽管如此,提示语设计并未取得突破性进展。

(二)基于预训练模型的“提示语—响应”范式

自2018 年以来,对原始大规模文本进行自监督学习的预训练语言模型备受瞩目,OpenAI 逐步形成了“预训练—微调”范式,通过无监督学习训练基于Transformer的生成语言模型,并在下游任务中对预训练模型进一步微调。数据集的丰富和模型容量的扩大,使预训练模型进入大语言模型阶段,在GPT-2多任务学习和GPT-3 情境学习的基础上,研究者注意到,使用更大的语言模型本身并不能使它们更好地遵循用户的意图,因此ChatGPT及其后的GPT-4补充了指令微调、奖励建模、人类反馈强化学习等技术,尝试从原始数据中学习更复杂、更高阶的特征,使大语言模型具有更好的通用性与泛化能力,由此提示语工程发展成为新兴领域并迎来重大突破。首个Chat-GPT模型是由人工标注者撰写提示语并训练,标注者需要努力推断出用户撰写提示语的意图,并跳过任务模糊的提示语。这些提示语可由自然语言指令直接指定,也可通过少量示例或隐含意图间接指定,此外早期提交给API 的提示语也成为预训练模型的数据集。该模型通过监督模型、奖励模型、近端策略优化等进行微调,预测并输出人类偏好的响应(Ouyang,et al.,2022),涌现出“提示语—响应”的会话轮转,实现从数据理解到数据生成的转变,帮助人们萃取数据、建立关联并生成内容,扩展人类认识世界的能力并启发人类创造力。

随着ChatGPT 逐步从GPT-2 的“预训练”范式、GPT-3的“预训练—提示语”范式转变为“预训练—提示语—微调”范式,机器不断具备理解和处理提示语的通用能力,能够与人类意图尽可能地保持一致。然而,随着人工智能技术在回答问题方面能力的显著提高,这种进步也暴露出人类在提问方面所面临的挑战和不足。提示语作为数智时代认识论的新话语,有望通过建立人类语言与人工语言之间的对话一致性扩大人类的认知视野并打破限制人类的认知壁垒。未来,人类的每次求问都将借助提示语并为机器提供语料,机器响应的数据又将优化模型并启发人类新的求知。提问的水平越高,提示语设计得越有针对性,越能获得高质量的响应。在人类参与下大语言模型可以通过持续“提示语—响应”轮转创建更可靠的语言模型。因此,更好地设计提示语对于人机对话至关重要。

三、提示语工程:大语言模型教育应用的加速力量

生成式人工智能强势进军教育领域并表现出前所未有的通用性,引发了教育者的思考:如何在教育领域应用大语言模型做我们期望之事?由于简单的提示并不总是产生预期结果,因此教育相关者必须探索设计高质量的提示语以便引发期望的行为。提示语工程作为新兴领域,为大语言模型的教育应用提供新思路与新动能。

(一)内涵释义:设计指令引发预期响应的过程

在自然语言处理和人工智能领域,提示语(Prompt)是用户向计算机程序或大语言模型提供的一组输入集或指令集,以引导其响应或行动。教育提示语是学习者或教育工作者为了帮助机器理解人类意图,使用适合机器理解的自然语言重新组织设计的一组指令集,可以是与教育相关的问题、陈述或带有参数的文字描述。通常来说,教育提示语中会包括明确的指令或查询,便于告诉大语言模型自身的教育需求、意图或任务类型,以获得预期的响应。教育提示语工程将专注于教育领域提示语的开发和优化,融合人类思想编程与机器自然语言编程,针对大语言模型应执行的任务设计、实施、改进自然语言文本,进而引发预期准确响应的过程。教育提示语工程能够帮助教育相关者有效地将大语言模型用于各种教育场景与研究领域,提升大语言模型处理复杂任务场景的能力。

(二)教育价值:人机对话促进教育样态的革新

提示语在人类与大语言模型间的高效交互中发挥重要作用,推动教育场景从数字化向智能化加速跃迁,通过革新自主学习样态、变革教学设计流程、丰富数据决策方式,有助于学习者、教育者和管理者更好地掌握开启大语言模型教育应用潜能的钥匙(如图1所示)。

第一,提示语以因人而异的对话内容,能够为学习者创造定制化学习体验。借助良好的提示语设计,可以让生成式人工智能化身数字规划师与个人学术教练,实时回应学习者的需求、偏好与提问指令,按需定制个性化任务清单、工具策略集、学习资源包等,为学习者目标生成有针对性的指导与建议,引导他们在认知建构与问题解决时理解新知、批判思考并提升问题解决能力,支持学习者在测试迭代中识别问题并优化改进、在反思评价时获取测验练习、在交流展示时结合所学知识释放想象力。此外,学习者还可以设计提示语定制背景信息与对话规则,按需添加生成响应时所需考虑的首选项或需求,以便将答案限定在特定主题并以特定格式呈现,设定特定对话规则以获得理想答案(如表1 所示)。借助提示语,学习者向机器提问以求知,真正实现个性化生成式学习,使人们期盼了千年的因材施教愿景有了实现的可能。

第二,提示语以循环连贯的对话进程,能够为教育者提供全流程设计支持。教育者在定制背景和偏好后,可将大语言模型转换为对话代理,通过向模型提供对话提示语启动对话。对话提示语通常包括序言,为对话设置场景,随后可以提供一些与代理之间的示例对话。在提示语一步步追问指引下,生成式人工智能将化身虚拟教学设计师,协助教育者制定学习目标,创建适合特定需求的课程大纲与课程计划,设计定制化的教案学案、作业测验、评分细则和其他材料;帮助教师收集并分析数据,提供策略支持建议,为差异化教学设计提供创新思路;借助文本转图片的提示语设计,实现跨模态内容生成,启发教育者设计引人入胜的教学内容。可见,提示语有助于提高教育者的工作效率,优化与改进教学(如表2所示)。

表2 教育者提示语设计示例

第三,提示语以高质稳健的对话产出,有望为管理者带来针对性决策见解。大语言模型可能会产生不真实或不正确的虚构知识,而良好的提示语设计可引导大语言模型快速响应并生成上下文相关、连贯的输出,允许管理者以有意义、启发性方式解释生成的内容。在提示语指引下,生成式人工智能可化身为战略分析师,支持管理者把握技术变革动向并建立正确的技术心智模式。譬如,设计提示语“你作为推动变革的领导者,分析AIGC 发展趋势,确定三个颠覆性改变学校教育的机会,找出可能彻底改变学校教育的潜在需求、新兴技术和创新形态,为每个颠覆性机会提供详细描述,包括目标受众、价值主张、潜在挑战和实现路线图,并提供战略建议”生成的规划建议有助于启发管理者建立变革意识,洞察智能技术的教育价值及其之于学校变革的重要契机。此外,管理者还可设计提示语对学校教学、管理数据进行分析与可视化,识别潜在问题,通过人机协商与人际协商,利用大语言模型获取数据并进行循证学校改进。

四、教育提示语工程:数智时代提示语设计的新话语

提示语工程起初是由提示语工程师使用精心设计的提示将聊天机器人以及生成式人工智能的价值发挥到极致。然而,与大语言模型对话并非提示语工程师的专利,为了释放大语言模型在教育中的潜力,教育相关者必须学会设计精巧的提示语以便产生理想的输出。然而研究发现,对于非技术用户而言,为ChatGPT 编写适当的提示语并不简单,需要经历试错过程(Woo,et al.,2023)。

(一)设计框架:提示语设计的“CORE”要素

设计出良好的教育提示语框架,有助于为Chat-GPT 等大语言模型满足特定教育需求提供更好的指导。吉拉伊(Giray,2023)提出了提示语设计的ICIO关键要素,一是指令(Instruction),指导模型行为并引导预期输出特定任务;二是语境(Context),为模型提供背景知识或额外情境;三是输入数据(Input data),期望模型处理并提供响应的输入,可以是人工智能生成响应时需考虑的一组数据点或示例;四是输出指标(Output indicator),指定所需输出的格式、结构或呈现方式,如带有项目符号的文本层级、信息顺序或所需长度等。泰勒(Taylor,2023)提出了提示语设计的五个支柱,包括示例、方向、参数、格式和链接;罗(Lo,2023)提出了教育提示语的CLEAR 框架(简洁、逻辑、明确、可适应、可反思)。

由于提示语工程可被视为“言说”的逻辑,即以提示输入指导机器做事,遵循言语行为理论“以言行事”的思想,该理论也被广泛用于指导人机交互中的协商对话,因此借助言语行为规则能够有效设计提示语。塞尔(2017)认为言语行为的成功需要具备命题内容条件、预备条件、真诚条件、实质条件,以便言者向听者传达信息;吕生禄(2015)将上述条件优化调整为命题、先决、意图和语境知信四个条件。借此,我们提出教育提示语设计的“CORE”框架由两个必备要素(C、O)和两个可选要素(R、E)构成。其中,“C”代表语境,帮助大语言模型掌握与任务相关的背景信息,涉及主题领域、目标受众等信息;“O”代表目标,阐明个人意图并以命题形式表述希望大语言执行的任务,包括提出问题、阐明需求或指定格式等,目标的清晰度和特异性直接影响生成内容的相关性和准确性;“R”代表角色(Role)或规则(Rule),可以增加假设角色让大语言模型进行思想实验,也可以预设交互规则约定对话方式,以便创建定制化交互;“E”代表示例,为大语言模型提供准确的模板,启发其生成预期内容。

(二)提示语类型:从基础到进阶的五类指令

教育提示语的分类方式多样,了解提示语的类型有助于根据目标响应灵活设计提示语。从言语行为分类看,Halliday 将语言交际过程解析为“任务—内容”两组变项,涉及“给予—索取”两类基本任务以及“信息—服务/动作”两种交流内容,进而构成提供、陈述、提问、命令四种功能(胡壮麟等,2005)。结合“CORE”框架,我们形成了教育提示语设计的分类方式(如表3 所示)。由于教育相关者往往设计提示语以向机器求新知,在此重点关注“索取”和“给予+索取”任务中的提示语设计。前者可称为基础提示,仅涉及语境、目标两个必备要素,后者作为进阶提示,可根据“必备要素+任意一/多个可选要素”方式排列组合。

表3 教育提示语设计的分类方式

基础提示为大语言模型提供了基于特定情境的简单命令或待回答的问题,当提问者期望获得简短的事实性答案或完成某项任务(如总结一篇文章或回答多项选择题)时,基础提示很有帮助。譬如“为六年级地理课设计一个项目化学习作业”“我是七年级学生,你能帮我解释工业革命对现代社会的影响吗”。提问者通过提出一个暗含言语意图的问题或命令,并告知大语言模型语境信息,以便建立两者“认知”关联,使大语言模型在特定情境下理解提问者的意图与指令并做出恰当回应。图2 呈现了不同语境下大语言模型的响应,使用“语境+目标”的提示语更具针对性,且更能获得符合特定情境的响应结果。

图2 不同语境下大语言模型的响应

进阶提示结合了给予与索取任务,通过告知大语言模型特定信息与要求以获取预期响应,包括四类提示(如图3 所示):一是示例提示,借助少样本示例为大语言模型提供准确模板,指导其产生与示例近似的结果,譬如“这是朱自清描写春天的片段‘……’,模仿其为七年级学生写出关于夏天的描述”。二是角色提示,为模型分配特定角色或视角以增强人工智能生成的内容,譬如“作为学术导师,根据我最近对高数考试的反思,帮我为下次考试设定SMART目标”。三是规则提示,给予大语言模型约束规则,引导它遵循设定规则响应或执行对话,譬如“帮助我学习任何科目。先问我要学习的科目,我回答后继续提问,确定我感兴趣的子主题,给我编号的选项。根据我的回答,为我提供定制课程,将信息量限制在总范围的20%左右,这样我可以自学80%的知识。在课程结束后,针对你希望我关注的特定领域,请给我五个测试题”。四是组合提示,综合上述多种类型的提示将产生更强大的提示语、获得更好的响应。

图3 基于CORE框架的进阶提示语类型

“CORE”框架体现了提示语内容设计的结构化思维,为了使大语言模型在教育应用中获得可靠、一致的结果,还可以运用设计智慧以结构化方式设计提示模板,通过预定义提示语角色、规则,定制大语言模型输出方向,降低用户与ChatGPT 的“认知”负担,提高二者对提示语的语义认知。在结构化提示语设计中,可以自定义特定属性词设计提示语模板,如预设角色,使大语言模型聚焦在对应领域进行信息输出;明确角色技能,描述期望角色具备的工作技能;定义规则,限定角色需遵循的规则要求;约束限制条件,帮助大语言模型减少不必要分支的计算;定义工作流,设置满足上述角色的工作流程,定义角色与用户交互的方式;进行初始化,提供语境与提问规则,描述提示语的目标。通过设计提示语模板,使其像面向对象编程一样直观,允许用户在执行其他任务时直接调用。譬如,可以设计促进概念理解的结构化提示语帮助学习者自主提问,并生成关于概念的基本介绍(Lijigang,2023)(如图4所示)。

五、教育提示语工程的实现:释放大语言模型的潜力

当前,生成式人工智能在教育应用领域仍处于探索阶段,教育提示语工程作为释放大语言模型潜力的驱动引擎,为新一代人工智能赋能教育变革注入新活力。发展教育提示语工程,明晰其实践路向,有望加速教育生态格局变革与数字化转型。

(一)创建面向不同场景的教育提示库

随着教育通用人工智能大模型建设的加快,教育提示库的创建也应纳入日程。教育提示库作为教育提示语工程的基石,是借助计算机技术对海量提示语进行处理,以供索引存储、自动检索和统计分析的资源库。用户借助经过测试和优化的精选指令集能够简化提示语设计过程,以高效灵活的方式控制大语言模型的运行,进而获得更加准确、一致的响应结果,这种方式也能够降低自然语言存在的灵活性挑战。理想的教育提示库应当能够嵌入不同的大语言模型且具备以下功能:第一,面向多元教育者的全场景应用。教育提示库应面向管理者、教师、学生甚至家长等教育利益相关者进行创建,覆盖“教—学—管—评—研”等应用场景,构建面向不同应用场景的特定主题指令集或任务指令模板,对提示语加以组织分类。第二,允许多检索方式的查找与使用。教育提示库应支持多种方式的检索,用户既可以直接检索,也可以根据特定用户、特定场景、特定主题分类选择所需提示语,还可以根据性能指标(如响应时间与准确性、用户使用率与满意度等)筛选提示语。第三,支持参数可选择的自定义设计。教育提示库能够支持用户按需自定义设计新的提示语,包括提示语标题、描述、模板等,可以根据“CORE”框架为用户提供提示语设计支架,如“请提供您的背景信息、请提供您的需求或指令、请指出您期望我扮演的角色/遵守的规则(可选)、请提供示例(可选)”;可以提供多种可选的参数设计供用户调整设置(如输出格式、字数、质量),譬如Midjourney 作为文本转图像平台,支持用户在提示语设计时通过调节参数调整图像的生成方式,如设置权重、图片风格、迭代次数、纵横比等。教育提示库应支持用户公开分享所设计的提示语,建立奖励与审核机制,以便他人测试使用。第四,适应针对需求的多层级指引。教育提示库中可提供提示语设计指南、智能问答助手等,为用户提供个性化支持服务。第五,提供持续性更新的可扩展方案。随着大语言模型的进化和新应用的出现,教育提示库应持续更新,及时扩展应用场景、任务主题并更新指令库,提升其实用性与稳健性。

(二)研制教育提示语工程的技术规范

生成式人工智能作为技术发展的新兴力量,面临的最大挑战之一是缺乏标准化,导致不同模型和系统间难以通信和交互,进而引发混乱、低效甚至不一致的响应。加强GPT 相关技术规范研制,有助于构建可信安全、好用高效的教育通用人工智能大模型。其中,研制教育提示语工程技术规范,能够通过定义清晰的专业术语、程序步骤、方法技巧等,明确用户需要遵守的知识性、智能型行为规范,确保提示语的开发部署过程高效、规范且可靠,解决技术规范滞后于技术发展的问题。

参照《生成式人工智能服务管理暂行办法》(国家互联网信息办公室等七部门,2023)、《教育通用人工智能大模型标准体系研究报告》(吴永和,2023)等文件,我们初步构建了教育提示语工程技术规范(如图5所示)。第一,总体规范:作为教育提示语工程的总体框架性规范,涉及对教育提示语工程中通用术语的统一界定、整体规范的体系框架以及实施效果的测试评估等,有助于利益相关者建立关于教育提示语工程的统一话语体系。第二,基础环境规范:从基础硬件、操作系统、输入输出接口等方面进行规定,要求用户使用具有合法来源的数据和基础模型获取、处理提示语,并确保教育提示语在不同平台或模型中部署和使用的兼容性。第三,数据处理规范:定义提示语数据的标注方式和格式(如意图标注、实体标注、槽值标注、意图关联标注等),规定每个提示语所属的类别或意图的标注规范,确保一致性和可解析性,还可提供明确的标注指南和示例,使标注人员正确理解标注任务。第四,技术支撑规范:定义模型的数据输入、输出格式,确保提示语与响应的一致性、可读性,模型输入规范涉和提示语类型、长度、编码等方面的规则,以及关于特征提取和预处理方面的规范;模型输出规范涉及响应类型、长度、解码方式以及后处理流程等方面的规定;错误处理规范则规定未知提示语输入或对错误处理提示语时应返回的响应。第五,领域应用规范:用于指导用户在不同教育场景下设计与使用提示语。第六,安全隐私规范:确定用户对提示语的收集和使用规范,保障用户隐私和数据安全;定义敏感信息的处理方式和存储加密措施;规定模型的权限管理,确保仅授权人员可以访问并使用模型。第七,部署维护规范:规定提示语插入、监控和日志记录要求,及时发现问题并修复,确保教育提示语的稳定性和可扩展性。

图5 教育提示语工程技术规范

(三)培养教育领域的“提示语设计师”

提示语设计师作为联结个体思想和大语言模型的摆渡者,能够凭借自身领域知识与数智素养弥合个体高意识需求与AIGC 能力沟的“最后一公里”。区别于大语言模型“自投喂”训练模式,提示语设计师通过使用数智时代认识论的新话语,为大语言模型提供了来自人类常识性、直觉性经验的必要补充(喻国明等,2023)。需要指出的是,提示语设计师并非必须具备编程技能或人工智能技术知识,而是需要具备多种软技能。优秀的提示语设计师应该拥有较强的提问和问题解决能力,还应具备领域知识、沟通技能、语言技能、批判性思维、创造力等(Sarah,2023),以便开发用户友好、高效可靠的人工智能驱动解决方案。

随着教育通用人工智能大模型成为教育创新的重要驱动力量,提示语工程逐渐成为教育工作者与学习者需要掌握的新领域,每个个体都将作为提示语设计师直接或间接地设计提示语以指导大语言模型执行任务。目前一些在线教育网站(如Udemy、Coursera)推出提示语设计教程,OpenAI 与Deep-Learning.AI 也联合推出一小时的提示语设计免费课程,支持学员基于Jupyter Notebook 交互式环境实时设计提示语,快速积累实践经验(DeepLearning.AI,2023)。此外,可借助PromptPerfect 优化个体所设计的提示语,借助Chatsonic Prompt Library 提示库、AIPRM 提示语插件等,通过示例学习为提示语设计提供支架。随着MidJourney Prompt Helper、Prompt Generator等提示语中介平台的涌现,未来个体的提示语设计技能将逐步弱化,提问技能、批判技能与创造能力将成为提示语设计师需要具备的关键能力,个体需要运用设计智慧搭建基于问题的思维架构,根据大语言模型的输出结果进行基于数据的批判反思与科学决策,实现面向未知的创造性问题解决。

(四)测评提示语表现性能并防范风险

随着教育提示语的设计变得愈加复杂且应用范围不断扩大,对于充分利用大语言模型而言,测试、评估提示语并持续迭代显得尤为重要,需要开发新的测评方法,衡量提示语在不同教育场景下的表现。ChatGPT 开发了用于测试提示语的有效性及其引发响应的RACCCA 框架,涉及相关性、准确性、完整性、清晰性、连贯性和适当性,该框架有助于评估提示和响应,帮助用户通过迭代提高ChatGPT输出的质量(Maynard, 2023)。波希明(Beauchemin,2023)建议以测试驱动的方式(Test-Driven Development)发展提示语工程,以便通过测试提示语拥抱大语言模型的不可预测性,处理由引擎、型号版本、温度和提示语变化带来的复杂性,降低提示语设计与模型响应时存在的潜在风险;引入开源评估工具包Promptimize,允许用户将提示语案例定义为代码,以便跨越各种应用程序管理,修改和重用提示语;支持创建各种提示变量,将评估功能与提示语关联起来,帮助用户试验不同的短语、情境或约束,客观评估生成的响应并优化模型性能;允许用户在不同AI 引擎上运行提示语,并根据评估指标对输出进行排名,简化识别最佳执行提示语的过程。此外,该工具包提供了汇总不同提示语性能的报告功能,使用户能够做出数据驱动的决策,有效迭代所设计的提示语。

由于大语言模型缺乏针对提示语的严格验证机制,导致其易受恶意提示语的干扰输出不恰当、有偏见或有害的内容,造成“提示语注入(prompt injection)”风险。常见的提示语注入攻击会让系统做一些未设计的事情:轻易改变模型的完整性(目标劫持),从初始提示语中获取敏感或机密信息(提示泄露),绕过模型限制进而执行任意任务或输出违规任务(越狱攻击),等等。为了防御提示语注入攻击,我国大数据协同安全技术国家工程研究中心发布《大语言模型提示注入攻击安全风险分析报告》,建议一方面进行网络安全测评,检测模型软件、插件等是否存在安全漏洞,另一方面进行内容安全测评,训练定制化的提示语测评数据集,检测模型输出是否安全有效。此外,还建议构建多层次的协同防御体系以及大语言模型安全风险监测预警平台,推动我国构建安全可信的人工智能(大数据协同安全技术国家工程研究中心AI 安全实验室,2023)。

六、结语

如果说教育通用人工智能大模型是一幅充满无限可能性的画布,教育提示语则是我们在这幅画布上绘画的精巧画笔。无论是教育领域的资深研究者还是充满好奇心的学习者,掌握教育提示语都将帮你敞开一个充满无限发现与创意的大门。尝试运用教育提示语的设计艺术与大语言模型交互,将会真正释放人工智能的创造潜力,在教育数字化转型中探索无尽的可能性。本研究试图抛砖引玉,提出教育提示语的设计框架以及教育提示语工程的实现思路,以求更多教育共同体致力于教育提示语设计的方法探索与实践应用。

猜你喜欢

人工智能语言模型
重要模型『一线三等角』
重尾非线性自回归模型自加权M-估计的渐近分布
语言是刀
2019:人工智能
人工智能与就业
让语言描写摇曳多姿
数读人工智能
累积动态分析下的同声传译语言压缩
3D打印中的模型分割与打包
下一幕,人工智能!