大模型在高等教育中的应用:大模型写作辅助能力测评
2024-12-31尹珺瑶
[摘" "要] 大规模语言模型引发了高等教育领域的深层变革。研究基于人—技关系理论,聚焦人文社会学科研究生学位论文写作辅助场景,构建包含知识、逻辑和应用能力三大维度15项任务的能力框架,及包含2,990道题项的测试数据集,以ChatGPT、Qwen-72B-Chat和Qwen-14B-Chat为样本模型进行写作辅助能力测评。研究发现:大模型在人文社会学科学位论文写作辅助场景下表现出较好的知识型能力与应用型能力,逻辑型能力也存在较强的发展潜力,Qwen-72B-Chat在高等教育与科研垂类表现较好。研究针对大模型在科研方法、社会关系和因果关系三方面的不足,探索了有效的补充指令改进策略,从学习者、研发者、管理者和研究者视角提出了建议,以科学规范与指引学生的技术行为,推动高等教育与科研垂类大模型的建设。
[关键词] 高等教育; 学位论文; 写作辅助能力; 大模型测评; 人—技关系理论
[中图分类号] G434" " " " " " [文献标志码] A
[作者简介] 尹珺瑶(1997—),女,湖北武汉人。博士研究生,主要从事教育经济与管理、高等教育研究。E-mail:648204413@qq.com。
一、引" "言
数智时代,以ChatGPT为代表的大规模语言模型(以下简称“大模型”)在自然语言处理领域已经展现出惊人的通用能力和应用潜力,引发了高等教育领域的深层变革,发展学生与人工智能协作共处的智慧,规范人工智能技术在高等教育领域的应用势在必行[1]。学位论文写作是高等教育人才培养的“最后一公里”,大模型已被学生广泛应用于辅助学位论文资料检索、校对、润色等方面[2],但由于学生缺乏科学的大模型写作能力测评结果作为参考和指引,加剧了学术精神异化与学术不端风险,这一风险性在人文社会学科领域尤其明显[3]。探析人文社会学科学位论文写作场景中的大模型作为辅助工具的能力边界,对于科学引导、监管与规范学位论文写作中的人工智能技术使用行为,降低技术滥用引发的人才培养质量风险而言至关重要。
“技术之所是,包含着技术为之效力的各种需要和目的”,基于人的需求和实践的技术才有意义[4]。在海德格尔观点的基础上,伊德提出“人—技关系”理论,将人技关系视作包含具身关系、解释学关系、他者关系和背景关系的连续统[5],适应具体情境需求的技术具身是技术变革与人技关系发展的理想目标与必然趋势[6]。评估和发展大模型满足具体情境需求的能力,对于推动人技关系走向技术具身而言至关重要。教育场景中的大模型能力测评研究逐年增多,EduNLP团队针对K12教育发布首个CALM-EDU评测框架与报告,从教学知识、学生发展与内容知识三个维度评估各模型在教育领域的综合性能,组织了ChatGPT教学能力诊断[7],为模型评测框架与数据集构建提供了一定参考。为弥补当前大模型能力测评研究在高等教育垂类以及在具体科研辅助应用任务中的空白,聚焦人文社会学科学位论文写作辅助场景下的大模型能力,构建具有更细粒度的大模型学位论文写作辅助能力评测框架与数据集,评估样本模型在高等教育垂类的任务表现,并探寻模型问题与改进策略,对于高等教育与人文社会科学研究场景下的垂类大模型应用与发展有重要价值。
二、研究设计
(一)研究方法与样本选择
针对相同场景、相同度量下的标准化模型评估,国内外多所研究机构已构建了较成熟的大模型能力评测框架与数据集,形成了系统评测结果[8],为研究设计与样本模型选择提供了一定的指引和参照。2023年7月,上海人工智能实验室推出了开源大型模型评估平台OpenCompass,评估范围涵盖学科、语言、知识、理解和推理五个维度[9],能够全面评估大型模型的能力,提供了一种全面成体系的评测范式。仿照OpenCompass的评测任务设置,自主构建测评数据集,并实现了自动化评测,得到了可靠的结果。
样本模型的选取综合考虑代表性与可得性,参考开源大型模型评估平台OpenCompass在语言、知识、推理等维度的模型排行,以及大模型领域的主流评测任务MMLU[10]、C-Eval[11]和GSM8K[12]上的表现,我们选取OpenAI在2022年11月发布的ChatGPT(GPT-3.5-Turbo),以及阿里云通义千问对话模型Qwen-Chat系列中的Qwen-72B-Chat与Qwen-14B-Chat作为样本模型。其中,ChatGPT代表国外大模型的领先水平,可付费用于学术研究;Qwen-72B-Chat作为国内最大参数规模的开源大语言模型,其数学逻辑、意图理解与通用知识能力在基线测评排行中表现突出,代表中文大模型的前沿水平;Qwen-14B-Chat开源且运算成本较低,在各大基线测评中其通用能力显著超出同规模模型,代表高可控与高性价比。
为实现规模化可信推理,基于公平原则,开源对话模型Qwen-72B-chat和Qwen-14B-chat的评测运行于8张A100-SXM4-80G GPU,基于PyTorch 2.1.0和Cuda 11.8的环境,vLLM 0.2.2高速推理框架,完成了样本模型在人文社会学科学位论文写作辅助任务上的能力评测;而对于闭源的ChatGPT,选用基于API(GPT-3.5-Turbo)的模型推理方式,公平地完成了相同人文社会学科学位论文写作辅助任务设置上的能力评测。基于评测结果的差异分析,对特定问题进行补测与个案分析,有助于探究大模型在真实应用场景中存在的问题与改进策略。
(二)研究过程
研究过程大致分为四个阶段:
第一阶段,搭建研究框架。围绕学位论文辅助工具能力的内涵与要素,对教育领域与人工智能领域专家开展结构化访谈。访谈文本资料共词分析结果显示,大模型等人工智能技术作为学位论文写作辅助工具的能力要素大致划分为:规范论文写作、查找知识信息和提供多样表达三类。在此基础上,综合OpenCompass提出的大模型通用能力框架与C-Eval、MMLU等大规模基线评测任务内容,将研究框架划分为知识型能力、逻辑型能力与应用型能力三大维度,每个维度包含5个二级指标,共计15个指标(见表1)。
2.问题设计主要根据各项指标测试的实际需要,由于各项指标测试难度存在差异,故对应的问题数量不完全相同。
第二阶段,设计测试问题。基于研究框架,邀请国内3位人工智能领域专家与9位教育领域专家针对每个维度中的5个二级指标进行问题设计。在参考OpenCompass框架,结合C-Eval、MMLU等基线测评数据库,中国国家公务员考试、普通高等学校招生全国统一考试与全国硕士研究生统一招生考试等大型权威考试真题库的基础上,课题组专门针对人文社会学科学位论文写作场景,经过多轮试测与评估,反复修订题目内容与表述方式,设计了包含2,990道单项选择题的测试数据集。值得强调的是,相较于现有的通用能力评测数据集,本研究所构建的垂类测评数据集聚焦人文社会学科学位论文写作辅助具体场景下的大模型能力表现,对具体任务进行了更细粒度的划分,问题设计更加突显专业性和应用性,测评结果在人文社会学科学位论文写作辅助应用场景下更有参考价值。
第三阶段,对样本模型进行准确性测试。对样本模型ChatGPT、Qwen-72B-Chat和Qwen-14B-Chat在15项任务上进行测试训练并统计结果,以各项任务的准确率为该模型人文社会学科学位论文写作辅助能力的代理变量。
第四阶段,针对特定问题进行追加补测与个案分析。在真实应用场景下,提供更详细的补充信息和更具体的指令要求能够提高大模型的辅助能力。通过模拟学位论文写作辅助真实场景下的开放问答,对准确性测试阶段出现的特定错题进行追问,发现样本模型在实际应用中存在的问题并从补充指令的角度探究改进路径。
最终,基于第三、四阶段研究结果的分析,形成研究结论并提出讨论与建议。
三、研究结果
(一)整体描述
从模型能力得分情况来看,在三个样本模型中,Qwen-72B-Chat的学位论文辅助能力最强,整体准确率达到81%,各维度能力准确率均高于70%;其次是Qwen-14B-Chat,准确率为71%;ChatGPT的学位论文辅助能力最弱,准确率仅48%(见表2)。整体上,Qwen-72B-Chat具备更强的人文社会学科学位论文辅助能力。经检验,样本模型在知识型能力、逻辑型能力和应用型能力三个维度上准确性得分与整体准确性得分具有一致性,表明测试数据集具有较好的鲁棒性,准确性测评得分能够代表大模型人文社会学科学位论文辅助能力水平。
从模型能力得分分布来看,三个样本模型的能力得分分布均较离散。其中,Qwen-72B-Chat的离散程度最低,标准差仍可达0.12,大模型的学位论文辅助能力建设均衡性有待提升。经检验,样本模型能力分布状况基本一致,排除了数据集对得分平衡性的内生干扰,能力得分分布情况能够体现大模型人文社会学科学术论文辅助能力建设的均衡性。
从各维度得分情况来看,ChatGPT在应用型能力维度上表现较好,擅长根据指令处理文本内容,但相较于OpenCompass框架内其他通用任务测评结果,ChatGPT在学位论文写作辅助这一具体任务上的知识型能力和逻辑型能力表现欠佳。Qwen-72B-Chat与Qwen-14B-Chat在知识型能力与应用型能力维度上表现更好,逻辑型能力相对较差。综合而言,在学位论文写作辅助场景下,大模型具备的知识能力与应用能力能够满足学生资料收集、论文润色等基本需要,但在信息不充分的情况下,大模型难以准确理解和分析人文社会科学研究中复杂的逻辑关系,辅助学位论文写作的逻辑能力还存在很大提升空间。鉴于此,在个案分析部分,重点探讨大模型在人文社会学科学位论文写作辅助场景中的逻辑能力问题与改进路径。
(二)差异分析
通过对15项具体指标在模型内部和模型之间的能力差异进行分析,分别比较样本模型在各维度具体任务上的表现(如图1所示)。经检验,样本模型的具体指标得分与在所属维度上的能力表现具有一致性,说明数据集问题匹配任务的稳健性较高,测评结果能够较客观地反映模型能力。
1. 模型内部能力差异分析
ChatGPT的学位论文写作辅助能力整体较弱,有12项指标准确率低于60%。其中,应用型能力相对较强,文意理解指标准确率达到80%;逻辑能力维度上的归纳推理与演绎推理指标准确率仅有22%和26%。ChatGPT虽然在一定程度上能够理解输入内容的含义,但缺乏逻辑关系的理解能力和逻辑问题的解决能力,人文社会科学研究相关知识掌握不足。在人文社会学科学位论文写作辅助场景下,ChatGPT仍存在许多不足,在缺少充足信息补充的情况下使用ChatGPT辅助学位论文写作的风险性较高。
Qwen-72B-Chat的学位论文写作辅助能力整体较强,有11项指标准确率不低于80%。其中,知识型与应用型能力维度的指标准确率大体在80%以上,其中有政策知识、历史知识与文意理解指标准确率高于90%,逻辑型能力维度的概念判断指标准确率接近100%,但逻辑型能力维度的其余4项指标相对偏弱,演绎、类比和常识推理的准确率仅64%、63%和69%,归纳推理的准确率仅54%。Qwen-72B-Chat能够为学位论文写作提供相对丰富和准确的知识资料,对人文社会科学研究内容的理解和抽象概括的能力较强,病句纠错、同义改写等论文写作规范应用的效果相对更好,但该模型在解决社会关系问题上的逻辑推理能力有待提升。
Qwen-14B-Chat的学位论文写作辅助能力处于中等水平,有4项指标准确率低于60%。其中,应用型能力相对较强,标题概括、中心提炼、文意理解和同义改写任务的准确率均高于80%;但逻辑型能力相对较弱,归纳、演绎、类比和常识推理任务的准确率均低于53%。Qwen-14B-Chat能够为学位论文写作提供一定的相关史实与社会信息,能够帮助学生规范论文写作格式与语言表达,但该模型的逻辑推理能力暂时无法满足辅助人文社会科学研究的基本需要。
2. 模型间能力差异分析
知识型能力维度测评结果如图2所示。测评结果表明,Qwen-72B-Chat在学科知识、政策知识、历史知识和文化知识指标得分最高,准确率在80%~91%之间;Qwen-14B-Chat在社会知识指标得分最高,准确率达89%;ChatGPT在5项指标上都表现得相对较弱,准确率均低于60%。相对而言,Qwen-72B-Chat所提供的学科知识、政策知识、历史知识和文化知识更加准确、可信,Qwen-14B-Chat所提供的社会信息资讯更加可靠。总体而言,大模型为人文社会科学研究者提供了一条更加便捷的资料搜集渠道,但无法保障知识信息的科学性,特别是对于中国历史与中华传统文化相关知识掌握不足,难以提供准确的文化知识信息。
逻辑型能力维度测评结果如图3所示。测评结果表明,Qwen-72B-Chat在各指标上处于领先,其中,概念判断任务准确率接近100%,而另外4项准确率仅60%左右,未达到该模型平均水平;Qwen-14B-Chat的概念判断任务得分达68%,其余4项指标的准确率仅50%左右;ChatGPT在5项指标上都表现得相对更弱,5项指标准确率均不高于50%。相对而言,Qwen-72B-Chat在人文社会学科学位论文写作辅助场景中理解逻辑关系和解决逻辑问题的各项能力位于领先水平。总体而言,在人文社会学科学位论文写作辅助场景下,大模型能够抽象出事物的共同本质特征并推广到同类事物上,但归纳、演绎、类比和常识推理能力有很大提升空间,特别是从个别性知识推导出一般性结论的归纳推理能力难以满足人文社会学科研究在发现和分析社会规律方面的内在需求。鉴于此,在个案分析部分,重点探讨大模型在人文社会学科学位论文写作辅助场景中的归纳推理逻辑能力问题与改进路径。
应用型能力维度测评结果如图4所示。测评结果表明,Qwen-72B-Chat在5项指标上都表现得更好,准确率不低于83%,其中文意理解能力指标准确率高达92%;Qwen-14B-Chat和Qwen-72B-Chat在标题概括上的准确率均为86%,5项指标的准确率均高于77%;ChatGPT在5项指标上都表现得相对更弱,大部分指标准确率低于70%。相对而言,Qwen-72B-Chat满足人文社会学科学位论文规范性相关应用需求的能力位于领先水平。总体而言,大模型能够理解和判断输入文本的含义,能够满足学生在应用层面的学位论文辅助需求,但同义改写指标准确率相对较低,利用大模型修改论文措辞有可能造成论文原意变化。
(三)问题分析与改进策略
由前所述,归纳推理能力是当前大模型人文社会学科学位论文辅助能力发展的薄弱环节。考虑到Qwen-72B-Chat的人文社会学科学位论文辅助能力相对最强,逻辑能力位于领先水平,故选取Qwen-72B-Chat作为个案模型,以其归纳推理测试错题为原型,追加问答题补测,剖析其在归纳推理任务上的具体问题并探究有利于完善模型能力的补充指令。
通过对Qwen-72B-Chat在归纳推理任务上的所有错题进行追加多轮问答补测,发现主要存在:人文社会科学研究方法掌握不足;基本社会关系识别存在偏误;复杂因果关系推断不准确三方面问题,分别选择归纳推理任务中的第21、44和46题作为典型案例进行问题分析。
1. 研究方法掌握不足
形成科学且清晰的研究方法和思路是人文社会学科学位论文的基本要求,但Qwen-72B-Chat作为辅助工具,对人文社会科学研究方法掌握不足,通过细化提问内容的补充指令能够有效改进这一问题。具体补测记录如下① 。
测试者(Q1):一位社会学家对两组青少年作了研究。第一组成员每周看有暴力内容的影视的时间平均不少于10小时;第二组则不多于2小时。结果发现第一组成员中举止粗鲁者所占的比例远高于第二组。因此,此项研究认为,多看有暴力内容的影视容易导致青少年举止粗鲁。以下哪项如果为真 ,将质疑上述研究的结论?
A.第一组中有的成员的行为并不粗鲁 。
B.第二组中有的成员的行为比第一组有的成员粗鲁。
C.第一组中有的成员的文明行为是父母从小教育的结果,这使得他们能抵制暴力影视的不良影响。
D.第一组成员中很多成员的粗鲁举止是从小养成的,这使得他们特别爱看暴力影视。
Qwen-72B-Chat(A1):选项C指出第一组中有的成员的文明行为是父母从小教育的结果,这使得他们能抵制暴力影视的不良影响。这个选项提供了一个可能的原因,说明第一组成员中的举止粗鲁者所占的比例较高,并不一定是因为看了更多的暴力影视。选项D虽然提到了第一组成员爱看暴力影视,但它并没有解释为什么第一组成员中的举止粗鲁者所占的比例较高。
测试者(Q2):一项社会学研究根据每周看暴力影视的平均时长将青少年分为两组,第一组为每周看暴力影视的平均时长不少于10小时的青少年;第二组为每周看暴力影视的平均时长不多于2小时的青少年。对比这两组青少年的粗鲁行为,发现第一组举止粗鲁者所占的比例远高于第二组。据此,提出研究结论:多看有暴力内容的影视容易导致青少年举止粗鲁。以下哪项如果为真,最能质疑上述研究结论?(选项同Q1)
Qwen-72B-Chat(A2):选项D最能质疑上述研究结论。因为第一组成员中很多成员的粗鲁举止是从小养成的,这使得他们特别爱看暴力影视,也就是说,是先有粗鲁举止,后有多看暴力影视,而不是多看暴力影视导致了青少年举止粗鲁。因此,这个研究结论可能是因果倒置的结果。
根据A1回答推断,Qwen-72B-Chat缺乏社会实验抽样分组的基本常识。通过补充指令Q2进一步明确研究分组的具体过程以及两组青少年之间的关系,在此基础上重新提问,Qwen-72B-Chat输出了正确答案。
综上所述,大模型对社会科学研究方法、技术和过程的相关知识掌握不足,需要警惕其对于研究结果解释和描述上的偏误。在利用大模型辅助学位论文写作时,利用补充指令细化提问内容,尽可能详细、清晰地描述研究技术路线与操作流程,在一定程度上能够帮助大模型准确理解研究的思路和过程,输出符合逻辑的答案。
2. 社会关系识别存在偏误
厘清社会关系是人文社会科学研究的基本前提,但Qwen-72B-Chat对基本社会关系的识别存在偏误,通过提供先验条件的补充指令能够有效改进这一问题。具体补测记录如下。
测试者(Q1):专家说:“最近,大学X专业的毕业生去其他专业岗位的人更多了。这说明X专业岗位不受欢迎。”下列哪项最能削弱专家的看法?
A.X专业领域没有足够的岗位。
B.现在获得X专业学位的毕业生比过去少了。
C.在过去的10年里,X专业领域的工作岗位增加了许多。
D.许多X专业学位的毕业生在就读时就从事过X专业领域的工作。
Qwen-72B-Chat(A1):分析专家的看法:X专业的毕业生去其他专业岗位的人更多了,因此得出结论X专业岗位不受欢迎。分析选项:A项说明X专业领域没有足够的岗位,这与专家的结论无关;B项说明现在获得X专业学位的毕业生比过去少了,但这并不能削弱专家的看法;C项说明X专业领域的工作岗位增加了许多,这与专家的结论相反,可以削弱专家的看法;D项说明许多X专业学位的毕业生在就读时就从事过X专业领域的工作,这也与专家的结论无关。综上所述,本题答案选C。
测试者(Q2):如果Y专业工作岗位的减少,会导致有意愿在Y专业岗位就业的大学生不得不去其他专业的岗位就业。根据此参考范例,再次回答上题。
Qwen-72B-Chat(A2):根据提供的参考范例,某专业工作岗位的减少会导致有意愿在该专业岗位就业的大学生不得不去其他专业的岗位就业。分析选项:A项说明X专业领域没有足够的岗位,这与提供的条件一致;B项说明现在获得X专业学位的毕业生比过去少了,但这并不能削弱专家的看法;C项说明X专业领域的工作岗位增加了许多,这与提供的条件相反,不能削弱专家的看法;D项说明许多X专业学位的毕业生在就读时就从事过X专业领域的工作,这也与提供的条件无关。综上所述,本题答案选A。
根据A1输出答案可以推断,Qwen-72B-Chat并未意识到除了父母离异外,父母其中一方去世也是单亲家庭形成的原因之一。通过第二轮补测加以修正,补充指令Q2输入内容在追加了“父母离婚和父母其中一方去世都会导致孩子成为单亲儿童”这一社会关系解释作为补充条件后,Qwen-72B-Chat输出了正确答案。
综上所述,在利用大模型辅助学位论文写作时,需要警惕其对于社会关系理解和判断失误。利用补充指令为大模型提供研究相关主体及社会关系的基本逻辑解释作为先验条件与参考依据,在一定程度上提高了大模型对于社会关系判断的准确性,有助于激发大模型的学位论文写作辅助能力。
3. 因果推断不准确
因果推断是人文社会研究的重要思路之一,人文社会科学研究的意义在于深刻剖析复杂因果关系,但Qwen-72B-Chat对人文社会科学研究中复杂因果关系的推断不准确,通过提供参考范例的补充指令能够有效改进这一问题。具体补测记录如下。
测试者(Q1):专家说:“最近,大学X专业的毕业生去其他专业岗位的人更多了。这说明X专业岗位不受欢迎。”下列哪项最能削弱专家的看法?
A.X专业领域没有足够的岗位。
B.现在获得X专业学位的毕业生比过去少了。
C.在过去的10年里,X专业领域的工作岗位增加了许多。
D.许多X专业学位的毕业生在就读时就从事过X专业领域的工作。
Qwen-72B-Chat(A1):分析专家的看法:X专业的毕业生去其他专业岗位的人更多了,因此得出结论X专业岗位不受欢迎。分析选项:A项说明X专业领域没有足够的岗位,这与专家的结论无关;B项说明现在获得X专业学位的毕业生比过去少了,但这并不能削弱专家的看法;C项说明X专业领域的工作岗位增加了许多,这与专家的结论相反,可以削弱专家的看法;D项说明许多X专业学位的毕业生在就读时就从事过X专业领域的工作,这也与专家的结论无关。综上所述,本题答案选C。
测试者(Q2):如果Y专业工作岗位的减少,会导致有意愿在Y专业岗位就业的大学生不得不去其他专业的岗位就业。根据此参考范例,再次回答上题。
Qwen-72B-Chat(A2):根据提供的参考范例,某专业工作岗位的减少会导致有意愿在该专业岗位就业的大学生不得不去其他专业的岗位就业。分析选项:A项说明X专业领域没有足够的岗位,这与提供的条件一致;B项说明现在获得X专业学位的毕业生比过去少了,但这并不能削弱专家的看法;C项说明X专业领域的工作岗位增加了许多,这与提供的条件相反,不能削弱专家的看法;D项说明许多X专业学位的毕业生在就读时就从事过X专业领域的工作,这也与提供的条件无关。综上所述,本题答案选A。
A1输出答案显示,Qwen-72B-Chat判断,X专业不受欢迎导致X专业毕业生去其他专业岗位就业,这是一个单向因果关系,X专业岗位数量的变动仅被理解为因果关系作用的结果,并未认识到X专业岗位数量变动与X专业毕业生去其他专业岗位就业之间存在双向因果关系。通过第二轮试测进行验证和改进,补充指令Q2输入在追加了“Y专业工作岗位的减少,会导致有意愿在Y专业岗位就业的大学生不得不去其他专业的岗位就业”这一相同因果关系的参考范例作为补充条件后,Qwen-72B-Chat输出了正确答案。
综上所述,在利用大模型辅助学位论文写作时,需要批判地看待其对于因果关系的推断结论。利用补充指令为大模型提供研究中基本的因果关系与归因逻辑作为前提条件,在一定程度上能够提高大模型因果关系推理的准确性,激发大模型能力以更好满足学生的学位论文写作的需要。
四、结论与建议
(一)研究结论
综合来看,大模型在人文社会学科学位论文写作辅助场景下表现出较好的知识型能力与应用型能力,逻辑型能力也存在较强的发展潜力,丰富、准确的补充指令能够有效激发大模型能力。为进一步推动大模型教育与科研能力发展,将进一步探究高等教育与人文社会科学研究辅助场景下的大模型补充指令使用策略与技巧作为下一阶段研究的重点。
具体而言,大模型的通用知识数据库为人文社会科学研究提供更便捷的信息获取渠道,其所具备的概念判断和文意理解能力为质性文本分析技术提供创新选择,在收集资料、规范写作和方法创新上起到一定的辅助作用。另一方面,大模型作为学位论文写作辅助工具的各项能力还存在很大提升空间,其输出内容的严谨性、准确性暂未达到学位论文写作辅助的要求,逻辑能力问题突出,具体表现为:对人文社会科学研究方法掌握不足,对基本社会关系识别存在偏误,对复杂因果关系推断不准确。通过细化输入内容、提供先验条件、提供参考范例等形式的补充指令能够有效激发大模型能力。
在三个样本模型中,Qwen-72B-Chat的人文社会学科学位论文辅助能力位于领先水平,ChatGPT表现相对较弱。产生这一结果的原因可能在于,Qwen-Chat系列模型在中文语言背景测试中具有一定优势,使用的预训练数据类型覆盖多语言,并且使用中文偏好的SFT和RLHF实现对齐。CLEVA等基线测评排名也证实了Qwen-Chat系列模型在理解与执行中文指令的能力上更胜一筹[13]。
事实上,目前仅有极少数业界领先的大模型具备人文社会学科学位论文辅助能力,且其本地部署门槛和运行成本较高,例如,Qwen-72B-Chat在本研究测评过程中需要运行于8张A100-SXM4-80G GPU,暂不适用于日常场景。而样本模型Qwen-14B-Chat本地部署成本仅需Qwen-72B-Chat的八分之一,其测评结果对于考量当前日常场景中所接触的大模型能力表现而言更有参考价值。除了本地部署的方式以外,伴随大模型的产品化和商业模式创新,基于API调用的使用方式和基于token数量的计费方式将更加适应低成本的日常使用场景,大模型作为日常科研辅助工具的部署成本将逐渐降低。
(二)讨论与建议
为实现人与技术的相互作用与形塑,需从多主体视角出发,深入、全面剖析大模型辅助写作场景下的多元人技关系,探讨高等教育领域人技关系走向常态化技术具身的可行路径。
从学习者视角来看,应有意识地培养创造力与批判性思维等高阶思维,提升问题意识,学习和训练大模型使用中的提示语组织技巧。一方面,有意识地培养创造力、批判性思维与抓住事物关键问题的能力,在使用大模型辅助写作过程中,批判地看待大模型所提供的信息,加强信息甄别、筛选与核实,同时提升创新性的问题意识,培养人机共生思维与较强的大模型使用技能。另一方面,学习和训练大模型使用中的提示语组织技巧,在写作过程中,科学、灵活使用大模型通用指令技巧,有效激发大模型写作辅助能力。
从研发者视角来看,应加强具有中国特色的大模型中文知识库建设,推动高等教育与人文社会科学研究垂类大模型建设。一方面,建议加强大模型对中华优秀传统文化、中华文明历史、中国社会关系等方面知识的中国特色社会主义知识库建设,全面提高大模型理解中国本土文化,辅助解决中国问题的能力。另一方面,建议加快推动高等教育与人文社会科学研究垂类大模型建设,满足高等教育人才培养与人文社会科学研究场景的需要,丰富大模型在人文社会学科领域中专业知识与传统文化知识,提升大模型对于中国独特社会关系的理解与推断能力。
从管理者视角来看,针对高等教育领域大模型辅助写作可能产生的学术不端现象,需要加强制度、评价、治理体系等多维度创新。在制度层面,出台大模型辅助科研写作规范制度,明确AI的工具定位与使用原则,结合中国实际,并制订科研领域的大模型工具使用指南;在评价层面,加强论文原创性审查与过程性评价,助力学生创造力和批判性思维发展。在治理层面,将AI治理作为高等教育治理体系建设的重要内容,成立专门的AI指导工作组,通过专题研讨与实证调查等途径,探究AI在高等教育领域的使用机会和潜在风险,制定更加切合中国高等教育发展生态的大模型使用原则。
从研究者视角看,关于大模型作为学习辅助工具的研究应更突显情境性与教育性。一方面,建议更加全面、深入地测评大模型在高等教育各类具体情境中的辅助能力,为使用和研发者提供参考和指引使用指南。本研究对大模型在人文社会学科学位论文写作辅助场景下的各项能力进行了针对性测评,但受制于研究条件,测评内容和范围仍存在一定的局限,研究结论难以迁移到其他应用场景中,未来将以高等教育其他重要垂类应用中的大模型能力测评为下一阶段研究的重点。另一方面,考虑到研究的科学性,建议教育领域的大模型应用能力测评研究进一步加强教育理论的指引。大模型在教育领域的应用测评框架与数据集的构建应该遵循人学习、教育与发展的普遍规律,必须坚持教育理论的指导。
①Q1代表测试者第一轮输入问题,A1代表模型针对Q1的第一轮输出回答;Q2代表测试者在第一轮答案的基础上,进一步输入的第二轮补充条件及提问,A2代表模型针对Q2的第二轮输出回答,以此类推,下同。
[参考文献]
[1] 张绒. 生成式人工智能技术对教育领域的影响——关于ChatGPT的专访[J]. 电化教育研究,2023,44(2):5-14.
[2] 尚智丛,闫禹宏. ChatGPT教育应用及其带来的变革与伦理挑战[J]. 东北师大学报(哲学社会科学版),2023(5):44-54.
[3] 吴晓林,邢羿飞. 知识复制抑或创新激发?——人工智能(ChatGPT)对社科类研究生教育的挑战与机遇[J]. 广西师范大学学报(哲学社会科学版), 2023, 59(2):66-74.
[4] 海德格尔. 演讲与论文集[M]. 孙周兴,译.北京:三联书店, 2005:4.
[5] 唐·伊德. 技术与生活世界:从伊甸园到尘世[M]. 韩连庆,译. 北京:北京大学出版社,2012:77-117.
[6] 邓敏杰,李艺. 走向技术具身:信息技术时代学习者主体性再认识[J]. 电化教育研究,2023,44(8):26-32.
[7] 贺樑,应振宇,王英英,等. 教育中的ChatGPT:教学能力诊断研究[J]. 华东师范大学学报(教育科学版),2023,41(7):162-176.
[8] LIANG P, BOMMASANI R, LEE T, et al. Holistic evaluation of language models[J]. Transactions on machine learning research, 2023,775:1-162.
[9] OpenCompass. CompassRank[EB/OL]. (2024-02-26)[2024-05-31]. https://rank.opencompass.org.cn/home.
[10] HENDRYCKS D, BURNS C, BASART S, et al. Measuring massive multitask language understanding[C]// ICLR.9th International Conference on Learning Representations. Wshington D.C.:ICLR,2021:1-27.
[11] HUANG Y, BAI Y, ZHU Z, et al. C-eval: a multi-level multi-discipline Chinese evaluation suite for foundation models[C]// NIPS. 37th Conference on Neural Information Processing Systems. New York: Curran Associates, 2023:62991-63010.
[12] COBBE K, KOSARAJU V, BAVARIAN M, et al. Training verifiers to solve math word problems[J]. ArXiv, 2021:2110.14168.
[13] LI Y, ZHAO J, ZHENG D, et al. CLEVA: Chinese Language Models EVAluation Platform[C]//IEEE. 2023 Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway: IEEE Computer Society, 2023:186-217.
The Application of Large Model in Higher Education: Assessment of
Large Model Writing Assistance Abilities
YIN Junyao
(School of Education, Central China Normal University, Wuhan Hubei 430079)
[Abstract] Large-scale language models(LLMs) have triggered profound transformations in the field of higher education. Based on the theory of human-technology relationship, this study focused on the scenario of writing assistance for postgraduate students' dissertations in humanities and social sciences, constructed a competency framework containing 15 tasks in three dimensions of knowledge, logic and application ability, and a test dataset containing 2,990 items. ChatGPT, Qwen-72B-Chat and Qwen-14B-Chat were used as sample models to assess the writing assistance ability. It is found that the LLMs demonstrate better knowledge-based and application-based abilities in humanities and social sciences dissertation writing assistance scenarios, and there was a strong development potential for logic-based abilities. Qwen-72B-Chat performed better in higher education and scientific research vertical category. This study explores effective strategies to improve the supplementary instruction for the large model with regard to its shortcomings in three aspects of scientific research methods, social relations and causality, and puts forward suggestions from the perspectives of learners, developers, administrators and researcher to scientifically regulate and guide students' technical behaviors, and to promote the construction of large models in higher education and scientific research vertical category.
[Keywords] Higher Education; Dissertation; Writing Assistance Abilities; Large Model Evaluation; Theory of Human-Technology Relationship