学科教育研究中的机器学习：分析框架、国际比较与启示

2022-11-22王晶莹周丹华杨钰雯张玉莹李春密

数字教育 2022年5期

王晶莹周丹华杨钰雯张玉莹李春密

（1.北京师范大学，北京 100875； 2.重庆市第七中学校，重庆 400030； 3.河南省洛阳理工学院附属高级中学，河南洛阳 471027）

一、问题提出与研究筛选

数据时代加速了人类记录、存储和应用各类信息的能力，借助机器学习、模式识别、语法语义分析、人工神经网络等技术挖掘教育现象背后的规律与作用机理，在教育领域融合信息加工研究范式的计算教育学应运而生[1]。机器学习作为人工智能的核心，能有效助力计算教育学的发展，推动教育研究方法的革新。机器学习始于执行人类“指令”，其方法模型可分为监督学习、无监督学习、半监督学习和强化学习四类，现有研究多将其定义为“通过经验自动改进的计算机算法”或“利用数据或以往经验优化计算机程序”。20世纪80年代出现模拟人脑对事物思维方式的人工神经网络，随后大数据和计算能力的提高使其从收敛速度慢和局部收敛的Back Propagation (简称BP)神经网络模型发展到深度学习，使得机器学习能够应用于众多学科，拓展了人工智能的领域范围。机器学习重在从数据中获取“经验”以提高计算机的性能，数据挖掘则是从海量数据中找出有用知识，使用包括机器学习在内的处理方法挖掘数据背后信息的过程。总体来说，机器学习是实现数据挖掘目标的路径之一，也是实现人工智能的核心技术。计算科学领域的理论深化与科技高速发展为计算教育学的实践提供保障，技术支持的教学设计与平台开发亦提高了教与学的效率[2]；同时机器学习在教与学行为和规律方面的研究逐步涌现，拓展了传统教育研究自上而下的致力于教法和学法改进的经验假设-验证范式。教育研究的传统范式受制于人类已知经验，困于假设-验证的研究路径，使得宝贵的数据资源难以为背后的教与学规律服务，计算教育学的诞生纾解了这一困局。

基于此，笔者分别选取国内外教育技术领域的CSSCI和SSCI期刊，以“机器学习”和“教育”为关键词进行检索。在中国知网检索获取2004—2021年的139篇文献，2004—2015年集中在引介和评述国外研究，2017年至今转向实证研究、阶段性案例、经验概述和发展现状。国外研究始于1995年，在Web of Science核心集刊以“Machine learning”和“Education”为关键词检索，得到10513篇文献。鉴于本研究聚焦机器学习在学科教育领域的最新应用，时间跨度上截取最近五年，使用三步论文筛选策略进行文献的精选工作：第一步使用特定关键词搜索数据库；第二步筛选标题和摘要；第三步详细阅读论文。同时依据以下三条科学原则制定评价标准，筛选符合研究目标的合格文献：第一，研究内容以基于真实数据的机器学习在学科教育领域的应用案例为主，聚焦于学科教学，或使用机器“训练”和“测试”检验改进模型及构建模型过程；第二，类型是实证研究，研究方法多元，采用定量、定性或混合方法；第三，研究对象包括基础教育到高等教育阶段的学生和教师。最终科学地筛选出机器学习应用于学科教育的实证研究文献50篇，国内与国外各为25篇。

朱军文等通过对2014—2019年教育实证研究的梳理，发现教育学领域的研究内容主要涉及学生发展、教师发展、教育评价、课程教学、公平与质量等议题[3]。田雪葳等提出国际科学教育研究主要可分为教师的教、学生的学、教师教育、课程评估（课程设计评估、教育技术和政策制定）以及科学文化（文化、社会和性别问题、环境教育和科学史）五个领域[4]。王晶莹等运用社会网络分析将其研究领域分为基于数据挖掘的教育学规律研究、认知与行为模拟的在线教育研究、基于大数据的学生学习动机和情感参与研究、师生人格和性别分析四大研究主题[5]。

综上所述，笔者认为学科教育研究中机器学习的应用领域涉及教师的教、学生的学、教与学的互动（课程、媒体、环境、教材教法、师生情感等）、教与学的评价以及相关政策研究。从类别分布上看，国内外在教师的教和学生的学两方面研究数量持平；国内的学生情感研究最多，国外则教学评价研究最多，国内的教学媒体研究数量也多于国外。虽然国外已经开始将机器学习应用于学科教育研究，但是在课程、教材和政策研究领域的应用还较为匮乏，相较于教师教学而言，国内外更注重学生学习的研究，学生情感、教学媒体和教学评价的研究侧重点存在国内外差异，国内学者更为关注前两者，而国外学者更为关注后者，见图1。为进一步剖析学科教育研究中机器学习的应用效果，本论文构建了多层次分析框架，展开国际比较、探讨应用维度和水平，以期对机器学习的教育学应用研究提供启示。

图1 国内外学科教育研究中机器学习精选文献的研究类型分布

二、学科教育研究中机器学习应用效果的分析框架

纵观国际学界，机器学习在学科教育研究中的应用尚处于初期阶段。国外学者正致力于科学化和系统化分析框架的开发和实践，其中比较具有代表性的研究来自美国密歇根大学的翟小铭[6]，他从技术性、有效性、教学性三个角度建构机器学习在科学评价中的应用分析框架。技术性主要指机器学习的关键技术优势——自动化，即计算机在多大程度上可以像人类一样独立运行，即由训练/学习过程和测试/预测过程两个过程决定；人机一致性水平则作为有效性的特征因素，教学性的维度设定主要考查学生通过评估结果的受益程度。目前国外基于机器学习评估进行学习活动设计的工作成为实践前沿，并在此基础上循证支持科学教学中师生的互动过程、访问或使用应用程序的模式与频率。该评估框架反映了经验证据和理论基础对测试得分和其他行为表现的解释程度，能够将文献定位进而判断其研究水平，但由于其专注于机器学习在科学教育评价中如何实现自动化，提供有效测量手段的程度及其教学潜力，难以直接迁移至学科教育研究的分析和评定中，需要根据学科教育研究本身和国内研究实情开发新的分析框架。

表1 学科教育研究中机器学习应用效果的分析框架

本论文在参考该分析框架的基础上，进一步建构了学科教育研究中机器学习应用效果的分析框架，将技术性、有效性和教学性更新为技术性、有效性和应用性，并重新界定其内涵，使得新框架可以有效地应用于学科教育领域。在技术性维度上吸收了评估框架中自动化的技术特征并将其视为程序性，考虑到自动化的训练和测试两个过程，将使用机器算法构建模型的复杂度、研究的程序性作为衡量技术性的重要指标。在有效性维度上，鉴于经验的主观性决定从研究整体论视域思考研究对象是否适合应用机器学习（研究对象的适切性），使用的方法能否推广（研究方法的推广度），研究过程的合理性以及研究结果的普适性作为衡量标准。在应用性维度上，保留了原评估框架中机器学习对教学的改进作用，细化到宏观的教与学整体结果预测，中观的认知、情感或行为以及微观具体的教与学结果的解释和论证。层次划分参照评估框架对文献聚类的分析结果与国内实情，最终得到学科教育研究中机器学习应用效果的分析框架。

精选的国内外研究文献除研究内容不同外，各维度水平也存在差异，研究者根据应用效果的分析框架对国内外50篇实证研究文献进行协议评分。首先两位评分员精读每一篇论文，对照分析框架判断文献评定维度的状况和水平，根据评定标准对每一篇论文进行独立打分；之后第三名评分员与其成立协议评分小组，监督前两者对评定结果的对照和审查，对不同之处进行重新阅读、协商和共同评议等程序来科学化地解决差异，直到所有评分达成一致认可。为进一步探索国内外机器学习在学科教育研究中的应用差异，笔者基于应用效果分析框架对五大研究主题的平均分进行比较，进而发现各类型在具体维度上的差异。总体看来，五大研究主题的国内外水平均高于等级3，且在教师教学主题的差异最为显著，这一主题的国外平均分明显高于国内。学生学习、学生情感和教学评价所处等级基本持平，国外教学媒体的研究则略显优势。纵观国内外学科教育研究中机器学习的应用效果，技术性和有效性的水平较高，应用性相对薄弱，国外长于技术性的复杂性和程序性，国内则长于有效性的合理性，且在应用性的三个二级指标国内外存在较大差异，国内长于中观应用，国外长于宏观和微观论述，总体看来微观应用研究在9个二级指标中均值最为薄弱，见图2。有鉴于此，为进一步厘清国内外差异，需要对学科教育研究中机器学习的应用维度和所处水平进行更为具体和深度的研究，通过研究案例解读各研究维度和比较视角的具体状况与水平异同。

图2 国内外文献在五个研究维度（左）和三个分析视角（右）的得分比较

三、学科教育研究中机器学习的应用维度与水平

（一）教师的教：国外精于机器学习应用的算法追求，国内重在落实教学应用的服务初衷

当前我国机器学习在教师教学研究层面的复杂性、程序性和适切性维度与国外存在明显差距。国外对机器学习的研究内容与应用场景，尤其是算法设计和模型建构方面更为细致深入，并且报告更为完备的机器学习研究程序。例如，有学者利用机器学习和数字孪生技术（Digital Twin Technology）构建了教师能力评价的数据融合模型[7]，包括基于自适应数据采集策略和差异化传输策略的实时数据采集模型以及基于可扩展置标语言（EXtensible Markup Language，简称XML）信息模板的数据清洗模型，并结合C4.5决策树算法、随机森林算法和GAP-RBF神经网络算法构建了三种教师专业能力序列挖掘模型，对教师能力展开精准化测评。同样，古铁雷斯（Gutiérrez）等开发并评估了一项名为“社交挖掘（Social Mining）”的教师绩效评估系统，通过采集分析学生的情感信息对教师教学效果进行评估[8]。该系统采用支持向量机和随机森林算法以提高算法性能与优化参数，多次验证与迭代展示了算法执行与验证过程，并在墨西哥阿瓜斯卡连特斯理工大学展开实践，研究结果表现出较高的准确率。由此可见，国外研究更加注重对算法设计和实践流程的描绘，追求算法优化的完美和精准，其程序具有更高的再现性。

相较而言，国内文献在“教师的教”方面的普适性和应用性维度表现更好，聚焦于智能技术对教师教学的方式方法以及课程的模式策略等的优化改进，以便应用于不同课堂教学环境。例如，胡航等基于深度学习框架，结合认知与脑科学机制以及数学学习规律，通过眼动仪和ERP脑电波等技术促进深度学习的认知-品质-技术的交互[9]。宋宇等基于教师录播课视频对师生课堂对话的过程性规律进行分析，开发了对话编码规则与数据挖掘序列，获得适宜中国课堂的对话模式，展现了课堂对话的学科规律。由此可见，国内研究侧重课堂教法和微观要素提取，具备有效的普适性与指导性[10]。综上，机器学习在教师教学方面的应用研究存在国内外差异，国外追求算法精准，注重教与学结果的整体预测，国内则更彰显“接地气”的教学适用性，关切学生认知、情感和行为等中观层面的一般性应用。

（二）学生情感：国外专注动机等内部情感表现挖掘，国内聚焦表情反应等外部信息提取

图3 “教师的教”学术文献中机器学习应用效果的分布图

机器学习也被积极应用于学习者的认知、情感和行为的研究中，捕捉和分析学科学习过程的情绪情感、行为姿态等，为改进教育教学提供了新思路。相较于学生认知与行为层面的信息诠释，对真实学习过程中的情感分析可以较为精准地反映学习者的内隐信息。学生情感研究方面，国外文献在普适性维度较为突出，国内则在推广度上表现更好。具体来看，国外研究更为关注学生内部思维和动机等情感表现的挖掘。例如，耶尔韦莱（Järvelä）等建立了一个基于学习管理系统的学习动机预测模型，探讨动机与学习行为之间的联系[11]。国内研究侧重学生外部情感信息的提取，如面部表情、情绪反应等，用以反映学生学习困难以及教师评价等问题。江波等提出了基于面部表情的学习困难自动识别算法，并设计在线测评的困惑诱导实验加以验证，结果表现出极高的正确率[12]。韩丽等基于面部表情对课堂教学效果展开分析，利用多姿态人脸检测和面部表情识别技术获取学生的情绪变化，完成及时的教学反馈以帮助教师准确掌握学生学习动态[13]。综上，学生情感研究的“侧面印证”有时比“正面回应”更有说服力，机器学习在学生情感分析的应用再次说明情感作为三维学习结果（认知-情感-行为）的重要价值。

（三）教学评价：国外致力于学科学习互动的评价创新，国内集中于教育大数据的挖掘与建模

机器学习在教与学评价中的作用愈加凸显，分析可知，国内外评价研究各维度得分差异并不显著，仅在普适性上国内略高。国外文献致力于具体学科教学互动中评价模式的创新，拉姆（Lamb）等将机器学习算法应用于科学写作过程，对学习者的写作能力进行评价反馈，获取针对性的认知训练以提高写作能力[14]。国内文献聚焦于在线数据的挖掘与建模，胡航等基于数百名大学生在线学习日志数据、一卡通消费和借阅图书日志数据，构建了在线学习行为、早起行为、借阅行为和学习绩效的预测指标，设计了结合决策树和深度神经网络的学习行为诊断模型，实现精准教学干预与资源推荐[15]。综上所述，在教学评价方面，国外文献更多投入到学生学业能力的测评及其精准提升，国内重在揭示现状、预测发展以实现教学干预，共同朝着拓宽成绩与能力的评价边界而不懈努力。

（四）学生的学：国外落脚校内外学生管理模式的探索，国内倾向学习过程与习惯养成干预

图4 “学生情感”与“教学评价”学术文献中机器学习应用效果的分布图

在学生的学方面，研究者利用机器学习探讨学习者在课堂内外的学习结果，旨在深度分析学习者的认知、情感、行为数据，从而优化教育过程、教学管理和支持辅助等层面的实施水平与达成质量。国内外文献在学生学习研究中的整体差异并不明显，国外文献在应用性、程序性和合理性维度得分相对较高，国内则在复杂性、适切性和推广度维度更胜一筹。具体来看，国外文献机器学习的应用集中在课堂教学辅助、教学管理和学习监测等学科主题，延伸至学生学校生活的各个层面，多数具备完整的应用背景和算法过程。例如，博施（Bosch）利用机器学习进行成长心态干预以培养学生的进取意识与成功信念[16]；侯赛因（Hussain）通过对学生每节课的练习、活动和空闲时间编码计算，利用机器学习算法输出学生学期中每节课的分数以预测期末结束前辍学风险[17]。国内研究致力于学生学习习惯养成、学习过程与结果测评等，徐家臻等以真实课堂教学视频为数据源并结合人体骨架信息，基于自适应算法和卷积神经网络算法识别学生课堂行为，以优化教学策略和提高教学效率[18]。同时，在线学习主体的关注也成为重要趋势，张晓峰等侧重学习云空间个体认知投入度，构建了基于支持向量机的认知投入量化算法以解决在线学习云辍学率高、学习投入不足等问题[19]。由此可见，机器学习在助力学生学习研究方面的成果突出，贯穿于课堂内外，兼顾过程管理、学业监测、行为预测等诸多方面，探索多维度、宽场域的机器学习应用模式将是其未来的发展方向。

（五）教学媒体：国外关注构建课堂内外教学管理体系，国内展现在线教育系统的个性化辅导

智能教学媒体是机器学习应用于学科教育研究的主要载体，以学习系统和虚拟平台为主要教学形式，涉及教学管理、个性化辅导与评价决策等多种途径，以此优化学习环境、增强学习体验。国外文献在复杂性、普适性与宏观和微观应用性维度表现较好，而国内文献在中观应用性、适切性与合理性维度表现更为突出。国外文献覆盖智能辅导、课堂管理和作业管理等多领域，同时服务并根植于学科本质，应用性与普适性良好。例如，范莱恩（VanLehn）等开发了一款龙骑士智能辅导系统（Dragoon Intelligent Tutoring System）以针对性解决高等数学和科学教学中动态系统建模的教学难点，并展示了完整的操作流程与实践结果[20]。除此之外，国内研究还在个性化方面有所侧重，例如，王艳芳以人工智能和数据挖掘技术为基础构建基于网络的个性化学习系统，针对学习者的学习目标、风格以及喜好等提供学习资源与指导[21]。教学媒体的后续研究难点在于把握好大规模应用与精准化辅导并进的因地制宜的实践进程。

图5 “学生的学”与“教学媒体”学术文献中机器学习应用效果的分布

四、启示与建议

（一）把准航向，开发精准技术与诠释教育本质协同共进

大数据时代的社会计算为科学研究提供了不同视角，由此催生了计算教育学，但教育如何被“计算”以及能否被有效“计算”成为当下学界争论与努力的焦点。新锐的互联网科技、人工智能等领域极大地推动了教育研究方法的创新，在此过程中海量数据驱使教育学从基于实际经验的认知模式向基于量化信息的数据化认知模式转变，推动计算教育学走向科学化和精准化[22]。保守派对计算教育学的应用行为和学科伦理产生质疑，我们应该客观地吸取不同声音的意见和建议，还需要面向未来的教育研究，即教育大数据如何科学预测和解释复杂的教育过程、揭示教与学活动的内在规律……这些已经成为计算教育学领域的重要课题。通过对比机器学习的学科教育研究可知，国外的教学研究更多追求技术本身的精准与创新，呈现完备的程序运演过程，国内则专注于机器学习优化改进教学策略和教师指导的效果。我们应当清醒地认识到，利用新兴技术手段解决教育的本质问题才是计算教育学的根本与灵魂，而问题的关键就在于对“人”的关切。机器学习为学科教育研究提供更加科学量化的多模态数据，这并非是教学和管理“权柄”的转移，教育工作者应当对教学过程做好科学规划、监测与评价，同时为学生的个性化发展和教师的有效教学提供切实支持。

（二）内生驱动，提升课程与教材研究力度并突破政策研究瓶颈

基于大数据的机器学习技术打破了长期以来社会科学研究囿于经验性思辨和传统研究方法的行动诠释与事实解释的困局。社会网络分析、情感分析、数据挖掘与机器学习等技术推动了大数据时代计算教育学的发展，教育大数据、复杂算法和高阶算力支持下的教育政策计算也必将成为未来发展趋势。北京大学叶晓阳博士基于随机干预实验的机器学习开展教育政策文本分析，为循证教育决策提供精准预测与评价。相比而言，机器学习在学科教育研究中的应用机制还有待深度挖掘。纵观国内外研究，机器学习在学科教育研究中的应用很少涉及课程与教材分析维度。基于机器学习的学科教材研究可以拓展传统的内容分析，通过教材大数据的挖掘揭示课程的内在教学机理与实施规律。借助诸如主题建模、文本聚类、信息抽取、文本自动摘要等机器学习方法，通过文本内容的深度分析揭示主流教材的内在规律与实施路径。总之，教育大数据的机器学习是对教育现象与规律的机器认识论，有助于揭示课程与教学研究的黑箱，突破教与学规律的研究瓶颈，科学测评教材质量并开展循证决策。

（三）应用主导，打造教与学全方位的计算教育研究系统

应对新时代的挑战，计算教育学将助力以领域知识和智能技术融合为基础的课程、管理、决策、实施、评价等教学体系中各个环节的智能化发展[23]。在当前的计算教育学研究中，机器学习活跃在自适应辅导系统、定制学习、自动评估和教师支持等环节，通过教育大数据挖掘更好地诠释教与学的关系，为揭示课程与教学作用规律的黑箱研究提供脚手架，捕捉教与学的复杂作用过程与机制。纵观学科教育研究五大领域，国内外文献中的机器学习方法各有千秋。总体而言，国内聚焦中观层面的学习结果，较为关注行为和情感层面的外显化表现；而国外侧重整体思维，从系统视域考查学生宏观层面的学习结果，并落地于具体的学科能力。机器学习的学科教育研究案例提供了更加科学与清晰地认识计算教育学应用的实践场景，也促使我们反思我国学科教育如何更好地基于国际视野、立足本土，落实新兴技术应用为学科教育本质服务的初衷。

综上，在经历了从电子学习到机器学习的萌生期后，计算范式为学科教育研究的范式转型带来了生机。学科教育研究的计算时代已来，数据驱动的计算教育学的根本目标在于揭示复杂教育系统的内在规律与运行机制，核心在于将假设-验证的经验为基础的教育学转变为大数据驱动的“计算+教育”的信息加工范式。纵观国内外文献，课程、教材、政策研究成为机器学习应用于学科教育研究的薄弱环节。因此，我们融合机器学习国外经验的同时，也需要立足国内应用的实情探讨计算教育学的应用伦理与边界，推动机器学习在学科教育本质研究的方法论突破，解决传统研究范式在学科教育领域的瓶颈与局限。