智能教学系统测评模型的构建与实证研究*

2022-05-20孟青泉贾积有张志永颜泽忠

现代教育技术 2022年5期

孟青泉贾积有张志永颜泽忠

智能教学系统测评模型的构建与实证研究*

孟青泉1贾积有2张志永3颜泽忠4

（1．首都师范大学教师教育学院，北京 100089；2．北京大学教育学院，北京 100871；3．上海市黄渡中学，上海 201804；4．成都市棕北中学，四川成都 610041）

对智能教学系统进行测评，既能评价其性能，又可以为其优化提供依据。但是，目前尚缺乏有指导性的智能教学系统测评模型。基于此，文章构建了包括智能教学系统、学习者、系统设计者、学习效果测试和学习风格测量等要素的智能教学系统测评模型，并设计了包含获取数据、总体测评、精细测评、测评分析和系统优化等五个步骤的智能教学系统测评流程。之后，文章以“乐学一百”智能教学系统为例开展了实证研究，结果表明智能教学系统测评模型能有效区分不同学习风格学习者的学习效果，生成精细化的测评结果，为系统的优化与升级提供数据依据，具有较大的应用价值。

智能教学系统；ITS测评；学习风格；学习效果

近年来，人工智能技术得到了飞速发展，为教育的革新带来了新的机遇[1]。智能教学系统（Intelligent Tutoring System，ITS）是人工智能在教育中的重要应用模式，在最近几年取得了巨大的发展[2]。智能教学系统能够根据不同学生的知识水平和学习风格，有针对性地推送适合每个学生的学习资源，这有助于实现个性化教学[3][4]。针对智能教学系统的元分析结果显示，智能教学系统能够普遍提升学习效果，但是不同系统的性能有很大的差异[5]。而Greer等[6]提出，自1993年以来，智能教学系统测评方式未有较大改进，其通常以测验成绩为效果评价标准，结果不够精细，难以为智能教学系统设计提供参考。基于此，本研究充分利用学习行为数据，构建智能教学系统测评模型，并将测评结果作为系统优化与升级的数据依据，以提升系统性能。

一文献综述

智能教学系统是一种先进的计算机教学系统[7]，它集合了人工智能、计算机科学、认知科学、思维科学、教育学和心理学等多个学科，为学生提供高度个性化和智能化的学习体验，能根据学生的需求和喜好调整学习内容和知识表示[8]。近年来，随着互联网的全面普及和人工智能技术的快速发展，智能教学系统迎来了新的发展机遇，孕育着新的升级[9]。陈凯泉等[10]通过对文献的综合分析，指出智能教学系统正朝着多模态学习分析、适应性反馈、人机协同等方向不断拓展。其中，多模态学习分析指智能教学系统对学习过程数据的全方位收集、分析与应用[11]；而人机协同重点关注教师如何与智能教学系统协同，为学生提供智能化的精准教学[12]。随着智能教学系统结构的复杂化和功能的多样化，其系统性能的测评也需要提升，以提供更为精细、精准的测评结果，从而为系统的优化和升级提供数据依据。

在智能教学系统的测评方面，Mark等[13]于1993年提出了初步的智能教学系统测评方法，并于2016年进行完善[14]，提出了用户评价、专家评定、虚拟学习者测试、实验测评、学习曲线分析和教育数据挖掘等六种测评方式；Jeremic等[15]强调学生的主观体验在智能教学系统测评中的重要性；Sykes[16]运用准实验研究的方法，测评了Java智能教学系统的应用效果；Hooshyar等[17]综合运用定性、定量的分析方法，对某游戏化智能教学系统进行了测评；Mousavinasab等[18]指出，智能教学系统的测评应包含系统表现、学习效果和学生体验三个方面。而在国内，刘明祥等[19]提出从软件系统评价、教学功能评价和实践应用评价三个方面，来开展基于Web的智能教学系统评价；贾积有等[20]总结了智能教学系统评价的定量方法，如T检验、协方差方法等；周楠等[21]提出了一种基于深度学习的互动课堂学生学习行为分析与教学效果评价方法，可利用课堂视频信息，对学生表情进行检测，从而建立教学效果的评价模型。综上可知，目前针对智能教学系统测评的研究成果较少，且已有研究注重总体效果的测评，尚未考虑不同学习风格学习者使用智能教学系统后的学习效果差异，其效果测评不够精细，很难为系统的优化设计提供数据支持，因此有必要建立智能教学系统测评模型。

二智能教学系统测评模型的构建

1 智能教学系统测评的内涵

智能教学系统测评是指利用各类过程性与结果性学习数据，对ITS的教学效果进行评估的行为。智能教学系统测评与学习分析的区别在于，前者是对ITS的评价，在此基础上优化系统性能；而学习分析侧重于通过数据提取学生的信息，帮助学生不断进步。智能教学系统测评的主要功能是对ITS的性能进行精细评估，了解不同类型学生对ITS的适应程度，进而发现设计中的不足，为系统的改进与优化提供数据依据。

2 智能教学系统测评模型的构建

基于上述对智能教学系统测评的内涵分析，本研究构建了智能教学系统测评模型，如图1所示。智能教学系统的测评是一个多要素相互作用的复杂过程，依据ITS的通用模型[22]，本研究确定了智能教学系统测评模型的五个要素：①智能教学系统是测评的对象，也是测评模型的核心；②学习者与智能教学系统进行交互，不断提升学习效果；③系统设计者汇总测评数据进行分析，并制定优化策略；④学习效果测试是智能教学系统应用效果的第三方评价，可通过考试、答辩等方式获得测试结果；⑤学习风格测量重在实现学习风格维度的精细测评。其中，智能教学系统为学习者提供学习资源并获得反馈，生成大量的学习过程数据，同时测试学生的学习效果、测量学生的学习风格，然后将这些数据提供给系统设计者。系统设计者对这些数据进行统计分析，得出ITS测评结果，并据此进行系统的优化和升级。

图1 智能教学系统测评模型

为落实智能教学系统测评模型在教学实践中的具体应用，本研究设计了智能教学系统测评流程，包含获取数据、总体测评、精细测评、测评分析和系统优化五个步骤，如图2所示。具体来说，在进行智能教学系统测评时，首先要获取数据，包括学习效果测试数据、学习风格测量数据和学习过程数据；第二步是从定量和定性两个方面进行总体测评，了解ITS的总体使用效果；第三步是开展精细测评，对不同学习风格学习者的学习数据进行分析与对比；第四步是对测评得出的结果进行分析，发现ITS的不足；第五步是根据分析结果，从测评数据出发，针对智能教学系统存在的不足对其进行优化；之后，对各项测评数据进行持续跟踪，并再次获取新的数据进行测评，以实现系统的迭代升级。

图2 智能教学系统测评流程

三实证研究

为了检验智能教学系统测评模型的可行性和有效性，本研究按照智能教学系统测评流程，以“乐学一百”智能教学系统为例，对其应用于初中数学课的学习效果进行了总体测评与精细测评，得到测评分析结果，并据此进行系统优化。

1 研究设计

（1）测评对象

本研究以“乐学一百”智能学习系统（下文简称“乐学一百”）为测评对象。“乐学一百”按照智能教学系统的原理和模型进行设计，是一种自适应学习系统。“乐学一百”覆盖了小学和初中数学的所有单元，为教师、学生和家长提供在线智能教学服务。“乐学一百”含有学生、学材和行为等三个核心数据库，以及一个互动学习引擎和一个智能推荐引擎。在个性化辅导方面，“乐学一百”可以根据在线学习活动指数（Online Learning Activity Index，OLAI）[23]，分析学生的知识掌握水平，并为其推送适合的学习资源。而教师可以通过“乐学一百”布置预习任务和练习作业，并对全班学生的完成情况进行统计分析，从而了解学情，调整教学策略。

（2）研究设计

本研究选取上海市H校八年级的99名学生和四川省成都市Z校七年级的110名学生进行准实验研究。其中，H校设有两个实验班（共51人）、两个对照班（共48人），而Z校设有一个实验班（55人）、一个对照班（55人），实验时长为一年。实验班教师在数学课上采用“乐学一百”开展混合式教学：课前，教师通过“乐学一百”布置预习任务；课中，教师进行线下教学；课后，教师通过“乐学一百”布置练习作业。对照班的教学过程也包含预习、课堂讲授和课后作业环节，其与实验班的区别在于课前的预习任务和课后的练习作业不使用“乐学一百”。实验班和对照班的授课教师、作业数量、教学内容和进度完全一致，且要求授课教师尽可能地以同样的工作态度和时间精力投入开展两个班的教学。本研究将实验前的期末考试数学成绩作为前测成绩，而实验后的期末考试数学成绩作为后测成绩。实验按照智能教学系统测评流程进行操作，实验结束后采用智能教学系统测评模型对“乐学一百”进行测评，并根据测评结果提出优化建议。

（3）研究方法

本研究对“乐学一百”应用于初中数学课的学习效果分别进行总体测评和精细测评：①总体测评方面，主要运用协方差法进行分析[24]。该方法将一些对因变量有影响的无关变量作为协变量，可得出更加准确的分析结果。在本研究中，实验班和对照班的前测成绩为协变量。同时，本研究通过问卷调查实验班学生对“乐学一百”的使用感受，问卷包含使用满意度、界面设计、题目质量、单元数量等指标，共设12道题（问卷总的Cronbach’s α值=0.969），采用李克特五点量表计分。②精细测评方面，选用面向在线学习系统的学习风格模型[25]，包括视觉、言语、顺序、整体、活跃、沉思、感觉、直觉、场依存、场独立、适应、革新等12类不同学习风格，并通过直方图展示不同学习风格学习者的学习表现。本研究使用Matlab 2018、SPSS 20.0，进行相关数据的处理。

2 研究结果

（1）学习效果的总体测评

实验班与对照班的前测、后测成绩协方差分析结果如表1所示，可以看出：经过协方差修正后，实验班的平均值为75.14分，而对照班的平均值为71.86分，可见实验班的平均值高于对照班；值=0.009＜0.05，达到显著水平，说明“乐学一百”的教学应用对期末考试数学成绩有显著的正向影响。

表1 实验班与对照班的前测、后测成绩协方差分析结果

针对实验班的问卷调查结果如表2所示，可以看出：12道题所涉内容的结果均值处于4.07～4.43之间、均高于4分，说明实验班学生对“乐学一百”的使用感受普遍较好。

表2 实验班问卷调查结果

（2）学习效果的精细测评

不同学习风格学习者的数据分析结果如图3所示，涉及后测成绩、后测与前测成绩之差、平均得分、平均用时等四个方面。其中，图3（a）显示，场独立型、适应型学习者的后测成绩较高，而整体型、场依存型学习者的后测成绩较低。图3（b）表明，整体型、沉思型、场独立型、适应型学习者的数学成绩进步不明显，而活跃型、感觉型、场依存型学习者的数学成绩进步幅度较大。图3（c）展示了不同学习风格学习者完成“乐学一百”每个单元练习的平均得分，可以看出：场独立型、适应型、革新型学习者的学习表现较好，而整体型、场依存型学习者的学习表现相对较差。图3（d）展示了学习者完成“乐学一百”每个单元练习的平均用时，可以看出：言语型、整体型学习者的平均用时较长，而直觉型、场独立型、革新型学习者的平均用时较短。可见，不同学习风格学习者的学习表现和进步幅度存在很大的差异。

图3 不同学习风格学习者的数据分析结果

表3 系统测评分析与优化建议

（3）测评分析与系统优化

学习效果的整体测评和精细测评结果显示，“乐学一百”整体上提高了学生的数学成绩，但是整体型、沉思型、场独立型、适应型学习者的学习效果提升不明显。而通过精准测评，可以发现ITS在资源推送算法方面还有待进一步提高。针对上述问题，本研究试图通过优化不同学习风格学习者的资源推送方式，来进一步提升所有学生的学习效果。系统测评分析与优化建议如表3所示，系统设计者可据此对智能教学系统进行改进，如向整体型学习者提供可视化的知识全貌，为场独立型学习者推送更适合其知识水平的、有一定难度的试题等。

四结语

为解决智能教学系统的有效测评问题，本研究构建了智能教学系统测评模型，并设计了智能教学系统测评流程。基于“乐学一百”的实证研究结果显示，智能教学系统能够在整体上提升学习效果；同时，通过精细测评发现，整体型、沉思型、场独立型、适应型学习者的学习效果提升不明显，资源推送算法需进一步优化。为此，本研究提出了智能教学系统改进的建议，验证了智能教学系统测评模型的有效性。智能教学系统测评模型可被应用于各类个性化、自适应的教学系统，能够持续地为系统设计者提供系统优化与升级的精细化数据反馈，从而有效提高ITS测评的性能、提升系统的智能化水平。

[1][9]贾积有.人工智能赋能教育与学习[J].远程教育杂志,2018,(1):39-47.

[2]马璐,张洁.国内外人工智能在基础教育中应用的研究综述[J].现代教育技术,2019,(2):26-32.

[3][22]刘邦奇,袁婷婷.智能教育系统的总体架构及区域实践模式研究[J].远程教育杂志,2019,(3):103-112.

[4]吴晓如,王政.人工智能教育应用的发展趋势与实践案例[J].现代教育技术,2018,(2):5-11.

[5]Klasnja-Milicevic A, Vesin B, Ivanović M, et al. E-Learning personalization based on hybrid recommendation strategy and learning style identification[J]. Computers & Education, 2011,(3):885-899.

[6][14]Greer J, Mark M. Evaluation methods for intelligent tutoring systems revisited[J]. International Journal of Artificial Intelligence in Education, 2016,(1):387-392.

[7]张蓉菲,赵磊磊,李玥泓,等.国外教育人工智能研究主题及趋势分析——基于Web of Science文献关键词的可视化分析[J].现代教育技术,2019,(12):5-12.

[8]孟亚玲,武帅,魏继宗.人工智能教育研究的现状、热点与趋势——基于1979～2019年1043篇人工智能教育文献的数据分析[J].现代教育技术,2020,(3):120-123.

[10]陈凯泉,张春雪,吴玥玥,等.教育人工智能(EAI)中的多模态学习分析、适应性反馈及人机协同[J].远程教育杂志,2019,(5):24-34.

[11]Blikstein P, Worsley M. Multi-modal learning analysis and education data mining: Using computational technologies to measure complex learning tasks[J]. Journal of Learning Analytics, 2016,(2):220-238.

[12]刘伟.智能与人机融合智能[J].指挥信息系统与技术,2018,(4):1-7.

[13]Mark M, Greer J. Evaluation methodologies for intelligent tutoring systems[J]. Journal of Artificial Intelligence in Education, 1993,(2):129-153.

[15]Jeremic Z, Jovanovic J, Gasevic D. Evaluating an intelligent tutoring system for design patterns: The DEPTHS experience[J]. Educational Technology & Society, 2009,(2):111-130.

[16]Sykes E R. Design, development and evaluation of the java intelligent tutoring system[J]. Technology, Instruction, Cognition and Learning, 2010,(1):25-65.

[17]Hooshyar D, Binti R, Wang M, et al. Development and evaluation of a Game-Based bayesian intelligent tutoring system for teaching programming[J]. Journal of Educational Computing Research, 2018,(6):775-801.

[18]Mousavinasab E, Zarifsanaiey N, Niakan K, et al. Intelligent tutoring systems: A systematic review of characteristics, applications, and evaluation methods[J]. Interactive Learning Environments, 2021,(1):142-163.

[19]刘明祥,朱书强.基于Web的智能教学系统评价[J].现代教育技术,2002,(3):51-54、79.

[20][24]贾积有,孟青泉.智能教学系统的评价与选择[J].数字教育,2019,(3):1-9.

[21]周楠,周建设.基于深度学习的学生行为分析与教学效果评价[J].现代教育技术,2021,(8):102-111.

[23]贾积有,于悦洋.学习活动指数LAI及在线学习活动指数OLAI的具体分析[J].中国远程教育,2017,(4):15-22、56、79.

[25]孟青泉,贾积有,颜泽忠.面向在线学习系统的学习风格模型[J].教学考试,2021,(9):57-62.

The Construction and Empirical Research of the Evaluation Model of Intelligent Tutoring System

MENG Qing-quan1JIA Ji-you2ZHANG Zhi-yong3YAN Ze-zhong4

The evaluation of an intelligent tutoring system can not only evaluate its performance, but also provide a basis for its optimization. But, there is still a lack of instructive evaluation models for intelligent tutoring systems. Based on this, this paper constructed an intelligent tutoring system evaluation model, which included factors of intelligent tutoring system, learner, system designer, learning effect test and learning style measurement. Meanwhile, an evaluation process includes five steps of data acquisition, overall evaluation, detailed evaluation, evaluation analysis, and system optimization was designed. After that, taking the intelligent teaching system of “Happy Learning 100” as an example, this paper carried out empirical research. The results showed that the evaluation model of the intelligent tutoring system could effectively distinguish the learning effect of learners with different learning styles, generate refined evaluation results, and provide data support for the optimization of the system, which had great application value.

intelligent tutoring system; ITS evaluation; learning style; learning effect

G40-057

1009—8097（2022）05—0068—07

10.3969/j.issn.1009-8097.2022.05.008

基金项目：本文受全国教育科学规划教育部青年课题“核心素养导向下基于语义图示和思维可视化工具的智能教学系统优化设计研究”（项目编号：ECA190481）、2017年度中央电化教育馆全国教育技术研究规划重点课题“基于智能技术和大数据分析的个性化教学研究”（项目编号：176220009）、2020年度北京大学教育大数据研究项目“基于大规模学生学习活动数据挖掘的自适应性智能教学系统研究”（项目编号：2020YBC07）资助。

孟青泉，讲师，博士，研究方向为人工智能教育、创新教育和教师教育，邮箱为6836@cnu.edu.cn。

2021年9月25日

编辑：小米