基于操作序列的自动测评关键技术及其应用研究

2013-08-02陈萱华许曌铨李学亚

实验技术与管理 2013年1期

陈萱华，许曌铨，李学亚

（公安海警学院教育技术中心，浙江宁波 315801）

随着计算机和模拟仿真技术的迅速发展和深入应用，高等院校在实验教学中构建了许多模拟仿真系统，以此代替实际装备进行教学、仿真训练和考核。但由于操作方法多样及操作前后顺序的可对调，基于操作序列（学生为完成测评目标所进行的所有操作）的较成熟的通用自动测评系统还不是很多。目前操作考核时，教师全程跟踪学生的实际操作，然后评价其操作过程是否正确和操作结果是否良好。但由于学生人数众多，实际操作难度较大，而且这种方式存在一定的主观性，难以客观、公正地反映学生的实际操作技能。取而代之的是仅评定操作结果，虽然在某种程度上实现了测评的自动化，但因为学生的操作结果并没有包含学生操作的所有信息，所以这样的测评还是片面的，使用中也暴露出一些缺点[1－3]：测评内容受限制；不允许学生做任何无关或多余的操作；操作者得到了最后的结果，但在操作过程中却有很多不合理的操作；无法让学生复查试卷（操作过程）。所以，为提高测评的客观性、全面性，同时分析结果信息和操作序列是必要的。课题组在解决操作序列标准化表示的基础上，建立基于专家系统的测评模型，将研究成果应用于航海仪器测评系统中，取得了预期的效果。

1 自动测评的关键技术

1.1 操作序列的通用表示框架

操作序列是针对某一个考核题目（项目）进行的一系列操作的总和，它是操作题答案和操作过程记录的有效表示形式[4]。目前实践操作测评主要有2种评判方式：基于操作结果和基于操作序列。这两者都可以作为测评的依据，但它们应用的复杂度和反映的信息效果不同。基于操作结果的评判反映的信息更直接，评判响应也快，并且实现简单。首先是获取操作结果的过程比较简单，其次利用字符串比对方法就可以实现评判，但使用范围有限。基于操作序列的评判反映的信息更全面，应用面比较广，但实现复杂：首先，操作序列的获取比较复杂，有连续系统仿真和离散系统仿真2种；其次，用计算机表示正确的操作序列比较困难，对于开放性的实验，操作的方法多样，而且操作的顺序可以变化，可能还有时间上的约束等；第三，学生的操作数据和正确答案的对比比较困难，要考虑到操作顺序的可变性，不能简单地通过字符串对比的方法实现，必须经过知识推理才能得出操作者的实际成绩。这里主要描述基于操作序列的评判表示和模型。

对于模拟仿真系统的考核，主要是针对考生的操作进行评判。考生的操作产生系统状态的变化，因此参考面向对象的思想，对象由个体及其属性和方法组成，属性包含个体的状态和不同个体方法之间的关系，即方法的先后顺序。方法主要包含事件，因此事件是和对象互相绑定的。事件既可以定义为外部主体（考生）对系统的操作，也可以定义为系统内部状态的改变[5－6]。将考生的操作直接定义为事件比较简单，事件数也少，但考生的操作很难被完全地定义，而状态的改变是在系统建模阶段就被完全地确定下来的，所以用对象状态的改变来定义事件比较容易标准化。可以利用事件来表示考生的操作序列，用四元组来表示事件E（O，T，S，P），其中 O为操作的对象，T为操作的时间，通过时间可以反映出考生的操作顺序，S为进行该操作（事件）后对象的状态，P表示进行该操作可能需要的参数（前提条件）。这是一种通用的表示方法，在具体应用中可以根据情况进行调整和细化。

1.2 操作测评自动化模型

操作序列的表示标准确定了，就可以结合专家系统给出通用的测评模型，其结构主要包括人机界面、考生操作序列获取及表示、推理机、评定结果（成绩管理数据库）、动态数据库、解释模块、知识库、知识库管理系统等，如图1所示[7]。

图1 操作测评自动化模型

（1）解释模块。在推理过程及成绩计算过程中，将解释信息、操作结果及评分成绩输出到人机接口界面。为了使考生能够复查考试成绩，教师能更好地分析考生对实践操作的掌握情况，要求测评系统对考生操作过程进行捕获和记录，并能够回放。传统的方法通常是实时录制操作过程[8]，这种方式数据量大，也不利于提取关键节点。为减少数据量和系统实现的简单化，将操作过程和评分的推理过程结合文本信息以解释信息呈现。操作过程的跟踪与回放提高了测评系统的可信度。接收到回放指令时，系统将解释信息、操作结果、分步骤及总体的评分成绩输出到人机接口界面。

（2）推理机。程序运行过程中，利用知识对考生的操作进行推理判断，获取考生操作结果，利用评分参数采用系统所设定的评价方法实现对考生的合理评分。

（3）动态数据库。存储考生操作过程中的相关信息，如初始事实、推理规则、控制信息等。采用层次结构组织数据，层次中的数据并不是固定的，在系统推理或成绩计算过程中动态生成或删除。

（4）评定结果（成绩管理数据库）。用于永久保存考生信息、推理所得的操作结果以及考生的操作成绩等，存储的结果数据主要用于历史凭证及统计分析。

（5）知识库。主要用于存储评判规则知识和操作任务知识。为加快推理速度，将不同的考核项目划分成多个子集，采用层次结构模式，按不同的项目组织成树形结构。

1.3 实操考核自动评分流程

考试时，自动测评系统随机产生一个考试项目，加载考题时，先将考题的任务步骤与规则库里的规则进行匹配，进行考题正确性的验证；匹配成功，从规则库中找出对应的规则组成待用规则集存入动态数据库，待用规则相当于前面所说的正确答案，所表示的是最简单的操作步骤，即没有反复或者重复的操作步骤；随着考生的操作，组成操作序列的内容不断地变化，更新动态数据库中的初始事实数据；采用正向推理模式和深度优先搜索策略轮询待用规则集的规则，判断正确答案的操作序列是不是出现在考生的操作步骤中，根据操作的时间判断考生的操作顺序是不是正确，如果有多种方法，要逐个比对；评判的同时将相关的操作信息送给解释模块，最后根据评分策略计算考生的操作成绩。如图2所示。评分策略针对不同的项目或组织者的要求可以进行相应的调整[9－12]。

2 自动测评关键技术在航海仪器测评系统中的实际应用

考虑到航海仪器实践操作过程路径不是太复杂，以及操作步骤之间的关联性较强，为了简化处理和方便操作序列的比对，将1.1中的操作序列E转化为由一系列的操作、操作发生时间的关系（即操作关系）、操作发生的条件和操作完成的标志组成，并全部通过对应的变量（关键字）来表示。2个操作之间可能没有任何约束关系，这时不需要做任何表示；也可能存在必要的约束关系，如一个操作必须在另一个操作完成期间进行等，如果按时间关系区分，操作关系可以包括前、后、同时、期间、交叉等[13－14]。针对航海仪器实践操作的特点，操作关系可以只考虑前后的关系，因此可以用操作发生的条件来表示。条件对应的变量及其期望值可以在规则库中事先定义好，规则主要包含操作动作对应的关键变量及其期望值、操作前提条件的变量与期望值、操作完成标志变量与期望值，以及操作序号等。某一操作的前提条件可能不止一个，则需要判断关键字间的关系是合取还是析取。若为合取，需要所有关键值的事实值与期望值相等才能确定考生进行了该步骤的操作；若为析取，只需要其中一个关键字的事实值与期望值相等即可确定考生进行了此步操作。在处理中注意关键字与操作步骤之间的对应[15]。

图2 实际考核自动评分流程

操作跟踪和回放的解释信息将操作过程和评分的推理过程涉及到的关键字结合起来进行呈现，主要包括：考生进行了哪些操作或步骤，完成与否；哪个操作前提条件不满足；什么操作完成标志不满足；操作结果参数的值是多少；操作时间、操作顺序等。推理过程的解释信息较全面地反映了考生的操作过程。解释信息参量对应的文本信息预先设定好，并存储在数据库中。

3 结束语

由于实验技能的多学科性，完全相同的测评算法是不存在的，存在的只是算法构建的基本框架，本文给出了操作序列的通用表示框架，在该框架的指导下结合学院航海仪器实践操作的特点给出了细化实例，构建出有效的自动评分系统。该系统在教学中的实际应用，克服了人工评分的不足，实现了评分结果的相对客观、公正，大大提高了实操考核的工作效率。随着云计算技术的逐步成熟，基于操作序列的测评思想可以用于网络教学的效果评估，通过记录教师和学生的教与学的操作过程，实现对教师教学过程的全程跟踪，并进行评价，这些数据也是课后同步训练智能化的依据。

（References）

[1] 孙波，傅骞，马晓强.用户操作序列分析在Office技能测评中的应用[J].中国电化教育，2004（3）：84－86.

[2] 何克抗，许骏.计算机辅助测评（CAA）研究新进展：技能性非客观题的自动测评[J].开放教育研究，2005（2）：78－81.

[3] 傅骞，何克抗，马晓强.基于计算机仿真的实验技能测评自动化研究[J].中国远程教育，2005（3）：68－72.

[4] 曲朝霞，傅骞.实验技能自动测评系统框架研究与设计[J].计算机应用研究，2007（5）：218－219.

[5] Clauser B E，Harik P，Clyman S G.The generalizability of scores for a performance assessment scored with a computer－automated scoring system[J].Journal of Educational Measurement，2000（37）：245－261.

[6] 傅骞.实验技能测评自动化理论与应用研究[D].北京：北京师范大学，2004.

[7] 廉师友.人工智能技术导论[M].西安：西安电子科技大学出版社.2007：232－234.

[8] 姚砺，束永安.基于Java的捕获，回放测试工具的实现[J].计算机工程，2003（9）：22－24.

[9] 田中.人工智能中搜索策略的探讨[J].福建电脑，2004（8）：30－31.

[10] 聂伟，巫影，夏极.船舶动力系统模拟器自动评分系统的设计与实现[J].航海工程，2010（8）：84－87.

[11] 冯志勇.轮机模拟器操作评分系统的设计与开发[D].武汉，武汉理工大学，2010.

[12] 高海波，陈明昭，陈辉，等.船舶电站仿真训练器中的培训考核评分系统[J].武汉理工大学学报，2003（5）：633－635.

[13] 陈萱华，朱仙宝.无线电导航仪通用仿真模块研究及其设计[J].实验室研究与探索，2011，30（8）：94－97.

[14] Chen Xuan hua，Zhang Ling.Research on the Construction of the General Simulation Platform with Radio Navigation of Service－oriented Component[C]／／2011 15th Global Chinese Conference of Computer in Education.Hang Zhou：Zhejiang University，2011：1128－1133.

[15] 陈萱华，许曌铨.基于QTI标准的操作题标准化表示研究[J].公安海警学院学报，2011（4）：37－39.