基础医学课程主观试题移动在线考试服务及智能辅助评阅系统的搭建策略与实现

2019-03-17余和芬

医学教育管理 2019年6期

王晶余和芬程杉

（首都医科大学基础医学院，北京 100069）

综合性考试是当前高等教育教学评价中的最重要环节之一，这种考试方法不仅用于学生课程结业考试，更在教学过程中的形成性考核中广泛使用[1]。主观题目以往主要是通过人工评判，耗时时间相对较长，工作强度大，存在主观错误或偏差风险。因此，主观题评阅的自动化或半自动化处理是考试系统及其应用虽然困难较大且较少尝试的一个领域，一直以来是很多教育工作者的期待或梦想。近年来，随着计算机技术及互联网技术的发展和优化[2]，当前的技术已经开始为这一问题的解决提供了现实的可行性[3]。一旦通过不断地试验和改进能够实现主观题的机器评分达到与人工阅卷的稳定性和误差相近的效果和水平，也就表明相应的算法和系统可以进入实用阶段，这无疑也将会是自动化无纸化考试系统研发的一个突破性的里程碑。

在生物医药类全国性大型考试如国家执业医师资格考试，全国中学生生物学竞赛考试及研究生入学西医综合和科目考试等等，应用计算机辅助评估（computer-aided evaluation，CAE）系统自动化阅卷已成为常态。但传统的CAE 系统均仅支持在多个选项框架下的标准化试题，而并未支持主观题答题的读判[4]。

自2015年以来，本校基础医学院多个学系逐步推广使用基于网络B/S（browser/server）构架的TCExam 开源在线考试系统结合自定制题库接口程序模块的“便携式自启动在线考试系统”[5]，并已经服务多个学院学科的多类型考试。经过数年来的探索、改进和积累，我们在对选择题型评判评分实现全面支持的基础上，通过借鉴语言学和人工智能的实用原理及常用算法，建立了主观题自动阅卷的参考评分策略，并且完成了对已有系统的修改和升级以及实用场景测试。

1 便携式自启动在线考试系统的推广应用案例和总结

该系统已经成熟的应用在多个考试场景中，基本上满足了大多数科目学业考试和形成性评价的主要需求，充分体现了该系统的灵活性及出色的性价比。在系统推广和扩大应用的过程中，我们还系统解决了电子试卷和原始答题文件的存储归档及考分记录的查询检索问题。传统考试管理中，试卷的保密、保存和痕迹管理一个重要环节，在学生毕业之前的全部考卷需要妥善保存和归档，空间和配套资源要求很高，还要考虑到随时的复核、抽检和查询。由于医学生的学制较长，考试科目较多，需要严格的保密，相应的成本更大。试卷查询及回溯抽检等工作的人力消耗也是不容忽视的问题。在电子化无纸考试系统内解决传统考试中试卷管理等同的规范化归档和查询难题是发挥其优势的必需环节。由于原系统基于移动U 盘，对于存储的保密性、权威性和可靠性有所疑虑。为此我们采取了一些针对性的解决措施。对于每次考试的记录采取了三重保密及备份，一是对整个磁盘的全盘“冻存式”备份与考试监考记录等文件并入传统纸媒方式保存；二是在TCExam 管理后台对MySQL 数据库资料导出备份；三是可加载的镜像文件方式制作每次考试的工作状态文件并且以日期码标注，此类文件由在U 盘考试系统中独立加载，以只读方式高效便捷地进行各种考试相关数据的查询，以及归类统计。

2 移动在线考试服务系统的搭建及其在不同课堂规模下的应用

随着智能手机终端的普及及无线互联网网速的飞速提升，由智能手机终端联合无线互联网衍生出的一系列“互联网+智能手机”解决方案，已经渗入到日常生活工作及学习的各个场景。充分利用了智能手机性能的提升结合校园无线互联网的发展和升级，我们将先期研发的“便携式自启动在线考试系统”进一步升级为不需要任何服务器和计算机房及终端的移动平台，除了在个别区域的无线路由器需求以外，建成了“零成本”的“智能移动在线考试系统”（图1）。

图1 在线考试系统构建与信息处理策略

关于考试软件和服务器的架设，包括全网服务和课堂服务两种规模配置。前者可以使用基于Linux 系统下B/S 构架的TCExam 接入方法[6]；而后者的移动解决方案中，我们尝试了将全功能的考试服务器集成在普通的智能手机中。系统的搭建选择了Palapa Web Server (PWS)软件的使用，将其安装到获得“Root 访问”权限的Android 操作系统手机。PWS 集成了PHP和MySQL包，支持数据库的Access和管理操作，整合Lighttpd 网站服务器后可以使普通的手机移动设备转变成为一个移动的网站和数据服务器。即使在校园网无线网络不能覆盖的环境中，该系统可通过一个预设节点的无线网络路由器随时建立动态的考试服务网站。

经过改进的考试系统在应用中表现出明显优势：①依托校园网络的考试服务可以使考试的组织不必仅仅局限在特定局域网中的考场电子教室；②随着智能手机网页浏览器作为用户输入接口的实现，可以使考试场景彻底摆脱对个人电脑等设备需求；③智能手机作为网络服务器节点及考试软件的成功安装，配合无线路由器的使用，使所提供的考试服务彻底实现了移动化，并且可以完全实现不同规模下的应用。考试系统操作的灵活性和应用规模的可延展性，对包括课堂练习或随堂测验等考试场景、以及人员签到等应用的支持非常丰富，广受师生欢迎。此外，本次改进升级不仅为电子化无纸考试的进一步推广扫除了成本门槛，而且随着其在不同课堂规模下的应用，使教师在考试组织、题目质量和电子阅卷等方面得到了培训及从事相关研究的支持平台。

3 主观题目智能辅助自动阅卷方案的建立和尝试

随着计算机技术的发展，人工智能研究和应用开始进入到自然语言处理（Natural Language Processing，NLP）领域，成为语言学研究中的热点之一。完成对语义的理解，这在本质上属于一种在认知层面上的“降维”过程。NLP 对长文本字符相似度的判别，一般可根据语句的长短，复杂程度运用不同的处理方法，分为字面编辑距离计算和语义相似性计算。字面编辑距离仅考虑不同文本之间的字面距离，如文本A 至文本B 的插入、删除、替换次数，次数越多，距离越远；语义相似性判定则需要做到从语义的层次进行度量，忽略其字面编辑距离的差别。

专业课程的主观题目的答题文本具有关键词词库规范性好、数量有限、且集中出现频度高等多种特点，相对于日常的自然语言处理在算法上较为容易。在医学专业课程的教学过程中，统编规划教材的使用强调术语的规范化”，为降低文字评判系统时语义相似性差异带来的评判误差奠定了很好的基础。具体针对不同的主观考试题型，我们分别建立了相应的评分策略。填空题可转化为多选标准化考试题的一种变体形式，即穷举全部可能的正确回答，编列为参考答案选项，互为“或”的关系。名词解释及简答题的评分首先需要对答案进行“降维”处理，考虑关键词以及关键词出现的顺序，本质上是将名词解释转化为系列的“填空题”；将简答题分段为逻辑序串的词汇解释。对目标文本中关键词的出现及其顺序、频次或、同义词转化等预处理，可以有效避免学生回答问题时文本长度差异和无效无义文字造成的判读干扰。经预处理的目标文本语句与标准答案语句的字面编辑距离基本可以用作评分的主要参考。

字面编辑距离的计算方法很多，如Levenshtein 距离（Levenshtein Distance，LD）[7]和Jaro-Winkler 距离（Jaro-Winkler Distance，JWD）[8]。Levenshtein 距离是根据字符串A 变化到字符串B 所需要替换、插入及删除的次数，对比字符串的长度，计算得出两个字符串之间的距离，广泛应用在DNA 序列的比对以及文本的拼写检查等工作中，以及通过比对学生答案间的相似度发现作弊行为。LD 算法在短字符串间的严苛比对中对差异的体现较好，而对需要考虑词序并兼顾文义的较长句段我们选用Jaro-Winkler 距离（Jaro-Winkler Distance，JWD）作为参数，其算法对起始部分相同的字符串给予更高的分值权重。JWD 值的分布密度较高，更适用于对整句或段落的得分评判。LD 算法与JWD 算法可以联合使用，再按照不同的权重给出综合评分（表1）。

表1 生物学考试题型参考答案设置及得分判定

根据不同题型的评分策略在Excel 的VBA脚本中实现并经优化和测试后，改由php 程序语言编写成为可接入TCExam 考试系统的独立运行脚本，其中的批处理SQL 操作指令可以使考试系统管理员通过web 后台方式对TCExam数据库的人工评判得分字段内容进行修改。由算法得到的智能评分可以在TCExam 的高等级用户登录中通过教师评分界面进行显示，供人工阅卷作为参考；教师可就发现的问题进行修改和备注，为后续进一步的算法优化提供思路和依据。

4 关于后续升级和改进的思路

本系统将随着应用的拓展和数据的累积得到不断改进，最终目标不仅是作为单一的考试服务，而是最大可能地发挥其学习平台的功能，帮助学生在专业认知水平的快速提升。对专业课程考试的主观题自动评判系统建立在比较目标文本与参考文本之间的相似度来进行评判，编制高质量的参考文本关键词词表是技术性较强的关键环节，否则会在不同程度上减低了主观试题智能评分的合理性与准确度。一方面我们建议关键词应由教材和教学大纲中出现的专业名词组成并符合“全国科学技术名词审定委员会”建立的“术语在线”（http://www.termonline.cn/index.htm）医学类词库、专业词汇对应的标准英文写法；另一方面，我们还拟将积累大量学生用户的作答答案作为输入数据集，建立基于受限玻尔兹曼机（restricted Boltzmann machine，RBM）的随机生成神经网络[9]，对数据集中使用的词汇出现频率进行排序，进行全监督机器学习，根据学习结果丰富标准答案库，做到对主观题目更加客观可靠高效的评判。

5 总结

经过对“便携式自启动在线考试系统”的成熟应用和总结，本“主观试题移动在线考试服务及人工智能评阅系统”对前作进行了延续、改进和升级。系统在不同场景的良好的应用，使任课教师对各种无纸化考试系统的操作得到了充分的训练，同时，学生对电子考试平台也获得了充分的适应机会。基于这些工作基础及获得的师生正面反馈，加速了整个学校范围内建立无纸化考试系统计划的实施，在线考试系统将作为我校专业基础课及专业课总结性测验的主要方式之一进行全面的推广。

尽管存在技术上的可能性，我们没有对自由作答的问答题型尝试自由评阅的可能，不仅是由于在实现中的难度较大，而主要是出于对教育教学理念的考虑。我们认为智能阅卷的目的并不是以单纯的减轻教师负担和考试成本为目的，而是为了能够使教师能够将更多的精力由于改进教学活动和教学方法，包括提高题目质量和关注学生的学习过程，而开放性的问答题实质上是一种颇为有效的师生互动形式，需要加以很好的设计和利用。我们并不希望这一传统且由多年教学实践所证明有效的考试形式受到现代技术的影响而失去原有的效力。

我们的升级版移动考试系统恰好能与学校的在线考试系统作良好的补充和相互支持。第一，我们已经有完备的包含各种题型的专业课试题库，整个系统的进一步升级改造就可不依赖于全校各个专业题库的整体建立或升级；第二，通过将网络服务器移至智能手机终端而大范围的提升其移动性，使得其可以广泛灵活的应用于随堂测验等形成性评价中；第三，我们建立了完整和相对可靠的主观题评判系统，通过接下来与人工智能机器学习衔接，可进一步提升了教师的工作效率及评判的准确性。今后，我们还将继续通过大量的使用实践数据，进一步完善语义词库及优化评阅规则，最终建立全题型全场景覆盖的在线考试系统。