基于项目反应理论的自适应考试系统设计

2013-10-22吕岚

陕西理工大学学报(自然科学版) 2013年2期

吕岚

(陕西铁路工程职业技术学院机电工程系，陕西渭南 714000)

1 计算机自适应考试的背景及意义

随着计算机和网络技术的迅速发展，将计算机和网络技术应用于教育已经成为一种趋势。基于Web的在线考试是教育研究的一项重要组成，在线考试取代传统考试，教师从出卷、考试、阅卷、登记成绩、分析考试结果等大量的重复劳动中解放出来，降低了人为因素对考试结果的影响。

传统考试在实践过程中已经暴露出很多的缺点及不足，如未考虑到考生的个体差异性，如果试题难度太高，对一些中等或水平低的考生，容易通过猜题获取答案;而对于水平高的考生，如果测验的试题太简单，则难以准确地测试其真实水平，影响考试的公正性、公平性和有效性，也容易打击学生的学习积极性、不易培养学生主观能动学习，因此，探索一种新的考试形式对现代教育教学有着积极的意义。计算机化自适应考试(Computerized Adaptive Test，CAT)建构在20世纪50年代发展起来的现代测验理论——项目反应理论(Item Response Theory，IRT)的基础之上，同时也是近年来将计算机技术应用于教育测量学并取得重大进展的考试方法[1]。在自适应考试中，每个考生首先会通过一组基本测试项目确定其所对应的能力水平，然后测验系统会选择一组最适合于考生个体特质水平的项目对其进行测验，使测试结果能最大限度地真实、客观反映被测试者的能力水平。自适应考试和传统考试相比，其测验时间可大大缩短，做到因人施测，可以解决传统考试中存在的诸多问题。

2 项目反应理论介绍

2.1 项目反应理论概念

项目反应理论[2]也称潜在特质理论或潜在特质模型，是一种现代心理测量理论。Hambleton和Swami Nathan对项目反应理论作了如下定义[3]:在测验情景中，通过定义被测试者的特征，即特质或能力，估计被测试者在这些特质上的得分(称作能力值)，并运用这些分数预测或解释项目以及答题情况，来解释和预测被测试者的作答。

2.2 项目反应理论模型

IRT模型按照项目特征曲线的数学形式以及项目反应的评分方式分为三类:二元评分IRT模型、多级评分IRT模型、连续评分IRT模型[4]，如表1所示。

表1 IRT模型分类表

在IRT中应用最广泛的是二元评分模型中的Logistic系列模型，分别是单参数Logistic模型(One-Parameter Logistic Module，1PL)、双参数 Logistic 模型(Two-Parameter Logistic Module，2PL)、三参数 Logistic 模型(Three-Parameter Logistic Module，3PL)，模型公式如下[5]:

单参数模型

双参数模型

三参数模型

其中:i=1，2，3，…，n;θ表示考生的能力水平;Pi(θ)表示能力水平为θ的考生答对试题i的概率;D=1.7表示量表因子;ai代表示试题i的区分度;bi表示试题i的难度;ci表示试题i的猜测参数。仅当猜测参数ci=0时，即为双参数逻辑斯蒂模型[6];当ci=0且ai=1时，即为单参数逻辑斯蒂模型。

3 自适应考试系统的设计

3.1 系统功能模块

本系统可以分为用户管理模块、试题库管理模块、考试管理模块。系统功能如图1所示。

这些模块可以实现下列功能:

(1)用户管理模块:实现教师信息管理、学生信息管理、用户权限管理。教师信息管理对教师信息进行查询、添加、删除、修改;学生信息管理对学生信息进行查询，设置学生所在系部、专业和班级信息;用户权限管理实现对教师、学生权限进行设置，实现数据备份、还原，系统配置等操作。

(2)试题库管理模块:实现浏览、查询试题，设置题干、答案、项目参数等属性，试题的录入、更新、删除操作，试题项目、知识点统计及分析。

图1 系统功能模块图

(3)考试管理模块:从不同课程，各种题型在知识点、数量、难度等方面对某份试卷生成组卷规则，按照项目反应理论逐步生成考题;学生正确登录系统、完成考试、顺利提交试卷;自动完成抽题、能力估计及自动终止考试，能够自动评分;对题库进行导入/导出操作、查询科目知识点及题库相关信息;查看考生的考试成绩，进行成绩统计，分析知识点及项目的相关信息，包括考试人数、最高分、最低分、平均分以及各分数段得分人数等，对信息进行维护。

3.2 UML 建模

在本系统中，使用UML建模对考试系统进行了分析。根据功能需求，本系统共设计出14个类，能实现系统的所有信息管理及相关操作。CUserGroup类(用户分组类)、CUser类(用户管理及操作类)、CGroupRight类(用户权限管理类)、CSubject类(科目管理及操作类)、CStyle类(试题分类及管理类)、Subject-Styles类(科目与试题题型关联类)、CAnswer类(试题答案及管理类)、CSubjectiveQuestion类(主观试题题目及管理类)CObjectiveQuestion类(客观试题题目及管理类)、CTestingTopic类(记录正在测试试题信息及管理类)、CProjectList类(对考生所有测试过的项目进行管理)、CStudent类(考生信息及状态管理类)、CMessagebox类(实现信息显示类)、CTimer类(计时与定时管理类)。系统中的类图如图2所示。

3.3 系统开发关键技术

3.3.1 能力值初始化

本系统在自适应考试的测验开始采用的方法是:如果考生参加过测验，则根据历史记录确定考生的初始能力值，以此为依据，选择测验的起始题目;对于没有参加过测验的考生，本系统选择一道中等难度的试题开始测试，根据测量理论，如果考生所测试的项目难度恰好为该考生答对概率为0.5左右，那么该项目对考生的测量精度最大[7]。

3.3.2 选题策略

本系统对最大信息量选题法进行改进，按a值递增，同时考虑被测项目的均衡性，算法如下:

(1)根据a值大小将题库分为k层，第一层具有最小a值，第k层的题目(项目)具有最大a值;

(2)将自适应考试分为m个阶段;

(3)第n阶段时在第y层题库中选ny项目，1≤n≤m，1≤y≤k;求取所选项目的信息函数及能力估计值;并对ny项目的章节进行标记计数，设为参数值z;

(4)计算y+1层下所有项目的信息函数值，选取最大信息量对应项目，并计算新的;若选取的项目参数标记z出现的次数超过2次，则选取第二大的信息量的项目，可以确保抽题不会总集中在某一个章节上，降低了试题曝光率;

(5)重复(4)，对n=1，2，…，m;直到m值达到考试的长度，终止考试。

3.3.3 终止条件

首先设定最大允许测试长度，如果在最大测试项目长度内，满足了信息量控制法就结束测试，否则在达到最大允许项目长度时结束测试。

图2 系统类图

4 总结与展望

本系统可以使试题管理者不断改善测试项目，教师可以根据测试结果更好地运用于教学，学生则可以对所学知识有一个较全面的认识，对学习活动适当的调整，提高学习效率。

当然，本系统还有很多需要完善之处:

(1)试题库中项目参数的确定:建立一个科学、合理的试题库必须要对测试项目的参数a，b，c进行较准确的估计，同时也要考虑试题章节分布的合理和全面，本系统中试题参数的设置由于受样本等因素限制，还没有找到一个精确估计项目参数的方法。

(2)选题策略:选题策略是CAT中最核心的问题，目前对自适应考试系统也研究出了很多选题策略，但这些策略在实际应用中也出现了一些缺陷，如过度依赖高区分度的试题或某种特定的数学模型，导致不能客观地对被测试者能力值进行估计。因此要深入研究选题策略，对其不断改进。

(3)CAT安全设置:在CAT应用中出现过盗题现象，如何有效防止恶意盗题行为，提高系统的安全性，也是CAT研究的热点。

在CAT测验发展过程中提出了多种测验安全控制方法，主要有:①SH条件概率法及其变式;②项目合格方法;③多重最大曝光率法;④a分层法及其变式。由于本系统选题策略使用的是a分层最大信息量选题法，所以对题库曝光率的控制则采用a分层法及其变式来解决。主要思路是每一个测试项目有一个章节参数，当在ki层选取了一道测试项目np后，在ki+1层根据新的能力估计值选择难度b和它最接近的题目nq，如果nq和np同属一个章节，则另外选择一个难度次接近并且和np不在同一章节的题目。通过这种方法，既保持了a分层最大信息量选题法的优势，也很好的解决了试题曝光率的问题。

随着CAT越来越广泛的应用和研究的不断深入，上述问题会逐步解决。

[1]唐宁玉.三种心理侧量理论的信度观[J].心理科学，1994(1):33-34.

[2]顾海根.心理与教育测量[M].北京:北京大学出版社，2008:73.

[3]巫华芳.基于.NET的计算机化自适应测验系统的设计与实现[D].上海:华东师范大学，2009.

[4]余嘉元.项目反应理论及其应用[M].南京:江苏教育出版社，1992.

[5]薛荣.从经典测量理论到项目反应理论:谈语音测试的两种数学模型[J].外语研究，2007(4):60-64.

[6]Chang Qian Z.A-stratified multistage CAT with b-blocking Applied Psychological Measurement[J].Advanced Learning echnologies，2003(6):333-341.

[7]Wang Feng-hsu .Application of Componential IRT Model for Diagnostic Test in a standard Conformant Learning System[J].Advanced Learning Technologies，2006(4):237-241.