APP下载

项目反应理论下计算机自适应考试系统的设计与实现

2014-05-25

西南科技大学学报 2014年1期
关键词:应试者题库选题

姜 霞 张 晖 李 波

(1.西南科技大学计算机科学与技术学院 四川绵阳 621010;2.西南科技大学网络信息中心 四川绵阳 621010)

在线考试的出现对教学质量的提高、实现考教分离、大范围实现教学资源共享等都有非常大的促进作用,在公平、公正、安全方面有其独特优势,良好的在线考试系统应该能够全面反映应试者学习的实际水平、考知识也考能力且多次考试结果稳定。但目前大部分在线考试系统只是简单将传统考试改为上机考试,其思想仍没有突破传统测量理论,不同能力水平的应试者都要接受同一批题目的测试,不能考察出每个应试者的实际能力。

计算机自适应考试起源于20世纪70年代,它利用了现代测量理论——项目反应理论(item response theory,IRT)[1]为架构,IRT 建立了综合反映应试者作答情况与试题质量及能力水平之间关系的非线性模型,试题的选择是根据应试者的能力水平定身度量而成的,试题难度从应试者看来并不过难或过易,以求更充分地检验应试者真实能力,同时增强学生参加考试的积极性,也能够节约传统考试组织过程中耗费的大量人力及物力,为考试改革提供思路[2-4]。

本文以《大学计算机》课程为应用基础,将对此课程的计算机自适应考试系统进行设计,对几个关键技术进行研究,并提出相应的解决方法。

1 系统设计

1.1 自适应考试流程

项目反应理论下的自适应测试的主要流程是:首先给定应试者一个能力初值θ,用此能力值给应试者选择试题,根据应试者对前面所有试题的反应来估计其当前能力值,用此能力估计值来继续按照选题策略给应试者选择最适合的试题,直到满足测试停止条件时结束考试,此时的能力估计值就是应试者最终的能力估计值。具体流程如图1。

图1 自适应考试流程图Fig.1 Adapfive testing flow chart

1.2 系统功能设计

本计算机自适应考试系统的基本功能包括用户管理、试题管理、考试管理、自动选题、应试者能力估计。系统使用MVC模式进行开发,具体的实现途径可以划分为数据资源层、数据处理层、服务层、表现层这四层架构,分别对应于数据的获取、数据的处理、具体功能实现和信息的表现,系统逻辑框架图2所示。

图2 系统逻辑框架图Fig.2 System logic frame

1.3 系统概要设计

系统的数据库主要包括考试信息表、试题题干与基本信息表、试题选项表、用户表、考试过程记录表和用户考试信息表,其ER图如图3所示。

图3 数据库E-R图Fig.3 Database E - R

1.4 系统界面实现

自适应考试系统登录界面与答题界面设计如图4、图5所示。

图4 登录界面Fig.4 Login interface

图5 考试界面Fig.5 Test interface

2 系统关键技术

2.1 项目反应理论模型选择

从1952年开始,各种项目反应模型相继提出[3],提供表达正确回答概率与测试者能力直接的数学方程式,每种模型有不同数量的参数,其确定的数值均刻画了一个特定的项目特征曲线。比较有影响的有:仅考虑试题难度的单参数逻辑斯蒂模型、考虑试题难度与区分度的双参数逻辑斯蒂模型以及考虑试题区分度、难度以及猜测度的三参数逻辑斯蒂模型,其中三参数逻辑斯蒂模型应用比较多[6]。

本系统以《大学计算机》课程的为应用对象,此课程考试的题型主要是单选题、多选题和判断题,分析各个IRT模型的假设和适用范围,对选择题与判断题可能存在应试者猜对试题的情况,决定使用三参数逻辑斯蒂模型(3PLM),此模型由Birnbaum提出,其等式如下:

其中D=1.702为量表因子,c是猜测参数,其值不会随着能力水平的变化而变化,a是试题区分度参数,b为试题难度参数。三参数模型适用于多项选择题和是非题组成的测验。

2.2 题库的建立

自适应测试题库的建立,首先要选择项目反应理论模型,然后根据涉及知识点等其他要求进行试题开发,最后进行试测与试题参数的估计[7],给出试题的区分度、难度等参数值,题库在使用期间,还要不断校正试题的参数值、更新与扩充题库,以确保题库的质量。一个好的自适应考试题库中所有试题的难度应该分布在整个能力的连续量表上。

2.3 选题策略

在计算机自适应性考试的早期阶段,关于选题策略主要有两种,一种是仅仅按照试题信息函数[8]作为标准来选择试题,另一种是加权偏离模型,这两种方法都以项目信息函数为基础,虽然简单,但不能很好控制试题的曝光度。三参数逻辑斯蒂模型的项目信息函数如下:

在后续的选题时只要根据选题策略从题库中选择最合适的试题即可,本系统采用已有的a分层c分区选题策略[9],基本思想是将题库根据要求进行分层,考试时从不同层选择合适的试题,能够在控制试题曝光度的同时提高考试可信度。

2.4 考试结束条件与计分方式

考试终止的条件有如下几个:两次估算的能力值之差小于指定值、答题数量达到指定的最大上限、答题时间达到指定时间上限、答题连续全对或者全答错达到指定数量。如果直接用学生的能力估计值来代表学生的能力,不容易理解,所以使用真分计算方式作为最终计算机能力值分数,等式如下:π=,其中π为转换后的分数,n为试题总数,Pi(θ)为应试者答对试题i的概率。

2.5 试题参数估计与应试者能力估计

IRT模型中的a,b,c参数值都不能直接测量得到,必须通过被试的反应数据进行估计求得。估计试题参数的方法主要有最大似然估计法和贝叶斯估计方法,目前比较常用的是最大似然估计法,因为贝叶斯估计方法应用到IRT模型中理论上要求对被试群体有较充分了解,考虑此考试系统的使用对象,决定使用极大似然估计法估计试题参数[10]。首先计算试题参数及能力参数初值,再设试题参数已知求能力参数值,最后设能力参数已知计算试题参数,直至满足结束条件时参数估计结束,具体流程如图6。

对应试者能力的估计有两个阶段:能力探索阶段和能力精估阶段。前5道试题是能力探索阶段,根据应试者作答结果以±0.2步长移动,如果全部答对或者答错,则采用经验公式计算能力值:θ0=(r为答对的题目数,R被测总题数)。后面的试题为能力精估阶段,利用最大似然法对应试者当前能力进行估计,最终的结果便是应试者的能力参数估计值。能力估计式如下:

其中θm+1,θm分别表示第m+1,m次迭代的能力估计值。

图6 试题参数估计流程图Fig.6 Flow chart of test question parameter estimation

3 系统测试与分析

3.1 测试环境与数据

3.1.1 测试环境

客户端:windows XP,Internet Explorer 6.0 及以上浏览器。

服务器端:windows2000服务器版,Internet Information Server 4.0。

3.1.2 测试数据

本文采用的数据来源是西南科技大学《计算机基础》2011,2012年期末考试,包含来自不同学院的112名同学在5次考试中的数据,5次考试使用5种不同试卷。利用联合极大似然估计法对试题参数进行估计[18],以此来构建题目数量为100的自适应考试题库作为实验数据集。估计出的试题b参数区间为 - 3.0~2.5 之间,a参数区间为 -3.0~ 2.5 之间,c参数区间为0.05~1.0之间,应试者能力参数估计初值均为0。

3.2 自适应考试测试结果与分析

用户登录系统后,选择相应的考试点击开始考试即可进行自适应考试,系统将根据应试者答题情况动态选择后续试题,实现因人施测,通过实验,对应试者能力估计结果如表1所示。

表1 能力估计结果评测表Table 1 Result Evaluation on the ability estimation

通过实验可知,多次测试能力估计比较稳定,项目调用均匀性较好,能够通过较短的测试长度实现对应试者较高精度的能力估计。

4 总结

以项目反应理论为基础的计算机自适应考试系统在提高考试效率的同时考察应试者实际能力水平,“因材施测”增强了考试的灵活性、提高学生参加考试的积极性,为远程教育提供了良好支撑,节约了组织考试的成本。

本系统架构于Java EE技术之上,融合了其稳定及易拓展等众多特性,不仅具有普通考试系统的试题管理等常规功能,还能对试题参数进行估计,根据应试者的作答情况选择后续试题,对应试者能力进行估计,发现学生潜质。

由于缺乏对于计算机自适应考试的公共数据集,所以本文采用的数据集为作者本人所建,由于人力、资源的限制,题库中的试题数量还有待进一步提高,题库的动态维护、知识点的组合还存在一定的不足,此外,对其它理论模型在计算机自适应考试系统中的应用研究还很少,因此,如何改进自适应考试系统模型,使系统更加完善、更准确地估计被试者能力是未来研究的重点。

[1]BOCK R D.A brief history of item response theory[J].Educational Measurement:Issues and Practice,1997,16:21-32.

[2]MEIJER R R,NERLING M L.Computerized adaptive testing:Overview and introduction[J].Applied psychologicalmeasurement,1999,23(3):187 -194.

[3]MCBRIDE JR,MARTIN JT.Reliability and validity of adaptive ability tests in amilitary setting[A].In D.J.Weiss New horizons in testing:Latent trait test theory and computerized adaptive testing[C].New York:Academic Press,1983.223-236.

[4]Weiss D J,Kingsbury G G.Application of computerized adaptive testing to educational problems[J].Journal of Educational Measurement,1984,21:361 -375.

[5]Van der Linden W J,Hambleton R.K..Handbook of Modern Item Response Theory[M].New York:Springer,1996.

[6]WAINER H,BRADLOW E T,DU Z.Item Response Theory:An Analog for the 3PL Model Useful in Adaptive Testing[A].In VAN DER LINDENW J,GLASCAW.Computerized Adaptive Testing;Theory and Practice,2001.245-270.

[7]VAN DER LINDENW J,HAMBLETON R K.Handbook ofModern Item Response Theory[M].New York:Springer.1996.

[8]Baker F B.The Basic of Item Response Theory[M].Heinemann,1986.6.

[9]王茜娟,丁树良,谭渊.按c-分层不定长CAT的研究[J].江西师范大学学报:自然科学版,2005,29(3):227-230.

[10]BAKER F B.Item Response Theory:Parameter Estimation Techniques[M].New York:Marcel Dekker Inc.,1992.

猜你喜欢

应试者题库选题
“勾股定理”优题库
How AI experts influence our decisions
指纹识别在大学生应试者身份核验中的运用
“轴对称”优题库
本刊诚征“独唱团”选题
“轴对称”优题库
“整式的乘法与因式分解”优题库
谈诗词的选题
本刊诚征“独唱团”选题
本刊诚征“独唱团”选题