对基于项目反映理论的计算机自适应测试方法的再思考
2013-03-16刘培艳王淑琴
刘培艳,王淑琴
(天津师范大学 计算机与信息工程学院,天津 300387)
计算机与自动化技术研究
对基于项目反映理论的计算机自适应测试方法的再思考
刘培艳,王淑琴
(天津师范大学 计算机与信息工程学院,天津 300387)
以项目反应理论IRT(Item Response Theory)为基础,介绍项目反应理论IRT的特点,以及基于项目反应理论IRT的计算机自适应测试的工作原理,并在此基础上总结了起点选择的方法,提出了测试流程两步制的改进方案,通过对测试流程的改进,大大减少了与被试能力值相差较远的测试项目,缩短了测试时间和计算量,同时能准确地估计被试能力值。
项目反应理论;计算机自适应测试;个性化学习
在传统教育中,大多采用统一的基于纸笔的考试形式,使用统一的试题内容,并不适用于不同层次和不同学习风格的学习者,很难真正考察出学习者对知识的掌握程度,与此同时,固定的考试时间,考试地点也降低了考试的效率[1]。针对传统考试的不足,在个性化学习系统中,采用了基于计算机自适应考试(Computerized Adaptive Testing,CAT)理论的考试系统,作为检验学生学习情况的辅助工具。计算机自适应测试是建构在项目反应理论(IRT)的基础上的一种考试形式。在自适应考试系统中,测试过程依据设定的参数,以学生的能力为中心进行,系统将会根据学生的回答自动地去适应参加测试学生的答题情况,根据学生的能力从题库中自动选择难度与答题者相适应的试题,考试时间也根据学生的答题情况随时进行调整。这种考试,具有很强的针对性,不但突出了学生的主体地位,满足学习的个性化需求,并且提高了考试的效率和成绩的可信度,能给予学生更加准确的评价,也给教师实施个性化教学提供了很好的参考与评价指标。
1 项目反应理论(IRT)原理简介
项目反应理论(Item Response Theory,IRT)即IRT理论又被称为题目反应理论或者潜在特质理论,它是在反对和克服传统的测量理论即经典测验理论(CTT)的不足之中发展起来的一种现代测量理论[2]。
1.1 项目反应理论的三条基本假设
IRT假设被试对测验的反应受某种心理特质(因其无法直接测量,称为潜在特质)支配。项目反应理论假设被试对项目的反应能体现他的潜在特质(Baker, 2001)[3]。因此它和心理学中关于潜在特质的相关理论有关。IRT根据被试者对测试项的回答情况,运用项目特征函数进行运算,并以此来推测被试者的能力。IRT有三条基本假设[4]:
(1)潜在特质空间的单维性假设。单维性假设也叫一围性假设,是指组成某个测验的所有测试项都是测量同一潜在特质。它认为只有一种潜在的特质在考生对项目的反应中起决定作用,因此测验过程只针对被试的某一种能力(如计算能力)进行测量,而可以忽略其他能力(如阅读能力)对测验结果的影响。
(2)局部独立性假设。被试者对测验中不同项目的反应在统计上应该是互相独立的。也就是说,被试者在测验中对某个项目的反应正确与否不受其他项目反应正确与否的影响,即考生对某个项目反应正确概率不依赖于他在其他项目上的正确反应概率,只和被试的潜在特质及项目与被试的适应程度有关。同时,测试项目的难易程度不会影响被试潜在能力,换言之,不同难度的测试项通过计算机自适应测试都能准确测量出同一被试的同一潜在能力。因此,这种测试能准确得到被试的潜在能力。
(3)项目特征曲线假设。即反应函数关系的图像,它利用函数关系将被试对测验项目所作反应的概率与被试的潜在能力之间建立联系,使其遵循一定的函数关系,这种函数关系可以用项目特征曲线表示出来,见图1[5]。
图1 项目特征曲线图(即反应概率与潜在能力关系图)
其中横坐标θ表示被试的能力水平,纵坐标p(θ)表示被试做出正确反应的概率。项目区分度a,是指测试项在多大程度上能够区分被试的潜在能力,即项目对能力高的被试和能力低的被试的区分程度,在曲线图中表示为曲线拐点处的斜率,斜率越大曲线就越陡峭,p(θ)就会有越大程度的变化,题目的鉴别能力也就越强。项目难度b,表示题目的难易程度,即项目答对概率p(θ)所对应的能力参数θ值,即特征曲线在横坐标上的投影,当p(θ)=0.5时,也就是曲线斜率达最大时b=0,表示项目的难度适中,能适应大多数被试的能力。项目猜测参数c(即特征曲线的截距),它是在选择题或是非判断题这种项目中,表示被试的猜测在正确回答项目时所占的概率,其值越大,表示无论被试的能力高低,均有可能对项目做出正确反应。
1.2 项目反应理论的参数模型
项目反应理论是根据被试对项目的反应情况,经题目特征函数的运算,得出被试的能力。根据选择参数数目的不同,函数可分为单参数、双参数和三参数三种模式,公式如下:
其中:D=1.702,θ:被试能力值。
a:题目的区分度,a=(H-L)/N,将所有参加测试的被试者用N表示,其中总分最高的27%为高分组,用H表示高分组答对该题的人数;总分最低的27%为低分组,L表示低分组答该题的人数。
b:题目的难度,b=R/N,其中R表示试题的答对人数,N表示考生总数。
c:题目的猜测系数,它的值越大,说明不论受测者能力高低,都容易猜对该题[5]。
2 计算机自适应测试的改进及应用
项目反应理论在实际应用中也有很大的价值。首先,在题库的建设方面,项目反应理论把测试项信息函数作为技术参数存入题库,这样既提高了题库参数的完备性又增加了题库管理的可控性。其次,在常模参照测验(normreferenced testing)的编制上,项目反应理论预先规定在特质量表上所有值的最大允许误差,然后利用公式求出所有水平值上的最小允许信息量,形成一个信息函数,这样用较少的测试项目便能达到不超过允许误差的要求,提高了测验的效率。再次,在标准参照测验(criterion-referenced testing)的编制方面,项目反应理论在备有题库条件下组拼标准参照测验可以比较理想地实现准确划定合格的分数线的同时降低对被试合格与不合格的误判率。颜杰群在项目反应理论在计算机自适应题库建设中的应用中提到计算机化自适应测验(computerized adaptive testing,CAT)的编制是项目反应理论最有特色的应用[6]。文章主要对项目反应理论在计算机自适应测试方面的应用进行介绍,并对其流程进行优化与改进。
2.1 计算机自适应测试原理
CAT所依据的基本思想是:只有当项目难度跟被试能力相适应时,项目所提供的信息函数量才最大,才能最大程度的调动考生考试的积极性,测试出现的误差最小,测试效果也就最理想。因此,要通过一系列的过程选择与被试者潜在能力最接近的项目来对被试者进行测试。对项目的选择一般采取如下策略进行:
(1)选择一个项目作为初始项目进行测试;
(2)根据测试者对项目的反应,初步计算被试者的能力值;
(3)判断测试是否终止,若终止,则对被试者能力值作出判断,并输出;否则根据被试者对项目的反应,选择下一步测试项目(即,如果被试者答对此项目,则进入更高难度的项目测试;反之则进入更低一级难度的项目测试),返回步骤(2)。
其具体流程如图2[7]所示:
图2 计算机自适应工作原理
2.2 改进的计算机自适应测试流程
2.2.1 起点的选择问题
测试开始时要选择初始试题,即测试的第一个项目。虽然初始项目的选择不是计算机自适应测试的主要目的,但是CAT测试应尽量减少测试项目量,尤其是一些与被试者能力值相差甚远的项目,因此,选择一个合适的起点将有助于系统的优化和目标的实现。一般采用的方法是选择中间难度的项目作为起点;另一种方法是从各知识点中抽取一套难度适中的试题对被试者进行测试,根据被试者的答题情况初步估计考生的能力值,根据估计的能力值选择起点,但这种方法比较复杂,给测试过程增加了麻烦;还有一种方法是利用被试者的背景材料,如职业、文化水平和性格等对其能力水平先做一粗略的估计,然后根据估计的值选择一个适当的测试项目作为起点;此外,还有些学者提倡被试者自行决定测试起点,即依据自己对知识的掌握情况决定测试的起点,开始测试。
2.2.2 起点选择完成后如何尽快寻找到最适合被试者的项目
在这里,笔者采用第一种选择起点的方法进行项目的选择,并对整个测试的过程进行改动,形成新的计算机自适应测试流程,即选择中间难度的项目作为起点,如果回答正确则向更高级别的项目前进两步,同理,如果回答错误,则向更低级别的项目后退两步,如此进行下去,直到流程出现回调为止(即W->W->W…->R或R->R->R…->W)再进行原流程中的测试,简而言之,就是将测试的初始步设为二,当项目难度逐渐接近被试者能力值时,再将测试步骤调整为一,具体流程如图3所示。
图3 改进的计算机自适应测试流程图
2.2.3 测试的终止条件
基于IRT的CAT终止条件一般有以下几种:最简单的是固定测试长度,即测试达到一定的项目数即终止,但这样不仅很难确定测试的长度,也会造成测试结果的不准确;另一种方法预先设定一个估计误差,当测试能力值的标准差小于这一估计误差时,测试结束;第三种方法也需要预先设定一估计值,然后比较被试者能力值的连续两次估计值,当这两值之差小于预先设定的值时,测试终止。
3 结束语
计算机自适应考试有很多传统考试不能比拟的优点,其灵活性与针对性大大提高了考试的效率。本文在项目反应理论的基础上分析了计算机自适应考试的工作原理,并对其中一种工作流程进行改进,旨在减少与被试者能力相差较大的测试项目,以减少测试时间,同时准确估计被试者的能力值,大大减少信息量的计算,提高测试效率。
[1] 王晓华,文剑冰.项目反应理论在教育考试命题质量评价中的应用[J].教育科学,2010(6):20-26.
[2] 一帆.项目反应理论[J].教育测量与评价(理论版),2009 (8):46.
[3] Frank B Baker. The Basics of Item Response Theory[C]. RIC Clearinghouse on Assessment and Evaluation, College Park, MD. 2001.
[4] 黄建丹.项目反应理论简介[J].理论研究,2011(17):271-272.
[5] 朱靖华,李丽娟.基于项目反应理论的计算机自适应考试系统的研究[J].科学技术与工程,2008(7):1828-1830.
[6] 颜杰群.项目反应理论在计算机自适应题库建设中的应用[J].齐齐哈尔大学学报,2011(9):24-26.
[7] 高怀勇,金桂林.项目反应理论及其在计算机自适应测试中的应用[J].西华师范大学学报,2008(1):84-88.
(责任编辑、校对:田敬军)
Rethinking on the Process of Computer Adaptive Test Based on Item Response Theory
LIU Pei-yan, WANG Shu-qin
(College of Computer and Information Engineering, Tianjin Normal University, Tianjin 300387, China)
Based on the Item Response Theory, this paper introduces the characteristics of the Item Response Theory, and the principle of computer adaptive test based on the Item Response Theory. On the basis of them, author summed up the methods of choosing a starting point, and proposed a two-step system test process improvement program. Through the improvement of test process, the system has reduced the items which are far behind when compared with the examinee’s ability index, and shorten the test time and computations, however, the examinee’s ability index could accurately estimated.
item response theory; computer adaptive; individual study
TP391.76
A
1009-9115(2013)02-0044-03
10.3969/j.issn.1009-9115.2013.02.015
2012-11-20
刘培艳(1987-),女,河北沧州人,硕士研究生,研究方向为机器学习,计算机辅助教育。