APP下载

基于项目反应理论的HSK自适应分级考试系统

2014-01-24王昌达张文莉

电子设计工程 2014年20期
关键词:受测者题库试卷

肖 刚,王昌达,张文莉

(江苏大学 江苏 镇江 212013)

云计算技术的发展为网络化考试带来前所未有的机遇。HSK[1]是中国汉语水平考试的缩写,是为测试母语为非汉语者的汉语水平而设立的国家级标注化考试。HSK作为国家级水平考试面向国际社会开考达十多年了,其成绩是外国留学生进入中国高等院校学习专业的必要条件,并且已经成为国内外一些机构人员选拔的一种依据。但在HSK考试中,主要还是采用传统的考试形式,即统一的纸质试卷。这种统一的试题内容,并不适用于各个层次水平的学生,无法真正考查出学生对知识的掌握程度。尽管专家们命题过程中总是尽量保持考试难度的稳定性,但不同试卷之间在难度、信度、分数分布方面的差别很难完全避免。因此,对HSK的要求也越来越高,不仅要求实现“试卷”之间的等值,甚至要求实现“试题”之间的等值。

为克服传统考试中的不足,本文提出了一种基于项目反应理论的HSK分级自适应考试系统。该系统将自适应技术、计算机技术和教育技术相结合,按国家汉办的规定,将水平等级划分为6个等级,1级最低,6级最高。同时对考生和测试基本项目的定义做了抽象与扩充,以一套试卷作为一个基本的测试项目而不是一个题目。测试过程始终围绕学生的能力进行,测试时系统自动地适应参加考试学生的情况,根据学生的能力从题库中自动获取相应级别的试题组成试卷[2-5]。该系统已在奥地利孔子学院的教学中投入运行,收到了良好的效果。2013年初,该软件得到了汉考中心的高度评价与项目资金支持。

目前该考试系统可以通过云平台在 http://42.121.136.212/index.php访问。该系统的使用目的是为参加对外学汉语学习的学生提供一个参考的学习分班等级,以及学习后的学生自我评估。该系统并非设计用于取代国家汉办的HSK分级考试。

1 项目反应理论

项目反应理论是一种关于现代心理的测量理论。它的特点是以概率来解释受测者对项目的反应和其潜在能力特质之间的关系。项目反应理论的基本思想起源于上世纪三十年代末和四十年代初,1946年塔克(TuKer)正式提出“项目特征曲线”概念。所谓项目特征曲线就是表征受测者的能力与特质水平与其对一个测验项目的正确反应概率之间关系的二维曲线图。不同的特征曲线假设对应着不同项目反应模型。

项目反应理论的模型有二十余种,可根据实际情况选择适当的模型。目前应用最广的项目反应理论模型是逻辑斯蒂模型[6]。

项目反应理论是以受测者的回答问题的情况,经项目特征函数的运算,推测受测者的能力。根据参数的不同,特征函数可分为单参数、双参数和三参数3种模式,公式如下:

其中,D是常数,值等于1.702;

θ:受测者能力值,一般在实际应用中,取值范围多取[-3.00,3.00];

a:项目的区分度,即特征曲线的斜率,它的值越大说明项目对受测者的区分程度越高。a=(H-L)/N其中H表示高分组答对题的人数;L表示低分组答对题的人数;N表示高分组与低分组人数之和。

b:题目的难度,即特征曲线在横坐标上的投影。

b=R/N,其中R表示试题的答对人数,N表示考生人数。

c:题目的猜测系数,即特征曲线的截距。它的值越大,说明不论受测者能力高低,都容易猜对。

P(θ):表示能力为θ的受测者答对此项目的概率。

基于以下两个原因,我们将选用二参数的逻辑斯蒂模型[7]。

三参数逻辑斯蒂模型中的参数C的心理测量学的含义含糊不清,而且数学上难以估计。

在能力参数估计时,二参数逻辑斯蒂模型存在充分统计量γj,

其中γj是考生在一个测试上的题目加权总分,其权重是每个题目的区分度参数aj。可以证明能力的极大似然估计量就是根据γj估计的。但三参数逻辑斯蒂模型至今未能找到能力参数估计的充分统计量,使得能力参数的估计可靠性收到怀疑。

2 HSK自适应考试系统设计

HSK自适应分级考试系统中,共有6个级别,一级水平最低,六级水平最高。而在实际应用中θ的取值一般取为[-3.00,3.00]。因此可以将θ的取值区间分为6个区间 :[-3.00,-2.00],[-2.00,-1.00],[-1.00,0],[0,1.00],[1.00,2.00],[2.00,3.00],分别对应一到六级的能力区间。当每一张试卷做完后,求出其相应的θ的极大似然估计值。并根据此极大似然估计值选出下一次考试的级别,然后随即抽取若干题目组成一套试卷,再次进行考试。测试项目的难度以及区分度分别为整套试卷题目的难度、区分度的平均值:

2.1 系统工作流程

基于项目反应理论的HSK自适应分级考试系统基本流程如图1所示。

图1 系统流程图Fig.1 Flow chartof the system

主要过程如下:

当受测者进行测试时,受测者自选开始级数,并在该级数的题库中随机抽取若干题组成一张试卷,进行作答。作答完后估计能力值。并进行终止条件判断。若满足终止条件,则测试结束,并给出该受测者最后的水平级别。若不满足终止条件则由能力的极大似然值θ判断下一个考试的级别,继续测试。

2.2 题库数据结构

教师首先将级别编号,并将隶属于某个级别的题库和题目分类在该级别下。当测试开始时抽取试题组成临时题库,并将临时题库中试题编号、题库及其题目设为关联[8-9]。

图2 系统数据结构图Fig.2 Structure diagram of the system

3 关键技术

3.1 初始能力设置

确定能力初值是指在受测者在进行测试之前,对受测者的能力值进行初始估计,一般有以下几种方法:

1)选择中等难度的试题,即假定受测者的能力为中等,在题库中随机抽取难度为中等的题目,作为测试的开始点。

2)根据历史记录确定受测者的初始能力值,受测者可能参加过测试,可以根据以前的测试记录决定此次的开始题目。

3)受测者自行选择,由受测者对自己的能力水平做初步估计,选择测试起始项目。

本系统中采用受测者自行选择,即受测者自行选择测试的起始级别,然后系统在所选级别的题库中随机抽取若干题组成一张试卷。

3.2 能力估计

对考生能力的估计是系统顺利进行的前提,本系统采用最大似然估计法[10]通过受测者的似然函数取来求测试者的能力参数,假设一位受测者在一次有n份试卷的测试中,若以表示能力为θ的受测者对试卷i的反应为ui(若及格,ui=1;若不及格ui=0)的概率。基于局部独立性的假设,上述观察到的反应模式的联合概率是每一张试卷反应概率的连乘级,即:

其中:

n:试卷数

Puii:受测者第份试卷几个的概率

Quii:受测者第份试卷及格的概率

公式 (4)称为似然函数,当似然函数取最大值时的θ值,称为θ的极大似然估计值,也就是说当考生的能力值为极大似然估计值时,考生对试题做出的反应模式的可能性最大。

根据极大似然估计的思想,求出最有可能的P值,作为P的估计值,使L能取极大值。由高等数学方法求极值可知,L(u1,u2,……,un)与 ln L(u1,u2,……,un)同时达到极值点,因此对数似然函数可简化为:

通过求式(6)便可获得参数的极大似然估计值。对改式中的θ求一阶导数并使其等于0,即:

由于式(7)是非线性方程,可用牛顿-拉夫逊(N-R)迭代法求解。

3.3 终止规则

自适应测试的一大优点是可以用较少的试题施测,达到较高的测量精度。测验是否终止是根据测验目标是否达到来决定的。主要有3种方式[11]。

1)固定测验长度,即当测验项目达到一定数量时,测验自动终止,此方法易于实现,可以对每个测验项目的使用率作精确统计,但这种算法实际上是不公平的,因为测验终止时,可能只有一部分受测者的能力估计是完成的,而且要确定一个合适的长度一般来说并不容易。

2)比较受测者能力参数最后两次的估计值,当这个值小于预先给定的数值时,测试自动终止。

3)当能力参数估计的标准差小于某一预先确定的值时,测验自动终止。这种方法具有更高的效率,能克服固定测验长度的缺点,但当估计标准差要求过严时,测验可能过长。

上述的终止方法都存在缺点,因此在系统中采用(1)、(2)结合起来使用,当测试满足任何一个条件,测试即终止。并给出最后的水平级别。在系统中根据需要设定测试项目的最大长度,从而避免了测试时间过长与效率低下的问题。

4 模型分析

以下是准考证号为602346的考生的自适应测试过程中的相关记录信息,如表1所示。

表1 602346考生的信息记录Tab.1 Information recording of 602346 candidates

1)测试开始时,考生自选3级的题目开始测试,它具有较高的区分度值。该测试通过考核,但此时的极大似然估计法无法进行能力估计。

2)其次抽取6级的试题试题进行测试,难度值和区分度都比较大,该考核未通过,该考生在两个试题的反应组型为(1,0)利用这两次抽题的已知项目参数和极大似然估计法,从而估计出该考生能力估计值为-0.21。

3)接着,根据第二次抽题的能力值从3级题库里面抽取试题。该考生通过此次考核,再估计出考生的新能力值威0.35。然后根据新的能力值再去题库抽题,以此类推。从表5.1可以看出该考生最后两次测试的能力估计值满足终止条件。因此得出该考生的HSK等级为4级。

综上所述,本文设计的系统对考生的HSK等级估计准确且测验效率高。

5 结束语

文中将项目反应理论用于HSK自适应分级考试中,提出了一种始终围绕受测者能力的考试系统。文中给出了项目反应理论的深入分析,对系统中能力初值的确定、能力估计、级别选择、终止条件做了较深的研究与具体的解决方法,并给出了系统的流程描述。该系统依托于公共云平台,目前已经在应用于奥地利格拉茨大学孔子学院的日常教学中。

[1]张萍,吴秉会.网络辅助教学:意义、问题与对策[J].黑龙江高教研究,2010(5):153-155.ZHANG Ping,WU Bing-hui.The network assisted teaching:significance,problems and countermeasures[J].Heilongjiang Researches on Higher Education,2010(5):153-155.

[2]幸涛.当前考试理论研究的进展[J].心理发展与教育,2005(z1):63-69.XIN Tao.The current progress of examination research[J].Psychological Development and Education,2005(z1):63-69.

[3]李卫东,黄河笑,郭俊文.IRT在自适应考试中的应用[J].计算机工程,2001,27(7):179-181.LIWei-dong,HUANG He-xiao,GUO Jun-wen.Application of IRT in computerized adaptive test[J].Computer Engineering,2001,27(7):179-181.

[4 Choi,Hae-Gill,Jeong,Hwa-Young.Service based E-learning system model using IRT[J].Advanced Materials Research,201 2:2155-2158.

[5]杨承青,张晋军.汉语水平考试(HSK)改革设想[J].语言文字应用,2007(3):107-112.YANG Cheng-qing,ZHANG Jing-jun.Chinese Proficiency Test(HSK)reform[J].Applied Linguistics,2007(3):107-112.

[6]詹沐清,卢荣华.论项目反应理论模型[J].科技信息,2009(15):28.78.ZHAN Mu-qing,LU Rong-hua.Item response theory Computer Adaptive[J].Science,2009.15:28.78.

[7]朱正才.大学英语四、六级考试分数等值研究[J].心理学报,2005,27(2):280-284.ZHU Zheng-cai.College English equivalent of six test scores[J].Acta Psychologica Sinica 2005,27(2):280-284.

[8]Chang,Wen-Chih,Sheng-Lin,Integrating IRT to clustering strudent’s ability with K-means[M].2009 4th International conference on Innovative Computing,Information and Control,ICICIC 2009.

[9]邵晨辉,陈玉泉,徐良贤.基于题目反应理论的机助自适应考试[J].计算机工程,2000,26(11):161-163.SHAO Chen-hui,CHEN Yu-quan,XU Nian-xian.Based on item response theory computer assisted adaptive test[J].Computer Engineering,2000,26(11):161-163.

[10]王飞.基于Agent的计算机自适应考试系统的应用 [J].南京工业大学学报:自然科学版,2003,25(6):82-86.WANG Fei,Agent-based computer adaptive testing system application [J].Journal of Nanjing University of Technology:Natural Science Edition,2003,25(6):82-86.

[11]于海霞,刘竞杰,王家琪.基于项目反应理论自适应考试系统的设计与应用[J].合肥学院学报,2010,20(3):44-48.YU Hai-xia,LIU Jing-jie,WANG Jia-qi.Based on item response theory adaptive testing system design and application[J].Journal of HefeiUniversity,2010,20(3):44-48.

猜你喜欢

受测者题库试卷
“勾股定理”优题库
怒气冲冲 或因睡不好
“轴对称”优题库
新媒体科研环境下自发式科研协同行为机制研究
投射技术在人才选拔中的应用解析
“轴对称”优题库
“整式的乘法与因式分解”优题库
Module5 A Trip Along the Three Gorges
Module5 Great People and Great Inventions of Ancient China
Module 4 Sandstorms in Asia