不同题库下定长计算机自适应测试的选题策略的研究

2020-06-23杨文清江西工业职业技术学院

数码世界 2020年5期

杨文清江西工业职业技术学院

引言

计算机化自适应测验（Computerized Adaptive Testing，CAT）是利用计算机自的能力模型的计算结果的挑选适合测试者的能力水平的来进行的。而基于GRM 模型的CAT一直以来都受到众多研究者青睐。如何在固定考试题目的考试中用尽可能少的时间而又精准的来测量出受测者的能力一直是研究者不懈努力的核心。

1 MFI 选题策略

最大Fisher 信息量选题策略（MFI）是指选题时根据被试的能力估计值，计算题库中剩余试题的Fisher 信息量，然后从中选取Fisher信息量最大的试题作为被试的下一道测试题的一种选题策略。其数学表达式为：

其中：R 为题库中尚未选中作答的试题的集合；

Ij(θ)为Fisher 信息函数；

Pj(θ)表示项目j 的被试反应函数；

P'j(θ)表示被试反应函数对能力θ的一阶导数。

2 新的选题策略

在基于Fisher 信息量的选题策略中，削弱区分度在信息量中的影响或是通过指数函数都可以达到提高项目使用的均匀性、提升题库的安全性的目的。所以，我们对于信息量函数进行指数运算，其指数值选择黄金分割比值，同时，加强对于曝光因子的影响。由此得到一个新的选题策略：

其中：L(i)为到第i 个被试为止当前被试已作答试题个数；

3 模拟实验及结果

本实验模拟出一个拥有1000 个测试项目的题库，模拟1000 个不同能力的被试参加考试。每个测试项目有设为5 个难度等级，其难度程度递增。采用两种不同的题库类型对新策略进行优劣进行分析。

本次实验采用定长测试，测验的项目数目定为24。对比中分层类的选题策略，每层选择6 个测试项目对被试进行测试，共4 层，每层的项目数之比为4：3：2：1，，对题库按区分度a 升序排序。

模拟实验中，通过能力估计准确值（ABS）、能力估计准确差(Se)、项目调用均匀性（De）、χ2检验统计、测验效率（Eff）、测试重叠率评价指标（Rt）来揭示选题策略的优劣性。

基于GRM 模型的不定长实验结果如下表：

表1 题库2:a～U[0.2,2.5]，b～U[-3,3]

表2 题库3:lna～N(0.1)，b～N(0,1)，且a ∈[0.2,2.5]，b ∈[3,3]

4 结果分析及展望

由上表可知，新策略在项目的调用的均匀性和χ2检验统计量上的有显著的改善，特别是χ2检验统计值相比其他的选题策略降低了一半，但是新策略在提高了题库的安全性的同时，测量的精度下降了。

新策略在项目调用的均匀性和χ2检验统计量上相较于传统的多级评分选题策略还是有较大的改善，并且在测量精度上虽然没有提高，但是整体的指标比较均衡等，造成这种情况主要是由于测试的长度固定，而新的选题策略对曝光因子的加强，使得信息量小的常常被选中，而项目提供的信息量越小，该测验在评价该被试能力水平时越不精确。