Logistic加权模型的理论构建与模拟分析*

2016-02-01简小珠戴步云戴海琦

心理学报 2016年12期

关键词：记分参数估计测验

简小珠戴步云戴海琦

(1井冈山大学教育学院, 江西吉安 343009)

(2江西师范大学心理学院, 江西省心理与认知科学重点实验室, 南昌 330022)

1 前言

1.1 以往的多级记分模型

1.2 多级记分试题的试题属性

多级记分试题的试题属性主要表现为：(1)用试题满分值来表达试题知识考查重要性程度的加权作用; (2)用平均得分比例来表达被试群体在多级记分试题上的平均难度。

第一个属性：试题考查重要性程度加权作用。从测验设计来看, 多级记分试题的赋分基本思想：给予某一道试题赋予更大的分数权重, 是为了增大该试题在整份测验中的分数权重比例, 以反映所考查知识与能力的重要性。正如教学内容、测验内容具有难点与重点, 试题也具有难易程度与考查重要性这两个属性。因此, 反映在IRT模型上应使用不同的参数来表达多级记分试题的难度、重要性。试题难易程度是通过难度来体现, 而试题所测量内容的重要性则需通过分数权重, 即权重参数来表达。试题所测量内容重要性可通过该试题满分值、或该试题所在内容模块总分在整份测验总分的比重来体现。本文提出的Logistic加权模型将包含权重参数。

第二个属性：试题的平均难度。被试群体在多级记分试题上的得分为：得1分及以上的人数比例最大, 得2分及以上的人数比例依次减小, 依此类推, 得满分的被试人数比例最小。多级记分题的评分点结构、评分等级相对复杂, 为简化认识, 可使用平均难度表达被试群体在多级记分试题上的得分比例, 也就是说, 计算被试群体在多级记分试题上的平均得分, 并除以该试题满分值得到平均得分比例

, 即平均难度。

1.3 GRM在多级记分试题上应用的不足

GRM在多级记分试题上应用的不足：第一,GRM下多级记分试题的项目信息量并不是两级记分试题的倍数。分别计算一道满分为5分, 区分度为1, 难度参数分别为−1, −0.5, 0.0, 0.5, 1的多级记分试题, 和一道区分度为1, 难度为0.0的两级记分试题的项目信息量, 发现该多级记分试题的项目信息量在能力量尺的各个点上都仅仅比两级记分试题多0.1～0.2。第二, GRM有时无法适合实际情境,(1)如果最后一个等级得分的被试太少, 会严重影响难度参数的估计(Embretson & Reise, 2000)。(2)评分为非连续时, 比如在英语测验中词汇题每题1分, 阅读理解每题2分(答对给2分, 答错给0分,无中间得分), 在GRM下无法进行参数估计。

2 Logistic加权模型的构建思想

2.1 Logistic加权模型的平均难度参数

以往GRM等多级记分模型是建立两级记分Logistic模型的基础上, 用

道不同难度的两级记分试题的难度参数表示一道满分为

的多级记分试题的难度参数(Embretson & Reise, 2000)。Logistic加权模型也以两级记分Logistic模型为基础, 依据多级记分试题的分数加权作用, 用

道难度相同的两级记分试题的试题难度来描述一道满分为

的多级记分试题的平均难度, 具体为：(1)用

道难度值相同的两级记分试题的难度

表示为该道多级记分试题的平均难度, 即用一个难度参数

表示多级记分试题的平均难度; (2)用试题满分

来表示试题的权重参数, 以反映该试题考查知识的重要性程度。在Logistic加权模型下, 多级记分题的平均难度参数的参数含义与两级记分试题的难度参数含义相似, 含义为：当被试在某一多级记分题上的得分为中间得分及以下的期望概率累加和为0.5时, 此时该被试的能力估计值即是该多级记分题的平均难度参数。

2.2 Logistic加权模型的项目特征函数推导

在两级记分试题时, 被试在中等难度试题上得分为1的作答情况为：在能力量尺低端, 低能力被试群体中答对此题的人数比例较小, 在能力量尺高端, 高能力被试群体中答对此题的人数比例大, 此时曲线呈单调上升趋势, 其曲线描述为图1中得分为1的曲线; 同时图1也描述了得分为0时项目特征曲线：在能力量尺低端, 低能力被试群体中答错此题的人数比例较大; 在能力量尺高端, 高能力被试群体中答错此题的人数比例小, 此时曲线呈单调下降趋势。由图1也可描绘为

和

分以上的正确作答比例曲线图, 为图2。Baker和Kim (2004)描绘两级记分试题项目特征曲线时也是用这两种方式。

图1 两级记分题的项目特征曲线(恰得u分)

图2 两级记分题的项目特征曲线(得u分及以上)

图3 多级记分题的项目特征曲线(恰得u分)

图4 多级记分题项目特征曲线(得u分及以上)

Logistic加权模型表示

和

分以上的概率

3 模拟研究与实测数据分析

3.1 Logistic加权模型的参数估计

Logistic加权模型增加了权重参数即试题满分值, 试题满分值是在命题时确定, 有一定的主观性,但测验设计者需根据心理测验设计蓝图(或教学大纲), 及测验编制经验规律来确定试题满分值, 因此试题满分值可看成是人们对试题分数权重共同认识的间接反映, 可作为Logistic加权模型的权重参数, 且不需要进行估计。

Logistic加权模型可使用边际极大似然估计EM算法(Bock & Aitkin, 1981)估算出两级和多级记分试题的区分度、平均难度参数。根据全体被试的作答矩阵建立似然函数：

3.2 模拟研究与讨论分析

以往两级记分模型的模拟研究已经论证了题量、被试量、试题难度分布会影响到测验模拟结果(吴佳儒, 陈柏熹, 2008; 朱隆尹, 丁树良, 涂冬波,卢震辉, 2009)。这里探讨Logistic加权模型下, 被试数量、试题满分值这两个因素对测验模拟返真性能的影响。

测验模拟设计为：被试数量分1000、5000; 试题满分值分2, 3, 4, 5, 多个满分值混合五种情况,测验总分100分, 模拟重复50次。测验模拟所得的模拟返真性能结果如表1。

由表1, (1)被试数量对模拟结果的影响, 被试5000的各个测验情境下ABS、RMSE, 比被试1000时的ABS、RMSE都要稍微小一些。在被试5000的各个情境下, Bias值都比较小, 表明偏差很小。相对于被试1000时, 被试5000时的各种题量下的Bias更接近0。(2)试题满分值对模拟结果的影响。在被试5000或1000时, 当满分值从2到3, 4, 5分时, 试题区分度、难度的ABS、RMSE, 无明显的变大或变小趋势, 而且都在0.09以内波动, 说明试题满分值大小对测验模拟返真性能几乎没有影响。总之, 在各情境下Logistic加权模型的测验模拟返真性能良好。

表1 被试得分为连续时的模拟结果

本文还进行了评分为非连续时的测验模拟, 发现模拟返真性能也相对良好。

将表1与以往两级记分模型的模拟研究结果比较(朱玮, 丁树良, 陈小攀, 2006; 吴佳儒, 陈柏熹,2008), 发现本文的模拟返真性能结果与其他研究者的模拟返真性能结果很相近, 这也说明本文的测验模拟返真性能良好。

3.3 实测数据分析

4 结论

试题难度、试题考查重要性程度加权是多级记分试题的两个基本属性。依据多级记分试题在测验设计时的分数加权作用, 本文提出了Logistic加权模型并论述了其构建思想, 同时推导了Logistic加权模型的项目参数估计EM算法并编写了相应的程序。在Logistic加权模型下进行测验模拟并进行项目参数估计, 发现项目参数估计的模拟返真性能良好。Logistic加权模型适合需要体现分数权重作用的教育成就测验、智力测验等, 而使用多个分数等级评定的人格测验往往试题都是相同等级, 适合使用GRM。

Baker, F. B., & Kim, S. H. (2004).

Item response theory: Parameter estimation techniques

(2nd ed.). New York: Marcel Dekker, Inc.Bock, R. D., & Aitkin, M. (1981). Marginal maximum likelihood estimation of item parameters: An application of a EM algorithm.

Psychometrika, 46

, 443–459.Du, W. J. (2006). Information of IRT multilevel item.

Acta Psychologica Sinica, 38

(1), 135–144.[杜文久. (2006). 项目反应理论框架下多级评分项目的信息函数.

心理学报, 38

(1), 135–144.]Embretson, S. E., & Reise, S. P. (2000).

Item response theory for psychologists.

Mahwah, NJ: Lawrence Erlbaum Associates.Qi, S. Q., Dai, H. Q., & Ding, S. L. (2002).

Principles of modern educational and psychological measurement.

Beijing, China:Higher Education Press.[漆书青, 戴海崎, 丁树良. (2002).

现代教育与心理测量学原理.

北京: 高等教育出版社]Samejima, F. (1969). Estimation of latent ability using a response pattern of graded scores.

Psychometrika Monograph Supplement, 34

(4), 100–114.van der Linden, W. J., & Hambleton, R. K. (Eds.). (1997).

Handbook of mo dern it em re sponse th eory

. New York:Springer.Wu, G. R., & Chen, B. X. (2008, November).

The influences of the sample sizes and ability distributions on the item and trait parameters measurement accuracy

. Paper presented at the meeting of the 8th cross–strait conference on psychological and educational testing, Kunming, Yunnan.[吴佳儒, 陈柏熹. (2008, 11).

受试者人数及能力分布型态对试题与能力参数估计的影响

. 第八届海峡两岸心理与教育测验学术研讨会, 云南, 昆明.]Xiao, H. M., Du, W. J., & Zhang, T. T. (2011). Deriving polytomous scoring models based on item node.

Acta Psy chologica Sinica, 43

(12), 1462–1467.[肖涵敏, 杜文久, 张婷婷. (2011). 基于项目节点的多级评分模型的统一.

心理学报, 43

(12), 1462–1467.]Zhu, L. Y., Ding, S. L., Tu, D. B., & Lu, Z. H. (2009). Comparison among parameter estimation methods based on small sample under item response theory.

Psychological Exploration,29

(5), 72–76.[朱隆尹, 丁树良, 涂冬波, 卢震辉. (2009). 基于小样本容量的IRT参数估计方法比较研究.

心理学探新, 29

(5),72–76.]Zhu, W., Ding, S. L., & Chen, X. P. (2006). Minimum chisquare/EM estimation under IRT.

Acta Psychologica Sinica,38

(3), 453–460.[朱玮, 丁树良, 陈小攀. (2006). IRT中最小化χ/EM参数估计方法.

心理学报, 38

(3), 453–460.]