APP下载

不同组卷方式下HSK(四级)题目质量比较研究

2015-06-27卢双双彭杰刘小龙

中国考试 2015年11期
关键词:区分度效度测验

卢双双 彭杰 刘小龙

不同组卷方式下HSK(四级)题目质量比较研究

卢双双 彭杰 刘小龙

本文从难度、信度、区分度和结构效度四个方面比较了人工组卷和自动组卷的HSK(四级)试卷(以下简称人工卷和自动卷)的题目质量。研究结果显示,自动卷和人工卷的题目质量较好,在结构效度的模型拟合度上,自动卷结构效度能很好规避书写1部分对阅读理解能力的考查,拟合参数好于人工卷。结果说明计算机自动组卷成功,自动卷可对考生的汉语应用能力准确测量,可用于正式考试。

HSK;自动组卷;人工组卷;题目质量

HSK考试的传统组卷方式是人工组卷,命题专家根据测验蓝图人工拼题组卷。随着计算机信息技术的发展,HSK考试的题库开始逐步建设和应用。2015年3月,HSK考试首次采用计算机题库自动组卷成功,并施测于印度尼西亚国民教育部考点的考生。为保证自动卷的试题质量,作者对自动卷和人工卷的HSK(四级)试题质量从难度、信度、区分度和效度四个方面进行了比较研究。

1 基本情况

1.1 研究材料

HSK考试共6个级别,即HSK(一级)至HSK(六级),HSK(四级)作为中间级别,分为听、读、写三部分,可作为HSK(考试)的典型代表作研究用。为减少样本差异性和时间带来的练习效应,作者选取2014年10月印尼国民教育部考点的数据用于比较研究。研究样本情况见表1。

表1 研究样本

1.2 研究方法

本文的比较分析包括自动卷和人工卷的难度、信度、区分度和效度的比较,是基于经典测量理论(CTT)的分析。

(1)难度

难度表示试题的难易程度。客观题和主观题的难度计算不同。听力、阅读为0,1计分的客观题,难度用平均通过率表示,计算公式见公式1。书写部分为主观题,难度用平均得分率表示,计算公式见公式2。通过率或得分率越高,表示难度越低,反之亦然。

其中,P代表客观题项目难度,N为考生总人数,R为通过该项目的人数。

其中,P代表主观题项目难度,为考生在某一项目上的平均得分,Xmax为该项目的满分。

(2)信度

信度表示测试结果的稳定性,常用内部一致性系数(α系数)表示,计算公式见公式3。

其中,K是题目数表示所有考生在第i题上的分数变异是测验总分的变异。

(3)区分度

区分度表示试题对考生能力的高低的区分程度。区分度常用相关法计算,客观题为0,1计分,需计算项目得分与测验总分的点二列相关系数。计算公式见公式4。书写部分为主观题,需计算项目得分与测验总分的积差相关系数。计算公式见公式5。

其中,rpb为点二列相关系数,为通过该项目的测验总分平均分,为未通过该项目的测验总分平均分,p为通过该项目的人数百分比,q为未通过该项目的考生人数百分比,St为全体考生测验总分的标准差。

其中,x为项目得分的离差,为测验总分的离差为考生人数;SX为该项目的标准差;SY为测验总分的标准差。

(4)效度

效度是评价测验有效性的最重要指标之一,反映了测验对想要测量的特质的测量程度。本文重点考查结构效度。结构效度指测验测量到的理论结构的程,分析主要采用相关分析和因子分析考查试题的模型拟合度。HSK(四级)结构(构念)见表2。

1.3 使用软件

本文主要使用MCAT,SPSS和Amos软件进行分析。

2 难度比较

自动卷和人工卷的难度值和绝对难度差值统计结果见表3。

表2 HSK(四级)结构

表3 自动卷—人工卷难度值

难度比较发现,自动卷和人工卷分测验和整体的难度值多处在0.70~0.75,其中人工卷书写部分为0.6,难度最大。两套试卷的难度差异较小,各分测验和整体的难度差值在0.15以内。具体分析,两套试卷的听力、阅读、整体的难度差值在0.03以内,书写部分难度差值为0.13,差值最大。分析显示,自动卷和人工卷难度水平无明显差异,均属于中等偏易难度。

3 信度比较

自动卷和人工卷的信度值(α系数)见表4。

表4 自动卷—人工卷信度值

结果发现,自动卷和人工卷的α系数均在0.80以上,整体信度值在0.90以上,且两套试卷的信度差值很小,均在0.05以内,可认为两套试卷考试结果可信,受随机误差影响小。

4 区分度比较

自动卷和人工卷区分度值见表5。

表5 自动卷—人工卷区分度值

结果发现,自动卷和人工卷的区分度均在0.40以上,且两者的区分度差值在0.1以内,差异很小。结果显示自动卷和人工卷的区分度良好,能区分不同能力的考生。

5 效度比较

5.1 题型相关分析

统计两套试卷不同题型间的相关,结果见表6和表7。分析发现,两套试卷不同题型间的相关显著,同时也保持一定的独立性。

5.2 探索性因子分析

用探索性因子分析对两套试卷降维分析,结果见表8和表9。结果显示,自动卷和人工卷均抽取了一个特征值大于1的因子,能解释的方差分别是63.114%、64.854%,说明整套试卷主要考查一种能力,即是汉语应用能力。

根据HSK(四级)结构(构念),用斜交旋转法提取出三个因子,考查不同题型在三个因子的因子载荷情况。结果见表10。结果发现,自动卷和人工卷的因子载荷结果与HSK(四级)的考试构念基本一致,自动卷的因子载荷结果甚至好于人工卷。自动卷中,听力3个部分在因子2上载荷最大,考查考生的汉语听力理解能力,阅读3个部分在因子1上载荷最大,考查考生的汉语阅读理解能力,书写2个部分在因子3上载荷最大,考查考生的汉语书写表达能力。除书写1部分外,人工卷的因子载荷结果与自动卷类似,书写1部分在因子1上载荷最大,同时在因子3上也有一定负荷,这说明人工卷的书写1部分对考生的书写能力和阅读理解能力均有一定的考查。

5.3 验证性因子分析

根据探索性因子分析结果,自动卷的因子载荷结果与HSK(四级)的构念一致,人工卷的书写1部分考查的内容有两种可能,一是考查书写能力,而

是同时考查阅读和书写能力。由此得到自动卷和人工卷的可能的模型有两种。

表6 自动卷题型间相关

表7 人工卷题型间相关

表8 自动卷探索性因子分析结果

表9 人工卷探索性因子分析结果

表10 自动卷—人工卷因子载荷结果

自动卷模型和人工卷模型1:

对三个模型进行验证性因子分析,三个模型拟合结果见表11。

表11 模型拟合结果

以上拟合指标显示,自动卷模型指标好于人工卷,人工卷2拟合指标好于人工卷1。结果说明,人工组卷的书写1部分对考生的阅读理解能力有一定考查,自动组卷能很好地规避这个问题,本次自动组卷成功。

6 结论

以上研究结果表明,自动卷难度与人工卷相近,属于中等偏易水平;整体信度值均在0.90以上,结果可信;两者区分度值均在0.40以上,且差值很小,区分度指标良好;两套试卷的模型拟合结果与HSK(四级)构念基本一致,自动卷的模型拟合结果好于人工卷,能避免出现书写1部分的拟合模糊。综上,自动卷和人工卷题目质量良好,将来的HSK考试中,可将自动卷用于正常考试。

[1]戴海琦,张锋,陈雪枫.心理与教育测量[M].广州:暨南大学出版社,2007:45-83.

[2]符华均,张晋军,李亚男,等.新汉语水平考试HSK(五级)效度研究[J].考试研究,2013(3).

A Comparative Study of HSK4 Test Project Quality under Two Different Test-paper Assembly Ways

LU Shuangshuang,PENG Jie&LIU Xiaolong

The article compared the project quality of HSK4 test paper assembled by content expert with automatically assembled test paper(Hereinafter referred to as“expert paper”and“automatic paper”).The project quality analysis includes the difficulty,reliability,discrimination,and the validity of projects.The results showed that both the two test papers had high project quality.In the model fitting for validity assessment,the results of automatic paper indicated that automatic paper could avoid the Writing One part’s investigation of the candidates’reading comprehension ability.Finally,the author concludes that automated test assembly program is a success. Automatic test papers can have accurate measurement of test takers’Chinese application ability and can be applied to the test in the future.

HSK;Automatically Assemble;Assembled by Expert;Project Quality

G405

A

1005-8427(2015)11-0058-6

卢双双,女,汉考国际教育科技(北京)有限公司,考务专员(北京 100088)

彭 杰,男,汉考国际教育科技(北京)有限公司,考务专员(北京 100088)

刘小龙,男,汉考国际教育科技(北京)有限公司,考务经理(北京 100088)

猜你喜欢

区分度效度测验
效度验证模式系统整合与效度研究发展策略
《广东地区儿童中医体质辨识量表》的信度和效度研究
慈善募捐规制中的国家与社会:兼论《慈善法》的效度和限度
图形推理测量指标相关性考察*
《新年大测验》大揭榜
浅观一道题的“区分度”
两个处理t测验与F测验的数学关系
利用垂直平分线的定义巧解题
你知道吗?
复杂图形测验对区分阿尔茨海默病与非痴呆的诊断效度