APP下载

基于多元概化理论的中小学教师资格考试数学学科试卷质量分析

2018-05-11

数学教育学报 2018年2期
关键词:教师资格学科知识信度

赵 轩



基于多元概化理论的中小学教师资格考试数学学科试卷质量分析

赵 轩

(教育部考试中心,北京 100084)

中小学教师资格考试《数学学科知识与教学能力》科目,考查新入职中学数学教师所必需的学科知识与教育教学能力.应用多元概化理论对中小学教师资格考试中学数学学科试卷进行质量分析,以期为优化试卷结构、修订考试大纲提供参考依据,进而促进中学数学教师资格考试质量的提升.

中小学教师资格考试;多元概化理论;测量信度

概化理论(GT,Generalizability Theory)是在经典测量理论(CTT,Classical Test Theory)的基础之上,通过方差分析的技术研究测验信度的测验理论,可针对不同情境估计测量误差的多种来源.多元概化理论(MGT,Multivariate Generalizability Theory)在概化理论的基础之上,进一步研究测量目标在某个特定的全域之上具有多个全域分数的相关问题.这一理论被广泛应用于考试、表现性评价等诸多方面,对教师的教学评价等也有直接的帮助[1].

中小学教师资格考试是检测申请人是否具备从事教师职业所必需的教育与教学能力的水平考试[2].《中小学教师资格考试大纲(试行)》规定中学数学学科的考查内容包括学科知识、课程知识、教学知识和教学技能[3].应用多元概化理论模型对该科目试卷的测试结果进行分析,可定量比较各考查内容模块的区分度与内部一致性,并为试卷结构、各模块分数比例分配、信度等方面的研究提供理论框架.

应用多元概化理论对中小学教师资格考试中学数学学科试卷进行分析,以期为改进试卷结构、修订考试大纲,进而提高命题质量提供参考依据.

1 研究工具与研究样本

1.1 概化理论简介

概化理论是一种能够达到区分考生、评估应考者真实水平的目的,并较好地控制测评误差的现代测量理论.该理论采取数学建模和统计调整的方法,重点讨论考生能力水平与考试题目之间的实质性关系;其基本原理是运用实验设计的思想,分析与测验分数差异相关的各项因素(如考生个体水平差异、题目难度差异等),并运用方差分析的技术,以方差分量作为指标分别估计各项因素对分数总变异的影响.概化理论的一个主要功能是可以在各种限定条件下估计测验信度,并给出各因素与信度的相关性.在该理论中,测量信度的概念用概化系数或可靠性系数来代替[1].

概化理论用方差分析的方法估计各种方差成分的相对大小,并可对其大小进行直接比较;不仅能估计出主效应,也能对交互效应进行估计和直接比较.在概化理论中,通过理论计算估计各方差成分相对大小的过程,称为概化理论的G研究.

概化理论还要通过实验性研究,进一步考察不同测验设计条件下概化系数的变化状况,如试题容量变化对于概化系数的影响.从而寻找最佳的误差控制方法,作出最佳的设计决策,为改进测验的内容、方式方法等提供有价值的信息.这一阶段称为概化理论的D研究[4].D研究的研究对象和样本可设定为G研究的子集.G研究确定测量对象、测量模式并对各项因素的变异数进行总体估计,D研究建立在G研究的基础上,根据研究目的的需要,对测量对象样本容量、测量模式等进行调整,进而在调整后的特定条件下估计各种测量误差与指标,为改进测量提供信息参考.

多元概化理论在概化理论的基础上,深入研究测量目标具有多个全域分数等方面的问题(如总测验可以分解为多个不同维度的分测验).主要可应用于测试多门学科或多种能力的综合测验[1].近年来,这一理论被广泛应用于高考、研究生考试等大规模教育考试中,拓展了传统测试的信度检验方式[5-6].

1.2 研究样本说明

从参加2017年上半年中小学教师资格考试《数学学科知识与教学能力(高级中学)》科目的全部19 359名考生中随机抽取1 000名考生作为样本,有效试卷为1 000份.该科目为考查考生多种能力的综合性测试,因此对其测验信度进行研究适宜采用多元概化理论的原理和方法.多元概化理论模型相关参数的计算采用mGENOVA程序(Brennan,2001)[7].

2 研究方法

2.1 G研究设计

按照考试大纲的试卷结构,将全部试题划分为“学科知识”、“课程知识”、“教学知识”和“教学技能”4个分测验(下文中分别以V1、V2、V3、V4表示,其中V1为学科知识,V2为课程知识,V3为教学知识,V4为教学技能).全卷共17道题目,满分150分.V1包含10道题目,共61分;V2包含3道题目,共27分;V3包含2道题目,共12分;V4包含2道题目,共50分.

2.2 D研究设计

为了探讨各个分测验对于估计测验总分可靠性的贡献程度,考察了各模块样本容量变化对于各自测量信度及总分测量信度的影响情况,为优化试卷内容和结构提供了建议和参考.

3 研究结果与分析

3.1 4因子概化模型的G研究

根据G研究设计,使用mGENOVA软件计算得到考生()、试题()以及考生和试题之间的交互效应()在4因子上的方差与协方差分量的估计矩阵.如表1所示.

表1 G研究中各效应在4因子上的方差与协方差分量估计

注:主对角线上的元素为各效应在相应因子上的方差分量估计,主对角线以下元素为各效应在不同因子间协方差分量的估计,主对角线以上元素为因子间相关系数的估计.

从中可见,4因子中考生效应()方差分量最小的因子为教学知识模块(0.161 90),其次是课程知识模块(0.254 00);方差分量最大的是教学技能模块(1.365 04),其次是学科知识模块(1.106 07).这说明在此次考试中,教学知识和课程知识模块的区分作用较小,教学技能和学科知识模块的区分作用较大;其中一个原因是教学知识和课程知识模块总分值较低,教学技能和学科知识模块总分值较高.此外教学技能模块所含各小题分值较高,因此其总分值虽低于学科知识模块,但方差分量却大于学科知识模块.

此外,根据协方差分量的估计值,4因子之间的协方差分量均大于0.3,这说明不同考生在各模块中的得分顺序较一致,即整卷内部一致性与各模块题目的区分度均良好.

考生效应()反映了考生水平差异造成的成绩变异大小,试题效应()反映试题难度差异造成的成绩变异大小,而交互效应()反映考生和试题因素交互影响产生的误差,不同效应之间方差分量值不可直接比较.从表1试题效应()部分中还可看出课程知识模块由试题难度差异造成的成绩变异最大,说明该模块所含试题难度跨度相对较大.

3.2 4因子概化模型的D研究

(1)各因子全域分数估计的测量精度研究.

使用mGENOVA软件可计算考生在4个因子上全域分数与相应误差估计的方差分量,以及概化系数、可靠性系数和信噪比,结果如表2所示.

表2 全域分与相应误差在4因子上的方差分量等指标估计

从表2中可见,考虑到误差因素,概化系数(信度)最高的是学科知识部分(0.703 95),其次是教学技能部分(0.312 36),课程知识(0.158 95)和教学知识(0.092 46)部分较低.这说明此次考试对学科知识模块的测量精度较高,教学技能模块的测量精度可以接受;而课程知识和教学知识模块的测量误差较大,一个可能的原因是在这两个模块中,考生各题目得分之间的内部一致性较低.

(2)全域总分的测量精度研究.

按照各模块题量所占比重来决定权系数(见表3),对4因子全域分数进行合成,可得到全域总分与其相应误差估计的方差分量,以及全域总分的概化系数、可靠性系数和信噪比,结果见表4.

表3 D研究中4因子合成全域总分的权系数

表4 D研究合成全域总分与相应误差方差分量等指标估计

从表4中可见,全域总分的概化系数为中等水平(0.742 33);相对误差不大(0.266 39),因此相对信噪比较高(2.880 97).这说明此次考试的总体测量信度是可以接受的.

(3)各因子对总方差贡献度的研究.

用各模块全域分数与相应误差估计的方差分量,可计算出各模块对总方差的贡献度,见表5.

由表5可见,各模块对全域分数方差的贡献比例与考试大纲规定的赋分比例存在一定差距,特别是在学科知识和教学技能两个模块表现得较为突出.学科知识部分赋分比例为40.67%,方差贡献率为68.44%;教学技能部分赋分比例为33.33%,方差贡献率为14.20%.其可能原因在于学科知识部分题目容量大,且一半是客观题(6题,30分),成绩分布分散;而教学技能部分只包含两个题目,分值较大,且均为主观题,成绩分布较集中.这说明整套试卷中,学科知识部分的题目在区分考生能力上的功能最好,即试题区分度最高.因此增加这部分试题的比重,或在其它部分试题中加强对学科知识的考察,都能够提高试卷对于考生的区分能力,进而提高考试信度与区分效果.

表5 各模块方差分量对总方差贡献度与试卷赋分比例比较

(4)各因子题目容量对测量精度的影响研究.

为研究进一步提高考试测量精度的方法,研究者改变各因子所含题目数量,并观察测验信度随之产生的变化,具体结果见表6.

表6 D研究中各因子题目容量对总分概化系数的影响

从中可见,各因子样本容量增加为2倍和3倍时,测量信度将大幅提升,这说明增加考试题量可以提高考试信度,这一结论和CTT的结论是一致的.分别固定4个因子中3个因子的样本容量,变化其中一个因子的样本容量时发现,单独增加每个因子的样本容量,都会提高测量信度,但提升的幅度不同.4因子对应的提升幅度从大到小分别为:学科知识、教学技能、课程知识和教学知识,这与前文的分析是一致的.

由于受到考试时间的限制,大幅度增加题量是不现实的,不具可操作性.但仍可通过其他技术手段达到同样效果,如适当增加题量,小题增加中间分,大题拆分题目分数、增加得分点等方式.可以此来增加整卷的分数档,从而提高试卷的信度与区分效果.

4 研究结论与思考

应用多元概化理论对中小学教师资格考试《数学学科知识与教学能力》科目试卷进行分析,得到如下结论:

(1)试卷全域概化系数为0.742 33,属于中等水平,相对误差不大,各部分试题区分度良好,试题试卷整体质量较高.

(2)各部分试题的方差贡献度与考试大纲赋分比例基本相符,说明现有试卷结构较合理,考试基本达到了大纲设计的考查目的.

(3)学科知识、课程知识、教学知识和教学技能4个模块中,学科知识模块对于总方差的贡献度最高,且增加学科知识模块的题目容量对于测量信度的提升最大.因此,在考试时间和总题量不变的前提下,可通过适当增加学科知识部分考核比重的方式来实现进一步提高考试测量信度的目的.

(4)各模块题量均与测验信度正相关,因此可采取适当增加题量,小题增加中间分,大题拆分题目分数、增加得分点等技术手段提高试卷的信度与区分效果.

多元概化理论的引入,为探索教师资格考试的质量评价方式提供了更多的可能性.从研究结果来看,一方面,对于试卷结构的调整,虽受限于考试时间、考试大纲对试题分数分布等确定性要求,但多元概化理论对试卷的质量分析结果提供了在现有结构下的精细化调整方案.另一方面,运用多元概化理论进行试卷结构分析,在统一题型和各模块分值的前提情况下,其结论更有针对性.因此,多元概化理论对于研究中小学教师资格考试的质量评价有重要的意义,与经典测量理论的评价结果相结合,可以得到更为准确的试题单题质量和试卷整体质量改进方案.

总之,通过引入多元概化理论对教师资格考试的试卷质量进行分析和评测,可以为今后完善考核内容,调整试卷结构,修订考试大纲提供参考,为改进试题试卷质量提供依据.进一步加强概化理论等基于真实数据的实证性研究,对于提升考试的科学化水平,支撑考试的可持续化发展具有重要意义.

[1] 杨志明,张雷.测评的概化理论及其应用[M].北京:教育科学出版社,2003.

[2] 余仁胜,赵轩.中小学教师资格考试测试结果的统计分析研究[J].中国考试,2015(1):32-39.

[3] 中华人民共和国教育部.中小学教师资格考试笔试大纲(试行)[EB/OL].(2017-05-18)[2017-06-20].http://ntce. neea.edu.cn/html1/report/1508/369-1.htm.

[4] 刘远我,张厚粲.概化理论在作文评分中的应用研究[J].心理学报,1998,30(2):211-218.

[5] 关丹丹,任子朝.应用概化理论评价课标后高考数学试卷[J].数学通报,2009,48(11):18-24.

[6] 白娟.基于多元概化理论的全国硕士研究生中医综合考试质量分析[J].天津中医药大学学报,2014(2):44-46.

[7] BRENNAN R L. Generalizability theory [M]. New York: Springer-Verlag, 2001: 55.

[8] 赵轩.注重能力考查,推动专业化建设——中学数学教师资格考试目标要求和试题特点及测评情况分析[J].数学教育学报,2016,25(6):7-9.

Quality Analysis in Math Subject of National Teacher Certification Examination Based on Multivariate Generalizability Theory

ZHAO Xuan

(National Education Examinations Authority, Beijing 100084, China)

“Subject knowledge and teaching ability of Math”, which was one subject of National Teacher Certification Examination, mainly focused on the basic quality of subject knowledge, and education and teaching ability of new middle school Math teachers. This manuscript applied the Multivariate Generalizability Theory to Math subject of National Teacher Certification Examination for quality analysis, aimed to provide the reference quantified data to improve the structure of examination and modify the examination syllabus, and then promote the quality of middle school Math Teacher Certification Examination.

national teacher certification examination; multivariate generalizability theory; test reliability

[责任编校:周学智]

2017–10–28

赵轩(1983—),男,北京人,助理研究员,主要从事考试研究与数学教育测量研究.

G424.74

A

1004–9894(2018)02–0038–03

赵轩.基于多元概化理论的中小学教师资格考试数学学科试卷质量分析[J].数学教育学报,2018,27(2):38-40.

猜你喜欢

教师资格学科知识信度
高校图书馆学科化知识服务模式研究
《广东地区儿童中医体质辨识量表》的信度和效度研究
品读
湖南省2021年教师资格认定时间确定
中小学教师资格考试在即
学校德育要植根于学科知识的意蕴之中
陕西:中小学教师资格考试与认定分离
科技成果评价的信度分析及模型优化
基于本体的学科知识门户语义服务机制研究
耳鸣残疾问卷中文版的信度和效度检验及其临床应用