基于多元概化理论的中小学教师资格考试质量分析<br/>——以《综合素质》（中学）科目为例 *

基于多元概化理论的中小学教师资格考试质量分析
——以《综合素质》（中学）科目为例 *

2019-04-28杨宏博

心理与行为研究 2019年2期

杨宏博赵轩

(教育部考试中心，北京 100084)

1 问题提出

教师资格考试是衡量教师资格制度现代化和科学化的重要指标，是国家进行教师资格制度改革实践的突破口。2011年起，中小学教师资格考试作为落实《国家中长期教育改革和发展规划纲要（2010-2020年）》的改革项目，开始在浙江、湖北试点。2013年8月，教育部发布《中小学教师资格考试暂行办法》，该办法指出，中小学教师资格考试是“评价申请教师资格人员是否具备从事教师职业所必需的教育教学基本素质和能力的考试。考试包括笔试和面试两部分。笔试合格后参加面试，笔试和面试都合格者，才能申请认定教师资格证书”（教育部, 2013）。截至2017年上半年，考试已经拓展到全国28个省（市、自治区），累计笔试考生规模达到623万、面试考生规模达到246万（教育部考试中心, 2017）。

随着中小学教师资格考试的快速发展，检验教师资格考试改革的有效性，检测考试评价本身的科学性和公平性，建立科学有效的考试质量评价方式成为重要的研究课题。教师资格考试旨在区分申请人从事教师职业的基本能力和素养是否符合国家标准，对测试的测量精度有较高的要求。中小学教师资格考试包括幼儿园、小学和中学三个类别，分笔试和面试两部分。其中《综合素质》（中学）是申请中学类别教师资格的笔试公共科目，是历次考试考生人数最多的科目，2017年上半年考试人数达到28万。《综合素质》（中学）是主要考查申请人是否具备先进教育理念、良好法律意识和职业道德、具备从事教师职业的文化素养和阅读理解、语言表达等能力。从测量的角度来探究这个科目的科学性、考试内容的合理性，考察其测量信度是否具有典型的参考价值。

经典测量理论（classical test theory，CTT）是常见的用于大规模测验统计分析的测量方法，可用于分析题目的难度、区分度和测验的信度。自2011年中小学教师资格考试首次开考以来，一直采用经典测量理论的测量方法监测题目的质量（教育部考试中心，2012-2017）。CTT的优点在于能简便的对每道题目的质量进行评估，但它对测试整体情况的评估却不够理想。尽管CTT中的信度可以评估测验的整体可靠性，但此时的信度指标仅仅是一个“粗值”，并未将不同来源的误差（如评分者、被测者、题目等）加以区分（罗杰, 戴晓阳, 2016）。

概化理论（generalizability theory, GT）是在经典测量理论基础之上发展起来的现代测量理论（Brennan, 2001a）。它从宏观角度出发，立足于测验的外部效度，采取数学建模和统计调整的方法，综合分析各种变异来源（陈维, 赵守盈, 2016）。它重点探讨考生能力水平与考试题目之间的实质性关系，能够达到区分考生、评估应考者真实水平的目的，并较好地控制测评误差。概化理论的基本原理是运用实验设计的思想，分析影响测验分数差异的各项因素（如考生个体水平的差异、题目难度等），并运用方差分析的技术，分别估计各项因素对分数总变异的贡献（以方差分量作为指标）（陈维, 卢聪, 杨晓晓, 张进辅, 2016; 黎光明, 张敏强, 2017）。根据不同研究目的的需要，分别考察研究目标在分数总变异中所占的比重。测量信度的概念在概化理论中用概化系数或可靠性系数来代替（罗照盛, 郭小军, 2014; 杨志明, 张雷, 2003）。

概化理论用方差分析的方法来全面估计出各种方差成分的相对大小，并可直接比较其大小；不仅能估计出主效应，也能估计出交互作用效应，并能对各估计值的大小进行直接比较。在概化理论中，理论估出各方差成分相对大小的过程，称为概化理论的G研究（杨志明, 张雷, 2003）。在G研究的基础上，可通过实验性研究，进一步考察不同测验设计条件下的概化系数的变化状况，如试题容量变化对于概化系数的影响，从而寻找最佳能够控制误差的方法，作出最佳的设计决策，为改进测验的内容、方式方法提供有价值的信息。这一阶段称为概化理论的D研究（刘远我, 张厚粲, 1998）。

多元概化理论（multivariate generalizability theory, MGT）在概化理论的基础上，深入研究测量目标具有多个全域分数等方面的问题（如总测验可以分解为多个不同维度的分测验）。主要可应用于测试多门学科或多种能力的综合测验（杨志明, 张雷, 2003）。近些年来，基于这一理论的研究设计应用于高考、研究生考试、高等教育自学考试等大规模测验，拓展了标准化常模参照测验或标准参照测验的信度检验方式（白娟, 2014; 陈维, 何壮, 赵守盈, 2016; 关丹丹, 任子朝, 2009; 田霖,韦小满, 王桥影, 赵晓茫, 2013）。《综合素质》（中学）是考查考生多种基本素养和能力的综合性测试，根据其考试目标，可以将其分解为多个分测验，因此对其测验信度进行研究适宜采用多元概化理论的原理和方法（Brennan, 2001b）。

2 研究方法

2.1 研究目的

本研究旨在通过多元概化模型分析中小学教师资格考试《综合素质》（中学）试卷，探讨各模块及全卷的测量精度（信度），考查内容模块样本容量变化对考试信度（概化系数）的影响，分析各模块对总测验的贡献率，为试卷优化、提高命题质量提出合理化建议。

2.2 研究样本

全国参加2017年上半年中小学教师资格考试《综合素质》（中学）科目的考生人数为282 050人（教育部考试中心, 2017）。为避免评分者因素对样本数据产生影响，本研究抽取由同一批评分者批阅的2 379份试卷，该2 379名考生为全体考生中系统随机选取得到。剔除总分为零分的试卷7份，最终确认有效试卷2 372份。

2.3 测量工具

《综合素质》（中学）是中小学教师资格考试申请中学学段教师资格的必考科目，考试采用教育部考试中心组织命制的试卷，包括职业理念、教育法律法规、教师职业道德规范、文化素养、基本能力五个内容模块。题型为单项选择题、材料分析题、写作题，考查申请人的理解能力、分析能力、综合能力、表达应用能力。鉴于写作题分值较高，为保证得分的可靠性，阅卷时采用双评模式。为具体考量其误差，将写作题单独作为一个测量分项。在具体的模型设计中，将写作成绩视作两次评分成绩的合成。试卷总题量为33道，全卷满分150分。对试卷测量内容的具体描述如表 1所示。

表1内容源自《综合素质》（中学）的大纲、命题组提供的2017年上半年的试卷结构表。《综合素质》（中学）考试大纲对考试的内容及其分值比例的规定为: 职业理念13%、教育法律法规13%、教师职业道德规范13%、文化素养13%、基本能力48%。通过对比可见，2017年上半年的试卷各内容分值比例较好地符合了考试大纲的要求。

2.4 测量设计

本研究将《综合素质》（中学）考试的内容按照模块分类，设计为六内容因子的单面交叉设计（p×i多元概化模型, 其中p代表考生, i代表试题）。运用多元概化模型，完成G研究和D研究的数据统计与分析。

2.5 数据分析工具

本研究采用Brennan开发的mGENOVA软件完成多元概化理论的计算（Brennan，2001c）。

表 1 《综合素质》（中学）试卷测量内容描述

3 研究结果

3.1 六因子模型的G研究

根据理论模型，可编写一个涉及六个分测验的mGENOVA程序，分别对整个试卷及六个模块进行G研究，以估计整个测验和各个模块的测量信度。同时，利用有关信息评价各个模块对总测验的贡献程度。G研究采用p×i六因子随机单面交叉设计，可以得到各效应在六个因子上的方差和协方差变量估计矩阵，如表 2所示。其中V1表示“职业理念”模块，V2表示“教育法律法规”模块，V3表示“教师职业道德规范”模块，V4表示“文化素养”模块，V5表示“基本能力”模块，V6表示“写作能力”模块。

由表 2可知，V2和V4与其他因子的协方差分量较小，这说明考生在“教育法律法规”和“文化素养”模块中的得分高低顺序与他们在其他模块中的顺序不太一致，即这两个模块中的题目在区分考生能力方面功能较弱。在效应p上，因子V6的方差分量最大，因子V2、V3的方差分量较低，表明在本次考试中，“写作能力”模块对考生的区分能力较强，而“教育法律法规”“教师职业道德规范”模块对考生的区分能力相对较弱。

3.2 六因子模型的D研究

3.2.1 各因子全域分数估计精度

D研究采用p×i六因子随机单面交叉设计，基于G研究估计的方差与协方差矩阵，进一步估计出考生在六个因子上的全域分数及相应误差项的方差分量，进而估计概化系数与可靠性指数，如表 3所示。

表 2 各效应在六因子的方差与协方差分量估计

由表 3可知，六因子中全域分数方差分量从高到低依次为“写作能力”“基本能力”“文化素养”“职业理念”“教育法律法规”“教师职业道德规范”。考虑到各分量误差方差的因素，测量信度最高的因子是V6（可靠性指数为0.806）。结果表明本次考试中，“写作能力”模块的测量信度较高。

表 3 六因子全域分数各项指标的估计

3.2.2 全域合成分数的测量精度

本研究按照各测量分项试题量所占比例来确定权系数b，V1至V6六个因子的权系数分别是：0.147、0.235、0.147、0.265、0.147、0.059。对六因子全域分数进行合成，可以得到全域总分的方差为0.090，全域合成分数相对误差方差为0.037，全域合成分数绝对误差方差为0.106，进而可计算出全域合成分数的概化系数为0.707，可靠性系数为0.458。

可见，全域合成分数的概化系数较高。而六因子未进行全域分数合成时，各因子全域分数的概化系数及可靠性系数均较低，在全域分数合成总分后测量精度显著提高（除V6外），因此对六个分测验的分数进行合成是合理的。

3.2.3 各因子对总方差的贡献比例

为了考查六个模块对试卷总分方差的实际影响程度，可使用mGENOVA程序同时估计出各模块对考试总分方差的实际贡献率（比例），如表 4所示。

表 4 各模块方差贡献比例与试卷赋分比例的比较

由表 4可知，因子V6对总体方差的贡献比例较试卷赋分比例高，其它因子对总体方差贡献的比例较试卷赋分比例略低。总体而言，各分测验基本达到考试的预期测量目的。

3.2.4 各因子样本容量对测量信度的影响

为了改善测验方法，进一步改进测量信度，本研究考察了各因子样本容量变化对各分测验自身及试卷总分测量信度（采用总分概化系数作为信度指标）的影响情况，如表 5所示。

由表 5可知，当各因子样本容量为2倍模式时，全域总分的概化系数可增至0.828；当各因子样本容量为3倍模式时，全域总分的概化系数可增至0.878。

表 5 各因子样本容量与可靠性指数的变化关系

由于V1、V2、V3、V4、V5因子的全域分数误差方差相对较小，因此，提升这几部分的题量对整卷的概化系数的影响并不显著。而V6因子容量提升至2倍时，全域总分的概化系数可增至0.841，提升至3倍时，全域总分的概化系数可增至0.897。可见其对测量信度影响显著。

根据总分概化系数的变化情况，可以绘制出六个因子样本容量与概化系数的变化关系图，更加直观地反映出样本容量对各因子及整卷测量信度的影响，如图 1所示。

由图 1 可以看出，相对于V1～V5模块，V6样本容量的增加对试卷的测量信度影响是最大的。为进一步考察V2、V3、V4、V5模块的样本容量增加对试卷的信度影响，可将图 1的局部放大为图 2。

由图 2可以看出，在V1、V3、V5样本容量增加的情况下，这三个模块的测量精度（可靠性指数）也逐渐增加。在V2样本容量增加的情况下，这个模块的测量精度（可靠性指数）在逐渐降低。在V4样本容量增加的情况下，这个模块的测量精度（可靠性指数）降低至一定程度后，呈现缓慢回升的趋势。

4 讨论

多元概化理论的引入，为探索教师资格考试的质量评价方式提供了更多的可能性。从研究结果给我们的启示来看，多元概化理论克服了经典测量理论的缺陷，提供了有效提高信度的方案，但是仍然不能解决所有的测量误差控制问题（安哲锋, 骆方, 张厚粲, 2008）。一方面，对于试卷结构的调整，受限于考试时间的限定、考试大纲对模块分布的确定性要求，但是它提供了在现有模块结构内部的精细化调整方案，而这一结论以及后续研究的结果将对修订考试大纲、调整试卷结构和分值有重要的参考意义。另一方面，运用多元概化理论进行试卷结构分析，各模块之间的分值差异以及题型的差异也会对结果产生影响。在统一题型和各模块分值相当的情况下，其结论更有针对性。因此，多元概化理论对于研究中小学教师资格考试的质量评价有重要的意义，与经典测量理论的测量结论相结合，可以得到更为准确的试题单题质量和试卷整体质量改进方案。

中小学教师资格考试改革试点项目实施至今，已成为教师教育相关领域研究关注的重点。基于真实数据的实证化研究是今后考试项目可持续化发展的依据和支撑。以本文为例，上述研究的结论，可以应用于针对《中小学教师资格考试笔试大纲（试行）》颁布实施后修订的政策建议。这一研究方法可进一步拓展至教师资格考试的其他笔试科目，结合其他测量理论进行分析和研究，形成质量评价文本，供考试政策决策部门参考，以不断提升考试的科学化水平，维护考试的公信力。