APP下载

高考英语测试满意度与改革支持度关系研究
——基于高中英语教师视角的结构方程模型分析*①

2022-07-21

关键词:试题变量考试

张 浩

(北京师范大学 外国语言文学学院,北京,100875 )

自1977年恢复高考以来,高考英语测试在考查内容、测试形式及标准化程度等诸多方面发生了深刻变化,为促进学生发展、科学选拔人才、提高教育质量、服务国家现代化建设作出了重要贡献。(1)姜钢:《〈实施意见〉:我国新一轮高考改革的纲领性文件》,《中国考试》2017年第2期。与其他大规模高风险考试相同,高考英语测试具有涉及范围广、社会权重大的特点,其高利害性、权威性和测试结果的不可逆性决定了高考英语测试必须对利益相关者负责并对社会产生积极有益的影响。(2)Shohamy, E, “Using language tests for upgrading knowledge: The phenomenon, source and consequences”, Hong Kong Journal of Applied Linguistics, No. 5, 2000, pp. 1-18.④Bachman, L. F., “Foreword”, In L. Cheng & A. Curtis eds.,English Language Assessment and Chinese Learner, New York: Routledge, 2010, pp. x-xii.国务院于2014年9月印发的《关于深化考试招生制度改革的实施意见》明确提出进一步深化高考考试内容改革,加强我国外语能力测评体系建设,以更好地服务科学选才、助力外语教学改革、提升外语教育质量。(3)林蕙青:《深化考试招生制度改革 加强国家外语能力测评体系建设》,《中国考试》2015年第1期。《教育部考试中心事业发展“十四五”规划》(4)孙海波:《擘画高质量事业发展新蓝图 开启现代化机构建设新征程》,《中国考试》2022年第1期。、“一核四层四翼”高考评价体系的构建(5)教育部考试中心:《中国高考评价体系》,北京:人民教育出版社,2019年。及以该体系为基础的高考英语科考试内容改革实施路径的确立(6)陈康、吴泓霖、李新煜等:《基于高考评价体系的英语科考试内容改革实施路径》,《中国考试》2019年第12期。则为新时代高考英语测试内容改革奠定了坚实的基础。

高考不仅是为高校选拔人才的手段,更是教书育人全局中的关键环节。作为基础教育和高等教育的衔接机制,社会利益和公众情绪的聚合点,高考的每一项改革都牵动着整个社会的神经。(7)谢维和:《高考改革:定位、形态与变量》,《中国考试》2014年第10期。高考英语测试改革要取得成功,要办好人民满意的考试,社会对改革举措的支持至关重要。高中英语教师是高中英语教学活动的组织实施者,也是高考英语测试改革的重要推动者。因此,关注高中英语教师对高考英语测试改革的看法尤为重要。有研究人员从教师个人背景因素的角度探究了高中英语教师对高考英语测试相关改革措施的态度。(8)张浩、郭茜、张文霞:《高考英语科成绩报告改革的态度调查研究——基于一项大规模全国性调查》,《外语学刊》2018年第1期;张浩、张文霞、吴莎等:《高考英语一年两考改革的态度调查》,《中国考试》2018年第1期;张浩、吴莎、郭茜等:《高考英语计算机化改革的态度调查研究》,《基础教育》2019年第3期。但除个人背景因素外,影响高中英语教师在高考英语测试改革这一问题上所持观点的因素还有很多,从中抽丝剥茧,发现关键问题,对推动改革的动态发展具有重要意义。本研究在参考既往顾客满意度指数模型的基础上构建高考英语测试满意度—改革支持度关系模型,从满意度视角分析和探讨高中英语教师对高考英语测试改革的看法、影响因素和路径关系,以期为进一步推进高考英语测试改革提供参考和借鉴。

一、理论基础

源自市场营销领域的顾客满意度研究,从用户和消费者的角度综合评估消费结果相对于期望的实现程度。(9)Hempel, D., Laric, M. V., and Mandell, L., “Vertical performance management: Strategic implications for financial service”, Journal of Economics and Business, Vol. 34, No. 1, 1982, pp. 13-19.顾客满意度由Cardozo(1965)提出(10)Cardozo, R. N., “An experimental study of customer effort, expectation, and satisfaction”, Journal of Marketing Research, Vol. 2, No. 3, 1965, pp. 244-249.,后续发展为“顾客对产品和服务质量与其原有期望进行对比后产生的满意或失望的心理感受”(11)Churchill, G. A. and Surprenant, C., “An investigation into the determinants of customer satisfaction”, Journal of Marketing Research, Vol. 19, No. 4, 1982, pp. 491-504.。经济学及管理学研究中通常用顾客满意度指数(Customer Satisfaction Index, CSI)衡量顾客满意度,而结构方程模型则是计算CSI最常用的方法。瑞典是首个在全国范围内进行顾客满意度调查的国家,其瑞典顾客满意度指数(Sweden Customer Satisfaction Barometer, SCSB)模型包括五个潜在变量:预期质量、感知价值、顾客满意度、顾客抱怨及顾客忠诚。随后的美国顾客满意度指数(American Customer Satisfaction Index, ACSI)模型和欧洲顾客满意度指数(European Customer Satisfaction Index, ECSI)模型继承并发展了SCSB模型。我国于2002年由中国标准化研究院与清华大学联合开发的中国顾客满意度指数(China Customer Satisfaction Index, CCSI)模型则包含了品牌形象、预期质量、感知质量、感知价值、顾客满意度和顾客忠诚共六个潜在变量。

近年来,顾客满意度研究也逐渐受到招生考试领域的关注,例如厉浩等(2015)以江苏省数据为基础,构建了招生考试满意度指数模型。(12)厉浩、何建敏、佘明:《高校招生考试满意度的测度模型与实证分析》,《统计与决策》2015年第18期。申永丰、张筱燕(2016)则以ACSI为参考,建立了包含五个一级指标的高校招考工作考生满意度测评指标体系。(13)申永丰、张筱艳:《基于ACSI的高校招考工作考生满意度测评指标体系研究》,《湖北招生考试》2016年第20期。然而,针对高利害外语考试的满意度的研究较少,仅有少数研究者构建了相关考试的满意度模型。吴莎、郑宏山(2020)在全国14个省(市)的104所高校中开展了关于大学英语四六级考试的满意度调查,基于本科四年级学生和高校英语教师两个群体的数据,建立了由师生期望、质量感知、感知价值(公信力与科学性)和总体满意度构成的大学英语四六级考试满意度模型。(14)吴莎、郑宏山:《大学英语四六级考试满意度调查——基于结构方程模型的实证分析》,《中国考试》2020年第4期。

综上所述,目前关于我国外语考试满意度的大规模全国性调查相对较为缺乏,且在当前新一轮高考改革已全面启动的背景下,有必要从满意度视角对高考英语测试改革措施的支持度进行深入探究。由此,本文在参考既往顾客满意度指数模型的基础上构建高考英语测试满意度—改革支持度关系模型,以一线高中英语教师为受试群体,采用规范的问卷设计,通过结构方程模型方法对所构建模型进行验证分析,探讨模型设定的变量间的结构关系。本文的具体研究问题为:

1.高中英语教师对高考英语测试的满意度与其对改革支持度间的关系如何?对这一关系产生影响的因素有哪些?各因素之间有着怎样的路径关系?

2. 所构建的结构方程模型是否具有多组不变性?参数限制不同的模型中,哪一个为最优多组模型?

二、研究方法

(一)模型构建及研究工具

首先,本研究在借鉴以往顾客满意度指数模型的基础上选择了考试形象、预期质量、感知质量和总体满意度四个模型组成部分并初步确定了它们之间的结构关系。其次,由于顾客满意度指数模型中常用的“顾客抱怨”和“顾客忠诚”这两个顾客满意度的结果变量不适用于高考英语测试的实际情况,因而本研究使用“改革支持度”进行替换,作为高考英语测试总体满意度的结果变量纳入模型中。此外,本研究将以往顾客满意度指数模型中的“预期质量”和“感知质量”按高考英语测试整体工作流程分别细化为试题设计、考试组织管理和阅卷及成绩报告三部分加入模型中,进而初步确定了高考英语测试满意度—改革支持度关系模型的结构模型部分(见图1,箭头起始端为自变量,结尾端为因变量)。

图1 高考英语测试满意度—改革支持度关系模型(结构模型部分)

模型具体结构关系假设为(“→”表示存在显著影响力):考试形象→试题设计预期质量(H1)、考试形象→考试组织管理预期质量(H2)、考试形象→阅卷及成绩报告预期质量(H3)、考试形象→试题设计感知质量(H4)、考试形象→考试组织管理感知质量(H5)、考试形象→阅卷及成绩报告感知质量(H6)、试题设计预期质量→试题设计感知质量(H7)、考试组织管理预期质量→考试组织管理感知质量(H8)、阅卷及成绩报告预期质量→阅卷及成绩报告感知质量(H9)、试题设计预期质量→总体满意度(H10)、考试组织管理预期质量→总体满意度(H11)、阅卷及成绩报告预期质量→总体满意度(H12)、试题设计感知质量→总体满意度(H13)、考试组织管理感知质量→总体满意度(H14)、阅卷及成绩报告感知质量→总体满意度(H15)和总体满意度→改革支持度(H16)。其中,H10-H12及H16设定为负向相关关系,其他结构关系假设设定为正向相关关系。

在此结构模型的指导下,本研究结合相关文献及前期调研结果建立了各潜在变量的测量模型。首先,本研究以Bachman和Palmer(2010)提出的测试使用论证框架中的要素(15)Bachman, L. F. and Palmer, A. S., Language Assessment in Practice: Developing Language Assessments and Justifying their Use in the Real World, Oxford: Oxford University Press, 2010.为基本出发点,梳理了高考英语测试考试大纲、考试改革方案及其他相关文件和材料,并充分考虑高考英语测试利益相关群体可能的感知要素及关切,初步确定了八个潜在变量的观测变量指标。随后,通过专家组讨论及教师座谈的方式对各观测变量进行了筛选和修改,最终确定了本研究所建构模型中八个潜在变量各自的测量模型指标体系,所有测量模型均为一阶验证因子模型(见表1)。根据所确定的模型指标体系,本研究编制了包含三部分总计57道题目的调查问卷。第一部分(9道单选题)用于调查受访对象的个人信息;第二部分(47道李克特五点量表题,1为最低分,5为最高分)旨在收集本研究所建测量模型和结构模型中各观测变量的相关数据;第三部分(1道开放式问答题)方便受试对其观点及看法进行具体说明或补充,为本研究讨论量化分析结果提供质性数据支撑。

表1 测量模型指标体系

(二)数据收集

本研究以国家统计局及教育部公布的经济和教育发展相关数据为依据,采用多阶段抽样、分层抽样结合概率比例规模抽样的方法抽选安徽、北京、甘肃、河北、河南、湖北、江苏、辽宁、山东、陕西、上海、云南、浙江和重庆共14个省(市)作为样本来源地。本研究在抽选省(市)所辖范围内的各地市(区)中抽取了示范性高中2所、城区非示范性高中3-5所、县镇非示范性高中2-3所进行了数据收集工作,并确保所选学校能较好地代表本省(市)各层次学校的实际情况。若被抽选省(市)中有国家级贫困县,则从相应县区中加抽2-3所高中参与调查。由于学校间英语教师数量差异较大、教师所教年级不固定且年级间流动性较大,因此被抽选学校的所有英语教师均参加了本次调查。

(三)数据整理及分析

本研究共回收了总计12916份问卷。数据整理过程中首先对259份包含缺失数据的样本进行了成列删除,随后使用Amos 22进行马氏距离分析,发现剩余样本中有56份存在数据异常情况。在对包含异常值的样本进行成列删除后,确定本研究的有效问卷为12601份。

在所有提供有效样本的高中英语教师中,男教师占比22.8%,女教师占比77.2%;教龄12年以上的教师占比51.8%,9-12年的占比22.6%,5-8年的占比12.2%,5年以下的占比13.4%;职称为中学高级教师的占比22.7%,中学一级教师占比38.6%,中学二级教师占比33.5%,中学三级教师占比1.2%,另有4.0%的教师尚未进行职称认定;最高学历为博士的教师占比0.1%,硕士占比14.3%,本科占比81.7%,专科或专科以下占比3.9%;来自山东的教师最多,占比24.3%,其次为河南(19.11%)和江苏(12.22%)。

问卷实测整体内部一致性指标(Cronbach α系数)为.97,各潜在变量分量表的内部一致性指标也均高于.90,表明问卷具有很高的信度。(16)Nunnally, J. C. and Bernstein, I. H.,Psychometric Theory (Third Edition), New York: McGraw-Hill, 1994.各潜在变量所含观测变量间的多重共线性检验结果显示,所验各方差膨胀系数(variance inflation factor, VIF)均小于7,符合VIF值需不大于10的标准(17)Kline, R. B., Principles and Practice of Structural Equation Modeling (Fourth Edition), New York/London: The Guilford Press, 2016, p. 71., 意味着各潜在变量下的观测变量间不具有多重共线性,因此本研究所构建模型中的观测变量及相应的问卷题目均予以保留。

本研究使用Amos 22中的最大似然法进行结构方程模型分析。首先使用总体样本对各潜在变量的测量模型进行验证性因子分析,随后检验涉及潜在变量间结构关系的结构模型。最后,将总体样本的最佳拟合模型作为基准模型,使用校正样本和效度样本对该模型进行多组不变性检验并进行竞争模型优选。(21)Byrne, B. M.,Structural Equation Modeling with Amos (Third Edition), New York/London: Routledge,2016, pp. 293-307.

(四)统计评价指标

根据Ockey和Choi(2015)倡导的语言测试领域结构方程模型研究报告规范(22)Ockey, G. J. and Choi, I.,“Structural Equation Modeling reporting practices for language assessment”,Language Assessment Quarterly, Vol. 12, No. 3, 2015, pp. 305-319.,本文在汇报模型拟合效果时将报告卡方值(CMIN或χ2)及其自由度(DF)和p值、标准化残差均方根(SRMR)、比较拟合指数(CFI)和近似误差均方根(RMSEA)及其置信区间。模型接受标准为:SRMR≤.10,CFI≥.90,RMSEA≤.10且以RMSEA≤.05为佳。(23)Kline, R. B., Principles and Practice of Structural Equation Modeling (Fourth Edition), New York/London: The Guilford Press, 2016, p. 274.但以上各指标均不能单独作为模型拟合程度的评价依据,而须结合各指标进行综合判断。此外,CMIN较小且其p值不显著(如p>.05)时也可在一定程度上说明模型拟合程度良好,但由于CMIN受样本规模等因素的影响较大,因此在诸如本文的大样本研究中,CMIN及其p值的显著性可不作为判断数据与模型拟合程度的主要依据。(24)Kline, R. B., Principles and Practice of Structural Equation Modeling (Fourth Edition), New York/London: The Guilford Press, 2016, p. 271.另外,参数限制不同的模型之间的卡方值差异(ΔCMIN或Δχ2)是否显著(p<.05)和比较拟合指数差异(ΔCFI)是否小于.01是衡量模型是否具有多组不变性的重要指标,但由于ΔCMIN极易受样本规模的影响,因而应更多依据ΔCFI进行判断。(25)Cheung, G. W. and Rensvold, R. B.,“Evaluating goodness-of-fit indexes for testing measurement invariance”,Structural Equation Modeling: A Multidisciplinary Journal, Vol. 9, No. 2, 2002, pp.233-255.而竞争模型优选则需查看AIC、BCC、 ECVI及MECVI等简约性指标,以上指标越小,意味着模型的简约性和适配性越好。(26)Byrne, B. M.,Structural Equation Modeling with Amos (Third Edition), New York/London: Routledge,2016, pp. 293-307.

三、研究结果

(一)描述性统计

本研究首先对47个观测变量进行了总体样本描述性统计。一方面,结构模型中受访教师对高考英语测试的总体满意度均值为3.86,标准差为.96。测量模型部分的结果显示(见表2,N=12601),在考试形象这一测量模型下的观测变量中,均值最高的一项为“考试公平性”,最低的一项为“考试科学性”,即测试能否科学考查学生能力。另一方面,受访教师对高考英语测试各方面的预期质量普遍高于对其现状的感知质量。在试题设计预期质量这一测量模型所涉及的观测变量中,均值最高的为“试题选材多样性”,最低的为“试题难度稳定性”,而这两项也同样是试题设计感知质量下各观测变量中均值最高及最低的题项。在考试组织管理预期质量中,均值最高的为“考试纪律严明”,最低的为“信息发布及时性”,同时,这两项也是考试组织管理感知质量下均值最高和最低的一项。在阅卷及成绩报告预期质量中,“使用最新现代信息技术手段保证阅卷质量”的重要性最高,而“向学校提供学生详细成绩数据”的重要性最低。这两项也分别是阅卷及成绩报告感知质量中的均值最高和最低项。而在改革支持度下的三个观测变量中,受访教师对将听力纳入必考范围的支持度最高,对全国统一命题的支持度次之,对实行一年两考的支持度则相对较低。

(二)模型验证

1.模型拟合效果评价及修正

在对结构模型进行验证之前,首先需要对各测量模型进行验证性因子分析,并根据模型识别情况和拟合效果对模型予以评价及合理修正。检验结果显示,各测量模型均可识别,其中,分别包含三个观测变量的考试形象和改革支持度测量模型为恰好识别。从其他六个测量模型的初步拟合结果来看(见表3),各模型的CMIN值均达到显著水平(p<.001), SRMR值、CFI值及RMSEA值均达到标准范围,数据与模型的拟合效果较好。为进一步改善测量模型拟合效果,本研究在综合考虑Amos输出的模型修正信息和相关理论及实证研究结果的基础上,对相应测量模型进行了局部性调整。

表2 测量模型观测变量描述性统计

表3 各测量模型初步拟合结果

在各测量模型取得良好的拟合效果后,本研究进行了数据与结构模型的拟合检验。拟合效果显示,结构模型的CMIN值达到显著水平(CMIN=18567.420, DF=982,p<.001),SRMR值为.033,CFI值为.974,RMSEA值为.038(显著性为.90的置信区间最低值为.037,最高值为.038)。因此,从模型拟合效果指标的角度来看,总体样本与本研究初步构建的高考英语测试满意度—改革支持度关系模型的整体拟合效果良好。但路径系数显著性检验结果显示,在本研究的16个结构关系假设中,H10(试题设计预期质量→总体满意度,p=.194)、H11(考试组织管理预期质量→总体满意度,p=.085)、H12(阅卷及成绩报告预期质量→总体满意度,p=.242)和H15(阅卷及成绩报告感知质量→总体满意度,p=.229)的回归系数未达到统计学意义上的显著,因此本研究将这4条路径从结构模型中删除。同时,根据Amos提供的模型结构关系修正信息,本研究在模型中增加了5条路径关系:试题设计预期质量→改革支持度(H17)、考试组织管理预期质量→改革支持度(H18)、试题设计感知质量→改革支持度(H19)、考试组织管理感知质量→改革支持度(H20)和阅卷及成绩报告感知质量→改革支持度(H21)。其中,设定H17和H18为正向相关关系,H19-H21为负向相关关系。

图2 修正后的高考英语测试满意度—改革支持度关系模型(结构模型部分)

本研究对修正后的模型重新进行了拟合检验。结果显示,总体样本与修正后模型的拟合程度依然良好(CMIN=18501.085, DF=981,p<.001, SRMR=.031, CFI=.974, RMSEA=.038(LO 90=.037, HI 90=.038))。因此,本研究将该修正后的高考英语测试满意度—改革支持度关系模型视为总体样本的最佳拟合模型(见图2)。

2.模型解释

测量模型中的因子载荷代表潜在变量对观测变量的负载拟合情况,即潜在变量对观测变量的解释程度。从参数拟合结果来看,一方面,标准化因子载荷最高的为“考试组织管理预期质量→考试组织规范有序”(Estimate=.946,p<.001),最低的为“阅卷及成绩报告感知质量→向学校提供学生详细成绩数据”(Estimate=.779,p<.001),且所有负载均在.001水平上显著不等于0,说明各测量模型中的潜在变量对其所属观测变量均具备较强的解释力。另一方面,各观测变量的多元平方系数(squared multiple correlation, SMC)最低值为.607,说明以本研究设定的观测变量来代表各维度的潜在变量均达到了较高的信度水平。

结构模型中的路径系数反映变量间的线性关系,即变量间的直接影响程度。从参数拟合结果来看(见表4),在修正后的模型所保留的17对变量间结构关系中,除H20(考试组织管理感知质量→改革支持度)的标准化系数在.01水平上显著不等于0外(p=.008),其他结构关系标准化路径系数均在.001水平上显著不等于0,说明各自变量对相应因变量有着显著的预测力。其中,H8的影响系数最高,标准化路径系数为.835。从模型的多元平方系数来看,考试形象和考试组织管理预期质量对考试组织管理感知质量的解释力最高(SMC=.706),而相关自变量对改革支持度的解释力则相对较低,SMC值为.382。

此外,参数拟合结果还显示,H16和H19所涉及的自变量与因变量间的相关关系方向与初始假设不符。原假设为负相关关系的H16实则为正相关关系,即受访教师对高考英语测试的总体满意度越高,其对改革的支持度也越高;原假设为负相关关系的H19实则也为正相关关系,即受访教师对高考英语测试试题设计的感知质量越高,其对改革的支持度也越高。聚焦对改革支持度产生直接影响的自变量,本研究发现,对高考英语测试改革支持度高的受访教师具有以下特点:对高考英语测试试题设计和考试组织管理的预期质量高,对考试组织管理和阅卷及成绩报告的感知质量低,但对试题设计的感知质量和对高考英语测试的总体满意度高。

表4 结构模型标准化路径系数

(三)模型多组不变性检验及竞争模型优选

在以总体样本确定了最佳拟合模型后,本研究随之使用校正样本和效度样本对模型进行了多组不变性检验。Amos共构建了五个参数限制不同的模型(见表5)。分析结果显示,以无参数限制模型为基准模型,假设该模型为正确的模型,测量系数相等模型和结构系数相等模型的卡方值增加量(ΔCMIN)显著性检验的p值分别为.357和.137,均未达到统计学意义上的显著(p<.05),因而接受虚无假设。由于无参数限制模型是正确的,因而另外两个模型可视为相等模型,这证明所施加的参数等同限制对这三个模型的拟合效果没有显著影响。但结构残差相等模型和测量残差相等模型的ΔCMIN值分别为109.903(p<.001)和339.636(p<.001),说明从ΔCMIN值显著性的角度来看,结构残差相等模型和测量残差相等模型与无参数限制模型的模型拟合效果显著不同。另一方面,不同模型间比较拟合指数的差异(ΔCFI)则显示,五个模型间的ΔCFI值均小于.01,表明校正样本和效度样本与所构建模型的整体拟合效果间没有显著差异。综合两方面检验结果并考虑到ΔCMIN值易受样本规模影响的特点,本研究认为所构建的高考英语测试满意度—改革支持度关系模型具有多组不变性,意味着该模型在多组样本下的适用性良好、预测效度高。

就模型优选而言,由于本研究所构建的模型具有多组不变性,因而样本与五个参数限制不同的模型均适配。但从简约性指标的检验结果来看(见表6),结构系数相等模型的AIC值、BCC值、ECVI值和MECVI值均最小,意味着该模型的简约性最好、适配度最高、模型拟合度波动性最小。因此,结构系数相等模型是最佳且最稳定的多组模型。

表5 多组不变性检验结果

表6 竞争模型简约性指标

四、讨论

本研究在借鉴既往顾客满意度指数模型的基础上,构建了高考英语测试满意度—改革支持度关系模型。从数据与模型的拟合结果来看,模型整体拟合效果良好,各关键指标均达到了理想状态。测量关系的信度和效度均达到较高水平,模型设定的变量间的结构关系也均达到显著水平,并通过拟合得到了理论上成立且具有实际意义的参数估计值。模型多组不变性检验结果证明所构建模型在不同样本下的适用性强、复制程度高,复核效度和预测效度均较为理想,且结构系数相等模型为最佳、最稳定的多组模型。这些研究发现表明本文所构建的高考英语测试满意度—改革支持度关系模型具有良好的内在效度、内部结构显著性和外在效度,对高考英语测试满意度的概念内涵及维度进行了具体化建构,并能够有效反映高中英语教师群体对高考英语测试的满意度与他们对改革措施支持度间的影响路径和线性关系。

与考试形象相比,高中英语教师对高考英语测试的预期质量与其对测试的感知质量间的结构关系路径系数更高,且他们对试题设计和考试组织管理质量的感知与其对高考英语测试的满意度间具有显著的正向相关关系,这说明关注并尽可能达到利益相关者的期望对提升高考英语测试满意度具有重要意义。从受访教师的期待和现状质量感知的对比情况来看,高考英语测试考试组织管理事宜的重要性更高,受访教师对该方面的质量感知也最高,且期望值与实际质量感知的差值较小。相较之下,受访教师对试题设计的质量期待及感知质量评价均低于考试组织管理,但期望值与感知质量的差值较大,这一结果与Zhang(2019)对本科一年级学生群体对高考英语测试的满意度(27)Zhang, H, A Washback Study of the National Matriculation English Test in China: Test Takers’ Perspective, Unpublished Ph. D. dissertation,Tsinghua University, Beijing, China, 2019.以及吴莎、郑宏山(2020)对大学英语四六级考试满意度调查(28)吴莎、郑宏山:《大学英语四六级考试满意度调查——基于结构方程模型的实证分析》,《中国考试》2020年第4期。的研究发现一致,表明从目前国内大规模高利害英语测试的整体情况来看,考试组织管理均为利益相关者关注度高且满意度也高的部分,而进一步提升试题设计质量应被视为高考英语测试改革乃至我国外语能力测评体系建设的重点环节。

整体而言,高中英语教师群体对高考英语测试的总体满意度较高,对新一轮高考英语测试改革的具体措施也持积极态度。而从具体来看,变量间的结构关系检验结果则进一步凸显了改进高考英语测试试题设计质量对提高高考英语测试满意度和推进新一轮高考英语测试改革的关键作用。本研究初始假设H16为对高考英语测试总体满意度低的教师对改革的支持度高,而H19则假设对高考英语测试试题设计质量评价低的高中英语教师对改革的支持度高,即这两个假设均设定变量间为负相关关系。但参数拟合结果显示,受访教师对试题设计的感知质量越高,其对改革的支持度越高;对高考英语测试总体满意度越高的受访教师对改革举措的支持度也越高,且试题设计感知质量是模型中直接影响总体满意度的因素中路径系数最大的潜在变量。从本研究质性数据提供的信息来看,对高考英语测试总体满意度高和对试题设计质量评价高的教师对于目前高考英语测试在试题设计方面存在的不足和需要改进的方面有着更加深刻的认识,他们对于改革措施和方向的积极效果有着更加强烈的期待。由此可以看出,教师对新一轮高考英语测试改革的态度受其过往经验和对改革预期结果判断的影响较大,对于改革方向的肯定和改革举措的期望成为其支持进行高考英语测试改革的突显行为信念(behavioral beliefs)。(29)Ajzen, I.,Attitudes, Personality and Behavior(Second Edition), Berkshire: Open University Press, 2005.同时,这也印证了一项改革与现实需要的契合度(compatibility)越高,利益相关者对该改革的整体支持度便越高。(30)Rogers, E. M., Diffusion of Innovations (Fifth Edition), New York: Free Press, 2003.(31)Henrichsen, L. E.,Diffusion of Innovations in English Language Teaching: The ELEC Effort in Japan, 1956-1968,New York: Greenwood Press, 1989.与高中英语教师的期望相符,高考英语测试内容改革正是新一轮高考综合改革的重要组成部分。高考英语科考试内容改革实施路径以高考评价体系为理论基础,以高考选拔人才的要求和新课标为基本依据,以主题情景为考查载体,确立了由核心价值、学科素养、关键能力和必备知识构成的立体化四维内容体系(32)陈康、吴泓霖、李新煜等:《基于高考评价体系的英语科考试内容改革实施路径》,《中国考试》2019年第12期。,将有效指导高考英语科考试内容改革在全国范围内的推广,不断提升高考英语测试的试题设计质量。

需要指出的是,虽然本研究所建模型中设定的自变量对高考英语测试改革支持度有着较高且显著的预测力,但其解释力相对有限,意味着改革支持度还受其他因素的影响。这一问题从高中英语教师所反馈的质性数据中可见一斑。有的教师在详述自己不支持高考英语测试改革的原因时表示,虽然相关改革措施符合新时代高考的定位和现实需要,但自己所教学生的英语基础薄弱,能力水平与现行高考英语测试考试要求已是差距甚远,如果进一步加强对学生综合语言运用能力的考查,学生的备考压力和心理负担会成倍增加。此外,对高考英语测试成绩报告改革(33)张浩、郭茜、张文霞:《高考英语科成绩报告改革的态度调查研究——基于一项大规模全国性调查》,《外语学刊》2018年第1期。、一年两考(34)张浩、张文霞、吴莎等:《高考英语一年两考改革的态度调查》,《中国考试》2018年第1期。和计算机化改革(35)张浩、吴莎、郭茜等:《高考英语计算机化改革的态度调查研究》,《基础教育》2019年第3期。等改革方向的态度调查结果也显示,不同教师群体对改革的支持度不尽相同,而群体内部对于改革方案的态度又受相关个人背景因素的显著影响,且同一因素对不同改革举措支持度的作用效果亦有差别。由此可见,测试满意度只是探讨改革支持度影响因素的诸多视角之一。因此,为能更加准确、真实、完整地反映高考英语测试改革支持度这一复杂多维概念的全貌,还需要对改革支持度的影响机制进行更为全面、深入、科学的实证探究。

结语

本研究所提出的高考英语测试满意度—改革支持度关系模型具体化地建构了高考英语测试满意度的概念内涵及维度,数据与模型的拟合效果良好且能够较好地从满意度视角反映高中英语教师对高考英语测试改革的看法、影响因素和路径关系,研究结果为新一轮高考英语测试改革提供了有益的借鉴和参考。高考英语测试改革是一个长期、复杂、艰巨的系统工程,必须在“一核四层四翼”高考评价体系和高考英语科考试内容改革实施路径的指引下统筹推进、协调发展,才能有效促进高考英语测试更加充分地发挥其立德树人、服务选才、引导教学的核心功能,履行其公平科学评价人才、推进实现德才兼备全面发展的育人成才目标、助力完成学生学业减负增效及教育教学提质达标的历史新使命。

猜你喜欢

试题变量考试
2021年高考数学模拟试题(四)
抓住不变量解题
也谈分离变量
2019年高考数学模拟试题(五)
《陈涉世家》初三复习试题
2019届高考数学模拟试题(二)
Japanese Artificial Intelligence Robotto Take Entrance Examinations
你考试焦虑吗?
准备考试
分离变量法:常见的通性通法