高校学生评教的有效性及其影响因素
——基于L 大学2 139 门课程学生评教数据的分析①
2022-06-13包水梅陈嘉诚
包水梅,陈嘉诚
(兰州大学,甘肃 兰州 730000)
一、问题的提出
学生评教是我国高校教学质量保障的基本制度[1]。对学生评教有效性进行系统分析,既关系到学生评教作为教育治理工具存在的合法性与价值性,又关系到一流本科教育目标的达成。当前,国内外关于高校学生评教有效性的研究主要围绕学生评教的有效性检测及影响因素两个方面展开。关于学生评教的有效性检测,国外主要是通过检测学生评教的信度来体现有效性水平,如莫利(Morley)和克莱森(Clayson)借助评分者信度法,以同一课程中不同学生间评教结果的一致性程度来体现学生评教的有效性水平[2-3];国内则习惯以理论反思的方式判断学生评教的有效性,如赵德成基于大学生学习的视角,认为学生评教的结果会比同行评价、督导评价更可靠[4]。关于学生评教的影响因素,国外多以定量分析为主,如丹尼拉(Daniela)等人运用多层交叉分类统计模型和方差组分法发现学生与教师的契合程度会对评教结果产生显著影响[5];国内研究以定性分析为主,多是一般性地论述影响学生评教结果的因素,如教师职称、学生成绩、课程类型等[6];目前只有周继良等个别研究者通过自编的高校学生评教行为偏差及影响因素调查问卷,以量化研究方法探讨了学生评教制度设计、院系干预与教师干预对学生评教结果造成的偏差[7]。总体上,在我国基于学生评教大样本数据,运用实证研究方法探讨学生评教有效性的研究还有待进一步加强。
本研究聚焦于“高校学生评教的有效性如何?”这一核心问题,以L 大学学生评教数据为样本,运用指标一致性、重测信度、评分者信度等信度检验方法,借助于SPSS 26.0软件,检验学生评教有效性水平,在此基础上分析影响学生评教结果的主要因素,以期提升学生评教的有效性。
二、研究设计
(一)理论基础与分析框架
明确学生评教有效性的维度结构和判断依据,是对学生评教有效性进行客观诊断的前提。学生评教从本质上看是高校进行教学管理的一种制度安排,要构建学生评教有效性的分析框架,关键是理解“有效性”和“制度有效性”的内涵。“有效性”同质量一样,是一个中性的概念,英文中对应validity 和effectiveness,分别指“正确性”和“效力”。相应地,国内外关于“制度有效性”的理解基本也包括这两个层面:“制度有效性”不仅意味着制度本身的科学、合理性,还依赖于其实际的实施效果[8-9]。判断标准有两个方面:一是制度设计的科学规范性与制度结果的真实可靠性[10-11];二是制度结果的利用程度与制度产生的影响力[12-13]。上述关于有效性和制度有效性的内涵解读为理解学生评教有效性提供了重要的认识基础。
由此延伸,“学生评教有效性”的分析框架同样也包括两个方面的内容:一方面,学生评教制度本身要科学、合理,这是应然层面的理解,即作为一种价值意义上的制度有效性,侧重于强调学生评教制度设计与实践结果的真实、可靠性[14],意味着学生评教的结果值得被处理与利用;另一方面,学生评教的有效性还体现在其实际的实施效果上,这是实然层面的理解,即作为一种结果意义上的制度有效性,侧重于强调学生评教产生的实效性[15],意味着学生评教结果得到了充分的利用。事实上,只有当学生评教的结果足够真实可靠时,才值得充分挖掘、利用蕴藏于其中的信息,进而发挥评教诊断、改进教学的理想功能。因此,要全面、客观地分析学生评教的有效性,需要深入考察学生评教结果的可靠性。
对学生评教结果的可靠性判断,主要通过考查学生评教的信度来体现。学生评教的信度是指学生评教结果能在多大程度上稳定反映教师教学水平[16]。从操作层面来看,学生评教信度的具体检验方法有指标一致性法、重测信度法与评分者信度法等方法。指标一致性法即评教数据的内部一致性分析,反映的是学生评教各项指标内容的一致性程度[17]。重测信度法是指对同一评分者给同一教师、同一课程先后两次的评教数据进行相关性分析,反映的是学生评教结果的稳定性程度。评分者信度法是对不同评分者给同一教师同一课程的评教数据进行相关性分析,反映的是学生评教结果的一致性程度。本研究综合运用以上三种信度检验方法,开展学生评教指标的一致性分析、学生评教数据的稳定性与一致性分析、多来源数据的相关性分析,以相关系数体现学生评教结果的可靠性,从而初步判断学生评教的有效性水平。此外,利用描述性统计分析、相关性分析等,判断课程、学生与教师特征等对评教结果的影响程度,最终从治理层面探索提升学生评教有效性的基本路径。(见表1)
表1 学生评教结果可靠性的分析框架
(二)研究样本与数据抽取
本研究选择的案例院校——L 大学,其学生评教工作已较为成熟,多年来坚持学生评教并将其作为本科教学质量保障的重要组成部分,学生评教指标体系和相关制度经历了不断改革和完善,在同类高校中具有一定的代表性。基于此,以L大学学生评教数据为样本对高校学生评教的有效性进行分析,具有良好的代表性,相关结论和建议有一定的推广价值。本研究采集了L 大学自2019—2020学年第一学期至2020—2021学年第一学期(3个学期)全部理论课程的学生评教数据(含期中与期末),共计2 139 门课程的909 421 条记录。按照“至少具备4 轮(含期中与期末)完整评教数据”的规则,共计获得针对227名教师的65 801条学生评教数据。
(三)研究步骤与方法
1.学生评教有效性检验
数据分析通过SPSS 26.0 软件来完成,具体的步骤和方法如下。
首先,对学生评教指标的一致性分析。分别对抽取出的2019—2020 学年第一学期期中、期末及2020—2021 学年第一学期期中、期末的学生评教数据进行α检验。
其次,对学生评教数据的稳定性分析。分别进行2019—2020学年第一学期期中与期末评教数据的相关性分析及2020—2021学年第一学期期中与期末学生评教数据的相关性分析。
再次,对学生评教数据的一致性分析。开展2019—2020学年第一学期期末与2020—2021学年第一学期期末学生评教数据的相关性分析。
最后,对多来源数据的一致性分析。分别进行2019—2020学年第一学期期末学生评教数据与教学督导评教数据的相关性分析及2020—2021学年第一学期期末学生评教数据与教学督导评教数据的相关性分析。
2.影响学生评教结果的因素分析
本研究通过对L 大学教务处相关负责人及部分一线教师进行访谈,汇总了教学工作者眼中可能影响评教结果的因素,并依据重要性次序提取了学生年级、学习成绩、课程属性、选课人数和教师职称等五个最受关注的指标。
首先,对变量性质为类别变量的非教学因素重新编码。学生年级:1=大一,2=大二,3=大三,4=大四;课程属性:1=任选,2=必修,3=限选;选课人数:依据学校教务处的选课容量类别,以30 人为界,1=30 人以下,2=31 人至60 人,3=61 人至90 人,4=91 人至120 人、121 人以上;教师职称:1=讲师,2=副教授,3=教授。
其次,比较各类别变量中不同组别的学生评教结果差异。运用描述性统计中的方差分析法探究不同年级、课程属性、选课人数和教师职称下学生评教结果的差异情况。
最后,探究各变量与学生评教结果的相关性。分别进行学生年级、学习成绩、课程属性、选课人数、教师职称与学生评教结果的相关性分析。
三、数据分析
(一)学生评教的有效性分析
1.学生评教指标的一致性分析
在指标一致性分析中,通常使用赫隆巴赫系数(α 系数)和折半信度系数等反映指标的一致性水平,赫隆巴赫系数值越高,表示量表指标的一致性即数据的内部一致性水平越高[18]。分别按照学期对L大学的学生评教数据进行指标一致性分析,可以直接获得其赫隆巴赫系数(α 系数)。对L 大学2019—2020 学年第一学期期中与期末、2020—2021 学年第一学期期中与期末的学生评教数据执行指标一致性分析。(见表2)
表2 四轮学生评教数据的指标一致性分析
一般而言,任何测验或量表的信度系数如果在0.9 以上,则该测验或量表的信度甚佳;信度系数在0.8—0.9 是可以接受的[19]。从表2 可以看出,四轮学生评教数据的信度系数(α 系数)均在0.85以上,显示出较大的可靠性,说明L 大学学生评教指标具有较高的内部一致性。
2.学生评教数据的稳定性分析
教学能力的发展是一个循环渐进的过程,不会在短期内发生巨大变化。如果学生对教师的评价是真实有效的,那么期中与期末的学生评教结果应具有一定的相关性。基于以上观点,可以对同一学期内同一教师的同一门课程的期中与期末学生评教分数进行相关性分析,相关系数越高,表示学生评教结果的稳定性越高。
针对L 大学2019—2020 学年第一学期期中与期末及2020—2021学年第一学期期中与期末的学生评教数据,分别进行相关性分析。(见表3、表4)
表3 2019—2020学年第一学期期中与期末学生评教数据的相关性分析
表4 2020—2021学年第一学期期中与期末学生评教数据的相关性分析
一般而言,当相关系数的显著性概率值小于0.05 时,相关就达到了显著水平,且当相关系数小于0.4时,表示两者低度相关;相关系数在0.4至0.6之间,表示两者中度相关;相关系数大于0.6 时,表示两者高度相关[20]。从表3、表4 可以看出,两个学期期中与期末学生评教数据的相关性检验概率低于0.05,相关性系数都在0.5—0.6 之间,接近0.6,表现为中度相关。当相关系数达到0.001的显著水平时,可说明评价具有一定的稳定性;当相关系数达到高度相关时,便可充分证明评价的稳定性[21-22]。基于此,本研究认为中度相关的结果能够证明学生评教结果的稳定性较好,仅次于高度稳定的水平。
3.学生评教数据的一致性分析
同理,如果学生对教师的评价是客观公正的,则不同学期的学生评教分数应具有一定的相关性。基于以上假设,把同一教师对同一课程的多轮授课所组成的不同教学班称为同质教学班,那么就可以对同质教学班学生的评教数据进行相关性分析,相关系数越高,表示学生评教结果的一致性越高。
针对L 大学2019—2020 学年第一学期期末及2020—2021 学年第一学期期末的学生评教数据,对同质教学班按不同年度进行相关性分析。(见表5)
表5 同质教学班不同年度学生评教数据的相关性分析
可以看出,两个学期期末评教数据的相关性检验概率低于0.05,相关性系数在0.5—0.6 之间,接近0.6,表现为中度相关。与上述稳定性的判断过程同理,学生评教的一致性较好,仅次于高度一致的水平。
4.多来源评教数据的一致性分析
理想情况下,教学督导的评教结果往往被视为衡量课堂教学质量的权威参考。检验教学督导评教与学生评教的一致性,有助于从另一个视角审视学生评教的有效性水平。为此,根据已经获取的督导评教数据,提取部分课程在2019—2020学年第一学期期末及2020—2021学年第一学期期末的学生评教成绩,进行相关性检验。(见表6)
表6 督导评教与学生评教数据的相关性分析
由相关性输出结果可以看出,两个学期期末学生评教结果与督导评教之间不具有显著相关性。根据L大学本科课程教学质量评价实施办法,原则上每门课程需配备多名教学督导。但从实际情况来看,教学督导评教的覆盖面远远不够,不少课程的督导评教记录仅有1条。此外,还存在督导随意评教的现象,比如相当一部分课程的督导评教记录均为满分。可见,教学督导评教本身的有效性有待考察,其作为学生评教有效性参照工具的功能也不能得到很好的发挥。
(二)影响学生评教结果的因素分析
以提取出的针对227 名教师的65 801 条学生评教数据为分析样本,进行各影响因素的方差分析和相关性分析。表7 是学生评教结果影响因素的方差分析结果。结果显示学生年级、课程属性、教师职称的方差检验F 值的显著性概率值均小于0.05,表明不同年级、课程属性和教师职称的学生评教结果之间存在显著差异,而不同选课人数的学生评教结果之间则不存在显著差异。表8 是学生评教结果影响因素的相关性分析结果。结果显示选课人数和教师职称与学生评教结果不相关,学生年级、学生学习成绩和课程属性与学生评教结果显著相关,但就相关系数而言,均呈低度相关,对影响因素的解释意义较弱。因此,针对学生年级、课程属性、选课人数和教师职称等类别变量,本研究主要以方差分析的显著性概率值和以Scheffe 法进行事后比较的结果判断各影响因素的作用效果。(见表9)
表7 学生评教影响因素的方差分析结果
表8 学生评教影响因素的相关性分析结果
表9 学生评教影响因素的Scheffe法事后比较结果
1.学生年级显著影响学生评教结果
学生年级的方差分析结果显示F 值为8.444,F值的显著性概率值小于0.05,表示不同年级的学生评教结果之间存在显著差异,学生所处年级是影响学生评教结果的因素之一。大一年级学生的评教分数最低,大二、大三年级学生的评教分数均显著高于大一年级学生。新制度主义政治学理论认为,制度的有效性离不开利益相关者对制度的认可和执行[23]。学生对评教标准的理解偏差和对评教的基本态度会影响其对评教的认可度和执行力,继而影响评价结果的真实有效性。具体而言,大一学生由于缺少对大学教学模式的全面了解,往往会基于基础教育阶段的学习体验来衡量大学教师的授课情况。在这种信息不完全的情况下,学生对评教标准就会存在认知偏差,难以做到从大学生学习的视角正确评价教师教学质量[24],具体就表现为评教时的“压分”。随着对大学教学模式的不断理解与适应,学生的落差心理逐渐消退。而大四学生评教分数的降低,则涉及学生评教态度的问题。学生的评教态度越端正、积极,那么评教分数也越高[25]。大部分大四学生的关注重心已经由课程学习转向工作实习,对评教工作的耐心降低,仅将其视作学校布置的机械任务而进行敷衍评教。
2.学生学习成绩显著影响学生评教结果
从提取出的分析样本中进一步筛选2019—2020学年第一学期期末与2020—2021学年第一学期期末的学生评教结果,并匹配对应的学生期末课程总评成绩,进行相关性分析。结果显示,学生学习成绩与学生评教结果之间具有显著相关性,学生学习成绩是影响学生评教结果的因素之一。但相关系数仅为0.067,表明呈低度相关,学生学习成绩对学生评教结果的影响程度相对较小。关于学生学习成绩对学生评教的影响,有学者从经济学博弈论的视角出发,认为教师“评学”与学生“评教”之间的互动已演变成一种合作博弈关系[26]:宽松对待学生、给学生成绩评分较高的教师会在学生评教中得到较高的分数,而严格要求学生、给学生成绩评分较低的教师会在学生评教中得到较低的分数。究其根源,这是因为学生评教制度在行政管理逻辑的影响下异化为教师人事管理的简单工具[27]。教学管理部门是学生评教制度的实际主体,学生被不断边缘化和工具化,教师则在利益关联的压力下,努力与学生达成利益互惠的合作博弈。制度设计的缺陷与失范会直接导致制度结果的偏差,从而影响制度效能的发挥。另一方面,从学生学习能力来看,学习能力较强的学生会倾向于给教师打高分;学习能力较弱的学生会倾向于给教师打低分。这是因为学习能力较强的学生往往更能够掌握教学内容,而学习能力较弱的学生则感受不到较好的学习体验,且有可能将成绩低归因于教师教学“差”或“不公正”,从而对教师进行报复性评教[28]。此外,不同利益相关者之间的沟通障碍也会影响制度的有效性。师生间的交流障碍会使得教师的“教”与学生的“学”分离,即教师不清楚学生的学习诉求、学生不明白教师的教学意图,进而导致学生的逆反心理日益严重,越来越忽视甚至抵制学生评教制度。
3.课程属性显著影响学生评教结果
课程属性的方差分析结果显示F 值为4.827,F值的显著性概率值小于0.05,表示不同课程属性的学生评教结果之间存在显著差异,课程属性是影响学生评教结果的因素之一。任选课的评教分数最低,必修课的评教分数居中,限选课的评教分数最高且显著高于任选课。其中的原因可能涉及课程重要性:限选课一般是每个专业课程体系中最重要的核心课程。必修课包括了一般的专业必修课与公共必修课,属于学生心目中重要程度居中的课程。任选课则主要是指面向全校所有学科专业学生的公共选修课。课程对学生越重要,学生对教师教学的评价分数就越高[29]。这是因为课程的重要性程度会引发学生学习动机、学习态度、评教态度等心理特征的变化,这种心理特征上的变化会导致个体出现评判标准认知和教学事实感知上的误差,出现趋低评价、趋高评价等评教行为偏差[30]。比如学生在学习“最重要”的限选课程时,往往会引起足够的重视,获得比其他课程更多的收获,因此给教师打高分;而学生在学习“最不重要”的任选课程时,往往会抱着“可听可不听”的态度,因此给教师打低分。
4.选课人数不显著影响学生评教结果
选课人数的方差分析结果显示F 值为0.262,F值的显著性概率值大于0.05,表示选课人数对学生评教结果的影响不显著。这表明选课人数的多少不是影响学生评教结果的因素之一。有研究发现学生评教结果与选课人数之间呈负相关关系[31],且传统的教学观念也认为,小班教学能够让学生接受到个性化的指导,学习体验与学习效果会更好,评教分数自然也较高。但本研究经数据分析后得出的结论则否定了上述观点。
5.教师职称显著影响学生评教的结果
教师职称的方差分析结果显示F 值为17.860,F 值的显著性概率值小于0.05,表示不同职称的教师获得的评教分数存在明显差异,教师职称是影响学生评教结果的因素之一。教授的评教分数最高,讲师的评教分数居中,副教授的评教分数最低,教授与讲师的评教分数均显著高于副教授。其中,教授和讲师的评教分数较高可能跟教师的个人魅力有关。国外有研究表明个人魅力强的教师会产生光环效应,即这种好的总体印象会影响学生对其他方面的判断[32]。一般而言,教授在学生心目中有着德高望重的形象,能够获得学生广泛的尊重和认可。讲师群体中大部分为刚入职的青年教师,青年教师往往对学生的态度友好,能够与学生建立亲密的关系。而副教授的评教分数较低则可能与高校“重科研轻教学”的管理环境有关。作为一种客观因素,制度环境会在很大程度上影响着制度有效性。当前,我国高校在常规管理、职称晋升等方面都存在对科研领域的明显倾斜[33],导致利益相关的副教授群体更愿意从事自己的科研工作,而并未在课堂教学方面投入相应精力,学生也会进行消极评教。
四、结论与建议
(一)研究结论
本研究通过对L 大学三个学期共四轮学生评教数据开展指标一致性分析,证明了学生评教指标具有较好的内部一致性;通过学生评教数据的稳定性分析,证明同一学期期中与期末的学生评教结果具有中度相关,学生评教的稳定性较好;通过学生评教数据的一致性分析,证明不同学期的学生评教结果也表现为中度相关,学生评教的一致性较好;通过多来源评教数据的一致性分析,发现督导评教与学生评教之间不存在显著相关。但由于督导评教数据的科学性问题,此结论还有待商榷。
就学生评教结果的影响因素而言,本研究发现:学生年级会对学生评教结果造成显著影响。高年级的学生相比大一新生更愿意给教师打高分。学生学习成绩会在相对较低的程度上影响学生评教结果。传统印象中学生评教分数与学生学习成绩呈正相关的现象实际上是可能发生的。课程属性会显著影响学生评教结果。学生对限选课程的评价最高,对任选课程的评价最低。选课人数不是影响学生评教结果的因素。教师的职称会显著影响学生评教结果。教授与讲师的评教结果显著高于副教授。
需要说明的是,学生评教的有效性在各高校之间必然存在差异,但关于影响因素的量化分析结果,印证了已有文献中定性研究的相关结论以及新制度政治学关于制度有效性的相关理论,说明该结论具备一定的普遍性。
(二)对策建议
如何提升学生评教的有效性?是所有高校教学质量保障体系建设中面临的普遍性的话题。新制度主义政治学理论基于制度运作过程,认为制度要达到“有效”的状态,与制度设计是否科学、利益相关者的认可度与执行情况、制度与运作环境的契合度等密切相关[34],高校学生评教作为一项教学质量保障制度,其有效性必然也与制度设计、利益相关者和制度环境有关。因此,本文从如下三个方面对我国高校学生评教制度有效性提升路径进行原则性分析。
1.基于学术治理逻辑优化学生评教制度设计
学生评教制度本身的科学、合理既是学生评教制度有效性的重要组成部分,又是学生评教制度实现价值目标的前提条件。因此,提升学生评教有效性的关键就在于优化学生评教制度设计。首先,学校管理层应当明确学生评教的制度定位需以学术治理逻辑为本。制度定位是决定制度设计科学、合理的关键引领,制度的有效性更是离不开制度准确的定位。学生评教制度是作为利益相关者的教师、学生和教学管理者对大学教学质量的参与治理,其根本目的在于提升学校教育教学质量[35]。这实际上就决定了学生评教制度应坚持学术治理逻辑而非行政管理逻辑,学生评教制度设计应当体现治理属性与教学品性,使之成为学生、教师与教学管理者进行教学交流与改进的治理平台。其次,健全学生评教制度结构。学生评教制度的有效性与其制度结构健全的程度具有正相关关系。制度结构健全是指制度主体、制度客体与制度规则等构成部分都应存在而且相互之间搭配合理[36]。因此,健全学生评教制度结构,一是要明确学生的主体地位,关注学生的需求;二是要明确教学的客体地位,学生评价的是教师的教学质量而非其他内容;三是明确学生评教的制度规则即对制度相关者权利与义务的界定,比如学生在参与评教的过程中享有自由选择权和发言权,教师在被评价教学的同时也享有参与相关决策与治理的权利,管理者在服务教师教学和学生学习的基础上可以采取合理的干预。
2.提升利益相关者对评教工作的认可度和执行力
学生评教制度预期效果的实现建立在学生评教制度顺利运行的基础之上,而学生评教制度的执行离不开利益相关者对制度的认知和遵循。可以说,利益相关者对学生评教制度的认可和遵守是实现学生评教制度有效性的必要条件。因此,要提高学生评教的有效性,就需要引导学生评教制度的相关者正确认识学生评教制度,并让他们的“声音”得到表达,只有大多数利益相关者认可并执行的学生评教制度,才能保证评教结果的可靠性。一是要做好学生评教的事前宣传工作,提高学生、教师参与评教工作的积极性。教学管理者可以通过组织学生评教动员大会,使学生和教师明晰自己受益者的角色身份,开展评教工作能够满足学生学习需求和促进教师专业发展。二是纠正学生群体对评教标准的理解偏差,促进学生正确评教。尤其是面向大一新生,学校或院系的教学管理者可以借助教学评价经典案例,详细讲解学生评教的具体细目以及评判标准,引导学生进行就教论教的理性评价。三是在教学管理者、学生与教师之间建立对话交流制度,缓解利益相关者之间的沟通障碍。一方面加强实施过程性评教,实现师生间的对话交流,学生可以在每堂课后及时反馈自己的学习效果[37],教师能够针对性地进行教学调整;另一方面搭建反馈平台,实现教学管理者与师生的对话交流,师生可以自由地向教学管理者表达诉求,教学管理者应该在科学判断的基础上,尽可能地尊重师生的意愿。
3.提升学生评教制度与教育教学管理环境的契合度
一方面,只有当学生评教制度与其所处的制度环境构成和谐稳定的制度生态时,学生评教制度的有效性才能得以实现。这就意味着学生评教制度必须与本国的高等教育管理体制相契合,保持整体的协同演化,从而持续保证学生评教的高质量。比如我国学生评教制度必须契合当前国家高等教育治理现代化的背景,坚持多元主体“共治”[38],我国高校学生评教制度的设计与执行过程决不能对此视而不见。因此,推进多元主体共同参与教学治理是高校提升学生评教有效性的应然之举:拓宽民主参与渠道,健全学生、教师和校友等多元主体全程参与的保障机制;完善民主监督制度,设置专门的监督、反馈程序,确保多元主体的有效参与。此外,“重科研轻教学”的评价导向也作为外在的环境变量,影响着利益相关者对制度的认知和遵守,进而影响着制度有效性的实现[39]。高校和教师越重视教学,学生的评教态度就会越端正,学生评教制度的有效性也会越高。因此,高校可以考虑从改革职称晋升的标准入手,纠正重科研、轻教学的价值偏差:适当加大教学考核、减轻科研考核的比重,以晋升标准的变化促进教师对教学的重视。另一方面,学生评教制度与环境的契合度还包括学生评教制度与相关制度的配合程度。一种制度往往是与其他相关制度共同构成一个制度系统而起作用[40],学生评教制度的有效性往往和相关制度的配合度呈正相关关系。比如L大学现阶段就要规范教学督导评教制度,提升督导评教的有效性及其与学生评教制度的配合度,加强本科教学多元质量保障体系的落实。