教师背景特征影响大学生评教分数的实证分析

2021-10-22李超锋张劲松中南民族大学管理学院武汉430074

中南民族大学学报(自然科学版) 2021年5期

李超锋，张劲松(中南民族大学管理学院，武汉 430074)

2019年教育部发布的《关于深化本科教育教学改革全面提高人才培养质量的意见》把学生评价作为高校教学质量评价与保障体系的重要维度，提出要完善高校内部教学质量评价体系，全面推进质量文化建设. 近年来，随着我国高校“双一流”建设的实施，学生评教及对评教数据的分析已经成为各高校加强教学管理、实现质量监控、提高教育教学质量的重要抓手. 学生评教是修课学生根据评价指标和听课感受对授课教师的课堂教学态度、教学规范、教学水平及教学效果等进行评价，进而通过对评价结果的分析和反馈提高教学质量的一种活动. 对学生评教数据中有关教师背景特征与学生评教分数之间的关系进行分析，有利于高校人事管理部门和教学质量监控部门掌握不同背景教师的教学效果，进而为建立科学高效的教师管理制度体系提供科学依据. 同时，也有利于任课教师分析自己课堂教学中存在的问题，进而有针对性地提升自己的教学素养，落实“四个回归”，培养高质量人才.

长期以来，学界对于学评教的研究主要关注于对授课教师和学生之间的互动有确定性影响的主观特征或因素. Google Scholar、Scopus和Web of Science被引量排名前75位的文献研究主题都集中在学评教有效性、测量工具的构建和验证、利用学评教结果评估教学绩效三个方面[1]，而对于学生评教分数是否与教师客观背景特征相关的研究既不全面，也不够深入. 在国外，MACNELL研究发现大部分学生对男教师的评价更高[2]，而WOLBRING的研究结果则与此相反[3]；FIGLIO研究认为学评教分数会随教师职称的升高而上升[4]，ALEAMONI则认为教师职称的高低与学评教分数之间没有相关性[5]；COHEN对学评教分数分析后认为教师教龄与学评教分数之间呈现正向线性关系[6]，NEAL则认为年长教师往往比年轻教师获得更低的评分[7]. 在国内，教师背景特征是否影响学生评教分数的研究结论也存在争议. 性别方面，戴璨研究发现教师性别显著影响学生评教分数[8]；郭娟的数据分析表明女教师好评率高于男教师，差评率低于男教师[9]；赵伟春的研究结果则显示教师的性别对学评教分数无显著影响[10]. 职称方面，韩明的研究结果表明，教师职称高低会显著影响学生评教分数，教师的职称较高，学生会倾向打高分[11]；马莉萍则认为教师职称对学生评教分数影响的整体差异不大[12]. 年龄方面，梁志星的研究结果表明教师年龄显著影响学生评教结果[13]；李超锋研究发现教师学历和年龄对学生评教结果具有交互效应[14]；赵伟春认为教师的年龄对学评教无显著影响[10]. 学历方面，韩明研究认为随着教师学历的变化，教师综合评价成绩的差异达到了统计学理论上的显著性水平[11]；邓红的研究结果则表明学生评教结果与教师的学历相关不明显[15].

总之，国内外学者对教师背景特征与学生评教结果之间关系的研究取得了一定的成果，为本研究奠定了基础. 然而，现有文献主要以理论分析和逻辑思辨为主，实证分析相对较少. 少量文献进行了实证研究，但采用的数据主要来自于调查问卷或选取自学校内部部分专业的学生评教结果，可靠性和全面性略显不足. 基于此，本文采用单因素方差模型对M大学课堂教学质量评价系统收集的全校学生评教数据进行分析，探究该校教师背景特征对学生评教分数的影响状况，以期为高校优化教师队伍结构和提高课堂教学质量提供参考依据.

1 数据预处理

本文用到的数据包括学生对其所修读课程的课堂评教数据和任课教师的背景特征数据. 学生评教数据由M大学课堂教学质量评价系统导出得到，任课教师背景特征数据由该校人事管理部门提供. 根据模型对数据的要求，在进行分析之前对原始数据进行了预处理.

1.1 学生评教数据

M大学课堂教学质量评估指标体系由11项指标构成，其中10项为量化评分指标，1项为综合评价指标，量化评分指标的最高分值为10分，综合评价指标为描述性语言. 因而实际上在原始评教系统中一位同学对其所修的一门课程的最终评分分布在11条记录中. 为此，在进行分析之前进行了如下处理：

(1)从原始数据中筛选出本文所需要的数据项，包括课程号、教师工号、学生学号、单项评分指标和单项评分值，共计1368570条记录.

(2)以课程号、教师工号和学生学号为关键字，合并单项评分并计算每位学生对所修课程的总评分，共得到124593条记录.

(3)部分学生的单项指标评分未填写或明显不合理，去除含有缺失值和异常值的数据，得到123842条记录.

(4)按课程号和教师工号分组计算各课堂的评教学生人数和该课堂平均评教分数，共得到1446个课堂的平均评教分数.

(5)根据该校教师课堂教学质量评估与管理办法的规定，少于10人的课堂因评教人数少，评分不能真实反映课堂教学质量. 去除这部分课堂后剩余1399个课堂的平均评教分数.

1.2 教师背景特征数据

根据模型要求，分析之前对教师背景特征原始数据进行了如下处理：

(1)从原始数据中筛选出模型分析需要用到的教师基本数据，包括教师工号、性别、职称、学历和出生日期.

(2)原始数据中专职教师专业技术职务名称为教授、副教授、讲师和助教，非专职教师专业技术职务名称为正高级、副高级、中级和初级. 为统一专业技术职务名称，将教授、副教授、讲师和助教分别修改为正高级、副高级、中级和初级.

(3)根据出生日期计算教师年龄，并将教师年龄划分为35岁及以下、36～40岁、41～45岁、46～50岁、51～55岁和55岁以上共6个年龄段.

最后，将学生对课堂的平均评教分数和教师背景特征数据以教师工号为关键字进行连接，得到本研究的基础数据集，结构如表1所示.

表1 基础数据结构及其示例Tab.1 Basic data structure and examples

由于少部分外聘教师的背景特征数据填写不全，导致44个课堂的数据中存在缺失值，去除这部分缺失值后共1355个课堂的评教数据作为本文分析所用最终数据.

2 研究方法

国内外学者对学评教研究所采用的方法既有质性方法也有量化方法. 质性方法主要基于教育学、心理学、管理学和经济学相关理论，如利用刻板印象、利益冲突和分数膨胀等理论结合具体实例进行剖析；量化方法则根据所收集的数据特征采用描述性统计、相关分析、方差分析、回归分析或元分析中的一种或几种模型进行研究. 本文研究数据中平均评教分数属于连续型数据，而教师背景特征属于分类型数据且不同特征之间相关性较弱，适合采用单因素方差模型进行分析.

单因素方差分析属于数理统计中的假设检验范畴，其原假设为控制变量不同水平下各观测变量的总体均值都相等. 观测变量值的变化受到控制变量和随机变量两类因素的影响，因而可将观测变量围绕其均值的总变异(总平方和SST)分解为组间平方和(SSA)与组内平方和(SSE)两部分，其中SSA是由控制变量的不同水平造成的变异，SSE是由抽样误差造成的变异· 在满足方差分析假设的前提下，可以证明SST=SSA+SSE.在SST中，如果SSA相对于SSE较大，说明观测变量的变异主要由控制变量引起，控制变量的不同水平对观测变量造成了显著影响，反之则说明控制变量的不同水平对观测变量造成的影响不显著.

基于以上分析，单因素方差分析可以用F统计量进行检验，如公式(1)所示：

(1)

在公式(1)中，n是总样本量，k-1是组间平方和SSA的自由度，n-k是组内平方和SSE的自由度，MSA是组间离差平方和的平均(组间方差)，MSE是组内离差平方和的平均(组内方差). 若原假设条件成立，则F统计量服从自由度为(k-1,n-k)的F分布.

本研究中课堂平均学评教分数为观测变量，教师背景特征为控制变量. 通过考察教师特征不同水平下课堂平均学评教分数的总体均值的显著性水平即可知教师特征是否对学生评教结果有显著影响.

进行方差分析有四个前提假设：一是所有样本采用随机抽样获取；二是各个样本是相互独立的；三是在控制变量的不同水平下观测变量总体上不严重偏离正态分布；四是在控制变量的不同水平下观测变量总体上具有方差齐性. 在进行方差分析之前，需要首先验证是否满足这四个前提条件. 随机抽样要求总体中的每个对象都有相等概率被抽中的可能，以保证样本的代表性. 本研究的总体来自于M大学全体学生评教数据，满足随机抽样条件. 各样本相互独立要求在总体中抽取一个样本时，其他样本不受影响. 本研究根据教师背景特征数据进行分组之后保持了不同分组数据之间的独立性. 因此，对于本研究来说，只需要验证前提假设三和前提假设四.

基于以上分析，本文的研究方法和过程如下：

(1)验证教师背景特征包括教师性别、学历、职称和年龄不同取值下课堂平均学评教分数是否总体近似服从正态分布和具有方差齐性.

(2)利用单因素方差分析模型分别考察教师性别、教师学历、教师职称和教师年龄是否对学生评教结果具有显著性影响.

(3)如果确实产生了显著影响，采用多重比较检验的LSD检验分析该特征的不同水平对学生评教结果的影响差异.

本研究基于R语言中单因素方差分析有关函数和图形工具实现.

3 结果与分析

分别对教师性别、学历、职称和年龄采用单因素方差分析，考察各因素对课堂平均学评教分数的影响情况.

3.1 性别

3.1.1 正态性检验

检验数据是否满足正态分布的方法有多种，如K-S检验、W检验等，但这些检验方法通常对样本量比较敏感，可能导致既使数据总体满足正态性但统计检验出来的结果却显示不满足正态性的现象. 另外，现代统计学研究实践表明，只要样本量较大且总体近似服从正态分布就可以进行单因素方差分析. 因此，在进行正态性检验时，首选方法是画出直方图、P-P图或Q-Q图等图形并进行观察，如果发现有严重偏态和尖峰分布则再进行进一步的假设检验.

利用R语言中的qqnorm函数绘制教师性别特征在男和女两种水平下的课堂平均学评教分数Q-Q图，结果如图1所示. 在图1中，横坐标为期望正态值，纵坐标为实际值，斜线为课堂平均学评教分数服从正态分布时的Q-Q线，圆圈为实际课堂平均学评教分数散点图. 由图1可知，男女教师的课堂平均学评教分数均集中在正态Q-Q线附近，即总体上近似服从正态分布.

图1 不同性别教师平均学评教分数Q-Q图Fig.1 Q-Q chart of the average teaching evaluation scores of teachers with different genders

3.1.2 方差齐性检验

利用R语言中的leveneTest函数对不同性别教师的课堂平均学评教分数进行levene方差齐性检验. 程序运行结果显示男女教师平均学评教分数的方差齐性检验的检验统计量F的观测值为1.10，概率P值为0.29. 当显著性水平α取值为0.05时，概率P值大于显著性水平，可以认为男女教师平均学评教分数的总体方差无显著性差异，满足方差齐性条件.

3.1.3 单因素方差分析结果

不同性别教师的课堂平均学评教分数满足正态性和方差齐性条件，借助R语言的aov函数进行单因素方差分析，结果如表2所示.

表2 不同性别教师的平均分数单因素方差分析结果Tab.2 Results of one-way ANOVA for the average scores of teachers with different genders

由表2可知，不同性别教师的课堂平均学评教分数单因素方差分析的P值为0.7629，大于α=0.05的显著性水平，且F统计量也较小，说明男女教师课堂平均学评教分数的总体均值差距不大，即教师性别特征对学生评教分数的影响不具有显著性.

3.2 年龄

3.2.1 正态性检验

同上，利用qqnorm函数绘制各年龄段教师平均学评教分数Q-Q图，结果如图2所示. 从图2可以看出，不同年龄段教师的平均学评教分数总体上近似服从正态分布.

图2 不同年龄段教师平均学评教分数Q-Q图Fig.2 Q-Q chart of the average teaching evaluation scores of teachers with different age groups

3.2.2 方差齐性检验

leveneTest函数对不同年龄段教师的课堂平均学评教分数方差齐性检验结果显示，检验统计量F的观测值为1.27，概率P值为0.27. 当显著性水平α取值为0.05时，概率P值大于显著性水平，可以认为不同年龄段下课堂平均学评教分数的总体方差无显著性差异，满足方差齐性条件.

3.2.3 单因素方差分析结果

不同年龄段教师的平均学评教分数满足正态性和方差齐性条件，aov函数进行单因素方差分析结果表明(表3)，不同年龄段教师的平均学评教分数单因素方差分析的P值为0.1541，大于α=0.05的显著性水平，且F统计量也较小，说明不同年龄段教师平均学评教分数的总体均值差距不大，即教师年龄特征对学生评教分数的影响不具有显著性.

表3 不同年龄段教师的平均分数单因素方差分析结果Tab.3 Results of one-way ANOVA for the average scores of teachers with different age groups

3.3 职称

3.3.1 正态性检验

从qqnorm函数绘制的不同职称教师平均学评教分数Q-Q图(图3)可以看出，不同职称教师的平均学评教分数总体上近似服从正态分布.

图3 不同职称教师平均学评教分数Q-Q图Fig.3 Q-Q chart of the average teaching evaluation scores of teachers with different professional titles

3.3.2 方差齐性检验

利用leveneTest函数对不同职称教师的平均学评教分数进行方差齐性检验. 结果显示检验统计量F的观测值为0.83，概率P值为0.48. 当显著性水平α取值为0.05时，由于概率P值大于显著性水平，认为不同职称下教师平均学评教分数的总体方差无显著性差异，满足方差齐性条件.

3.3.3 单因素方差分析结果

不同职称下教师的平均学评教分数满足正态性和方差齐性条件，aov函数单因素方差分析结果显示(表4)，不同职称下教师的平均学评教分数单因素方差分析的P值为0.2852，大于α=0.05的显著性水平，且F统计量也较小，说明不同职称下教师平均学评教分数的总体均值差距不大，即教师职称特征对学生评教分数的影响不具有显著性.

表4 不同职称教师的平均分数单因素方差分析结果Tab.4 Results of one-way ANOVA for the average scores of teachers with different professional titles

3.4 学历

3.4.1 正态性检验

不同学历下教师平均学评教分数Q-Q图(图4)显示，不同学历下教师的平均学评教分数总体上近似服从正态分布.

图4 不同学历教师平均学评教分数Q-Q图Fig.4 Q-Q chart of the average teaching evaluation scores of teachers with different academic qualifications

3.4.2 方差齐性检验

利用leveneTest函数对不同学历下教师的平均学评教分数进行方差齐性检验. 结果显示检验统计量F的观测值为0.23，概率P值为0.79. 当显著性水平α取值为0.05时，由于概率P值大于显著性水平，认为不同学历下教师平均学评教分数的总体方差无显著性差异，满足方差齐性条件.

3.4.3 单因素方差分析结果

不同学历下教师的平均学评教分数满足正态性和方差齐性条件，aov函数进行单因素方差分析结果如表5所示. 由表5可知，不同学历下教师的平均学评教分数单因素方差分析的P值为0.01406，小于α=0.05的显著性水平，且F统计量也较大，说明不同学历下教师平均学评教分数的总体均值差距较大，即教师学历特征对学生评教分数的影响具有显著性.

表5 不同学历教师的平均分数单因素方差分析结果Tab.5 Results of one-way ANOVA for the average scores of teachers with different academic qualifications

由于教师学历对学生评教分数具有显著的影响，有必要通过事后分析两两比较，找出具体是哪些组之间差异显著. 为此，本文采用事后多重比较检验的LSD检验进行分析，其中置信度取0.95. 检验结果如表6所示. 具有硕士研究生与具有博士研究生学历的教师平均学评教分数t统计量的P值为0.004，在显著性水平α为0.05时P<α，说明二者平均学评教分数的总体均值存在显著差异. 而大学本科与博士研究生教师之间以及硕士研究生与大学本科教师之间的平均学评教分数的总体均值差异均不显著.

表6 不同学历教师对平均学评教分数总体均值的Tukey HSD检验结果Tab.6 Tukey HSD test results of overall average of the average teaching evaluation scores of teachers with different academic qualifications