评“教”还是评“人”？

2020-09-14吴立军田启波

高教探索 2020年8期

吴立军　田启波

摘要：学生评教是各个学校一项普遍而且重要的教学管理制度，但它的有效性却长期受到质疑。本文基于不同类型学校的调研数据，从教学与非教学两大因素视角对学生评教的有效性问题展开了研究，研究过程及结论如下：①利用参数检验的方法，对评教高分与低分教师的对比分析发现，高分教师的教学活动指标显著优于低分教师，表明评教结果具有较好的区分功能，是有效的，体现了对“教”的评价。②在控制教学因素后对非教学因素的分析发现，人缘好坏对评教的影响大于教学因素;“严师出低分”从教师群体看不具有统计学意义的显著性，而对于教师个人而言却显著存在;评教中存在倾向“差评”的学生群体和易被“差评”的教师群体，评“人”的问题较为突出。

关键词：教学评价;有效性;参数检验;教学因素;非教学因素

教学评价在各大高校是一项普遍又颇为重要的教学管理制度，是教师考核和激励的主要依据之一。但就是这样一项被广泛应用而又事关教师利益的核心制度，多年来却备受争议和质疑。2018年6月，《中国科学报》连续大篇幅刊文讨论教学质量管理方式改革，对变味的评教导致教师服务员化，评教中越认真越低分等现象提出了担忧[1] 。无独有偶，同一时间教育部在新时代全国高校本科教育工作会议上浓墨重彩的提出了以教學为中心的“四个回归”，并对教师评价问题的特别强调，当前评教的“指挥棒”不利于激发教师教书育人的积极性，要求建立对课程教学规范和效果多维的评价体系[2] 。学生评教历来被视为评教体系中的关键维度之一，但学生评教可信吗？非教学性因素如何影响评教？现行评教体系下的学生评教是对教师的评价还是教学的评价？这是教育回归教学本质需要回答并解决的一个基础性问题。

一、文献综述

（一）国内教师评价的发展及演进

教学评价（Teaching Evaluation）是指根据一定评教标准、运用可行的评价手段，对教与学活动过程及效果作出价值判断[3] 。我国教师评价始于20世纪60年代，但直到80年代以后才有比较正式的教师评价体系[4]，对中国教学评价改革40年历史回顾与总结，大致将其划分为三个阶段：从开放之初到80年代末以“选拔为先”的传统教学评价阶段;20世纪80年代末至90年代末“发展导向”的现代教学评价阶段;20世纪90年代末至今“以素养为重”的当代教学评价阶段[5] 。在教学评价演进发展历程中对如何构建一套科学合理的评价体系，始终是其不变的主旨和内核。随着学习者为中心的教学观念得到普遍认同，传统的课堂教学评估指标体系也逐渐由以教师为中心向以学生为中心转变。代表性观点如李定仁、刘旭东（2001）认为现代教学评价应立足于知识经济，指向人文精神，着眼于终身教育，构建以人格和谐发展为价值取向的评教体系[6] ;罗斯、埃索尔和卡纳特梅蒙等（Roth G，Assor A，Kanatmaymon）认为要促进高校教师的专业发展，评教体系必须关注学生学习特征和自我管理[7] ;郭丽君（2016）指出要改变评教异化的问题，必须从根本上回归教学评价的基本功能，通过促进教师和学生的发展，创造教学的可持续发展价值[8] 。目前，国内高校课堂教学评价指标体系设计主要有三种：第一种是从系统论的角度，评价指标覆盖课堂教学的整个过程;第二种是以有效教学理论为出发点，指标设计针对关键教学要素和行为特征;第三种则是试图实现两者的融合[9] 。尽管教学评价理论在不断深化，评价体系在不断完善，但以现代教学观来审视，仍停留在“以教论教”的评教阶段，“以学论教”的研究尚处于理论层面。

（二）学生评价有效性的批评与质疑

卡辛（Cashin W E）对 1300 多篇关于教学评价的论文研究后提出，教学评价的关键就在于设立评价指标体系，首先指标必须是科学合理的，否则教学评价结果就缺乏可信度[10] ;奥韦格布兹、威哲和柯林斯（Onwuegbuzie A J，Witcher A E，Onwuegbuzie A J）认为学生评教具有天然的逻辑缺陷，在实施过程中难免形成相互的“利益输送”，学生评价无效或者存在较大偏差，评价的意义值得质疑[11] ; 阿瓦隆思比旺（Avalosbevan B.）指出评价制度与问责制度目的之间冲突，使评教对促进教师和教学发展的效果并不明显[12] 。国内研究者如姜凤华（2003）认为我国目前教师评价指标和标准中存在诸多问题，如指标设置随意性较大，评价指标不具体，可操作性差都将导致评教有效性不高[13] 。谢安邦，侯定凯等（2007）认为现行教学评价指标设计，将教师当成了教学评价的客体，教学评价从对课堂教学效果的评价，变成了对教师的评价[14] 。孙翠香，范国睿（2013）基于美国中西部地区216个样本学区教师评价政策的比较研究指出当前中国教师评价政策到底在多大程度上支持和促进教师的教学和学生的学习仍无法评判[15] 。杨卫东，张征（2016）认为对教师教学评价的不当操作和对评价结果的滥用，使广大师生对高校教师教学评价制度产生了质疑与抵触，评教的有效程度不高[16] 。

纵观国内外对评教问题的研究，均已充分认识到了评教中存在的各种问题，但对评教有效性的质疑大多仅停留于制度和指标设计的合理性讨论，制度和指标合理性缺陷会在多大程度上影响评教有效性，对评教结果是否可信仍然无法做出评判;而且，对评教中存在的若干常见的具体问题，比如“严师出低分”现象，“教得好不如人缘好”等，已有研究多流于一般结论性的描述。基于对以上问题的改进，本文将利用较大范围的微观调研数据对学生评教的有效性问题展开研究。

二、研究设计

（一）数据来源

研究数据来源于对广东省从“双一流”到高职高专四种类型共20余所高校的实地调研。为尽可能更多涵盖评教影响因素，调研前对问卷设计做了如下三项工作：组织学生与教师访谈，以头脑风暴会议形式收集整理学生和教师视角对评教的认知及可能影响因素;分析各学校网络评教系统中的评分指标因素;收集整理近五年有关评教影响因素的研究文献。由此梳理出的评教影响因素达到50余种之多，基于出现的频次分别对非教学因素和教学因素各取12种，由此形成调研问卷共涉及七个方面28个问题。数据采集工作用时两个学期，调研方式采用纸质问卷和网络问卷相结合，发放纸质问卷800份，回收756份，收到网络问卷1986份，回收纸质和网络问卷共计2742份，在问卷审核中基于一致性的要求剔除了所有评教分数为10分制和等级制的问卷，剔除所有关键变量缺失以及全部答案为同一选项的无效问卷，实际有效问卷为1453份。对问卷信度的检验，Cronbachs Alpha系数值接近0.7，符合信度的基本要求。

模型中所使用的数据为截面数据，不存在时间趋势，为降低自相关性对估计结果的干扰，模型采用怀特稳健估计，模型一、模型二估计结果如表3：

表3显示，模型一中所有变量均在1%水平下显著，且系数为正，表明 “人缘”与评教结果显著正相关，说明评价中人缘好坏的确会影响评教。模型二中虚拟变量以“教学效果差，人缘差”为基础类型，d1、d2、d3三个虚拟变量均显著为正，说明与基础类型相比，这三种类型教师的评教结果均显著更高;进一步对变量系数大小比较发现d3>d1>d2，也就是说在教学因素相同的前提下，全部四种类型教师评教结果的排序依次是：“教学效果好，人缘好” >“教学效果差，人缘好” >“教学效果好，人缘差” >“教学效果差，人缘差”。由模型二可得到的基本结论是：教学效果和人缘俱佳的教师评教分数是四种类型中最高的;教学效果与人缘均差的教师也毫不意外是评教最低的。但教学效果好，人缘差的教师却低于教学效果差，人缘好的教师，说明评教中人缘因素甚至高于教学因素，在一定情形下教得好的确不如人缘好。

2.问题二：严师出低分吗

在对教师的访谈中，教师普遍感叹对学生不敢管，不敢严，否则会被报复性差评，认为严师出低分是一种常见现象。但同样的问题学生端的访谈却另有答案，受访者认为有些教师严于律人，却宽于律己，教学态度马虎，学习获得感低，却常使用考勤和考试相“威胁”。严师出低分现象真的存在吗？如果存在，“低分”是报复性差评还是另有他因？以教师“考勤情况”（ X44）作为代表教师严格程度的指标，并以“考勤情况”与“教学效果”组合的虚拟变量分析教师严格程度如何影响评教，虚拟变量的定义和模型构建如下：

模型三：yi=α+α1x1i+α2x2i+α3x3i+α4kqi+ei ; （3）

模型四：yi=α+α2x2i+α3x3i+β1d1i+β2d2i+β3d3i+ei;

d1=10，，考勤严格，教学效果好;其他;;d2=10，，考勤严格，教学效果差;其他;;d3=10，，考勤不严，教学效果好;其他;（4）

模型三和模型四的拟合结果如表4：

表4结果表明，模型三中所有变量均在1%的水平下显著，kq系数为负，说明考勤的严格程度与评教结果负相关，在教学因素相同的情形下，严格的教师越其评教分数会更低。模型四中以“考勤不严，教学效果差”为基础类型，d1、d3均在1%的水平显著，且系数为正， d1、d3分别代表“考勤严格且教学效果好”，“考勤不严格且教学效果好”的两种类型，因此可看出：不管考勤是否严格，只要教学效果好，评教分数都将高于基础类型“考勤不严但教学效果差”的教师。而代表“考勤严格且教学效果差” （该类型可理解为访谈中严于律人，宽于律己教师类型）的d2类型其系数虽然为负但显著性不高，表明d2与基础类型无显著差异，也就是说只要教学效果不好，无论教师是否严格都将比教学效果好的两种情形低。

3.问题三：差评谁给的，差评给了谁

对教师和学生固定样本的追踪调查，有两个现象值得注意：其一、对教师的调查，低分和高分的群体非常稳定，评教排序靠前或靠后的教师人员变化很小;其二、学生在对学期所有课程的评教打分中差别常常较小，有些学生倾向给所有课程高分，而有些学生则普遍低分。评教中是否有可能存在所謂的“专业差评师”（原指网络购物平台中比较挑剔，习惯性差评的买家）和“专业差评户”？接下来分别引入教师和学生身份特征信息的虚拟变量来加以讨论，模型构建如下：

模型五：yi=α+α1X4i+α2X5i+α3X6i+βjkdjki+ei（5）

模型六：yi=α+α1X4i+α2X5i+α3X6i+γjiDjki+ei（6）

模型五为学生类别模型，模型六为教师类别模型，由于两个模型中引入的虚拟变量及各虚拟变量对应的类型较多，所有虚拟变量用djki、Djki表示，其中j表示所引入的第j个变量，k表示该变量第k种类型（鉴于篇幅，各虚拟变量定义未作列示），i为具体样本，各变量的含义、类型及拟合结果见表5：

对拟合结果的分析如下：首先，从模型五拟合结果来看，在X11“学校类别”变量中以双一流学校为基础类型，相对于基础类型学校，代表高职高专、三本、二本院校的d11、d12、d13系数均为负数，且其绝对值逐渐变小，说明学校层次越低的学生越有可能给出差评;X12“年级类别”变量中，以大四学生为基础类型，仅代表大一类型的d21显著为负，d22、d23不显著，可以认为四个年级类别中大一学生更倾向差评，其他年级在评教上没有显著差异;X13、X14代表“专业类别”与“成绩类别”（学生在班级中成绩排名），二者各类别均不显著，表明在不同专业，不同成绩排名的学生中评教没有显著差异;在以男生为基础类型的X15“学生性别”变量分析中，女生在相同情况下会比男生给出更高的评教分数。因此，基于上述分析，将各种差评的学生特征信息进行归集，倾向给出低分的学生类型见图1-a。

其次，从模型六的结果来看，在X21“授课难度”变量中以难度极高为基础类型，相对于基础类型，课程难度较低（D11）和课程难度适中（D12）系数为正，从系数值大小可进一步判断课程越简单，越容易在评教中获得高分;在X22“班级规模”变量中以30人以下授课班级为基础类型，除D22以外，其他三种类型均在10%水平下显著为负，在超过150人的班级规模（D21）中授课会导致评教成绩降低最为严重;在以男性教师为基础类型的X31“教师性别”变量分析中，女性教师在评教中显得更为不利;在将教师年龄分为老、中、青三类的X32“教师年龄”类别中，青年教师（D41）会更受欢迎，基础类型的老年教师评分最低;在X33“教师职称”类别分析中，以助教为基础类型，代表副教授的D52变量不显著，而D53（教授）与和D51（讲师）系数则在5%水平下显著为正，表明副教授或者助教可能是容易获得差评的职称类型。因此，基于教师特征信息的分析，易被差评的教师特征描述见图1-b。

四、结论及建议

（一）主要结论

1.评教整体有效，能起到区分功能，体现了对“教”的评价

对高分教师和低分教师教学活动指标的参数检验结果显示，体现教师能力、教学态度和教学效果的12个特征指标中有 11个指标在评教高分教师与低分教师之间存在显著差异，高分教师的教学特征指标显著的优于低分教师，评教中教学能力强、教学态度好，教学效果优的教师普遍会得到更高的评教成绩。因此，评教整体而言是有效的，评教结果对教师教学具有较好区分功能，该结论虽并令人意外，它的意义在于从实证的角度对评教质疑给出了统计学意义的回应。

2.非教学因素对评教的影响不容忽视，评教中对“人”的评价真实存在

在控制教学因素后引入教师身份信息、课程特征信息和学生身份信息对若干现实问题讨论，得到如下结论：第一，教师的人缘显著影响评教，人缘好坏与评教正相关;引入教学效果与人缘组合的虚拟变量分析发现，人缘因素对评教的影响甚至高于教学因素，教得好不如人缘好真实存在，评教中“拼人缘”的问题可能较为突出。第二，在相同教学水平下，教师严格程度与评教结果显著负相关。在有效性分析的参数检验中，“考勤严格”的均值差值项也为负，二者虽都为负，但意义却刚好相反。有效性检验中为负的含义是评教低分教师的严格程度低于高分教师，即μxi-μyi<0，也就是说整体上高分教师更严格;而模型三中严格程度变量系数为负的含义是，考勤越严格评教分越低，获得高分的教师应该是考勤不严格的教师。这一看似矛盾结论的实证意义是：“严师出低分”从整个教师群体看并不存在，相反评教高分的教师更严格;而对于教师个人而言却显著存在，模型三中控制了教学因素（即在相同教学水平下），如果教师严格将会降低评教分数。进一步以教学效果和严格程度组合的虚拟变量分析发现，教师是否获得高分主要取决于教学效果，现实中所谓“严师出低分”现象可能存在被夸大的嫌疑。第三，对倾向差评的学生和易被差评的教师特征归类发现，学校类型为高职高专，年级为大一，性别为男性的学生更倾向于给出差评;所授课程难度大，授课班级规模在150人以上，职称为副教授或助教，年龄为老年，性别为女性的教师更易被差评，其他如不同专业类别、成绩类别的学生在评教上没有显著差异。评教中“人”的因素对其有效性所造成的偏误不容忽视。

（二）对策建议

1.用好评教结果，提升评教的促教功能

评教整体有效，这一结论首先肯定了学生评教这种教学管理手段存在的必要性。但评价最重要的目的不是证明，而是改进，在当前高校的评价机制中，评教结果最主要的作用却仅是作为考核依据，评教的促教功能较弱。学生是教师课堂教学的唯一全程参与者，与督导及同行评教相比是最有价值的评价维度，既然这种评价被证明是行之有效的，就应该用好评教促进教学。比如，在评教制度中设置培训门槛评教分，对低于评教门槛分的教师组织有针对性的教学提升培训;对长期评教低分的教师，学校人事部门可综合性的对其展开教学能力评估，师资发展部门应充分认识到教学与科研或者其他工作一样，同样存在禀赋上的差异，通过评教对不适合教学岗位的教师进行甄别并妥善转岗。

2.加强评价制度革新，切实回归对“教”的评价

提高评教有效性，加强多元化的评教体系革新，制度探索可从两方面展开：第一，评教标準多元化。目前大多高校评教采用一套系统、一张表，无法兼顾学科差异、课程差异，教学环境差异。比如，在理工科专业中强调的实验教学指标在文科专业中就难以实现，难度较大的课程教学效果指标就难以满足，“大一统”的评教方式不仅缺乏效度也有失公平。因此，评教制度的改革应在充分研究评教影响因素的基础上提出核心分类标准，对不同学科类型，不同教学环境实现差异化评教，把评教评细。第二，评教维度科学化。当前评教多以学生评教、同行评教和专家评教为基础构成教师教学水平认定的三个维度，而这三个维度的差异只是反应在总评权重大小之上，没有真正体现“维度”的意义。已有研究对学生评教的能力存在质疑，对专家通过一堂课给出一学期评教也多有诟病。因此，科学的维度意义可考虑让学生评教学态度、教学效果，专家评教学能力，教学设计，同行评教学组织等等，以此形成多维的综合评价，把评教评实。多元化的评教体系，多维度的评价主体，使评教真正回归对“教”的评价。

3.紧跟教课堂教学模式变化，推动发展性评教的实施

当前评教仍然是以教师为中心的传统评教模式，在“互联网+教育”的新技术、新理念的大趋势下，慕课、金课等新的教学模式出现，线上学习，线下讨论的混合式教学方式真正开始实现课堂由教师中心向学习者中心转变。课堂不再是传统课堂，而评教仍然属于传统评教，教学实践领域的革新迫切要求评教方式跟随作出变革。在《国家中长期教育改革和发展规划纲要（2010—2020）》中也高屋建瓴的提出要“改革教育质量评价，改进教育教学评价，探索促进学生发展的多种评价方式，”学生中心的发展性评教应该成为评教制度改革的方向。

综上所述，现行教学评价体制下的学生评教整体有效，评教结果与教学活动特征指标具有显著的一致性，评教体现了对“教”的评价，学校教育管理部门应利用好评教结果，努力实现评教的促教功能。同时，评教中非教学因素的影响客观存在，评“人”的成分在某些方面较为突出，降低了评教的有效性，应建立多元多维的评教体系，将评教工作评细评实，结合课堂教学形式新变化，助推发展性评教的尽早实施。

参考文献：

[1]甘晓，程唯珈.变味儿的评教——科教界反思教学质量管理方式[N].中国科学报，2018-06-05（1）.

[2]陈宝生.在新时代全国高等学校本科教育工作会议上的讲话[J].中国高等教育，2018（15）：4-10.

[3]荀振芳.大学教学评价的价值反思[D].中国海洋大学出版社，2005.

[4]蔡永红，黄天元.教师评价研究的缘起，问题及发展趋势[J].北京师范大学学报（社会科学版），2003 （1）： 130-136.

[5] 朱丽.从“选拔为先”到“素养为重”：中国教学评价改革40年[J].全球教育展望，2018，47（8）.

[6] 李定仁，刘旭东.教学评价的世纪反思与前瞻[J].教育研究，2001（2）：44-49.

[7]Roth G，Assor A，Kanatmaymon Y，et al.Autonomous Motivation for Teaching：How Self-determined Teaching May Lead to Self-determined Learning.[J].Journal of Educational Psychology，2007，99（4）：761-774.

[8]郭丽君.走向为教学的评价：地方高校教学评价制度探析[J].高等教育研究，2016（6）：68-73.

[9]邱文教，赵光，雷威.基于层次分析法的高校探究式课堂教学评价指标体系构建[J].高等工程教育研究，2016（6）：138-143.

[10]Cashin W E.Student Ratings of Teaching：A Summary of the Research[J].Instructor，1988（69）：34.

[11]Onwuegbuzie A J，Witcher A E，Collins K M T，et al.Students' Perceptions of Characteristics of Effective College Teachers： A Validity Study of a Teaching Evaluation Form Using a Mixed-Methods Analysis[J].American Educational Research Journal，2007.

[12]Avalosbevan B.Teacher Evaluation in Chile：Highlights and Complexities in 13 of Experience[J].Teachers & Teaching Theory & Practice，2018，24（2）：1-15.

[13]姜凤华.现代教育评价：理论· 技术· 实践[M].广州：广东人民出版社，2003.

[14]谢安邦，侯定凯，汪婧莉，等.走向多元，综合的教师评价[J].大学.研究与评价，2007（2）：33-38.

[15]孙翠香，范国睿.教师评价政策：美国的经验和启示——以美国中西部地区教师评价政策为例[J].全球教育展望，2013，42（3）：57-65.

[16]杨卫东，张征.探索回归本真的高校教师教学评价[J].教育研究，2016（12）：130-132.

（责任编辑赖佳）

收稿日期：2020-03-03

作者简介：吴立军，广东金融学院副教授，经济学博士;田启波，深圳大学教授，博士生导师。（广州/510520）

*本文系广东省教学改革和教学质量项目“评‘人还是评‘教——基于广东省高校调查數据的评教有效性研究”（粤高教函[2018]180）阶段性成果;并受国家社会科学基金重大项目“习近平生态文明思想研究”（批准号18ZDA004），2019年广东普通高校重点科研平台与科研项目“广东服务贸易可持续发展研究基地”（2019WZJD004）项目资助。