学生评教的信度、效度、影响因素及应用风险

2018-12-27韩映雄周林芝

复旦教育论坛 2018年6期

韩映雄，周林芝

（1.华东师范大学考试与评价研究院，上海200062；2.华东师范大学高等教育研究所，上海200062）

一、引言

过去二十年来，要求高等教育“回归教学”的声音日益高涨，社会各界对大学教学质量的担忧和重视已经到了前所未有的高度。教育部先后颁发的两个有关高等教育质量的文件以及相关研究[1]就是例证。人们对大学教学质量的担忧，一方面是由于高等教育规模扩大所引致，另一方面也与大学过于重视科研的绩效办学观有密切关系。这一现象并不是我国高等教育发展所独有的现象，美国等高等教育发达国家在20世纪80年代也曾出现过。

导致大学教学质量下滑或变化的原因既包括来自主观的理念或认识因素，也包括一定社会历史条件下的高等教育外部因素，如全球学术竞争、知识分工、一流大学建设需求等。就理念因素而言，如何衡量和评价大学教学质量，既是学术界持续讨论的热点问题，也是教育管理界所面临的难题。与科研质量评价相比较，教学评价要更加复杂和难以达成共识。

基于此，研究以2000年以来Web of Science核心数据库中发表的有关大学教学评价的研究成果为资料来源，试图回顾和总结近20年来学术界和教育管理界对学生评教的最新思考和实践经验。

二、资料来源及分析方法

研究以Web of Science核心数据库为文献检索来源，不设时间限制，共检索到包含Teaching Evaluation、Evaluation of Teaching等检索词的英文研究文献523篇，经过筛选后得到360篇有效文献。

研究使用知识图谱法作为文献处理和分析的方法，该方法是以科学知识为对象，通过空间表征法，综合运用科学计量学、信息可视化技术、应用数学、图形学等学科的理论和方法，揭示科学文献和引文路径的复杂交织所反映出的科学交流及发展趋势[2]。与传统的内容分析法相比，知识图谱分析法的优势在于可以更客观、形象反映某学科或知识领域的研究热点和研究趋势，且能够完整地呈现出那些有影响性的、高引用率的代表性文献。从文献的全面性和系统性角度看，知识图谱法有其独特的优势。但该方法也明显存在不足——在反映论文更为详细观点上的深度不够。为克服这一缺陷，研究对经知识图谱分析方法所得到的代表性论文开展了仔细阅读和主要观点的梳理与归纳。知识图谱分析方法仅是本研究的信息收集方法，但研究结论并不仅仅局限于知识图谱方法所自动生成的诸多图表信息。

三、学术热点及发展趋势

表1-表3是Cite Space软件分析出的高共被引文献、高中心性文献和突现文献。

上述大部分文献都对学生评教这一主题进行了讨论和分析，这说明学生评教是大学教学评价领域的热门问题。在学生评教研究领域内，以下问题被多次讨论：

表1 Cite Space软件分析出的高共被引文献

表2 Cite Space软件分析出的高中心性文献

表3 Cite Space软件分析出的突现文献

（1）学生评教是否具有较高信度？不同学生的评教结果是否具有一致性？

（2）学生评教是否具有较高效度？评教结果能在多大程度上反映教师教学有效性？

（3）学生在评教过程中是否受到非教学因素的影响从而导致评教结果出现偏差？

（4）学生评教结果的应用中存在哪些问题？如何更好地应用学生评教结果？

（一）评分者信度是影响学生评教信度的重要变量

学生评教信度是指学生评教结果稳定反映教师教学水平的程度。当学生评教结果在不同时间、构成测量的不同项目和不同评价者之间保持一致时，学生评教具有较高的信度。马什（Marsh）指出，造成学生评教结果不一致的最主要原因是不同学生对同一名教师的评价不同，而不是不同学生评教指标之间缺乏一致性。因此，研究学生评教信度最重要的是检验评分者信度（inter-rater reliability），即检验同一课程中不同学生之间评教结果的一致性程度[3]。

对评分者信度的研究早已有之。在早期的研究中，学者们普遍使用班级平均评教分数来衡量信度，这种被众多学者认可的计算方法的最大缺陷是忽略了学生个体之间的差异[4]。随着统计学的发展和应用，学者们将班级平均情况与学生个体情况纳入研究当中，引发了人们对学生评教信度问题的再次讨论。莫利（Morley）指出，一些经典研究中检测学生评教信度的方法虽然广为流传，但使用的是班级平均评教分数，且部分存在逻辑问题。他同时提出，不能使用班级平均评教分数的原因是环境污染（environmental contaminates，即班级内部的环境因素如学生之间的交流等）会导致学生评教信度虚高。平均数还会掩盖影响班级内学生评价教学的重要潜在变量，并不能帮助研究者了解教学之外影响信度系数的环境因素。他使用SPSS宏命令（SPSS macros）对样本进行单向或双向的组内相关系数（intra-class correlation coefficient，简称ICC）检验后发现，在1073个使用特定工具开展评教的班级中，仅有21%~28%的班级内部评分者信度系数大于等0.7[5]。克雷森（Clayson）也对学生评教的信度进行了检验，结论与莫利相似。他发现班级内部学生评教结果之间的差异较大，14个班级中仅有4个班级的ICC值大于0.7，且所有班级的Krippendorff's alpha系数都没有达到可接受的水平[6]。丹妮拉（Daniela）等人运用多级交叉分类模型（cross-classified multilevel models）和方差分量法（variance componen）分析总方差中能用学生、教师和课程特征解释的比例后发现，学生与教师的相互作用（即学生的期待、能力、兴趣等特征与教师的期望、风格等特征的匹配程度）以及一些未知的变量是造成评教结果差异的主要来源，而能够反映评分者信度的特征只能解释小部分的学生评教结果差异[7]。

上述3项研究证明，在学生评教中，评分者信度普遍较低。早期研究由于在研究设计上存在问题，从而夸大了学生评教的信度。不过，学者们意识到特定的评教工具可能对信度有所影响，因此没有彻底推翻学生评教信度较高的传统结论。

（二）学生学业成就日益成为备受关注的因素

学生评教效度（或有效性）指评教结果反映教学有效性的程度。斯博仁（Spooren）指出，教育学家仅在教学有效性的一些特征（例如丰富的学科知识、良好的课程组织、帮助学生学习、具有教学热情、及时反馈、与学生进行互动等）上达成共识，但还未能明确定义教学有效性[8]。因此基于这些模糊的教学有效性特征而建立起的学生评教工具之间存在着较大差异，常常被诟病效度较低。对此，以马什为代表的学者们提出，可转而研究学生评教与其他衡量教师教学有效性标准之间的相关性，并以此来检测学生评教的建构效度（construct validity）。如果学生评教结果与学生学习成就、教师自评、同行评议等教师教学有效性标准的测量结果正相关，并且特定的学生评教因子与其在逻辑和理论上联系最紧密的变量高度相关，则说明学生评教的效度较高[3]。

自1974年苏利文（Sullivan）等人[9]发现学生评教与学生的平均测验成绩存在正相关以来，学者们使用不同的评教工具与学习成就测量工具，运用多种方法对二者的相关性展开了研究，得出了不一致的结论。就研究方法来说，为了比较学生在不同课程中获得的学业成就，学者们一般使用多段效度范式（multisection validity paradigm）。近期也有比较新颖的研究方法出现，如加尔布雷斯（Galbraith）使用的神经网络分析法（neural network analysis）[10]。就研究结论来说，克雷森的元分析显示，由于统计的复杂性随时间推移而不断提高，总体趋势是后期研究得出的二者相关性普遍小于前期的研究结果。克雷森也指出，造成研究结论不一致的最主要原因还是测量工具的差异。学生评教和学生学习成就的测量工具越客观，二者的相关性越小[11]。斯特勒（Stehle）的研究也证明了这一观点，并解释了不同测量工具影响研究结论的原因。由于客观考试（在斯特勒的研究中是多选题考试）一般考察陈述性知识，这类知识可通过自学、背诵等渠道获得，教师在其中发挥的作用不大。而主观考试（在研究中是考察实践操作能力的考试）涉及的知识更有可能由教师传授获得，教师的教学目标也与主观题考察的分析问题、应用知识更相符[12]。因此，与主观测试相比，客观的学生学业成就测量工具往往更难检测出教师的作用，测量结果也就与反映教师教学有效性的学生评教结果更不相关。不过，也有与测量方法无关的因素影响着二者的相关性，如学科差异等[11]。可见，学生评教与学生学习成就的关系十分复杂，“评教结果好的教师能让学生收获更多知识”这种简单的论断并不准确[10]。

也有研究涉及学生评教与教师对教学效果的自评、同行和管理者评价、专业观察者评价的相关性，但是这类研究数量较少。正如马什提出的，检验学生评教与其他教学有效性标准之间的关系时必须注意评教的多维性[3]。如研究学生评教与教师自评的相关性时，不仅要检验二者在总体评价上的相关性，还要在不同的评教维度（例如课堂管理、教学热情、与学生相处情况等)上检验相关性。另外，目前也缺少对学生评教与学生学习动机、学习策略、学习兴趣之间关系的探讨。教师教学对学生学习的促进不应只表现在学习成就方面，但学生在态度、策略等方面的变化是否可以作为教学有效性的衡量标准、与学生评教存在怎样的关系还有待研究。综上所述，学生评教效度是一个被不断讨论但仍存在争议，有待继续深化研究的主题。

（三）分数、教师魅力等非教学因素对学生评教结果的影响日益受到关注

常见的非教学因素包括教师、学生和课程的背景特征（background characteristics）如教师的性别、职称和教龄，学生的兴趣、选课原因和预期分数，课程类型、课程安排和课程难易程度等。

1.分数对学生评教的影响

教师和学生之间若存在分数互惠关系，则很容易引发分数膨胀效应。因此学者们就学生分数特别是高于实际学习水平的分数对评教结果的影响进行了大量研究。

首先，学生分数概念的外延扩大了。早期对学生分数的讨论局限于实际分数（如课程考试分数）和预期分数（可能反映学生的真实学习水平和受教师评分标准影响的期待分数）。而艾斯利（Isely）指出，学生的相对预期分数（Relative Expected Grade，即预期分数与历史分数的差值）比预期分数更显著影响学生评教结果。这是由于历史分数代表了学生习惯接受的成绩，而预期分数可能受具体教师打分习惯的影响，这两个成绩的差值更能反映教师宽松打分的程度，因此应将相对预期分数作为学生分数对学生评教影响的解释变量[13]。

其次，研究结论各执一词。对学生分数和学生评教存在正相关关系的解释衍生出支持两种截然不同的假设：支持评分宽大假设和支持效度假设。支持评分宽大假设（grading leniency hypothesis）的学者认为，分数互惠导致了正相关，因此宽大评分是学生评教的重要潜在偏差来源。而支持效度假设（validity hypothesis）的学者认为，评教分数高的教师确实促进了学生学习，这些学习效果好的学生获得了更高的分数，二者的正相关关系恰好证明了学生评教的效度较高[14]。这两种假设的支持者经过多年讨论仍各执一词。支持评分宽大假设的学者用数据证明，当学生预期分数增加1个单位时，学生评教分数也会相应增加[15]。朗本（Langbein）在控制预期分数、教师和课程特征的影响后也发现，给学生打分高的教师会在学生评教中得到更高分数。因此，学校若为迎合学生喜好，仅将学生评教结果作为评价教师教学水平的依据并以此进行人事决策的话，就会在教师和学生中产生沃博艮湖效应（Lake Wobegon Effect）——即教师的教学水平和学生的学习成就均虚有其表。这不仅不利于教师教学水平的提高，还会对就业市场有一定影响[16]。卡雷尔（Carrell）的研究也发现，宽大评分的做法尽管会使学生们一时取得高分，但学生却在在后续课程中表现不佳。他同时指出，学生评教对学生在同期课程中的成绩有正向预测作用，但对他们的后续成绩的预测作用很差[17]。这说明教师评学和学生评教都没能反映出真实的学习和教学情况。布拉加（Braga）在卡雷尔研究的基础上更进一步，他证明了学生主要根据课堂中的实际效用即获得的成绩而非教师的教学效果来进行评教[18]。这两位学者的研究从另一个侧面说明学生评教容易受到宽大评分的影响。捍卫学生评教效度的学者重点反驳了评分宽大假设支持者对预期分数与学生评教相关性的解读，认为预期分数与学生真实学习水平更为相关。这种预期分数与学生真实学习水平的相关性被称为预期分数的内生性（endogeneity）。希维（Seiver）最早关注到这一点，他认为虽然前人研究发现预期成绩影响学生对教师的评价，但实际上教学质量（用学生评教衡量）也可能影响预期成绩[19]。在此之后，诸多学者的研究证明，当控制教学质量相关因素之后，预期成绩对学生评教的影响会减弱。马什等人发现，一旦控制学生学习认知的影响，班级平均预期分数和学生评教之间的关系就被消除了[20]。森特拉（Centra）基于大样本研究也发现，学习成果对学生评教结果产生了很大的积极影响。而在控制学习成果后，预期成绩通常不会影响学生评教结果[21]。斯博仁也认为学生评教受学生分数的影响较小，他运用马什编制的学生评教量表（Students'Evaluation of Teaching，简称SET）[22]，运用交叉分类多层次分析（crossclassified multilevel analysis）探究了学生和教师特征对学生评教分数的影响以及造成学生评教结果偏差的因素。结果显示，人们普遍认为会显著影响评教结果的因素如学生的分数、课堂参与以及教师的职称等实际上对结果的影响并不大[23]。

还有研究者对分数的影响持中立态度。如萨巴莱塔（Zabaleta）专门研究了学生课程所得分数与评教结果之间的关系以及教师的年龄、性别、教学经验等因素对二者的影响，并发现学生所得成绩与评教结果之间的关系比较模糊[24]。由此可见，关于分数与学生评教之间的关系目前尚无共识。最近有学者指出，一些研究者似乎经常从前人研究中挑选支持他们假设的结果，甚至产生了研究者偏差（experimenter bias）[25]。

2.教师魅力对学生评教的影响

近年来兴起的对教师魅力的关注，源于一个广泛使用的非官方学生评教网站——RateMyProfessor.com。大学开始对学生评教结果进行匿名处理之后，寻找不到足够大的样本成为困扰研究者的难题。因此，研究者开始应用评教网站上公开的数据开展研究。在各类评教网站中，RateMyProfessor.com的影响最为广泛，它不仅成为美国学生选择学校和课程时的参考资料，还被一些大学排行榜用作数据来源。许多学者认为，对这种评教网站的数据进行分析，将有助于深入理解学生评价教师的过程和潜在偏差。

RateMyProfessor.com网站使用的评教工具由4个维度组成：课程难度（easiness）、清晰度（clarity）、帮助度（helpfulness）和魅力度（hotness），其中魅力度是争议较多的维度之一。费尔顿（Felton）指出，课程的难易度以及教授的个人魅力等与教学无关的因素会影响学生评教结果[26]。他认为个人魅力强的教师会产生光环效应，即这种好的总体印象会影响学生对其他方面的判断。但这项研究没有考虑到评分中的负值的缺失值，对此，费尔顿在此基础上做了改进性研究，结果同样发现总体教学质量和教师个人魅力之间存在统计上的显著相关[27]。罗森（Rosen）在费尔顿的基础上对魅力度数据进行了更科学的处理，依然得出教学质量评分与个人魅力呈正相关且不同学科获得的评教分数存在差异的结论[28]。这些研究都一致证明了教师个人魅力与学生评教之间的正相关关系。

随着时间推移和数据处理技术的进步，有学者开始质疑使用RateMyProfessor.com网站数据进行研究的科学性问题。克雷森就指出，RateMyProfessor.com网站使用的评教工具不是评价教学有效性的工具，而更像是学生喜爱度量表，因此用这种工具评价教师教学质量是不合理的。但也有研究发现，RateMyProfessor.com网站的评教结果与院校自行组织的学生评教结果在统计上具有相关性，因此院校也需要重新检查自己使用的评教工具[29]。除了教师个人魅力外，课程难易程度、教师性别等也是讨论的热点，但研究结论尚未达成共识。另外，随着网络评教的兴起，学者们开始关注不回应偏差（non-response bias）对学生评教的影响。赖森维茨（Reisenwitz）的研究指出，参与网络评教的学生与未参与评教的学生在性别、种族、GPA方面存在显著差异，拒绝参与评教的学生可能影响由参与评教学生组成的样本的代表性。为此，大学应通过加强动员，采用纸质评教与网络评教相结合的方式来避免这种偏差[30]。

总体而言，非教学因素对学生评教的影响是一个讨论丰富但结论不统一且仍有待继续研究的主题。

（四）学生评教结果应用中的问题不断涌现

如何使用学生评教结果来帮助教师提高教学水平呢？学生评教除了能为管理者人事决策提供信息外，还应能诊断教师教学的优缺点。尽管学生评教提供的信息有潜在的用处，但如果直接将学生评教结果反馈给教师，可能对教师教学水平的促进作用非常有限。因为在缺乏指导和帮助条件下，教师不一定会主动改进教学。甚至有学者发现，学生评教的结果越负面，教师行为就越不可能发生变化[31]。马什指出，学生评教结果摘要、针对教师个人的总结材料、结合学生评教结果的教学专家咨询这3种反馈方式对教师教学水平的影响依次增大[22]。因此，学校管理者若想充分利用学生评教资源，应当请教学专家有针对性地帮助教师改善教学。另一个重要问题是如何更加科学地解读评教结果。学生评教结果可分为两类：一类是评教分数，另一类是开放性问题的回答。首先，现实中存在管理者误读评教分数的现象。博耶森（Boysen）发现，管理者大多缺乏统计学知识，因此经常使用分高者更优的惯性思维来比较不同教师的学生评教分数，这种比较甚至精确到学生评教平均分数的小数点后3位。但实际上，比较学生评教中很小的差异是不科学的，因为可能是与教学无关的因素影响了评教分数。为此，他提出解释学生评教结果的原则——不能直接对原始平均分进行比较,要使用严格的统计方法如计算测量的标准误和置信区间以及给出真分数的范围等[32]。其次，实践中存在对学生评教信息挖掘不够的问题。虽然斯文尼奇（Svinicki）[33]的研究证明了开放性评价在学生评教中具有重要作用,并建议在设计学生评教问卷时关注设置开放性问题，但是由于开放性问题回答的文本量过大，相关人员并没能挖掘其中蕴含的丰富信息。近年来，随着文本分析软件的发展，此种情况才有所改变。

四、结论与讨论

（一）学生评教的必要性

学生评教作为一种手段和工具，是为满足评价大学教学水平需要而产生和发展起来的。除了学生评教这种手段之外，教师自评、同行评价、督导评价等其他方法也在大学教学评价实践中有所使用。相对而言，学生评教因其操作简便且能反映学生在教学和学校管理中的主体地位而被众多院校采用，并已成为当前最主要的教学评价手段。从知识图谱分析结果来看，学生评教也是大学教学评价领域的热门主题。尽管如此，很难说学生评教就是最佳手段。学生评教的信度、效度、影响研究还有诸多有待讨论之处。在尚未找到最佳手段之前，学生评教只能作为权宜之计而存在。

在有关大学教学水平评价的研究中，学者们不断致力于对学生评教开展深入细致的研究，以便持续推动该方法的优化并提升其科学性。假使未来，人们能更清楚地揭示出学生评教实践中的谜团、困惑和可靠的技术路径，学生评教将可为大学教学评价提供更为有力的帮助和贡献。限于人们对学生评教当前的认识水平和实践经验，保持清醒、理性和谨慎的态度应用学生评教是十分必要的。没有学生评教的大学教学评价是不完善和不全面的，但单纯依赖学生评教开展教学评价的做法也是不可取的。

（二）学生评教效度

格林沃尔德（Greenwald）[34]的研究为思考学生评教效度开启了更为广阔的视角，他提出的4种效度——概念结构、聚合效度、区分效度和结果效度实际上分别对应于实践中的如下4个基本问题：学生评教的维度即指标体系应该是怎样的？学生评教的结果能否真正筛选出那些可以称之为有效的教学？教学之外的哪些因素影响学生评教的结果？学生评教是否能达到促进教师专业发展的目的？这4个问题也正是当前我国大学在应用学生评教过程中所面临的困惑。

首先，在评教指标体系方面，科学性不高是一个普遍问题。例如，在不少院校，诸如“老师不迟到、不早退”之类的问项常被用作评价维度。其实，不迟到和不早退是教师教学中的一个事实行为，它并不需要学生做主观价值判断。对此类行为，利用技术手段如实记录即可获得证据。交由学生判断，便出现与事实不符的调查结果。类似不科学的问项在学生评教问卷中的出现，足以反映当前我国院校学生评教问卷的质量是令人担忧的。院校管理者或相关部门有时候并不重视学生评教问卷的科学性，也较少开展规范的科学研制，大多数时候是由非专业的管理人员依据经验或是别校的样例东拼西凑而成，也有不少院校的学生评教问卷是由承担问卷实施系统的技术公司提供的。学生评教的有效性本来就受制于很多难以控制因素的影响，如再加之问卷质量科学性不够的现实，其结果的应用和参考价值自然就大打折扣了。

其次，在关于学生评教结果与有效教学或学生学业成就之间的关系问题上，克雷森和加尔布雷斯的研究结论颠覆了人们之前已经形成的对此问题的既有观念和看法。本来，人们只是想通过学生评教促进教师更好地教学并最终达到学生获得更多学业成就的目的，现在既然评教结果与学生学业成就之间的关系很模糊甚至很小的话，似乎实在没有必要耗时耗力地实施学生评教了。的确，假使学生评教只有此种单一功能的话，放弃它没有什么坏处。但是，学生评教已经被寄托了除此之外的其他用途——课程教学质量鉴定、教师人事决策、学生的课程教学满意度测评等。

第三，如何恰当看待影响学生评教结果的因素以及降低或控制这些影响因素。如前所述，有太多因素会影响或干扰学生评教的结果，这为后续充分利用学生评教结果实现其他管理目标带来客观上的障碍和挑战。随着研究的深入，有可能还会进一步发现更多的影响因素。发现这些影响因素是必要的，但更重要的是在实施学生评教时如何控制这些影响因素，或是将其作为控制变量，这是后续有待深入研究的一个重要方向。

最后，在教师人事管理中如何恰当利用学生评教的结果。简单地将学生评教结果与教师的奖惩、薪资直接挂钩的做法是不当的，也是不负责任的。但现实中，有很多院校却是这样做的。这种做法歪曲了学生评教本该具有的良好价值属性，并导致教师对学生评教产生更大的抱怨和误解，甚至还会促使教师与学生联手合作——学生获得满意的分数、教师得到中意的评教结果。学生评教作为教学评价手段的初衷本是服务于教师专业发展，确切地说，是用于寻找和收集教师教学的不足与缺陷。

（三）学生评教结果的应用风险

基于人们对学生评教的认识水平和应用现状，有两类风险在实施学生评教时应予以正视和防范。

一是系统性风险。系统性风险是指那些由学生评教作为一种评价手段的功能局限而带来的风险。上述的学生评教结果未必与学生学业成就以及有效教学之间密切相关、诸多目前尚难以控制的因素对学生评教结果的影响等均属于系统性风险。系统性风险是不可避免的，但却是可容忍的。毕竟，任何事物都有其固有的局限性。防范系统性风险的根本办法是在任何时候都不要把学生评教作为衡量大学教学水平的唯一手段。与此同时，通过加深对学生评教客观规律的认识来给学生评教实践“打补丁”。另一种风险是误用性风险。误用性风险是指那些因未能使用科学的学生评教问卷或是滥用学生评教结果而导致的风险，如使用低质量的学生评教问卷、将学生评教结果与教师奖惩、薪水直接挂钩等就属于误用性风险。误用性风险的危害远大于系统性风险，是需要力争在实践中予以有效防范的。要想做到这一点，首先需要教学管理人员树立对教育科学成果的敬畏之心，其次，在学生评教问卷研制、结果运用的过程中尽可能地吸收教师和学生的意见和建议。