学生评教中的博弈与变革

2020-11-04孙由之

高教发展与评估 2020年5期

孙鳌，孙由之

(1.南方医科大学经济学系，广东广州 510507；2.中国矿业大学(北京) 英语系，北京 100083)

一、学生评教研究综述

大学生评教开始于20世纪30年代美国的个别高校，到70年代已成为西方大学的普遍实践，在中国高校流行则是在90年代[1]。作为一种改进教的策略，学生评教的基本假设是，学生是教师提供的服务的直接消费者，他们不仅有充分的激励而且有足够的理性客观公正地给教师打分，而教师可以从分析学生的评分中，反思其教，找到有效的改进策略。然而，与预期相反，学生评教从一开始就遭到教师普遍而持续的抵制[2]。主要原因是：绝大多数高校在实践中，都把学生评教用作对教师进行总结性评价的工具，以加强对教师的人事管理和控制，而非形成性评价的工具，以帮助教师改善其教绩。各大学在实行学生评教后，都程度不同地出现了持续的学生课程分数的膨胀和教师普遍的焦虑，却没有人找到学生评教改善教学绩效的有力证据[3-4]。

学生评教所具有的广泛而持续的争议性和其在高等教育中的重要性，是大量相关研究文献产生的重要原因。国外对学生评教的研究主要集中在如下两方面：

第一，影响学生评教行为的因素。研究发现，学生的特征(如个性、性别、心境、预期的课程分数、与教师的感情和关系、年级、学习的期望和抱负水平、心理取向、专业、人口特征、对教和评教的看法、完成评教问卷的学生在总学生人数中的百分比、对教师的感受或职业处境的关注、对其评价的代表性和影响力的信心等)，教师的特征(如性别、职称、学位、与学生的关系、教学经验、气质和形象等)和教师或学生不可控制的一些因素(如上课的具体时间、班级学生人数、课程计划学时数、课程的性质、学生评价的匿名程度、师生间的权力关系等)，都可能以特定的方式对学生的评教行为产生特定性质和程度的影响[5-18]。

第二，学生评教导致课程分数膨胀的证据、原因和解决办法。许多研究都证实了课程分数膨胀是内生于学生评教之中的[19]。主要原因是，教师为了使其获得的评教分数达到某个“安全”水平，而通过各种他人难以察觉的方式降低学术标准，使学生形成高课程分数的预期。其实质是，教师用高课程分数向学生“购买”高评教分数[20]。因为，作为自利而理性的经济人，学生一旦形成高班级平均课程分数的预期，就会倾向于给教师打高分[21]。其结果必然是评教分数与课程分数同时膨胀。毫无疑问，这是学生评教失灵的集中反映，也是高等教育出现危机的信号。

怎么办？有学者主张，根据预期分数、过去的分数、学生对课程的态度和教师的印象等，对课程分数进行事后调整[22]。另一些学者则建议，调整原始的评教分数，以消除教师可操纵的一些因素(如预期的课程分数和教师为提高评教分数所刻意创造的课堂娱乐性)和他们不能操控的一些因素(如课程的性质)的不利影响[23]。这些建议显然不具有现实的可操作性。作为对课程分数膨胀的反应，康奈尔大学在1996年实行一种新的课程成绩报告政策：一是在网上公布班级课程平均成绩，二是在成绩单上注明班级课程平均成绩。其理由是，学生和成绩单的使用者将因此获得更加准确的课程成绩的理念，从而鼓励学生选择平均成绩相对低的课程[24]。事与愿违，整个大学的平均成绩反而上升了。原因是，尽管高能力的学生较少被宽大评分的课程吸引，但他们在学生中的比例较低。结果，在哪些课程是宽大评分的课程成为所有学生都知晓的信息之后，注册宽大评分的课程的学生人数反而上升了。学生的这种选课模式被教师观察到的结果是，一些原来低评分的课程在第二期就变成了高评分的课程。与康奈尔大学不同，威尔斯利学院在2004年推出了一种课程成绩限制政策，规定初级课程的平均成绩不得超过3.33或B+。结果是，一些过去课程平均分高的系的平均课程分数和学生注册量都明显下降了。随后，这些系的教师的学生评教分数也在4.0标准下降低了统计上显著的0.11。然而，成绩限制政策并没有消除课程分数膨胀，却引起了学生对就业的焦虑[25]。毕竟，用人单位会根据学生在校的平均成绩判断学生的工作潜能。

显然，国外对学生评教的研究主要集中在学生的有限理性和机会主义行为倾向在评教中的表现和后果上。学生评教在实践中所暴露出的很多问题，都与它假设学生有充分的激励和理性去评教有莫大的关系。但是，已有的研究在很大程度上忽视了学生评教的博弈方面，至少缺乏深刻理解和解释学生评教所要求的博弈模型。

中国学者对学生评教研究的主要贡献是，用博弈模型解释学生评教中的各种策略性互动。叶五一等用动态博弈模型分析学生评教中师生间的互动，但他们选择的策略变量不够合理[26]。孙鳌从教育的信号发送功能出发，揭示了学生评教中高校间博弈的囚徒困境性质，但没有把这一思想模型化，也没有对他主张的学生评教失灵的解决办法——教的咨询——展开说明[27]。遗憾的是，中国学者都忽视了学生评教中高校与其监管者间的博弈。

本文的基本结论是，学生评教失灵是由学生评教中的各种博弈所内生的，根本的解决办法决不是努力去“完善”它，也不是要摒弃它，而是要改变它的用途，把它从对教师进行总结性评价和人事管理的工具，变成诊断、考核和发展教师绩效的持续过程的环节和手段。其实质是，在高校中实现从评教到教的咨询的变革。

二、博弈：课程分数与学生评教分数同时膨胀

(一)师生间博弈

在教师的各种利益与学生评教分数捆绑的政策下，教师追求的一个重要目标是，自己的学生评教分数达到学校规定的“优秀”等级。

因为，只有如此，他们的那些与学生评教捆绑的利益才是安全的。由于教师最终看到的学生评教分数是一个平均数，最可能导致这个分数低于优秀等级标准的是那些机会主义行动的学生。因此，教师在选择自己的策略和行动时必须考虑这些学生对他的策略和行动的反应。师生间的这种博弈可用博弈树展示如图1所示。

图1 师生间博弈模型

在图1所示的博弈中，教师有讨好学生和严格要求学生两种策略，学生有给教师打高分和打低分两种策略。行动的时序是，教师先行动；学生在观察到教师的行动后采取行动。教师得益的排序是：T1>T2>T3>T4。其成立依赖于两个假设：第一，教师严格要求学生要付出比讨好学生更多的努力成本和心理成本，如担心学生在评教时给自己打低分。第二，对教师而言，在努力成本一定的情况下，高学生评教分数总是好于低学生评教分数。学生得益的排序是：S1>S2>S3>S4。其成立也依赖于两个假设：第一，学生给教师打低分是有心理成本的，如学生对教师的内疚感和对教师可能产生报复行为的担心。第二，对学生而言，在心理成本一定的情况下，高课程分数总是好于低课程分数。用倒推法不难发现，教师的均衡策略是在博弈的第一阶段讨好学生，学生的均衡策略是在博弈的第二阶段“如果感知到教师讨好学生就给教师打高分，如果感知到教师严格要求学生就给教师打低分”。这里，均衡策略的含义是，它是每一方对对方策略的最佳反应，因而是博弈方不愿意单独改变的策略。实际上，正是因为预料到存在一定比例的学生会采取上述均衡策略，教师才普遍地和被迫地以各种他人难以观察和证实的方式降低学术标准，去讨好学生，以期获得一个“安全的”学生评教分数。其结果是，课程分数与学生评教分数同时膨胀。

机会主义行动的学生在总学生人数中的比例越高，上述结论就越可靠。这类学生最突出的心理特征是，对学习的期望偏低，往往满足于获得及格成绩，对学习过程和学识的进步基本上没啥兴趣。因此，上述结论具有明显的因学校类型而异的性质。

(二)高校间博弈

目前，高校教师降低学术标准以讨好学生已经是学校、教师和学生等各方间的共同知识。那么，为什么大多数高校会容忍自己的教师讨好学生呢？要回答这个问题，就必须理解学校间通过学生就业市场所进行的博弈。该博弈可用得益矩阵展示如图2所示。

图2 高校间博弈模型

在图2所示的博弈中，每个博弈方都有禁止和容忍两种策略，两个博弈方同时选择各自的策略和行动，每个博弈方的四种可能的得益的排序都是：T>R>P>S。得益R>P的主要原因是，当所有学校都容忍本校教师讨好学生时，高课程分数就不再代表高学习能力和工作潜能。其直接后果是形成一种混同均衡，用人单位无法根据课程分数把高能力的学生与低能力的学生分开，优秀学生无法通过获取高课程分数向相关单位发送其高能力的信号，他们会因此抱怨甚至愤恨学校的学生评教政策，其学习的激励会受到削弱。所有这些后果通过各种途径和机制，损害整个高校的社会声誉。表现之一是，学生不认同本国高校，宁愿花费巨资也要到国外读书。然而，当所有高校都禁止自己的教师讨好学生时，前述过程和机制就会在相反的方向上起作用，最终改善高校的社会声誉。得益T>S的主要原因是，用人单位因在严格限制的时间内获取申请者能力信息的成本相对于其收益偏高，根据申请者平均课程分数判断其能力的高低。在其它学校容忍其教师讨好学生时，禁止教师讨好学生的高校的毕业生会因其它学校的学生有更高的平均成绩而在职位申请中吃亏。这必然会逐渐地削弱禁止教师讨好学生的高校在招生中的吸引力。容忍教师讨好学生是每个学校的均衡策略，也是其占优策略：没有一个学校愿意单独改变其策略，而且，无论其它学校采取什么策略，每个学校的最佳策略都是容忍其教师讨好学生。这是高校教师讨好学生能够长期存在的一个重要原因。

(三) 高校与监管者间的博弈

与国外的学生评教不同，中国高校的学生评教最初并不是高校自愿采取的行动，而是在高校监管当局的行政命令下被动采取的行动，而且，一直处在监管当局的监督之下。中国高校与其监管者之间的博弈可展示如图3所示。

图3 高校与监管者间博弈模型

该博弈的时序是，高校监管者首先行动，选择要求还是不要求高校实行学生评教。高校在观察到监管者的选择后行动，决定执行还是不执行监管者的要求。最后，监管者在观察到高校的行动后，决定监督还是不监督高校的学生评教。隐含在模型中的得益数字里的重要假设有：第一，如果监管者要求高校实行学生评教而高校不执行，监管者会因其权力得不到尊重而受损，其报复将直接损害高校战略决策者的利益。第二，监管者的监督收益包括行使权力所带来的心理满足和实实在在的政绩等，大于其监督成本。第三，在没有监督的情况下，高校有更大的自由裁量权，其收益大于有监督下的收益。用倒推法可知，监管者的均衡策略是，在博弈的第一阶段要求高校实行学生评教，在博弈的第三阶段监督高校执行学生评教，而高校的均衡策略是，在博弈的第二阶段执行监管者的要求。这意味着，即使高校主观上不愿意实行学生评教，由于监管当局的要求和监督，它们在现实中也会实行学生评教。

三、学生评教的变革：从评教到教的咨询

教师的聘用、任期、晋升、职称评聘、评优评奖和年度考核等人事决策与学生评教分数挂钩，还会使大多数教师只关心自己的学生评教分数是否处在“安全的”范围内，而不关心学生评教分数对改进他们的教学绩效的意义。结果，学生评教不仅不能改进教师的教，还会导致对教师的不公平评价，一些学术水平高而严格要求学生的教师被打低分，而一些学术水平低的讨好者则被打高分[28]。这必然会引起教师对学生评教的抱怨，降低他们的士气[29]。因此，要克服学生评教失灵，就必须改变学生评教的用途，使其从总结性评价的工具变成形成性评价的手段[30]。为此，必须在高校中实现一个根本的变革：从评教到教的咨询。

教的咨询是企业管理咨询在高等教育中的对应物，其本质是由代表学校的咨询专家向教师提供的旨在改进教师绩效的咨询服务，是高校绩效管理的核心内容和环节。它绝不是一种单纯的评价和反馈过程，而是确认、考核和发展教师的绩效，并使它们与组织目标一致的持续过程。尽管咨询专家与教师间存在着权力关系，教的咨询是咨询专家与教师间的基于信任和感情的持续的互动和合作过程[31]。在这个过程中，教师要把评教与教的咨询看成自己成长的机会和其职业责任的延伸，积极参与教的咨询的各个阶段[32]。

教的咨询主要有三个阶段：诊断教师绩效问题，制定和执行教师绩效改进策略。在第一阶段，咨询专家的主要任务是：确认教师什么地方做得好因而要坚持甚至推广；什么地方做得不好因而要改进。这里的“确认”不是简单地根据学生评价或教学督导评教表进行判断，而是要从教师的自我评价与学生评价的对比出发，倾听教师对学生评教结果的解释，与教师们一起讨论他们对学生评教的看法和他们的教学理念，以共同确认他们的教的特征和模式，尤其是那些要改进的问题[33]。在第二阶段，咨询专家要与教师一起讨论和确定教师要努力实现的和可行的变化或目标，并讨论各种可能的策略，包括各种策略的执行所要求的资源，可能遇到的困难，可能引起的变化，尤其是各种改进策略所体现的特定的教学理念，以期在双方达成共识的基础上“多中选优”地确定教师绩效改进策略。在第三阶段，咨询专家要与教师面对面地讨论改进策略的执行情况，回答教师的问题，提供有效的反馈，以保证教师绩效改进策略得到有效的和创造性的执行。

与单向的、没有申述机制的现有教学督导评教和学生评教反馈不同，教的咨询中的反馈是一种咨询性反馈，它渗透在教的咨询的各个阶段，其基础是咨询专家与教师之间的互动、信任和感情。咨询专家与教师之间的互动是多样化的，有产品、处方、合作、亲密和挑衅等五种基本模式[34]。教师对咨询专家的信任是重要的，因为，如果没有基本的信任，教师就可能把咨询专家提供的反馈理解成吹毛求疵的和控制性的，咨询的效果就会大打折扣[35]。咨询专家与教师之间的感情意味着，双方看重彼此关系本身的价值，能够从彼此的互动中获得积极的心理满足。教师看重与咨询专家之间的感情是重要的，因为，有效的咨询要求教师与咨询专家间持续的互动。教的咨询中的咨询性反馈是一种形成性反馈，是咨询专家向教师提供的旨在改善教师教的理念、技能、行为和效果的信息。其基本特征是非评价性、支持性、及时性和明确的针对性，它也是一种基于学生评教的反馈[36-37]。这意味着，咨询专家可以先确认学生评教分数低于平均分的教师，然后多途径多渠道地搜集这些教师的绩效信息，再与教师本人一起讨论这些信息，以发现教师的绩效问题，并共同制定教师绩效改进策略。其关键是咨询专家与教师一起讨论教师对学生评教和分数的看法，以及他们的教学理念。研究发现，没有教的咨询的单纯的学生评教反馈往往不能改善教师的教，而与教的咨询耦合的学生评教反馈则能显著地改善教师的教[38-39]。这是因为，教的咨询中的咨询性反馈在本质上是一种帮助教师从绩效取向转变到学习取向的认知支持机制，也是帮助教师获取独立工作能力的过程[40]。

在教的咨询中，咨询专家是教师绩效的诊断者、促进者、发展者和合作者而非单纯的评价者，他们的咨询才能和努力在很大程度上决定着咨询的效果。因此，必须挑选和吸引真正有教的咨询才能的人组成咨询团队，并设计和构建有效的激励机制使他们在追求自己的私利中最大化教师的绩效。为此，首先要对咨询专家实行效率工资，使他们的工资略高于教授的工资。只有这样，才能吸引真正有教的咨询才能的人参与教的咨询实践，鼓舞他们的士气，使他们尽其所能地投身于教的咨询中。毕竟，教的咨询是一种创造性的复杂劳动，不仅要求咨询者具备先进的教学理念、高超的沟通技巧和卓越的干中学能力，还要求他们投入大量的时间和心智资源，任何第三方都难以对他们的工作进行有效监督。目前，高校中的教学督导制度的主要问题是，教学督导往往满足于通过一次性的十几分钟的听课，就给教师一个评分，还不给教师任何解释和辩护的机会。主要原因是，督导的“工资”偏低，现在的“行情”是每月2 000元，既不能吸引真正有能力的人当教学督导，又不足以使他们下功夫去做好督导工作。当然，根本原因是，目前，教学督导制度在本质上只是学校监督教师而非给教师提供咨询的机制。

要把学生评教变成教的咨询的一个环节，还必须为改进教而重新设计学生评教表。目前，高校使用的学生评教表存在的主要问题是：第一，更加关注教师的行为而非学生的行为和成就，体现的是以教师为中心而非以学生为中心的教学理念[41]。评价标准没有抓住好的教的大多数元素，使用无效的和不恰当的标准去评价教。第二，假设学生有充分的愿望和能力按表中条款和标准公正地评价教师，忽视了学生的机会主义行为倾向和有限理性对其评价行为的不利影响。不仅设置了一些学生没有能力正确判断的问题，如教师的沟通技能、学识水平、教学组织和教学规划等，还导致学生评教在一定程度上成了机会主义行动的学生借以制约教师的渠道和机制[42]。第三，假设有效的教的特征都可以用数字量化，学生评教90分的教师肯定比89分的教师优秀。其结果是对数字的过度依赖和迷信[43]。第四，它包含的教的信念也许与教师的不一致。来自于评价表的反馈无助于教师反思其教学实践[44]。第五，匿名性降低了学生机会主义地评价教师的心理成本[45]。第六，关注教师的课堂行为，忽视教师的许多课堂外发生的职业行为，如教师在课堂外给予学生的学术和心理辅导等[46]。第七，忽视学科差异，把相同的评价标准强加于所有学科[47]。第八，一些学生评教表包含着教师不可控制的变量，如所使用的教材的适当性等。第九，要求学生进行过多的价值判断而很少进行事实判断。结果，学生用数字给出的许多判断是第三方无法事后证实的，这无疑为学生机会主义地评教开了方便之门。

为教的咨询设计的学生评教表，其目的是诊断教师的绩效问题，其本质是实现学生评教与教的咨询结合的咨询性反馈的工具，其基本特征是：第一，倾向于以学生为中心的教学理念，更多地关注学生的学习行为和成就，以学生取得的实际成就评价教师。第二，不要求学生抽象地评价教师，而要求学生用文字说明教师在什么情形下采取的什么行为或措施为什么好或不好。第三，多维度，更多地关注学生的行为和成就的同时，也关注教师的行为。不仅关注他们的课堂内行为，还关注他们的课堂外行为。第四，其基本形式不是学生根据评教表上的条款给教师打分，而是学生回答评教表上的一些开放性问题。这有助于消除让学生给教师打分必然产生的对学生和教师的不利的心理暗示。第五，其形成过程有教师的参与。让教师参与学生评教表的设计有三大好处：(1)让教师体会到学校帮助其改进绩效的“善意”和“诚意”，有助于消除他们因工作被置于他人的批评和争议之下所产生的对学生评教的心理抵制。(2)通过使学生评教表所体现的教学理念与教师心目中“好的”教学理念一致，有助于提高教师对学生评教的认可、参与和对学校的忠诚。(3)让教师更加深刻地理解学校的期待和努力方向，有助于教师随时参照学生评教表所体现的绩效标准进行自我评价和调整。第六，其使用有教师的参与。在学生评教结束之后，教师要与咨询专家和学生代表一起研究学生评教的结果，以确认教师的绩效问题，共同制定绩效改进策略，而不是被动地被告知学生评教的分数。

显然，教的咨询是教师、学生和咨询专家三方共同参与的探索和学习过程，也是集体知识的创造过程。通过教学的咨询，教师和学生可以学会如何有效地教和学。其实施的困难主要有：第一，学生评教已经是全球绝大多数大学的惯例化实践，具有使用的方便性和产生评教分数的容易性，也具有组织政治上的合理性和优势，高校和其监管者满足于这种实践而不愿意改变它。第二，大多数高校缺乏实施教的咨询所需要的专门的人力资源、资金和组织能力。一句话，至少在当下，大多数高校既无意愿也无能力成功实施教的咨询。但是，能够率先成功实施教的咨询的高校一定会获得差异化优势和各种先动者优势。