“教学评一体化”下同伴互评实证研究的热点与展望

2024-03-19赵永发

甘肃开放大学学报 2024年1期

祁芸，赵永发

（西北民族大学教育科学与技术学院，甘肃兰州 730030）

一、研究背景

“教学评一体化”最早在义务教育阶段提出，意图呈现一个完整的教学系统，《义务教育课程方案》（2022 年版）强调了“教学评”一致性。评价是教的活动与学的活动相互联系的纽带，《深化新时代教育评价改革总体方案》指出，“充分发挥评价的导向、鉴定、诊断、调控和改进作用”，为我国当下的教育评价指明了方向，即以评促学，以评促教[1]。让“学”与“评”充分糅合，通过学习者积极参与、全身心投入评价过程来让评价起到诊断与调控作用，进而促进学习的提高[2]。

同伴互评也被称作同侪互评、同伴评价。同伴互评最广为接受的定义是由Topping提出的，他认为同伴互评是一种学生对彼此的学习绩效、意义或质量进行点评，形成自我判断的过程[3]。当前，同伴互评是以学生为中心，贯彻学评融合理念重要实现方式之一。然而，有的研究者认为同伴互评存在交互行为弱、评语质量低、可靠性不足等问题，而对其效果持质疑态度，同伴互评的有效开展，需要教师的完善设计与实施。如何有效设计同伴互评，很考验教师的能力，这也从一定程度上实现了教学评一体化需求。

目前有关同伴互评的研究综述，大多从国家分布、期刊分布、合作者分布等表层上展示其研究热点，对如何指导一线教师开展同伴互评活动，操作借鉴性不强。因此，为了扩展同伴互评在当下教育教学中的实践应用，实现教学评一体化，研究对国内同伴互评的实证研究核心文献进行了梳理和筛选，并根据实证研究的核心要素进行内容分析，在操作层面上进行归纳总结。

二、研究设计

（一）研究问题

研究借助内容分析梳理国内同伴互评实证研究的研究要素，研究问题主要包括三部分：“同伴互评实证研究的研究重点都是什么？”“研究情境和研究方法是什么？”“研究结果主要包括哪些方面？”

（二）研究方法与数据来源

研究采用系统性文献综述的方法，选取中国知网学术期刊数据库（CNKI）核心期刊作为数据来源，以“同伴互评”“同侪互评”“同伴反馈”为主题词进行检索，时间截至2023 年6 月，共获取216篇文献，初步筛选后剩余179 篇文献。进一步筛选文献，要求相关研究必须是实证研究，且相关要素齐全，以此排除文献80篇，最终得到99篇文献。

（三）内容分析编码体系

为实现开展相关教学实践的借鉴意义，需要通过一定的内容分析框架系统展示同伴互评实证研究所包含的要素。丁斯莫尔指出，实证研究应包含学科背景、数据收集方法、研究结果等几个核心要点[4]；也有研究者指出，一项实证研究是由“真实问题—方法运用—数据分析—结论诠释”构成的统一体[5]。综上，本研究搭建包含研究主题、研究情境、研究方法、研究结果四个维度的内容分析编码体系（见表1）。

表1 内容编码体系

（四）内容分析信度

本研究进行内容分析时以篇为单位，相关文献的内容从上述4 个一级维度以及9 个二级维度进行统计分析。进行编码的两名研究生先任取20%的文章进行初步编码，对出现的问题协商解决方案，最终使两名编码人员的信度（Cohen’s Kappa）达到92.8%，然后再完成剩余文献的编码。

三、数据分析结果

（一）同伴互评研究主题

国内有关同伴互评实证研究的主题比较丰富，包括同伴互评的作用，同伴互评有效性、可靠性的提升，同伴互评模型的构建，同伴互评相关工具的开发应用等，这表明我国对同伴互评的研究逐渐深入，不断从各个方面设法提高同伴互评效果，但对同伴互评促进学习机制和路径的研究相对而言还比较匮乏，仅有少量说明文献，这可能对大规模开展同伴互评实践造成一定的影响。

1.同伴互评对学习的促进作用

同伴互评作为一种容易使学习者接受，能大大提高学习者参与度和投入度的过程性评价手段，可以提高学生的反思能力，增强学生的自信心、学习动机和自我效能感，最终实现对学习的促进作用。例如汪琼等人对MOOC课程中同伴互评数据进行挖掘后发现：同伴互评活动可以帮助学生有效反思，学习效果也相对更好[6]。

同伴互评应用的最多的场景是英语、日语等外语写作与翻译，对其有非常显著的提升作用。例如程英等人探讨非英语专业硕士研究生的同伴互评在角色扮演活动中的作用。引入互评后，76.6%的学生个人成绩发生了改变，分差变化幅度约为原来的2.4 倍，效果比较显著[7]。在中文的写作中，也可以提高学习者的写作水平。张义兵等人在对小学六年级进行同伴互评后发现，互评教学不仅能够提升小学生的作文水平，而且可以促进深度学习的发展[8]。

伴随着研究逐渐深入，学者们逐渐发现同伴互评活动在促进学习者高阶思维发展方面同样效果显著。例如张涛等人研究了在线同伴互评不同阶段学习者批判性思维的发展，并指出在线同伴互评活动可以促进批判性思维的提升[9]。其在后续的研究中探讨了同伴互评活动中的参与者群体认知也在向中高维度演变；且不同阶段、不同组别的群体认知网络存在显著差异[10]。

2.同伴互评可靠性的提升

同伴互评已经被广大研究者和教育工作者所接受，但研究发现实际应用互评的实践并不是很多，这是因为在实践层面的同伴互评通常需要面临社会性互惠、评价失真等问题，很多教师甚至学生自己对其效果存疑；因此，如何提高同伴互评的准确度，也是当前研究的热点话题。

同伴互评让很多学习者接受的最大原因是，其相比于其他评价方式可以带来“自由”，而它存在的问题也很大程度上来源于这种自由，因此施加一定程度的干预来实现有限度的“自由”是十分必要的。因此，有很多研究者致力于实现这种干预，例如李红霞等人基于FBM 模型提出两阶段干预策略，提高学习者参与同伴互评投入度的同时，还能避免活动“失控”，具备一定程度可操作性[11]。

也有研究者从同伴互评的情绪体验入手。柏宏权等人研究了同伴互评中所包含的不同评语类型，并进一步探究其对学习者情绪体验的影响。他们指出不同评语类型会对学习者的情绪产生不同影响；例如加强型评语和纠正型评语，加强型评语学习者期望获得但又不想收到简单加强型评语[12]。这对从情绪体验的角度提升同伴互评的可靠性具有实践参考意义。在提升同伴互评准确度方面，大多研究集中借助技术的参与来实现，例如有研究者借助二分图匹配理论构建作业评阅人推荐模型来解决作业评阅人的任务分配问题[13]。

技术对同伴互评可靠性提升的最大促进作用是其可以面向大数量级的学习者，比如MOOC 学习者，能有效节省人力，也能保障同伴互评的准确度，是未来同伴互评的研究重点之一。总之，研究者从不同方面，力争在一定程度上解决同伴互评中存在的问题，取得了相当的成效，有效解决了同伴互评的信度问题。

3.同伴互评的工具研究

同伴互评的优势不言而喻，但不可否认的是，在实践教学中加入同伴互评会极大增加教师的工作量，造成一定的负担；因此，如何利用一些行之有效的工具辅助教师进行同伴互评活动就显得尤为重要。

在众多互评工具的研究中，提供量规是采用最多的方式，有研究者进行了基于量规的在线同伴互评一系列实验，发现基于量规的在线同伴互评不仅可以提高学习者的认知投入度，还可以提高学习成效；最重要的是学生对基于量规的在线同伴互评比较认同，认为其可以帮助自己更好的进行同伴互评[14]。也有研究者关注了什么样的量规具备更好的促进效果，例如范逸洲等人发现逐级划分量规等级以及采用是非选择型的评分量规能在一定程度上提高学习者之间互评的信效度，且评价者的信效度越高，其所提交的作业质量越高。

评价支架也属于量规中的一种，有研究者将评价支架应用到MOOC中；结果表明，分析型评价支架能更好的提升学习者同伴互评的投入度，并且能提高评价一致性和评语质量[15]。

智能化的同伴互评系统能在极大程度上减轻教师负担，提高互评信度，是未来同伴互评的发展方向之一。有研究创建了适用于媒体设计类课程、能进行同伴互评的移动作业展示系统，并且进行了实践应用，发现其也可以很好体现同伴互评的效果，学习者的认可度和投入度比较高[16]。

（二）同伴互评研究情境

实证研究的情境至关重要，不同的参与人群，测量环境都有可能对研究结果产生影响，因此研究通过学科情境、参与人员、研究时长三个能对研究结果产生一定影响的指标来进行汇总分析。

1.学科背景

同伴互评应该扩展到不同学科中验证其有效性，并在不同学科的实践中不断完善自己，方能在当下的教育情境中，为培养更多具备高阶思维能力人才发挥重要作用。同伴互评相关实证研究中，在外语写作和翻译教学中应用比较广泛，因此英语和非英语学科占比相对较高一些，除此之外，教育技术领域有关同伴互评的实证研究比较多，研究案例比较丰富（见图1）。

图1 学科领域分布

2.参与人员

同伴互评作为一种形成性评价方式，应该在不同的年级、学段开展，但目前同伴互评实证研究中，89.81%以大学生、研究生作为对象，仅有7.41%和2.78%以中小学生、教师为研究对象。大学生是同伴互评实证研究关注最多的群体，其他学段的学习者参与不足，尤其是成人研究者；今后应加强不同学段中的应用研究以及对比研究。

从参与同伴互评活动的人员数量来看，30 人以下的研究有16个，31到60人的研究有39个，61到100 人的研究有16 个，100 到200 人的研究15个，多于200 人的研究9 个（见图2）。参与人数最多的研究是MOOC中有关同伴互评对自我效能感的研究[17]。参与人数最少的是罗晓杰的一项研究，他选择一名新手型高中英语教师（X教师）作为研究对象，探究同伴反馈对其反思能力的影响[18]。

图2 参与人员数量分布

3.人员持续时间

针对明确指明研究时长的70个研究（其他研究只指明几轮，并未指明具体时间）进行分析（如图3 所示），很大部分研究集中在一学期内完成，尽管一学期已经能够在一定程度上展示出同伴互评的有效性，但对同伴互评的远期效果进行检验、采取好的干预措施等，都需要大量的时间去验证，因此，未来开展多轮次的研究十分必要。

图3 研究持续时间

（三）同伴互评实证研究方法

为了更好展示同伴互评实证研究的开展历程，研究将研究方法划分为实验方法、数据搜集方法和数据分析方法三个部分。

1.实验方法

在同伴互评实证研究方法中，准实验研究方法最多，且最多的是以教师评价与学生评价做对比，来验证同伴互评的有效性，其他研究相对较少（见表2）。未来应该采用不同的研究方法探讨同伴互评影响学习者的作用和机制，以提升其对学习者的促进效果。

表2 实验方法

2.数据搜集方法

一个研究可能存在多种数据搜集方法，不同的数据搜集方法可能会影响实验结果。通过对同伴互评实证研究数据搜集方法分析可知，比较常规的、能够快速测量学习者的学习绩效、学习态度的方法主要是问卷法（90.91%），且除了用于检验学习效果外，它一般还用于对同伴互评认知的调查；除此之外，应用比较多的是测验法（61.18%），即通过前后测的方法，测量学习者在参与同伴互评活动前后各个方面的变化情况，用于支撑研究；能够在一定程度上体现学习者变化的访谈法（31.76%）应用也比较多，除了作为辅助证据以外，它能够深入了解学习者所思所想，为进一步改善同伴互评活动提供建议。值得注意的是，绝大部分研究应用多种数据收集方法，以保障研究结果的准确性。

3.数据分析方法

实证研究的数据分析方法很重要，当前同伴互评实证研究采用的分析方法主要有量化分析、质性分析和混合分析三种，其中大多数研究主要采用混合分析方法，它能从多角度、多方面对数据进行解释，更加具备科学性。从具体的方法来看，认知网络分析、脑电技术分析等新鲜的数据分析方法逐渐应用到同伴互评实证研究当中，其可以实现对学习者高阶思维能力变化的监测，在一定程度上促进同伴互评效果的检验。

（四）同伴互评研究结果

实证研究的结果一般来说是比较可靠的，因为其是建立在实践得出数据的基础上，进行合理分析得出的，是对提出的问题和假设的解答，可参考意义比较大。研究结果种类分布在学业成就（例如外语的翻译和写作能力）、思维与能力发展（例如批判性思维和情感体验）上。除此之外，有关提升同伴互评可靠性的研究也比较多，表明对同伴互评的研究已经逐渐深入。

四、结论与展望

（一）研究结论

研究以国内同伴互评领域的99 篇核心文献为例，依据构建的实证研究内容分析框架，从研究主题、研究情境、研究方法以及研究结果四个方面进行系统化分析，来展现同伴互评实证研究的内容与过程，结论主要如下。（1）从主题上说，同伴互评对学习的促进作用、可靠性提升、工具研究三个主题研究比较集中，同伴互评的作用机制、同伴互评与自评、师评结合等方面的研究较为薄弱。未来研究应该进一步深入，例如可以通过评价主客体的转换、评价过程全方位掌握的基础上探寻同伴互评促进学习者高阶思维发展的内在机理。（2）从研究情境看，同伴互评在外语、教育技术学等领域研究最多，但是从参与人员来看，大多集中在大学生上，对中小学生和成人学习者关注较少。未来研究应该进一步拓宽研究领域，探讨同伴互评对不同学科、不同年龄的学习者作用的差异性。（3）从研究方法看，准实验法应用的最多，问卷、访谈等传统数据搜集方法占比较大，混合分析是同伴互评最主要的分析方法。随着人工智能、大数据的发展，技术支持下的研究应该更加精确、可视化，对于提供策略有更准确的建议。（4）从结果上看，同伴互评对学习的促进作用得到了很多的验证，突出表现高阶思维能力的发展、积极的情绪体验和良好的学业成效上，未来研究应该更加关注同伴互评对于学习者的综合提升，促进学习进一步提高。

（二）研究展望

1.“教学评一体化”下的同伴互评在进行设计时需考虑多元主体结合评价

同伴互评是学评融合的重要实践之一，学习者在进行互评的同时，也展开了对自我的评价与拓展，而教学评一体化还需要“教”的参与。因此，在同伴互评中施加教师作用，促进多元主体评价方式为教学评一体化助力，而同伴互评本身也需要教师的有效设计才能促进学习者高阶思维的发展，因此，同伴互评本身就蕴含着教学评一体化的思想。

在同伴互评实证研究中，已经有不少研究开始将教师评价融入同伴互评之中。例如陈功等人在学习者写作过程中借助“N+2+1”多元反馈模式来促进深度学习，并帮助学生达到三个领域、六个方面的高阶知识和能力[19]。尽管当前同伴互评仍是以学习者为中心的评价实践，但师评和自主评价同样是同伴互评不可或缺的一部分。教师的作用来源于对同伴互评活动的设计、监控和适当调节，并对不利于同伴互评活动顺利进行的突发情况进行控制；自主评价可以更好的帮助学习者进行反思，提高同伴互评的效果。因此，将师评和自主评价融入同伴互评当中，发展多元主体结合的评价方式，是未来同伴互评研究的重要趋势。当然，教师的介入也需要控制“度”，一味由教师做决定，同伴互评也就失去了它原本的意义。因此，未来研究应该着力于寻找教师评价与自主、同伴互评之间的平衡点，使教师能够很好的影响互评活动，而又不对结果产生不良影响，产生不必要的限制和干扰，从而形成一体化发展，促进教学评深度融合。

2.“教学评一体化”下的同伴互评要利用技术进行全过程支持

当下，为了提高同伴互评的准确度与可靠性，已经有研究者将大数据等技术融入其中，实现对互评全过程的监控与调节，技术的参与对同伴互评可靠性的提升有很大帮助，研究者可以将学习者以往的数据，例如评价者的可靠度等作为基准来进行人员与题目分配，从而在一定程度上保障同伴互评顺利进行。有研究通过构建同伴互评概率模型来保障同伴互评中的题目，特别是主观题目评分的客观性与均一性[20]。除此之外，技术对同伴互评的另一个促进作用是其可以将结果可视化呈现给学习者，使学习者可以清楚了解自己的实际情况，进而进行自我调控。技术对教学评一体化的助推还体现教师的“教”上，教师可以借助技术的应用更好设计、监控、调节，例如在技术支持的同伴互评中，教师通过提前设计如何分配作品、如何进行评分评语，其余工作可由互评系统自动完成，教师和学习者只需要观看系统给自己推送的结果即可。一方面帮助学习者更好的发现自己的问题，解决自己的问题；另一方面可以让教师根据结果及时调整策略，全面改善同伴互评结果。

3.同伴互评在设计时要注意其促进学习的作用路径与机制，进而提升作用效果

同伴互评相比于其他形成性评价方式的优势，在于参与者可以全身心投入，受外界干扰影响较小，这为学习者提升自己的专业知识理解、评价能力和高阶思维能力提供了可能。因此，最大程度保持学习者在评价过程中的深度参与应是未来研究的方向之一。在同伴互评相关研究中发现，真正探索同伴互评如何影响学习者的机制研究并不多，研究大多集中在验证同伴互评的作用上，而关于如何促进深度参与，则需要了解其如何影响学习者，进而采取针对性措施进行保障，提高同伴互评效果。除此之外，同伴互评的深度参与过程也与当下深度学习所提倡的理念相关，研究其影响机制也为深度学习的实现提供一种可能。