学生互评在大学课程过程考核中的信效度研究
2022-06-24李振中李建波
李振中 李建波
[摘 要]文章旨在定量研究学生互评在大学课程考核过程中的信效度。课程组利用方差、极值和线性回归等方法对六门大学课程的学生互评分数进行了定量信度分析,并将其与教师评分对比,获得学生评分的效度。对效度的研究结果证实,在8~9.5的高分区间(以教师评分为基准),学生互评与教师评分比较接近,两者关联性系数较高;而在低分区间(5.5—7.5),学生更倾向打出高于教师的分数,关联性较低。这个结果不但在大班教学中(35人)得到证实,也在6人的小班教学中得以证明。当采用小组形式进行学生互评时,学生互评分与教师评分的关联性比个人评分更高,评分更加客观。在信度方面,汇报质量越好(以教师评分为基准),学生互评分数的方差和极差越小,学生对汇报的认可度比较一致;而对质量相对较差的汇报来说,互评分数的方差和极差较大,学生互评的客观性受到影响。此外,以小组形式进行的学生互评方差较小,互评分数也较个人评分客观,互评信度更高。
[关键词]学生互评;信度;效度;翻转课堂
[中图分类号] G642.47 [文献标识码] A [文章编号] 2095-3437(2022)04-0240-05
随着教育理论和信息技术的发展,以翻转课堂(Flipped Classroom)为代表的互动式教学受到了越来越多的关注 [1]。与传统“授课—学习—考核”的教学方式不同,互动式教学以学生为中心和主体来展开教学活动,更加重视学生学习的主动性和突出学生对所学专业知识的整合能力,在提升学习体验的同时着力培养学生综合分析问题的思维能力,从而更好地应对未来信息化社会和学习化社会的挑战。
在互动式教学中,对学生课堂表现和学习效果的合理评价仍然是不可或缺的环节。目前对学生的学习表现进行评价的主要方式有教师评价、学生自评和学生互评 [2]。传统的教师评价方式具有一定的专制性和滞后性,会降低学生的课堂参与度和积极性。学生自评与学生的个性、自我认知关联性很大,在互动式教学中难以实施。因此,建立在社会建构主义理论基础上的学生互评受到广泛关注。
学生互评,又称“同伴互评”或“同侪互评”,是指水平相近的学习者、个体对其他学习者的学习作品或表现进行水平、价值或质量的考量和判定。学生互评能够调动学生的积极性,提高学生的课堂参与度,使学生在评价他人的过程中加深对自身所学知识的理解。因此,它不仅能够减轻教师负担,还能获得较好的教学效果。研究表明,多数参与者对学生互评活动持积极态度。文献研究还阐明,互评活动能够加强学生的主人翁精神和自治精神,提高学习动机和社交存在感,有助于高阶思维、批判性思维和元认知能力的发展 [3]。目前学生互评已经在不同教育层次(如中学、大学)、不同学科的课程教学(自然科学、社会科学、医学、商学、外语学习与写作和工程技术学科等)中得到广泛应用。全球测评发展趋势和未来报告甚至指出自评和同伴互评将取代教师或外部评分者 [4]。然而,学生依然处于积累知识阶段,在知识深度和广度的与教师有一定的差距,而且学生之间的能力参差不齐,学生的性格、特质各不相同,这些因素使得互评结果的信效度遭到质疑。学生互评能否让师生信服?学生互评是否可以成为互动式教学活动的主要评价方式?要回答这些问题,需要对“学生互评的信效度”“学生互评中学习者的态度”“学生互评的实施方法和量表开发”“学生互评的效果”和“学生互评中的心理特质”等议题进行广泛和深入的研究。本文即是对互动式课堂教学中的“学生互评的信效度”进行研究。
一、研究现状
学生互评的信效度,又称为学生互评的有效性和可信度,是学生互评研究领域中的焦点之一。Bostock [5]指出,在解决偏见、偏袒以及精确度等问题后,学生互评的开展对教师和学习者都会带来极大好处。事实上,对学生互评信效度的质疑是学生互评这一教学模式大规模推广所面临的主要障碍之一。学生互评的信度是指不同学习者对同一个评分对象的评分一致性。学生互评的效度是指学习者评分结果与真实分数的一致性和相关性。效度一般用相关系数r来描述,该值越高说明互评结果的效度越高。虽然真实分数无法明确给出,但是考虑到任课教师在授课内容方面是专家,而且可以保证对不同学生的评价秉持公正,因此文献中真实分数一般用教师评分来代替。在学生互评评分误差纠正方法的研究中也是以教师评分作为真实分数 [6]。
国外研究者针对学生互评的信效度进行了长期且系统的研究。总体来说,国外许多研究发现学生评分和教师评分具有较高的正相关性,表明学生互评的信度和效度。然而也有研究发现学生互评存在许多消极因素,例如Mowl 和 Pain [7] 在对地理论文写作的学生互评研究中发现,由于课程的主观性和互评者经验的缺乏,学生互评分数与教师评分之间的分歧较大。
國内学者对该方面的研究主要集中在写作和外语教学方面,而对其他课程的学生互评研究又主要关注学生互评的实际应用效果 [8]。例如,丁瑞君和武荷岚 [9]通过统计学生互评成绩与卷面成绩的相关性来研究学生互评在大学物理互动教学中的应用效果。刘兴华和纪小凌 [18]基于大学英语写作课堂的学生互评活动,发现学生整体式评分兼具良好的信度和效度,但是分项式评分总体上信度和效度不高。他们建议在开展互评前要实施充分、有效的评分培训,而且还应该根据教学环境和教学目的有针对性地选择学生评分方式。
总体来看,国际上针对学生互评信效度有较为充分的研究,而国内在这方面的定量分析较少。由于文化背景和教育理念等方面的差异,将国外研究的结论应用在国内的教学实践中需要谨慎。邵红万[11]研究发现,文化观念束缚是影响互评有效性的四大因素之一。Carson [12]在对中国大学生的学生互评研究中也发现,由于学习者的集体主义观念深厚,在评价中拒绝使用批判性言语且不会直接指出同伴的缺点和问题,从而影响评价效果。鉴于此,有必要对国内互动式教学课堂的学生互评信效度进行定量化研究。本文基于两个学年多个班次的互动式教学所获得的样本数据对“学生互评的信效度”方面进行定量分析,试图探讨以下几个问题:(1)学生互评与教师评分的相关性如何,在何种情况下与教师评价有较大差异?(2)学生互评的信度如何?(3)以个人形式参与的学生互评和以小组形式参与的学生互评是否有区别?
二、研究方法
在2017年9月1日至2019年10月30日的两个学年里,笔者将翻转课堂和学生互评运用到大学课堂教学中。具体教学课程、班级人数、学生年级及互评方式见表1。从表1可以看出,在所讲授的6门课程中,授课对象主要是大四和大二学生,人数从6到73不等。为了对比研究个人互评和小组互评的差异,将73人的大班教学分成10个组,将29人的电厂生产实习分成5个组。此外,为了指导学生互评,笔者制订了细化的评分标准。各科目细化评分标准见表2至表4。同时,教师也根据同样的评分标准对汇报人进行评分。一般认为,任课教师对授课内容有深入的了解,能够对学生的表现或作业给出准确、公正的分数和评价。
互评结束后,利用Excel表格计算获得学生互评的平均分、极差、方差等基础数据,直接获取学生互评的信度。同时,利用线性回归方法对学生互评的分数进行拟合,获得学生评价的回归曲线。将之与教师评价分数对比,获得学生互评与教师互评的相关性系数r,即可检验学生互评的效度。另外,考虑到学生互评可能带来的差异,在实例 1 中将学生互评的最高分和最低分去除,以获得较客观的学生互评分数,然后再与教师评分进行相关性对比研究。
三、研究结果
(一)实例1研究结果
图1(a)为实例1中学生互评的效度研究结果。从学生互评的平均分与教师评分的比较结果来看,学生互评与教师评分呈现一定的正相关,即随着教师对汇报人评分的增加,学生互评分数也相应提高。从相关性系数即线性回归斜率来看,学生互评的斜率仅为0.39,与斜率为1的教师评分有较大的差异。这说明教师评分与学生互评的相关性(r=0.39)并不高。这主要是因为学生互评在低分段(5.5—7.5)评分远远高于教师评分,造成相关性系数较小。这也说明,学生在互评过程中,往往对表现较差的汇报评价比较“仁慈”,倾向打出高于教师评分的分数。而在高分段(8—9.5),学生互评与教师评分比较接近,说明学生对质量较高的汇报的认可度与教师一致。值得注意的是,在高分区间,学生互评分数反而略低于教师评分。这说明在高分段,学生对汇报的质量要求可能比教师更加严苛。
为了揭示学生评分的信度,图2(a)展示了单个学生对汇报的评分与互评平均分的均方差。可以看出,学生评分的方差随着平均分的增加而降低。这说明学生互评的信度与汇报人的表现有关:在高分段对汇报表现的评价比较一致;而在低分段,学生的评价结果有较大的差异。以图2(b)中学生互评的不同分数为例,互评平均分为7.15的极差为5,最高分高出平均分2.85分(10分),而最低分低于平均分2.15分(5分)。而对于平均分为8.08的来说,互评成绩的极差降至3分(-1.08/+1.92);分数为9.36分的互评平均分极差则为1.5分(-0.86/+0.64)。这说明学生对高质量汇报认可度趋于一致,评分比较客观;而对汇报质量较差的评分,可能受到主观因素的影响,差异较大。
(二)实例2研究结果
图3为实例2中学生互评分数与教师评分的比较结果。从图中可以看出,实例2中学生互评分数随教师评分的增加而增加。同时,其线性回归系数(0.73)与教师评分比较接近,说明实例2中学生互评与教师评分的相关性更高。即便如此,我们仍会发现,在低分段,学生的互评分数往往高于教师评分,而高分段则存在低于教师评分的情况。实例1中的结果仍然适用。对比实例1和2发现,实例2中的学生互评与教师评分的相关性系数更高。究其原因,实例2中学生人数为21人,少于实例1中的35人。学生人数的减少,有助于教师对课堂的把控,减少学生浑水摸鱼、胡乱评分的可能性。此外,实例2中,学生互评分与教师评分的结果均在7分以上,这与实例1中存在低于7分的情况也不相同。这说明,学生本身的学习情况不同,也可能对互评的分数有所影响。
图4为实例2中学生互评信度的研究结果。从学生互评的方差和其与平均分的差值来看,学生互评的信度与汇报人的表现有关。在低分段,以7.7分的互评平均分为例,互评分数的方差和差值均较高;随着分数的增加,方差和差值不断减少。在9.44分时,方差降低为0.45,最大差值降低为 0.56。这与实例1中发现的结果一致,说明该结论仍然适用。
(三)实例3和4 研究结果
图5为实例3和4中学生互评分数的效度研究结果。与实例1和2相同,实例3和4中的学生互评分数也随教师评分的增加而增加,两者呈现较高的相关性(相关性系数分别为0.68和0.67)。这说明在小班教学中,学生互评评分的效度仍然较高。然而,需要注意的是,小班教学可能存在学生普遍打高分的情况。以实例3为例,学生互评的分数均不低于教师评分,这与实例1和2呈现的不完全符合。这说明在小班教学的情况下,需要谨慎使用学生互评。
(四)小組互评研究结果
图6为实例5和6中学生互评分数与教师评分的比较结果。从图6可以看出,小组互评分的平均分与教师评分更为接近。这说明按小组形式的学生互评更加客观,学生互评的效度更好。在信度方面,如图7所示,其小组互评的方差和差值均随着平均分的升高而降低,说明学生互评的信度随着分数的增加而增加。这与个人形式的学生互评结果一致。这也说明学生互评的信度与组织形式(小组或个人)无关,但学生互评的效度优于个人形式参与的学生互评。究其原因,以小组形式参与的学生互评可能受到组内人员的制约,评分因此也会更加客观。
四、结论
文章通过六门课程对学生互评在大学课程考核过程中的信效度进行了实证研究。研究发现,在效度方面,学生以个人形式参与到学生互评中时,学生互评与教师评分的关联性与汇报人的整体表现有关:在高分段(8—9.5),学生互评与教师评分更加接近,两者关联性系数较高;而在低分段(5.5—7.5),学生评分更倾向打出高于教师评价的分数。这个结果均适用于大班教学和小班教学。而当学生以小组形式参与到学生互评时,学生互评分与教师评分的关联性比个人评分更高,评分更加客观。在信度方面,学生对于质量较好的汇报的认可度较高,互评分数的方差和极差较小;而对分数较低的汇报来说,学生互评的方差和极差增大,学生互评的客观性受到影响。此外,以小组形式参与的学生互评方差较小,互评分数也较个人评分更加客观,使得互评信度更高。
[ 参 考 文 献 ]
[1] 缪静敏,汪琼.高校翻转课堂:现状、成效与挑战:基于实践一线教师的调查[J].开放教育研究,2015 (5):74-82.
[2] 王芳.学生互评效果的实证研究[J].高等教育研究学报, 2017(4):86-90.
[3] 罗恒, 左明章, 安东尼·鲁宾逊. 大规模开放在线学习学生互评效果实证研究 [J].开放教育研究,2017(1):75-83.
[4] 许涛.慕课同伴互评模型设计研究 [J].开放教育研究, 2015(2):70-77.
[5] Bostock S. Student peer assessment [J]. Learning Technology, 2000(5):9-15.
[6] 熊瑶,孙开键.慕课学生互评误差纠正方法及其比较 [J]. 测量与评价,2016(1):7-15.
[7] Mowl G, Pain R. Using self and peer assessment to improve students’ essay writing:a case study from geography [J]. Innovations in Education and Training International. 1995(4):324-335.
[8] 孫锦.网络同伴互评的设计与应用研究[D].开封:河南大学,2015.
[9] 丁瑞君,武荷岚.同伴互评在大学物理互动教学中的应用效果分析 [J].物理与工程,2017(S1):75-78.
[10] 刘兴华,纪小凌.大学英语写作同伴评分的可行性和有效性研究 [J]. Foreign Language World,2018(5):63-70.
[11] 邵红万.学习共同体理论视域下英语写作同伴互评有效性探究 [J].扬州大学学报,2017(5):83-87.
[12] Carson J, Nelson G. Chinese Students’ Perceptions of ESL Peer Response Group Interaction [J]. Journal of Second Language Writing. 1996(1):1-19.
[责任编辑:刘凤华]