基于多面RASCH模型的高校学生评教方法探索
2019-09-10赵玉
赵玉
摘 要:本研究利用多面 Rasch模型对118名大学生评价10名任课教师的课堂教学能力的数据进行分析。研究结果表明不同学生对评教的宽严程度不一致的现象,多面RASCH模型可消除评分者效应,从而提高学生评教的信度。
关键词:多面Rasch模型;学生评教;方法
中图分类号:G640 文献标志码:A 文章编号:2096-000X(2019)20-0056-03
Abstract: This study used many-faceted Rasch model to analyze the data of 118 college students evaluating the classroom teaching ability of 10 teachers. The empirical results show that there is inconsistency in the degree of leniency and strictness of grading among different students. The many-faceted RASCH model can eliminate the rater effect and improve the reliability of students'evaluation of teaching.
Keywords: many-faceted Rasch model; student evaluation of teaching; method
一、概述
(一)学生评教结果的有效性
目前,学生评教已经成为高校评价教师教学质量的一项重要参考指标。尽管学术界关于学生评教有效性、影响因素等开展过大量研究,但在一些关键问题上仍争议不断。
国外学者对学生评教的有效性进行了大量实证研究,但结论不一。Overall和Marsh(1980)的大规模追踪研究经常被引用作为学生评教合理性的证据,其研究显示,1400名学生在完成课程一年后与其刚完成课程时的评价结果相关系数高达0.83。国内外从理论到实证均有支持上述观点的研究,但结论与之不同的研究也一直存在。例如,韩婷等人(2007)发现学生评价与教学督导组的评价之间的Kappa系数不到0.4,这是非常弱的一致性;Dennis E. Clayson(2009)的元分析研究顯示,学生评教与学习结果的一致性与学习结果的测量方式有关,测量方式越客观,则二者的一致性越低。
事实上,影响学生评教结果的因素可能有多方面,如课程难度、学生对该课程的兴趣、对学业的预望及选择该课程的原因等(Marsh & Roche,1997)。课程类别、班级人数等因素也会显著影响对教师的评分(王永林,2005),但不同教师所任授课程本身不具可比性。因此学生评教应当综合多方面因素,以保证评价的有效性和公平性。
(二)学生评教数据的分析方法
目前,多数研究与实践中使用加权平均法或名次法分析评教数据。加权平均法与名次法分别使用原始分数和名次来评价教学效果,优点是操作简便,意义直观,但不同班级、不同课程的评价结果不具有可比性,教师教学水平之间差距也难以客观量化地分析。
为更好地使用学生评教数据分析教学质量,研究者们对评价方法进行了多方面的改进。例如,评价方案可改为评教只在“同质课程”内进行,以解决可比性问题(艾文国,2012),但这种做法有回避问题之嫌。有研究者使用标准分数代替原始分数(崔国生,2009),或以一定权重汇总学生评教、教研室主任评价等多种信息,并根据全校平均水平对标准分进行线性转换,将前一年度评教结果和本年度评教结果以1:2加权,以校正后的分数作为最终评教结果(马天梅,2007),这些改进措施能对不同课程、不同班级的评教结果进行比较。
综上,学者们为实现学生评教结果的可比性提出了多种方法,在一定程度上提高了评价的有效性。但前述各种方法的一个明显局限是,评价结果的准确性均依赖于学生群体的代表性。即,被试样本要有足够的代表性,评教结果才是可靠的。例如,若评价尺度严格的学生较多,教师获得的评价就低。以往的解决方法是预处理数据时去除极端数据(马天梅,2007),但确定极端数据所占比例有主观成分在内,而且即便去除了极端数据也难以保证样本数据构成与总体完全一致。
(三)多侧面Rasch模型
学生评教过程中存在各种误差,因而评教结果的有效性需综合考虑各种影响因素,传统教育测量学方法难以胜任,而多侧面Rasch模型(Multi-Faceted Rasch Model)可以满足上述要求。
多侧面Rasch模型由Linacre于1989年在Rasch模型的基础上拓广而来(Lunz & Linacre,2010),是用于对测量结果具有潜在影响的多变量进行细致的分析的一类应用测量模型。相对于其他方法(如概化理论),多侧面Rasch模型具有多方面的优势(Randall & Engelhard, 2009),它继承了Rasch模型的优良特性,各参数具有充分统计量,估计结果具有等距量尺。多侧面Rasch模型为检查测量情景中各种侧面的影响(如评分者严厉程度、指标难度)提供了方法,可提高测量结果的客观性和公平性。
目前此模型在各类考试主观题评分领域应用非常广泛(He et.al.,2013)。然而,由于多侧面Rasch模型在模型设定、参数估计、数学计算等方面的复杂性,在学生评教领域未见有采用此模型的探索与实践。
综上所述,本研究将采用多面Rasch模型为代表的现代教育测量学理论, 主要从学生侧面、被评教师侧面和评教指标侧面三个方面进行分析,其数学模型为:
Pnijk是被评教师n在项目i上被学生j评定为k等的概率。
Bn是教师n的课堂教学能力参数。
Di是评教指标i的难度参数。
Cj是学生j的评教宽严程度。
Fk是分部评分模型中教师得分从k-1等到k等级的难度,每个评教指标均为h级评分。
二、研究设计
(一)数据来源
2018年3-6月,118名在校大学生对10名任课教师课堂教学能力进行评分,其中58名学生对1-6号教师打分,另外60名学生对5-10号教师打分。采用10个指标,每个指标分4级评分,学生从教学的态度、内容、方法和效果四个方面对教师课堂教学能力进行评分,满分100分。
(二)数据分析
本次研究使用FACETS软件对数据进行分析。此情境下影响被试分数有三个侧面,其一是教师的教学水平特质,其二是学生评分的宽严程度,其三是评教指标难度。Facets 软件能将教师、学生和评教指标作为三个单独的面进行分析,体现教师教学能力差异、学生评教差异和评教指标难度差异。
三、结果
(一)教师侧面
表1所示,教师教学的能力值范围是0.40Logits 至 0.70Logits 之间。能力值最高的是 2号教师(0.70Logists),最低的是9号教师(0.40Logists)。Infit和Oufit数值大小可以反映评委使用评分量表评定被试成绩的一致性,其值越接近于1,测评精度越高。卡方检验结果显示教师间的教学能力差异达到显著水平,说明教师间的能力存在显著差异。
(二)学生侧面,即评教宽严程度分析
多面RASCH模型可以直接给出评分者的宽严程度,表2中第一列为评分者的宽严程度;第二列为宽严程度参数的估计标准误,后两列为相应评分者的拟合指标。可以看出68号学生评分(-1.67LOGITS)最为宽松,116号学生评分(2.82LOGITS)最为严格,两者相差4.49个LOGITS。同时,FACETS还给出多个评分者宽严程度差异的指标,如分离指标为6.35,即评分者的宽严程度至少可以分为6个水平;信度指标为0.98,此指标越大,表示评分者宽严程度差异越大。对评分者之间的宽严程度的卡方检验(x2=4479.8,df=117,p=0.00),也显示他们之间的差异达到了显著性水平。
(三)项目侧面
注:
由表3可以看出, 项目4(评教指标为教学内容方面的,即内容充分,表达清楚,重点突出)和项目9(评教指标为教学效果方面的,即学生理解和掌握课程内容)是难度(均为0.04 LOGITS)最大的,项目6(评教指标为教学方法方面的,即语言精练,生动明确,能够配合肢体语言,富有感染力)难度(-0.05 LOGITS)最低。同时卡方值也较小,说明项目之间的难度没有太大区别。
四、結论
研究结果表明不同学生存在评教的宽严程度不一致的现象,将多面RASCH模型运用于高校学生评教中,可消除评分者效应,更加客观地对教师教学能力进行评价,从而提高学生评教的信度。
参考文献:
[1]艾文国,王桂伟,关玉晶.高校学生评教系统改进研究[J].中国大学教学,2012(12):76-79.
[2]崔国生.学生评教误差的几种校正方法[J].沈阳工程学院学报(社会科学版),2009(3):402-403,409.
[3]韩婷,李慧梁,张宏,等.Kappa统计量评价教学督导组与学生评教的一致性[J].医学教育探索,2007,6(12):1117-1119.
[4]马天梅.提高学生评教有效性的实证分析[J].中国高等医学教育,2007(8):65-67.
[5]黎光明,张敏强.基于学生评教的多元概化理论分析[J].教育测量与评价(理论版),2013(7):4-6,17.
[6]王永林.学生评教的特性及其影响因素初探[J].教育科学,2005,21(1):28-30.
[7]肖继军.基于PLS-SEM模型的高校学生评教实证分析[J].统计与决策,2009(5):158-161.
[8]He, T. H., Gou, W. J., Chien, Y. C., Chen, I. S. J., & Chang, S. M.(2013). Multi-faceted Rasch Measurement and Bias Patterns in EFL Writing Performance Assessment. Psychological Reports, 112(2),469-485.
[9]Lunz, M. E., & Linacre, J. M. (2010). Reliability of Performance Examinations: Revisited. Journal of Applied Measurement, 11(2),172-181.
[10]Marsh, H. W., & Roche, L. A.(1997). Making students' evaluations of teaching effectiveness effective: The critical issues of validity, bias, and utility. American Psychologist, 52(11),1187-1197.
[11]Randall, J., & Engelhard, G.(2009). Examining teacher grades using Rasch measurement theory. Journal of Educational Measurement, 46(1),1-18.
[12]Overall, J. U., & Marsh, H. W.(1980). Students' evaluations of instruction: A longitudinal study of their stability. Journal of Educational Psychology, 72,321-325.
[13]Linacre,J. M.,& Wright. B.D. A User's Guide to FACETS: Rasch Model Computer Program,Version 2.4 for PC CompatibleComputers [M].Chicago,IL:MESAPress,1993.