APP下载

基于课程成绩分析的高校学生评教结果识别与应用

2023-10-15马朝珉李伟凯袁晓东孟军吴秋峰

高教学刊 2023年28期

马朝珉 李伟凯 袁晓东 孟军 吴秋峰

摘  要:该文以某高校思政类必修课程的学生评教结果为研究样本,从评教分数(封闭式问题)和意见建议(开放式问题)两部分出发,分析课程成绩与评教结果的关系,识别评教结果的有效性,探索高校学生评教结果应用路径。研究发现,学生课程成绩与评教分数整体数据呈现不相关,个别课程出现负相关;在大多数情况下,课程成绩为“中”(70分≤中<80分)的学生评教分数有效性最高;大一年级课程成绩中等以上(≥70分)的学生评教分数有效性高于其他年级。运用K-means聚类算法对评教数据进行聚类分析,将学生评教样本分为高满意高收获型、高满意低收获型、低满意高收获型和低满意低收获型四个类别。在课程成绩分析基础上,提出高校学生评教结果合理应用的建议。

关键词:高校学生评教;课程成绩;评教结果识别与应用;思政类必修课程;K-means聚类算法

中图分类号:G642        文献标志码:A          文章编号:2096-000X(2023)28-0014-06

Abstract: Using the students' teaching evaluation results of ideological and political compulsory courses in a university as a research sample, the article analyzes the relationship between course scores and evaluation results, identifies the effectiveness of evaluation results, and explores its application path from two parts-closed question and open questions. The study found that the overall data of student course scores and evaluation scores are not correlated, and individual courses are negatively correlated; in most cases, students whose course scores are "medium"(70 points≤medium<80 points) have the highest effectiveness in evaluation scores; the effectiveness of evaluation scores for students with average grades(≥70 points) in the freshman year is higher than other grades. The article uses K-means clustering algorithm to cluster the teaching evaluation data, and the students' evaluation samples are divided into four categories: high satisfaction-high yield, high satisfaction-low yield, low satisfaction-high yield, and low satisfaction-low yield. Finally, the article puts forward some suggestions on the reasonable application of university students' teaching evaluation results.

Keywords: university students' teaching evaluation; course score; identification and application of teaching evaluation results; compulsory ideological and political courses; K-means clustering algorithm

学生评教是教学评价的常规方式,也是教学质量监控和反馈的重要手段。除教学因素外,其他非教学因素不同程度地影响学生评教结果。学术界对此展开深入研究,探寻评教过程及结果的优化路径。李盼道等[1]分析高校学生评教结果失效的影响因素,包括学生因素、教师因素、学校因素及课程因素,提出评教容易导致逆向选择并阐述了改善路径;盛艳燕等[2]认为教师职称、教师年龄、教师学历、学生年级和班级人数对评教分数有微弱影响,学生年级和教师职称对评教分数的影响相对较大,应挖掘非教学因素影响学生评教分数的调节变量。潘云华等[3]研究发现,性别、年级、学习成绩、对评教必要性的認知、对评教潜在作用的认知及评教态度是影响高校学生评教有效性的学生个体因素,且学生主观因素对评教有效性的影响大于客观因素。本课题组前期研究发现,教师的职称、性别、学历和年龄段,课程的学分、班额、属性及年级均对学生评教分数具有独立或交互作用,应完善教学安排、合理利用评教数据、改变职称评定导向。

在非教学影响因素中,教师背景、课程背景、学生背景可测量但难以改变;对评教意义的认知可通过宣传引导等措施改善,但较为抽象,难以实时测量;课程成绩可测量可筛选,与评教成绩几乎同时获得(同类研究中有“学习成绩、学习成果、考试成绩、考试分数”等描述,本文研究对象为课程最终的总成绩,包含平时成绩、考试成绩、作业等,以下统称为“课程成绩”)。因此一些研究者和高校教学管理人员重点关注学生课程成绩,试图通过课程成绩分析评定评教数据的有效性。有研究者认为应删除课程成绩差的学生的评教数据,原因有三:第一,对教师心存不满,故评教打分低,不够客观;第二,没有听懂课程内容,无法评论教师教课水平;第三,出勤率较低,未参加教学活动则不具备评价资格。也有研究者认为,无论课程成绩好坏,学生都有表达学习感受的能力和意见建议的权利,且若因教师教学安排和水平原因,学生未听懂而导致考试成绩差,这部分学生的心声更应关注,并有针对性地改进教学。基于以上讨论,本文在课程成绩分析基础上研究课程成绩与评教结果的关系,分析判断学生评教结果的有效性,并基于课程成绩因素提出评教结果的应用建议。

一  研究设计

(一)  数据来源

本研究的案例数据是某高校连续三个学期全校思政类必修课程的学生课程成绩与学生评教结果,课程包括思想道德修养与法律基础、毛泽东思想和中国特色社会主义理论体系概论(1)(2)、马克思主义基本原理概论和中国近现代史纲要。思政课在全校范围内开设且内容一致,不存在不同专业难度不同(如英语课)、不同专业内容不同(如数学课)等情况,便于共性分析。共回收评教问卷25 593份,其中有效问卷25 548份。

(二)  研究思路

本研究应用SPSS23.0和Excel统计软件,通过分析学生课程成绩与学生评教结果的关系,提出合理应用学生评教结果的建议。学生评教结果包含封闭式问题(closed question)和开放式问题(open question)。封闭式问题从教学效果、教学态度、教学内容、教学方法和教学表达五个方面考查学生对教师、课程的满意度,根据权重、选项自动生成评教分数;开放式问题需填写对教师、课程的意见建议。通过评教分数的应用分析,探索“课程成绩”与“评教分数”的相关性及“课程成绩”与“评教分数有效性”的关系,提出合理应用各分数段评教分数的建议;通过评教“意见建议”的应用分析,运用K-means聚类算法,根据课程成绩与评教分数两个变量对样本聚类分析,提出分类使用意见建议的路径。

二  评教分数(封闭式问题)分析

(一)  课程成绩与评教分数的相关性

Spooren P[4]运用交叉分类多层次分析发现,学生成绩对学生评教结果的影响并不大,Zabaleta F[5]研究发现,学生课程成绩与评教结果之间的关系比较模糊。朗本等学者研究发现,学生成绩和学生评教分数两者存在正相关关系[6]。对于这种正相关关系,有的学者认为是分数互惠、宽容评分导致,是一种潜在偏差来源。如赵颖[7]、孙鳌[8]、黄桂[9]等学者认为学生成绩和学生评教分数之间存在“分数膨胀”,在“教师利益與学生评教分数捆绑”背景下,教师存在“讨好”“宽松给分”现象。而有的学者认为,评教分数高的教师教学效果好,有利于学生获得知识、获取好成绩,认可度高,二者相互促进,教学相长,这种正相关关系恰好验证了学生评教的效度,符合“预期分数的内生性”。如森特拉等研究发现,学习成果对学生评教结果产生很大的积极影响[6]。简单而言,两种观点的分歧在于,学生评教分数高是源于教学收获多还是与教师“分数互惠”。基于此,本研究详细分析课程成绩与评教分数的相关关系,首先观察平均分的走势,然后在SPSS中分析全体样本的相关性,最后细化到一名教师教授的一门课程(以下简称为“一门次”),研究两者的相关性。

本文研究发现,在研究样本中依次删除课程成绩不及格、低于70分、低于80分的学生的评教结果,评教分数由92.47分依次升至92.48、92.51、92.62分,呈上升趋势,但幅度很小,可见“课程成绩差的学生普遍给教师评价分数低”这一观点不成立。同时,以教学班为单位,评教平均成绩并没有随着考试平均成绩下降而呈下降趋势。在统计的45门次课程中,课程成绩平均分在80分以下的有19门次(表1),其对应的评教分数排名在前10名中占据6位,基本可以判断不存在“普遍学生因教师给分低而在评教中故意打出低分”现象。

在SPSS中进行相关性分析,全部学生评教分数与全部课程成绩的皮尔逊相关系数为0.033,在P=0.01的水平上显著相关,但由于相关系数在0.3以下,接近于0,表示两者无相关性。

为进一步验证结果,排除教师教学因素影响,以门次为单位,分析课程成绩与学生评教分数之间的相关性。共分析45门次课程,其中2门次课程的皮尔逊相关系数绝对值大于0.3,为弱相关,其他均为不相关(表2列出的是绝对值大于0.1的课程)。2门次弱相关的课程皮尔逊相关系数分别为-0.43和-0.37,为负相关,即因变量值随自变量值的增大(减小)而减小(增大)。进一步说明,学生评教分数不会随课程成绩相应变化,甚至会出现相反情况。

(二)  课程成绩与评教分数有效性的关系

前文分析了课程成绩与评教分数的相关性,结果是整体不相关,个别存在弱相关,即课程成绩对评教分数基本不产生影响。以下通过确认评教结果有效性较差的数据在各课程成绩段(优≥90分,80分≤良<90分,70分≤中<80分,60分≤及格<70分,不及格<60分)的分布,分析课程成绩与评教分数有效性的关系。

1  确定教学质量较差的教师集

本文从两个方面获取教学质量较差的教师信息:一是课程成绩优秀的学生(成绩≥90分)中评教分数小于80分的数据。该部分学生成绩优异,知识获得量较高,基本不存在“因没学会而无法客观评价”或“因成绩不好打出报复性分数”的现象,该群体打出低分数主要与教学质量、教学感受有关,有效性较高。二是认真填写意见建议的学生中评教分数低于80分的数据。认真填写意见建议,在一定程度上排除了“一键评教”“应付性评教(随意快速勾选)”的可能性,有效度较高。低于80分评价信息的原因是,评教题目选项为四级量表“优、良、中、差”,若全部勾选为良,得分为80分,低于80分的所有评价中均有“中”评价,即认为该项指标感觉一般。由此获得较为准确的学生群体评价出的教学质量存在问题的教师集,再与督导评价出的低于90分的教师集(约为后30%)取交集,从而获取督导、学生一致认为教学质量较差的教师集。

在25 548份样本中,课程成绩大于等于90分的样本有5 609条,其中评教分数低于80分的541条;意见建议有5 906条,去掉标点符号、乱码、数字等无意义的评价,剩余有价值的意见建议5 869条,其中评教分数低于80分的362条。两者合计903条,去除重复项,剩余791条,统计得出以学期、教师编号、课程名称为观测点的76条数据。与督导评价信息比对,得出学期、教师编号、课程名称完全一致的12条数据;学期不一致,教师编号、课程名称一致的16条数据;涉及教师15人,编号分别为1010、1011、1014、1022、1024、1026、1029、1030、1032、1033、1034、1053、1054、1056、1058。

2  确定评教分数有效性较差的评价

确定教学质量较差的教师集后,可将该教师群体的满分评价视为有效性较差的评价,计算满分的占比,即可分析有效性差的评价在各成绩段的分布情况。

以课程为单位,详细数据见表3,整体走势基本相同。因开设学期不同,有效性差的评价在各成绩段的占比情况为,课程成绩中等以上(成绩≥70分)的学生,大一年级有效性差的评价明显占比较低,有效性高。

按照出现频次排序,前5名为1030讲授的毛泽东思想和中国特色社会主义理论体系概论(1)、1029讲授的思想道德修养与法律基础、1026讲授的毛泽东思想和中国特色社会主义理论体系概论(2)、1022讲授的毛泽东思想和中国特色社会主义理论体系概论(2)、1010讲授的马克思主义基本原理概论,五名教师各成绩段有效性差的评价占比情况见表4。

由整体数据分析发现,有效性较差的评价在各成绩段均有分布,从“优”至“中”均呈下降趋势,之后到“不及格”呈上升趋势,“中”为最低点。一名教师讲授的一门课程分析中,大多和整体分析的趋势一致。可见,有效性较差的评价未随课程成绩下降而呈上升趋势,即“课程成绩差的学生评教分数有效性差”的观点不成立。在大多数情况下,课程成绩为“中”(70分≤中<80分)的学生有效性差的评价最少,评价有效性最高。

三  意见建议(开放式问题)分析

(一)  以课程成绩与评价分数为变量的聚类分析

在SPSS中利用“课程成绩”和“评教分数”两个变量信息对学生样本进行K-means聚类,即K-均值聚类。因聚类分析是一种数据描述性方法,而非统计检验分析方法,没有统计假设检验理论支持,无法判断其结果是否正确,只能检验聚类效果。第一,通过聚类质量图判断,本次聚类凝聚与分离的轮廓测量值大于0.5,聚类质量良好;第二,聚类分析后得到的每个类别均可有效命名,每个类别的特征符合现实意义,说明聚类效果良好。聚类根据各类别课程成绩和评教分数的平均分命名,得到“高满意高收获型”“高满意低收获型”“低满意高收获型”“低满意低收获型”四种类型,依次简称为A、B、C、D类。

(二)  各类别特征分析

本次共统计25 548份学生样本,其课程成绩总平均分为82.97分,其评教分数总平均分为92.17分。

其中A类学生有11 164名,占比43.7%,评教分数平均分98.17分,课程成绩平均分87.97分,两者均高于总平均分,为“高满意高收获型”。这类学生成绩好,对教学效果很满意。此类学生的“意见建议”均以赞扬和感谢为主。如“老师除了讲解课本上的知识外,还在锻炼我们思考问题的方式方法,谢谢老师!”

其中B类学生有7 281名,占比28.5%,评教分数平均分98.14分,课程成绩平均分75.58分,课程成绩平均分低于总平均分7.39分,但评教分数平均分高出平均分5.97分,为“高满意低收获型”。这类学生课程成绩一般,但对课程教学很满意。存在两种情况:一是学生学习收获较多但考试失利,二是学生学习收获较少但并不归因于教师教学行为。此类学生的“意见建议”均以赞扬为主。如“上课认真,知识点讲解充分,善于扩展知识面”“本课程令我受益匪浅”。

其中C类学生有4 496名,占比17.6%,评教分数平均分81.30分,课程成绩平均分86.44分,课程成绩平均分高于总平均分3.47分,但评教分数平均分低于总平均分10.87分,为“低满意高收获型”。这类学生成绩好,但对课程教学满意度一般,认为仍存在提升空间。这类学生的“意见建议”中除赞扬外,有一些实质性的建议,对教学效果提升具有参考价值。如“课堂气氛过于沉闷”“希望更加有趣味”“希望能丰富课堂形式”“老师应该将一些当下的社会现象与所学科目联系起来,而不是总是用一些古代的我们已经听过的例子”“希望引用一些案例或新闻对理论进行说明”。

其中D类学生有2 607名,占比10.2%,评教分数平均分68.51分,课程成绩平均分76.16分,两者均低于总平均分,课程成绩平均分低于总平均分6.91分,評教分数平均分低于总平均分23.66分,为“低满意低收获型”。这类学生课程成绩一般,对课程教学意见很大,将学习收获小归因于教学问题,或因不喜欢课程或教师而产生厌学心理。这类学生的“意见建议”包含以下方面:一是赞扬和肯定;二是意见建议,如“讲课思路再清晰一些比较好”等;三是困惑“不怎么懂”“课堂沉闷,难懂”等;四是牢骚性评价,如“我一个理科生对这个兴趣不大”“为什么上课不能上厕所”等;五是发泄性评价,有的未显示具体意见建议,仅表示“必须差评”;六是与课程评价无关的内容。

B、D类学生成绩一般,“70分以下的”均为B、D两类学生,B类学生占72.13%,D类学生占27.87%;“80分以下的”B类学生占72.59%,D类学生占22.48%,C类学生占4.93%。如果计算评教分数时删除课程成绩差的学生评教数据,会将评教分数很高的B类学生和评教分数较低的D类学生、评教分数很低的C类学生同时删除,导致前文所述的“删除课程成绩差的学生评教数据后评教分数未出现明显提升”情况。

四  结束语

基于以上课程成绩分析,对学生评教结果应用提出以下建议。

(一)  严格执行考勤制度,设置必要评教权限

一些学校《本科学生成绩管理细则》中对缺课行为的处理作出明确规定,如“学生必须参加每门课程的各项教学活动。缺课累计超过该课程教学时数的三分之一者,不得参加本课程的考核,成绩以零分计”。严重缺课的学生,一方面说明学习态度有问题,缺乏积极主动性;另一方面,未参与教学全过程,无法全面准确作出判断与评价,学习感受也不够完整。这部分评价数据参考价值有限。教师应及时将缺课学生名单录入教务系统,达到学校规定严重缺课次数后,评价结果统计时将自动剔除该部分学生的评教分数,学校可根据实际情况保留其评教数据中的意见建议。

(二)  合理使用评教数据,避免删除有效数据

课程成绩差的学生不一定评教打分低,也不一定评教有效性差。若将成绩差学生的评教数据删除,评教分数变化不大,有效性未提升,反而剥夺了学生对学习感受评价的权利,失去一些有价值的评价内容,学生学不会听不懂,在一定意义上也说明教师教学方法或进度需要调整或改进。因此,对于按时出勤、认真听讲但考试未及格的学生,应当保留其评教数据。本研究表明,在大多数情况下,课程成绩为“中”(70分≤中<80分)的学生评教分数有效性最高,大一年级课程成绩中等以上(≥70分)的学生评教分数有效性高于其他年级,应重点关注此类有效性较高的数据,另外应关注认真填写意见建议的评教数据。还可通过查看评教页面停留时间、对所有课程评分的差异性等信息,据此判断学生是否认真答题,筛选有效性较高的评教数据。

(三)  科学分析评教结果,分类使用“意见建议”

对评教数据聚类分析,分类使用各类数据中的意见建议,有助于学生提高学习成效。重点考虑C类学生的意见建议,对教学进行改进完善;关注D类学生的困惑和真实想法,了解学生的学习困难,不断调整教学方法或进度。聚类分析评教数据的优势是,一方面能快速处理评教数据,高校每学期获得几十万条学生评教数据,其中意见建议有几万条。评教分数可筛选、排序处理,而意见建议只能人工逐条查看,且干扰信息较多,从中挑选对教学质量提高有建设性的意见建议,效率低且时效性差。运用聚类分析可快速筛选教学管理者所需的C类和D类数据(以本文研究样本为例,从25 548条数据中筛选出4 496条C类和2 607条D类数据),工作量大大减少,实效性提高。另一方面,聚类分析根据输入变量自动分类,以获取组内距离最小化、组间距离最大化,属于无监督学习的一种,非人为主观分类,更为客观。

(四)  转变教学评价观念,促进教学良性循环

以改进教学为目的,弱化评教分数的奖惩作用,强化“意见建议”的有效应用。目前多数学校重点关注评教分数,将其与职称评定、评奖评优、津贴分配等挂钩。评教的主要作用应是了解学生学习效果及感受,不断改进教学方法,提高教学质量。因此应重视评教的诊断与改进功能,强化过程性评价:一是由教学管理者发起,方便教学单位对教学过程实行实时、针对性管理,学校管理部门也可运用ROST-CM等文本内容挖掘软件对学生反馈的意见建议进行快速分词与词频统计[10],了解学生的普遍关注点,从而确定教学质量提升点;二是由授课教师发起,根据课堂教学实际设置问卷,与学生匿名互动,即时掌握学生的学习状态与感受,及时发现教与学的问题,改进教学方法。通过教学过程中不断反馈与互动,形成教与学的良性循环,从而保障并提高教学质量,提升学生学习效果。

参考文献:

[1] 李盼道,孟庆瑞.高校学生评教结果缘何失效——影响因素、逆向选择机制及其治理路径研究[J].教育学报,2020(16):85-96.

[2] 盛艳燕,喻秋山,孙一平.非教学因素影响大学生的评教分数吗?——来自元分析的证据[J].教育理论与实践,2020(40):48-52.

[3] 潘云华,张意燕.高校学生评教有效性影响因素的实证研究——学生视角[J].教育学术月刊,2016(7):51-56.

[4] SPOOREN P. On the credibility of the judge: a cross- classified multilevel analysis on students' evaluation of teaching[J]. Studies in Educational Evaluation,2010,36(4):121-131.

[5] ZABALETA F. The use and misuse of student evaluations of teaching[J]. Teaching in Higher Education,2007,12(1):55-76.

[6] 韓映雄,周林芝.学生评教的信度、效度、影响因素及应用风险[J].复旦教育论坛,2018(16):74-81.

[7] 赵颖.学生评教制度下分数膨胀的内在逻辑:博弈模型的建立[J].中国高教研究,2019(4):20-26.

[8] 孙鳌.分数膨胀的博弈分析[J].现代大学教育,2016(5):23-27.

[9] 黄桂.分数膨胀与等级膨胀:评教系统双重失效原因探析——基于某部属重点高校大学生评教的视角[J].高教探索,2011(6):95-103.

[10] 陈玉婵,刘威.基于情感分析的学生评教文本观点抽取与聚类[J].计算机应用,2020(1):113-117.

基金项目:全国教育科学“十四五”规划2022年度课题“学术型研究生学术志趣:测量工具、影响因素与提升路径研究”(BIA220099);教育部新农科研究与改革实践项目“高等农林院校教学质量监控体系改革与实践”(教高厅函〔2020〕20号);黑龙江省教育科学“十四五”规划2021年度重点课题“大数据背景下高校学生评教数据自动聚类研究”(GJB1421223)

第一作者简介:马朝珉(1989-),女,汉族,山东临清人,硕士,讲师。研究方向为教学质量评价。

*通信作者:李伟凯(1965-),男,汉族,黑龙江大庆人,博士,教授,博士研究生导师,副校长。研究方向为教育管理。