考试成绩综合评价方法研究进展及展望
2020-01-09李运明
周 蜜 雷 丽 黄 娅 李运明,4,5*
(1、中国民用航空飞行学院航空工程学院,四川 德阳618307 2、西部战区总医院卫勤部医疗管理科,四川 成都610083 3、西南交通大学数学学院统计系,四川 成都610031 4、西南交通大学医学院,四川 成都610031 5、西南医科大学公共卫生学院,四川 泸州646000)
学业评价是衡量学生个体发展是否达到预定教育目标程度的过程,包括形成性评价和总结性评价[1]。考试是学业总结性评价的最重要的工具,目的是判断教学效果,区分成绩优劣。虽然1985 年第一次全国教育工作会议后,国内教育界开展了素质教育相关研究并付诸实施,但直至今日仍存在片面追求升学率和学生课业负担过重等问题。2016 年初,国家教育部公布了今后五年考试评价改革的五大新动向,包括要衡量综合素质、淡化日常考试的过高区分度,改变已往片面依升学率评价学校、依分数评价师生的方式等,并要改进考试评价体系、标准和方式。为此,本文全面回顾国内学者考试评价相关研究,系统综述学生考试成绩综合评价方法,并展望在未来考试评价改革中的应用。
1 相关概念
1.1 评价及综合评价
评价是参照一定标准评判比较客观价值或优劣的一种认识过程[2],包括单项和综合评价。综合评价的标准比单项评价复杂。综合评价指对多属性体系结构描述的对象作出全局性和整体性的评价,即对全部评价对象,根据所给条件,采用一定方法为每个评价对象赋予评价值,再据此择优或排序[3]。
1.2 综合评价理论及方法
综合评价是决策科学、社会科学、统计学等学科交叉融合基础上发展起来的注重实用性的学科,基本步骤包括明确对象体系、建立评价指标体系、确定评价原则及方法、完成综合评价、解释评价结果[3]。其理论主要包括基于统计决策、基于政策科学和基于一般社会科学的综合评价理论[4]。综合评价方法是综合评价的核心,是获取评价结论的重要工具。目前,国内外学者提出了几十甚至上百种综合评价方法,且这些方法如何分类尚无统一标准[3-5]。
2 学生考试成绩综合评价方法
2.1 原始分求和法
指将百分制各科考试成绩直接求和,然后按照总分排序,是方法最简单和应用最普遍的学生成绩综合评价方法。该方法直接应用原始成绩,未考虑同一课程试卷及判卷标准差异;且各课程权重相同,未考虑各课程重要程度的差异。丁家玲提出了等级制考试成绩与百分制考试成绩的换算关系[6],拓展了原始分求和方法的应用范围。田丹等对各课程原始分进行标准正态转换得到标准分(Z 值)[7],再进行综合评价,一定程度克服了各门课程原始考分不可比的问题。
2.2 平均学分绩法
将各门课程原始分与该门课程学分相乘后求和,再除以课程总学分,得到平均学分绩[8]。由于国内高校普遍实行了学分制改革,部分高校已将平均学分绩用于学生成绩综合评价。该方法优点是以学分作为课程的“权重”,但仍存在原始分求和法的缺点。徐则中在平均学分绩方法基础上,引入变权综合评价的概念[9],考虑了学生“偏科”对综合评价结果的影响,强调了学生各门课程均衡发展的重要性。
2.3 平均学分积法
首先将各门课程考试原始分转化为积点值,即<60 分积点值为0,60 分积点值为1.5,61 分积点值为1.6,依次类推,≥95分积点值为5;然后将各门课程积点值与该课程学分相乘后求和,再除以课程总学分,得到平均学分积[8]。该方法改进了平均学分绩方法,认为不及格课程的学分积为0,但仍存在原始分求和法的缺点,且考试原始分转换积点值存在较大的主观性。
2.4 层次分析法
考虑学生各门课程具有内在结构,如高校课程分属于公共基础课、专业基础课、专业课等类别,层次结构法首先构建待评价课程的多级递进结构,采用德尔菲方法咨询相关领域专家构建各门课程两两比较重要程度的判断矩阵,计算判别矩阵的最大特征根,经归一化和一致性评价后得到各门课程权重。该方法是一种定性和定量相结合的方法,既考虑了课程的内部结构,又设置了较为客观的课程权重,但因需构建各门课程两两比较判断矩阵,一般要求综合评价课程数小于9。董占明等采用层次分析法[10],建立了高校课程层次结构,综合评价学生考试成绩。张云华等采用层次分析法[11],建立了高校研究生综合素质测评指标体系。
2.5 模糊评价法
当综合评价结果以类别区分时(如考试成绩优秀、良好、中等、及格、不及格),各类结果间存在不清晰性,且试卷难易程度、评阅专家认识等也存在差异性。模糊综合评价方法是利用模糊关系合成原理,建立评价对象因素集、评价集、评价因素权重集,得到被评价对象所隶属等级状况的综合评价结果[3,5]。该方法计算简便,可较好的评价多因素多层次复杂对象,但由于主观确定评价因素权重,存在较大的灵活性。目前,该方法已较为广泛的应用于毕业设计、网络课程、研究生素质等综合评价[12-15],且国内学者已开展了截段矩阵、中界真值程度函数等方法研究[16,17]。
2.6 TOPSIS 法
又称与理想方案相似性的顺序优选技术,与层次分析法同属系统工程综合评价方法。该方法基本思想为:基于归一化后的原始数据(原始成绩)矩阵,寻找有限方案的最优方案(各课程最高成绩向量)和最劣方案(各课程最低成绩向量),然后分别计算诸多评价对象与最优方案和最劣方案间的距离,获得各评价对象与最优方案的相对近似程度,以此作为评价优劣的依据[18]。该方法充分利用数据,原理简单,但当各门考试成绩变异较大时,易受异常值干扰,且未考虑各课程重要程度的差异。丁梅芳和李伟才等将该方法分别应用于大学生综合素质评价和奖学金评选[19,20]。
2.7 熵权赋值法
熵是热力学重要概念,Shannon 将其引入信息论领域,用于测量一个系统的有序程度。若待评价对象某指标的值完全相同(有序),则信息熵最大,熵权最小为零,即综合评价不需要考虑该指标;反之,若某个指标变异程度较大(无序),则信息熵较小,熵权较大,即综合评价时该指标可提供较多信息[21]。因此,熵权代表了综合评价体系中指标提供信息量的多寡,具有较好的客观性,但熵权并不能代表指标实际意义的重要程度。忽喜凤采用熵权赋值法建立了高考成绩综合评价模型[22]。
2.8 主成分法
又称主分量法,是基于多元统计降维思想的综合评价方法,当待评价指标(各课程成绩)间存在较强的相关性时,在保留原始评价指标主要信息的前提下,将多个评价指标简化为少数几个互不相关的综合指标,即构建原始指标的线性组合的主成分,并用于综合评价。该方法计算较为复杂,但常用统计软件如SPSS、SAS 等实现较方便,估计主成分载荷可作为各门课程的“权重”,并以累计贡献率确定主成分个数,因此该方法较为客观,已较为广泛的应用于高校学生成绩分析和远程教育平台教学效果评价[8,23,24],且可根据载荷解释主成分的特殊含义,但亦有学者认为该方法仅提取若干主成分,未将全部数据信息用于综合评价,且对样本量要求较高[25]。
2.9 因子分析法
在综合评价中常存在一些不能直接评价的现象(如学生学习能力),只能通过其他多个可观测的指标(如多门课程成绩)间接反映。而这些可观测的指标通常呈现密切的相关性,因子分析法是寻找支配多个观测指标的潜在公因子和仅与某一观测指标相关的潜在特殊因子[4,8]。虽然主成分解是公因子求解的一种算法,但与主成分法不同,因子分析法中观测指标是公因子和特殊因子的线性组合,且可采用因子旋转方法,以显现公因子专业意义。如雷福民等采用因子分析法评价了体育专业高考成绩[26],提取了耐力、上肢力量、下肢力量、速度,4 项公因子,使得综合评价更具客观性和科学性。另外,该方法也应用于高校学生成绩综合评价[27-30]。由于因子分析法仅选取公因子用于综合评价,也存在与主成分法相同的缺点。
2.10 多方法融合综合评价方法
以上介绍的均是单一的综合评价方法,多方法融合综合评价方法是指利用不同评价方法在指标构建、权重赋值等方面的优势,将多种综合评价方法同时运用于一个综合评价问题,以提高评价的科学性和客观性[4]。如张启贤等基于平均学分绩法和因子分析法提出了一种新的学生成绩综合评价学分绩因子分析模型[27]。周薇等[31]和陈文峰等[25]采用熵权赋值法,较好的解决了层次分析法和TOPSIS 法主观确定指标权重的问题,建立了高校学生综合素质评价模型。吴海英等在比较原始分求和法、平均学分绩法、平均学分积法、主成分法和因子分析法在综合评价学生考试成绩效果的基础上,提出可将五种综合评价结果再进行主成分分析,并以第一主成分得分作为学生成绩综合评价依据[8]。
以上仅简要介绍了常用学生考试成绩综合评价方法,每种方法具体内涵和适用性,相关教材和论文已作较为详细的介绍[2,18,32],本文不再赘述。
3 综合评价方法在未来考试评价改革中的应用展望
通过文献研究发现,近年来国内学者已完成了大量的综合评价方法研究,并结合我国教育改革进程,将研究成果尝试应用于学生考试成绩综合评价。目前,国家教育部要求并推进考试评价体系、标准和方法的改革,笔者对综合评价方法如何应用于未来考试评价改革进行了一些思考。
3.1 应努力提升教师运用综合评价方法评价考试成绩的能力
目前,采用更为科学、合理的方法评价学生考试成绩,已成为广大教育工作者的共识。因此,师范类院校教育和教师继续教育课程,应适当增加学生考试成绩综合评价理论和方法的课程;教育主管部门和学校教务机构,应鼓励在优秀学生评选、奖学金评定、学生综合素质评价中采用综合评价方法。
3.2 应积极推进学生考试成绩综合评价软件的开发和推广
虽然早在10 余年前,已有学者将层次分析法[10]、TOPSIS 法[19]、主成分法[23]等方法应用于学生考试成绩综合评价,但是目前尚未得到广泛推广。笔者认为缺乏学生考试成绩综合评价软件是重要原因之一。因此,学校教务机构应结合实际,咨询相关领域专家,开发或引进综合评价软件,专门用于考试成绩评价及试卷分析。
3.3 应继续开展学生考试成绩综合评价方法适用性研究
每一种理论和方法的产生和发展具有其独特的历史背景和领域特色,也一定存在其适用性。目前,国内尚未开展针对学生考试成绩多种综合评价方法对比研究,以及针对小学、初中、高中、高校等各学习阶段学生群体的大样本考试成绩综合评价方法适用性研究。因此,有必要继续开展学生考试成绩综合评价理论和方法相关研究。
“纯粹的理论除了争辩之外毫无价值”,综合评价历来是注重实用性的学科。期望身在一线的广大教育工作者,能够更加积极主动的参与考试评价改革,尝试将综合评价方法应用于学生考试成绩评价。