大学生成绩综合评价研究<br/>——基于多元统计分析方法

大学生成绩综合评价研究
——基于多元统计分析方法

2019-10-28孙小素霍玉娇

统计学报 2019年4期

孙小素，霍玉娇

（山东工商学院统计学院，山东烟台264005）

一、引言

随着计算技术的快速发展，各行各业都在利用大数据进行统计分析，多元统计分析方法已被广泛应用于多个领域，如医学、金融、电商等。但该种统计方法在教育系统中尚未得到充分利用，目前高校的教育评价多采用简单的定量评价方式，不能对学生的综合能力进行科学、系统的分析。

大学生的培养和评价是一个复杂的多元系统，单一的成绩评定已不能满足当今社会的需要。高校应多方面考察学生的综合能力，进行科学、公平、有效的教育评价，并根据评价结果因材施教，以培养高质量的人才。因此，采用多元统计方法分析学生的成绩，对高校的人才培养具有重要意义。

二、国内外研究概述

（一）国外教育评价体系研究

《为未来而准备的学习——重塑技术在教育中的作用》是美国教育部于2015年12月颁布的国家教育技术计划（NETP），该计划引起了全世界教育研究者的关注。自教育技术计划发布至今，美国的教育信息化已取得良好的效果，其关注的焦点从“技术该不该用于学习”转向“如何运用技术改善学习”（王萍，2016）[1]，为学习、教学、领导力、评价及基础设施建设等提供了重要建议。在学生教育评价方面，技术评价的作用越来越明显，其将认知研究与学生如何借助多媒体以及合作与关联关系进行思考的理论联系起来，从而使直接评价这些技能成为可能。

（二）国内教育评价体系研究

我国的教育评价研究起步较晚，相关的概念和理论不够完善，评价体系简单、粗糙。从传统的教育评价体系来看，成绩是评价学生重要的甚至是唯一的标准，这种评价方式使学生、家长、老师过于看重成绩，甚至出现如“考试机器”般的学生。由于缺乏个性培养，许多学生不知自己的优势在哪里，其创新力得不到发展。

在评价方法上，传统评价主要使用简单的加权平均，即将学生的原始分数或标准分数以课程的学分为权重，进行加权平均，其结果就代表学生的综合表现。这种评价方法存在两个明显的缺陷。一是以学分为权重只能体现教学设计，学生若符合教学设计，其评价结果就很理想，反之则不理想。然而，学生千人千面，每个人都是独特且唯一的，笼统的评价结果不能反映学生的特点，阻碍了其创新能力的发挥。二是评价结果只能测度学生对教学设计的符合程度，而高等教育的目的是培养符合社会需要的高素质人才，如果评价结果不能反映学生的特点或优势，实现因材施教，测度活动就会失去意义。

近年来，已有很多学者尝试将多元统计方法应用于学生的综合评价中（庄楠楠，2017；马晓悦，2018；王煜和邓静，2018；朱淑华，2018；左小艳和高雯蕙，2018；王小丽等，2018；赵金星，2019；旷开金等，2019）[2-9]，如将学生成绩数据进行深层次描述，赋予成绩多方面的属性，这就使学生评定方式更加全面，在一定程度上弥补了传统评价方法的不足。但是，上述研究多是采用多元统计方法中的因子分析，而各种多元统计分析的特点决定了因子分析应与聚类分析相结合，同时结合判别分析，效果才会更好。

本文采用多元统计分析中的因子分析对学生成绩进行综合评价，利用聚类分析将所有学生按个人能力不同进行分类，同时使用Fisher判别方法校验聚类分析的科学性，以保证学生成绩评价的科学性、高效性。采用该种统计分析方法得出的评价结果既可以引导教师因材施教，又有助于学生寻求自我发展、实现自我价值，是一种值得推广的评价方法。

三、实证分析

（一）评价对象与评价指标

本文以某高校应用统计专业2016级的61名学生为评价对象，以其评价截止时间前学习的所有课程成绩为评价指标，对这些学生的在校表现进行综合评价。根据培养方案，高校为应用统计专业开设了通识必修课、专业核心课和专业拓展课，共计33门课，详见表1。

表1 课程名称及分类

（二）数据预处理与描述性统计分析

为了提高分析结果的准确性及数据的可用性，本文首先对学生成绩进行了预处理，并对各门课程的考试成绩进行了描述性统计分析。

1.学生成绩的预处理。为了便于分析，本文将学生的原始学号用新的编号代替，如将原始学号16046101简记为1，同理得到其余60名学生的新编号，同时将33门课程命名为33个变量，如将数学分析命名为变量X1，其余32个变量作相应处理。

在数据筛选部分，由于每个学生选修的课程中包含的科目及授课内容不同，这会使成绩不可比，因此，本文在研究中舍弃了这些课程。另外，数学分析、大学英语、形势与政策等公共基础课程会在多个学期开设，取这几门课程的平均值更具代表性。本文最终确定的代表性科目分为通识必修课、专业核心课和专业拓展课三类，共计33门课程。为了减少不同课程考试难度系数及阅卷教师考评严格程度带来的差异，本文在因子分析部分对所有学生的原始成绩进行了标准化处理。

2.各门成绩的描述性统计分析。为了更直观地分析各门课程的分布差异，本文依据61名学生各门课程的原始成绩绘出箱线图，对33门课程进行比较分析。由于通识必修课和专业拓展课的箱线图分布类似，本文将这两类课程放在一起，详见图1。

图1 通识必修课和专业拓展课箱线图

从图1中可以看出，数学分析的平均分低于80分，而且上四分位数也低于80，说明数学分析这门课程对于大多数学生而言是比较难的。运筹学、统计计算和数据库原理的箱体比较长，说明这三门课程的成绩分布较为分散，即考试成绩可以在一定程度上检验学生的学习情况。在通识必修类课程中，形势与政策、中国近代史纲要、职业生涯与规划这三门课程的箱体很短，而专业拓展类课程中实验设计、社会学、经济法的箱体也是较短的。这说明这些课程的成绩分布比较集中，区分度较低，而且这六门课程的下四分位数几乎高于同类课程的上四分位数，这意味着试题过于简单或者教师阅卷过于宽松，而区分度低的课程会使学生成绩的差异性变小，无法准确衡量学生的真实水平，考试也就失去检验学生学习情况和教师教学能力的意义。

图2是专业核心课的箱线图。可以看出，这类课程普遍存在极小值等异常点，且异常点的数目远多于通识必修课和专业拓展课的异常点。例如，在应用随机过程课程中，序号为 59、2、8、34、38、42、6的学生皆为异常点，他们的分数均低于40分。这既可能是因为考试题目难度过大，也可能是因为学生在平时学习过程中与教师交流过少，教师不了解这些学生的学习困难。因此，对于这类学生，教师应及时与其进行交流与沟通，解决学习中的问题。

高校对学生成绩的考核已加入多方面的内容，如增加了平时成绩、期中检测、课堂测验等项目，但课堂互动、随堂测验等环节的考核占总成绩的比重过小，或者尚未成为有区分度的项目。从专业课箱线图来看，除了市场调查与分析课程的箱体较短外，多数课程的箱体较长，且分布较为对称，说明这些课程的考试成绩对学生的学习水平具有较好的区分度。

图2 专业核心课箱线图

（三）学生成绩综合评价过程及结果

1.因子分析方法的适用性检验。高校主要采用绩点法或加权平均法对学生进行综合评价，但这两种方法都不适合于评价学生的综合能力。因此，本文建立了因子模型，以期减少指标个数，更加科学、合理、公正地对学生进行综合评价。本文借助SPSS软件对所有学生的原始成绩进行KMO和Bartlett检验，以验证因子分析方法的适用性。

表2 KMO和Bartlett检验

从表 2的结果来看，KMO值为 0.830＞0.7，Bartlett的球形度检验卡方值为1 760，且p值接近于0，说明33个变量间存在较强的相关性，适合于进行因子分析（任雪松和于秀林，2017）[10]。

2.学生成绩综合评价过程。

（1）确定公共因子（综合变量）的个数。本文总共选取33个变量，并利用主成分分析生成新的综合变量，将特征值大于1的作为最终被提取的主成分。根据表3的方差分析结果（限于篇幅，该表仅列出前8个特征值及其对应的方差），本文最终提取了6个主成分作为综合变量。这6个综合变量的累计贡献率虽然仅为74%，低于80%，但其仍可替代原始变量解释大部分差异，即可以采用这6个综合变量代替原来的33门课程对学生的学习成绩进行综合评价。

表3 解释的总方差

（2）命名公共因子。根据旋转后的因子载荷矩阵（见表 4，因该矩阵较大（33×6），表 4仅截取了其中的一部分），本文将同一公共因子载荷值较大的原始变量归为一类（同一公共因子的载荷值大，说明它们的相关程度高），并结合原始变量的特点，为公共因子命名。

第一个公共因子主要由X11概率论、X1数学分析、X13统计学概论、X16应用随机过程、X15非参数统计学、X3高等代数等课程决定，由相关课程安排可知，这几门课偏理论性，故本文将其命名为专业理论知识因子，记作F1。第二个公共因子主要由X21抽样调查技术与应用、X14应用回归分析、X20应用多元统计分析、X18统计预测与决策、X30企业经营与规划、X22运筹学等课程决定，这几门课程偏实际应用与分析，故本文将其命名为专业技能应用因子，记作F2。第三个公共因子主要由X28实验设计、X33C++程序设计基础、X29数据库原理、X17市场调查与分析等课程决定，这几门课程对程序编译和调查设计等均有所涉及，故本文将其命名为编程与设计因子，记作F3。第四个公共因子主要由X8职业生涯规划与设计、X26管理学、X5形势与政策等课程决定，这几门课程涉及到学生的自身管理与认知规划等，故本文将其命名为自我认知管理因子，记作F4。第五个公共因子主要由X23社会学、X4大学语文、X2大学英语等课程决定，这几门课程均涉及语言的学习应用及社交方面，故本文将其命名为社交技能因子，记作F5。第六个公共因子由X7中国近代史纲要课程决定，本文将其命名为文化素养因子，记作F6。

表4 旋转后的因子载荷矩阵

（续表 4）

（3）计算每个学生的综合得分。基于SPSS给出的6个公共因子得分，本文以各个公共因子的方差贡献率为权数，计算得到每个学生的综合得分F（任雪松和于秀林，2017）[10]。

根据因子分析原理即因子得分（包括单个公共因子得分和综合得分）的均值为0、标准差为1来判断，大于0表明得分高于平均水平，而大于0的越多，表明相应的因子表现越突出。从计算结果来看，排名靠前的学生各类课程的成绩都高于平均水平（表现为各个公因子上的得分都超过0），如10、54、19号，或者绝大多数课程的成绩高于平均水平，且某一类课程格外突出，如40、53、47号。排名靠后的学生则正好相反，如排在最后的2号学生，其第一公共因子专业理论基础类课程及第六公共因子文化素养类课程的成绩远远落后于其他学生，导致其综合排名很不理想。但该生并非一无是处，其在第三公共因子编程与设计课程上的表现好于很多学生。因此，表5蕴含的信息十分丰富，如果这种测度方法是科学的，我们就可以进一步挖掘评价指标中的信息，如根据学生在不同类别课程中的表现将其分类，因材施教，并对其未来的求学、就业进行有针对性的指导。本文将利用多元统计分析中的聚类分析、判别分析等检验评价方法的合理性。

（四）评价结果的合理性检验

1.利用聚类分析验证综合评价结果的合理性。评价学生的最终目的不只是进行排名，而是将分析结果应用于教学质量的提高及学生对自我学习能力的认知。多元统计分析中的聚类分析是将相似的学生聚为一类，将不同的学生区分开来，为因材施教、提高教学的针对性提供依据。本文以公共因子为变量对所有学生进行聚类分析，结果见表5。可以看出，聚为一类的学生同质性较高，特点十分鲜明，而未聚为一类的学生，其差异性也十分明显。这说明本文综合评价的结果是科学、合理的，可以为因材施教提供客观依据。

表5 聚类结果

具体来看，第一类学生第一公因子的平均得分最高，超过0.9分，说明该类学生能够牢固掌握专业知识，具有较强的学习能力和应试能力。因此，该类学生适合于考取学术硕士研究生，在专业领域进行深入研究，或者将来选择教育、培训等相关职业。第二类学生在第二公因子上的平均得分最高，接近0.95分，说明该类学生应用型课程的考试成绩较好，解决实际问题的综合能力较强。因此，该类学生适合于考取专业硕士研究生，其职业选择的范围较广泛，如进入公司、考取公务员等，其更符合应用型人才的标准。第三类学生在第三公因子上的平均得分最高，在第四公因子上的得分仅次于最高的第四类，得分分别为0.8和0.66，说明该类学生的编程和创新设计能力比较突出，具有较强的自我管理能力。在大数据发展迅速的专业背景下，这类学生更适合从事数据分析工作。第四类学生在第四因子上的平均得分最高，接近0.88，说明这类学生的自控能力最强。这是一种非常好的个人素质，这种品质可以间接提升他们的社交能力和文化修养等，这类学生将来可以应聘一些管理类岗位。第五和第六类学生较少，第五类只有4名学生，第六类只有3名学生，这可能是由于相关课程安排不合理所致，如社会学、中国近代史纲要等课程的课时安排及学分占比相对于其他专业课而言是微不足道的，高校应在选修课程中加大相关课程的比重，以培养德才兼备的人才。

2.利用判别分析验证综合评价结果的合理性。前文的聚类分析印证了本文综合评价的合理性，而聚类结果的合理性也是需要验证的，故本文使用判别分析进行验证，结果见表6。

表6 判别分析结果

表6显示，在参与判别分析的50个学生中，聚类分析的分类结果正确率达到98%，仅有一人本属于第一类却被误判为第二类，聚类结果的合理性是不言而喻的。进一步分析错判案例的原因，我们发现，聚为第一类的学生理论知识扎实，第二类学生的专业技能突出，而专业技能突出的学生理论知识学习一般也不会很差，这就可能导致误判。

3.综合评价方法与传统加权评价方法的对比分析。为了比较因子分析方法与加权平均法（以课程的学分为权重，对学生的原始分数进行加权平均）的综合排名差异，本文从61名学生中随机抽取8名学生进行对比，并根据结果绘出图3（因子分析的排名为综合排名，加权平均的排名为初始排名）。

图3 学生排名对比

显然，两种评价方法的结果不尽相同。以序号14、31、54、57为代表的学生在因子分析中的排名要比加权平均的排名高（排名越靠前代表排名越高），以序号40、21为代表的学生因子得分与加权成绩排名相同，而以序号30、50为代表的学生因子分析排名要比加权成绩排名低。

就因子分析排名比加权成绩排名高的学生而言，如序号为57的学生，其市场调查与分析、实验设计、C++程序设计基础等课程的成绩明显高于其他学生，这几门课分布在第三公共因子中，而该公因子的累计方差贡献率达到7.5%，高于排在其后的3个公共因子，即该因子在综合得分中的权重较大。但从加权成绩来看，由于市场调查与分析、实验设计、C++程序设计基础等课程的成绩分布较为集中，该学生这些课程的成绩虽然比其他学生高，但差异在原始成绩中并不明显。因此，因子综合评价方法可以加大区分度较小课程的权重，这也是这些课程成绩突出的学生排名上升的原因。

就因子分析排名与加权成绩排名几乎相同的学生而言，如序号为40号的学生，其在所有公因子上都表现不俗。由此可知，该学生在专业知识学习、实践应用、编程与设计等方面都非常优秀，这类学生发展均衡，是高校为社会培养的综合性人才的典范。

就因子分析排名比加权成绩排名低的学生而言，如序号为30的学生，其第一公因子的得分要比排在其后学生的第一公因子得分低，而其第三、四公因子的得分却高于排名靠前的学生。由于第一公共因子在因子总得分中的权重最大（超过64%），故这类学生的因子得分排名比较靠后。在加权成绩法中，决定第一公因子的一些课程如概率论、高等代数的学分虽然高于其他公因子下的课程，但它们的权重不可能高于第一公共因子的权重，故加权平均成绩的排名就会高于因子分析的排名，这也是因子分析排名比加权成绩排名低的原因。可见，因子分析更易突出学生的特点，而加权平均法则可能掩盖学生的特点。

综上所述，本文使用多元统计分析方法对学生成绩进行综合评价的优点是显而易见的。加权平均方法是从教师的角度出发，根据学校的课程设置和安排，以学分为权重，其在一定程度上存在主观赋权的缺陷。多元统计方法评价则是从学生的角度出发，以学生的特色为权重，通过分析学生在不同方面的能力对其进行综合评价，既充分考虑学生个人的突出能力，又结合各类课程的特点，便于学校因材施教，充分挖掘学生的潜力。总体来看，多元统计方法是一种科学、合理的综合评价方法。

四、学生成绩综合评价的启示

本文综合采用多种统计方法，对大学生的学习成绩进行了系统分析与评价。该种评价方法不仅可以科学、有效地反映学生的特点和能力，而且对学生就业、课程安排、教学质量等都具有启示意义。

（一）对学生未来就业的启示

本文的聚类分析显示，第一类学生的第一公因子平均得分最高，说明该类学生专业知识掌握牢固，具有较强的学习能力和应试能力，因此，该类学生更适合考取学术硕士研究生，在专业领域进行深入研究，或者选择教育、培训等相关职业。第二类学生在第二公因子上的平均得分最高，说明该类学生应用型课程的考试成绩较好，解决实际问题的综合能力较强，因此，该类学生更适合考取专业硕士研究生，其职业选择范围也较广泛，如公司、公务员等，符合应用型人才的标准。第三类学生在第三、四公因子上的平均得分最高，说明该类学生的编程和创新设计能力突出，其更适合从事数据分析工作。

（二）对高校课程安排、培养方案的启示

聚类分析的结果显示，第五、第六类学生较少，第五类只有4名学生，第六类只有3名学生。这可能是由于相关课程安排不合理所导致的，如社会学、中国近代史纲要等课程的课时安排及学分占比相对于其他专业课而言是很低的，高校应在选修课程中加大相关课程的比重，培养德才兼备的人才。另外，学校在培养方案、课程设置等方面应增加应用型课程及专业实践课，合理安排专业实习，使学生将所学知识真正应用于实际工作中，充分发掘学生的创新能力，提高学生解决实际问题的能力。

（三）对学生综合评价的启示

目前高校主要采用加权平均法得到评价结果，据此决定奖学金、评优等事宜，而这种做法有其局限性。本文提出的综合评价方法是以学生的特色为权重，通过分析学生不同方面的能力对学生进行综合评价，这是一种更为全面和科学的评价方法。高校可依据该评价方法得出的结果设立多种奖励项目，使任一方面有突出表现的学生都能得到鼓励，这在大众创业、万众创新的背景下显得格外重要。