基于支持向量机的学位预警方法研究

2023-12-26李劲松潘子尧姚明海

吉林大学学报(信息科学版) 2023年5期

王娜,李劲松,潘子尧,姚明海

(渤海大学 a.信息科学与技术学院; b.数学科学学院,辽宁锦州 121013)

0 引言

在2019年中共中央、国务院于印发的《中国教育现代化2035》中明确指出,要“着力提高教育质量”,“加快信息化时代教育变革”,“利用现代技术加快推动人才培养模式改革,实现规模化教育与个性化培养的有机结合”[1]。因此,如何充分利用现有教育数据,探索其教育规律,并进一步提高教育质量已成为当前教育工作者们关注的焦点[2-3]。基于机器学习、数据挖掘等方法的教育数据挖掘(EDM:Educational Data Mining)可以从与教育相关的各种数据中挖掘出有价值的信息,并对学习者产生和收集的相关数据进行分析和解释,评估学习者的学习情况,预测其学习成绩,最终根据学习状态的预测结果进行学业预警,为教育决策提供依据[4-5]。

成绩预测及预警作为EDM的热门研究领域之一,通过构建有效的预测或预警模型及时发现成绩可能不理想甚至有辍学风险的学生[6]。教师可依据模型输出结果提供精确的教学指导,对提高教学质量具有重要的应用价值和现实意义,因此人们对其进行了大量研究。Chen等[7]将梯度提升决策树算法、人工神经网络算法和K-means算法相结合,构建了一个基于学生行为特征的分析预测平台。刘晓雲等[8]提出基于多元线性回归方法构建预测毕业成绩的模型。任鸽等[9]利用Apriori算法挖掘不及格课程之间的相关关联,构建基础预警规则库,并进一步挖掘“及格”、“良好”等级课程对其他课程的影响。班文静等[10]提出了基于多算法融合的在线学习成绩精准预测算法。目前虽然已经有许多成绩预测或预警相关的研究报道,但多是基于现有全部数据预测某科成绩,未能充分利用高校学生入学初期的成绩,无法体现尽早预测,及时干预的初衷。

众所周知,能否顺利获得学士学位不仅代表该学生是否较好地掌握了本门学科的基础理论、专业知识和基本技能,还深刻地影响着学生未来的个人发展。如果能在大二学年结束前向可能无法获得学位的同学发出及时预警,则可以督促学生及时改进学习方式、指导教师调整教学方法,达到提高教育质量的目的。同时也可以为成绩达标的同学提供更好的选课方案,提高其学习效果,使不同类型的学生都能达到毕业要求。因此,笔者提出利用支持向量机(SVM:Support Vector Machines)构建学位预警模型,从而为丰富教学质量管理机制提供有效的借鉴。

1 支持向量机

SVM[11]是由贝尔实验室于1995开发的一个有监督的二分类学习方法。其主要思想是基于结构风险最小化理论在特征空间中建构最优分割超平面,使分类器能得到全局最优解。二维数据的SVM分类效果如图1所示。最优超平面方程为

f(x)=wx+b=0,

(1)

其中样本(xi,yi),xi∈Rd,yi∈{+1,-1},i=1,2,…,N,w为权重向量,b为尺度因子,权重向量和尺度因子决定了超平面的位置。

SVM主要针对线性可分问题,而对线性不可分的情况,则使用非线性映射函数将低维空间线性不可分的数据转化到高维特征空间中,使其线性可分。因SVM采用结构风险最小准则训练分类器,能较好地处理样本特征非线性、维数高等问题,使其具有分类能力。因此,笔者提出基于SVM的学位预警模型。

2 基于SVM的学位预警模型

模型具体流程如图2所示。为提高教学质量,构建精准的学位预警模型,已经成为当前教育数据挖掘领域的研究热点问题。鉴于目前高校普遍将学位课开设在大二、大三学年,而大一阶段又是学生进入高校的重要时期。因此,笔者提出利用早期非学位课程构建学位预警模型。基于SVM的学位预警模型主要包括数据预处理、模型构建和学位预警3部分。考虑到学生成绩样本的复杂性,首先将学生成绩进行筛选、归一化等预处理,确保样本数据的规范化。然后将预处理后的数据分为训练和测试样本,并利用训练样本构建SVM学位预警模型。最后根据构建好的预警模型预测是否对学生测试样本进行学位预警。

图2 基于SVM的学位预警模型流程图

3 预警模型构建及结果分析

利用某高校数学与应用数学、汉语言文学、会计学等5个专业的实际成绩构建学位预警模型,通过统计大量的随机实验结果验证构建预警模型的可行性和有效性。

3.1 实验数据

实验数据为某高校广播电视编导、汉语言文学、化学、会计学和数学与应用数学5个专业学生前3个学期所取得的非学位课课程成绩和最终的平均学位绩点成绩,数据情况如表1所示。并分别对各专业学生成绩进行如下处理:

表1 数据情况汇总表

1) 删除选课人数过少(专业人数的 10%)的课程;

2) 将格式为“优秀”、“良好”、“中等”、“及格”和“不及格”的等级成绩替换为“95”、“85”、“75”、“65”和“55”百分制成绩;

3) 为避免不同课程成绩间数量级对实验结果的影响,将学生分数成绩归一化到[0,1]区间内。

最终,利用处理后的前3学期非学位课课程成绩和学位绩点成绩构建各专业的学位预警模型。

3.2 评价指标

笔者选用了有效、直观的错误率(ER:Error Rate)、查全率(Recall)、查准率(Precision)和错误拒绝率(FRR:False Rejection Rate)[12],其计算公式分别为

其中TP和FN分别为预警模型对应该给出学位预警的样本正确做出预警(正确预测)的样本数量和没有做出预警(错误预测)的样本数量;FP和TN分别为预警模型对无需给出学位预警的样本错误地给出预警(错误预测)的样本数量和没有做出预警(正确预测)的样本数量。

3.3 实验结果与分析

针对每个专业,分别进行6组实验,以确保实验结果的稳定性和算法的有效性。实验1～实验6分别利用不同的训练样本集构建预警模型,6组实验中分别随机选择总样本的40%、50%、60%、70%、80%和90%作为训练集,其余样本数据作为测试集。每组实验都重复100次随机选样本,并将多次实验结果的平均值作为最终的统计结果。实验结果如图3～图6所示。

图3 各专业学位预警错误率统计

从图3和图4可看出,随着训练样本的增加各专业构建的学位预警模型的错误率和错误拒绝率普遍都呈下降趋势。虽然会计学和汉语言文学专业没有表现为单调递减,但也呈现出整体下降的趋势。而图5和图6也从查全率和查准率的角度再次表明,随着训练样本的增加各专业构建的学位预警模型能超过0.8甚至0.9。此外,广播电视编导专业的错误率和错误拒绝率具有最大的降幅,其查全率和查准率增幅也最明显。出现这种现象的原因一方面是广播电视编导专业在前3个学期开设了64.7%的专业课,开设的学位课数量与非学位课数量比为1∶2.5; 而其他专业前3个学期仅开设了50%左右的专业课,学位课数量与非学位课数量比分别为汉语言文学专业1∶3.9,化学专业1∶2.8,会计学专业1∶4.6,数学与应用数学专业1∶5,仅化学专业稍高。其中,数学与应用数学专业前3个学期开设的专业课数量甚至低至了35.7%,学位课数量与非学位课数量比最低。4项统计指标也显示出数学与应用数学专业的错误率和错误拒绝率更高,查全率和查准率更低。表明在早期合理设置学位课与非学位课开课比例更有助于指导学生培养良好的学习习惯。

图5 各专业学位预警查全率统计图

整体看各专业在较少训练样本的情况下,其构建的学位预警模型就具有了较低预测误差,并且随着训练样本的增加,构建的学位预警模型给出的学位预警结论更为精准。

4 结语

能否顺利获得学位,对每名高校学生至关重要。因此,为更好地提高教学质量,完善学位预警机制,笔者考虑当前高校课程设置特点,提出利用前3个学期非学位课课程成绩构建学位预警模型。实验结果表明,利用前3个学期非学位课课程成绩构建的学位预警模型具有较低的预警误差和较高的可推广性。但成绩预测或预警工作不仅会受到前期成绩的影响,还可能会受到学习背景、行为习惯等因素的影响。因此,成绩预测、预警等工作仍是一个较为复杂的课题,在下一步的研究中将会充分考虑学习背景、学习环境、行为习惯等更多因素的影响,构建更加精准有效的成绩预测或预警模型。