APP下载

基于特征选择的学位预警方法研究

2023-09-14李劲松潘子尧姚明海

计算机技术与发展 2023年9期
关键词:特征选择学位预警

王 娜,李劲松,潘子尧,姚明海*

(1.渤海大学 信息科学与技术学院,辽宁 锦州 121013;2.渤海大学 数学科学学院,辽宁 锦州 121013)

0 引 言

2022年10月16日,习近平总书记在中国共产党第二十次全国代表大会上的报告中明确提出“高质量发展是全面建设社会主义现代化国家的首要任务”[1]。推进“高质量发展”离不开高质量的人才队伍,所以提升教学质量具有重大的现实意义[2]。早在2019年中共中央、国务院印发的《中国教育现代化2035》中就明确指出,要充分“利用现代技术加快推动人才培养模式改革,实现规模化教育与个性化培养的有机结合”着力提高教育质量。基于数据挖掘相关理论的教育数据挖掘(Educational Data Mining,EDM)可以从各种教育数据中挖掘数据背后的教育规律,并可以为提高教育质量提供数据支撑,已经成为当前教育工作者们关注的焦点[3-4]。成绩预测或成绩预警作为EDM的热门研究领域之一,通过构建有效的预测或预警模型预测其学习成绩,发现成绩可能不理想甚至有辍学风险的学生,为教师提供精确的教学指导,为学生改变学习方式提供重要的参考依据,对提高教学质量具有重要的应用价值和现实意义[5-6]。

近年来,国内外学者在成绩预测和成绩预警方面开展了相关研究工作。刘晓雲等人利用多元线性回归方法构建预测高校学生毕业成绩的模型[7]。Chen等人基于梯度提升决策树算法、人工神经网络算法和K-means算法,构建了一个基于学生行为特征的分析预测平台[8]。虽然国内外学者已经对成绩预测展开了相关研究,但是随着大数据时代的到来,与学生成绩相关如学生行为记录、学生消费习惯等教育数据变得越来越庞大。因为课程相关性,数据存在冗余信息等原因会影响基于这些数据构建的成绩预测或预警模型的性能。因此,有些学者开始尝试利用特征选择的方法对数据进行筛选。Gitinabard等人采用特征选择和逻辑回归的方法来预测学生是否退课[9]。Thaher等人利用改进的鲸鱼优化算法从学生成绩中选择出有助于构建精准预测模型的特征[10]。虽然国内外学者已经开展了相关的研究工作,但如何构建更为精准的成绩预测或预警模型仍是关注重点。

众所周知,学位能否顺利获得深刻地影响着学生的未来发展[11]。如果能在大学初期就可以向获得学位存在风险的同学发出预警,就可以督促学生及时改进学习方式,保证其顺利毕业。因此,提出基于特征选择方法构建更为精准的学位预警模型。

1 相关理论

特征选择是为了构建更精准的学习模型而从原始特征中选择出一个特征子集的理论方法。在特征选择的过程中可以有效地去除噪声、冗余等干扰信息,高效地进行维数约简,进而提高学习性能,增加对学习结果的理解[12]。

1.1 Fisher特征选择

基于Fisher得分的特征选择方法是依据Fisher得分来寻找一组具有最好判别能力的特征子集的有监督特征选择方法[13]。其定义如公式(1)所示:

(1)

基于Fisher的特征选择过程描述如下:

输入:训练样本集。其中,X表示n个具有d维特征的样本;Q是全体特征集合。

输出:选择出的特征集D。

Fisher特征选择方法通过计算原始特征的重要性得分来进行特征选择,方法简单、直观。因此,为了消除原始课程数据间的冗余信息,采用Fisher特征选择方法来为构建的学位预警模型筛选特征信息。

1.2 支持向量机

基于结构风险最小化理论的支持向量机(Support Vector Machine,SVM)算法[14]是一个高效的有监督分类算法。其核心思想是在特征空间中建构最优分割超平面,使得分类器能够得到全局最优解。对于线性不可分的问题,SVM使用各种核函数将低维空间线性不可分的数据映射到高维特征空间,达到线性可分的结果。二维数据的SVM分类效果如图1所示,图中最优超平面的方程为:

图1 二维数据的SVM分类示意图

f(x)=w·x+b=0

(2)

其中,样本(xi,yi),xi∈Rd,yi∈{+1, -1},i=1,2,…,N,w是权重向量,b为尺度因子,权重向量和尺度因子决定了超平面的位置。

因SVM采用结构风险最小准则来训练分类器,能较好地处理样本特征非线性、维数高等问题,使其具有精准的分类能力[15]。因此,提出基于SVM构建学位预警模型。

2 基于Fisher特征选择的学位预警模型

提出的基于Fisher特征选择的学位预警模型主要包括数据预处理、模型构建和学分预警三个部分,其算法流程如图2所示。考虑到学生成绩样本的特殊性,在数据预处理阶段要确保样本数据的规范化。要对学生成绩进行筛选,例如,删除选择人数较少的课程数据,删除选课较少的学生(如退学、休学等)成绩数据。此外,还要根据公式(3)对数据进行归一化处理。

(3)

在模型构建阶段首先利用Fisher算法进行特征选择;然后利用选择后的特征构建学位预警模型。在学位预警阶段,首先将测试样本依据特征选择规则得到新的测试样本;然后根据构建好的预警模型判断是否对学生进行学位预警。

3 实 验

该文利用某高校2018级软件工程专业、化学专业、会计学专业、汉语言文学专业学生的真实成绩构建学位预警模型,通过统计大量的随机实验结果来验证用特征选择的方法构建预警模型的可行性和有效性。

3.1 实验数据

实验数据为某高校开设的包括工学类、理学类、管理学类、文学类在内的软件工程专业、化学专业、会计学专业、汉语言文学专业学生在1、2、3学期所获得的非学位课课程成绩和最终的平均学位绩点成绩,并分别对各专业学生成绩进行如下处理:

(1)删除选课人数过少(专业人数的10%)的课程;

(2)将格式为“优秀”“良好”“中等”“及格”和“不及格”的等级成绩替换为“95”“85”“75”“65”和“55”百分制成绩;

(3)为了避免不同课程成绩间数量级对实验结果的影响,将学生分数成绩归一化到[0,1]区间内。

最终,利用处理后的1、2、3学期非学位课课程成绩和学位绩点成绩构建各专业的学位预警模型,数据情况如表1所示。

表1 数据情况汇总

3.2 评价指标

该文选用了有效、直观的错误率(ER)作为评价指标,其计算公式如公式(4)所示。此外,由于需要给出预警的样本仅占总样本的5%,使得正负样本间存在严重的不平衡问题。因此,该文还用查全率(Recall)、查准率(Precision)、错误拒绝率(FRR)和错误接受率(FAR)共同作为评价指标。其中,错误率值越低说明预警模型的预警准确率越高;召回率又被称为查全率,表示需要给出预警的样本被正确给出预警的概率;查准率又被称为精准率,表示被预警模型给出预警的样本中真正需要做出预警的概率。错误拒绝率预警模型判断无需做出预警的样本中实际应该给出预警的概率;错误接受率表示无需给出预警的而被错误做出预警的概率。它们的计算公式分别为:

(4)

(5)

(6)

(7)

(8)

其中,TP和FN分别表示预警模型对应该给出学位预警的样本正确做出预警(正确预测)的样本数量和没有做出预警(错误预测)的样本数量;FP和TN分别表示预警模型对无需给出学位预警的样本错误给出预警(错误预测)的样本数量和没有做出预警(正确预测)的样本数量;TP+FN即正样本的数量,TN+FP即负样本的数量。

3.3 实验结果与分析

为了确保实验结果的稳定性和证明算法的有效性,分别对每个专业进行6组实验。实验1到实验6分别利用不同的训练样本数量来构建预警模型,6组实验中分别随机选择总样本的40%、50%、60%、70%、80%和90%作为训练集,其余样本数据作为测试集。每组实验都重复100次随机选样本,并将多次实验结果的平均值作为最终的统计结果。实验结果如表2至表6所示。

表2 各专业学位预警错误率结果统计

从表2中可以看出,随着训练样本的增加,各专业构建的学位预警模型的错误率普遍呈现下降趋势。其中,基于特征选择的预警模型明显具有更低的预警误差和更高的稳定性。

从表3到表6中也同样可以发现,各专业的成绩数据经过特征选择后构建的学位预警模型其查全率和查准率都高于没有进行特征选择的模型;而基于特征选择构建的学位预警模型的错误接受率和错误拒绝率则明显低于没有进行特征选择的模型。

表3 各专业学位预警查全率结果统计

表4 各专业学位预警查准率结果统计

表5 各专业学位预警错误拒绝率结果统计

表6 各专业学位预警错误接收率结果统计

综上所述,从表2至表6中的各项指标的统计结果显示,基于Fisher特征选择的学位预警模型具有更低的错误率和更高的稳定性。表明基于特征选择的方法可以选择出更有效的课程来构建更为精准的学位预警模型,其构建模型给出的预警结果更为可信,更有助于学生和教师及时地调整教学方式。

4 结束语

高校扩招政策的连年实施在为提升国内人口素质的同时,也对现有高校教学管理模型带来了更高的挑战。探索学生学习的一般规律,挖掘和分析学生特征和成绩的关系,构建更为精准的学位预警模型可以更好地提高教学质量,对完善高校学位预警机制有重要的应用价值和现实意义,因此提出基于Fisher特征选择的学位预警模型方法。实验结果表明,构建的学位预警模型能更好地从现有成绩数据中挖掘有效信息,使预警模型具有更低的预警误差和更高的稳定性,能够更好地完成学位预警工作。但成绩预测或预警工作不仅会受到前期成绩的单一影响,还可能受到学习背景、行为习惯等因素的影响。因此,成绩预测、预警等工作仍是一个较为复杂的课题,在下一步的研究中将会利用特征选择方法充分挖掘学习背景、学习环境、行为习惯等更多因素,以构建更加精准有效的成绩预测或预警模型。

猜你喜欢

特征选择学位预警
法国发布高温预警 严阵以待备战“史上最热周”
『博士后』是一种学位吗?
园林有害生物预警与可持续控制
Kmeans 应用与特征选择
俄罗斯儿童教育:超80%入园率与供不应求的学位
机载预警雷达对IFF 的干扰分析
联合互信息水下目标特征选择算法
国内ERP研究现状——基于学位论文的统计分析
预警个啥
基于特征选择和RRVPMCD的滚动轴承故障诊断方法