APP下载

面向学生成绩预测的组合优化算法

2022-06-24党佳俊张宏烈慕钢李诚张晓琳

高师理科学刊 2022年5期
关键词:鲸鱼预测算法

党佳俊,张宏烈,慕钢,李诚,张晓琳

面向学生成绩预测的组合优化算法

党佳俊1,张宏烈1,慕钢1,李诚1,张晓琳2

(1. 齐齐哈尔大学 计算机与控制工程学院,黑龙江 齐齐哈尔 161006;2. 齐齐哈尔市建华区教师进修学校 信息技术部,黑龙江 齐齐哈尔 161006)

利用机器学习算法分析和预测学生成绩是大数据技术应用之一.将启发式算法与梯度提升算法相结合,提出组合优化算法预测模型.首先,通过采用动态对立学习增加种群初始化的多样性,引入非线性收敛因子和自适应权重等方法,得到增强鲸鱼算法,改进原来的全局搜索和局部开发能力.其次,基于XGboost模型加以增强鲸鱼算法的迭代,动态优化XGboost的超参数,提出组合算法预测模型.准确率ACC作为模型的评价标准,以学生数据集为研究对象,以学生成绩预测为目标,选用5种算法进行对比实验.实验结果表明,组合算法的预测准确度相对较高.

组合优化算法;增强鲸鱼算法;XGboost算法;学生成绩预测

学生成绩预测是目前教育领域研究的热点之一.随着科技的不断发展,大数据技术被广泛地应用在教育领域中.利用大数据技术对学生的学习成绩进行预测,可以帮助教师及时调整教学计划,提高学生的学习成绩,降低学生不及格的比率,还能对学生起到监督和预警的作用,更有助于教师对学生的学习过程进行有效的干预和指导.如识别出有风险的学生,以便及时提供干预措施[1].此外,还可以用于在线测评[2]、认知诊断[3]、推荐系统[4].因此,学生成绩预测问题具有重要的研究意义和应用价值.

针对“学生成绩预测”方法的研究已经受到国内外学者的广泛关注.Umair[5]等基于学生的行为数据,采用支持向量机对学生成绩进行预测.Pandey[6]等在影响学生成绩的18个属性特征中通过计算各个属性特征的信息增益率选择出8个重要属性,并利用所选择的8个重要属性构建决策树对学生成绩进行预测.陈曦[7]等提出融合知识图谱和协同过滤的学生成绩预测方法.Thiele[8]等提出学生的社会人口学特征和学业特征与他们的学业表现联系紧密.文献[9]提出了基于主成分分析法-径向基函数神经网络的预测模型,使用主成分分析法进行数据降维,利用RBF神经网络进行学生成绩预测,虽然提高了预测精度,但是未得出学生成绩的影响因子,使该模型的可理解性降低[10].申航杰[11]等综合考虑学生历史成绩和行为数据,采用模糊C均值算法对历史成绩属性做聚类,然后分别对每个聚类做支持向量回归.张麒增[12]等基于学生历史数据和行为数据,使用采样技术结合神经网络预测学生成绩.叶俊民[13]等通过分析情感特征、学生行为等影响,采用深度学习模型对成绩进行预测.

虽然研究成果取得较好的成绩,但仍然存在一些问题,如预测结果的准确度还是不够理想.为了提高学生成绩的预测精度,本文应用改进的鲸鱼算法优化XGboost算法的思想,兼顾鲸鱼算法的自然启发式特性和XGboost的梯度提升特点,通过2个算法的有效组合,研究出新的学生成绩预测模型.

1 方法

1.1 数据分析

为了对学生成绩做出准确的预测,数据分析十分重要.本文选取的数据集是Kaggle网站中的xAPL-Educational Mining Dataset数据集,它是一个多变量的数据集,该数据集一共480个样本,17个特征属性.属性可以分为3个类别:人口统计学特征,如性别、国籍、出生地等;学术背景属性,如受教育水平、年级、隶属的教室、课程名称等;表现特征,如学生在教室中举手次数、学生访问在线课程次数、学生检查新公告的次数、学生参加讨论组的次数等.

图1 数值型特征之间的关系

使用Python3.7语言对获取的数据进行分析,在Anaconda集成环境中进行开发实现,发现某些特征属性存在一定关系.通过PairGrid图观察数值型特征之间的关系(见图1),可以发现学习好的学生在学习方面表现相对积极,如学生在教室中举手次数、学生访问在线课程次数、学生检查新公告的次数、学生参加小组讨论的次数.学习好的学生在教室中举手次数最多(见图2),学生参加小组讨论的次数最多(见图3).

图2 学生在教室中举手次数与成绩等级的关系

图3 学生参加小组讨论的次数与成绩等级的关系

1.2 XGboost算法

XGboost(eXtreme Gradient Boosting),即极端梯度提升,属于提升学习算法的一种.XGboost算法由Chen Tianqi[14]提出,目前在机器学习算法研究领域中被广泛使用.该算法在梯度提升决策树(GBDT)算法的基础上对损失函数(loss)进行二阶泰勒展开,然后加入了正则项,解决了过拟合的问题,同时收敛速度得到了提升.XGboost算法通过不断形成新的决策树来拟合之前所预测的残差,使得预测值与真实值的残差不断缩小,鲁棒性越来越好,预测的精度得到了提升.XGboost算法可以用加法的形式表示

对式(2)所示的目标函数使用泰勒公式展开得

式(7)被用来计算树模型的分裂结点.

1.3 鲸鱼算法及其改进

2016年Mirjalili[15]等提出了一种新的自然启发式算法——鲸鱼算法(WOA).鲸鱼作为世界上最大的哺乳动物,可群居也可独居,其中捕食时以群体为主.群体中鲸鱼最大的为座头鲸,捕食方式被称为气泡网觅食法(见图4).从鲸鱼的捕食方式可归纳出鲸鱼捕猎的行为并建立数学模型,包含包围捕食、气泡网攻击、搜索猎物3个部分.

图4 座头鲸的气泡网进食行为

1.3.1 包围捕食 鲸鱼的猎物是磷虾和小鱼群,当座头鲸发现猎物后将其包围.当处在最佳搜索位置的鲸鱼确定位置后,其余鲸鱼根据最佳鲸鱼的位置不断更新其位置.该行为表示为

1.3.2 气泡网攻击 鲸鱼捕食时会采用气泡网觅食法,其中座头鲸会潜入水下12 m左右,并且向猎物发出螺旋形的气泡,然后游向水面,此方法为上升螺旋;另一种策略是采用珊瑚循环的同时用尾叶拍打水面以此获得捕获循环,此方法为双螺旋.这2种方法可以模仿座头鲸气泡网攻击行为:一种是收缩包围机制,另一种是螺旋更新位置.通过缩小包围或螺旋运动,鲸鱼更接近诱饵,在螺旋更新位置方法中,其数学模型

座头鲸采用不断缩小包围圈绕着猎物游动,并且采用螺旋形路径游动.在收缩包围圈的同时,可以对此行为建模.假设鲸鱼采用收缩包围机制和螺旋模型的概率各占50%,以便在优化过程中不断更新鲸鱼位置.数学模型为

鲸鱼算法是一种自然启发式算法,其存在的主要问题也是搜索精度低,易于陷入局部最优解.针对鲸鱼算法的收敛速度慢,求解不精确的缺点,可以从3个方面进行改进.

(1)改善初始种群的位置——对立学习法

针对鲸鱼算法(WOA)存在搜索精度低,易于陷入局部最优解的问题,为此引入对立学习,有效地解决了种群初始位置选择盲目性的问题,使得初始搜索位置变佳.在改善鲸鱼算法初始种群质量的同时,可以动态更新模型的超参数,有效地提高了鲸鱼算法的收敛速度和精度.该方法的核心思想是基于当前值的基础上找到对应的对立值来寻求最优解,从而增强算法的性能.对立学习

将对立学习由低维转化成高维,则多维对立学习

(2)改善收敛速度——自适应收敛因子

将Sigmoid函数引入收敛因子中,极大地加强了全局寻优和局部寻优的能力

(3)改善寻优能力——动态权值因子

本文所采用的动态权值因子使得权重会随着适应度的变化,根据实际需要自动调整权值.对于鲸鱼算法(WOA)精度和收敛速度的提升起到了很大的作用,有利于算法跳出次优解,寻找最优解.

由此可见,在鲸鱼算法的基础上通过引入对立学习、自适应收敛因子、动态权值因子等方法,可以有效改进鲸鱼算法的全局勘探能力和局部寻优能力,所以改进后的鲸鱼算法(IWOA)性能将会有很大提高.

2 预测模型

XGBoost是集成学习方法,通过组合各个决策树的输出来预测.XGBoost每次构建一个决策树,每一个新的树都修正以前训练过的决策树所产生的错误.由于通过优化目标函数导出了增强树,基本上XGBoost可以解决几乎所有可以写出渐变的目标函数,这包括排名和泊松回归等问题.XGBoost在很多情况下比深度学习更为可靠、灵活,而且准确.在绝大多数的回归和分类问题上,XGBoost的实际表现都是顶尖的.但是如果数据有噪声,XGBoost模型对过渡拟合更敏感.由于树木是按顺序建造的,因此训练通常需要更长时间,XGBoost调整更难一些.XGBoost通常有3个参数:树的数量、树的深度、学习率,其构建的每个树通常是浅的.

本文基于XGboost的预测模型,利用改进的鲸鱼算法来优化预测模型,提出2种算法相融合的组合算法预测模型IWOA-XGboost.在组合算法中,改进鲸鱼算法是为XGboost全局优化而设计的,它在机器学习中调整超参数非常受欢迎.在调整机器学习算法的参数方面比网格或随机搜索技术更有效.它可以有效地平衡“搜索”和“保留”,找到全局最优.组合算法流程见图5.首先,将学生成绩的历史数据预处理,并作为XGboost算法的输入变量;其次,XGboost算法进行初步预测,然后使用改进的鲸鱼算法优化XGBoost的超参数进行二次预测;最后,输出预测结果.

图5 学生成绩预测建模策略

3 实验对比

本实验通过Pycharm平台,利用Python3.7语言进行编程,在Anaconda集成环境中进行开发实现.操作系统是Windows10系统,处理器版本为Intel(R) Core(TM)i5-10400F,系统运行内存为16 GB,系统类型为64位操作系统.数据集选取kaggle平台中的xAPL-Educational Mining Dataset数据集,数据中包含:学生性别、学生国籍、学生的出生地、父母受教育水平、监护学生的家长等17个特征属性.采用的评价指标为Accuracy值,选用了传统的机器学习算法作为对比.

在机器学习领域中,用于评价一个预测模型的性能有多种指标,其中几项就是TP、TN、FP、FN、精确率(Precision)、召回率(Recall)、准确率(Accuracy).

TP:预测为正向(P),实际上预测正确(T),即判断为正向的正确率;

TN:预测为负向(N),实际上预测正确(T),即判断为负向的正确率;

FP:预测为正向(P),实际上预测错误(F),误报率,即把负向判断成了正向;

FN:预测为负向(N),实际上预测错误(F),漏报率,即把正向判断成了负向;

准确率(Accuracy)是最直观的预测指标,是模型判断正确的数据(TP+TN)占总数据的比例.计算方法

本实验选取支持向量机(SVC)、谱聚类(SC)、逻辑回归(LR)、XGBoost 4种传统机器学习算法,以及改进鲸鱼优化XGboost算法(IWOA-XGboost),对同样一组数据,用Accuracy作为评价标准,实验结果见表1,5种算法用直方图表示(见图6).由实验结果可以看到,其中IWOA-XGboost的Accuracy值达到0.86,为最高,算法提升效果比较明显.

表1 不同模型Accuracy结果

图6 5种算法ACC直方图

4 结语

本文通过深入分析Kaggle平台xAPL-Educational Mining Dataset数据集,研究了17个变量,其中学生的总成绩(class)为目标变量,其余16个变量为解释变量.在充分分析数据集的基础上,选用了改进的鲸鱼优化算法结合XGboost算法提出IWOA-XGboost,并且与传统的机器学习算法如SVC,SC,LR,XGboost做对比实验.实验结果表明,IWOA-XGboost有效地提升了学生成绩预测的准确率.因此,本文的研究成果为分析和预测学生成绩提供了智能助手.

[1] Bienkowski M,Feng M,Means B.Enhancing Teaching and Learning through Educational Data Mining and Learning Analytics:An Issue Brief[R].Washington:US Department of Education,Office of Educational Technology,2012,1:1-57

[2] Lykourentzou I,Giannoukos I,Mpardis G,et al.Early and dynamic student achievement prediction in e-learning courses using neural networks[J].Journal of the American Society for Information Science and Technology,2009,60(2):372-380.

[3] Wu Runze,Liu Qi,Liu Yuping,et al.Cognitive modelling for predicting examinee performance[C]//Proc of the 24th Int Joint Conf on Artificial Intelligence.Menlo Park,CA:AAAI Press,2015:1017-1024.

[4] Hui L,Li H,Shu Z,et al.Intelligent learning system based on personalized recommendation technology[J].Neural Computing and Applications,2018,31:4455-4462.

[5] Umair S,Sharif M M.Predicting students grades using artificial neural networks and support vector machine[M]//Encyclopedia of Information Science and Technology.4 ed.IGI Global,2018:5169-5182.

[6] Pandey M,Sharma V K.A decision tree algorithm pertaining to the student performance analysis and prediction[J].International Journal of Computer Applications,2013,61(13): 1-5.

[7] 陈曦,梅广,张金金,等.融合知识图谱和协同过滤的学生成绩预测方法[J].计算机应用,2020,40(2):595-601.

[8] Thiele T,Singleton A,Pope D,et al.Predicting students' academic performance based on school and socio-demographic characteristics[J].Studies in Higher Education,2016,41(8):1424-1446.

[9] 胡帅,顾艳,姜华.基于PCA-RBF网络的学生写作成绩预测模型[J].计算机与现代化,2016(1):69-72,126.

[10] 吴强,方睿,韩斌,等.基于决策树-LMBP神经网络的学生成绩分析及预测模型的研究[J].成都信息工程大学学报, 2018,33(3):274-280.

[11] 申航杰,琚生根,孙界平.基于模糊聚类和支持向量回归的成绩预测[J].华东师范大学学报(自然科学版),2019(5): 66-73,84.

[12] 张麒增,戴翰波.基于数据预处理技术的学生成绩预测模型研究[J].湖北大学学报(自然科学版),2019,41(1):101-108.

[13] 叶俊民,罗达雄,陈曙.基于短文本情感增强的在线学习者成绩预测方法[J].自动化学报,2020,46(9):1927-1940.

[14] Chen Tianqi,Carlos Guestrin.Xgboost:A scalable tree boosting system[C] //Proceedings of the 22nd ACM Sigkdd International Conference on Knowledge Discovery and Data Mining.ACM,2016:785-794.

[15] Mirjalili S,Lewis A.The Whale Optimization Algorithm[J].Advances in Engineering Software,2016,95:51-67.

Combined optimization algorithm for student achievement prediction

DANG Jiajun1,ZHANG Honglie1,MU Gang1,LI Cheng1,ZHANG Xiaolin2

(1. School of Computer and Control Engineering,Qiqihar University,Qiqihar 161006,China;2. Department of Information Technology,Teacher Training School in Jianhua District of Qiqihar,Qiqihar 161006,China)

It is one of applications of big data technology to analyze and predict student achievement by using machine learning algorithms.The prediction model of a combined optimization algorithm is proposed,in which the heuristic algorithm and the gradient boosting algorithm are combined.First of all,the dynamic oppositional learning is adopted to increase the diversity of population initialization,and nonlinear convergence factors and adaptive weights are introduced.Thereby,the enhanced whale algorithm is obtained,and the original global search and the local development capabilities are improved.Then,based on the XGboost model,the iteration of the whale algorithm is enhanced,the hyper-parameters of XGboost are dynamically optimized,and a combined algorithm prediction model is proposed.Accuracy ACC is used as the evaluation standard of the model,taking the student data set as the research object and the student achievement prediction as the goal.Five algorithms are selected for the comparative experiments.The experimental results verify that the prediction accuracy of the combined algorithm proposed is relatively higher.

combined optimization algorithm;enhanced whale algorithm;XGboost algorithm;student achievement prediction

1007-9831(2022)05-0040-07

TP391

A

10.3969/j.issn.1007-9831.2022.05.007

2022-02-08

黑龙江省教育厅基本业务专项理工面上项目(135509118)

党佳俊(1995-),男,黑龙江齐齐哈尔人,在读硕士研究生,从事大数据技术研究.E-mail:2973451137@qq.com

张宏烈(1966-),女,黑龙江齐齐哈尔人,教授,博士,从事大数据技术、嵌入式系统研究.E-mail:15845673377@163.com

猜你喜欢

鲸鱼预测算法
小鲸鱼
无可预测
选修2-2期中考试预测卷(A卷)
选修2-2期中考试预测卷(B卷)
迷途鲸鱼
基于MapReduce的改进Eclat算法
鲸鱼
Travellng thg World Full—time for Rree
进位加法的两种算法
鲸鱼岛——拖延症