基于PSO优化贝叶斯网络的高校贫困生分类
2019-08-23宋威
宋威
(1. 渭南师范学院 稳定与安全办公室; 2. 长安大学 公共管理与法学院, 渭南 714099)
0 引言
随着高等教育快速有序地发展,高校贫困生问题逐渐凸显成为影响我国高等教育发展的重要影响因素。如何做好高校贫困生鉴定工作和贫困生评定等级工作,合理科学客观地界定贫困生一直是高校贫困生管理工作面临的重点问题和难点问题[1-3]。目前各大高校贫困生判定标准不一,并且缺乏科学可行和统一的判定体系,主要凭经验认定或者生源地提供贫困证明以及综合考虑贫困生在校情况的方式进行贫困生认定[4-5],判定成本较高。目前大部分研究人员均采用定性分析的方法进行高校贫困生判定。针对高校贫困生判定存在的上述问题,将贫困生判定转化为数据挖掘中的分类问题,提出一种基于粒子群算法(particle swarm optimization, PSO)优化贝叶斯网络(Bayesian network,BN)的高校贫困生分类模型。
1 粒子群优化算法
PSO算法是受鸟群觅食行为启发的研究,其算法更新式如[6-8]式(1)、式(2)。
(1)
(2)
2 贝叶斯网络
对于一组变量X={X1,X2,,Xn},对每个变量赋予一个特定值{x1,x2,,xn},parents(xi)为xi的父节点集合,则其联合概率密度为[9]式(3)。
(3)
一个典型的贝叶斯网络,其中每个节点为相应的变量[10],如图1所示。
图1 贝叶斯网络模型
假设h的先验概率P(h)和训练数据D的先验概率P(D),假设h成立时D的条件概率P(D|h),那么给定D时,假设h的后验概率为[11-12]式(4)。
(4)
由公式(4)可知,若要实现贝叶斯网络推理,前提条件是要给出许多先验概率。
3 基于PSO-BN的高校贫困生分类
3.1 评价指标
结合国内外相关文献资料和国内高校贫困生分类管理的实际情况[13],综合考虑学生家庭收入和支出情况,高校贫困生分类评价指标如表1所示。
表1 高校贫困生分类评价指标
3.2 目标函数
由于贝叶斯网络需要优化的参数为权值w和阀值b,运用PSO算法对贝叶斯网络参数进行优化选择,选择分类准确率T为目标函数为式(5)。
(5)
其中,Total为样本总数量;right为正确分类的样本数量。
3.3 基于PSO-BN的贫困生分类
基于PSO-BN的贫困生分类算法流程如下:
Step1:归一化贫困生分类评价指标数据;
Step2:PSO算法参数初始化:最大迭代次数Tmax,种群大小N和学习因子c1、c2;
Step3:将构建出的训练样本输入贝叶斯网络,运用公式(5)计算每个粒子的适应度函数值,寻找每个粒子个体和全局最优粒子的位置和最优值;
Step4:粒子速度和位置的更新;
Step5:计算评估适应度大小并更新粒子个体的位置和速度;
Step6:若当前迭代次数t>Tmax,保存最优解;反之t=t+1,转到Step4;
Step7:根据粒子个体的最优位置所对应的最优权值w和阀值b,实现高校贫困生分类判定。
4 实证分析
4.1 数据预处理
为避免贝叶斯网络处理不同数量级原始数据出现计算不平衡,同时降低算法计算复杂度,提高贝叶斯网络的性能,归一化公式为[14-15]式(6)。
(6)
其中,x′为归一化之后的数据;x,xmax,xmin分别原始数据、原始数据中的最大值和最小值;a、b为归一化之后的最小值和最大值。本文取a=-1,b=1。
4.2 实证结果
将收集到的477组数据分为训练样本和测试样本,其中382组数据作为训练样本,训练样本主要用于建立PSO-BN贫困生分类模型,剩下95组作为测试样本主要验证PSO-BN贫困生分类模型的正确性;贫困生主要分为三类,分别为特困生、一般贫困生和非贫困生,并将分别赋予类别标签1、2和3。为说明PSO-BN的效果,将其与BN、支持向量机(support vector machine,SVM)和前馈神经网络(Back Propagation,BP)进行对比,对比结果如图2、图3、图4、图5和表2~表4所示。
表2 贫困生分类结果对比
表3 不同贫困生分类准确率
(a) 训练样本
(b) 测试样本
图2 PSO-BN分类结果
(a) 训练样本
(b) 测试样本
(a) 训练样本
(b) 测试样本
图2-图5中,“*”为贫困生的预测类别,“○”为贫困生的实际类别,通过对比展示可以直观地显示贫困生判定结果和贫困生实际类别。当“*”和“○”重合时,贫困生的预测类别和实际类别一致,说明贫困生类别判定正确;当“*”和“○”不重合时,贫困生的预测类别和实际类别不一致,此时贫困生类别判定错误。由图2-图5和表2、表3和表4不同方法的贫困生分类结果可知,与 BN、SVM和BP相比,PSO-BN可以有效提高高校贫困生分类的准确性。
5 总结
为了定量判定高校贫困生类别,将贫困生判定转化为数据挖掘中的分类问题,针对BN分类结果受其模型参数的影响,提出一种基于PSO-BN的贫困生分类模型。研究结果表明,与 BN、SVM和BP 相比,PSO-BN可以有效提高高校贫困生分类的准确性,实现贫困生判定由定性分析转向定量分析,提高了模型的应用价值。
(a) 训练样本
(b) 测试样本
图5 BP分类结果
表4 不同贫困生分类误判率