APP下载

精准扶贫视角下高校家庭经济困难学生认定预测机制探究

2021-06-20吕刚王雪梅新奎

高教学刊 2021年3期
关键词:特征选择精准资助大数据

吕刚 王雪 梅新奎

摘  要:近来,关于全面推进家庭经济困难学生认定工作精准资助为高校学生资助体系构建提供了一个崭新视角。如何更好的利用学生信息完成家庭经济困难精准认定工作是文章重点工作。文章以机器学习为基础,将学生信息库进行清洗,利用基于差分进化的特征选择为数据进行预处理,去除冗余特征,降低数据维度,以2个标准数据集与1个采集数据集对特征选择结果在2个分类器上进行有效性验证。以近2000名学生的信息为数据样本,通过K近邻分类预测算法预测学生家庭经济困难程度,验证了算法的可行性以及准确性。为大数据在高校教育中的应用提供了新的模式和方法。

关键词:精准资助;大数据;差分进化;特征选择;K近邻预测

中图分类号:G640        文献标志码:A         文章编号:2096-000X(2021)03-0076-05

Abstract: Recently, the comprehensive promotion of family financial difficulties students to identify the work of precision funding for colleges and universities has provided a new perspective for the construction of student funding system. How to make better use of student information to complete the accurate identification of family financial difficulties is the key work of this paper. Based on machine learning, the student information base is cleaned, and the feature selection based on differential evolution is used to preprocess the data to remove redundant features and reduce the data dimension. The validity of feature selection results on two classifiers is verified by two standard data sets and one acquisition data set. Based on the information of nearly 2000 students as data samples, the K nearest neighbor classification and prediction algorithm is used to predict the economic difficulties of students' families, and the feasibility and accuracy of the algorithm are verified. It provides a new model and method for the application of big data in college education.

Keywords: accurate funding; big data; differential evolution; feature selection; K neighbor prediction

一、研究背景和目的

2018年12月,教育部、財政部等六部门联合印发了《关于做好家庭经济困难学生认定工作的指导意见》(以下简称指导意见),其中特别指出,做好家庭经济困难认定工作,是贯彻党中央、国务院决策部署,全面推进精准资助,确保资助政策有效落实的迫切需要。[1]教育部部长陈宝生在《进一步加强学生资助工作》一文中提到:“我们要把思想和认识统一到党的十九大精神和习近平总书记重要指示上来,充分认识到学生资助工作是一项重要的长期工作,是2018年教育‘奋进之笔的一项重要内容,要清醒看到个别地方还存在不精准、不规范的问题”[2]。精准资助是做好高校学生资助工作重要一环,是落实“不让一个学生因家庭经济困难而失学”、促进学生资助工作取得新成就的有效手段。

二、精准扶贫视角下的精准资助工作创新思路

习近平总书记在党的十九大报告中明确指出:“坚持精准扶贫、精准脱贫”和“健全学生资助制度”[3]。教育部部长陈宝生曾提到:“精准不仅是扶贫工作的基本要求,也是学生资助工作的基本要求。精准资助,就是要做到资助对象精准、资助标准精准、资金发放精准。”[2]精准资助为高校学生资助体系构建提供了一个崭新视角。精准资助的前提和基础是做到认定对象精准,实施精准认定就是要重点解决高校开展家庭经济困难认定工作过程中的面对的认定材料可信度、民主测评公正度、地域差异度、学生隐私程度等共性问题,进而开展家庭经济困难学生的“扶贫”与“扶智”工作。《国务院关于印发促进大数据发展行动纲要的通知》(国发[2015]50号)明确指出,要“建立‘用数据说话、用数据决策、用数据管理、用数据创新的管理机制,实现基于数据的科学决策”,在互联网+大发展的环境视域下,有效应用大数据技术,采取数据预处理、特征选择、群体预测,采取定性与定量相结合的方式预测家庭经济困难学生群体,能够促使家庭经济困难认定工作更加科学化、客观化和准确化。

大数据技术预测家庭经济困难学生群体不同于传统的纸质认定模式,学生信息的变化引起信息库的变化,冗余或者不相关特征也随之出现。选取相关联信息,摒弃冗余信息是加快预测速度,提高准确率的关键所在,本文主要采取数据处理、特征选择等方式付诸实施,以家庭经济困难认定工作为背景,探索基于K近邻的预测算法和基于差分进化的特征选择算法,通过特征预处理,优化搜索机制,选择相关特征摒弃荣誉特征,达到特征降维的目的,通过K近邻预测,完成等级或层次的调查,实现精准认定,创新资助工作模式。本文首先利用标准UCI数据集通过算法对比验证了所提出算法的有效性,随后以近2000名学生的真实数据为数据集,通过数据预处理、拆分、训练、预测与评估等步骤,最终验证算法的可行性与准确率。

三、精准扶贫视角下的贫困生认定工作中大数据技术应用

(一)特征选择

特征选择也称特征子集选择,是解决数据“维度灾难”的重要法宝,能够剔除冗余特征,从而减少特征数目提高模型精度,减少运行时间。常用的搜索机制分为完全搜索,启发式搜索,随机搜索。评价函数是评价特征子集好坏的主要工具,主要分为过滤器、封装器两大类,本文中采用简单实用的过滤器。

(二)差分进化算法

差分进化算法(Differential Evolution,DE)于1997年由Rainer Storn和Kenneth Price在遺传算法等进化思想的基础上为求解切比雪夫多项式而提出的[4],属于演化计算技术中的进化算法类,其应用生物学启发的运算符,例如交叉,变异和选择。

在精准扶贫视角下,可选用差分进化算法完成特征选择寻优过程,进而实现家庭经济困难学生的精准认定,大大提高家庭经济困难学生认定效率。该算法的主要步骤包括:

1. 群体初始化

假设在m个个体构成的n维空间中,种群X表示为(X1,X2,...Xn)。在本文中我们选择二进制初始化方式,第i个个体的第j维位置为:

(1)

其中, U(0,1)是在(0,1)之间的随机量,Lmax和Lmin为预定义的最大值和最小值。

2. 变异操作

DE算法的变异机制有很多种,基本变异方式如公式(2)所示,每个解决方案向量经历突变以扩展搜索空间。在第g次迭代中,从种群中随机选择三个个体Xp1(g),Xp2(g),Xp3(g),且p1≠p2≠p3≠i,生的变异向量为:

(2)

其中                        是差分向量,F是缩放因子,决定种群个体差分步长的大小。

3. 交叉操作

常用的交换准则有:二项交叉与指数交叉,其中二项交叉指针对每个分量产生一个0到1的随机小数,若该随机数小于交叉算子cr则进行交换。

交叉公式如下:

4. 选择操作

选择操作即选择好的个体为下一代种群个体。具体操作方式如公式(4),其中f(expression)为适应度函数。在当前解决方案Xi和试验解决方案Ui之间应用贪婪选择。

如果Ui优于Xi,则Ui代表下一代而不是Xi。

(三)信息论

互信息(Mutual Information)用来度量两个事件集合之间的相关性(mutual dependence),是信息论中的一个重要概念[5]。假设两个离散随机变量X、Y,它们的联合分布律为p(x,y),边缘分布律为p(x),p(y),互信息表示为:

由上式可知,当属性X和属性Y不相关或相互独立时,互信息I(X;Y)为0,这表示两个属性之间没有依赖关系;反之,两个属性间的相关性越高,互信息的值越大,所拥有的信息重合的地方就越多。

四、基于差分进化特征选择的K近邻分类预测应

用于家庭经济困难认定

(一)学生信息采集,构建学生画像

目前,在国内各高校之中,学生信息采集工作已相对完善,基于学生个人成长的信息数据源已具备海量筛选条件,韩凤霞老师提出了建立学生画像来构建学校数据仓库[6],形成学生基本属性、家庭信息特征、学习成绩等多种属性构成的高质量学生信息中心。为分析学生特征和需求做了大量准备工作,精准描述了学生群体特征。为了更好获取实验样本,本次实验对近2000名学生开展数据信息采集,获取其自入学至今的各项指标与基本数据,利用怀卡托智能分析环境[7]将数据集进行离散化处理,并将贫困生等级分为0、1、2级,分别表示该生家庭经济状况良好,存在一定困难,特别困难。

(二)基于差分进化的特征选择算法

在开展家庭经济困难认定工作过程中,通过分析学生画像数据集可以实时了解学生各方面特征,掌握家庭经济困难情况,但家庭经济困难特征仅为学生画像数据库中的一小部分,如果利用全部特征不仅要增加计算时间同时也会减少预测准确性。本文针对这种情况,对学生画像进行了第二次预处理,通过基于差分进化的特征选择对原始数据集进行降维处理,摒弃冗余特征,以达到选择较少的特征来反映所有特征的预测情况,并提高分类准确性的目的。

本文基于特征与类别向量的信息熵度量构建适应度函数,采用滕旭阳等提出的互信息适应度函数[8],体现了进化过程对优良个体的保留,对低劣个体的淘汰。具体适应度函数设计如下:

fit=I×S (6)

式中:I为特征与类别相关性;S为特征子集规模控制。假设当前候选特征子集为在全部n维特征中选出的p维特征。

S=(7)

基于差分进化的特征选择算法(DEFS)的执行流程如图1所示。

(三)利用KNN分类预测

K-最近邻(k-nearest neighbor,KNN)算法是统计分类领域最常用的算法之一[9]。基本思想是:如果一个实例在特征空间中的K个最相似(即特征空间中最近邻)的实例中的大多数属于某一个类别,则该实例也属于这个类别。本文中,我们利用KNN进行特征选择后的学生家庭经济困难情况的分类预测,预测过程如图2所示。

五、实验验证

本文通过分析在不同数据集下的分类准确性验证特征选择算法的有效性以及KNN分类预测结果的准确性验证文中所提方法的优越性。

本实验运行环境为MATLAB2014a与weka3.8。实验通过对近2000名学生静态数据以及动态数据整理后的数据集进行实验验证,其中包括静态特征20个动态特征16个,总计36个特征信息,形成数据集(student),采用MDL方法对离散化的数据处理。本文另外选择2个不同维度的UCI数据集共同验证算法有效性。选择Australian信用卡申请类数据集,Dermatology皮肤病数据集[10]作为参照以供对比分析。

(一)分析在不同数据集下的分类准确性验证特征选择算法的有效性

实验对比的特征选择算法有IG(information gain)信息增益[8]、GA[11],为了验证算法性能选择SVM、和Na?觙ve Bayes两个分类器,并使用10折交叉验证方法。来验证不同数据集下各个算法所选择特征子集的分类有效性。对于GA、DE这两种进化搜索方法,实验得出每个算法运行10次的平均分类准确率。而IG在试验中对数据集中特征进行排序选择前p个特征,具体分类结果如表1所示。

通过表1与表2的结果可见,本文所提出的差分进化算法较传统的过滤式特征选择方法与GA都具有较好的分类准确性,验证了差分进化算法在不同规模数据集下分类性能的有效性。无论在SVM分类器下还是Na?觙ve Bayes分类器下,DE均展现出更好的分类准确性。因此可以得出结论,本文所提出的特征选择方法在进化过程中能够产生较优秀个体,获得较高适应度值,从而能够获得较小的特征子集,达到数据降维的目的,并能够取得更好的分类准确率。

(二)分析KNN分类预测结果的准确性

为了验证预测结果准确性,首先,利用基于查分进化的特征选择算法对于本实验student数据集进行处理,结果发现从初始36个特征中,选择了17个特征作为特征子集,达到了特诊高纬度下降三分之二的效果。本实验利用选择出来的特征子集利用KNN分类预测算法,将新的学生数据集进行分类,分类结果如图3所示,通过将分类信息与学院信息库进行核对,发现96.53%的分类结果是准确的。在预测过程中,类别0和2的错误率很低,分别为1.3%和5.7%,结果较好,但类别1的错误率相对较高达到29%,需要下一步采集特征标签更大的子集,并深入研究家庭经济困难认定影响因素。但总体来看,本文已经实现了较好的分类效果。

六、结论

家庭经济困难认定是高校资助工作的重要一环,采用开学之初学生信息采集,并通过不断迭代动态信息来维护学生信息集,使用“线上+线下”的操作模式,使家庭经济困难认定更加简洁、方便、安全、无遗漏且无虚报。本文通过利用基于差分进化的特征选择方法,达到了将海量学生信息进行降维的目的,并通过KNN分类预测算法,完成学生家庭经济状况的分类预测,经过实验证明,该算法是有效的且高效的。进一步为高校学生管理提供了新思路、新方法,并能够适用于高校资助体制。下一步,我们将利用线上监控措施来重点观测学生課堂学习状况,为学生期末成绩做出预测和预警,为高校细信息化管理提供新思路。

参考文献:

[1]教育部.关于做好家庭经济困难学生认定工作指导意见[EB/OL].学信网,2018.11.https://www.chsi.com.cn/jyzx/201811/20181

107/1736219869.html.

[2]陈宝生.进一步加强学生资助工作[N].人民日报,2018-03-01(13).

[3]习近平.决胜全面建成小康社会 夺取新时代中国特色社会主义伟大胜利——在中国共产党第十九次全国代表大会上的报告(2017年10月18日)[R].前进,2017(11).

[4]Storn R, Price K. Differential evolution-A simple and efficient heuristic for global optimization over continuous spaces [J]. Journal of Global Optimization, 1997,11(4):341-359.

[5]宋勇,蔡志平.大数据环境下基于信息论的入侵检测数据归一化方法[J].武汉大学学报(理学版),2018,64(2):121-126.

[6]韩凤霞.大数据时代高校学籍预警机制的探索与研究[J].中国教育信息化,2015(19):46-49.

[7]E. Frank, M. Hall, G. Holmes, R. Kirkby, B. Pfahringer, and I. H. Witten, “WEKA”[J]. Data Mining and Knowledge Discovery Handbook, pp. 1306-1314,2005.

[8]滕旭阳,董红斌,孙静.面向特征选择问题的协同演化方法面向特征选择问题的协同演化方法[J].智能系统学报,2017,12(1):24-31.

[9]Jinmeng L I, Lin Y, Zhu T. k-Nearest Neighbor Classification Algorithm Based on Hubness and Class Weighting [J]. Computer Engineering, 2018.

[10]UC Irvine Machine Learning Repository. http://archive.ics.uci.edu/ml/index.php.

[11]金仙力,李金刚.基于遗传算法的多目标路径优化算法的研究[J].计算机技术与发展,2018(2):54-58.

猜你喜欢

特征选择精准资助大数据
基于智能优化算法选择特征的网络入侵检测
高职院校精准资助模式探究
故障诊断中的数据建模与特征选择
浅析高校学生精准资助的理论与实践
优化中职助学政策提高资助精准度策略研究
基于大数据背景下的智慧城市建设研究
reliefF算法在数据发布隐私保护中的应用研究
一种多特征融合的中文微博评价对象提取方法