APP下载

基于孤立森林的高校虚假贫困生辨识算法

2019-05-08褚蕾蕾孟利霞郑健夏光峰刘年生

中国科技纵横 2019年6期
关键词:精准资助高校

褚蕾蕾 孟利霞 郑健 夏光峰 刘年生

摘 要:在高等院校的不断扩招形势下,贫困生已经成为一类典型的大学生群体。为促进高校教育的公平公正發展,保证大学生身心发展的健康,对贫困生的资助已经成为国家的一项重要政策,同时,如何进行高校贫困学生的精准资助已经成为贫困生资助的热点问题。本文研究了一种高校虚假贫困生的辨识算法,通过采集贫困生的校园卡消费数据,提取其中关键指标,再采用孤立森林异常点检测法对其中的异常数据进行监测,从而辨识出虚假贫困。采用实际算例进行分析,其结果表明了本文提出方法的有效性。

关键词:高校;虚假贫困;精准资助;孤立森林

中图分类号:TP393.1 文献标识码:A 文章编号:1671-2064(2019)06-0044-02

0 引言

随着中国高等教育普及化,以及高等学校不断扩招的形势下,一种典型的大学生群体:贫困生群体已经越来越受到人们的关注。为保证高等教育公平公正的原则,国家出台了一系列政策,建立了完善的贫困生资助体系,保障了贫困生顺利的完成学业和研究。然而,现有的条件下,仍然在少数场合存在着资助准确性不高的问题,即少数贫困生未能获得国家资助,反而少数非贫困生却受到了资助。因此,如何实现精准资助一直是贫困生认定和资助领域的重点和难点问题。

近年来,人工智能理论的发展为贫困生的精准资助提供了一种基于实际消费数据的新思路。与传统的走访或调查问卷的方法不同,基于数据的方法完全依赖于大学生的实际消费数据,提高了资助认定的客观性和可靠性,已成为新的研究热点。例如,文献[1]基于校园一卡通数据,采用支持向量机(SVM)算法,归纳了高校大学生消费的两种消费模式;文献[2]基于校园一卡通、宿舍门禁、图书馆借阅信息,结合k-means聚类方法,对大学生的贫困程度进行预测。文献[3]基于高校学生消费数据,采用描述性统计和非参数检验的方法,描述了贫困生和非贫困生在消费上的差异性。

本文采用孤立森林算法对高校虚假贫困现象进行检测与辨识,首先采集高校学生的校园一卡通数据,再抽取其中关键特征,使用孤立森林算法进行异常数据检测。对其异常数据进行分析,便可精准监测到虚假贫困现象并对其预警。采用实际算例进行算法论证,其结果表明了本文方法的有效性和实用性。

1 背景知识

1.1 虚假贫困

所谓虚假贫困现象是指某些非贫困生通过各种手段获得国家贫困生资助的现象。虽然这类现象属于极少数个例,但是却严重影响了贫困生资助的公平公正性,在高校学生群体之间造成不良的影响。因此,如何对虚假贫困现象进行辨识是精准资助领域的重要子问题。

1.2 高校一卡通数据

我国高校内的消费大多采用校园卡的方式进行结算。消费种类一般为:(1)食堂消费;(2)超市消费;(3)打水消费;(4)洗浴消费;(5)电费,网费,图书偿还费用等其他消费。其中,食堂和超市消费的差异与学生的贫困水平成正相关,需着重监测这两类消费数据。

2 数据预处理与特征抽取

采集校园一卡通的食堂消费数据和超市消费数据,进行预处理和特征提取。提取的特征为:(1)30天日消费均值Maverage;(2)30天日消费总额Msum;(3)30天食堂消费总额Mshitang;(4)30天超市消费总额Mchaoshi。将Maverage、Msum、Mshitang、Mchaoshi分别进行归一化处理作为算法的输入数据。则最后的输入数据X为:X={X∈R4|Maverage、Msum、Mshitang、Mchaoshi}[4]。

3 孤立森林法

本文所用的孤立森林模型是基于隔离思想的异常点检测算法,其检测流程如图1所示,将采集到的数据做为总数据集X,从X中随机采样得到子数据集(X1,X2…Xm),进而进行隔离树和孤立森林的构建,再通过计算路径的长度得到各个点的异常分值,最后,根据其分值的大小进行异常数据的辨识。

3.1 孤立树

图2所示为隔离树的建立方法。主要步骤为:(1)随机选取子数据集X中的某一列数据作为主要维度q,在其取值范围[qmin,qmax]内,选取一随机值p,并基于是否qp将总数据分为左子集Xl和右子集Xr,同时随机产生一个子结点;(2)需对其结点进行判断,判断其是否为内部结点还是叶结点,并循环重复1步骤,除非内部结点满足其叶结点的条件:对于子采样数据X={x1,…,xn},通过选取随机特性q和分割值p,直到树高h达到高度限制hlim,或者分割后的子采样集只剩下唯一数据为止。

4 算例分析

以某学校为例,采集该校大一至大四学生的一卡通消费数据共十万条。使用第3章所述的数据类别作为算法输入数据,并将其数据输入至第四章所述的孤立森林算法中。算法计算完成后,对每个学生的异常分数进行排序,选择异常分数靠前的400名同学进行分析。同时,对这400名同学的家庭进行摸查,以确认真实情况。使用本文方法与异常因子(LOF)以及单类支持向量机(one-class SVM)进行比较,检测精度如表1所示。正确率为被检测出的异常点占总数的比例;误测率为正常点被检测为异常的比例。可以看出,孤立森林法较其他方法检测准确度更高。

5 结语

本文研究了一种高校虚假贫困生的辨识算法,通过采集贫困生的校园卡消费数据,提取其中关键指标,再采用孤立森林异常点检测法对其中的异常数据进行监测,从而辨识出虚假贫困。采用实际算例进行分析,其结果表明了本文提出方法的有效性。

参考文献

[1] 唐颖,李明江.数据挖掘在高校贫困生消费信息管理中的应用研究[J].湖南商学院学报,2011,18(6):45-49.

[2] 李明君.基于数据挖掘的贫困助学金认定方法研究[D].华中师范大学,2017.

[3] 李珊娜.基于校园一卡通平台的数据挖掘应用研究[J].铁路计算机应用,2010,19(6):55-58.

[4] 费小丹,董新科,张晖.基于校园一卡通消费数据的高校贫困生分析[J].电脑知识与技术,2014(20):4934-4936.

猜你喜欢

精准资助高校
提升高校官方微信公众平台传播效果的几点思考
中日高校本科生导师制的比较
试论高校党建工作中的党史教育