基于数据挖掘的贫困助学金评定方法
2018-08-28李瑾
【摘要】贫困学生的教育资助受到了国家、社会、学校的高度重视,为促进享受教育资源的公平性,需要建立更加完善的贫困生助学金发放制度,避免出现需要资助的学生未得到资助,而不需要资助的学生得到资助。通过大数据挖掘,结合某高校一卡通及贫困助学金发放数据,利用K-means聚类分析模型,对学校的消费方式进行分析,得到最低消费人群占比25.5%,符合贫困生资助比例,但该校的资助比例为21%,未达到资助覆盖面。由此方法构建的预测模型,可以为学校贫困生精准资助提供帮助。
【关键词】数据挖掘 贫困生 分类预测 贫困资助
由于社会区域经济发展差异及地理环境等历史原因,部分地区经济仍然不发达,贫困人口较多,特别是中国西部地区。这些贫困家庭中,又不少勤奋好学的学子,考上了大学,而其本人和家庭难以支付学生在校期间学费、生活费等,为不让每一个学子因贫困失学,国家相关政府部门高度重视,近年来投入了大量的资金用于资助贫困学生,使得莘莘学子能圆满完成学业[1]。而在对贫困生的认定在,也需要一系列相关的政策好和措施,从而才能起到真正帮助贫困学生的目的。建立一个完善的贫困学生资助体系,有效的降低因家庭贫困而造成学生失学的情况发生。
目前诸多学校不仅仅依靠贫困补助,同时也已经制定了许多办法和措施来积极解决贫困学生的经济来源问题,比方各类的奖学金、助学金、勤工俭学岗位等,进一步扩大对贫困学生的资助额[2]。为保障贫困学生认定的公平、公正和公开,提高贫困学生资助工作的精准度,一方面需要学校在资助预算上分配准确,另一方面也需要对贫困学生的认定更加精确,就调研情况来看,现阶段许多学校对助学金的评定分两种情况,一种是在新生入学前通过学生家庭情况的调研,综合考虑来评定助学金等级,另一种是根据在校学生的申请和各学院的评定来确定助学金的等级。虽然助学金的评价体系日趋完善,但仍然有一些不尽人意的地方,例如有些需要受到资助的学生并未获得资助,少数并不需要自身的学生却得到了补助等。因此,精准的资助同样成为了现阶段需要解决的问题。
一、学生行为数据分析
(一)数据来源
学生一卡通数据及全校助学金发放情况,一般由于隐私保护这类数据较难查询和获得,因此,通过某官网,获取了某高校2016~2017年助学金发放情况,以及学生一卡通行为数据及学生的学习成绩及排名情况。数据类型包括:图书馆借阅收集数据、图书馆门禁数据、一卡通数据、成绩数据和助学金数据。
(二)数据初探
对选取的5个数据进行说明如下:
1.图书馆借阅数据和门禁数据可以反映学生在校学习情况,分析学生在课后的学习兴趣和学习态度,数据日期和时间非常准确,图书编号缺失率仅1%,图书名完整,不影响数据分析。
2.学生的成绩数据排名为学生所有数据的成绩加权求和,然后除于总学分,并按照学生所在学院进行排名。
3.助学金补偿人数为学生总人数的21%,基本达到了助学金覆盖学生20%~30%的要求,分为三档:4000元、3000元、2000元,比例分别4%、7%、10%。
4.学生一卡通数据量较大,且包含面较广,基本包括:POS机刷卡消费、卡充值、存转账、换卡补卡等,其中POS机刷卡消费为频率最高的部分,包括:超市购物、食堂、淋雨、洗衣房、校车、图书馆、校医院等。
二、分类预测
(一)基于K-means的聚类分析
该分析方法是将数据分成有意义或者不同特征的组,K-means是其中一种动态聚类分析方法,将多个样本点依据某个特征来进行分离,使每一类样本都是聚合的,并且每一类之间都有很好的差异性[3-4]。具体步骤如下:
1.按照某种规则将样本分为K类,计算该类重心,并作为初始凝聚点。
2.计算出每个样本点与各初始凝聚点的相似性,并将相似度进行归类。
3.重复步骤二,将所有样本进行处理,使得所有样本不再分配。
相似度计算公式见式1。
■ (式1)
该方法的优势是能够良好的将高消费人群和低消费人群区分开,使得能够更好的分析助学金发放的准确性。
(二)分析成果
根据消费方式将学生分为4类,最低消费群体(A类)、较低消费群体(B类)、较高消费群体(C类)和高消费群体(D类),由此来拉开两个极端群体的差异[5]。
利用K-means聚类得到消费最低的A类人群比例为25.5%,因此,学校应该扩大贫困资助比例。聚类分析成果见表2。其中消费水平最低的909人应当被认为贫困生,其中721位没有受到资助。消费水平较高的238人,其中有43人受到资助。消费水平较高的D类中,仅校园卡平均消费已经较高,不应再认定为需要资助的学生[6]。
三、结语
应用K-means聚类分析方法判定助学是否存在误判的情况,能够较为全面的反应学生在学校的消费水平和经济能力。
参考文献
[1]郭兆云,黄文婷.影响高校贫困生认定公平性的因素及对策[J].学校党建与思想教育,2016,(18):71-72.
[2]宋美喆.基于模糊综合评价方法的高校贫困生认定研究[J].黑龙江高教研究,2016,(07):16-20.
[3]邓巍伟.基于贫困生认定的高校资助精准化研究[J].长沙民政职业技术学院学报,2016,(01):110-112.
[4]杨良斌.数据挖掘领域研究现状与趋势的可视化分析[J].图书情报工作,2015,(S2):142-147.
[5]贺瑶,王文庆,薛飞.基于云计算的海量數据挖掘研究[J].计算机技术与发展,2013,(02):69-72.
[6]雷燕,隗送爽.试析高校贫困生认定中存在的问题和对策[J].成都纺织高等专科学校学报,2010,(04):25-27+50.
作者简介:李瑾(1978-),女,汉族,助理工程师,西安石油大学计算机技术专业硕士研究生,从事信息化技术与应用研究。