数据挖掘在家庭经济困难学生精准识别中的应用研究
2016-05-30李书翔赵裕慧陈晓
李书翔 赵裕慧 陈晓
摘要:现有的家庭经济困难学生认定方法都不可避免的出现主观性、片面性的问题,造成认定结果的不准确。文章通过探讨数据挖掘技术在家庭经济困难学生认定中的可行性,构建理论模型,将数据挖掘技术运用于家庭经济困难学生认定过程。
关键词:家庭经济困难认定;数据挖掘;理论模型
中图分类号:TP391文献标志码:A文章编号:2095-9214(2016)10-0293-01
一、问题提出
根据国家统计局数据,2015年,全国高校在校学生人数超过2600万人,教育部2016年8月新闻发布会公布数据显示,2015年,全国高等学校国家助学金受助学生达到1073万人次,由此可见,2015年全国高校在校家庭经济困难学生比例已超过40%,这仅仅是得到认定的家庭经济困难学生,而家庭经济困难学生申请人数远远高于这一比例。面对数量如此庞大的家庭经济困难学生群体,如何精确的确定学生家庭经济困难等级这一问题是做好大学生精准扶贫的先决条件,同时提高学生资助工作的效率和效益。
二、现有家庭经济困难学生认定方法述评
2007年,教育部、财政部联合下发《关于认真做好家庭经济困难学生认定工作的指导意见》,对于家庭经济困难学生的认定工作进行了规范。各高校根据学校、学生特点发展出一系列的困难生认定办法,这些办法主要有:
1.民主评议法。学生填写《高等学校学生及家庭情况调查表》、《高等学校家庭经济困难学生认定申请表》;学校成立各级困难生认定小组,根据学生条件及在校期间日常消费行为等情况进行评议,形成学生是否困难以及困难等级的初步结果;初评结果经公示与学校再评之后确定学生困难等级并进行资助;认定结果半年之后再进行复查,最终确定本学年家庭经济困难学生名单。
民主评议的结果存在主观性太强的问题,认定结果很难做到公平、公正。主要因为:一是学生由于趋利思想,提供的《家庭经济调查表》存在主观性较强,信息不准确的问题;二是认定小组的成员无法保证对全部申请者全面了解,在认定过程中也存在主观臆测等问题。
2.条件匹配法。不少学校意识到民主评议法存在的问题,逐渐通过归纳家庭经济困难学生特点并用学生的具体情况进行匹配的办法完善认定过程,主要有以下几种[1]:(1)通过学生“一卡通”系统等信息归纳一定的标准来判定学生家庭经济情况;(2)根据高校所在地最低生活保障线,学生消费低于该水平则认定为困难生;(3)设定一些特定指标,根据学生满足指标的数量确定其家庭经济困难程度。
条件匹配法能够从一定程度上解决认定过程中的主观性问题,但是以上的方法都存在指标体系不明确、指标不全面、缺乏统一标准、认定标准过于单一没有可比性、操作不规范主观色彩浓重等特点。这种办法可以确定学生的家庭经济是否困难,但是无法更进一步的确定其家庭经济困难程度。
3.指标打分法。近年来,山东省内部分高校逐步推行指标打分法:建立起综合评价家庭经济困难程度指标体系,架构困难生认定系统。学生根据自身情况填写调查问卷,系统根据学生填写情况自动得出学生评分,全体申请学生根据这一评分综合排序,从而确定家庭经济困难程度,依次开展学生资助。
这种方式同时结合了定性与定量,相对来说更加客观合理。但是,也存在填写系统过程中存在主观、趋利等现象。
困难生认定经过了从定性到定量的持续发展过程,困难生认定的科学性、客观性逐步加强。面对大量的家庭经济困难学生信息,提高认定的准确性需要长期的探索。
三、数据挖掘技术在家庭经济困难学生认定中的可行性分析
《高等学校学生及家庭情况调查表》中所调查的学生信息量十分大,加之还要综合考虑学生在校期间具体消费情况,因此一个学生所对应的信息最多达到上百条。以一个三百人的年级为例,学生按照40%的比例申请认定,一个年级困难生认定所涉及到的数据就达到上万条,以此类推,一个体量为三万人学校面临的困难生认定的信息将数以百万计。面对如此庞大的数据量,目前的应用还停留在简单的备份、查询、统计阶段,可以说是“数据丰富、知识匮乏”。
在海量数据背景下综合考虑家庭经济困难学生各项指标,减少评价过程中的主观因素,并进一步的提取出有用的规则和相关的知识。基于此,我们引入数据挖掘技术。数据挖掘是指从看似无规律的大量数据中自动搜索隐藏于其中的有着特殊关系性的信息的过程,他通过分析海量数据的每一条信息并从中寻找某种规律、关联或者结论。数据挖掘技术应用于家庭经济困难学生认定过程的可行性如下:首先,家庭经济困难学生数据库储存的海量数据为数据挖掘提供了“原材料”支持;其次,数据挖掘技术强调技术的发现与提取过程,侧重于从全部数据中寻找有用的知识,这就避免了以往认定过程中有侧重的虚报个人信息的行为,尽量做到客观、全面;最后,随着研究的深入,数据挖掘技术也愈加丰富,为分析海量困难生数据提供了技术支持。
四、数据挖掘技术在家庭经济困难学生认定中的应用探索
数据挖掘应用于家庭经济困难学生认定过程的路径如下:对已经评价的贫困生数据进行分类,找出与贫困生类别相关的贫困因素,再对未知类别的贫困生做出预测,结果与原有结果比较,检测模型效果,完成挖掘任务。最后提取规则应用于家庭经济困难的评价和管理工作。建立如图1的完整的基于数据挖掘技术的家庭经济困难学生认定系统。
1.家庭经济困难学生信息库。该信息库基于高校每年通过认定的家庭经济困难学生数据建立,涵盖学生个人及家庭的全部信息。
2.数据处理子系统。通过一定的数据清洗与预处理的手段,将信息库中的数据调整为能够被数据挖掘子系统使用的标准数据集。这个过程主要包括数据清理、数据集成、数据变换、数据规约等几个方面。
3.数据挖掘子系统。接着利用数据挖掘算法构建贫困生评价模型,对贫困生进行分类。如果得到的模型不能满足要求,需要返回前面的步骤,考虑算法的选择、数据的预处理结果是否需要调整,经过调优得到较优模型[1]。由于家庭经济困难学生的认定主要涉及分类与预测的问题,常用于这些问题的算法有贝叶斯网络、决策树、META等。
4.学生分类与学生资助子系统。这两个系统是对家庭经济困难学生认定结果的应用。学生资助子系统的结果可以返回到学生信息库中,为下一次的数据挖掘提供数据支持。
(作者单位:济南大学外国语学院学生工作办公室)
参考文献:
[1]杨知玲.数据挖掘在高校贫困生评价中的应用研究[D].华南理工大学, 2015