基于数据挖掘技术的高校贫困生认定优化机制研究
2018-08-09王莺
王 莺
(台州职业技术学院,浙江 台州 318000)
高校贫困生两大工作:一是贫困生认定工作;二是贫困生资助工作。对家庭经济困难学生做到精准认定,是学生资助工作的基础、前提,也是决定资助政策落实效果的基础性工作。随着每年国家资助力度的不断加大、资助金额的大幅增长,不少家长及学生在庞大的资助金额利益驱动下,虚报家庭经济状况,加之部分地方民政部门工作的“缺失”,高校又缺乏行之有效的认定方法,“伪贫困生”现象陆续出现。“伪贫困生”不但侵占了国家部分资助资源,影响了高校贫困生资助的效益与效率,更影响了学校风气,违背了“贫困助学”的初衷。
对高校来说,如何准确界定贫困生,有效落实国家各项资助政策,高效、合理地对贫困生开展资助工作,已成为高校贫困生工作的一大难题,也是学生工作的一项重要内容,一定程度上是衡量教育是否公平的有利杠杆。
2017年01月23日,教育部办公厅发布《教育部办公厅关于进一步加强和规范高校家庭经济困难学生认定工作的通知》,通知明确指出各高校应采用大数据分析、个别访谈等方式,深入、直观了解学生家庭经济状况,及时发现那些不困难却受助的学生,及时纠正认定结果存在的偏差。精准分配资金名额,明确重点受助学生,分配资金和名额,不能搞简单的划比例、“一刀切”。在分配资金和名额时,要统筹考虑不同专业、不同年级、学生经济困难程度等因素。综上要求,需要一个相对客观的评判标准,辅助判别学生的经济状况。
数据中心的大数据的实现可以弥补这些缺失。数据挖掘(Data Mining,DM),就是从大数据(包括文本)中抽取未知的、隐含其中的、对决策有潜在价值的信息和知识的过程。简单说,数据挖掘的最终目的就是从一大堆数据中“淘金”、从数据中获取智能的过程。运用数据挖掘技术,对学生在校基础生活消费数据、高校贫困生数据库数据进行挖掘、分析、预测,将挖掘结果运用到贫困生工作中,使贫困生工作更具准确性和科学性。
一、数据的搜集(数据源)
(一)一卡通系统数据库。一卡通系统应用于校园各个消费场所,如食堂、餐厅、浴室、打印复印、超市、小卖部、电子阅览室、机房等场所,高校学生生活数据量大,数据真实。虽然这些流水数据只限于其在校内的消费,但是这部分消费流水是属于基本生活消费的,是大学生消费的主要方面,很大程度上能够反映出学生在校的消费行为,也可以客观地反映学生在校的经济消费水平。
(二)高校贫困生数据库。根据学生申报贫困材料,针对性地对申请贫困的学生进行调查,填写调查问卷,包括学生学号、姓名、学生身份证号、系部、专业、班级、生源地、家庭人口总数、家庭人均月收入、持有手机品牌、持有计算机品牌等。这部分数据资料需经班主任核实确认,可以客观地反映学生的家庭经济水平。
二、应用软件
SQL Server 2000数据库;SQL Server 2000 Analysis Services(SSAS)数据挖掘工具等。
三、数据分析
分类、整理相关数据,利用SSAS形成多维分析模型,可实时地对多维数据集进行数据切片、切块、钻取。对校园一卡通数据库数据进行分析,利用数据挖掘DM、联机分析OLAP等的分析引擎,构建分析决策支持应用,向管理决策者提供决策分析的结果。以下以台州某高校为例,从系部维度、专业维度两方面对数据进行分析。
表1某高校2016级学生校园卡在校基本生活的月消费情况
(一)按系部维度分析
表1是按不同家庭人均月收入分类,对某高校8个不同系部2016级学生校园卡在校基本生活的月消费情况表。
根据该分析,分析各系部学生整体消费水平,学校资助部门制定更为合理的分配方案。例如,台州该高校目前确定各系部贫困生资助名额是按各系部学生总数占全校学生总数比进行分配。该种分配方式第一步已假定每个学生家庭经济困难程度相同,但从表1中可看出,各系部与系部间学生月消费平均金额是有差异的,最多可达170多元,占了1/5全校学生平均月消费。这种分配方式的假想第一步并不符合实际情况,存在一定的不合理性。建议资助部门在贫困生资助名额分配时,可分析学生在校近半年甚至一年的基本生活消费数据,了解各系部学生贫困状况,做适当合理的倾向性分配,不要搞简单的划比例、“一刀切”。
(二)按专业维度分析
在原有系部维度分析层面下精细到各专业,对不同专业学生在校基本生活消费水平进行分析,了解各专业学生的月消费情况,不仅在各系部分配名额时给予参考,更能结合专业特点给予实质性帮助。如该校建筑系,结合本系部专业特点,与标力集团合作,每学年不仅提供一定数量的勤工助学岗位,还设置了标力奖助学金,更为贫困生就业提供了一条就业渠道,对贫困生工作起到了实质性的作用。
(三)对学生个体维度分析
通过数据挖掘分析,横纵向评估与比较,可确定学生个体在校基本消费平均水平处于全校、全系、全专业的程度,既可做到贫困生认定前的动态考察,又可做到贫困生认定后的事后监督,有利于贫困生工作的有效开展。
四、贫困生认定预测
运用数据挖掘决策树C4.5算法,构建贫困生评价模型,分析提取分类规则,挖掘出家庭经济特别困难和家庭经济困难的学生各有哪些特点属性,找出规律,从而在贫困生认定工作过程中预测学生是否属于贫困生范畴之例,为贫困生认定提供参考,进而达到优化贫困生认定机制的目标。图1是贫困生认定流程。图2是数据挖掘中数据处理流程图。
(一)数据挖掘对象
每学年进行一次家庭经济困难学生认定工作,从信息完整性考虑,研究对象定为在校大二、大三学生。即研究大二、大三学生在校期间一卡通系统数据库数据(在校基本生活消费数据)及贫困生数据库数据。
(二)贫困生认定指标
根据文件《关于认真做好高等学校家庭经济困难学生认定工作的指导意见》(教财〔2 0 0 7〕8号)给出的贫困生认定办法,结合相关学者专家近年来对认定指标的分析研究,本文贫困生认定指标属性主要由学生家庭情况((1)家庭人口数;(2)家庭月收入;(3)是否孤儿、单亲、残疾;(4)是否低保家庭、烈士家庭、农村五保户家庭;(5)家庭成员健康情况)和学生情况((1)学生月消费金额;(2)是否有高档奢侈用品)两大指标组成。
(三)根据决策树C4.5算法构建贫困生评价模型
通过数据采集、数据预处理、数据清洗等挖掘步骤,根据贫困生认定指标,用C4.5算法创建的决策树模型如图3所示:
(四)提取分类规则及预测分析
根据图3,决策树规则提取后用IF-THEN表示,得到以下几条主要规则:
1.IF(是否低保家庭、烈士家庭、农村五保户家庭=是)THEN学生=特困。
2.IF(是否低保家庭、烈士家庭、农村五保户家庭=否)AND(家庭成员健康情况=疾病)AND(是否单亲、孤儿、残疾=是)THEN学生=特困。
3.IF(是否低保家庭、烈士家庭、农村五保户家庭=否)AND(家庭成员健康情况=疾病)AND(是否单亲、孤儿、残疾=否)AND(学生月消费金额<500)THEN学生=特困。
4.IF(是否低保家庭、烈士家庭、农村五保户家庭=否)AND(家庭成员健康情况=疾病)AND(是否单亲、孤儿、残疾=否)AND(学生月消费金额>500)AND(家庭月收入<1000)THEN学生=特困。
5.IF(是否低保家庭、烈士家庭、农村五保户家庭=否)AND(家庭成员健康情况=健康)AND(是否单亲、孤儿、残疾=是)AND(学生月消费金额<500)THEN学生=特困。
6.IF(是否低保家庭、烈士家庭、农村五保户家庭=否)AND(家庭成员健康情况=健康)AND(是否单亲、孤儿、残疾 =是)AND(学生月消费金额 >500)AND(家庭月收入<1000)THEN学生=特困。
7.IF(是否低保家庭、烈士家庭、农村五保户家庭=否)AND(家庭成员健康情况=疾病)AND(是否单亲、孤儿、残疾 = 否)AND(学生月消费金额 >500)AND(1000<家庭月收入<2000)THEN学生=困难。
8.IF(是否低保家庭、烈士家庭、农村五保户家庭=否)AND(家庭成员健康情况=疾病)AND(是否单亲、孤儿、残疾=否)AND(学生月消费金额>500)AND(家庭月收入>2000)AND(家庭人口数>5)THEN学生=困难。
9.IF(是否低保家庭、烈士家庭、农村五保户家庭=否)AND(家庭成员健康情况=健康)AND(是否单亲、孤儿、残疾 = 是)AND(学生月消费金额 >500)AND(1000<家庭月收入<2000)THEN学生=困难。
10.IF(是否低保家庭、烈士家庭、农村五保户家庭=否)AND(家庭成员健康情况=健康)AND(是否单亲、孤儿、残疾 =是)AND(学生月消费金额 >500)AND (家庭月收入>2000)AND(家庭人口数>5)THEN学生=困难。
11.IF(是否低保家庭、烈士家庭、农村五保户家庭=否)AND(家庭成员健康情况=健康)AND(是否单亲、孤儿、残疾=否)AND(学生月消费金额<500)THEN学生=困难。
12.IF(是否低保家庭、烈士家庭、农村五保户家庭=否)AND(家庭成员健康情况=健康)AND(是否单亲、孤儿、残疾=否)AND(学生月消费金额>500)AND(家庭月收入<1000)THEN学生=困难。
13.IF(是否低保家庭、烈士家庭、农村五保户家庭=否)AND (家庭成员健康情况=健康)AND(是否单亲、孤儿、残疾=否)AND(学生月消费金额 >500)AND (1000< 家庭月收入<2000)AND(是否有高档奢侈品=否)THEN学生=困难。
14.IF(是否低保家庭、烈士家庭、农村五保户家庭=否)AND (家庭成员健康情况=疾病)AND(是否单亲、孤儿、残疾=否)AND(学生月消费金额 >500)AND (家庭月收入 >2000)AND(家庭人口数<5)THEN学生=不困难。
图3 C4.5算法创建的决策树模型
图1贫困生认定流程图
图2数据处理流程图
15.IF(是否低保家庭、烈士家庭、农村五保户家庭=否)AND (家庭成员健康情况=健康)AND(是否单亲、孤儿、残疾=是)AND(学生月消费金额>500)AND (家庭月收入 >2000)AND (家庭人口数 <5)THEN学生=不困难。
16.IF(是否低保家庭、烈士家庭、农村五保户家庭=否)AND(家庭成员健康情况=健康)AND(是否单亲、孤儿、残疾 = 否)AND(学生月消费金额 >500)AND(1000<家庭月收入<2000)AND(是否有高档奢侈品=是)THEN学生=不困难。
17.IF(是否低保家庭、烈士家庭、农村五保户家庭=否)AND(家庭成员健康情况=健康)AND(是否单亲、孤儿、残疾=否)AND(学生月消费金额>500)AND(家庭月收入>2000)THEN学生=不困难。
分析发现,家庭成员中有重大疾病或单亲、孤儿、残疾的学生一般多为特殊困难或一般困难家庭;学生在校月消费金额过低,一般也为困难家庭;学生是低保家庭、烈士家庭、农村五保户家庭的一定为特殊困难家庭。此结果与资助政策是一致的,可为高校贫困生的认定工作提供决策支持。
国家资助是实现教育公平、促进社会公平的一种制度安排和重要举措。通过建立贫困生数据库,对贫困生数据进行挖掘分析,资助部门既能对贫困生基本信息进行全面、及时查阅,又能对这些数据进行有效、及时的分析,把分析结果运用于贫困生身份认定及贫困生等级界定,进而达到优化贫困生认定机制、落实国家资助政策的总目标。