基于消费数据的高校精准资助系统

2017-11-28侯登学

科技创新导报 2017年28期

侯登学

摘要：高校学生资助是国家扶贫的一项重要内容，是高校人才培養工作的重要组成部分。当前，我国的高校学生资助工作已经取得了巨大的成绩，但我们同时也要看到，认定过程舞弊，资助方式和力度缺乏精准的管理等问题也越来越影响这项工作的成效。如何利用各个高校已有的消费数据反向促进高校的精准资助工作，为学生量身定制精准资助的管理模式，对于提高高校资助工作水平，实现公正公平的资助体系具有重要意义。

关键词：消费数据高校精准资助

中图分类号：G647 文献标识码：A 文章编号：1674-098X（2017）10（a）-0145-02

大数据时代的来临，为创新资助工作方式提供了新的理念和技术支持，也为高校利用大数据推进快速、便捷、高效精准资助工作带来了新的机遇。基于学生每天产生的一卡通实时数据，利用大数据挖掘与分析技术、数学建模理论帮助管理者掌握学生在校期间的真实消费情况、学生经济水平、发现“隐性贫困”与疑似“虚假认定”学生，从而实现精准资助，让每一笔资助经费得到最大价值的发挥与利用，帮助每一个贫困大学生顺利完成学业。因此，基于学生在校期间产生的消费数据运用大数据挖掘与分析技术实现贫困学生的精准挖掘具有重要的应用价值。

经济困难学生资助管理工作是学生工作部门的重要工作内容之一，其工作内容覆盖学生申请、组织院系认定审核、学生工作部门审核、贫困生名单公示、补助资金发放等，由于此项工作目前在线下开展，参与的人员又比较多，包括：申请资助的学生、辅导员、班级参加民主评议的同学、学生工作部门老师、财务处老师与主管学生工作的院系领导和财务处领导等，而且流程相对复杂，受人为因素影响较大并难以充分保证认定的公正与公平性，因此建设线上“精准资助管理系统”使这项工作公开、透明和可视化的开展和呈现就显得较为迫切。

利用大数据技术对需要资助的经济困难学生的数据进行挖掘、整合及分析使之将繁杂的指标数据形象化、具体化和可视化地呈现，为做到精准资助提供强大的技术支撑。由此，“精准资助管理系统”主要由以下三大功能模块构成数据挖掘——资助认定——动态管理。

将每个功能模块中挖掘提取的数据源进行一致性、无效值和缺失值等清洗，然后将清洗整合后的数据进行标准化、规范化适配。

针对功能需求方面做如下说明。

1 数据挖掘

校园网络用户产生的学生消费记录、门禁记录、贫困生数据、奖助学金数据等具有极为显著的“大数据”特征，价值密度低，且数据繁杂，具有“碎片性”。分布式架构能够将全量数据集进行划分后进行计算，解决海量实时数据的有效分，最大程度减少分布式节点间通信开销的问题对系统的计算压力。

通过挖掘计算和分析学生实时消费数据，并将分析整合后的数据存储推送；对于某些学生家庭环境与结构的变化等因素导致的经济状况突变的情况，通过基于一卡通数据的定期或实时分析也能够弥补这一局限，从而实现经济困难学生的动态管理与贫困学生的精细化，人性化管理。

1.1 数据挖掘算法

采用科学的方法将海量的数据进行提取是获取有用数据的关键核心，将该方法用于教育大数据一体化硬件支撑平台，通过分布式数据存储、监控、管理与分析软件系统，采集、整合、分析学生在校园内的全量数据，包括学生基本信息、成绩数据和一卡通数据等。以历史数据为训练集对学生个体以及特定群体的消费情况进行整合清洗，有效地释放数据价值，总体采用逻辑回归算法，自动计算各部分权重，为此主要两种规范算法：Min-MaX规范算法和Z-Score规范算法。

1.2 数据存储管理

如何将挖掘出来的规范的、标准的数据进行存储管理是数据挖掘过程中极其重要的部分，数据存储管理在逻辑上包含多源数据存储模块、数据冗余备份模块、数据安全防护模块。多源数据存储模块负责对多源业务数据（消费、门禁等）分类存储并管理；数据冗余备份模块负责所有多源异构数据的库文件备份、数据文件及数据库的冗余备份；数据安全防护部分将从网络、服务器、防火墙、数据库、操作系统五个方面采取多级防护与控制措施充分保障数据安全，防止数据被非法操作，同时保障数据正常使用。

1.3 数据同步调用

将挖掘整理后的数据从存储介质中进行同步调用，首先建立数据脱敏通道，即对所有学生的敏感信息（包括学号、姓名等）建立虚拟ID，形成学生真实学号与虚拟信息的惟一性映射，该虚拟ID与对应的学生唯一关联。之后，根据数据源存储环境的不同制定相应的数据迁移与同步方案，采用数据库主从同步、视图或定期任务执行的方式接入并同步数据。所有对数据的分析及使用均基于脱敏后的数据进行，只有当用户最终使用精准资助系统查看学生信息时，系统才通过上述学生信息映射表查询真实信息并展示到系统。

2 资助认定

传统的资助评定方法受人为因素影响较大，为解决此问题，将民主评议结果与通过大数据挖掘整理后的数据做比对，实现从线下到线上的实时、公开、公平的线上认定。资助评定的方法主要从两个层面来进行：数据层（主要为数据的采集、整合、清洗、处理和存储）和算法层（主要为特征的提取和选择以及模型的训练、调优和使用）。

2.1 数据层

由于学生的个人的各种信息数据组成较大，首先需要将与学生的经济情况相关的数据源进行收集，数据来源如下：

（1）学生的基本信息，主要包括：家庭经济状况、生源地以及民族属性等（必要）

（2）学生的一卡通消费数据（必要）

（3）近五年经济困难学生的认定结果（含民主评议意见）（必要）

（4）勤工助学岗位申请记录（可选）

（5）国家助学贷款申请记录（可选）

（6）学生的财务数据（主要是学费缴纳情况，可选）

（7）学生的家庭情况（可选）endprint

（8）其它可用于评价学生经济能力的数据

2.2 算法层

通过对学生的各个方面的数据进行收集整理，通过特征提取，特征选择，数据标准化得到待预测数据。将数据带入模型选择中，获得基本模型，再对模型进行集成，最终得到复合模型，将模型进行评估，然后根据需求调整对应参数。在第一版系统上线后，将得到的反馈的数据引入，加入算法迭代模块，将整体构成机器学习算法，通过数据迭代，优化当前模型。

3 动态管理

动态管理主要是从业务层面将原来在线下的工作流程搬至线上进行操作，并且对原来在线下工作过程中部分不能实时掌握的信息及时推送至相关工作人员处，该部分主要有四个模块，如下。

账号体系→ 经济困难学生认定流程 → 特殊学生告警 → 经济困难学生名单管理

3.1 账号体系

本体系至少包括五种用户角色：提交经济困难申请的学生、参与民主评议的学生、辅导员、院系副书记、学工部。不同用户角色对应不同类型的账号，其拥有的权限也不尽相同。

学生账号：提交经济困难申请的学生不能参与民主评议，反之亦然。

学生管理者账号：辅导员 →院系→ 学校，后一级的用户可审核前一级用户的评议意见，如审核不通过，可将评议意见退回前一级用户，让前一级用户重新评议。

3.2 认定流程

各可根据自身情况，选择在线上或线下组织民主评议。如果是在线下组织民主评议，辅导员可上传表格批量导入学生的民主评议意见，不过，导入的表格需按照指定格式。

辅导员、院系、学校可查看学生的基本信息、上传的材料（经济困难认定申请表、家庭情况证明表）及其经济水平预测结果，辅助评议。

此外在线上参与民主评议的学生可看到提交经济困难认定申请的学生姓名及学号。出于保护学生隐私的目的，不向学生公开基本信息、材料及经济水平预测结果。

3.3 特殊告警