面向高校贫困生精准资助的数据仓库系统设计

2018-09-18屈莉莉董艳于杨

黑龙江教育·高校研究与评估 2018年8期

屈莉莉　董艳　于杨

摘要：基于高校贫困生精准资助管理中建设数据仓库的必要性，从数据仓库体系结构设计，多源异构数据源的存储与管理，数据仓库的建模过程与方法，精准资助数据分析的多维属性与主要模型等方面对面向高校贫困生精准资助的数据仓库系统进行了深入研究，能够有效支撑数据综合查询、多维分析和数据挖掘，提高高等院校学生资助管理的科学决策水平。

关键词：高等学校；贫困大学生；精准资助；数据仓库

中图分类号：G640 文献标识码：A 文章编号：1002-4107（2018）08-0055-03

目前我国的贫困大学生资助体系日渐完善，基本解决了经济困难学生的就学问题[1]。高校资助工作紧跟国家信息化建设的步伐，贷款与资助全部实行网络化管理，各高校基本建成学生资助管理信息系统。但大数据给高校资助工作带来了巨大的挑战[2-3]，大数据要求数据能充分发挥其外部性并通过与某些相关数据交叉融合产生远大于简单加和的巨大价值，数据挖掘技术的不断更新与应用使得大数据发挥的作用日渐强大，因此，在高校的学生管理中应加强数据利用与处理的能力，强化大数据意识，完善各项制度保障[4]。

数据仓库之父W.H.Inmon在其经典著作Building the Data Warehouse（《构建数据仓库》）一书中指出，“数据仓库是面向主题的、集成的、非易失的、随时间变化的用来支持管理人员决策的数据集合”。因此，利用数据仓库技术，高校可以实现对多源异质数据的采集、汇聚与分析。以主体多元化、内容多维化、方法多样化的数据仓库系统为平台，利用在线分析处理和数据挖掘工具，更全面了解学生的真实生活状态和经济水平，使贫困生评定资助的结果更为综合客观，数据仓库系统将作为实现高校学生精准资助管理体系的基础与工作机制。

一、设计高校贫困生精准资助的数据仓库系统结构

搭建数据仓库系统的目的是要形成一个存储和使用数据的集成环境，这种体系化的环境可以把分散的或者结构等不一致的数据转化为集中的、一致的信息，进一步分析解决问题，辅助决策以提高工作效率。参考通用的数据仓库系统并结合高校贫困生精准资助管理的需求，本文设计的高校贫困生精准资助数据仓库系统结构如图1所示，该数据仓库系统由四个部分构成：（1）数据源是数据仓库系统的基础，是整个系统的数据源泉[5]。（2）建立数据仓库，数据的存储与管理是整个数据仓库系统的核心和关键。（3）数据分析主要指OLAP（在线分析处理On-Line Analysis Processing）和数据挖掘。OLAP服务实现多角度、多层次的多维数据组织与分析；数据挖掘是从海量的数据中发现有潜在价值和规律的知识和模式[6-7]。OLAP是一种求证性的分析工具，一般由用户预先设定一些假设，然后使用OLAP去验证这些假设，被动地进行数据分析；而数据挖掘是一种挖掘性的分析工具，它主要是利用各种挖掘算法主动地去挖掘大量数据中蕴含的规律和模式，主动地进行数据分析。

（4）前端展现与应用，包括各种数据报表、数据查询、数据分析与应用管理等工具，与其他高校资助管理系统的功能进行集成。

二、高校贫困生精准资助数据仓库系统关键技术

数据仓库系統由数据仓库的构建、基于OLAP与数据挖掘的数据分析等关键技术构成。

（一）建立高校贫困生精准资助的数据仓库

1.多源异构的数据源

数据源一般分为内部信息和外部信息。为实现高校贫困生的精准资助需要对学生的家庭信息、消费情况、学习成绩、是否贷款、是否获得奖学金等信息进行全面的采集。

学生资助管理系统：将现行的学生资助管理系统中已认定的贫困生记录作为主要的标签数据源，在多种数据挖掘模型建立过程中均需要与真实的资助结果进行比较，进行模型的训练进而建立有效的精准资助辨识模型。

学生基本信息数据库：获取在校学生基本信息，学生的出生年月、院系、专业、班级、联系电话、家庭住址和联系电话、邮编等。其中，对于分析学生贫困情况有意义的属性，例如，可以通过家庭住址这一内容大体判断该生是否出生在贫困地区或经济欠发达地区。

学生教务系统数据库：获取学生成绩信息分析受资助学生的学习情况。对贫困生的界定和相关资助措施中一般都会涉及学生的成绩，国家和学校会优先资助品学兼优的贫困学生。如果贫困生接受资助却不努力学习的话，学校有义务对其进行教育，对于屡教不改者，可以相应调整其受益的贫困资金数额甚至取消贫困资格。

学生奖学金管理数据库：获取学生所得奖学金和助学金情况，计入贫困等级考虑因素。对于学习成绩优异的学生来说，除了贫困补助，还可以获得国家励志奖学金、优秀学生奖学金等助学基金，这些相加的总额可能已经大于维持正常生活的经济需求，因此可以对贫困等级做适当的调整，给其他同样贫困的学生更多机会。

学生一卡通消费记录数据库：校园一卡通集刷卡消费、身份识别、图书借阅、考勤功能等于一体，可以通过网络技术对学生的一卡通数据进行收集整理，获取学生在校园内食堂和超市消费记录，通过消费水平推测学生的贫困程度。

学生申请贫困资助的证明材料：从家庭收入支出、家庭成员关系、父母身体状态（是否健康，医疗支出等）和工作情况、是否为低保户等方面大体了解学生的家庭背景。上学期间是否贷款，以及贷款金额、年限，都可以在一定程度上反映学生的经济生活来源。但必须确保所填信息真实可靠，并结合实际走访和调查加以审核确认。

学生网络消费行为记录：随着电子商务产业的发展，学生吃饭可选择外卖订餐或者扫码支付费用，因此仅通过一卡通消费数据分析得出的结果可能是片面的、不完整的，需要进一步将网购记录、外卖记录、支付宝和微信等第三方支付记录融入到学生经济水平分析和贫困等级评定之中。

对上述与高校贫困生评定相关的数据进行存储与管理。数据抽取（即数据清洗）是清除各数据来源中的噪声干扰和对数据挖掘无用的数据；数据转换是将杂乱的数据变为统一的形式，如相同意义字段名的转换、编码的转换、单位的统一、冗余数据的消除等；同时为了压缩海量数据，将源数据中的数据迁移到数据仓库或者数据集市时要按照一定的维度（时间维、地点维等）进行汇总。同时，上述多个系统均为高校重要的应用系统，如果不便于直接连接其数据库进行大数据量操作，可以采用先编写数据库脚本或者中间件程序，通过批量连接查询导出的方式，实现数据仓库的数据存储。

2.数据仓库建模

（1）数据仓库的数据建模过程。数据仓库的数据建模主要分为四个阶段。

业务建模。划分高校学生管理的整体业务，进行各个部门之间业务工作的界定，厘清其间关系。与学生资助管理相关的部门主要包括：教务处、学生处、财务处以及学生所在学院系。深入了解各个部门内具体业务流程并将其程序化，提出和改进业务部门与学生资助管理相关的工作流程并规范化。

领域概念建模。抽取关键业务概念并将之抽象化。按照业务主线聚合类似的分组概念。细化分组概念，厘清分组概念内的业务流程并抽象化。厘清分组概念之间的关联，形成完整的领域概念模型。

逻辑建模。对概念模型中的信息进行实体化，定义实体与实体之间的关系，实体的属性内容等。即定义具体表的作用，表与表的约束，表的字段，形成实体关系联系。

物理建模。确定数据的存储结构、索引策略、数据存放位置及存储分配等。全面了解所选用的数据库管理系统，特别是存储结构和存取方法；了解数据环境、数据的使用频度、使用方式、数据规模以及响应时间要求等，对时间和空间效率进行平衡和优化；了解外部存储设备的特性，如分块原则、块大小的规定、设备的I/O特性等。

尤其是基于大数据架构，以分布式文件系统和非结构化数据库实现结构化数据和非结构化数据的存储，采用交互式分析和流处理工具的分布式数据仓库系统可大幅提高数据存储和数据服务的效率。

（2）数据仓库的数据建模方法。数据仓库逻辑模型的建模由核心事实表和一组维度表组成，主要包括星型模型和雪花模型。星型模型的维度表直接跟事实表连接；而雪花模型中的一些细粒度维度表不是直接与事实表连接，而是通过粗粒度的维度表中转。星型模型查询性能好，而雪花模型将使数据存储更加规范化，减少数据冗余，易于维护和节省存储空间。但为了满足高性能的响应要求，可以增加冗余、隐藏表之间的约束等反第三范式的操作。

（二）高校贫困生精准资助的数据分析

1.分析高校贫困生精准资助的属性因素。除应考虑大学生家庭收入和消费情况等传统思维，随着互联网和通信技术的发展，电话费，网络购物的次数、网购商品种类和件数等也在一定程度上反映出学生的经济水平，因此应探究更加全面的影响贫困等级的关联因素。主要包括：是否为低保户，是否为农村户口，是否为单亲，是否为独生子女，是否父母重病，是否获得奖学金，是否申请到贷款，是否勤工助学，一卡通和外卖就餐月均消费，网购月均消费，网购平均每月奢侈品件数，电话费月消费等。

2.高校贫困生精准资助的数据分析方法。通过OLAP操作，统计分析学生的基本资料（身份信息、家庭情况、成绩信息、奖学金信息等）和各类花销细分信息（衣食住行等）；筛选关键性能指标：每月、每年的各类消费金额；从不同维度进行切片、切块和钻取，获取学生资助管理工作所需的分析结果。OLAP系统是数据仓库系统最主要的应用之一，专门设计用于支持复杂的分析统计操作，可以根据分析人员的要求快速、灵活地进行大数据量的复杂查询处理，并且以一种直观而易懂的形式将查询结果提供给决策人员，以便高校里从事学生管理的教师能够准确掌握在校学生的贫困情况，了解学生的真實需求，制定正确的资助方案。

采用层次分析法等多属性评价方法计算影响贫困生评定的多层次因素，对致贫因素指标进行权重的定量测算；再收集各项指标数据，通过TOPSIS（Technique for Order Preference by Similarity to Ideal Solution，逼近理想解排序法）或模糊综合评判等方法，对学生贫困程度进行打分排序。

对数据仓库中的各类消费进行聚类分析。以学生食堂消费、外卖消费、网络消费、学习成绩排名、家庭情况等多项与“贫困生等级评定”相关的属性作为聚类分析的数据，进行两阶段聚类。第一阶段是粗类，分为贫困生和非贫困生；第二阶段是细聚类，高校贫困生按照贫困程度可以享受国家每年每人4000元、3000元和1500元不等的补贴政策，以此为依据再对贫困生分为一等、二等和三等3个细类。

基于关联规则发现高校贫困生精准资助管理中的有潜在价值的模式。进行多因素关联分析从而得到与贫困程度联系最密切的影响因素。通过设定合适的最小支持度和最小置信度，得到一定数量的显著关联，找出数据之间的关联性，并验证其有效性，简化判断贫困等级工作的步骤，加大资助认定的精确度，为以后的贫困生资助工作提供更科学可靠的依据。

使用预测模型对学生资助进行动态预警监控。动态监测与大学生贫困相关的若干关键指标，例如，食堂和外卖消费金额陡然降低、学习成绩突然下降等情况可能会与该生家庭情况突遭变故有密切关联，应迅速发现新情况并进一步深入探究，为实现动态资助管理工作提供及时准确的支持。

利用决策树方法对未知贫困类别的大学生进行有效的分类。决策树学习是以实例为基础的归纳学习算法，构造决策树的目的是从一组无次序、无规则的事例中找出多个属性和贫困等级认定间的关系，以便用它来预测将来某些学生属性记录的类别。

为帮助家庭贫困的学子顺利完成学业，为国家培养更多不论出身的优秀人才，提高贫困生评定的精准性势在必行。数据仓库系统为高校贫困生精准资助提供了更广泛的数据源和更科学的分析方法，可作为高校贫困生精准资助动态管理的支持平台。

参考文献：

[1]陈乃车，曾剑，唐闻捷.提升高校资助育人成效的路径探

析[J].教育研究，2017，（5）.

[2]林佳佳.河北省高校贫困生救助问题研究[D].石家庄：河

北师范大学，2017.

[3]董鲁皖龙.高校贫困生资助如何精准有效？[N]. 中国教育报，2017-01-24.

[4]陶俊清.大数据背景下的高校资助工作创新研究[J].东华

大学学报：社会科学版，2015，（1）.

[5]刘佳易.校园卡应用数据分析[D].北京：北京化工大学，2015.