高等院校大数据挖掘与决策分析体系的应用研究
2016-11-08余鹏李艳吕鹏
余 鹏 李 艳 吕 鹏
高等院校大数据挖掘与决策分析体系的应用研究
余 鹏1李 艳2【通讯作者】吕 鹏3
(1.中南民族大学现代教育技术中心,湖北武汉 430074;2.中国科学院武汉文献情报中心湖北武汉 430071;3.中南民族大学图书馆湖北武汉 430074)
文章从我国高等院校“十二五”期间信息化建设的情况入手,探讨了高等院校大数据研究及发展的趋势,分析了大数据挖掘与决策分析体系建设的意义,并就该体系在高等院校信息化建设中的发展方向展开了讨论。文章设计了高等院校大数据挖掘与决策分析体系架构及流程,提出了一种新颖的“大数据+微服务”模式。结合该体系在高等院校未来信息化建设中多个典型应用场景的分析,可为高等院校信息化发展提供个性化服务保障,同时为高等院校的决策者进行科学决策提供依据。
高等院校;大数据挖掘与决策分析体系;微服务;个性化服务
当前,大数据承载着海量、高增长率和多样化的信息特点。面对数据的大幅膨胀和积累,高等院校如何更好地利用数据源信息,深入挖掘数据间的关联性和交互性,大幅释放出数据红利,为决策者提供更为强大的决策力、洞察力以及管理的效率、手段、流程等方面的优化能力,将是高等院校信息化人员、管理人员和业务人员需要进一步研究的课题。教育部在2012年发布的《教育信息化十年发展规划》中提出:智慧教育发展的目标是依托新一代信息技术,尊重学习者的个性化与多元化的发展需要,创建智能化的教育环境,推动信息时代“教与学”的变革,以最有效的方式促进学习者的知识构建与智慧发展。高等院校应抓住机遇,努力挖掘校园大数据的价值,以大数据驱动自身发展、推动智慧校园建设,从而挖掘人才创新力,辅助管理者进行决策。大数据辅以“云平台+云计算”技术,为新时期的教育信息化建设带来了新思路。同时,云计算技术的快速发展,也成功扫清了大数据技术面临的数据处理和存储瓶颈等相关问题。大数据挖掘与决策分析体系(下文简称“体系”)的建立,将可以大幅缩小高等院校各类业务系统之间的信息孤岛与数字鸿沟,为不同规模、不同结构的数据构建统一的分布式管理、分布式计算体系提供保障。
一 体系对高等院校信息化建设及发展的影响
1 高等院校大数据研究发展的趋势及体系建设的意义
据调查显示,“十二五”期间,我国大部分高等院校正在建设或已经完成一轮甚至是几轮信息化系统的建设[1]。信息化建设除了实现各类业务系统的模块、规范业务的操作流程等功能,本研究认为最重要的一项工作应是各类业务系统的数据累积、数据标准的规范管理(即数据字典的统一与规范)、业务数据交换平台的构建。各类信息化系统除了实现自身的业务流程,理应最大地程度克服“数据孤岛”,构建一种“既分工、又合作”的关系。同时,通过构建标准的数据接口和数据字典,依托ODI、LDAP等方式,实现最大化的数据交换与共享。截至2015年底,中央财经大学数据资源以每年30~50%的速度在增长;北京师范大学教务管理信息系统数据达到500~600G,校园卡系统日记数据达到1~2TB,校园网日记数据大约为1TB。2015年5月,清华大学的业务系统记录条数已达到3亿条;其中,门禁系统每天以10万条的速度增长;结构化数据高达1.3T,非结构化数据更是积累至14T的规模[2]。高等院校数据库里的内容不仅丰富,而且结构已经发生了很大的改变,即大量的数据由过去的结构化数据占主导发展为非结构化数据占主导。据统计,全球结构化数据增长速度约为32%,而非结构化数据增速高达63%——这个趋势在高等院校亦然[1]。针对国内高等院校日益庞大的数据积累,如何提高信息的利用率,使得数据逐步转化为潜在的知识服务,并辅助业务部门和决策者做出合理的决策,将成为“十三五”期间高等院校信息化建设和发展的重点课题。
“十三五”元年,诸如清华大学、上海交通大学、复旦大学、武汉大学、中国地质大学(武汉)、华中农业大学、中南民族大学、常熟理工学院等高等院校信息化建设的主要工作,已转到“智慧校园驱动个性化服务”、“高等院校大数据挖掘、决策与分析驱动知识服务”的建设上。高等院校建设大数据挖掘及决策分析体系的目标在于:紧密围绕自身发展的需求,以促进智慧校园创新应用、释放数据红利为核心;辅助提升学校治理能力,以推进学校治理体系现代化为契机;构建大数据生态体系,辅助提升网络和信息安全保障能力;完善大数据发展的政策环境,加快实施大数据发展战略。也就是说,要强化各级管理的数据意识,不断辅助提升精确的数据意识,让决策者从拍脑门到“用数据说话、用数据决策、用数据管理、用数据创新[2]”。
2 高等院校体系建设的基础及发展方向
高等院校体系建设将是一项长期且持续化投入的工程,而信息化建设过程中数据的积累与再利用是体系运转的轴心。当前,高等院校在完善和优化各级业务系统功能、厘清各级业务流程、不断构筑数据中心虚拟化云支撑平台的同时,更应不断完善“整合大数据业务及微服务渗透”、“以学促建加速关键技术的发展”、“实现高等院校的科学化管理与智能化决策”的工作流,以实现未来高等院校信息化建设的发展目标[3]。
(1)整合大数据业务及微服务渗透
①需要统筹规划大数据基础设施的建设。具体包括:统筹校园各类业务的数据资源和社会大数据资源,加强与社会大数据的汇聚整合和关联分析;充分利用现有数据资源和基础设施平台,统筹建立低成本、高效率的大数据基础设施和行业性数据汇聚平台。
②信息化部门应在相关校领导的支持下,构建以校领导为核心,以多业务部门处级领导为成员的信息化建设小组。该小组的成立,旨在以信息化技术推动校园全面发展为业绩考核目标,不断推动业务部门的数据共享:统筹规划跨部门的数据共享工作,加强顶层设计,明确各部门数据共享的范围、边界和使用方式,厘清各部门数据管理及共享的义务和权力;建立统一的数据交换接口及标准,加强信息系统的统筹共建,推进系统间信息共享。
③以“微服务”作为应用手段,不断渗透至各级业务,依托数据交换平台及大数据挖掘与分析平台,辅助“微终端”(如微信、APP应用、钉钉等移动终端技术)实现个性化业务的展示与交互。
(2)以学促建加速关键技术的发展
①推进核心技术攻关。即开展大数据基础理论和关键技术研究,围绕大数据全生命周期管理,攻关大数据分析技术,突破校园大数据建模方法、非结构化数据分析、数据可视化、数据安全与隐私保护等技术,提升大数据管理能力、分析处理能力、知识发现能力和辅助决策能力。
②形成大数据产品体系。即围绕数据采集、数据整理、分析挖掘、数据展现、数据应用等环节,研发大数据管理软件、大数据分析挖掘软件、数据可视化软件、硬件支撑平台等产品,打造健全的大数据技术产品体系,形成与传统产业业务流程深度融合的大数据解决方案。
③构建大数据产业生态体系。即整合企业、科研院所、产业联盟等创新资源,组建大数据开源社区、产业联盟,促进协同创新,加速大数据应用普及。
(3)实现高等院校的科学化管理与智能化决策
体系的建立对决策者的意义在于:①辅助事前预测;②辅助事中感知;③辅助事后反馈。在大数据中“沙里淘金”,贯穿于事件的起因、经过和结果三个重要阶段,为决策者提供了客观、准确的策略来实现目标的制定,让决策者能够更好地了解并把握政策的实施情况,从而更好地根据反馈情况,优化、改进政策方案,增进政策的执行力,让政策更有活力、效力[4]。
图1 大数据辅助高等院校实现科学化的管理和智能化的决策模型
结合当前高等院校建设发展的特点,体系的建立同样能够为高等院校今后的发展提供更加科学化的管理和智能化的决策。鉴于此,本研究构建了大数据辅助高等院校实现科学化的管理和智能化的决策模型,如图1所示。
①实现科学化的管理(不仅限于以下方面)。主要包括:培养计划执行预警(学生)、失联与行为预警(学生、辅导员)、毕业资格审查预警(学生、管理老师)、项目经费执行预警(项目负责人)、学风预警(高等院校)、就业发展状况预警(高等院校)。
②辅助智能化的决策(不仅限于以下方面)。主要包括:实现招生计划决策支持、财务状况与政策决策支持、师资队伍发展状况与人才政策决策支持、科研发展状况与学科建设决策支持、教学评估状况与人才培养模式决策支持。
二 体系的构建及驱动未来信息化发展的意义
1 体系的架构和流程
高等院校大数据挖掘与决策分析体系的构建,离不开数据中心虚拟化云平台的建设[5],并需要依赖于各业务系统的数据积累及数据交换平台的建设。如图2所示,体系可由“大数据存储交换平台”、“外部数据挖掘平台”、“大数据分析平台”构成。其中,“大数据存储交换平台”完成高等院校内部各业务系统结构化、非结构化数据集的存储、交换、推送,实现异构数据的统一化处理,其贯穿于整个系统建模与流程构建,在数据的预处理阶段为大数据分析过滤、多维度数据抽取、数据的高性能分布式存储提供技术保障;“外部数据挖掘平台”实现互联网信息的抓取(爬虫引擎)、关键字过滤及实时检索、知识及语义分析、智能挖掘,为大数据存储交换平台的数据源做预处理,并提供标准化的外部数据接口;”;“大数据分析平台主要依托校园虚拟化云平台、云计算,实现对问题的抽取、建模、规则库的定义和递归优化,并实现数据的可视化统计与智能化分析,为管理、决策者提供可行性的决策依据。
图2 高等院校大数据挖掘与决策分析体系架构
依据前期研究,本研究将体系的建模流程定义为[6]:
Step A——多维度提取数据来源:从外部互联网数据(直接装载爬虫引擎)和学校内部数据(评估数据采集和对接方式)提取;
Step B——评估数据规模:根据规模大小,选择合适的分布式并行计算应用架构;
Step C——数据样例分析:根据采样的数据特点进行分类、重组、归并;
Step D——根据实际需求确定建模方式:舆情监控和分析(关键词组合)、分类(选用合适的算法)、预测及辅助决策(需调整模型做大量尝试,优化模型,无限接近准确结果);
Step E——根据需求确定输出方式:或直接输出分析报告,或提供SAAS平台,或对接DMP,或设计整体解决方案;
Step F——反复地进行迭代、优化,建立最优库(这是一个长期过程,需要不断进行模型匹配、机器分类、人工聚类):确立算法模型优化、整合尽可能多的维度数据、提供多元的可视化方案。
2 以“大数据+微服务”模式驱动未来高等院校信息化发展的意义
当前,信息化服务的对象正逐步从原有的“面”服务向“点”服务发展,而用户的需求逐步趋向于定制化及个性化的发展[7],因此信息化服务模式转变是未来“知识服务化”发展的必要趋势。基于此,本研究构建了一种加快信息化服务转型和衍生的手段——“大数据+微服务”模式,来驱动未来高等院校信息化的发展。
“微服务”的核心价值在于利用先进、稳定的信息化技术手段,将庞大且复杂的业务服务流微小化,以构建特点突出、个性鲜明的“微小”服务来贴近用户的服务体验。作为业务与服务的催化剂,“微服务”将各类业务数据与业务流进行深度融合,构建起贴近用户、便捷管理的知识服务体系。“微服务”依赖于微信、跨平台APP应用、钉钉等移动终端的微应用技术,通过调用各类标准化的数据通信接口,并利用基于大数据的挖掘、分析决策平台,实现复杂的多业务系统平台异构数据统一的处理;同时,通过抽取、清洗、挖掘、分析、整合等步骤,构建基于高等院校特点的大数据挖掘与决策分析平台,建立事件或业务流程模型,向用户提供丰富的个性化资源数据和服务。
三 体系在解决高等院校未来信息化痛点问题时的应用场景分析
1 场景一:辅助学工部门实现“学生失联与行为预警”
问题分析:“学生无故失联”是辅导员最大的诉求问题之一。学生作为高等院校中的个体,存在于高等院校这个空间中,不可避免地会产生各种数据痕迹。学生失联信息如何提前预警并及时获知,可以依赖于大数据挖掘分析机制。
学生离不开吃饭、饮水、洗澡等消费,一卡通消费数据就是分析学生日常是否在校的第一个维度;学生来学校的主要工作就是上课,依赖于上课签到系统日志数据,从中提取学生的上课签到信息,可作为分析学生日常是否在校的第二个维度;学生在宿舍生活,务必离不开对校园网的使用,从校园网认证系统中提取学生的上网日志,可作为分析学生日常是否在校的第三个维度;学生进出宿舍,务必需要刷卡进行准出和准入操作,从一卡通门禁系统中提取学生的出入信息,可作为分析学生日常是否在校的第四个维度。基于此,通过在高等院校数据中心构建大数据存储交换平台,挖掘并分析学生一卡通消费数据、上课签到系统日志数据、校园网上网日志数据、宿舍进出门禁日志数据,然后从学校各个业务系统中抽取相关数据到大数据存储及分析平台,设计数据分析模型和预警策略,进行数据清洗和归并,可以构建学生失联与行为预警机制分析模型,如图3所示。该模型会及时将超过阈值的异常信息,借助短信、邮件、微信等微技术介质推送给管理学生的辅导员,并在学工部门备案。失联预警信息能够呈现学生失联的可能信息(如关联学工系统请假记录、在外租房记录、校医院就医记录等),以减轻辅导员线下核实信息的工作量,同时能够辅助辅导员及时了解学生动向,为学生失联与异常行为提供预警服务,并为高等院校管理者做出及时且科学的决策提供依据。
2 场景二:辅助教学部门实现“大数据辅助教学评估”
问题分析:教学评估是高等院校被考核的必选动作之一,评估结果的好坏将直接影响高等院校未来的建设与发展。结构化的数据依赖于关系数据库,比较容易分析。面对教学评估中的一系列非结构化数据,如何进行有效的分析处理是评估的难点之一,往往会大量耗费工作人员的时间和精力来进行甄别和筛选。针对全文本结构的非结构化数据(如学生对教师的评价、学生对课程设置的建议等),如何准确地抓取非结构化数据中的有效信息,可以依赖于大数据挖掘分析机制。
如图4所示,初始化评教文本数据,首先将数据进行预分类,通过构建非结构化数据处理平台,依托人工聚类分析法,搭建并不断修订模型规则匹配库,将使评价中的非结构化数据处理效率和效果成倍提升。
3 学生失联与行为预警机制分析模型
图4 大数据辅助教学评估分析模型
3 场景三:辅助招生部门实现“大数据辅助就业”
问题分析:当前,高等院校人才培养与社会需求间的结构性矛盾问题突出,一方面一批批大学生感慨就业难,另一方面众多用人单位却苦于招不到合适的人才。对于高等院校来说,辅助毕业生就业的手段十分有限,主要依赖于毕业前的就业指导、组织数量有限的校园招聘会和人才推荐等方式。高等院校的专业设置与目标求职岗位关系复杂,部分行业的数据涉及多项参数,难以用传统的方法进行度量与处理;互联网上的招聘数据量很庞大,且每天都在不断增加。
大数据辅助就业,具体表现为:通过对互联网上与就业相关的网站数据进行抓取、清洗和整理后,导入到大数据存储交换平台和数据挖掘分析平台,可以对互联网上各类与就业相关的网站数据进行监控;将用人单位的需求与校园内的数据进行交叉对比(如学校专业分类数据、学生课程设置数据等),依据高等院校用户的需求进行统计分析,可以为高等院校管理者与决策者提供大数据就业指导模型;方便学校查找待定地区、待定行业历年的人才需求变化分析及行业未来走势分析,并了解不同行业、不同岗位对技术和技能的储备要求,以指导学生入学后提前做好学习及研究方向的规划;帮助学校开展有针对性的专业培训,以提升学生的素养,同时调整专业设置、实现资源优化,布局招生计划、完成科学的分析与预测;利用“微应用”等媒介进行可视化的数据展示,来辅助高等院校管理者与决策者定期调整专业需求,从而为招生计划、师生配比等提供依据。
四 结语
作为大数据的生产者,高等院校各类业务系统为学校的各项信息化工作提供了基础保障。数据的价值在于多维度数据的联动与交互。通过对各类生产数据进行采集、抽取、清洗、关联、分析,面向对象化的用户服务由“面式”已逐步转化为“点式”的定制化、个性化用户服务。依托高等院校大数据挖掘与决策分析体系,借助“大数据+微服务”模式,可为高等院校全面建设智慧校园,实现以大数据辅助高等院校日常教学、科研、管理以及个性化服务功能,提供科学合理的保障。
参考文献
[1]中国教育和科研计算机网.大数据时代:一切都让沉睡的数据说话[OL].
[2]袁芳.智慧校园中大数据的机遇与挑战[OL].
[3]汪浩.大数据辅助智慧校园落地探索[OL].
[4]孙强,张雪峰.大数据决策学论纲:大数据时代的决策变革[J].华北电力大学学报,2014,(4):34-37.
[5]李艳,吕鹏,李珑.虚拟云桌面为高等院校图书馆服务和管理带来的革新——以中南民族大学图书馆为例[J].现代情报,2015,(6):58-63.
[6]李艳,吕鹏,李珑.基于大数据挖掘与决策分析体系的高校图书馆个性化服务研究[J].图书情报知识,2016,(2):60-68.
[7]马晓亭.基于可信小数据的图书馆个性化服务研究[J].图书情报工作,2015,(4):70-75.
The Application of Information Construction in Universities with Big Data Mining and Decision Analysis System
YU Peng1LI Yan2LV Peng3
The paper, started from the information construction of the universities in the 12th Five-Year Plan, mainly discussed the research and the development trends of big data. Meanwhile, it analyzed the significance and the value of the data-mining and decision analysis system (short for “system”), as well as discussing the direction of development in the information construction of universities. The paper designed the architecture and process of the system, and proposed a novel information construction mode named “big data+micro-service”. Combined several typical application scenarios in universities with the system model, it can quickly and effectively penetrate into each business units of universities and provides personalized services. Meanwhile, the system can also be used for the researchers and managers of the universities to make scientific decisions.
big data; data-mining and decision analysis system; micro-service; personalized services
G40-057
A
1009—8097(2016)08—0102—07
10.3969/j.issn.1009-8097.2016.08.015
本文为中南民族大学教研项目“基于‘大数据挖掘与决策分析+微服务’体系的高等院校云辅助教学研究”、中央高等院校基本科研业务费专项资金项目“云计算环境中数字化图书馆基于多维QoS属性的虚拟化资源分配算法研究”(项目编号:CZQ14023)的阶段性研究成果。
余鹏,实验师,硕士,研究方向为大数据、SDN网络,邮箱为wildwolfyup@sina.com。
2015年12月29日
编辑:小西