高校大数据平台的构建与应用探索
2018-02-07曾杨
曾杨
(上海大学信息化工作办公室,上海 200444)
1 高校信息化建设背景
各高校在近十年全面发展信息化建设,统一身份认证、公共数据库、服务器、网络、各系统平台都陆续建设实施。在数字化校园的建设过程中,各高校相继建设了许多的业务系统,业务逻辑得以梳理,办理步骤得以简化,信息数据得以采集。但是,各业务系统在建设之初没有进行较好的统筹规划和统一管理,这就造成后期维护成本高、数据共享难度大、数据利用率低,数据展示效果差。为解决上述存在的问题,上海大学依靠表单+流程+数据+展示的开发理念,围绕统一数据平台、一站式服务大厅、数据分析展示三个方面进行重点建设。但是,这三个平台主要还是依托传统的关系型数据库自底向上地建设教育信息化,这就成为目前智慧化校园的建设瓶颈。
2 高校大数据平台的现状
随着互联网技术的发展,机器学习和人工智能的崛起标志着大数据时代的到来,许多领域包括教育信息化相继进入大数据时代。有些高校和研究者已经从理论上定义了大数据,从思维上提炼了大数据时代的思维转变[1],从技术上构建了计算、存储和分析挖掘模型[2]。高校大数据从理论到实践的过程中,平台的构建是至关重要的环节。东北师范大学针对数据采集、数据存储、数据计算、分析挖掘四个方面的需求进行分析,提出了自底向上分别是数据源、采集层、存储层、计算层、分析挖掘层、应用层的教育大数据平台[3]。不同于传统的结构化、半结构化、非结构化数据源的分类,其从应用场景出发将数据源分为管理、资源、行为、评价四大类。数据源中的各类数据依照实际需求实时采集或者批量采集到分布式架构的存储层中,再通过计算层的各类数据计算引擎实现数据的过滤和整合,经过分析挖掘层的处理产生新的数据,继而在应用层表现出来。
3 高校大数据平台的构建
受其他高校大数据平台构建的启发,并结合本校教育信息化的实际情况,本文从数据平台、数据仓库、数据分析、算法推荐四个部分构建符合本校人员结构、管理方式、应用实践的教育大数据平台。
3.1 数据平台
利用Java技术对各类数据源采集的数据进行ETL操作,并把处理后的数据存入Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)。对于一部分需要在报表中显示的数据,存入MongoDB中,利用Python进行查询,快速在报表中进行分页展示,还可以利用Storm对数据进行快速的流处理[4]。例如:通过师生在食堂的校园卡消费记录,获取到实时消费的热力图,提供给后勤部门,后勤部门可以根据图例实时调整开放窗口的数量,增加或者减少菜的供应,根据食堂的刷卡人数科学管理食堂的供应,发现各个食堂潜在的营业差异。
3.2 数据仓库
在数据平台部门将数据存入HDFS之后,需要利用Hive、Postgres等客户端,根据数据分析的业务需求,将数据进行重新的分库和分表操作,以便应对用户个性化的需求。数据仓库将原先分散的数据根据主题的不同,集成为新的数据源,产生新的数据接口,供平台和业务系统调用。例如:高校各部门的业务系统数据进入数据仓库后可以根据不同的主题集成学校管理、学生管理、教学管理、教职工管理、科研管理、资产设备管理、办公管理、财务管理等数据子集。学生的奖学金评定、老师的绩效考核、部门的年终考核都可以调用这些数据子集。
3.3 数据分析
基于数据仓库中的数据和Hive客户端,运用Python、Go、R等编程语言,结合Spark等计算工具[5],对数据仓库中的数据进行多维度、全方位的分析以便给领导层和决策者提供政策拟定和结果判断的依据。运用关联规则分析、线性回归、非线性回归等分析模型拟合出相应的数学模拟,从而发现问题、描绘趋势、预测结果。例如:可以对学校的学生进行行为分析,通过填写调查问卷直接获取数据或者提取学生在校的相关行为日志数据,从这些数据中训练出学生的性格、兴趣、作息,以此作为社区分配寝室的依据。
3.4 算法推荐
利用聚类、分类算法可以得到不同属性的数据分类情况,这些属性称为特征,根据不同的特征用户群体,可以有不同的报表推荐。协同过滤算法可以过滤出相似的用户,之后再用共现规则算法或者互信息算法可以分析出有关联的特征。所以,运用协同过滤算法、共现规则算法、互信息算法可以向学生推荐适合的社团,也可以向师生推荐可能感兴趣的学校活动。如果有新的特征的加入,可以采用诸如神经网络的机器学习方法,根据不同的事务训练不同的特征参数。如果研究深入也可以尝试多层神经网络,进入深度学习的研究范围。高校中的学生奖学金评定和绩效考核就可以采用神经网络的训练方面,从而得到符合每个高校自身的评价指标体系。
4 结论与展望
本文从自身高校实际部门人员结构出发构建了大数据平台的四个部分,这四个部分都包含许多的大数据技术。伴随着管理方式的更新和机构改革的实施,上述教育大数据平台的四个部分可以对应四个机构部门,四个机构部门既独立运作,又相互联系,分配清晰,便于统筹管理。
教育大数据平台也包含了传统领域大数据平台中的开发平台、查询系统、计算框架、存储、消息传递。但其更侧重于分析,教育大数据平台的分析广义上可以分为两块,一块是实时计算,另一块是定时运算。
实时计算可以体现在对页面或者日志进行埋点的分析中。平台获取到一些操作或者特定行为的时候,将信息通过消息系统传递给实时计算平台Storm,Storm收到消息完成计算并持久化结果。例如:对于Web数据可以通过埋点的方式,实时获取已发布活动的关注热度,对于关注度高的活动可以适当地增加活动场次来满足大家的需求,对于关注度低的活动可以通过校内推广、弹窗、算法推荐等方式增加关注。对于关注度高,但是,转化率低的活动,可以进一步分析其产生的原因。
定时运算可以体现在学生画像的分析中。平台每天定时获取学生的上网数据、门禁数据、活动参与数据、借书数据、校园卡消费数据等,利用大数据平台分析其学习、生活、消费等习惯,在学生画像上以分析出的特征属性作为标签,方便学校和企业对于学生有更好的认知。对学生进行画像数据的采集和分析,有利于学校通过分析学生的行为来改变教学模式、改善管理制度,建设更符合学生意识形态的智慧校园。