APP下载

高校数据中心生态的研究与应用

2020-06-08李引陈敏锋

现代信息科技 2020年19期
关键词:数据治理

李引 陈敏锋

摘  要:随着大数据发展行动纲要、教育信息化2.0行动计划等政策的出台,信息化已上升为国家战略。高校“十四五”信息化发展的着力点也已从数字化校园转向“智慧校园”“智能校园”。无锡商业职业技术学院对校内数据中心构建“一中心、两体系、三平台”新生态架构,进行深度数据治理,打造全量数据中心,促进内部治理精准化、师生服务高效化、分析决策科学化。

关键词:数据治理;数据精细化;全量数据中心;共享与交换体系

Abstract:With the introduction of big data development action programme,education information 2.0 and other relevant policies,information has become a national strategy. The focus of information development of colleges for the “14th five year plan” has also shifted from digital campus to “smart campus” and “intelligent campus”. Wuxi Vocational Institute of Commerce builds a new ecological architecture of “one center,two systems,three platforms” for the school data center,conducts in-depth data governance,builds a full data center,and promote the precision of internal governance,the efficient service of teachers and students,and the scientific analysis and decision-making.

Keywords:data management;data refinement;total data center;sharing and exchanging system.

0  引  言

信息技术引领新一轮科技革命和产业变革,对学校教育产生了深刻影响。《国家中长期教育改革和发展规划纲要(2010—2020年)》[1],着重强调实现教育现代化要以培养创新人才为核心。高校信息化建设能够促进教育教学改革,为高素质和创新型人才的培养提供强有力的后盾。《教育信息化2.0行动计划》[2]推动着高校的信息化建设目标从“数字化校园”阶段迈进“智慧校园”阶段。而不论是创新人才的培养还是“智慧校园”的建设,都需要多维、完整、准确的数据来支撑。

数据作为信息的载体,是各类信息系统建设、使用、维护保障最为重要的基础,在当前高等教育迈入大数据时代的宏观环境下[3],高质量的数据对于高校业务运转、决策支持和文化建设、教育教学质量提升,体现出越来越大的价值。

1  高校数据中心存在的问题

目前大部分高校通过前期“数字化”校园建设,基础服务平台、各类信息系统的建设已逐步完成。同时,也积累了大量业务数据,随着数据量的不断聚集,数据驱动的业务、决策已经成为学校的基本活动,因此高校对于数据的要求都越來越高。而高校数据中心作为全校数据服务支撑来源,一是要求数据精细化,二是要求数据全面化。精细化体现在高校的数据治理,逐步建立和推进数据管理制度。数据全面化表现在除了对基础的主数据进行交换共享,高校还能够普遍重视师生在各种活动中产生的过程性数据,比如学生成长数据、学习轨迹数据、科研过程数据等。

随着信息化进程的不断推进,高校数据中心面临四个主要问题:(1)数据整合程度不高,数据孤岛依旧存在。已建数据中心已集成了部分信息系统,仅解决各业务部门“各自为政”的问题,但是数据流程未打通,严重影响了跨部门之间的业务协同。(2)数据交换粗放,数据质量问题日益突出。传统的数据中心建设,关注点主要是在基础的主数据交换,在数据治理上,缺乏制度保障,标准规范和有效工具等,使得数据质量不高,信息难以整合分析。(3)数据共享缺乏管控,数据安全面临风险。数据共享阶段,数据的供应是通过对数据库的配置发布表或视图。数据发布过程中难以监控数据的调用过程、频度、用量等,无法发现和阻止对数据的不当使用,对数据安全管理造成不小的威胁。(4)缺乏更多数据的利用和综合数据分析应用。高校建设的共享数据中心平台架构上不支持更多类型的数据,例如上网日志数据、外部互联网非结构化数据等,无法构建更精准的数据分析服务,为领导决策提供数据支撑。

因此,构建高校数据中心新生态,不仅解决数据有无问题,还要支撑数据的持续和全面治理。未来只有在坚实的数据基础平台,支撑各种应用和服务,并以数据为驱动,对高校各项业务进行优化提升,对高校决策管理进行辅助,才能更好地助力高校的发展。

2  数据中心生态的概念及研究现状

2.1  数据生态的含义

“生态”一词来源于古希腊字,意思是指家(house)或者我们的环境。简单地说,生态就是指生物之间以及生物与环境之间环环相扣的关系。伴随着信息社会的发展,数据无时无刻地在产生、繁衍,我们每个人都是数据的一部分,都在扮演着不同的角色,可能是数据生产者,也可能是数据使用者、数据受益者。在这之中,我们可以形成一个数据生产-数据加工-数据分析-数据交易-数据应用-数据生产的闭环。因此信息社会是一个海量级数据生态平台,在每一个环节都是可以实现并展示出来的,之后形成了一项资产,产生了巨大的商业价值。

构建高校数据中心生态体系如图1所示,通过打通校内重要数据产生及使用部门,完成数据在校内的强大内循环,数据生产者也是数据服务的重要对象,由数据服务对象参与的外循环则为“内循环”积累的数据找出路,方便其通过各种形式的终端获取数据服务,内外循环同驱,使学校数据“活”起来。

2.2  研究综述

在教育领域,依托于人工智能、云计算、大数据技术的融入,及计算机运行及存储能力不断发展与提升。数据治理的主要矛盾从单纯的技术问题转移到如何更好地对数据价值进行挖掘、展现和利用。2015年,许晓东、王锦华等人对高等教育的数据提出涵盖数据获取、整合、分析等多个阶段的治理分析架构[4]。随着数据治理阶段引入的模型算法也越来越复杂,余鹏等人利用大数据视域开展数据治理,基于“五元”管理,重构数据中心,解决数据标准不统一、数据流向混乱、数据应用范围小等问题,更好地为教育教学提供决策服务[5]。董晓辉等人依据权变理论,从技术环境、制度环境双方面设计大数据治理框架,以点带面逐步推进教育治理进程[6]。高校教育数据生态的研究与治理不仅是高校质量发展的内在要求,而且引领着教育数据走向更广、更深的应用服务。

3  高校数据中心生态框架设计——以无锡商业职业技术学院为例

学校作为数据产生、拥有和使用的主体,数据的价值若得不到充分开发利用,管理水平就难以提升,重要决策难以支撑,“智慧校园”的推进也难以获得明显的成效。

无锡商业职业技术学院的数据中心生态体系架构设计如图2所示,通过数据治理工作,构建具有合理、规范、可持续提升的数据规范体系,建设全量数据中心,打造全量数据中台、指标库、模型库、主题库,通过共享与交换体系,为数据流通提供交换与开放平台,并以数据质量平台核检数据,积累数据资产,真正达到数据的准确性和权威性。高校数据中心生态以数据赋能学校当期和未来所有的信息化建设,盘活数据和应用生态,挖掘数据价值,释放数据红利。

3.1  数据集成

学校根据国家、教育部数据标准,结合现有的业务数据,形成符合实际需求的数据标准,涵盖了学生管理、教学管理、教职工管理、科研管理、财务管理等多个数据子集如图3所示。

学校业务数据不规整,存在缺失、散乱的情况,而且存在的类型多样化,格式不一致。在填写和录入业务数据时,也缺乏严格的数据质量检查。统一数据集成把各种纷繁复杂的数据系统集成在一起完成特定业务,建成“统一门户、统一身份、统一数据”的“智慧校园”综合服务平台如图4所示,打通“信息孤岛”,实现系统集成。

对于未来新建设的系统,也要求具备从标准规范制定、数据准入规范制定、数据全量采集抽取、数据集中治理、数据共享交换等全流程的数据接入和共享能力[7]。

3.2  全量数据中心

3.2.1  全量数据治理中台

数据治理是一个整体概念,作为数据管理的一部分。目的是将零散的、无规则的数据治理成符合统一标准、有秩序的主数据,为形成有效数据资产[8]奠定基础。全量数据治理中台的建立,实现自动化/半自动化的采集与治理,降低对于数据库语言或Hadoop组件的依赖,提升数据治理的效率。通过高速的数据采集,历史数据、实时数据的共享,形成全量数据仓库,覆盖全校所有信息系统、应用和服务数据。在全量数据仓库的基础上建立数据分析模型,提供数据的查询、统计、分析和深层次数据挖掘,为各级领导提供智能决策支持。

3.2.2  指标库

建立统一的指标库,能够优化数据的采集和审核流程,提高输出的有效性。学校以8字形质量改进螺旋运行机制为引导,对学校指标层面(学校、专业、课程、师资、学生)和维度(学校、二级学院、部门、专业、课程、班级、教师、学生等)建立指标库。先将数据从教务系统、一卡通系统、学工系统等业务数据原始仓库中抽取、转换,加载到全量数据中台,对数据的一系列预处理(包括数据脱敏、清洗、数据校验、删除/增加数据项、合并数据等)后,设定指标,添加数据标签。作为之后教学评估、课程推荐等各类场景建模的基础,辅助完成形象刻画、精准推荐等分析及决策使用。

3.2.3  模型库

集成scikit-learn、Spark MLlib等机器学习和深度学习框架,封装成统一接口,建立带有预训练权重的深度神经网络模型进行模型演练。建立精准推荐模型库,能够收集学生在E学堂浏览课程资源、借阅图书记录、学生专业学业需求(比如课前预习,课中测试,课后辅导),分析学生特征动态,在登陆、浏览或查找教务系统、图书系统及学习中心时,推荐合适教辅书籍和课程资料给学生。后期学校继续对学生成绩、行为轨迹、上网状况等建立相应的模型库,充分挖掘学生群体行为,识别学生发展重要阶段及知识需求。

3.2.4  主题库

完成历史数据清理与积累入库,建立学校主题数据仓库,通过数据挖掘、大数据分析等技术,跨业务部门,关联多个数据源,按照特定目的进行数据的筛选、拆分与组合,获取更有价值的分析结果。比如,通过一卡通消费、教务、上网日志、图书、宿舍通道等数据,构建学生个人画像、精准扶贫等多种主题数据库,提升学生管理工作水平。

3.3  交换共享与开放体系

目前高校的数据工作主要是结构化业务数据,但结合当前、未来分析以及应用的需求来看,仅仅有结果性的业务数据无法完全满足的。比如构建学生画像时,就需要用到海量日志数据;对与学校相关的舆论进行分析的时候,又需要从互联网上爬取相关的贴吧、微博、论坛等互联网数据。这几类数据也是属于学校的全量数据资产体系,因此需要交换共享平台在底层对结构化和非结构化数据都具有处理能力。同时,针对上层所有的數据需求,提供统一的数据开放平台,不仅能够实现数据治理成果的复用,也能够实现对于底层技术细节的屏蔽,从而让高校“智慧校园”生态中的用户群体都能够便捷地获取到各类数据服务,提升高校信息化建设的效率。

3.4  数据质量平台

数据的有效性至关重要,以“一数一源”为准则,明确数据质量责任。在业务数据进行采集时,从技术上对数据前置库进行相应的安全检核,对即将进入目标库的数据进行校验标记,对不符合安全检核的数据进行警告设置,支持短信、微信和邮件等手段推送预警信息,全面把控数据质量。同时,形成直观的图形化数据质量报告,展示全校或者某个业务系统的数据质量情况。

3.5  决策分析应用

经过多年信息应用系统建设,无锡商业职业技术学院从各类应用系统中提取数据进行管理,整合,分析和利用,发现潜在问题和有价值的规则,并直观地展示出来,不仅可以为校园师生提供便捷、高效、精准的个性化引导和服务,而且能为学校开展精准化、智能化师生服务提供数据支撑。

3.5.1  数据“一表通”

“一表通”如图5所示,面向教师、学生提供统一收集数据入口。针对各个业务系统存在重复填报的问题,通过一次填报,反向推送数据到其他业务系统。辅助师生准确而高效地完成学校各类报表的填写和上报工作。

3.5.2  内部质量保证信息化平台

内部质量保证信息化平台如图6所示,基于学校领导、分管领导需求,站在宏观管理的角度,将主要业务问题和宏观关键指标直观实时展现出来。结合人才培养质量保证体系建设,建立以“学科”为中心的资源库、共享库,对学科数据进行统一管理、自查、评估、对标分析、资源调配。深入研究分析教学过程数据,生成教学质量报告,对学生实行差异化教学,满足学生个性化发展。

3.5.3  校本主题数据中心

校本主题数据中心如图7所示,提供优秀的个性化服务。整合学生在学习通系统、教务系统、一卡通系统、上网日志、图书系统、宿舍通道等多个数据源,与学生个人基本信息进行绑定,在此基础上,从不同维度刻画学生形象,分析学生在校行为特征,不仅便于精准定位异常人群,而且以“大数据+画像技术”服务于个体精细化管理。

4  高校数据生态的思考

4.1  完善制度管理及保障体系

为全校师生提供安全可靠、完整统一的数据信息,将制定更全面的数据管理办法。从数据分类、数据维护、数据存储、数据使用与服务、数据安全等各个方面,建立有效的信息系统数据共建、共享体系。建立“谁产生、谁维护、谁负责”的数据质量监督评价机制,业务部门承担管理数据质量把关责任,确保源头数据真实、准确、完整、及时,提高数据质量和利用效率。组建领导机构,加大统筹规划、制定政策、资金投入等各方面的力度,引进各类型的大数据技术和软件,开展校企合作共同研究与探索模式,更深一步地发挥数据的作用和功能。

4.2  加强技术培训及安全管理

通过培训工作的开展,强化每一位技术人员在信息化方面的能力,尤其是建设数据人才队伍的梯队,打造专业、灵活的数据分析团队,找到校本数据研究分析成果的新视角,为教学和学生服务提供策略指导。

随着数据进一步的挖掘,越来越多敏感数据、核心数据也会呈现出来,为保证数据的安全性,规范性,要求每一位数据管理者要增强安全管理意识,提高数据安全防范能力,分角色,分用户地赋予不同权限,提供相应的数据服务。

4.3  拓展数据服务及模型

通过数据挖掘、大数据分析等技术,不仅多维度地对学校、学院、专业、教师、学生、课程等刻画“用户画像”,而且对于教学活动、业务流程和技术技能积累也要进行过程画像。集中有效地管理各类数据资源,提升数据质量,为高职教育教学诊断诊改建设提供数据支撑。针对不同主题建立更多模型,比如网络数据分析模型、学生安全预警模型、教学活跃度转化模型等,以数据为原料,给出分析结论、预测结果等,发挥数据在学生服务、行为干预上的价值。

4.4  支持多终端来源及显示

数据采集时能够对结构化、非结构化数据一网打尽,数据治理时能够具有更强大的计算能力、智能化处理能力、预测能力。打破传统业务系统边界,推进业务系统微服务,以移动端为载体,构建一个健康、开放、可持续的移动校园数据新生态。

5  结  论

“智慧校园”的成败关键在于数据,本论文着重研究高校数据中心生态构建的架构,运用扎实的数据治理过程,形成涵盖指标库、模型库、主题库的全量数据中心,充分地体现数据价值,发挥数据在办学治校中重要参考决策作用,推动学校治理的“精准化”“科学化”。

参考文献:

[1] 人民出版社.国家中长期教育改革和发展规划纲要(2010—2020年) [M].北京:人民出版社,2010.

[2] 中华人民共和国教育部.教育部关于印发《教育信息化2.0行动计划》的通知 [R/OL].(2018-04-13).http://www.moe.gov.cn/srcsite/A16/s3342/201804/t20180425_334188.html.

[3] 彭雪涛.美国高校数据治理及其借鉴 [J].电化教育研究,2017,38(6):76-81.

[4] 许晓东,王锦华,卞良,等.高等教育的数据治理研究 [J].高等工程教育研究,2015(5):25-30.

[5] 余鹏,李艳.大数据视域下高校数据治理方案研究 [J].现代教育技术,2018,28(6):60-66.

[6] 董晓辉,郑小斌,彭义平.高校教育大数据治理的框架设计与实施 [J].中国电化教育,2019(8):63-71.

[7] 孙秋瑞,陈平,黄洛颖,等.高校校务管理数据共享服务平台建设路径研究 [J].中国电化教育,2016(3):69-74.

[8] 郑苑,梁振辉.教育信息化背景下高校数据治理研究 [J].中国教育信息化,2020(17):50-54.

作者簡介:李引(1987—),女,汉族,安徽砀山人,系统建设科科长,实验师,硕士,研究方向:信息化建设;陈敏锋(1977—),男,汉族,江苏无锡人,副处长,高级工程师,硕士,研究方向:计算机软件设计、系统开发。

猜你喜欢

数据治理
云端数据治理定义解析
智慧服务型数字化校园建设参考实现框架
营配贯通台区线损异常数据治理分析
高校信息化数据治理探讨
智慧城市建设项目风险挑战与解决经验
高校数据融合路径及其治理框架的探讨
基于本体的企业运营数据治理
云端数据治理初探
大数据治理模型与治理成熟度评估研究
大数据时代城市治理:数据异化与数据治理