基于智慧校园的高校数据治理体系研究
2023-06-10王艳武冯新培
王艳武 冯新培
关键词:智慧校园;数据治理;平台设计
中图分类号:TP311 文献标识码:A
文章编号:1009-3044(2023)12-0071-03
1 业务信息系统之间存在的问题
1) 业务信息相互独立问题
西安欧亚学院经过多年的信息化建设,基于各业务部门的具体需求,从业务局部出发,构建了大量的信息化应用平台,用以解决部门当前问题。但各业务系统独立建设与维护,缺乏信息沟通与对接。由于建设之初缺少技术及功能的长期规划,没有统一的管理维护平台,导致各业务信息相互独立,甚至出现系统功能的重复建设问题,造成了严重的资源浪费[1]。
2) 数据中心库问题
西安欧亚学院还未建成统一的数据中心库和资源池,没有开始着手整合和集成各业务系统的各类数据,同时还存在着缺乏统一的数据集成、共享交换平台和数据治理手段。随着学校信息化发展和业务的不断深入,如何保障学校数据的集中管控和按需共享,保障各类数据的准确性和一致性,都是信息网络中心现在面临的主要问题。
3) 数据治理和价值挖掘问题
在办学过程中西安欧亚学院各部门原始数据逐年累积,这些数据需要按照不同的主题进行归类收集与整理。高校需构建数据中心仓库系统,加强对各业务数据的分析与利用,建设关于“人”“财”“物”“行为”四个维度的主题库,基于四类主题库获取例如教学大数据、教学诊断与改进评估、学生管理、学生行为分析、教学评估、就业评估等方向的专业数据分析,从而构建学校技术架构革新以及数据价值深度挖掘[2]。
4) 数据与业务强耦合问题
西安欧亚学院已建的业务系统功能虽然丰富,但随着学校的发展,师生个性化需求不断增加,由于数据和业务强耦合,学校容易被业务系统开发厂家绑架,业务创新耗时耗力,甚至需要半年乃至一年的研发时间,效率低下,阻碍了学校信息化的发展。
2 智慧校园数据中台及数据治理体系设计
智慧校园数据中台及数据治理体系平台总体框架如图1所示,主要分为三部分建设内容:第一部分为校园数据治理体系的建设,主要包括:数据集成平台、数据治理平台、数据开发平台、数据标准建设及管理服务、“人、财、物、行为”四大主题库的建设。第二部分为校园数据共享开发体系建设,主要包括:数据交换平台、基础大数据平台、数据共享与开放平台、数据资源目录管理系统以及数据中心库建设和数据目录梳理服务等内容。第三部分为应用体系建设,包括:智能BI统一报表分析平台、校园微应用服务大平台等内容。
学校以数据集成/共享交换及数据中心库为基础,依托于大数据平台和数据治理体系的建设,将实现学校结构化和非结构化数据的标准化、统一归集和管理,消除架构零散、数据缺失、孤岛壁垒等诸多信息化建设问题,有效支撑学校教育资源公共服务体系、微应用服务体系、教育教学科研服务体系的构建,实现学校全量数据的归集,同时对数据资源目录进行统一的安全管控,对数据进行准确的类型、权属关系和保护级别的划分,为今后各部门、信息化应用提供按需匹配的数据服务[3]。
1) 建成开放共享的数据资源利用体系。依托学校数据共享与开放平台和数据交换工具,建成全校统一的教育数据资源共享开放目录,制定相对完备的共享开放工作机制,形成完善的教育数据资源池。
2) 建成高效互通的数据管理和数据治理体系。通过对全校各业务系统、各职能部门的数据汇聚,建设统一的全域数据管理资源池,实现各业务系统、部门数据融合、互通,在统一数据标准、统一存储标准、统一治理标准、统一服务标准对外提供高效的数据服务和数据应用。
3) 数据服务一体化,实现数据多跑路,师生少跑路。通过数据治理平台和大数据平台完成数据质量建设,建立数据服务闭环,完成对一项业务数据从采集、填报、管理到分析的全过程,形成完整的工具化支持闭环,全程完全配置化实现,无须程序员参与,零代码开发。支持以主动任务式下发的数据填报,支持互联网式的数据分享,支持面向业务管理人员的自主可配置的简单数据分析[4]。
3 数据治理平台设计
数据治理平台是数据集成和管理的一站式平台,包括资产目录管理、数据源管理、可视化建表、数据查看、全局的元数据管理,实现数据的资产化,同时实现数据资产的集中管理、生产保障、分类检索,为数据管理者和使用者理解数据、增强共享和使用数据的信心提供帮助。
提供数据标准和数据质量管理机制,提升数据资产的价值;提供数据安全管理机制,监控被管理数据所有相关的活动,防止数据泄露,保障数据被合适的人以正确的方式使用;提供工作流机制,使得大部分日常的数据管理和监控工作都可以自动执行。同时,可以在数据治理运营平台中调度和执行数据加工和数据挖掘任务。提供平台管理功能,准确地监控全局和部门数据计算、存储的使用情况,便于扩容规划和成本控制。
数据治理包括:数据标准管理、数据质量、生命周期管理、元数据管理、数据血缘。数据治理平台架构设计如图2所示。
1) 前端应用层:用于展示给用户的应用,主要包括质量管理、数据模型、数据集成、数据标准、各类数据指标管理、数据地图等。
2) SDK与集成桥接系统:与外部系统之间的元数据交互和通信的模块。
3) 接口层:负责与外部之间数据交互的统一的接口定义,支持Restful接口。
4) 功能层:用于支撑各类应用功能的后台服务,主要有元模型管理、元数据管理、任务调度、租户管理、权限管理、行为日志、引擎管理、規则管理等。
5) 逻辑层:用于支撑各类基础功能的基础逻辑数据模型和数据库,包括数据字典、血缘和关系基础数据、术语和类目数据、数据特征和指标数据、用户行为信息、数据质量信息等。
6) 存储层:用于永久存储平台各类数据的软件系统,包括MySQL 数据库、搜索引擎和NoSQL 数据库等。
7) 引擎层:用于进行数据处理和加工的后台系统,包括ODPS、Spark等。
4 数据开发平台设计
数据开发平台提供一站式的多人集成开发环境,满足大数据环境下的数据查询、数据开发、数据挖掘、算法开发等需求,同时可用于构建PB级别的数据仓库,实现超大规模数据集成,对数据进行资产化管理,通过对数据价值的深度挖掘实现业务的数据化运营[5]。通过可视化的开发界面,降低了大数据开发的门槛,使大数据开发变得更加便捷、易用,实现大数据的价值化,有效降低开发成本并保障数据安全。数据开发平台架构如图3所示。
1) 应用层:提供系统配置管理、工作空间管理、空间内的基于工作流的作业开发以及运维大盘监控的功能。
2) 运行层:在工作空间内提供工作流的周期调度、补充数据以及重跑能力。
3) 业务层:提供丰富的业务节点,包括SparkSQL、ETL、Shell、Machine Learning、AppLauncher、Phoenix?SQL、AdbSQL以及TableConnector节点。通过这些节点组成的工作流能覆盖大数据开发的绝大多数业务场景。
4) 引擎层:数据开发平台基于引擎层提供数据集成和计算能力,包括数据集成引擎、计算引擎、分析引擎ADB。
5) 数据层:数据开发平台基于MySQL实现业务数据存储,基于大数据平台提供的Hive、HBase和HDFS分别存储数据表和资源文件。
6) 用户中心:提供用户认证和管理能力。
5 平台建设要求
1) 全数据链闭环。平台具备统一的底层数据体系,数据应完全打通,平台不同模块和功能间应共享相同的数据信息,必要时子平台或子模块间可互相调用功能;平台内不同模块(如数据交换、数据治理、数据采集、数据呈现等)应共用相同的信息和元信息,实现信息和元信息的统一配置,实现“一次配置,全平台使用”,即在平台的某模块中配置一次即可在其他模块中使用,避免多处配置导致的不一致性。
2) 数据集成共享。平台数据集成过程支持Linux、Unix、Windows 等操作系统平台,能满足不同数据源、不同数据格式,不同管理逻辑下的数据交换需求,支持数据在全量数据管理平台和校内各业务系统间的双向传递,实现对各类系统业务数据的实时共享。
3) 系统可集成性。平台支持开放的ETL 代码生成器,提供丰富的接口程序,支持异构数据源的共享和交换,支持与主流关系型数据库(包括但不限于Oracle、Sybase、DB2、SQL Server、MySQL 等)、消息中间件、Web Service、Tabled-Txt 文件、XML 文件、Excel文件、DBF 文件、Word 文件等进行对接,满足不同数据源的交换需求。
4) 支持多数据采集。支持校内业务基本信息数据、既有业务系统、校内数据文件实现结构化数据采集;能够提供针对表格数据的结构化采集、办公文档(PDF、Word 等)数据采集、图片信息采集等功能,支持文件在线浏览模式。
5) 数据呈现丰富。平台支持分析指标、主题、UI效果等数据呈现界面的自定义组合和定制功能,支持界面拖拽生成方式,界面展现形式动态美观,种类丰富,可通过饼形图、柱状图、折线图、仪表盘、雷达图、气泡图、面积图、词云、瀑布图、漏斗图等多种图表形式进行形象直观地展现,具有较强的动画效果。
6) 建设过程规范。平台的信息定义、采集策略、接口协议、传输协议等应符合相关国家标准、行业标准和技术規范;平台本身支持构建信息标准模型,避免直接操作数据库等不规范操作。
7) 标准设计科学。平台信息标准建设遵循国家、教育部、学校、自主定义标准,能够建立适合学校实际需求的信息标准,支持数据标准维护流程和制度建设,提供数据标准管理功能,保证标准变迁与历史数据的兼容。
8) 移动端自适应。平台生成的数据可视化页面须支持HTML5 规范,支持集成到学校智慧校园App和微信中;平台功能应根据数据管理和呈现需要,提供移动端访问手段,支持自动化自适应展示。
6 数据治理平台设计原则
1) 数据汇聚统筹规划,稳步实施
按照整体统筹的建设思路,做好项目框架与架构设计,夯实平台基础,突出应用亮点,坚持整体规划,分步实施的建设原则,明确责任分工,分步骤、分阶段稳步推进。
2) 技术先进,适度超前
借鉴国内先进院校的建设经验,在设计思想、系统架构、技术路线等方面具有先进性、前瞻性,借助领先的互联网技术确保应用系统架构满足未来业务发展需求。
3) 接口开放,扩展便利
充分考虑未来发展,平台架构应该采用层次化、组件化设计,既要充分考虑与现有系统的对接,同时又具有性能及功能的线性扩展能力,满足数据量不断增长的可持续处理需求。平台应具备良好的开放性,提供开放接口便于和第三方系统对接或者基于该接口构建新的业务,成为业务与服务创新的重要引擎。
4) 安全可靠,运行稳定
按照数据安全要求做好主题库的安全保障。依托云安全保障体系,重点考虑数据安全、访问控制、权限管理、数据安全监控等防范措施,确保实现安全可控;充分考虑信息系统的高可用性,在性能、容错、应急、负载等多方面予以考虑,保证系统的高可用性、良好的维护性,方便今后的扩展应用和运行维护。
5) 数据融合,共享服务
以数据资源整合为基础,以数据共享开放为重点,以分析应用服务为核心,以体制机制创新为保障,统一标准、统筹建设、拓展应用,创新工作机制,打破信息孤岛,实现“横向到边,纵向到底”全方位立体化的数据资源的共享服务。
7 结束语
文章基于智慧校园建设,通过汇聚高校各方面数据,梳理各种分析指标,建立具有管理和业务专业性的分析模型及相关算法,实现符合学校需求、有价值的辅助决策分析。文章运用综合数据分析技术,计算各类指标及数据运行情况,并通过丰富的图表界面展示相关数据、指标以及变化趋势,从而为高校教学管理及领导决策,提供数据支持,提高办事效率,满足师生需求。