基于元数据驱动的数据治理与应用研究
2024-06-01沈爱涛
沈爱涛
摘要:文章以江苏农牧科技职业学院数据治理项目建设为例,介绍了基于元数据驱动的数据质量检测与基于API技术的数据交换在智慧校园数据治理项目中的应用,再结合学院实际运行情况对一些常见问题进行了阐述。
关键词:元数据;数据治理;数据交换;API
中图分类号:TP3 文献标识码:A
文章编号:1009-3044(2024)10-0084-04
1 研究背景
随着大数据时代的来临及全国各校数字化校园项目的开展,云计算、大数据、AI等新兴技术的普及推广,高校信息中心也在思考,数字化校园建设的理念也逐渐从面向管理转为面向服务。高校拥有海量数据已逐渐成为现实,大数据的挖掘和使用必将给高校治理与发展带来巨大动力变革。提升数据质量,完善数据规划,建立数据使用规范,健全数据维护和服务流程,确保数据的准确,从而发挥数据的精准预测、决策支持作用,已成为当前高校信息化建设的重要发展方向。
近年来,江苏农牧科技职业学院的信息化建设获得了学院领导高度重视,成立了信息化建设领导小组,配备信息化建设专项经费。学院网络硬件设备、网络安全设备全面升级换代,强大的信息化基础设施建设,全面提升了学院网络运算和连接能力,各类业务系统全面升级扩展,全院信息服务能力和师生信息化应用水平大幅提升;全力建设教育教学一体化平台,鼓励引导教师使用教育教学一体化平台,不断完善教育教学资源,线上教学服务能力得到了很大的提升;网络服务环境不断改善,安全防范能力明显加强。学院这几年在教学、科研、管理和服务工作中信息化水平得到了显著提升用。通过双高示范校的建设,学院已建成近30个功能相对独立的部门级应用系统,信息中心牵头建设了“网上办事大厅”,为各部门配套建设了100多个碎片化应用,业务系统和办事大厅的使用方便了师生的业务办理,提升了学院的信息化水平,同时也累积了大量的数据,形成学院的数据资产,如师生消费数据、考勤数据、教学过程数据、社团活动数据、科研资产数据等,这些数据都是供学院提升教学质量的最为重要的数据,由于这些数据来自多个业务系统,权责不清,还有部分数据有多个源头,导致数据的混乱和错误,信息中心在进行数据统计分析展示前,都需要对这些数据进行大量的校对和整理工作,严重影响了信息中心业务人员的工作效率,也未能让数据成为领导的决策支持。为了更好地让这些数据发挥它的价值,信息中心需要根据数据标准对数据进行清洗,确保数据质量。
本研究主要解决数据质量问题,围绕学院的业务系统,通过数据的治理解决数据质量问题、标准问题等,以达到数据的互联互通的目的,在形成了数据资产的条件下对数据的进一步开放进行相关能力的建设。通过对业务系统数据质量的检测扫描,得出相应的数据质量检测报告,依據系统划分,可以让决策者直观感受目前业务系统数据质量问题,然后通过数据治理减少相关质量问题,以此为推进各部门各业务系统数据质量提升的动力。在学院层面数据治理过程中,着重检测数据治理前后数据质量的变化,将数据质量提升以报告形式呈现。在数据治理过程中构建学院的院本大数据中心,实现学院的数据资产管理私有化和可视化,积累全院各业务过程中面向主题的、集成的、稳定的大量生产数据集合,进而实现对全院所有业务系统的结构化数据和非结构化数据以及历史数据进行深度挖掘,规范管理与使用,通过办事大厅对缺项数据提供标准的采集入口。通过报表工具制作数据大屏,将学院数据中心的数据以图形的方式展示,从宏观到明细,为领导决策提供实时的、准确的、动态的、多维度的、可管理的分析服务能力。通过大数据服务项目建设,切实解决各业务部门在工作中遇到的实际问题,满足学院多样的、个性化的、快速迭代的数据管理与数据使用的需求。
2 基于元数据驱动的数据质量检测与治理
随着数字化加速,学院智慧校园建设的不断推进,数据量呈指数增长,大数据相关技术的出现,在看到了新机遇的同时,对数据治理的需求也在增加,由于学院数据分散、质量参差不齐、数据存储结构差异大,虽然数据中蕴含大量有价值的信息,但想要挖掘使用,往往需要做大量的数据治理工作,数据治理涉及部门多,工作量大,协调沟通存在一定的难度。同时学院缺乏顶层设计的业务域标准,未覆盖全院业务数据及分析标准数据,无法支撑高基表分析、高职诊改、校情分析等数据应用。同时信息标准缺少数据规则方面的属性,无法有效地通过现有的信息标准来检查学院数据的质量情况。
2.1 统一标准,梳理数据全域模型
在高校数据建设解决方案中,针对统一标准问题,提供基于信息标准全生命周期的管理方案,在元数据层面,支持全院业务系统元数据的统一管理,学院管理人员可通过元数据管理工具自己增加、修改元数据标准,并自动同步全量数据模型。也可以通过元数据管理工具比对元数据与全量数据的差异,再对差异进行处理。保证元数据与全量数据库的一致性。
同时,主数据管理平台的信息标准管理方案中提供一个自动化代码对标工具代码标准比对。系统会自动检测业务系统的代码标准执行情况,并提供代码标准执行情况中与业务系统出现偏差的具体情况报告。帮助学院管理人员对信息标准的执行情况进行有效的监控,及时了解并优化代码标准或业务系统代码执行情况。大大地减少了校内管理人员在信息标准维护与管理层面的工作负担,而且让信息标准真正的可执行、可监管、可迭代,让江苏农牧科技职业学院的信息标准不在虚设。
通过建立全域模型[1],可以全面了解数据的整体情况,包括数据的来源、数据的流动路径、数据的处理过程、数据的质量等。这样就能够更加深入地理解数据,进而更好地进行数据治理和数据应用。为后续数据集成打造基础,同时也为新业务系统的集成提供良好的基础。通过信息标准管理平台,对信息标准的版本变更加强管理,形成版本建设以来的历史变更轨迹,可以方便地查看历届版本信息,核对版本差异,管理中心对版本进行变更后,可以方便地查看变更信息。
2.2 元数据提供统一定义
元数据提供统一定义的方法通常采用元数据建模的方式,通过建立元数据模型来描述数据的属性、关系和结构,以及数据的来源、用途和安全性等方面的信息。提高数据管理效率,通过统一定义数据资产的元数据,可以避免数据孤岛现象,提高数据的可访问性和可管理性,从而提高数据管理效率。同时也促进数据共享和交换,元数据定义了数据的属性和关系,使得不同系统和应用程序之间可以更容易地共享和交换数据,从而促进数据共享和交换。元数据可以帮助我们更好地理解和利用数据,从而提高数据质量和可靠性。例如,通过元数据定义数据来源和历史记录,可以更好地追溯数据来源,避免数据重复和不一致的情况。元数据管理可以帮助我们更好地管理数据资产,从而降低数据治理成本,并提高数据治理的效率和效果。
元数据提供统一定义的方法可以帮助我们更好地理解和利用数据,从而提高数据管理效率、促进数据共享和交换、提高数据质量和可靠性,降低数据治理成本。元数据通过其强大的解析器将全院所有资源统一定义、统一管理,实现数据资产的有力传承,同时元数据通过数据关联将数据应用的蜘蛛网解开,数据的定位变得异常简单,数据的梳理同样,数据从哪来到哪去更加简单明了。血统分析是基于元数据定义的衍生分析功能,比如教师信息统计或全院信息统计,那么通过血统分析我们可以进行数据的回溯,从仓库事实表到历史库到全局库到前置库再到人事系统的教职工信息表,简明易懂。影响分析由从生产开始,即通过该分析可以知道假如人事系统的教职工信息更改了,哪些系统或分析受到影响。
2.3 源头监控,提升数据质量
权威数据源对学院信息化建设的长期发展有着至关重要的作用[2],同时需要站在全院的层面去进行统一的规划与管理,在本次数据治理建设过程中提供了在线化的数据流向规划管理,为学院站在全局管控的视角,对校内的代码标准流向、全量數据流向的规划提供图形化、配置化的管理工具,为后期业务系统集成和建设提供指导。使得“谁产生、谁维护”的原则落到实处,避免造成重复建设,重复维护,数据权责的混乱,导致数据冗余,让信息中心在信息化建设中始终保持清晰思路,为规范新业务系统建设,实施现有业务系统集成形成“指挥中心”。
学院是一个小社会,对应着这个小社会的每个节点都会有相应的业务系统来协助各个部门、单位来维持其正常的生产、生活的运行。每个节点都会产生自己的数据,这些数据被生产着、使用着,前面提到我们会建立大而全的信息标准,并且会遵循这些标准建设相应的全局数据库。同时全局库以后也会建设相应的历史数据库再到数据仓库。数据在产生,数据在流通,环节很多,那么所有的这些环节的数据流通就需要我们对其进行监控,所有流程的运行状况、流程的运行日志、流程的动态监控都需要进行控制。根据学院数据标准定期对源头业务系统进行扫描,检测源头数据是否规范完整,并生成数据质量报告,提供给业务系统主管部门进一步完善数据,以此来提升数据源头的数据质量。
2.4 离线数据按数据标准规范采集
离线数据按数据标准规范采集是数据治理中非常重要的一环[3],它可以确保数据的一致性、可比性和互操作性,提高数据的质量和可用性,促进数据的创新和发展。数据采集前需进行需求分析,明确需要采集的数据类型、数据格式、数据来源等信息,确保数据采集的准确性和全面性。数据采集过程中需遵守数据标准规范,确保数据采集的一致性和可比性。例如,数据格式需符合数据标准规范,数据命名需符合数据命名规范,数据质量需符合数据质量规范等。同时还需考虑数据的安全性和隐私保护,确保数据的保密性和完整性。例如,数据采集过程中需进行数据加密、数据脱敏等操作,确保数据不被泄露或篡改。数据采集后需进行数据清洗和处理,确保数据的准确性和一致性。例如,对采集的数据进行去重、格式转换、数据归一化等操作,确保数据的质量和可用性。数据采集过程中需记录数据采集的过程和结果,包括数据采集的时间、采集的数据类型、采集的数据量等信息,以便后续数据分析和管理。
全量数据管理要提供基于无源头无系统的线下手工数据的导入、导出功能,同时平台提供基于数据库表的在线维护功能,实现线下数据的初始化和日常维护。方便业务部分系统还不完善或还未建设时,可以提前把整理好Excel等线下数据导入全量数据库,便于别的业务系统使用。同时,对于线下需要使用全量数据,可以通过导出功能导出数据,便于线下使用。这些离线数据采集必须规则控制符合数据标准的数据方可导入系统,拒绝不规范数据进数据中心。
2.5 源头业务系统数据质量检测
源头业务系统数据在做抽取前,先根据数据中心数据标准进行数据质量检测,检测出的数据质量问题生成报告即时反馈到业务部门进行处理。业务系统处理完成后进行复检,直到数据质量达标方可进行数据集成,数据质量治理是项长期的过程,需要源头业务部门的配合,信息中心管理人员通过不断优化图形化质量检测维度、检测规则,并最终可形成完整的方便业务修正数据的高质量的数据质量报告给业务部门,让质量检测变得清晰、简单,同时也让数据治理得以落地执行。数据质量管理工具能够监控并提高数据质量的信息化工具,满足多种常规化数据治理规则,且具备可插拔式数据质量介入治理,满足零代码个性化治理需求,扩展治理范围,实现数据质量监测功能。通过元数据、数据标准引用和业务系统数据使用要求,为数据治理管理员提供可随着数据治理范围的扩大,自主定义检测规则,然后对全量数据进行检测。包括但不限于以下几种:重复数据、空值、日期格式、全角半角、长度不符合规范等。
3 基于Web 页面的数据交换接口管理
参照全量信息标准建立学院主数据库,通过API/ETL/ODI/DTS等数据交换工具从学院人事系统、教务系统、教育教学一体化平台、智慧财务、资产系统、学生管理平台、OA办公系统、办事大厅等业务系统抽取、清洗、导入业务数据到主数据的全局库,并基于数据库开发常用基础数据的标准API接口,如学院组织架构、教职工基本信息、学生基本信息等,从而构建出一个可视管理的基于API接口的数据交换平台,为用户提供数据申请、数据使用、数据加密、数据监控等一站式数据共享服务。接口调用与使用监控,如图1 所示。
3.1 基于 Web 页面拖拽的数据集成
基于 Web 页面拖拽的数据集成平台,并能够与数据治理平台的信息标准、元数据无缝对接,集成界面可以根据元数据设置显示中文语义描述,大大降低了数据集成工作的技术壁垒。支持各类常用大数据、关系型数据、API接口数据、文本数据、消息数据、非结构化数据的在线数据集成、交换。所有数据集成接口的开发定制均在Web端通过拖拽实现,支持复杂的数据集成流程编排,无需编码。通过统一浏览器访问提供数据线上集成服务,使用人员无需在本地安装任何插件或客户端。充分考虑学院数据的特性,支持数据复制建表,支持批量生成接口,支持元数据信息、数据模型、数据资源、数据血缘、数据集成过程日志双向同步,支持批量生成数据接口,支持人工智能自动构建数据字段映射等,大大降低了数据交换时间和运维成本,自动记录所有集成过程和数据操作。接口配置与管理,如图2所示。
3.2 可视化的API 接口运行管理与监控
接口管理的核心是将数据库中的数据以数据API 集市的形式统一管理、统一发布,自助式、自动化地为学院信息化建设提供松耦合数据服务[4]。系统支持数据管理员在平台上对接学院数据中心、业务系统库,将不同类别数据源以统一的API接口方式对外开放使用,统一管理API分类和数据集市的内容,数据管理员发布的接口类型包含但不限WSDL、REST、文本文件、应用分析类等类型。统一数据开放管理平台可以为学院业务部门提供各类场景的数据资源开放与共享,根据数据使用规范[5],数据API接口服务需要遵循“申请→审核→发布→使用→监控”流程,使数据使用规范化、流程化,便捷化,从而提升数据服务质量和降低部门使用数据的难度。平台将数据按照数据集市的方式进行组织,并封装为API接口,为学院提供各类业务、主题相关数据API接口,利用并行计算能力帮助应用层完成计算密集型任务,计算模型可供多个应用共享,降低数据利用的技术门槛。包括数据分析API、业务模型API、数据上报API、计算模型API、质量检测API、主题分析API等,为应用开发提供统一、标准的数据支持。面向有数据查询需求的相关人员(老师、学生、院系信息化秘书、临时数据需求人员等角色)提供数据在线查询、申请、审核、监控服务,面向数据开发需求人员(第三方厂商、业务部门管理人员、各类校内IT系统开发群体)提供开放的数据集市,同时支持服务开发者在线按需、自助申请各类数据API 接口,以支撑各自信息化建设需求,同时平台会面向数据管理者、部门数据管理员(信息化管理员、各部门数据审核人员)提供数据API接口的全方位审核、监控、管理服务,最终以数据服务大厅作为窗口,为不同角色的人员提供精准的、便捷的数据服务(服务内容包括多种类型的数据API、各类数据应用API和统一数据开发所提供的能力API) ,实现数据开放与共享服务自动化对接。
4 结束语
通过项目实施前后数据质量对比,元数据驱动下的数据治理在江苏农牧科技职业学院取得了不错的效果。实现了数据应用对主数据管理平台和业务系统数据质量的反馈、全数据应用闭环,即实现数据采集、数据交换、数据治理、数据服务、数据应用的數据联动,实现通过数据采集、数据交换实现信息产生和共享,数据治理提升数据质量,高质量数据支撑数据应用,数据应用反馈数据质量问题并通过数据采集和交换修正数据问题,提升数据质量,从而形成数据产生、数据质量和数据应用的数据生态闭环。让数据治理不再单独局限于技术人员使用,而是让所有使用数据的人都能够参与数据治理过程,记录数据消费者所提交的数据质量问题,通过元数据和数据血缘直接反馈至数据产生源头,整个过程可记录,实现全民数据治理。数据源头的数据质量得到了明显的提升,整体提升了学院数据中心的数据质量,确保了各类数据分析为领导决策提供数据支撑。希望文章能够对正在从事智慧校园建设的同行提供一定的借鉴和参考。
参考文献:
[1] 张荃,陈晖,王海涛.智慧校园数据平台架构及数据治理系统设计[J].电信快报,2019(10):38-43.
[2] 王晓静.大数据技术在高职院校智慧校园数据中台建设中的应用[J].电子世界,2020(9):116-117.
[3] 陈刚.高粘度、超融合、轻便型智慧校园建设模式探讨[J].软件,2020,41(10):273-274,285.
[4] 叶青霖.大数据时代高校智慧校园的建设[J].中国多媒体与网络教学学报(上旬刊),2021(8):33-35.
[5] 王珂,王小军,郝喆,等.基于数据治理的智慧校园建设路径[J].信息技术与信息化,2021(9):127-130.
【通联编辑:朱宝贵】