APP下载

浅谈大数据治理与服务

2022-02-18刘运席隆岩

智库时代 2022年1期
关键词:数据服务数据管理数据安全

刘运席 隆岩

(山东省人民政府办公厅)

大数据像水、矿石、石油一样,正成为新的要素资源,以容量大、类型多、存取速度快、应用价值高为主要特征,具有可复制、可共享、无限增长和供给的禀赋,打破了传统要素有限供给对增长的制约,为持续增长和永续发展提供了基础和可能[1]。大数据是继云计算、物联网、移动互联网之后信息技术融合应用的新焦点,已逐步成为经济持续增长的新引擎,并快速驱动整个实体经济的数字化转型升级,成为创新驱动发展和建设现代化经济体系的新动力。2015年,《国务院关于印发促进大数据发展行动纲要的通知》从多方面阐述了大数据发展的重要性和对我国发展建设的意义[2]。“十四五”规划提出要构建全国一体化大数据中心,培育壮大大数据等新兴产业,并在政务服务、市场、经济治理、绿色发展、社会治安等多方面提到大数据的应用[3]。

大数据所涉及的资料量规模巨大到无法在一定时间内通过常规软件工具进行捕捉、管理、处理,并整理成为帮助经营决策的数据集合或资料,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产[4]。在实际中,高质量的大数据治理成果已成为政府、企业最核心的隐形财富,谁掌握了高质量的数据,谁就能获得先机[5]。2020年9月发布的《关于加快推进国有企业数字化转型工作的通知》中明确提到,建设基础数字技术平台(数据中台),构建数据治理体系,实现数据治理、数据采集、数据交换、数据融合、数据共享,加快推进产业数字化创新,全面推进数字产业化发展[6]。在学术研究中,大数据的治理与服务已经成为普遍关注的话题[7]。纵观近十年大数据相关的研究,学者使用最多的关键词为大数据、云计算、数据挖掘等,数据管理仅排在第25位[8-9]。

一、大数据治理存在的问题以及研究现状

随着当前信息化深入推进,数据呈几何式暴发增长,组织的数据治理能力不足逐步显现出来,成为困扰组织的重大问题之一,若缺乏对大数据有效得当的治理,那么很难正确整合开发数据资源,无法发挥其蕴含的巨大价值[10]。

一是数据沼泽或数据多头管理问题,缺少专门对数据管理进行监督和控制的组织。例如,有许多数据源,却不知道谁拥有数据,无法联系相应的负责人。不知道组织中已经存在哪些数据集,也很难找到有意义的、可信赖的数据,没有适当的流程来请求他们需要的数据,没有简单的方法在一个地方准确识别可信数据源,也不知道数据意味着什么或者应该如何使用数据。

二是组织多系统分散建设,没有统一、规范的数据标准和数据模型,尚未形成完整的数据治理体系,缺乏数据管理的流程和机制。各信息系统间的数据资源整合和共享能力不能满足组织发展的要求。例如,数据标准不统一、技术类型不统一等造成数据不一致、不规范等。由于数据元和数据编码不一致造成了代码数据混乱等问题。

三是缺乏统一的数据质量管理流程体系。缺少对数据质量的有效管理及考核,可能会导致在跨部门、跨领域数据集成与共享时数据质量难以保证,同时,数据质量管理工作能力有所欠缺。例如,缺少数据质量检查,存在大量的脏数据,影响了应用效果,缺少问题数据管控,发现问题数据后不能进行合理的处理等。

四是数据安全管理重视程度不够。由于缺乏对数据架构管理统一的要求,会造成在数据共享与应用过程中安全管理欠缺,数据提供方对于数据的共享安全存在的疑虑会降低在单位内数据共享的程度。例如,缺少流程审批机制,造成数据安全管控缺失,存在数据安全风险。缺少敏感数据的管控,造成敏感数据不安全的问题。

当前,国内对大数据治理的研究大多都基于宏观层面,实证性研究较少[11],也处在比较基础的阶段[12],理论与实践的结合度不高,尚缺乏系统深入的著作和成果。国外特别是G8国家比较重视数据治理研究,形成了许多研究成果,对数理治理提出了许多建设性的研究思路和方向,但在大数据治理与服务体系建设方面,也是在不断纠错与发展之中,有关数据治理的框架体系等仍是未来研究的重点[11]。

二、大数据治理的目标及路径

一个成功实施的大数据治理项目能够解决组织内或组织间的数据孤岛问题[13],满足多样化的数据采集、交换共享需求,提供易用的数据服务实现数据汇聚、按需流动与共享。基于组织业务规范,实现与数据服务深度融合。实现数据资源的归集,数据整合和数据治理实现数据资产化,通过面向各业务领域的深度融合实现数据的增值,通过数据交换与共享提供有价值的数据资产服务,通过数据平台加区块链技术,各环节上链保证数据资产增值过程可回溯、数据安全可信。

实施大数据治理项目建设需要制订大数据治理实施方案,全面梳理组织的信息系统数据,并进行现状分析。厘清大数据治理项目的工作范围是做好大数据治理项目的首要工作,一般包括项目实施的数据范围、组织用户范围和工作范围。通过对大数据管理(包括数据质量管理、数据标准管理、数据安全管理、共享开放、数据架构、数据全生命周期管理、保障机制)的现状和问题分析提出数据治理和服务的改进建议,明确下一步数据治理的发展方向。比如,建议全面建立数据管理组织机构,覆盖组织内各部门和信息化内部支持单位等;发布组织数据管理办法,明确数据管理目的、原则、要求,并形成各职能领域的管理规范及指南;组织建立数据权责体系,并以主题域为依托,以问题多发数据、重点指标相关数据、跨部门跨系统协同数据为重点,开展数据认责工作等。建立数据质量管理体系,实现数据质量需求、检查、分析、提升的数据质量闭环流程,以数仓进行试点落地,进一步推动源系统开展源端治理工作,从源头上提升数据质量,做到事前预防、事中控制,同时以数据应用为目标,从数据应用系统端同步开展数据质量的事后检查,实现从源端到应用端数据质量的全面提升等。建议建设组织数据标准体系,发布为企业级数据标准。针对组织机构等数据应用过程中面临的标准不统一等突出问题,推动统建系统全面落标,保证数据的一致性,为共享应用提供支撑。建立组织数据共享目录,制定数据共享流程,促进数据共享和交换,打破数据孤岛。梳理核心数据在业务部门、应用系统的分布关系,识别可信数据源。建立数据安全保护机制,制定数据访问授权流程,保证数据安全。建立数据全生命周期的管理流程和规范要求,确保在信息化全生命周期过程中,数据能够得到有效管理,并满足多样化的数据应用需求等。

三、一体化大数据平台的架构

通过统一有效的顶层架构设计,打通各大数据治理与服务间的数据关系,形成一体化的数据治理与服务体系(即一体化大数据平台)非常有必要,形成基于统一运行管理运维可视化界面,解决政府和企业面临的数据孤岛、数据管理、数据治理及数据安全的相关问题,提升组织的数据应用价值,增强竞争力(一体化数据治理与服务框架如图1所示)。

图1 一体化数据治理与服务框架图

一体化大数据平台通过数据实体管理、数据标准管理、质量管理、安全管理等数据治理组件实现包含数据标准、业务规则的业务规范管理,以业务规范为基础生成数据采集、交换、加工、融合、质量处理、脱敏、开放共享等数据服务,数据服务可以直接使用业务规范的数据标准与业务规则,促进了业务规范与数据服务的深度融合。

(一)一体化大数据平台的主要架构和功能

一体化大数据平台以规则为核心,统一了数据资源接口、服务接口、数据处理接口、元数据接口,将数据、计算、服务等作为插件插入到大数据平台,方便扩展和融合。基于统一工具快速生成服务模型(含交换、传输、整合、数据质量、共享等服务模型),方便基于模型的赋能,实现服务和算法松耦合、可重用,方便融合,无孤岛,提供数据治理和服务,方便数据资产全面管理,提升数据质量和安全管控。实现集中运维和安全管理,并能通过工具可视化管理。

一体化大数据平台在了解数据(数据盘点)方面,提供初始化数据的模板和工具,通过丰富业务属性、模板导入等迭代实现数据盘点,并通过平台数据管理模块完善数据架构、数据标准、数据质量、数据安全等相关信息。从平台中导出数据模型、数据分布、数据流向、数据质量、数据安全等数据现状明细及相关统计信息。以此达到降低数据盘点成本,提高了盘点效率的目的。

一体化大数据平台在治理数据(数据治理活动)方面,基于流程进行E2E数据管理,采用以业务规范为核心的自上向下和自下向上相结合的方式抓好基础数据的管理,从源头提升数据质量,通过数据治理生成数据标准、业务规则等业务规范,方便基于业务规范生成数据服务。提供数据资源目录、全景化视图、治理评估等指导信息系统设计、优化、建设、运维各阶段工作。

一体化大数据平台在利用数据(采集、交换、加工、共享)方面,根据数据流程清册,发现数据流转瓶颈,提升业务流转效率。利用数据治理的数据标准、业务规则生成数据采集、交换、加工、质量、脱敏、共享等数据服务工具,实现数据服务与业务规范的深度融合。实现了跨部门、跨区域的数据采集、交换与共享,解决数据孤岛、复杂情况下堵包丢数据问题,满足多样化的数据采集、交换共享需求,提供易用数据服务实现数据汇聚、按需流动与共享。

(二)一体化大数据平台的核心指向——实现数据资产化

一体化大数据平台实现组织数据的资产化处理,将数据进行业务化封装或者重构,以交换、共享、开放等方式提供面向业务的数据服务,支撑前后端业务快速创新,实现数据资产的增值,实现组织的数据集中、融合、共享及流转,实现数据业务化、数据资产化,保证数据的安全和质量,加快业务数据流转效率,提升数据价值。数据资产化很重要的就是要完善数据实体(人、财、物、事等),使其具有元数据、标准、模型、标签、质量、安全等属性,方便数据的管理和增值。数据资产服务化是数据服务基于大数据平台实现数据的业务化封装或者重构,以服务的方式给前后台业务系统、接入终端等提供安全可控的数据。以多种方式实现数据服务价值化,为区块链的落地提供了可能。

(三)一体化大数据平台内置技术模块

一体化大数据平台内置数据架构管理、数据来源管理、数据质量管理、数据安全管理等数据管理组件,建立统一的业务规范包含数据元、取值范围等数据标准,数据加工、质量处理、脱敏、交换共享等业务规则,以业务规范为基础生成数据采集、交换、加工、融合、质量处理、脱敏、开放共享等服务,通过可视化配置和智能化运维极大地降低了项目的运维风险和总体成本。

一体化大数据平台内置数据服务总线,对外开放门户,提供统一数据服务,接口接入规范,可对各信息系统的接口进行统一管理,在此基础上可实现各信息系统之间数据的有效整合,提供面向各信息系统的数据共享及共享流程管理,保障各信息系统与政府、企业、院所等之间数据互通、业务交互。

一体化大数据平台内置区块链引擎,通过可视化配置工具实现信息资源(部门、节点、数据库等)、服务(服务配置、服务共享、关键运行日志)、关键业务(库表数据、文件数据、接口数据)等的上链功能。主要包括数据上链、可信数据联邦、可信数据服务、可信数据交换共享、可信数据管理、可信数据质量管理、可信数据安全、可信数据生态等功能,保证数据交换、集成、融合、治理、利用等过程均在可信环境下进行,全过程公开透明。

四、结束语

总之,大数据治理工作是一把手工程,需要组织内各方的共同参与,共同做好数据治理的顶层设计、局部落地、数据管理持续迭代工作,需要在组织内成立专门的数据管理机构,统筹协调好各方资源,共同开展数据管理活动,推动大数据治理体系建设,提升数据管理能力。将数据管理活动落到一线信息系统内并嵌入到系统全生命周期,解决好数据治理过程中存在的数据质量问题,从源头提升数据资源质量,促使参与各方共同分享高质量数据治理成果,打造“共建、共治、共享”的数据治理新格局,构建一体化的大数据治理体系。从而提升组织的数据管理能力,实现数据资产增值,进一步挖掘和利用数据,全面推进组织的发展战略。

猜你喜欢

数据服务数据管理数据安全
大数据时代高校图书馆数据服务的困境及优化路径
地理空间大数据服务自然资源调查监测的方向分析
基于大数据管理的管道智慧检验系统的研发及应用
企业级BOM数据管理概要
定制化汽车制造的数据管理分析
我国5G数据安全保护供给不足,“四步”拉动产业发展
基于数据中台的数据服务建设规范研究
CTCS-2级报文数据管理需求分析和实现
云计算中基于用户隐私的数据安全保护方法
建立激励相容机制保护数据安全