APP下载

大 数 据 治 理 体 系

2018-07-05甘似禹车品觉杨天顺吴俊伟上海亿通国际股份有限公司上海00国信优易数据研究院北京0007上海仪电集团有限公司上海0000上海科学院上海00

计算机应用与软件 2018年6期
关键词:数据管理评估质量

甘似禹 车品觉 杨天顺 吴俊伟(上海亿通国际股份有限公司 上海 00)(国信优易数据研究院 北京 0007)(上海仪电(集团)有限公司 上海 0000)(上海科学院 上海 00)

0 引 言

随着移动互联、物联网和云计算等技术发展,全球数据体量急剧膨胀,数据的重要性和数据爆炸性增长带来的问题被广泛关注。伴随数据产生和采集的方式不同、数据来源于不同的组织实体、数据存储结构和访问模式差异、数据的更新和流通频繁等因素,数据的状态芜杂散乱,跨界融合大数据应用举步维艰。随着数据的深度分析和挖掘,我们日常行为、企业决策、政府宏观调控等对数据的依赖度增加,对数据的规范性、可信度、安全性等要求越来越高,对大数据治理的需求也越发迫切。

1 大数据治理概述

大数据技术是信息技术发展的一个重要里程碑。企业的信息系统建设烙印着企业规模和信息技术的发展轨迹,普遍存在各系统间数据标准和规范不同、信息相互不通等问题,致使系统的协同性等问题越来越显著:

• 各系统分步规划、分散建设,信息孤岛现象突出;主要业务数据不能有序集中整合,业务数据的完整性、正确性无法保障。

• 缺乏统一的数据规范和数据模型,致使组织内对数据的描述、理解难以一致。

• 数据管理职能体系不完备,对元数据、主数据、数据质量等重点领域管理职责分散、权责不清,无法保障数据标准和规范的有效执行、数据质量有效控制。

• 对数据更新、维护、备份、销毁等数据全生命周期管理不完善。

大数据治理成为解决以上瓶颈的有效手段,为多源、异构、跨界大数据应用夯实基础。大数据治理相对于传统的数据治理,在实施软件方面赋予了显著的大数据技术特性,但从治理的筹划协调、治理结果的业务和技术目标,到数据质量改进、隐私和安全管控等方法论基本一致。

1.1 大数据治理现状

数据治理已有十多年历史。经过多年积累,国际上数据治理产品体系趋于成熟,形成了许多成功案例并构建了丰富的行业知识库和标准规范,产生了诸如IBM、SAP、Oracle、Informatica等业界巨头。

近年来国内数据治理产品发展迅速,虽然产品线还显单薄或产品欠成熟,离市场的需求存在一定的距离,但对国内数据治理市场发挥越来越大的影响。我国许多商业银行在元数据管理、数据质量管理等领域有多年的尝试和应用。近期先进制造业异军突起,随着“数字化工厂”的进程,先进制造业积累了大量的数据,数据治理充分释放这些数据的价值,为企业的效率提高和业务创新奠定良好基础。

1.2 大数据治理意义

大数据治理体系帮助企业建立一个针对数据生命周期可自我改进的有序、迭代的长效管理机制,满足数据的所有相关方的信息诉求:

• 数据的可用性:通过主数据管理消除信息孤岛,提高数据在组织内共享流通;通过元数据管理统一数据相关方对数据的理解。

• 数据的可信度:根据应用场景需求,对数据质量进行客观评估和改善。

• 数据管理成本:降低数据使用、管理、理解沟通的成本,及优化数据更新的成本。

• 数据的安全性:在保障数据流通的前提下,控制隐私信息、确保数据安全。

大数据治理完善企业内信息资源的整合、对接和共享,提升整个企业的信息化水平。大数据治理涉及企业各个部门、覆盖绝大多数业务环节,特别在一些企业发展瓶颈上起到关键作用。国内某著名大型互连网公司,在整个业务从PC端向移动互联过渡时,PC和Mobile的业务衡量指标差异太大,系统升级的过程中暴露了大量的数据匹配问题,因此痛下决心推动了一次覆盖企业的大数据治理,从根本上改善和解决数据的各类问题。

1.3 大数据治理体系

大数据治理是将数据作为企业资产,在企业范围内对数据处理流程、政策、标准、技术和人员进行定义和职能协调,实现对数据的可用性管理和可控增长,为企业制定更好的业务决策、降低风险并改善业务流程奠定基础。本文从实用角度考虑,大数据治理主要包括协同筹划、过程实施和监控评估三大主要板块,以及基础模块,如图1所示。

图1 大数据治理体系

相对于数据治理,数据管理是一个更大范畴的概念,几乎覆盖图1中全部模块。本文聚焦在协同筹划、过程实施、监控评估三个方面研讨大数据治理的具体实践。

2 大数据治理协同筹划

大数据治理是一个复杂而艰辛的过程,涉及企业内全部业务流程,首先需要统一思想,协同企业战略和数据战略,研讨大数据治理体系架构,研制企业的数据标准和规范。

2.1 统一认知和战略协同

企业内应该在两个方面认知达成一致:

一方面需要对企业的数据治理现状进行全面的盘查摸底。充分分析数据的产生和采集的方式、数据存储的现状、数据标准规范体系和合规性校验情况、数据生命周期和归档管理、数据质量现状评估、安全隐私和访问管控情况、数据开放和创新研发环境等,真实评估本企业数据治理的难度、成本和改善的目标等。

另一方面大数据战略在企业战略规划中的重要程度日益增加,各级数据治理相关方必须结合企业战略、企业文化、业务需求,不断地沟通、教育和推广数据资产的重要性,以及数据治理职能的业务贡献,提高利益相关者对数据治理问题及效益的认可度。同时企业内相关职能部门和人员应充分认识到数据治理是一个持久努力、循环迭代的逐渐改善过程,而不能期望一劳永逸。

在大数据时代,大数据战略将融合业务需求、增强业务感知、促进业务优化,从而依赖强大的、高质量的数据驱动业务创新,为企业带来战略转型机遇。在制定大数据战略时必须以大数据的服务创新和价值创造,驱动业务发展为最终目的,根据业务模式、企业结构、企业文化等因素进行战略规划。

2.2 治理组织和主要角色

统一认知、协同战略后,紧跟着“搭班子、带队伍”,成立各级数据治理组织并落实各类相关角色。不同企业数据治理组织架构和角色定义有不同的要求和优先级,采用不同的方式来决定组织和个人的职责,但通常都包括以下几个典型的机构:

1) 数据治理委员会 数据治理的最高权威机构。企业最高层领导出任主席,以确保委员会决策的效率和权威;数据资源丰富的部门领导为委员,保障数据治理相关工作顺利展开;数据治理专员和数据治理制度专员负责日常工作。

2) 数据治理制度委员会 数据管理专员组成的跨部门协调团队,拟定和管理数据治理相关制度、标准和规范,负责支持和监督数据治理委员会发起的数据治理举措。以上两类委员会通常为联席会议机构。

3) 数据治理办公室 常设机构。由企业数据分管领导牵头、业务和技术数据管理专员组成的跨职能团队,监督落实数据治理委员会和制度委员会的工作安排。办公室应该拥有企业数据采购的审批权、相关数据部门核心人员(包括负责人)的晋升评估权,有利于企业的数据治理工作良好开展和数据资产增值的长效管理。

4) 数据治理相关角色 数据管理专员根据特定功能要求,组成数据治理实施基础单位。具有代表性的数据管理专员包括:由企业高层担任的高层数据治理专员,主题域专家或领导担任的业务数据治理专员,由业务人员承担的数据治理制度负责人,直接负责数据治理实施的数据治理执行官等主要角色,及数据架构师、数据分析师、质量分析师、数据管理员等企业内角色和数据中间人、知识工作者、监管机构等特定场景角色。

2.3 数据标准和规范

数据标准和规范通常由数据治理制度委员会牵头编制,由数据治理委员会审批发布,由数据治理办公室监督执行及定期重新评估。数据标准和规范应该包括:数据建模和数据架构准则规范、采集整合和数据清理标准规程、数据安全标准规范、标准代码库和参考数据管理控制规范、内部管理标准规程、相关的国际、国家或行业标准等。

企业普遍意识到数据标准和规范的重要性,不同程度展开了数据标准和规范体系建设,但通常存在数据标准和规范的系统性、完整性和执行力度不足;对标准和规范的认同度低和管理体系匮乏;数据标准和规范多停留在文档管理阶段,未能有效地管理、及时更新和广泛采用等问题。

数据标准和规范不仅要以文件的形式下发,更关键的是及时抽取其中标准和规范作为技术或业务元数据的具体内容,通过元数据管理工具将有关标准和规范具体应用到数据管理和系统研发中,从而深入、长远指导企业的数据应用和系统开发。

3 大数据治理核心功能

如图1所示,大数据治理过程实施涉及许多模块,其中核心单元包括元数据管理、数据质量管理和主数据管理等三大功能。

3.1 元数据管理

元数据(Metadata)流行而抽象的定义是“关于数据的数据”,词前缀“Meta”起源于亚里斯多德的名著《形而上学》特别创造的词Metaphysics,被赋予了“延续与超越、更高抽象层次”的含义。数据反映了真实世界的交易、事件、对象和关系,而元数据反映了数据的交易、事件、对象和关系。

具体而言,元数据是关于企业所使用的物理数据、技术和业务流程、数据规则和约束、以及数据的物理和逻辑结构的相关信息,也是数据标准和规范、数据质量指标的重要基础和载体。

3.1.1 元数据的种类

元数据通常分为业务元数据、技术元数据、操作元数据和管理元数据等四类。业务元数据指导技术元数据,技术元数据参考业务元数据进行设计,操作元数据是信息系统的管理要素汇聚。管理元数据是元数据管理过程产生的数据子集,将在下一节中介绍。

业务元数据是业务目标和元数据用户之间的纽带,便于理解、定位和访问业务数据。业务元数据包括业务指标及相关计算公式、业务规则和算法、数据质量规则和度量指标、企业级数据模型、实体和属性的业务名称和业务定义、专业术语等。

技术元数据是指在数据库、文件或其他系统中数据元素及其表示的说明,提供了对数据的存放位置、数据的存储类型、数据的血缘关系等信息。技术元数据主要包括技术规则、数据结构属性、数据映射关系和数据血缘、统计指标等。

操作元数据提供关于数据使用方面的信息,如最近数据更新、访问等信息;数据管理制度,如数据的增删规则、数据拥有人、数据共享规则和协议;满足信息系统运维需求的信息,如数据迁移、数据源和目标系统信息、批处理程序、任务频率、备份和恢复信息、归档规则等信息。

3.1.2 元数据管理

元数据管理是指元数据的定义、收集、管理和发布的方法、工具及流程的集合,以相关元数据规范、指引为基础,以元数据管理工具为技术支撑,与应用系统的开发、设计和版本控制流程紧密结合的完整体系。

元数据管理需充分考虑企业自身实际情况,实现企业级、版本化、标准化、自动化管理,注重系统的易用性、数据流向和影响分析、血缘分析等。元数据管理工具要强化元数据抽取、版本管理、访问控制管理等功能的智能化管理。

在对元数据管理过程中也将产生一个数据子集,通常称管理元数据,主要指与数据管理相关的组织、岗位、职责、流程。它是管理数据的管理专员、监管制度、责任分配的数据,也包含元数据管理的信息。

3.1.3 元数据管理层级

元数据管理分为三大阶段:

1) 原始阶段 元数据处于无序、自发的状态,元数据分散在个体或小团体中,或元数据从属于业务系统中。

2) 集中阶段 从元数据局部产生、开始集中存储,进化到基于统一的元数据标准、交叉管控和上下游协同,进行元数据集中管理。

3) 有序阶段 基于各类元数据间的关联,建立基于主题域层次结构,增强元数据的可读性,从而遵循统一的元数据模型和规范,实现元数据的自动更新,实现各应用系统间数据格式的映射和自动生成。

3.1.4 元数据的作用

大数据时代数据来源广泛、品种芜杂、结构多样,加上数据流通频繁、更新周期短、应用跨度大等特征,高效管理数据是对企业能力的全面挑战,而元数据是数据高效管理的关键抓手。元数据的重要性可以通过一个历史悲剧透视。1990年美国火星探测计划,探测器在火星着陆失败,不仅造成巨大的经济损失更是一次社会灾难,导致这场灾难的原因是一个细微的疏忽:研发团队间将计量单位牛顿与磅搞混了。

通过元数据,企业可以统一数据标准、表达形式,更清晰表达数据含义和数据间关系,强化技术和业务团队间协调共享成果、减少交流障碍,减少企业整体培训成本;减少冗余数据和流程,减少数据维护成本,完善数据生命周期,最大程度发挥数据的价值;完善数据质量度量指标,构建质量评估和改进迭代;实现公共资源的统一分配和登记、影响分析和血缘管理,支持数据流通和数据集成,有助于跨业务系统间数据整合,支持主数据构建统一的访问管控体系,减少信息系统项目研发的风险。

综上所述,元数据承接企业数据标准和规范,决定数据架构满足业务需求的路径,元数据管理成为数据治理计划的关键要素,传送了企业数据治理的能力。元数据管理计划的任何失败,都会导致数据子集孤立、数据质量差和无法访问关键信息等问题,最终导致大数据治理失败。

3.2 数据质量管理

数据成为企业战略资源,合理有效地使用高质量的数据有助于企业正确决策,提升企业综合竞争力。数据质量关系信息系统成败并直接影响数据价值,低质量数据导致开发出来的系统与用户的预期大相径庭。

数据质量管理包含对数据本身的管理和数据访问过程的质量管理。数据本身质量通过准确性、完整性、一致性等数据属性界定,访问过程质量即使用、存储和传输过程中数据质量的控制和处理。

3.2.1 数据质量的度量指标

数据质量度量指标体系,最常见分为数据主要属性、辅助属性和场景属性指标。数据主要属性指标包括准确性、完整性、一致性、唯一性、时效性等,各属性指标可拆分细化指标,以便数据质量量化评估和改进。

1) 准确性

数据内容正确性:数据内容符合预期,真实反映被描述对象。

数据格式合规性:数据格式(包括数据类型、数值范围、数据长度、精度等)满足预期要求。

2) 完整性

记录连续性:非重叠、未中断的当前数据和历史数据。

内容完整性:提供所有必需的记录和必需的值,不存在数据缺失。

3) 一致性

相同数据一致性:同一数据在不同位置存储或被不同应用使用时,数据一致。

关联数据一致性:在相同或不同数据子集内关联数据符合一致性约束规则。

4) 唯一性

重复性:数据记录或属性的重复程度,每个实体均由单条主记录表示。

冗余性:任何子数据集在主数据内仅存储一次,每个业务对象均有唯一的标识。

5) 时效性

有效性:对应有效生命周期范围内,数据记录数或频率分布符合真实的业务情况。

及时性:符合数据生命周期序列,反映对应时间戳的当前及时更新而非过期数据。

3.2.2 数据质量的评估和改进

数据质量的评估和改进一般从场景分析、评估指标、评估计划等准备工作开始;再采用数据质量管理工具实施数据质量评估和改进;最后总结质量评估和改进是否达到预期效果,并抽取评估和改进过程的有关经验完善丰富相关知识库,根据需要制定优化方案,启动下一个评估和改进过程。如图2所示,数据质量管理本身也是一个持续迭代改进的过程。

第一步事先规划。参照企业特定行业场景,确定符合企业业务的数据质量诉求,选择本次评估和改进的对象(主数据子集);甄选和核对数据标准和规范(在完善的数据治理体系中,该类信息应该正确地配置在元数据管理工具中),确定评估指标和相关规则;制定质量评估和改进的具体计划和流程。

第二步具体实施。遵照事先规划,配置数据质量管理工具,确定对象、标准、度量指标、质量要求等,启动质量评估工具。质量评估不仅根据数据质量的度量指标对数据进行扫描分析,也需结合业务场景稽核业务规则发现深层次的质量问题。根据评估结果进行瑕疵分析,以提供数据现状的详细分析报告,并且针对企业质量诉求完善质量改进措施,通过多次迭代逐步改善数据质量,达到预期的质量要求。

第三步事后分析。分析数据质量评估和改进效果,将出现的质量问题分类归档,丰富数据质量知识库;优化数据质量规范和流程,训练数据质量管理工具智能执行力。目前瑕疵分析和质量改进的自动化、智能化程度普遍较低,面对庞大的数据人工介入数据质量管理成本很高且效率较低,期望通过行业知识库积累、机器学习和训练的加强,逐渐减少人工的介入,提高整体数据服务能力。

图2 数据质量管理流程

数据质量的评估和改进是一个逐步完善、循环迭代趋近质量需求的过程。随着企业业务的增长、信息化系统的丰富和整合、大量外部数据的补充等因素,各业务场景数据子集根据数据生命周期需多次重新评估和改进,数据质量管理形成一个大小迭代嵌套的闭环过程。

3.3 主数据

主数据管理是对主数据值域进行控制,实现跨系统的一致、共享、上下文相关地使用主数据,是对核心业务实体真实情况的最准确、及时的反映。

主数据管理把企业的多个业务系统中最核心的、最需共享的数据进行整合,集中进行数据的清洗和标准化,并且以集成服务的方式把统一的、完整的、具有权威的数据分发给需要使用这些数据的应用系统。一个成功的主数据管理必须具有持续数据改进能力。

3.3.1 主数据集

主数据包含企业业务场景中的人财物数据、参考数据和其他非结构化数据等。人财物数据包括:企业和客户人员等数据、商品数据、财务数据和地址和物流数据等;参考数据包括:行业知识库、公共代码、行业标准、参考值域等数据;非结构化数据包括:文本、图形、报表、视频和录音等数据。

数据已经成为企业核心资产,数据资产是以主数据为核心、相关元数据等为辅的数据包。数据资产能够顺利在企业内部共享、外部流通,主要取决于数据的隐私性和数据价值的公共属性的平衡。在金融领域,“黑名单”是一个典型的具有公共属性的数据,所有银行和金融机构都有足够的动力把自己的黑名单分享出来,并对整个行业的黑名单感兴趣。如果企图促使银行间流通隐私性极强的白名单,注定举步维艰,很难成功。

3.3.2 主数据整合和管理

高品质、高可访问性的主数据是企业永恒的追求。由于行业应用无法在创建数据时确保其完整性及避免数据重复,因此需要将主数据集从这些行业应用中分离出来。将这些行业应用数据经过严格的清洗、匹配和合并流程,并按照企业数据标准和规范进行数据质量管理处理,最后集成到主数据管理系统中。

成熟的主数据管理消除了点对点集成,降低数据维护成本。主数据管理通常包括以下几个功能模块:

创建、使用、管理和监控主数据:企业范围的主数据集成处置、规范管理,企业用户能够访问统一、可靠的主数据,有效地管理数据变化和异常情况。

建模功能:对所有通用主数据域建模,并保留相关元数据、数据沿袭以及审计和合规性的历史记录。

黄金记录:指主数据集内满足跨应用共享并符合数据质量指标要求的相关数据子集。黄金记录通常在单元格级别建立唯一的“黄金记录”版本,并在整个企业内部共享。

揭示各数据之间的关系:将公司和渠道合作伙伴的数据整理到企业层次结构,实行数据的有序分类管理,检验并揭示数据之间的技术和业务关系。

3.3.3 数据生命周期管理

数据生命周期包括数据发生(生成、采集)、在线处理(处理、存储、维护、引用)、归档销毁(在线归档、离线备份、销毁)等三大阶段,数据在生命周期不同阶段价值不同,通过数据更新和品质改进,可以维持或提升数据的价值。主数据生命周期是数据生命周期最重要的子集和主要研究对象,覆盖了数据汇聚、数据服务和数据管理等数据在线处理阶段,如图3所示。

图3 主数据生命周期

有效的主数据生命周期管理是提升数据的访问效率、降低数据的管理成本的关键,维护和更新“黄金记录”是主数据生命周期中最重要的一项工作。

主数据的各子集往往跨越不同行业应用,需要保障不同子集同类数据的一致性、关联数据的业务约束一致性。主数据的新鲜度也需及时维持,为行业应用提供最新洞悉能力,使企业依据最新数据进行决策,避免“用春天的数据推演秋天的情况”。主数据的黄金记录集将高效地为主数据解决该类问题。

在线归档和离线备份是提高主数据访问和处理效率的另一项重要工作。随着企业数据体量的急剧膨胀,实时在线业务系统的处理能力面临巨大的压力,一般配置灵活的在线归档策略,分解实时业务系统的压力,并对不同的数据子集配置适当的备份销毁策略,减轻系统基础设施的投资压力。

4 大数据治理其他相关模块

大数据治理是一个繁复而持续的工作,除以上介绍的大数据治理核心功能外,还涉及很多如基础技术功能、数据隐私和安全管理等模块。

4.1 数据汇集和建模

在大数据治理概念中数据汇集外延更广泛,不仅需要整合现有系统分散的数据、汇集新增数据,在汇集的过程中还需要甄别数据集对应的元数据是否完善,进行数据质量评估,并按安全规范标注隐私数据,确保主数据的规范性、新鲜度、正确性等满足业务要求。

从数据隶属于分散业务系统的原生态,衍进到数据集中存储和管理的有序模式,数据汇集过程可能蜿蜒波折、步步艰辛。许多企业的信息系统都是多年积累逐步开发,架构差异大、数据分散、数据一致性和准确性差,需要借助于适当的业务模型,尽可能避免业务流程调整的前提下,分次分批进行数据汇聚,适应数据的存储变迁和集中管理。

业务模型必须基于数据模型,应该由业务经验丰富的专员把握建模的粒度。如果数据模型粒度太细,细微的业务流程变化都将引起数据模型的变化,不利于系统的持续稳定。现在通常使用自动建模工具完成建模工作。

4.2 数据隐私与安全

大数据治理侧重于研讨数据在保存、使用和交换过程中的安全,及数据内容的隐私保护,而非系统或网络安全。不同组织对数据隐私与安全的要求不同。对一个商业公司而言,没有业务的数据安全是没有意义的,所有应该业务为先,安全其后。对一个关系到国计民生的政府部门而言,数据隐私与安全保护往往放到第一位。

单一数据的隐私问题比较容易解决,在元数据中配置相关数据项的隐私等级,通过隐私扫描工具对该类数据项标注隐私等级。有些数据集间涉及一些复杂的业务逻辑关系,关联融合后出现隐私漏洞,需借助于分析能力强大并且具备深度学习智能的隐私扫描工具探测相关漏洞。

数据通常分公共数据、有限隐私数据、完全隐私数据三个大类,按数据保护法律法规和企业业务需求,进一步制定企业级的数据隐私细分等级,通过数据访问管控系统实施到各级隐私保护。公共数据多沿用访问角色的控制管理机制,有限隐私数据和完全隐私数据的访问权限依赖于具体业务应用,再结合数据使用目的和访问角色来处理该类数据流通。如身份证ID是有限敏感数据,业务应用的目的是按身份证区域统计年龄分布,授权角色均可通过该业务应用访问身份证数据获得统计结果。

公共数据对所有授权角色开放,为避免恶意盗取源数据,通常监控数据的访问流量并设置异常应急处置机制。对隐私数据的直接、简单脱敏,将使数据价值大幅衰减,并不值得提倡。本文主张设计一套完整的数据隐私与安全访问管控体系来解决敏感数据访问问题,如图4所示,既能确保隐私数据的安全,又没有降低数据的价值。

图4 数据访问管控

“行业应用系统”通过“数据访问代理”间接访问隐私数据,再通过“数据输出代理”将运算结果推送回对应的“行业应用系统”。“行业应用系统”中使用隐私数据的“应用算法”模块需要独立封装。访问完全隐私数据时,需要对“应用算法”进行严格的使用目的检验甚至代码级的白盒测试,并将“应用算法”从“行业应用系统”中剥离出来,部署在可控的监控运行环境中托管,如图4中“应用算法封装”模块。

访问有限隐私数据时,根据业务场景、业务应用的可信度等,确定对相应“应用算法”的校验程度和封装情况。应用算法模块假道“数据服务接口”,通过“数据访问代理”综合行业应用性质、访问目的、用户权限、数据隐私类别等因素判断数据访问的有效性。并在应用算法模块完成相关业务运算后,通知“数据输出代理”校验运算结果的合规性,再通过“结果数据通道”推送到对应“行业应用系统”,完成数据从访问到结果输出的可控闭环操作。

综上所述,建立企业级的隐私等级分类,通过敏感扫描工具给敏感数据贴上等级标签,再通过数据访问管控体系执行隐私保护,最大限度地提供敏感数据的合法、可控访问。

4.3 样本数据和应用推演

以多源、异构、融合为特征的大数据行业应用,涉及多种数据流通共享、不同数据规范兼容协调,需要一个良好的研发环境尝试数据的兼容、优化应用算法和参数、校验数据访问管控等。随着大量数据积累,数据驱动创新应用、挖掘数据洞察能力、机器深度学习等需求,都需要一个如图5所示的实验推演环境,开放所有的样本数据集,方便创新业务和算法进行多方位试错。

图5 大数据应用推演沙箱

大数据应用推演沙箱主要有样本数据管理、访问安全管控和服务资源调度等三大主要功能模块。样本数据发生器是样本数据管理最重要的构件之一,参照主数据的类型、值域、一致性、概率分布、隐私安全级别等因素,再根据数据标准和规范、取相关元数据对应信息,创建各类样本数据子集。参考主数据生命周期,确定各样本数据子集的更新频度,以确保数据的新鲜度。

大数据应用推演沙箱为用户提供通用服务能力、数据缓冲管理、开发和映射框架等大数据应用研发的基础环境,服务资源调度模块协调沙箱的各类任务并为沙箱用户合理分配资源。访问安全管控模块根据行业应用涉及的数据隐私等级,参照“数据隐私和安全”章节相关的数据访问规范,对数据访问目和输出结果进行核查,并根据数据隐私等级和可控性要求对相关业务算法模块制定封装和部署的具体要求,确保行业应用投入实际运营后的数据安全。

5 大数据治理监控评估

5.1 监控与审计

大数据治理是一个复杂的系统工程,针对体量庞大、来源不同、格式差异的数据集,况且不同数据子集间业务关系错综复杂,不论完善元数据体系、改善主数据质量,还是保障数据安全,都难一蹴而就,需要渐进、持续迭代地改进。通过对数据治理过程监控、对事后治理效果审计评估,不断优化数据治理方案和目标,持续提高企业数据治理的能力和效果。

过程监控偏重于数据治理执行过程中的合规性分析,审计评估侧重于本轮数据治理最终成效分析。过程监控是在数据治理实施过程中,检查制度是否健全,组织职能是否持续有效,角色分工是否清晰到位,操作是否遵循相关的制度和规范,从而在实施过程中及时控制风险、确保成果的可预期性。审计评估是在数据治理实施结束后,评估主数据是否集中存储并管理,主数据质量改善状况;主数据是否获得隐私和安全规范的保护;数据标准和规范是否覆盖主数据全部子集,并在元数据中完整真实反映;元数据体系是否完整,数据质量管理度量指标是否健全等。并就评估审计结果进行剖析,提出下一轮数据治理的优化方案。

监控是对现阶段治理效果的保证,评估是对下一个治理迭代效果的提升。

5.2 大数据治理成熟评估

大数据治理的成熟度等级,可以从领导关注、规范标准、元数据等几个方面综合评估。

• 成熟度0级:无意识阶段

无全局性数据标准或规范,元数据处于初始阶段,最高领导层几乎不关注数据质量和安全。

• 成熟度1级:初始阶段

形成一些局部标准或临时性规则,元数据从属于业务系统,主数据分散存储和管理,数据治理主要由几个富有热情的基层人员推动。

• 成熟度2级:可重复阶段

数据标准和规范逐渐完善,元数据集中存储、分散管理,数据治理由大批企业中低层人员参与并推动。

• 成熟度3级:定义阶段

数据标准和规范化通过元数据逐渐为应用系统引用,元数据集中存储和管理,数据治理和企业战略开始协同,并获企业高层领导支持和各业务部门参与。

• 成熟度4级:管理阶段

形成了完善的数据标准和规范体系,元数据模型驱动数据治理的效果可度量可跟踪,数据治理由业务高层和技术高层共同推进。

• 成熟度5级:优化阶段

数据视为企业资产进行管理,数据治理作为一项独立的核心业务职能展开;自动化进行元数据管理;企业最高管理层全力赞助和支持。

5.3 数据资产评估

数据已经成为越来越多企业最具战略意义的资产。如何获取足以支撑企业发展的数据资源、如何优化数据源形成数据资产、如何彰显数据资产的价值做大做强企业,是数据经济时代每个企业都要面对的问题,也是企业跨越式发展的一次契机。

数据形成资产的关键步骤就是数据必须经过有效的治理,形成可信、安全、合规、可用且便于管理的数据集。数据资产是基于业务环节相对完整的数据子集、相关数据标准和规范、对应的元数据子集、安全隐私访问规范等元素形成数据包,为行业应用提供直接和间接的支持。对数据资产化的评估,是大数据治理成效的一个重要方面,直接反映了数据治理对数据价值提升的效果。

6 结 语

大数据治理是一个持续迭代的复杂性系统性工程,需从企业的战略层面出发,企业各层级相关人员充分沟通协调,统一认识到数据资产价值的重要性和数据治理行为对业务发展的巨大贡献。

通过以上讨论,从实际应用的角度展示一个完整的大数据治理框架体系,为企业数据治理过程中事先筹划协同、实施中各功能具体实现、事后评估优化提供了一个可参考模型。为数据资产化后进入流通领域,促进更多跨界、融合行业创新应用提供一个完整的数据隐私和安全保护体系。

数据治理过程涉及企业的方方面面,不仅是对数据价值充分梳理和挖掘的过程,也是企业内部管理职能优化和执行力强化的过程,还是提升企业核心竞争力,在现有业务系统基础上酝酿跨界融合创新应用的契机。

[1] DAMA国际. DAMA数据管理致使体系指南[M]. 北京:清华大学出版社,2012.

[2] 维克托·迈尔·舍恩伯格,肯尼斯·库克耶. 大数据时代[M]. 浙江:浙江人民出版社,2013.

[3] 陆顾新,陈石军,王立等,等. 银行数据治理[M]. 北京:机械工业出版社,2016.

[4] 张韶华,潘蓉,宗宇伟,等. 大数据治理与服务[M]. 上海:上海科学技术出版社,2016.

[5] 赵飞,王乐,邓忠军,等. 基于全生命周期的主数据管理:MDM详解与实践[M].北京:清华大学出版社,2015.

[6] 蔡莉,朱扬勇. 大数据质量[M]. 上海:上海科学技术出版社,2016.

[7] Fisher Tony. The data asset, How smart companies govern their data for business success[M].News Jersey:John Wiley & Sons, Inc.,2009.

[8] 刘永楠, 邹兆年, 李建中,等. 数据完整性的评估方法[J]. 计算机研究与发展, 2013, 50(S1):230- 238.

[9] 丁小欧,王宏志,张笑影,等.数据质量多种性质的关联关系研究[J]. 软件学报,2016,27(7):1626- 1644.

[10] 熊贇,朱杨勇,陈志渊. 大数据挖掘[M]. 上海:上海科技出版社,2016.

[11] 车品觉. 决战大数据[M]. 浙江:浙江人民出版社,2016.

[12] PomerantzJeffery. 元数据:用数据的数据管理你的世界[M]. 北京:中信前沿经济出版社,2017.

[13] SoaresSunil.大数据治理[M].北京:清华大学出版社,2014.

猜你喜欢

数据管理评估质量
企业级BOM数据管理概要
不同评估方法在T2DM心血管病风险评估中的应用
定制化汽车制造的数据管理分析
航发叶片工艺文件数据管理技术研究
第四代评估理论对我国学科评估的启示
数据挖掘在学生成绩数据管理中的应用研究
数据挖掘在学生成绩数据管理中的应用研究
质量投诉超六成
立法后评估:且行且尽善
资产评估法:能否终结“多龙治水”