大数据治理模型与治理成熟度评估研究
2016-05-28程广明
程广明
摘 要:介绍了“大数据治理”的概念,提出了人与组织、策略和能力的三维架构大数据治理模型,并在此基础上提出了包括初始级、基本级、定义级、管理级和优化级五个评价等级的大数据治理成熟度评估模型。
关键词:大数据;数据治理;成熟度评估;策略
中图分类号:TP274 文献标识码:A DOI:10.15913/j.cnki.kjycx.2016.09.006
随着云计算、物联网、移动互联网等新一代信息技术的快速发展,人类产生的数据量呈指数级增长。据资料显示,2012年,全球数据量达到2.8 ZB,预计到2020年,全球数据量将达到40 ZB。大数据蕴含着巨大的价值,如今,互联网、电信和金融等行业的众多企业已将数据视作企业的宝贵资产。然而,数据价值密度与数据总量成反比。面对巨大的数据规模,如何管理和利用数据,使其发挥价值是企业必须考虑的重要问题。大数据的价值所在使其面临着隐私和安全方面的威胁。大数据治理将组织的部门、流程、人等元素与数据的整个生命周期联系在了一起,对组织数据管理和保护有着至关重要的作用。
1 大数据治理的定义
“大数据治理”不是一个横空出世的概念,它是在传统的数据治理基础上提出的适应大数据时代的产物。《DGI数据治理框架》一文将数据治理定义为“数据相关事务的决策和授权的执行”,并进一步解释为信息处理过程决策权和职责的策略,约定了由谁负责处理哪些信息,并在什么情况下采用哪种方法,以及何时来执行。也有学者将数据治理定义为“组织架构、规则、人员权利和义务、处理信息的信息系统”。
美国学者桑尼尔·索雷斯在《大数据治理》一书中这样定义大数据治理:“大数据治理是广泛信息治理计划的一部分,即制订与大数据有关的数据优化、隐私保护和数据变现的政策。
我们可以对上述大数据治理定义作进一步的分解解读。首先,大数据治理是信息治理计划的一部分,这是其定位。这就要求组织在制订信息治理框架时,必须将大数据纳入其中,比如在信息治理委员会中增加数据科学家,在信息治理目标中增加大数据治理目标等。其次,大数据治理主要是数据处理的一系列相关政策的制订,这是其内涵。再次,必须优化大数据,这是大数据治理的重点。大数据体量大、种类繁多,且价值密度低,组织必须对其进行优化,比如定义元数据、净化大数据、实施数据生命周期管理等。从次,大数据隐私保护至关重要,这是大数据治理的约束。看似没有任何价值的单一数据集合在一起时,会发现新的价值,这是大数据价值体现的重要途径之一。而大数据价值的体现往往会涉及数据的隐私,这就要求组织在进行大数据价值体现时,必须注重大数据的隐私处理。最后,大数据必须变现,这是大数据治理的目的所在。组织将数据视作其资产的一种,要将其转化成组织可以使用的现金,而变现的方式可以是单纯地出售数据本身,也可以是利用数据开发新业务。
2 大数据治理模型
基于以上概念分析,我们可以将大数据治理模型理解为人与组织、策略和能力的三维架构。人与组织是数据治理的主体,涉及政府、企业界、学术界、社会组织、自然人等,他们分别承担着不同的治理职责。策略是大数据治理的工具,能力是大数据治理的手段。图1所示为大数据治理模型三维架构。
具体来说,人与组织包含利益相关者、治理委员会、管理委员会和内部员工。利益相关者指组织内部和外部环境中受组织决策和行动影响的任何相关者,数据的产生者、管理者、使用者和监督者等;治理委员会是组织治理数据的最高机构,负责作出数据相关事务的决定,并将数据治理标准和措施汇报给数据的利益相关者;管理委员会负责具体实施治理委员会制定的各项数据治理决定,并将数据治理结果汇报给治理委员会;内部员工是数据治理架构中不可或缺的一部分,贯彻执行数据治理委员会和管理委员会制定的各项数据治理策略。
策略是组织制定的所有与大数据有关的数据优化、隐私保护和数据变现的准则和规范,包括组织数据治理的使命和愿景、治理指标、数据治理规则和定义、权利与职责、控制措施。数据治理的使命和愿景包括数据治理的整体目标,给予数据利益相关者持续与跨界的数据保护和服务,不合规准则引发的问题的解决方案等;数据治理指标定义了数据治理目标的衡量方法;数据治理规则和定义包括与数据相关的政策、标准、合规要求、业务规则和数据定义等;权利和职责规定了由谁来负责制订数据相关的决策、何时实施、如何实施,以及组织和个人在数据治理策略中该做什么;控制措施主要针对数据未治理风险防范和数据治理过程中可能发生的各类风险,以及如何做好数据隐私保护。
能力则反映了组织进行数据治理所具备的条件和水平,包括元数据管理、数据质量管理、业务流程整合、主数据管理和信息生命周期管理。元数据是描述数据的数据,即描述数据和信息资源的信息。元数据管理就是整合大数据与企业的元数据库。数据质量管理准则包括数据识别、采集、测量、提升和论证质量、整合组织数据的方法,比如具备应对非结构化数据占据数据总量绝大部分情况的能力。业务流程整合要求组织制定的大数据治理计划必须与组织的核心业务流程相匹配,以便从核心业务流程中获取大数据治理的关键支持政策。主数据管理描述了一组规程、技术和解决方案,用于维护业务数据的一致性、完整性、相关性和精确性。大数据治理需要制订将大数据整合到主数据管理环境的政策。信息生命周期管理则要求组织判断应该将何种数据保留在数据分析系统,何种数据需要存档,何种数据需要删除。
3 大数据治理成熟度评估
表1 大数据治理成熟度等级评价表
等级 等级描述
初始级 a.没有定义与数据治理相关的架构和角色
b.没有正式的数据治理策略
c.不具备数据治理能力
基本级 a.定义了数据治理角色和职责,管理者意识到数据治理的重要性,但对管理知识知之甚少
b.已有的数据治理策略已经文件化,但不具有连贯性
c.数据治理能力十分有限,只有很少一部分人掌握数据治理通用级别的知识
定义级 a.定义了数据治理角色和职责,管理者能主动推动数据治理计划实施
b.数据策略已经文件化,并涵盖了针对特殊数据的治理策略;策略通过公共渠道容易获取,大多数利益相关者能够理解
c.具备数据治理的全部要素,一部分人知道详细的数据治理能力
管理级 a.定义了完备的数据治理角色和职责,并有专门的数据质量专家,管理者能主动推动数据治理计划实施
b.所有的数据策略都已经文件化,并且是审计合规的,都能通过公用渠道获取,数据治理利益相关者主动关注策略的增添、更新和删除
c.所有定义的数据治理能力层级都有可用的方法,建立了系统化的数据治理处理流程
优化级 a.定义了完备的数据治理角色和职责,管理委员会来自各个部门,拥有元数据管理小组、数据质量技能中心、主数据管理委员会等
b.所有的数据策略都已经文件化,并且是审计合规的,所有的数据治理利益相关者都参与了策略发展过程;制订了自动化的政策,以保证数据在整个组织内保持一致、准确和可靠
c.所有定义的数据治理能力层级所指定的部门和关键数据是固定的,能够在数据处于静态和动态时进行数据质量修复,数据不间断地被跟踪检查,且任何偏离标准的问题都可以立即解决
成熟度评估是组织大数据治理状态和能力的一种衡量方式。大数据治理模型共三个维度,具体涵盖14个评价指标。每个指标分别以5个等级来衡量其成熟度,然后再统筹考虑评价指标权重,得到组织大数据治理的整体成熟度评价。根据综合评价结果,组织大数据治理成熟度可以分为以下5个等级,即初始级、基本级、定义级、管理级和优化级。
4 总结
数据体量巨大、种类繁多、价值密度低和处理速度快是大数据的四大主要特征。面对爆发式增长的大数据,开展大数据治理是充分利用数据价值、保护数据隐私和安全等的重要途径。结合前期研究,本文提出了人与组织、策略和能力的三维架构大数据治理模型,并制定了详细的成熟度评价指标,对组织的大数据治理状况进行评价,提出了包括初始级、基本级、定义级、管理级和优化级5个等级的大数据治理成熟度评价模型。
参考文献
[1]Sunil Soares,著.大数据治理[M].匡斌,译.北京:清华大学出版社,2014.
〔编辑:刘晓芳〕