数据治理和商业智能
2018-08-30江飞
江飞
摘 要:随着互联网+、物联网、云计算、大数据、区块链等信息技术的迅猛发展,催生了超越以往任何年代的巨量数据,需要配套的数据治理与管理机制,结合商业智能可视化分析,将数据作为组织的宝贵资产应用于业务、管理、战略决策中,发挥数据资产的商业价值,为企业带来不可替代的竞争优势。随着移动通讯4G网络的快速发展,以及手持式设备的普及,BI的展示就可以扩展到移动手持设备。
关键词:数据治理;商业智能;元数据管理
中图分类号:F272 文献标识码:A 文章编号:1671-2064(2018)14-0054-02
1 数据治理概览
从范围来讲,数据治理涵盖了从前端事务处理系统、后端业务数据库到终端的数据分析。从目的来讲,数据治理就是要对数据的获取、处理、使用进行监管,保证数据的有效性、可访问性、高质量、一致性、可审计和安全性。从分类来讲,数据治理分为应对性数据治理和主动型数据治理。
(1)应对性数据治理。应对型数据治理是指将前端应用产生的数据,通过数据移动工具批量移动到主数据管理(MDM)系统中。数据经过整理、匹配和合并,然后同步回原系统、企业的其它应用程序以及数据仓库或商业智能/分析系统。由于主要是通过批量方式进行主数据的移动,批量操作带来的时间延迟,可能导致业务部门继续操作“过时的”主数据。(2)主动型数据治理。直接在MDM系统中录入数据,通过预设的业务规则,以整理、匹配和合并数据。这样的优势在于:数据经过预设的规则进行选择性填写,可在源头获得高质量的主数据。保证了数据的初始质量,并且不会再有数据从其它源系统中传入,就实现了主数据管理的主要目标——保证和保持主数据的“干净”;通过使MDM成为录入系统及记录系统,能从本质上将数据维持在“零延迟”状态,新记录实时或准实时的方式发布到其它应用系统。
2 数据治理要点
数据治理包含数据质量管理、数据架构管理、数据开发、数据操作管理、数据安全管理、参考数据和主数据管理、数据仓库和商务智能管理、文档和内容管理、元数据管理。数据治理逻辑架构如图1所示。
2.1 元数据管理
元数据管理,是指通过建立元数据工作配套的组织、制度和平台,对元数据的采集、检验、发布、应用进行一系列的管理活动。
元数据指对数据内容、质量、所处语境等特征的基础性定义或结构化描述,也被称为关于数据的数据,是信息交换和数据共享的基础和前提。元数据按照存放内容可分为技术元数据、业务元数据和操作元数据。
技术元数据,指用于系统设计及日常管理相关数据信息,主要包括数据模型、应用系统以及数据迁移与转换规则等。
业务元数据,指和业务相关的数据信息,用于辅助定位、理解及访问业务信息,主要包括业务术语、业务规则、业务指标、业务报表、概念模型、数据标准以及数据质量规则等内容。
操作元数据,指系统日常运行产生的操作信息,主要包括应用作业程序配置信息以及应用作业运行次数、运行开始时间、运行结束时间、运行结果、处理数据量、异常数据量等内容。
2.2 数据质量管理
数据质量管理(Data Quality Management),是指对数据的生命周期(计划、获取、存储、共享、维护、应用、消亡)的每个阶段里可能引发的各类数据质量问题,进行识别、度量、监控、预警等一系列管理活动,并通过改善和提高组织的管理水平使得数据质量获得进一步提高。
数据质量问题主要有如下几类:
数据完备性。或称为数完整性,主要体现在数据缺失未填,丢失关键数值。或数据值为NULL。
数据有效性。主要体现在数据无意义,或数据有意义但不符合业务定义,或代码取值越界,或关联字段不匹配。
数据唯一性。主要体现在业务关键属性组合不唯一。
数据一致性。主要体现为数据的维度与度量值之间的引用关系断开,或引用关系正常但同一数据不同表格内取值不同,或汇总数据不一致。
数据精确性。主要体现为数据精度不够,不符合业务需求。
数据时效性。主要体现在数据时效太低,不满足统计及需求。或使用了“过期”的数据版本。
数据真实性。主要体现为数据不是真实的业务数据。
3 数据仓库
数据仓库是一个面向主题的、集成的、随时间变化的、但信息本身相对稳定的数据集合,用于对管理决策过程的支持。
数据仓库主要有如下特点:
主题导向。不同于数据库面向事务的特性,数据仓库按主题进行组织,即按数据的意义将其归类至相同的主题区。主题是指用户使用数据仓库进行决策时所關心的重点方面,如销售记录等。
集成性。数据来自企业内的各个数据库,经过数据抽取、清理、转换、系统加工、汇总和整理,消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。
数据随时间变化。数据仓库是随时间而变化的,数据的变动,在数据仓库中会被纪录以及追踪变化的,有助于反映出数据随着时间变化的轨迹。
数据不可更新。数据一旦确认写入数据仓库后是不会被取代或删除的,即便数据是错误的也是如此。
图2描述了一个典型的企业信息工厂模型,数据仓库汇总数据,并为后续分析提供数据支持。
4 商务智能
商务智能(Business Intelligence,简称BI),是一套用来将企业中现有的数据进行有效的整合,快速准确的提供报表并提出决策依据,帮助企业做出明智的业务经营决策的完整的解决方案。
从技术层面来看,BI由数据仓库(或数据集市)、查询报表、数据分析、数据挖掘等部分组成。
从技术成熟度来看,报表系统是BI的初级阶段,数据分析是BI的中级阶段,数据挖掘是BI的高级阶段。
4.1 商务智能的实施步骤
需求分析。商务智能本身也是一个项目,所以从项目管理的角度来讲,必须全面地理解用户的各项要求,做好需求分析。包括需要分析的主题,实现这些主题需要查看的维度等等。
数据仓库建模。通过前期的需求分析,建立企业数仓库的逻辑模型和物理模型,按照规划好的架构,将各类数据按照分析主题进行组织和归类。
数据抽取。依据分析模型将数据仓库建立起来之后,就需要将数据从源端(各个业务系统)抽取到数据仓库。抽取规程中,还需要将数据按照既定的业务规则,进行转换和清洗,加载到各个分析主题中。
建立可视化分析报表。可借助主流BI工具FineBI,通过拖拉的方式,进行可视化分析报表的制作。
4.2 商务智能的发展趋势
传统的商务智能,如SAP BO、Oracle BIEE、IBM Cognos,产品采购成本以及后续的硬件、软件维护、咨询、培训成本均很高,不具有普适性。其次,传统的商务智能实施,考虑到后期的性能和可扩展性,对于数据仓库的设计规范要求很高,实施周期较长。再者,传统商务智能是纯粹的IT驱动,对于业务部门的服务响应周期很长,不适应业务快速发展的需要。
新一代商业分析平台,gartner称之为modern BI platform,以允许业务人员“自服务”为标志。由IT驱动转变为业务驱动,IT负责基础数据架构的整理和接口开发维护,业务人员作为分析主体和需求主体,使用基于人机交互和符合人的认知规律的分析方法,把人所具备的、机器并不擅长的认知能力融入分析过程中,进行快速的可視化分析和报表分析维护。这样的改变的好处是显而易见的,整个BI流程就变得更加敏捷。而且拖拽式这种简单而友好的使用方式,使得上至高层管理人员,下至基层服务人员,都可以快速获得所需的报表。高层可以快速准确决策,基层可以精准有效服务,整个企业的效能将会大幅提升。
同时,随着移动通讯4G网络的快速发展,以及手持式设备的普及,BI的展示就可以扩展到移动手持设备。管理高层可以更加便捷,随时随地的查看报表、做决策,大大提高办公效率。基层人员也可以更加贴近用户,提供高质量的服务。
参考文献
[1]DAMA International著.马欢,刘晨,等译.DAMA数据管理知识体系指南.2012年7月第1版.清华大学出版社,2012:148-149.
[2]William H.Inmon著.王志海等译.数据仓库.机械工业出版社,2006.