我国企业数据治理的困境与解决之道
2024-06-15张树江林德丽王晓莉
张树江 林德丽 王晓莉
摘 要:2024年政府工作报告明确表示,要深入推进数字经济创新发展。加快传统产业和中小企业数字化转型,提升企业的综合实力与核心竞争力。数据是企业实现数字化转型的关键,在很大程度上决定着企业数字化转型的成败,因此数据治理对企业有着非常重要的意义。笔者根据多年企业数据管理经验,深入总结分析了我国企业在数据治理方面存在的问题,并从战略规划、方法论和数据治理工具三个方面论述了如何做好企业的数据治理工作。
关键词:数据治理;数字化;战略规划;方法论;治理工具
中图分类号:F253.9 文献标识码:A 文章编号:1005-6432(2024)16-0079-04
DOI:10.13939/j.cnki.zgsc.2024.16.020
1 引言
近几年,随着互联网、大数据、人工智能等技术的迅速发展,数据治理在国家、社会、企业治理中的作用愈加突出,包括国家发改委、工信部等在内的多个政府部门对提升政府、行业、企业数据治理能力提出了明确的要求[1]。2023年3月,中共中央、国务院印发了《党和国家机构改革方案》,明确提出组建国家数据局的计划,充分体现了国家对数据治理的高度重视,这也必将使政府数据治理向着更规范、更标准化的方向发展[2]。
在当前数字化转型的大潮下,企业能否成功实现数字化转型对企业的发展尤为关键,而企业数字化转型的一个关键因素就是数据。现在一些企业的数据方面存在一些问题,如企业的数据找不到、不准确、不及时等,都会直接制约企业的数字化转型之路。数据实现规范化管理,确保质量,做到完整、统一、准确、及时,有助于推动企业快速实现数字化转型。因此,数据治理(data governance)是推动企业数字化转型的关键。只有企业拥有高质量的数据,为企业的管理、运营和决策提供助力,数字化转型才能顺利进行。
数据治理其实是一种体系,是一个关注于信息系统执行层面的体系,这一体系的目的是整合IT与业务部的知识和意见,通过将流程、策略、标准和组织的有效组合,对企业的信息化建设进行全方位的监管。数据治理需要企业高层的授权和业务部门与IT部门的密切协作。
数据治理的目标是实现一致的信息架构与标准、唯一可信的数据源、可靠的外部数据、数据架构与IT握手、跨领域数据汇聚与整合、报告/指标数据可服务化、业务监测过程数据可视化、可管理。
目前大多数企业已经认识到数据治理的重要性,但当真正着手企业的数据治理时,仍然面临着诸多的困难和挑战。笔者结合多年企业数据治理经验,深入分析了我国企业在数字化转型过程中在数据治理方面面临的困境。企业应根据自身实际,从战略规划、方法论和治理工具三个方面做好企业数据治理。
2 企业在数据治理方面面临的困境
2.1 部门间缺乏有效沟通,数据孤岛现象严重,无法有效实现企业内部数据共享
数据孤岛一般是指企业将不同的业务、部门之间的数据各自存储、定义,导致企业中的数据像一个个孤岛一样被分割成若干个部分,数据分散在各大平台、自建系统、SaaS系统、Excel……彼此孤立,难以形成合力。在大数据迅速发展的今天,企业对数据越来越重视,而由信息孤岛造成的部门间的数据难以形成有效的联系,或者由不同部门针对相同数据定义值而作出不同解释,造成数据污染,对企业的数字化发展造成越来越严重的影响。
对大部分企业来说,企业拥有大量的数据,但这些数据虽然体量巨大,但是来源却很分散,格式也是多种多样,加上缺乏有效的数据治理,数据孤岛现象比较严重,导致企业内部数据分散、孤立和碎片化。比如企业内部由于不同部门间的业务系统缺乏有效沟通,难以实现不同部门之间的“网络通、业务通、数据通”,以致同一企业内部无法实现数据共享。数据孤岛问题的存在,给厘清企业的数据家底带来很大的困难,使企业内部的数据交流变得十分低效,决策反应变得愈发迟钝,严重影响企业的发展。
2.2 数据生产能力和汇聚能力不足,企业数据开发基础比较薄弱
我国有数量庞大的企业群体,企业在信息化建设方面程度参差不齐。新技术、新工艺和新方法等的应用,使企业内部各方面的更新换代加快,很多企业的数据治理没有跟上产品或业务的发展变化,这主要是因为在数据治理方面,企业采取固化的数据组合,或者建模方式不够灵活等难以应对快速变化的产品、业务或市场。即使现在,仍有很多企业采用手工制表,效率低下,数据采集能力与数据生产能力不相匹配,大大降低数据时效性,数据质量也难以得到保证。
企业对数据治理的认识和重视程度存在很大的差异。很多企业还没有认识到数据的重要性,没有做过数据整理的工作,或者没有厘清企业拥有哪些数据、数据分布情况等,造成数据底账不清,使大部分企业的数据仍处于“睡眠”状态。而对于一些传统行业而言,很多企业的信息化建设基础还比较差,设备接口不开放造成数据难以采集。另有一些企业虽然已经做过数据治理的工作,但存在数据失真、失准及一致性差等情况,造成数据汇聚质量不高[3]。
2.3 数据管控能力薄弱,治理标准不统一,数据质量难以得到保证
数据标准对保障数据的内外部使用和交换的一致性、准确性有着根本的约束作用。从企业视角来看,数据标准就是对数据的表达、格式及定义的一致约定,企业在进行数据治理时,要遵循一定的数据标准,或者按国家标准,或者按行业标准。但从目前企业数据治理的实践情况来看,很多企业在进行数据治理时并没有遵循一套统一的数据标准,导致生产的数据质量参差不齐[4]。
在数据治理中,企业不仅要考虑数据自身的质量问题,也要考虑不同系统(数据所处环境)间由于各种原因造成的数据质量问题,数据来源多个部门,以免出现同一指标可能出自不同部门而造成的数据混乱。因此,数据建设在解决数据有无的问题的同时,也要重视数据的质量问题,需要结合现有的业务管理系统,从数据的一致性、完整性、合规性、冗余性、及时性和有效性等维度进行全面分析。
2.4 数据开发与数据治理脱节,治理体系不完善,缺乏全流程可视化管理工具
很多企业的数据开发与数据治理脱节,开发和治理是两张皮。数据生产、建模、运维安全等归属不同的部门,没有统一的协调机制,各自为政。数据生产没有从顶层设计和源头管控,开发的数据因缺乏有效的监督机制而无法保证质量,数据治理不能很好地融入数据开发各环节之中,造成数据开发与治理是一个先污染后治理的过程,既降低了效率,又加大了工作量。或者数据资源存在于企业的多个业务系统中,分布在线上和线下,甚至分布在企业的外部,而数据治理系统从后端到前端相互独立,而且属于耦合开发,导致整个系统臃肿而建设效率低下,存在大量的重复性建设工作,对业务的响应也不够快。如果将各独立系统中的大量历史数据及任务进行统一管理,就需要承担高昂的数据迁移成本。
3 企业数据治理的解决之道
对企业而言,数据治理绝不仅是开发人员或者开发部门的技术问题,数据治理更强调顶层设计、战略规划和组织保障,是一项复杂的系统工程。从实践情况来看,数据治理可以分为战略规划、方法论和工具论三个方面。只有在符合企业实际的战略规划指导下,采用科学的方法论,运用先进的工具,才能将企业的数据治理好。
(1)战略规划方面。数据治理是一个持续不断投入的过程,短期内难见成效,长期才能看到数据治理的效果,数据治理需要长远的眼光和持续的耐心,必须做好顶层设计,制定战略规划。
战略规划是数据治理活动的总纲和指导,是从顶层对数据治理的规划,强调数据战略、组织模式、职责分工以及标准规范,从长远和大局保证数据建设的长期性、规范性和正确性。战略规划要切实符合企业的实际情况,在现实中具有可执行性。要建立好组织保障,由具有权威性的领导和执行力的技术人员组成专门部门负责数据治理的工作,完善相关的组织架构,进行权责分担机制。数据治理组织需要自上而下形成完整的体系,一般情况下可分为决策层、管理层、执行层和监督层四个层级。数据治理要有章可循,制定数据治理的总体规定、数据架构管理办法、数据质量管理办法、数据安全管理规范、数据监管填报规范等多项制度规范,使企业在数据治理方面的工作正规化、标准化,数据标准、质量、安全等具体工作落实到实处,责任到个人。
(2)方法论方面。在企业数据治理的实际过程中,人们往往关心的是具体用什么工具,取得了怎样的效果。但在实践中,数据治理的很大一部分工作是战略规划和方法论的问题,只有长远的战略规划和正确的方法论相结合,才能保证数据治理工作的有效进行。想要做好企业的数据治理,需要做好四个方向的方法论,即数据模型规范、数据质量治理、数据成本治理和数据安全治理。
企业数据模型要遵循一定的模式和规范,在数据治理的整个过程中,遵循一致性和连续性。构建一整套完善的数据质量监控体系,包含质量规则引擎、数据质量异常监控报警、异常数据在线修复。企业数据安全合规是企业数据治理的核心和红线,企业对于数据的收集和使用必须遵守国家的法律和规范,对于涉及公民隐私等相关数据务必进行安全与合规化的管理和控制。数据治理方案对不同的使用者提供不同数据安全级别的控制,从取数和访问流程到数据的隔离和区分,同时提供专门针对数据安全的服务控制,切实保障企业数据安全。
(3)数据治理工具方面。在制定了符合企业发展的战略规划,在正确方法论的保障下,选择合适的数据治理工具是水到渠成之事。治理工具的选择应根据企业的实际,包括人才方面、资金方面和前期工作方面等。
以阿里云的DataWorks数据治理平台为例,其基于ODPS/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。DataWorks可用于数据传输、转换和集成等操作,从不同的数据存储载入数据,并进行转化和开发,将处理好的数据同步至其他数据系统,从而提供了数据集成、数据开发、数据地图、数据质量和数据服务等全方位的产品服务,可以助力企业实现较好的数据治理,实现企业数据分析、挖掘和探索,从而实现数据的价值[5]。
DataWorks数据治理平台的体系架构可分为六个部分(其功能架构如图1所示)。数据汇集是数据接入端口,所有数据来自业务系统、日志、文件、网络等,由数据汇集工具将这些数据汇集到数据中台。汇集到中台的数据由数据开发部门进行加工和处理,并对数据进行清洗工作。数据体系负责大数据平台中数据仓库的构建。数据资产管理包括对数据资产目录、元数据、数据质量、数据血缘、数据生命周期等进行管理和展示,是以企业全员更好理解的方式把企业数据展现给全企业人员。数据服务体系就是把数据变为一种服务能力,通过数据服务让数据参与到业务之中。运营体系和安全管理建设内容主要涉及企业资产管理和数据安全,使数据越用越多、越用越活,是数据中台健康持续运转的基础[6]。
图1 阿里数据中台功能架构
数据中台的技术架构主要是大数据处理的一系列技术和方法,主要分为数据源、数据采集、数据计算、数据存储和分析、数据服务以及研发及运维六个部分,中台技术架构如图2所示。
EasyData是百度旗下公司基于数据生产力方法论打造的一站式数据开发治理平台,提供数据采集、标注、清洗、加工等数据服务,可以帮助企业数据技术开发者获取AI开发所需的高质量数据[7]。EasyData在国内率先提出并实现建设开发与数据治理的一体化,具有包括元数据管理、数据标准、指标系统、数据建模等在内的DataFusion数据治理能力,其数据治理架构如图3所示。
图2 阿里数据中台技术架构
EasyData在数据治理方面,主要可实现以下功能:
(1)数据采集、标注、清洗服务,高质量的数据加工。EasyData提供了比较便捷的数据采集方案和丰富的数据标注模板及工具,可以以一定的标准,比较方便而灵活地实现对数据的采集。对采集完成的数据,可进一步地进行数据的标注、智能清洗等数据加工工作,依靠百度强大的高精度算法,输出高质量的数据,保证了数据建设的质量。
(2)可视化数据管理。非结构化数据一直是数据治理难题,而EasyData提供了对图片、文本、音频、视频等非结构化类数据的可视化管理功能,支持便捷的数据导入、导出、查看、分版本管理等完善的管理服务。
(3)数据安全管理。数据安全是数据治理的重要方面,EasyData在提供数据加密及隔离存储之后提供完善的安全技术方案,进一步保障数据的安全。
此外,百度利用强大的生态环境,提供了各种服务,可以将治理好的数据进行模型训练、服务部署等。
图3 EasyData数据治理架构
文章仅以阿里云数据治理平台DataWorks和百度EasyData作为企业数据治理工具的例子,阐述数据治理平台的功能结构和技术架构。目前在企业数据治理工具方面,国内众多的数据服务企业开发出了适合各自行业的、具有自主知识产权的数据治理工具,提供了比较好的数据治理解决方案,比如还有华为的DataArts Studio数据治理平台、星环科技的Transwarp Governor数据治理工具、滴普科技的实时湖仓平台FastData、美林科技的Tempo数据治理平台等,都具有较好的数据治理能力。企业可根据自身的资金预算和技术能力等实际情况,选择适合企业自身情况的数据治理工具。
4 结论
不同企业集团的业务、规模、所处行业不同,其数据治理所面临的问题、解决方案和工作方法也将有所不同。企业应从自身实际出发,建立完善的数据治理体系,为数字化转型提供有力支撑点。
企业数据治理是一套持续改善的管理机制,需要持续增加、更新和扩充数据资源,不断加强数据治理事项的日常管理。
参考文献:
[1]工业和信息化部.《工业和信息化部关于工业大数据发展的指导意见》 (工信部信发〔2020〕67号) [EB/OL].https://baike.baidu.com/item.
[2]孙冰.解码国家数据局组建逻辑[J].中国经济周刊,2023(6):28-32.
[3] 孙超.工业数字化转型背景下数据治理研究[J].网络安全和信息化,2023(3):4-6.
[4] 蒋艳.把握数据治理三大趋势 做强做优做大我国数字经济[J].通信世界,2023(1):32-35.
[5] 阿里巴巴.大数据开发治理平台 DataWorks[EB/OL].[2023-05-15].https://www.aliyun.com/product/bigdata/ide.
[6] 刘晓.阿里巴巴:数据技术驱动媒体深度融合转型[J].国际品牌观察,2021(24):44-49.
[7]百度.EasyData智能数据服务平台[EB/OL].[ 2023-05-27].https://ai.baidu.com/easydata/.
[基金项目]青岛黄海学院博士科研启动基金资助项目“面向中小企业的基于湖仓一体化数据治理平台研究”(项目编号:2023boshi04);中国商业统计学会2023年度规划课题重点课题“数字经济与创新要素配置互促发展的作用机制研究——以青岛市制造业为例”(项目编号:2023STZB10)。
[作者简介]张树江(1978—),男,青岛黄海学院大数据学院教师,博士,研究方向:数据治理与分析应用、数字图像处理。