APP下载

数据治理为数据流动保驾护航

2020-06-08刘庆会刘相

软件和集成电路 2020年5期
关键词:数据服务数据管理流程

刘庆会 刘相

日前,《中共中央 国务院关于构建更加完善的要素市场化配置体制机制的意见》正式发布。《意见》强调加快培育数据要素市场,明确地将数据要素提升到了与土地、劳动力、资本和技术要素同等重要的地位。国家“新基建”政策七大领域中大数据中心、人工智能、工业互联网三大领域都是和数据有着直接关系的,我们可以预见数据要素将在社会生产生活中发挥越来越显著的促进作用。

如何高效、安全和合规地使用数据,让数据流动起来,发挥数据要素的价值成为一个急需解决的问题。

数据要素治理的两种形态

数据治理是解决组织数字化转型问题不可或缺的工具,通过对数据资产进行规划、监控和执行活动,从组织职责、制度规范、工作流程等方面共同解决数据管理问题。这里有两种典型形态,以金融领域为代表的“管控”形态的数据治理和以政府、企业为代表的“服务”形态的数据治理。

"管控"形态的数据治理,通常围绕元数据开展构建标准、提升数据质量的数据治理工作。元数据是开展数据治理工作的基础,通过元数据收集各类数据资源,包括业务指标、术语等业务元数据及数据库、表、字段等技术元数据,为构建组织数据标准提供素材,再结合行业规范、业务要求建立组织的数据标准,将数据标准作为数据质量的输入,配合元数据建立起数据校验规则,形成依据现状构建标准,通过标准来规范业务、开发、提升数据质量的闭环流程。“管控”形态的数据治理另外一个特征是各种数据管理办法的流程化,通过线上的管理流程将管理办法进行固化,支撑管理办法的落地实施。

以政府和企业为代表“服务”形态的数据治理,同样是以元数据为基础的,借助元数据工具来收集数据资源,对数据资源进行业务化分类和描述,形成可开放共享的数据资产目录,并以数据服务的方式提供给数据消费方进行查询调用。这当中需要对数据质量、安全进行控制,保证提供的数据服务是可信的、可靠的,它与传统的数据服务有着很大的差别,传统数据服务需要靠人工的方式提供需求理解、数据获取、数据测试等过程,经过多轮沟通、确认最终拿到所需的数据。围绕数据资产目录开展的数据服务,通过使用统一的语言,架起了业务与技术沟通的桥梁,对于基础的数据需求,能够实现自助化的数据服务,复杂的业务数据需求也能缩短数据服务开发时间,解决传统数据服务项目中不能有效积累、复用数据服务的问题。“服务”形态的数据治理打通了数据自助使用的最后一环,是敏捷数据治理的实践方式。

“管用”一体能有效解决数据治理问题

“管控”形态的数据治理,在数据使用的环节中增加了审批、检查的环节,降低了数据流动效率。另外,由于数据资源正确性无法得到有效验证,限制了使用的用户范围,无法直达最终数据消费方。“服务”形态的数据治理,无法有效提前发现问题、定位问题责任方,通过人工排查问题的方式让数据消费方十分烦恼。“管用”一体的数据运营平台将数据的使用和管理有机地结合在一起,通过边使用边治理的方式,数据治理的成效能够快速显现。该平台主要包括五大模块:数据流程引擎模块、数据管理模块、数据资源监控模块、数据服务发布模块、数据服务开发模块。

数据流程引擎是对数据管理制度的流程化,将统一规范的数据管理制度固化到数据流程中。通过配置不同角色、用户及审批环节实现不同组织数据管理流程的个性化配置。数据管理流程包括数据需求管理流程、数据质量管理流程、数据模型管理流程等。

数据管理模块是对数据标准、数据资源、数据质量、数据安全等级的统一管理模块。它围绕“数据资产目录”展开数据管理的工作,数据资产目录的形成可以借助元数据工具及一定量的人工梳理、确认,最终形成业务化的在组织内达成共识的数据目录。数据质量工作是贯穿数据流动的全过程的,在数据来源端的检查,保证数据的规范性。数据的录入是符合数据标准的要求的,同时在发现数据问题后,能够定位到相应的数据责任人。数据处理过程中的检核,能及时发现数据不一致的问题。数据处理过程后的核验、检查,能保证数据数据清洗、转换的正确性,不会造成数据丢失或加工错误。

数据服务开发模块是在数据资产目录形成之后,通过数据开发模块对数据来源端(业务生产类产生的数据)进行集成、汇聚,包括对实时、批量数据汇聚,形成与数据资产目录对应的数据存储。要形成对应的数据存储,就需要做数据迁移,需要对数据的清洗和加工作业的编排,这样ETL作业才能按序执行。

数据服务发布模块将数据资产目录做成API接口,提供实时数据查询服务及批量数据服务。通过这个模块,数据的消费方就可以通过自助的方式来提交数据使用申请,审批通过后就能直接使用数据了。

数据资源监控模块,是整个数据治理体系中一个重要的环节,需要对数据服务调用情况(请求报文、返回报文、调度频率、失败次数、成功次数等)、ETL作业执行情况(成功、失败、执行时间)、数据资源变更、数据质量整改情况等進行全方位的监控,保证数据服务的安全性、可靠性。

“管用”一体的数据运营平台打通了数据管理与数据使用的关系,解决了传统数据治理在短期无法见到成效的问题,同时可以按照“急用先行”的数据治理实施原则,优先开展应用程度较高的数据的治理工作,让有限的数据治理资源发挥最大效能。

“管用”一体数据运营平台最佳实践

普元信息为某大型保险企业实施了数据统一运营平台,采用了微服务架构对接大数据平台集群,提供订单、客户查询的服务,其中订单查询服务的性能压测表明,在11万条以上订单并发的情况下,TPS值能达到17万以上,处理成功率在99%以上,同时通过在Gateway网关中增加不同功能的拦截器对数据消费端(IP、系统)进行权限控制,并采用异步机制收集服务调用日志,在不影响数据服务查询性能下汇总统计生成服务调用报告,实现对数据资源调用情况的有效监控。

数据管理模块对客户信息进行了全方位数据质量监控,使该保险企业个人客户信息得到极大完善,有效提升客户信息的完整性、真实性、规范性。监控范围包括了客户三要素重复性检查、疑似同一客户统计等,疑似同一客户判断采用了证件类型、证件号码和客户名称三项数据核对,以实现对疑似同一客户的筛查。同时结合了其它数据治理手段,例如考核、通报等,使客户信息治理的工作有效地开展。

数据要素治理发展方向

“管用”一体化的数据运营平台是敏捷数据治理的体现,在保证数据安全、合规的情况下,缩短了数据消费方获取数据的时间,打通了数据流动的壁垒。另一方面,一体化的数据运营平台为数据价值的度量提供了可操作的空间,通过对数据服务及相关行为的持续跟踪和记录,包括数据服务被业务部门使用的次数、访问的数据量等,可以对数据服务商品按照流量、频率进行定价,最终实现数据要素市场化的诉求。

数据运营平台的一体化还体现在所面向的用户的多样性,它把原来组织内数据相关的操作人员需要登录多个系统才能解决的事情统一到一个平台来完成。数据的消费方可以在平台内直接进行服务浏览、服务申请、服务使用的操作。数据开发者能够通过在线开发的方式进行数据集成、汇聚,以及数据服务的发布。数据管理员负责维护数据资产目录、监控数据质量、设置数据安全分级等。运维人员可以对数据集成调度情况、服务状态、服务调用、服务资源使用等情况进行监控。

综上所述,“管用”一体化的数据运营平台是“管控”形态数据治理自然演化的结果,为发挥、度量数据价值提供了统一的平台。

猜你喜欢

数据服务数据管理流程
急诊快捷护理流程在急性脑卒中抢救中的应用
《大数据管理》课程思政教学质量评价体系研究
大数据环境下高校图书馆数据馆员建设研究
与元英&宫胁咲良零距离 from IZ*ONE
如何有效开展DCMM数据管理成熟度评估
数据挖掘在学生成绩数据管理中的应用研究
数据挖掘在学生成绩数据管理中的应用研究
四川省高考志愿填报流程简图
公共图书馆流通外包管理研究
“一课四备”磨课流程例说