数据中台技术在业务系统中的应用研究
2019-10-21李巍巍
摘 要:随着大数据技术的快速发展,以数据采集、数据集成、数据治理等为典型特征的数据中台技术得到发展应用。本文通过对数据中台和数据仓库、数据平台的特征进行对比,阐明了数据中台应该具备的能力和作用。结合泛在电力物联网的建设,指明了数据中台建设需关注的关键指标,为企业数据中台建设提供了参考。
关键词:大数据;数据驱动;数据中台;泛在电力物联网
中图分类号:TP391.7 文献标识码:A 文章编号:2096-4706(2019)21-0108-03
Abstract:With the rapid development of big data technology,DPaaS technology with typical characteristics such as data collection,data integration and data governance has been developed and applied. By comparing the characteristics of DPaaS,data warehouse and data platform,the capability and function of DPaaS are expounded. Combined with the construction of ubiquitous electric power internet of things,it points out the key indicators to be concerned about in the construction of DPaaS,and provides a reference for the construction of enterprise DPaaS.
Keywords:big data;data driven;DPaaS;ubiquitous electric power internet of things
0 引 言
伴隨着移动互联网和物联网的迅猛发展,大数据技术逐步推广应用,根据中国信息通信研究院发布的中国大数据发展调查报告:2017年中国大数据总体规模为4700亿元人民币,2018年大数据产业规模已经突破6000亿元人民币,增长迅速,预计2019年大数据市场规模可超过7150亿元人民币。在大数据方面,国内60%以上的企业开展了包括数据挖掘、机器学习、数据资产管理、智能决策等大数据技术研究与应用,企业对数据分析的重视程度进一步提高。数字化转型成为企业发展的战略需要,其中通过大数据应用实现智能决策的企业占比最高,达到了55.2%,其次,46.6%的企业表示应用大数据后能够提升运营效果,35.9%的企业应用大数据后能够更好地管理风险。近几年,相应技术层级的企业都如雨后春笋般涌现。目前,数据体量、产业规模以及云计算高速发展所推动的基础设施成本都已不再是问题,大数据能否创造真实的商业价值和回报是大数据企业真正关心的核心问题。数据时代带来的挑战不仅仅是数据量的爆发式增长,更重要的是如何管理好、治理好、利用好这些数据,显然,传统的大数据建设方法论无法满足需求。大数据应用的意义不在于掌握了庞大的数据信息,而在于对数据的专业化处理。我们需要经由不同渠道将数据采集进来,基于存储技术将这些数据快速、安全、分类、有序地存储起来,再基于计算技术对这些数据进行加工、处理,将数据转化为有用信息[1,2],其中,数据采集是大数据应用的基础,而数据计算则是大数据应用的关键。然而,传统信息化架构存在的弊端,导致数据应用在这三个层次上均无法有效落地。
基于技术发展需求,数据中台技术应运而生。中台概念产生的核心思想是“共享”和“复用”。中台概念与前台和后台相对应。前台即面向客户的市场、销售和服务部门或系统,后台是技术支持、研发、财务、人力资源、内部审计等二线支撑部门或系统。
1 数据中台的概念
所谓数据中台,可以理解为是数据界面的一种架构,通过数据技术将数据从应用界面复制出来,然后通过数据计算、加工,进而为上层数据应用提供统一标准和口径的支撑。数据中台主要是构建规范的、数据全域化的、智能的数据处理架构,进而为前台提供高效的数据分析和应用服务。数据中台主要涵盖了数据资产、数据治理、数据模型、全域数据中心、数据服务等多个层次的体系化建设方法。
1.1 数据中台的作用
根据Gartner的Pace Layer来理解中间层,可以更好地理解中台的定位和价值。在数据开发中,核心数据模型的变化是相对缓慢的,同时,对数据进行维护的工作量也非常大;但业务创新的速度对数据提出的需求变化是非常快速的。数据中台的出现,就是为了弥补数据开发和应用开发之间,由于开发速度不匹配出现的响应力跟不上的问题。数据中台解决的问题可以总结为如下三点:效率问题、协作问题、能力问题。
1.2 数据中台和数据仓库、数据平台的关键区别
数据中台的实质是构建全域数据共享的中心,提供数据采集、数据萃取、数据服务等全链路一体化的服务,提供面向企业业务应用的数据智能平台;数据平台是以存储、运算、显示为目的的平台,它是以处理海量数据存储、计算及不间断流数据实时计算等场景为主的一套基础设施,主要是直接为业务提供数据集服务;数据仓库则是信息的集中存储库,为企业提供所有类型数据支持的战略集合,创建的目的主要是出于分析和决策支持,它以前端查询和分析作为基础,存在的问题是冗余较大,需要的存储空间较大[3-5]。通过对比可以看出,数据中台更加贴近具体业务,可以为业务提供更快捷的服务,企业可以在已有的数据平台和数据仓库之上构建数据中台,也可以把数据中台看作为企业从具体数据到业务价值实现过程的中间层。
从图1可以看出,数据中台首先把企业的公开数据、内部数据、线上数据、线下数据等所有数据都集成到一起,进而构建为一个大的数据集。当有相关业务需求时,再通过数据抽取,以数据集的形式提供数据应用。所以,数据中台的核心首先要做到数据高效汇集、整合、处理,进而实现在不同单位、不同专业间的共享及应用。
2 数据中台的数据能力
企业所需要具备的数据能力可以简单概括为六种,如图2所示。企业具备了这六种能力,才具备成为数据驱动的智能企业的基础,而这些能力的承载平台,就是数据中台。
数据资产的获取和存储:数据中台要为企业提供强大的数据资产的获取和存储的能力。
数据资产的规划和治理:做中台之前,首先需要知道业务价值是什么,从业务角度去思考企业的数据资产是什么。数据资产不等同于数据,数据资产是唯一的,能为业务产生价值的数据。对于同一堆数据,不同业务部门所关注的数据指标可能完全不同。这就需要让各个跨域的业务有统一的标准,为此也就需要规划企业的数据全景图,将所有可能用上的、对企业可能有价值的数据都规划出来,最终梳理出企业的数据资产目录。在这个时候不需要考虑有没有系统或数据,只需要关注哪些数据是对企业业务有价值的。数据的共享和协作:企业的数据中台一定是跨域的,需要让所有的人都知道数据资产目录在哪里。不能为了保障数据安全,就不让大家知道企业有什么数据。没有共享和开放,数据就没有办法流动起来,如果没有流动,数据的价值产生速度就会非常慢。所以在数据安全的基础上,企业的数据资产目录要对利益相关者、价值创造者开放。
业务价值的探索和分析:数据中台不仅要建立到源数据的通路,还需要提供分析数据的工具和能力,帮助业务人员去探索和发现数据的业务价值。一个好的数据中台解决方案中需要针对不同业务岗位的用户提供个性化的数据探索和分析的工具,并且在此基础上一键生成数据API,以多样化的方式提供给前台系统。
数据服务的构建和治理:数据中台需要保证数据服务的性能和稳定性,以及数据质量和准确性,还需要具备强大的服务治理能力。数据中台是一个生态平台,在数据中台上面会不断生长各种数据服务,所以从一开始就构建好数据服务的治理结构是非常重要的,数据服务需要可以被记录、跟踪、审计和监控。
数据服务的度量和运行:如果数据中台最终只是做到把数据给到业务人员,那它就只是一个搬运工的角色。数据中台还需要具备度量和运营数据服务的能力,能够对中台上提供的数据服务及相关行为持续跟踪和记录,包括哪些数据服务被哪个部门用了多少次等,通过这些去度量每一个数据服务的业务价值。
3 建設数据中台的关键点
建设数据中台的关键点可以简要概括为两方面。
一方面,数据中台一定要与业务价值对齐。构建数据中台,最重要的不是技术,也不是数据质量的高低,而是数据思维和数据文化。数据思维就是要建立起从数据的视角去思考问题的方式;数据文化就是要把数据和业务看作一个整体,而不是只将数据当作一个支持工具。想清楚业务对于数据的诉求是构建数据中台的第一步,哪怕暂时不能想得太细,也要去想,想不清楚就先不要做。不要在业务场景还没有明确、优先级还不清晰、价值度量体系尚未建立起来的时候,就建立大而全的数据平台,并且把所有的数据都存起来。企业都是追求投入产出比的,大而全的数据平台往往会面临尴尬的局面,大量功能看上去很有用,应该都能用上,但是缺乏应用场景;但当真的有了场景,发现也不能开箱即用,还需要众多的定制化。
另一方面,数据中台应该从小数据、小场景做起。数据中台是面向场景而非面向技术的,这种与客户的业务、企业的结构和信息化发展阶段有着紧密的相关性的业务基础架构,是很难通过购买一个大而全的产品来一劳永逸地解决的。一开始的时候需要进行顶层设计,面向业务愿景制定中台的整体规划,全面梳理数据创新全景蓝图,通过业务愿景驱动出所有的业务场景探索,从而推导出数据中台的全景架构、技术支撑。但是在实施的时候,要从具体的业务场景出发。从高价值数据集场景做起,然后顺着这个场景竖切,找到数据全景图中的一个或多个数据集合,从小数据场景落地,这样才能快速验证价值。从大处思考,全局拉通,避免后续的数据孤岛,从小数据集切入,从可实现性高的场景启动,然后将一个个的场景做起来,业务价值和中台能力也就可以同步地建立起来。
4 在业务系统中的应用
2019年,国家电网提出建设“三型两网”的企业战略目标,其涉及到的平台型、共享型企业,就是要实现公司数据资源共享化、服务化,破除企业各系统之间的“部门级”壁垒,将数据资源上升到“企业级”,将企业共性的服务和数据进行服务化处理,以微服务技术为基础,形成灵活、强大的企业共享服务能力。完善提升国网全业务统一数据中心、完善泛在电力物联网统一数据模型(SG-CIM),促进数据横向跨专业共享,其建设需要坚持企业级建设、以用户为中心、以应用为导向、统一创新结合、立足公司实际,借鉴外部先进成功经验,结合国网公司业务实际和现有系统建设情况进行完善提升。
例如,随着新能源接入比例的不断提高与特高压电网互联的日益加深,现有的机组调控模式及管理方法难以匹配新能源本身所固有的波动性,造成弃风弃光等现象的发生以及电网频率的不稳定。需要考虑如何根据各区域电网内电源的情况,掌握自身的功率调节空间和调节速率,进而提炼出区域电网内的功率实时调整空间,为跨区域电网调度提供参考决策。电源侧机组的功率调节空间和调节速率是受多方面因素影响的,比如对火电机组来说,影响功率的直接因素为汽轮机调门的开度、锅炉主蒸汽压力的高低等,而锅炉主蒸汽压力的高低又受磨煤机的制粉能力,给水泵的供水能力,送风机、引风机、一次风机等的风量控制等诸多系统的影响,如果电网将所有每台机组的数据采集到主站端,那一台机组的数据点就是上万个,并且对数据的可靠性也提出了严格的要求。因此,需要在子站电源端的数据平台上进行开发,根据电网关注的数据进行研发。同时,通过电源侧发电机组状态的全面感知,提高其发电、并网及新能源消纳问题;在负荷侧,提升用户用能效率,进而实现源网荷协同发展。
针对运维过程中的工作不便捷、疑难故障需远程协助的问题,提供物联网移动协作解决方案,包括使用移动化技术的APP、“互联网+”思维的资源整合远程协助和生物识别技术的认证权限管控,提升运维工作的便捷性,保障泛在电力物联网系统的运行安全稳定。方案特点:移动化APP实现随时随地掌控系统状态、远程协助实现故障会诊处理、实现生物识别认证,更加安全。应用场景:领导外出时的在线审批;运维人员夜间及时感知系统状态;疑难故障多专家会诊处理;故障处理时在线查看备件状态;运维人员手持终端开展核查资产等。
5 结 论
一个企业的数据要能够充分发挥价值,很重要的一个前提条件就是这个企业的数据结构和数据资产目录是对整个企业开放的。所有人都能够通过这个资产目录了解公司有哪些类别的数据、包含什么属性、源数据由谁管理,这样就可以快速搞清楚这些数据是不是自己需要的。但数据本身可以不开放,因为数据是有隐私信息和安全级别的。同时,面向短时间尺度的动态需求响应,可结合5G技术,采集海量多元化数据提升泛在物联网的全息感知、泛在连接、开放共享能力,实现行业与信息的互联互通,最终实现共建、共治、共享的互联网生态圈。
参考文献:
[1] 王珊,王会举,覃雄派,等.架构大数据:挑战、现状与展望 [J].计算机学报,2011,34(10):1741-1752.
[2] 金培权,郝行军,岳丽华.面向新型存储的大数据存储架构与核心算法综述 [J].计算机工程与科学,2013,35(10):12-24.
[3] 孟小峰,慈祥.大数据管理:概念、技术与挑战 [J].计算机研究与发展,2013(1):148-171.
[4] 李建中,刘显敏.大数据的一个重要方面:数据可用性 [J].计算机研究与发展,2013,50(6):1147-1162.
[5] HAN J,KAMBER M.数据挖掘:概念与技术 [M].范明,孟小峰,等译.北京:机械工业出版社,2001.
作者简介:李巍巍(1981-),女,汉族,山东招远人,高级工程师,毕业于山东大学计算机科学与技术学院,工学硕士,研究方向:信息系统和数据中心的规划建设、架构及信息技术应用等。