APP下载

面向烟草行业的数据中台研究与应用

2023-07-26李晓芬于志伟曹晓冬林硕

电脑知识与技术 2023年16期
关键词:中台数据仓库烟草行业

李晓芬,于志伟,曹晓冬,林硕

(1.吉林烟草工业有限责任公司延吉卷烟厂,吉林 延吉 133000;2.沈阳建筑大学,辽宁 沈阳 110168)

0 引言

数据是企业的命脉。数据来源于业务,如何让数据更好地服务企业,是各类企业一直探索研究的课题。迄今为止,整个演变经历了四个阶段:数据库、传统数据仓库、大数据平台、数据中台。第一个阶段:1979 年,Oracle 发布了商用版本的数据库,实现了数据的永久存储[1]。1996 年,MySQL 发布了1.0 版本。2000 年数据存储开始逐渐走向流行和成熟。第二个阶段:数据库的出现使数据的永久存储成为可能,如何充分利用这些数据,为企业的经营决策提供支撑成为这一阶段的核心问题。在1991 年出版的Building the Data Warehouse中,数据仓库之父比尔·恩门(Bill Inmon) 首次给出了数据仓库的完整定义,他认为:数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的,不可修改的数据集合。第一次明确了数据分析的应用场景应该用单独的解决方案去实现,不再依赖于业务的数据库。第三个阶段:随着互联网的发展,数据呈指数增长,数据类型异构化,传统的数据仓库无法承载海量数据存储和计算[2]。分布式文件系统 GFS、大数据分布式计算框架 MapReduce 和NoSQL 数据库系统 BigTable,使海量数据存储和计算有了理论指导。Hadoop商业版本的发布,解决数据研发低效率、高门槛的问题,大数据平台应运而生。第四阶段:数据发展到了2016年左右,面向不同业务场景的应用开发越来越多,烟囱式的开发模式,导致数据的割裂,数据无法共享。为解决这一问题,避免数据重复加工,提高数据共享能力,赋能数据应用的数据中台应运而生。

数据中台的定义各家有各自的独到见解,但核心功能包括:打破数据壁垒,统一标准和口径,形成全域级、可复用的数据资产中心和数据存储能力中心,为业务赋能、为数据赋能。

适合建设数据中台的企业需要具备如下几个特征:第一个特征:企业具备大量数据应用场景。第二个特征:企业建立了大量的烟囱系统,存在大量异构、非同源数据,需要打破数据壁垒。第三个特征:立志实现精益运营,且具备一定实力的企业。

构建数据中台的方法论,可归纳为两点:统一数据标准规范和统一数据接口服务。

构建数据中台的技术路线:1) 建设大数据存储、计算设施。2) 结合商用和开源工具组件,构建数据平台。3) 开展数据治理,统一数据标准,体现为数据发现、模型、质量、成本和指标的治理五个方面。4) 建设对外统一数据接口服务。5) 基于数据服务,为业务赋能。

综上所述,从理论支撑、工具支持、方法论、技术路线等多个方面均已很成熟,为数据中台的建设提供了有力支撑。

1 应用背景

随着几十年的信息化、网络化建设,烟草行业在信息化建设方面取得了卓越成效,在仓储、物流、能耗、销售、生产、采购、售后等方面实现了精益化管理。

烟草行业在信息化建设主要体现在两个方面:一是基础建设的升级改造,包括设备、仪表的升级改造,网络建设等。二是信息化建设,先后建设了面向不同应用场景的信息化系统。如面向生产过程管控的MES(Manufacturing Execution System,制造执行系统)、面向企业管理信息化的ERP(Enterprise Resource Planning,企业资源计划)、面向生产设备管理的EAM(Enterprise Asset Management ,企业资产管理系统)、面向仓储的WMS(Warehouse Management System,仓储管理系统)等。信息化的建设实现了烟草企业全流程的精益化管理。

烟草行业开始信息化建设的时间较早、信息化建设投入相对很大,经过数十年的建设,取得巨大成效的同时,也存在弊端。在信息化建设初期,受技术和其他因素影响,对于整个信息化建设缺乏长远、战略、统筹规划,导致烟囱系统林立,老旧信息系统亟须更新换代。数十年的信息化建设,形成面向烟草行业的海量数据,由于数据之间不同源、数据类型、数据模型不一致等导致形成大量数据孤岛,打破系统壁垒,实现互联互通,打破数据孤岛,实现数据为企业赋能,是未来烟草行业信息化建设的重中之重。

随着物联网、云计算、互联网+、智能感知、大数据平台、数据中台等高新技术的逐步成熟与广泛应用,架设面向烟草行业的数据中台,挖掘潜在的应用,全面提升烟草生产质量、提升物流、仓储、销售的服务水平和扩展新的服务方式,实现数据从业务来,最终又服务于业务,为烟草行业赋能。

2 针对烟草企业的数据中台架构

数据中台让数据更加智能化提供给业务人员。整个数据中台的核心是数据让业务更加智慧。哪怕数据只有50%的准确性,那么在提高数据质量同时,也希望这50%准确的数据产生业务价值。统一采集各业务部门数据,打破传统企业数据壁垒,让企业的数据“用起来”,通过对数据的收集、整理、计算、分析,来为企业提供决策的依据,实现数据的二次开发利用,转化为对企业发展有益的有效信息,提高数据的利用率[3]。为平台管理员提供一个整合的管理界面,完成数据统一汇总,统一模型算法处理,不同报表展现。企业部门分开使用,部门决策人员统一使用,减少企业数据治理的投入成本,通过数据中台中的数据质量模块的自动化定时度量检测,能够大大降低数据治理相关的人力成本。平台统一部署,统一实施,开设账户。使得大数据开发人员无须部署直接使用。企业各部门数据统一管理。统一定时采集各个部门的数据,进行统一存储,标签化。统一模型化存储管理。集中数据共享接口暴露,数据预览。减少不必要的运维成本。

目前开源和商用的数据中台已有许多,本文借鉴开源的数据中台平台,结合烟草行业特点,提出一种面向烟草行业的数据中台架构。如图1所示。

图1 面向烟草行业的数据中台架构

图2 数据治理

全域数据采集:全域数据覆盖烟草行业仓储、物流、能耗、销售、生产、采购、售后、交通、IoT等领域,覆盖全流程数据,形成一个企业级的大数据处理平台。

数据规范管理:对烟草行业过程数据和结果数据进行质量校验,构建数据类目体系,建设质量标准体系,包括数据质量标准、数据服务标准和数据管理标准,从数据建模、数据审核、数据交互角度建立标准,保障数据的一致性、完整性和准确性。建设数据标准化模型,帮助企业实现数据管理规范化[4]。

数据开发平台:基于MDM(Master Data Management,主数据管理系统)和一站式建模及ETL,满足离线和实时数据开发,运用平台的相关大数据组件及计算资源,让传统的数据整合计算更加快速敏捷,使数据更快速地提供给业务部门。

数据服务平台:建设数据共享服务平台,支持Restful、Webservice等多种方式实现数据共享,支持发布与订阅模式。数据资产自动生成数据查询(支持分词查询)、数据导出等多种服务方式,提供自定义SQL的方式供业务人员进行数据和服务编排,快速满足人员和系统的数据要求。

数据共享中心:基于magic-api 开发的数据共享中心,可实现针对数据库表、视图、SQL语句等动态发布Restful接口。

ETL技术: ETL负责将分散的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后,进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘提供决策支持的数据。 ETL是构建数据仓库的重要的一环,用户从数据源抽取所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中。

3 关键技术

3.1 元数据概念

构建数据中台的前提,是确认业务口径、数据来源和计算逻辑。元数据是这些数据。

元数据类型包括:数据字典、数据血缘和数据特征。

数据字典:即数据结构。包括:数据表名称、数据字段名称、数据字段类型、数据约束。数据约束包括:主键、外键、默认值、语义等,表的数据产出任务,表和字段的权限等。

数据血缘:是指数据表的溯源,如父子表。

数据特征:主要是指数据的属性信息:存储空间大小,数仓分层,访问热度,主题分类,关联指标等。

3.2 多源异构数据集成

由于烟草行业的数据来源于多类型数据库且数据结构不一致,打破数据壁垒,实现多源异构数据集成,来为企业提供决策的依据,实现数据的二次开发利用,转化为对企业发展有益的有效信息,提高数据的利用率。针对数据预处理困难的现状,研究基于云端大数据多源异构数据融合技术,包括多源异构数据融合技术和预制构件生产可视化建模工具,通过这两种服务为机器学习和深度学习提供了从数据处理、模型训练、到模型预测的一站式服务,打通底层数据为用户提供模型开发环境,用户不必精通大数据相关知识,也无须考虑复杂工况下数据处理,即可专注于业务本身。可视化建模工具将前端可拖拽组件与后台在线学习、优化和大数据的多目标、多任务实时优化混合智能算法库算法绑定,用户只需在前端拖拽组件并连接形成大数据工作流程,后台根据前端配置调用后台数据和智能算法库来训练处理模型并返回运行结果。

3.3 数据治理

数据治理是数据中台的核心组成部分,其基础为元数据。通过对元数据进行一次加工,实现对数据发现、模型、质量、成本和指标的治理[5]。

4 烟草行业数据中台的应用

数据中台是烟草行业数字化转型的关键,烟草行业经过几十年的信息化建设,具备建设数据中台的条件和能力,以数据驱动销售、生产、物流、采购、能耗等业务领域的决策管理,实现烟草行业数据赋能、智慧营销、智慧生产、智慧管理、智慧物流[6]。面向烟草行业全产业链数据中台架构如图3所示。

图3 数据中台架构

烟草行业数据中台基于工业互联网平台之上建设。工业互联网平台自底向上分为接入层、边缘层、IAAS层、PASS层和SAAS层。烟草行业数据中台基于IAAS 层之上,涵盖PAAS 层和SAAS 层,围绕智慧经营、智慧生产、智慧安全、智慧能源、智慧物流、智慧运维、智慧建设、智慧决策八个方面,最终实现数据透明化、管理精益化、制造智能化。

数据中台主体自底向上包括接入层、中间层、集市层。接入层主要指各类信息系统,中间层建立数据标准体系,包括数据采集标准、数据模型标准、体系搭建标准三个标准,围绕数据分类、数据存储、数据治理、数据共享四个方面进行建设。集市层则是围绕数据应用方面建设,包括BI、报表、大屏展示等。

面向烟草行业全产业链数据中台技术架构如图4所示。

图4 数据中台技术架构

面向烟草行业的数据中台技术架构,以云平台为底座,IAAS 层为基础设施建设,PAAS 层提供数据建设服务平台,包括:存储、计算、数据库、数据挖掘和数据分析,为上层应用建设提供技术支撑。SAAS 层为应用层,包括分布式队列服务、分布式锁服务、数据挖掘服务、数据分析服务、信息库等。

5 结束语

本文对烟草行业信息化发展现状进行分析,烟囱系统林立、数据异构非同源问题严重,符合数据中台建设基础需求。通过对数据中台技术的研究,结合烟草信息化建设过程中的问题和未来建设需求,提出适应烟草行业的数据中台技术架构和应用分析。

针对烟草行业的特点,覆盖烟草行业仓储、物流、能耗、销售、生产、采购、售后、交通、IOT 等领域,覆盖全流程数据,建设符合烟草行业需求的数据中台,以期数据赋能烟草行业。

猜你喜欢

中台数据仓库烟草行业
中台是媒体转型必经之路吗?
——媒体中台建设的特点和误区
关于零售企业“中台”建设的研究
汽车制造企业质量中台研究
以技术开发中心为中台,数字化转型之见解
基于数据仓库的住房城乡建设信息系统整合研究
烟草行业“两项工作”信息管理平台设计
关于强化烟草行业市场管理的优化策略
分布式存储系统在液晶面板制造数据仓库中的设计
探析电力系统调度中数据仓库技术的应用
基于数据仓库的数据分析探索与实践