APP下载

面向数据分析的数据仓库设计与应用

2023-03-02王国锋武丽君胡天野亢宇飞

数字通信世界 2023年8期
关键词:数据仓库维度企业

王国锋,张 文,武丽君,胡天野,亢宇飞

(北京机械设备研究所,北京 100854)

0 引言

随着5G、物联网、AI等先进信息技术迅猛发展和广泛应用,数据大爆炸成为当今时代重要特征。党的十九大四中全会提出数据是一种新型生产要素;2023年3月,国家组建了国家数据局,数据已经正式上升到国家层面成为战略资源,数据价值体现在我们工作、学习、生活、生产的方方面面。对于企业而言,数据已成为愈发重视的无形资产和生产要素,“虽然数据还没有被列入企业的资产负债表,但这只是一个时间问题”[1]。如何将企业产生的大量数据进行规范治理、融合和分析应用,挖掘数据价值,成为企业信息化领域持续研究和探索的课题。

1 航天企业数据资源概述

1.1 概述

航天企业在多年的科研生产和经营管理过程中,积累了大量的数据。前期主要是纸介质数据,在信息化建设过程中,逐步实现了数据电子化,产品数据管理系统PDM、试验数据管理系统TDM、工艺设计及数据管理CAPP、面向业财一体的ERP、综合经营管理平台、协同办公平台等信息化系统覆盖了企业主要业务,产生了大量的数据。这些宝贵的科研生产和经营管理数据是航天企业核心技术和知识产权的体现,也是企业数据资产最为重要的部分。

1.2 数据资源

航天企业作为典型的离散型制造企业,拥有复杂的产品结构,繁多的产品种类和数量,结合产品研制过程及企业经营管理可将其数据分为如下5类。

(1)产品数据。包括产品在设计、工艺、生产、试验、运行等过程中产生的数据,记录、传输、处理和加工这些数据,使产品全生命周期管理成为可能,也为满足个性化的产品提供了条件。

(2)运营数据。包括市场营销、质量控制、外协生产管控、物料采购、库存、项目任务计划、综合业务管理等数据。这些数据可能会驱动创新企业的研发、生产、运营、营销和管理方式。

(3)设备数据。包括生产线上各种生产设备的工作状态、运行记录等数据。设备数据对于支撑掌控制造资源状态,合理实施排产非常关键。

(4)价值链数据。包括客户、供应商、合作伙伴等数据。企业在当前全球化的经济环境中参与竞争,需要全面地了解技术开发、生产作业、采购销售、服务、内外部后勤等环节的竞争力要素。深入分析和挖掘价值链上各个环节数据和信息,可为企业管理者和参与者观察价值链提供全新视角,有机会将价值链上更多的环节转化为企业战略优势。

(5)外部数据。包括经济运行、行业、市场、竞争对手等数据。为了应对外部环境变化所带来的风险,企业必须充分掌握外部环境的发展现状以增强自身的应变能力。

根据数据资源规划,数据资源可规划为以下三类:①业务数据:业务系统运行过程中产生的数据,如产品设计数据、工艺设计数据、物料采购数据、质量记录数据、任务计划执行数据等。②主数据:主数据不是企业内所有的业务数据,主数据有必要在各个系统间共享的且相对静止不变的数据。③主题数据:该数据是根据业务范围进行跨系统、企业全局的汇聚、融合,进而可按照一定的规则进行统计,为决策分析和数据服务提供支撑的数据。

2 企业级数据仓库设计及实施

2.1 数据仓库概述

近年来,随着企业数字化转型持续深入开展,企业逐步实现各类主数据在各业务领域系统中的规范应用,为系统之间集成贯通及汇聚融合夯实了基础,构建企业大脑,为企业决策层进行战略制定、科学决策提供重要数据支撑[2],成为航天企业信息化建设的重点方向。企业大脑以数据分析及应用为牵引、以构建企业级全局数据仓库为技术路径、以建设分类主题数据库为主要内容,逐步推进基于数据仓库的数据应用,实现数据赋能,体现数据价值。

数据仓库面向主题构建,可支撑OLAP服务,与传统的数据库相比,还具有集成性、非易失性和随时间不断变化等特点。相对于传统支撑OLTP的关系型数据库,以多维数据模型设计为基础的数据仓库从整体架构设计到具体实施整个过程更为复杂,难度也较大。下面结合数据仓库相关技术,从设计和实施两方面具体介绍数据仓库的构建过程。

2.2 数据仓库设计

2.2.1 总体架构设计

数据仓库会围绕数据开展一系列复杂处理,考虑目标、数据处理性能和降低复杂性等因素,将数据仓库总体架构设计为两区三层。两区即数据缓冲区和目标数据仓库区,三层即数据贴源层(ODS层)、全局数据仓库层和数据集市层。

ODS层处于数据缓冲区,主要是将数据从OLTP系统中以全部或者增量的方式抽取至此,此过程无需经过复杂的数据操作,数据基本和数据源保持一致(主要变化就是异构数据库存储格式的处理)。

全局数据仓库处于目标数据仓库区,将ODS层的数据抽取后经过转换、清洗,最后加载到全局数据仓库,全局数据仓库会存储明细数据。

数据集市层处于目标数据仓库区,主要用于存放大量明细数据分析统计后的结果数据。统计数据与明细数据往往会通过下钻和上卷的关联操作,所以数据集市层与全局数据仓库放在同一数据区,可以保证前端展示的响应速度,提供用户体验。

2.2.2 维度设计

在数据仓库中,维度是可用于观察、分析统计业务数据的视角,主要分为静态维度和动态维度。

静态维度:主要是指时间维度,由于时间(主要包括日期和时间)的不变性确定了时间维度是一个特殊的维度。

动态维度:是区别于时间维度、可变更的维度,称之为缓慢变更维,如组织机构、项目、供应商、客户等,这类维度一般是企业的主数据。

2.2.3 数据模型设计

数据仓库主要采用多维结构的数据视图的多维数据模型,主要分为星形模型、雪花型模型和事实星座模型三类。其中星形模型具有存取速度快,基于多维存储,利于上卷、下钻等优点,所以在数据仓库中得到了广泛应用。星形多维模型主要由度量值和维度两部分组成,度量值一般是业务数据值,如入库数量、出库数量、库存数量等;维度是为这些业务数据值提供上下文关系的,例如,库存与产品、供方有关,产品和供方就是统计的维度。

2.2.4 数据融合

数据融合在数据仓库中是指根据业务联性进行跨系统的业务数据整合的过程,在数据仓库中主要通过维度的关联性实现数据融合。在数据仓库中分别设置存放业务数据的事实表和存放维度的维度表,这样不仅便于基于维度的统计分析,也便于基于维度进行数据融合。

2.3 数据仓库实施

ETL是数据抽取(Extract)、转换(Transform)、加载(Load)的缩写[3]。它是将数据从OLTP系统中转移到数据仓库中的一系列操作的集合,贯穿数据贴源层、全局数据仓库和数据集市的数据处理全过程,是数据仓库实施过程的主体,关系数据仓库实施的成败。数据仓库一般通过一定频率将数据从OLTP系统中转移到数据仓库中,主要通过ETL过程与定时任务调度相结合的方式实现。

2.3.1 ETL过程

基于ETL平台设计开发ETL过程,实现抽取、转换和加载的功能。ETL实施过程需要注意的以下几个方面。

①合理的数据抽取方案。数据抽取主要针对OLTP系统的数据库进行非侵入式操作,涉及的数据源类型包括Oracle数据库、SQLserver和SAP的RFC接口等,应根据数据量、实施难度等因素制定增量和全量抽取的方案。

②维度数据的ETL过程。将OLTP系统中的源数据通过ETL抽取并存储到数据仓库中,形成维度数据表,OLTP系统更新时,向数据仓库的维度表中新插入一条数据,通过添加时间戳来确保在任何时间点都能找到唯一一行维度数据,每行数据由代理键来唯一标识。

③业务数据的ETL过程。业务数据在数据仓库中存放在事实表中。业务数据的ETL过程需要注意将维度数据的代理主键添加到属性字段中,并结合维度进行跨系统业务数据的融合。

④定时任务调度。基于ETL平台开发任务调度功能,实现ETL任务的维护、管理,能够查看日志,及时处理异常任务,确保ETL高效易用。

3 基于数据仓库的数据应用

以企业各领域信息系统为数据基础,建设面向决策层的的企业大脑是数据分析的典型场景。企业大脑的建设是先自顶向下,再自底向上的过程。先自顶向下是业务层面,具体是指面向管理驾驶舱的数据分析需求,明确需要划分的主题库,设计相应的数据仓库。自底向上是实现层面,具体是指根据数据仓库的设计需求,通过构建数据仓库,在数据仓库的基础上形成主题数据库,在主题数据的基础上构建管理驾驶舱,最终实现企业管理的数字赋能。

3.1 主题库建设

企业结合自身信息系统建设情况及决策要求,规划出三大类主题建设需求,分别是财务主题、市场主题和项目主题。财务主题融合预算、合同收付款、应收账款、库存等数据,形成两金、预算执行等主题数据;市场主题融合客户信息、商机、立项、合同、收款等信息,构建客户、商机等主题数据;项目主题融合CRM、立项、经营指标、经营计划、合同收付款、计划、质量等信息,构建项目盈亏、项目进度、项目质量等主题数据。

3.2 管理驾驶舱

基于数据仓库的可视化应用主要是围绕财务主题、市场主题和项目主题为不同管理人员构建的管理驾驶舱。从全所、产品线、部门、项目四个维度为所领导、产品线所领导、项目问题、总会计师等不同角色提供相关内容的企业管理驾驶舱,覆盖客户与供方、市场情况、营收情况、任务进展、财务指标等内容,取得了较好的应用效果。

通过企业大脑的建设,实现企业科研生产、经营等各业务领域中的关键指标数据可视化展视和分析,并为领导层提供辅助决策,提升企业内运营状况的敏捷反应与综合决策能力。同时面向不同层级人员,根据业务需求展现相关领域指标情况,强化过程管控力,提升运营管理智能化水平。

4 结束语

数据仓库作为一项重要技术,在支撑企业数据分析及应用领域有着广泛的应用。围绕企业数据分析及应用,对企业级全局数据仓库进行了总体设计,并结合实际业务进行实践,取得了较好效果。后续将根据企业对结构化、半结构化和非结构化等多种类型的海量数据管理和应用需求,结合业界数据技术的发展,构建具备数据采集、数据存储计算、数据分析挖掘和可视化功能为一体的大数据中心,从而提供服务功能更完备、服务领域更广泛的数据服务及应用。■

猜你喜欢

数据仓库维度企业
企业
企业
企业
敢为人先的企业——超惠投不动产
浅论诗中“史”识的四个维度
基于数据仓库的住房城乡建设信息系统整合研究
分布式存储系统在液晶面板制造数据仓库中的设计
探析电力系统调度中数据仓库技术的应用
光的维度
“五个维度”解有机化学推断题