APP下载

企业Bi数字化平台的设计与实现

2022-03-11翼,马

信息记录材料 2022年1期
关键词:数据仓库数据库分析

张 翼,马 啸

(国家管网集团贵州省管网有限公司 贵州 贵阳 550000)

0 引言

为使企业更好地发展,企业在互联网领域进行产业融合,依靠计算机技术提升企业办事效率、方便员工工作、提高数据监管能力是大势所趋。就目前现状来看,大多数企业的日常运作数据都会以文件数字的形式来存储与表达,以便与计算机系统配合,随时调取、融合数据[1]。

本文通过了解目前企业信息数字化管理方面存在的问题和未来大方向趋势进行需求探究,以构建一款适用于企业日常管理的日志数字化平台的系统。通过该系统,企业员工可以有效地了解企业运转各项数据,并从中得出数据规律,预测未来数据走向。同时,该系统还具备传统企业管理平台功能,方便实用。

1 研究现状

1.1 传统数据库技术

传统的数据库结构组成为两部分,分别为相互关联的数据和对这些数据进行抓取、访问和维护的应用、工具[2]。在这些应用和工具的加持下,便于人们管理与使用系统内的数据。传统数据库的建立初衷就是为了方便人们管理数据、存储数据,目前传统数据库虽然能够满足日常企业的管理,但是随着时代的不断发展,信息量和数据量都呈爆炸式增长,一般的数据库已经不能满足目前的存储与管理需求[3]。同时随着新兴技术的发展,传统数据库难以融合数据决策等前沿功能,对于数据的进一步分析需要借助联机等其他手段。

1.2 数据仓库与Bi技术

数据仓库是将收集到的数据信息按照存储位置与存储模式一一对应存储,实现保存、调取、传输、共享等功能。1991年,比尔·英蒙首次提出了数据仓库的概念,指一种能集安全性、时效性方便人们存储数据的数据库集。1995年,比尔·英蒙又提出了一种集多变性、可操作性的操作数据存储技术(Operational Data Storage),对于数据库中数据的查询和操作皆可在这个库中实施,并且具备根据已知数据来预测未来数据及数据趋势的功能[4]。

2 企业应用现状

2019年10月,管道设计院招募研发团队从事WisPipeline载体平台的迭代研发和数据服务工作,利用中台技术使平台始终保持良好的开放性、安全性和集成性。长庆油田总部位于陕西省西安市,是首个使用WisPipeline的商用企业项目,该团队完成了对长庆油田的数据库建设、三维模拟建设、报表分析、运维、安全等功能,并于2021年投入使用。该平台上每一个管道、每一个阀门的运作实况都能真实反映,切实方便了企业的管理,提高了企业的生产效率。

3 技术支持

3.1 数据仓库技术

数据仓库技术可以进行数据的处理工作,对于数据仓库的“搭建”主要步骤包含:数据源、数据仓库和数据展示。逻辑框架架构图见图1[5]。其中数据源是指数据来源网站的数据管理系统,代表性的就是网站日志管理系统、网站信息发布系统等,实现的就是对数据表达的操作。而这两部分功能需要一个点来“嫁接”,这个点就为数据仓库。

3.2 BI技术

BI英文全称商务智能(Business Intelligence,BI),主要包含数据仓库、数据挖掘、数据分析及数据备份等组成体。因此,BI技术不是一项新技术,而是对数据仓库技术、数据挖掘技术、数据分析技术等的综合运用。

BI技术是将多个技术整合,形成一个系统,其主要包含的核心技术有:

(1)数据仓库。能高效调取OLTP型数据库中的有效数据,通过对数据的清洗、转换等步骤,检查数据的一致性,并最终形成可供存储的数据格式。

(2)数据获取。Bi平台的数据获取方式主要通过ETL技术实现,对于一些异构数据,按照一定的系统规则,由数据仓库接收数据,为数据挖掘、数据分析等部分提供有效数据。

(3)联机分析处理(OLAP)。可利用OLAP理解、分析数据,可对数据仓库中复杂的数据进行简化处理,通过运算、聚合等方式处理的数据,可大大提升用户的访问速度。

3.3 ETL技术

数据的ETL指的是对数据的清洗、整理以及装载[6]。对数据的清洗标准、整理规范和装载能力界定一直是学术界争议的问题。

ETL为数据仓库技术的核心。数据的ETL主要内容包含了对数据的抽取、转换和加载。数据的抽取就是获取所需要的数据,步骤是针对所需的数据从不同维度不同角度在不同的系统内抽取目标数据,在这个过程中,还需针对目标数据的特性做好抽取方式方法的设计工作。数据转换是根据已经抽取的目标数据进行定向的转换,目的是在转换过程中淘汰掉有争议的、残缺的不符合规定的相关数据,并保证得出的数据在格式上一致。数据的装载是只对完成上述操作步骤剩余的数据按照系统规定和原本计划加载至数据仓库的操作,保证各个来源的数据在一起、表格互通且层级分明。

3.4 OLAP技术

由于目前存在的各个数据仓库构建时的需求和建成时间不尽相同,这就使各个数据仓库的数据互不相同,各自为互相独立的存在[7]。针对上述存在的问题,通过一定的方法将各个数据仓库的数据源互通,再实现数据源的统一,使所有的数据都能存储于新的数据仓库系统中,这就是OLAP技术。对于最基本的联机即可传输的数据,其工作量是十分巨大的。OLAP技术可以满足对这些庞杂数据的分析需求,并给使用者给予数据的统计分析结果,以可视化图表更加直观地展示给用户。

OLAP技术可以对复杂的数据进行处理,使其整合,并能够完成对多维度数据的共享,把多维度的数据以可交互的方式存储和调取,并且使得数据具有延展性,使数据管理者能通过系统对数据进行进一步的分析,并以直观的方式展现给受众,用户可以根据分析的结果做出相应的决策,大大便捷其后续工作。通过对不同存储系统内的数据进行联系分析,对多维度的数据进行合并、融汇,实现了对多维度数据的全方位分析。OLAP 3层体系架构图见图2。

3.5 Apriori关联规则算法

阿米蒂奇等[8]在1993年第1次提出了在客户交易数据集之间存在的关系,这种关系是关联规则挖掘问题。关联规则主要是在频繁项集和递归思想这两个重要概念来实现的。关联规则可以发现不同时间段的数据在不同时间存在的关系。在一个数据库中可以依靠支持度和置信度来发掘该数据库各个数据区域或者数据之间的联系。通过关联规则还能发现数据数值高于之前设定的标准的接近该标准的数据区域和项目之间的分布情况与分布规律。

Apriori关联规则算法主要有两步:第1步为迭代,通过多次对目标数据库进行搜索,找出数据库中高于设定标准的这些项目和集合,这些项目和集合就是高于标准的频繁项目和集合。第2步为构造规则,对迭代出的频繁项目和集合进行构造,找出满足需求的最低标准规则[9]。

4 需求分析

4.1 企业数据统计、存储和查询需求

现代社会,随着计算机的普及和网络技术的不断发展,各个企业对于网站的建设都很重视,企业网站是企业展示其形象、帮助内外部运转的重要工具。但是企业网站普遍更新慢,大多数中小企业存在信息发布慢、发布信息覆盖面小的问题,这就需要对企业内部的各类数据进行综合统计,使得管理人员对网站的信息掌握透彻,让管理人员充分了解各个环节的工作状况,方便企业各级人员查询数据。针对系统设计数据查询功能。

4.2 企业数据分析、预测功能

目前市面上大多数企业数据管理系统只能满足用户数据的存储与查询等功能,虽然能够满足日常办公,但是面对日益发展的社会与不断增强的数据压力,传统系统已无法满足当下需求。各个企业网站系统经过多年的发展,已经积累了大量数据,通过对这些数据的分析研究,可以掌握企业发展的方向和趋势,可以掌握企业各个层面数据的动态。针对系统设计数据智能分析功能、预测功能。

5 设计与实现

5.1 平台概述

Bi数字化平台功能涵盖了4个模块,分别是数据收集、数据审查、报表制作以及数据生成,在B/S架构的基础上把Bi数字化平台工作和数据统计联系起来,实现集成统计口径、自动数据接口、共享数据公布、互联网报送报表等,整体过程中数据信息均为自动化处理。

5.2 总体设计

Bi数字化平台设计理念参考了云计算,服务架构包含4层,分别是Iaas、Daas、Paas以及Saas。数据采集遇到短时间大量操作请求时很容易引起数据库无法读写的问题,而对象存储以及一步序列化模式则很好地弥补了这一缺陷,同时搭配大数据处理方式,使得平台数据处理与分析更快、更高效。

(1)Saas(软件即服务)层,搭配基础服务平台向用户提供其所需的功能,例如:数据获取、数据监控以及信息发布等。

(2)Paas(平台即服务)层作为开放、可扩展、成熟的应用系统,大部分的应用模块都可根据实际的业务需要,通过快速配置即可完成,同时具备良好的可扩展性。分为元数据管理平台、信息采集平台、信息交换平台、数据处理服务平台、地理信息服务平台、门户支撑平台这6大基础服务平台。

(3)Daas(数据即服务)层数据层作为整个系统的信息存储层,这里主要存储信息包括:元数据、企业名录库、共享数据、私有数据以及应用信息库(用户权限信息、系统配置信息、日志信息等)。

(4)Iaas(设备即服务)层利用服务器、存储设备、网络设备等硬件设施,同时配合操作系统、虚拟化管理软件、数据库、网络管理系统为整个项目的部署、运行提供高效可控的硬件设施服务。

5.3 数据采集

Web日志、本地数据库和Bi专报数据是可用于企业数据分析的主要信息。跟Web日志数据不同,Bi专报和现有数据库数据格式相对固定,数据来源及其完整性较好。所以,可以将Bi专报和现有数据库通过SQL Server导出,随后进行后续的分析工作。对于Web数据则需要对访问的日志进行采集,并对其格式做规范化处理,随后进行后续分析工作。

5.4 数据加工

初步提取到的原始数据不具备数据分析的需求,需要对这些数据做以下处理。

(1)数据清洗。从网上和数据库中取得的数据并不是都能直接参与数据分析的,有的数据甚至会对今后要进行的数据分析起到不利影响,又被称作噪声数据,这些数据对数据分析的结果影响是十分巨大的。

(2)数据格式转换。在网页数据里有大量的用户访问信息,这些信息包含了用户访问的时间信息和地址信息等,十分庞杂,有些字段通过间隔或者空格符号进行分隔,是不能满足数据分析过程需求的。所以,对这类数据进行格式转换是十分必要的环节。

(3)数据填补。为了满足SQL Server DTS工具对格式的要求,就要对经过正则表达式的无效记录进行访问,并且对有用的字段进行提取和重组,使得其格式符合要求。

5.5 数据分析

首先将满足条件格式的数据文件导入至数据仓库中,再对这些数据进行重组,随即形成多维度的数据集合,这是数据分析层的重要工作。随后对参数进行设定,开始数据挖掘和数据分析,最终以数据集合的方式产生数据分析结论,并存储于数据库中以备展示。

多维建模聚合分析。钻探,能够有效地帮助用户从多个层面、不同角度对数据进行深层次的分析,从某一个角度对数据进行切片,即多维度分析,对每个维度中都选择固定数值。旋转即对数据立方体进行坐标旋转,得出新的数据集合立方体。

关联规则分析。通过对日志的挖掘分析,可以发现在不同数据之间存在的关系,发现不同数据之间的关联关系,还要针对不同数据之间的关系进行发掘。SQL Server中自带关联规则挖掘算法。其操作步骤见图3。

6 结语

本文以国家管网集团贵州省管网企业数字化管理平台实际运营经验为依托,对多功能智能化的企业Bi数字化平台进行了全面概述,无论系统架构设计还是细节功能实现,企业Bi数字化平台其核心便是数据采集、加工、分析。只有掌握更为先进的数据管理才能保证平台架构的先进性,在未来的研究中,数据分析方法的改进会成为研究重点,挖掘更先进的算法才有利于数据的迭代与更新。

猜你喜欢

数据仓库数据库分析
基于数据仓库的数据倾斜解决方案研究
隐蔽失效适航要求符合性验证分析
分析:是谁要过节
数据库
探析电力系统调度中数据仓库技术的应用
电力系统及其自动化发展趋势分析
数据仓库系统设计与实现
数据库
数据库
数据库