APP下载

基于虚拟仓库的石油生产信息的多维分析方法

2018-09-21陈庆荣

微型电脑应用 2018年9期
关键词:产油量数据表数据仓库

陈庆荣

(西安航空学院 计算机学院,西安 710077)

0 引言

由于市场经济的迅速发展,各行各业对石油资源的需求量逐渐增大,从而给石油地质开发提出了严峻的挑战[1]。随着石油企业信息化建设的不断深入,各个企业都在开发各自的数据库系统,如何正确、有效的处理和使用这些数据,快速生成针对不同石油生产需求主题的信息,越来越成为信息技术人员棘手的问题。

数据库就是一个用以更好地支持企业决策分析处理的、面向主题的、集成的、不可更新的、随时间不断变化的数据集合[2]。联机分析处理(On_Line Analytical Processing,OLAP)采用多维的方式来组织和显示数据,其主要特点就是多维数据分析。多维分析是指对以多维形式组织起来的数据采取切片、切块、旋转、上卷、下钻等各种分析动作,以求剖析数据[2]。针对石油企业生产信息的多维数据分析使用户能多角度、多侧面地观察这些数据,深入地了解数据包含的信息和内涵,用以指导经营生产活动。

1 基于虚拟仓库的石油生产信息多维分析

根据对石油生产信息数据的特点分析,不同石油生产需求主题的分析方法需要对生产信息数据进行多角度、多侧面、多层次地分析查询,使用OLAP技术进行石油生产信息的数据分析可以提供科学、方便、有效的生产指导,及时发现生产异常,保证油田正常、安全、经济地运行,进而达到提高开发效率、减少风险和帮助石油企业做出正确决策的目标。

1.1 石油生产信息的特点

石油生产企业需要对大量的具有自身特点的生产数据进行多维度的不同主题的数据分析是一个相对复杂的过程,这完全有异于其他领域。

石油生产信息特点如下:

1)分散性。因行业特点,企业内部各单位通常比较分散,不同单位的生产信息分别由各单位进行数据的录入、整理和加工,更有可能存在于不同的数据库中。

2)多样性。石油开发的特点导致石油生产信息及数据类型多种多样。

3)异构性。因石油企业特点,各部门的数据可能存在于不同系统,导致了异构的石油生产数据。

1.2 石油生产信息虚拟仓库

根据对信息数据特点分析及不同主题数据分析的研究,石油生产信息数据仓库应包括3个基本组成部分:

1)数据获取:该部分主要负责从外部信息数据源获取生产信息数据。这些数据被区分出来,进行处理后,准备装入石油生产信息数据仓库。

2)数据存储和管理:该部分主要负责数据仓库的内部维护和管理,包括数据的存储组织、数据维护等。

3)数据访问:该部分属于石油生产信息数据仓库的前端,主要包括查询组织及石油生产信息的多维分析。

数据仓库数据粒度的划分主要根据石油生产的业务需要来进行的。在分析业务需要细化程度较高的数据时,数据粒度就划分为低粒度级;反之,数据仓库就采用高粒度级的划分。

石油生产信息数据仓库的元数据可以被称为“关于石油生产信息数据的数据”。石油生产信息数据仓库的元数据实现主要依靠汇总元数据表(表1)、分析类型元数据表(表2)和分析定义元数据表(表3)所示。

表1 汇总元数据表

表2 分析类型元数据表

表3 分析定义元数据表

其中,表1、表2元数据主要包括现有数据的详细清单、名称和数据项定义、名称和定义的关键字列表等内容。表3元数据主要包括数据清单索引和访问关键字列、数据生成的操作步骤记录、数据用于分析的步骤记录等内容。

石油生产信息数据仓库中数据的存储方式主要采取虚拟存储方式,即虚拟数据仓库。它没有专门的数据仓库数据存储,数据仓库中的数据仍在源数据库中,只是根据用户的多维需求及形成的多维视图,临时在源数据库中找出所需的数据,完成多维分析。这种存储方式的优点是实现简单易行、体积小。

虚拟数据仓库将多维结构划分为两类表,一类是事实表(fact),用来存储石油生产数据事实的度量值和各个维的码值;另一类是维表,即维的描述信息,包括维的层次及维成员。如图1所示。

图1 星型模型

油井生产数据表为事实表,包含4个维表:区块维表、井型维表、井别维表和井组维表。在油井生产数据表中分别通过井名代码、井型代码、井组代码以及时间代码分别可与相应的维表进行连接,形成“星型模式”,完全用二维模式表示了多维数据。建立了“星型模式”后,就可以在关系数据库中进行多维查询分析。通过维表的主码,对事实表和每个维表进行连接操作,此查询就可以得到数据的值以及对数据的多维描述。

1.3 石油生产信息多维分析的基本概念及基本分析动作

1.3.1 基本概念

1)石油信息数据变量:数据的实际含义,用以描述石油生产信息数据“是什么”。 一般情况,石油信息数据变量总是一个数据值的度量指标。

2)石油信息数据维:观察生产信息数据的特定角度。例如,某一油井采取了某种措施后产油量随时间的变化情况,此时就是从措施类别和时间的角度来观察油井的产油量,故措施类别和时间都是信息数据维。

3)石油信息数据维的层次:观察石油生产数据的某个角度(即某个维)存在的不同细节程度的描述。同上例,油井某天的产油量,某周的产油量,或某月的产油量。那么此处的日、周、月等等都是时间维的一个层次。

4)石油信息数据维成员:某个石油信息数据维的一个取值就称为该维的一个维成员。例,时间维具有3个维层次,即日、月、年,那么分别在这3个层次上的取值就是该时间维的一个维成员,例如某年某月某日就是这个时间维的一个维成员。注意:一个维成员不一定在每个维层次上都要取值。

5)石油信息数据多维数组:石油信息数据的一个多维数组可以表示为:(维1,维2,… …,维n,变量)。油田产油量数据是按时间、措施类别、区块组织起来的三维立方体,加上变量“产油量”就组成了一个石油信息数据多维数组(时间,措施类别,区块,产油量),如图2所示。

图2 石油信息数据多维数组示例图

6)石油信息数据单元(单元格):石油信息数据多维数组的取值。当多维数组的各个维都选定了一个维成员,这些维成员的组合就唯一确定了一个变量的值,可以表示为(维1维成员,维2维成员,… …,维n维成员,变量的取值)。图2中,选时间维成员为2016年1月,措施类别维为恢复井,区块维1区,就确定了一个变量产油量的值15.00,则该石油信息数据单元就可以表示为:(2016年1月,恢复井,1区,15.00)。

1.3.2 基本分析动作

石油生产信息多维数据分析是指根据针对不同石油生产需求主题的相关分析方法,结合数据仓库技术和联机分析处理技术,对以多维形式组织起来的石油生产信息数据采取切片、切块等各种灵活的分析动作,以求深度分析数据,使最终用户可以从多个角度、多个侧面观察这些数据,从而更为深入的了解石油生产数据的内涵。

石油生产信息多维分析的基本动作:

1)切片(Slice)

定义:选定石油生产信息数据多维数组的一个二维子集的动作叫做切片,即石油生产信息数据多维数组(维1,维2,… …,维n,变量)中选定维i和维j,并在这两个维上取某一区间或任一维成员,其它维都取确定的一个维成员,则得到的就是在维i和维j上的一个切片,表示为(维i,维j,变量)。

如图3所示。选定某一石油信息数据多维数组(时间,措施类别,区块,产油量)中时间维和措施类别维,另一维区块维取“1区”,则得到了这一石油信息数据多维数组在时间维和措施类别维上的一个切片(时间,措施类别,产油量),这一切片表示1区油井采取各类措施后、各时间段的产油量。

图3 切片动作示意图

2)切块(Dice)

定义:选定石油生产信息数据多维数组的一个三维子集的动作叫做切块,即石油生产信息数据多维数组(维1,维2,… …,维n,变量)中选定维i、维j和维k,并在这3个维上取某一区间或任一维成员,其它维都取确定的一个维成员,则得到的就是在维i、维j和维k上的一个切块,表示为(维i,维j,维k,变量)。

基于虚拟仓库的石油生产信息的多维分析就是通过对石油生产信息数据特点的分析,根据分析主题将石油生产信息数据组织在虚拟仓库中,通过切片或切块等分析动作,最终完成对石油生产信息数据的主题分析,从而达到提高石油开发效率、减少风险并帮助石油企业做出正确决策。例如,某油田通过分析系统对区块、油井、时间等维度的产油量切块、切片分析发现不同石油生产区的某些油井产油率降低,石油开发部门会根据对这些油井产油率降低的原因进行技术分析,采用某些技术措施以提高产油率。措施实施后一段时间,系统根据对区块、措施类别、时间等维度的产油率切块、切片等分析,快速高效的获取采取措施后的油井产油量变化数据,从而得出在哪个区块的油井采取哪种技术措施可更好地提高产油量,继而达到提高开发效率、指导油田科学经济的运行。

1.4 基于虚拟仓库的石油生产信息多维分析系统结构

石油生产信息数据仓库多维数据分析系统结构,如图4所示。

图4 石油生产信息数据仓库多维数据分析系统结构

石油生产信息数据仓库数据模型定义完后,来自不同数据源的数据将装入数据仓库中,接着系统根据业务主题进行相应的数据综合,最终用户的多维分析请求通过多维引擎动态翻译为SQL请求,然后由关系数据库来处理SQL请求,最后查询结果经过多维处理后返回给用户。在石油生产信息数据仓库多维分析中,由于用户可以动态的定义统计或计算方式,因此其灵活性较好。

石油生产信息数据仓库多维数据分析是基于关系数据库的,因此在数据的存储容量较大,可以支持的维数也较大。元数据是石油生产信息数据仓库和多维分析的核心部件,它描述了数据仓库中的各个对象,遍及数据仓库的所有方面,包括层次关系、计算转换信息、时间序列信息、数据更新状态及数据源,等等。石油生产信息数据仓库多维数据分析的元数据采用专有格式来存储。

石油生产信息数据仓库多维数据分析数据的存取是基于关系数据库的,石油生产信息数据仓库用关系表来模拟多维数据。首先用户的分析请求由石油生产信息多维分析处理器转化为SQL请求,然后交由RDBMS处理,处理结果经多维处理后返回给用户。

2 基于虚拟仓库的石油生产信息多维分析设计

依据基于虚拟仓库的石油生产信息多维分析方法,石油生产信息多维分析系统的总体框架,如图5所示。

图5 石油生产信息多维分析系统总体框图

图5中,事务数据库采用的是可重用的结构化数据库,源数据采取由各作业单位直接录入和按指定格式导入到事务数据库中。

石油生产信息数据仓库是面向主题而构建的,是一个面向数据分析型处理的数据环境,其数据组织和数据处理方式都与传统数据库有较大需求配置平台的区别。

石油信息联机分析服务器是一个经过特殊设计,用于支持和管理多维数据结构的高性能、多用户的数据处理引擎。多维数据结构是将原始数据按维度进行整理后所得的结果,该结构中的数据项的访问需根据定义该项的维度成员来访问。该多维数据结构具有良好的性能,能够灵活、快速地处理原始数据,并满足对各种查询具有一致的响应速度。

客户端应用程序(查询、分析)通过石油信息联机分析服务器提供的统一访问接口,可以灵活地访问多维数据。

根据石油生产信息多维分析系统的功能目标,该系统应该包括分析系统管理及分析系统应用两部分,共有6个功能模块,如图6所示。

其中,系统配置模块和用户管理模块属于分析系统管理部分。分析系统应用部分包括3个核心模块:分析定义模块、分析应用模块和例化分析模块。分析定义模块主要负责定义选定的分析类型相关的分析表。分析应用模块主要负责分析度量、分析维度的设计,以及分析结果的展现。例化分析模块主要负责对在分析定义和分析应用模块中经常使用的分析进行实例化,方便用户对经常要做的分析进行智能化应用。

图6 石油生产信息多维分析系统功能结构图

系统采取虚拟数据仓库结构。在虚拟数据仓库中并不需要从业务系统中抽取数据到新的数据存储位置,只是在用户进行数据仓库查询分析操作时,数据仓库利用描述了业务系统中数据的位置和抽取数据算法的元数据直接从业务系统中抽取查询的数据进行概括、聚合操作,将最终结果提供给用户。

石油生产信息多维分析系统数据库数据表主要包括:系统数据表索引信息表(表4)、分析维定义表(表5)、例化分析表(表6)所示。

表4 syst_TableField(系统数据表索引信息表)

说明:此表为整个系统的所有表的索引信息表。

表5 olapwdyb(分析维定义表)

说明:此表是维度定义信息表。主要牵涉该维度层次的划分、各层次的具体内容、以及维表相关信息,是石油生产信息多维分析系统的主要分析用表。

表6 olapwsampleb(例化分析表)

说明:此表是例化分析表。主要表明该例化分析的分析类型、例化分析语句、例化分析维度等相关信息,是实现系统实例化分析的主要用表。

根据上述石油生产信息多维分析系统的总体设计、功能目标以及石油生产信息数据仓库结构和元数据的介绍,数据库的设计应从实际的需求出发,按照用户对数据处理的要求,考虑到系统的运行效率、可靠性、可修改性、灵活性、通用性和实用性等各个方面。通过对石油生产信息多维分析系统的特点进行分析,系统的数据库采用C/S结构,在客户端面向用户,接受并行处理任务,进行任务的分解,将任务中需要服务器完成的部分交由数据仓库服务器进行处理。而数据仓库服务器只接受客户端的委托,完成特定的任务,并将结果传送给客户端。

Delphi是Borland公司研发的可视化开发工具,采用面向对象的编程语言和基于部件的开发结构,其具有简单、高效、功能强大的特点,特别是其在数据库方面适应于多种数据库结构、更先进的数据库引擎等特长,可以作为石油生产信息多维分析系统的开发平台。石油生产信息多维分析系统的虚拟仓库以Microsoft SQL Server 2005数据库管理系统为基础结合系统开发得以实现。

根据石油生产信息多维分析系统设计,要求系统运行的服务器端和客户端软硬件配置分别如下:

1)服务器端:

硬件配置要求:CPU为PIII及其以上型号、内存为4G及以上、硬盘容量为500G或以上;

软件要求:操作系统为Windows2003或以上版本、数据库管理系统:SQLServer2005。

2)客户端:

硬件配置要求:CPU Intel i3、1G内存、100G硬盘空间;

软件要求:操作系统为Windows 7或以上版本。

3 总结

1)建立了以关系数据库为基础的虚拟数据仓库。在虚拟数据仓库中并不需要从业务系统中抽取数据到新的数据存储位置,即数据仓库中去。只是在用户进行数据仓库查询分析操作时,数据仓库利用描述了业务系统中数据的位置和抽取数据算法的元数据直接从业务系统中抽取查询的数据进行概括、聚合操作,将最终结果提供给用户。

2)以星型多维数据模型为基础,建立了基于虚拟数据仓库的石油信息多维分析基本概念和分析动作。

3)依据基于虚拟数据仓库的石油生产信息的多维分析方法,完成了石油生产信息多维分析系统设计。通过系统设计,进一步建立分析系统,可以完成对石油信息的切片、切块等多维分析,为石油生产的决策者提供了多角度、多侧面、多层次地石油生产数据,从而深入地理解包含在数据中的信息及内涵,用以指导石油企业的经营生产活动,在一定程度上帮助石油生产决策者调整策略、减少风险,做出正确决策。

猜你喜欢

产油量数据表数据仓库
甘蓝型油菜的产油量分析
基于数据仓库的数据倾斜解决方案研究
湖北省新冠肺炎疫情数据表(2.26-3.25)
湖北省新冠肺炎疫情数据表
基于数据仓库的住房城乡建设信息系统整合研究
基于列控工程数据表建立线路拓扑关系的研究
配方施肥对澳洲茶树枝叶产量和产油量的影响
不同海拔条件下春油菜光合生理和产油量的响应
探析电力系统调度中数据仓库技术的应用
基于数据仓库的数据分析探索与实践