APP下载

大数据下的数据集成研究

2021-12-27杨琴琴

科学与生活 2021年22期
关键词:数据集成数据服务数据挖掘

摘要:数字油田、智能油田的不断建设完善,推动着石油企业信息化建设进入了新的阶段,即大数据建设阶段。为了在大数据环境中获得一定竞争优势,石油企业就需要对大数据技术进行更加细致的分析,首先就要进行数据集成。因此,本文以大数据为研究背景,分析了胜利油田数据中心数据集成现状,阐述了目前数据存在的问题,针对性地制定数据集成技术路线,通过数据集成,解决数据重复录入,实现数据标准统一、统一管理、共享应用。

关键词:大数据;数据集成;数据挖掘;数据中心;数据服务

前言

随着勘探开发的不断深入,我国油气行业在地质、测井、物探、开发等各个环节均积累了海量的数据资源,随着油田的信息化、数字化、智能化建设,对油气生产过程中积累的数据资源的分析利用也逐步展开,油气勘探开发步入“大数据时代”。通过大数据挖掘,对油气生产过程中各个环节的数据进行充分的信息采集,并且对所采集到的信息进行全方位的分析利用,进而可以对生产环节中指标的变化趋势、工况效率、工艺流程的安全性以及成本控制等方面提出预测、预警和优化,运用已获取的信息、规律、趋势,适时调整生产方案和策略,达到提升油气产量和效益的目的。

数据集成是数据挖掘的前提,先要对数据进行集成,然后才能进一步挖掘利用。数据集成和数据挖掘是一种大数据应用,数据集成简而言之就是对数据进行搜集,然后按照一定的规范进行数据整理,形成分门别类的数据信息。数据挖掘是对集成的数据进行读取与分析,发现数据背后隐藏的更深层次的信息。

1 胜利油田数据中心数据集成概述

数据中心运用面向对象的技术方法,对数据的采集、存储、管理和服务进行了规范的流程梳理和关键技术攻关,建立了“标准统一、上下一致、结构合理、安全可靠”的管理模式,规划、设计了企业级数据管理体系,为油田实现数据—信息—知识的数据价值链管理提供了技术保障。

数据集成就是为异构数据交流提供支撑工具,能够为信息交互和共享提供支持。对信息系统进行集成,需要实现最基本的集成,即数据集成。在数据集成基础上,才能对系统各种数据进行加工整理,对数据规则、格式等进行定义。通过数据集成,能够解决数据重复录入,实现数据及成果的标准化采集和在数据中心的统一管理、共享应用。

2 目前数据存在的问题

由于各应用系统单独采集、独立建库,缺乏统一规划、整体设计,在不同程度上存在着数据采集标准不统一、采集不全、编码不完善等问题,致使标准不一致、数据一致性差、冗余高,给跨应用系统、跨专业、跨部门的综合应用带来了困难。具体分为以下四类问题:

①用户在信息系统应用中,统一数据需要在不同系统中多次录入,导致重复操作;

②系统之间需要共享的数据未实现集成,导致用户手工线下转换、办理业务;

③统一数据,不同岗位都在采集,源头不唯一,导致数据冗余、数据一致性无法保证。

④系统之间统一数据的分类标准不统一,编码不完善,不对应。

数据集成的过程中就是要解决数据重复录入、不能共享、唯一性不能保证等问题。还需要做到:

①需要提升多源异构数据管理能力:目前对分散管理的文档、图件数据、实时数据、音视频、体数据等尚没有建立有效的管理体系,需要增加直观、简便的线上管理手段,将数据进行资产管理,进一步支撑数据挖掘,实现数据增值。

②需要提升应用库数据共享能力:目前应用系统产生的数据都分散的存储在各应用库,没有实现集中管理,数据共享困难,需要提升数据管理范围,将应用库数据纳入数据湖统一存储、管理。

③需要提升数据资源的统一管控能力和服务能力:需要提升主数据和元数据管理能力,满足业务应用和大数据分析对于跨业务协同及数据朔源的需求;需要提升数据服务能力,满足业务变化对数据的多变需求和性能弹性变化需求。

3 数据集成技术路线

基于数据中心:数据统一进入数据中心,通过数据中心数据服务集成;按照数据集成分析、数据模型设计、数据汇集、数据服务共享四大步骤,参照数据集成技术规范进行数据集成实施。

(1)数据集成分析

通过数据集成需求,结合业务情况分析数据的集成关系,分析系统数据基础情况,同时分析具体数据项,并结合数据中心,确定数据集成方案,明确数据服务模式。

(2)数据模型设计

通过对集成业务的分析,结合主数据、数据维度、数据标准等构建统一的数据模型。

(3)数据汇集

基于数据中心,实现数据集中,通过数据服务或者ETL工具,基于统一的数据标准,将数据汇集至数据中心。

(4)数据服务共享

扩展数据服务,实现服务接口的动态定制和解析,标准化的输入和输出,满足业务应用的复杂的数据服务接口要求,通过集成系统改造,实现数据共享。

统一管理數据资源,系统进行数据集成时通过统一的数据资产目录找到数据来源,通过数据中心或系统接口的方式实现数据的集成。

基于数据中心提供数据服务支持,在现有服务方式的基础上,扩展数据服务能力:

1)对上云应用,构建基础数据服务、主题数据服务、应用数据服务微服务群,实现数据服务灵活部署和快速扩展。

2)对未上云传统应用,沿用原有数据推送、数据投影、数据接口等服务方式,实现原有应用的平滑移植。

3)对大数据应用,通过数据服务引擎,实现在线数据实时处理和离线数据分析挖掘,支撑上端大数据应用。

对于基于数据中心的应用,充分利用数据中心的数据共享功能,实现系统间的数据贯通:

1)集成系统:按模块集成到平台,以数据服务的方式从数据中心获取数据,产生的成果数据同步回存数据中心。

2)统建系统、专业软件:无法按模块集成,以数据接口的方式从数据中心提供所需数据。

4 结束语

通过数据集成,将各应用系统的底层数据打通,完成全局油藏勘探开发、生产运行、经营管理等相关的数据资源管理,实现数据融合、互联互通、数据一致,完善了数据中心的建设,提升了数据中心的服务能力,解决了数据重复录入、不能共享、唯一性不能保证的问题,支撑了跨业务的数据联动以及基于数据驱动的业务协同,为下一步大数据挖掘奠定了基础。

参考文献

[1]刘彬,刘凯.关于信息系统集成与数据集成的策略探讨[J].电子质量,2018(9):58-61.

[2]赵磊.信息系统集成与数据集成策略应用研究[J].科技风,2018(26):246.

[3]林小村,马玉林,翁小云.数据中心建设与运行管理[M].北京:科学出版社,2011:5.

[4]孟小峰,马如霞,马友忠等译.数据集成原理[M].北京:机械工业出版社,2014:201-204.

作者简介

杨琴琴,2005年毕业于济南大学信控学院电子信息科学与技术专业,中国石化集团胜利石油管理局有限公司信息化技术服务中心数据管理岗,从事数据运维、数据应用、数据治理等方面工作。

猜你喜欢

数据集成数据服务数据挖掘
大数据时代高校图书馆数据服务的困境及优化路径
基于数据挖掘探讨慢性肾衰竭处方规律
数据挖掘综述
软件工程领域中的异常数据挖掘算法
成本与制造数据集成分析
基于R的医学大数据挖掘系统研究
基于Biztalk的异构医疗信息系统数据集成研究
信息系统集成与数据集成策略研究
基于数据集成的水上项目国家队数据库网络管理平台的设计与开发
大数据开启图书馆工作新时代