抽油机井生产及措施数据特征分析
2017-10-13高丽洁檀朝东葛岢岢阚唱轩
高丽洁,檀朝东*,葛岢岢,阚唱轩
抽油机井生产及措施数据特征分析
高丽洁,檀朝东*,葛岢岢,阚唱轩
(中国石油大学(北京)石油工程学院,北京昌平102249)
石油行业的大数据时代已经来临,抽油机井生产及措施数据的使用更加广泛和重要,但关于抽油机井的生产及措施数据的基本认识,如概念、来源、特征等并没有得到充分认识。本文在分析生产及措施数据的概念和来源的基础上,对其基本特征,如海量特征、不完整特征、多粒度特征、多因素特征进行了详细说明。
生产数据;措施数据;数据特征
引言
近年来,我国石油行业信息化已由“数字油田”逐渐步入“智慧油田”发展新阶段,面临着云计算、物联网、移动互联网和社交网络等新一代信息技术全面应用的新格局,石油工业的大数据时代已经来临。伴随着大数据时代的到来,石油工业数据正以前所未有的速度不断增长和累积,那么石油工业数据的管理势必进入数据密集型科学阶段。石油生产过程中产生的资源数据开始由传统意义的信息系统管理对象转变为一种基础性资源,对数据的使用也从单纯的数据存储、管理、简单的报表和一般的查询应用转变为挖掘分析,人们利用各类大数据挖掘方法充分挖掘隐藏在数据背后的规律,并应用于实际的生产中。
抽油机井生产及措施数据在石油工业数据中占据很重要的位置,无论是油井措施的诊断、评价还是措施的优化评价,都需要在抽油机井生产及措施数据的基础上,运用各类数据挖掘方法进行分析。但由于抽油机井生产及措施数据的多维度性、数据污染、数据量大等特点,我们能利用的数据只是冰山一角,所以基础数据库难以建立,造成后续工作的困难。所以为了促进抽油机井生产及措施数据的高效管理和利用,有必要对抽油机井生产及措施数据的界定和基本特征进行研究。
1 生产及措施数据
1.1 生产及措施数据的界定
数据与信息有一定的区别和联系。“数据”是“信息”的载体,“信息”是存在于“数据”之中对应者有价值的抽象内容[1]。信息是物质存在和运动形式的一般描述[2],是客观世界在人脑中的反映,数据是由数字、字母和符号等表达的信息[3],是描述事物的状况、行为及其结果的有特定含义的字符或数字[4]。数据指由观测者记录下来、并存贮到计算机中的数值;而信息则是数据使用者理解的这些数值的意思[5],如数字形式的产量值是数据,而这些数据数值表达的生产状况则是信息。
抽油机井生产及措施数据是石油工业数据中的一部分。从石油工业经营管理过程中数据流的角度来看,抽油机井生产及措施数据是指,抽油机井生产过程中,利用各种数据采集、传输、交汇、汇集、处理、存储和分析等技术手段,对抽油机井生产及措施实施过程进行观察和监测,得到生产数据和措施数据。生产数据包括举升方式、原油粘度、含蜡量、渗透率、日产液量、含水率、系统效率、泵效、沉没度、动液面、吨液耗电等;措施数据包括洗井、检泵、调参、清蜡、冲砂等措施的施工参数,如井号、作业时间、作业周期、洗井液类型等。
1.2 生产及措施数据的来源
生产及措施数据的来源概括起来可分为以下几种:
(1)实测数据 在石油生产现场,通过测井、录井等方法获得生产静态数据并进行记录,不同的位置都安装的测试仪器对生产动态数据进行监测和记录。
(2)数据库数据 石油工业具有海量数据,不同类型的数据储存在不同的数据库中。目前已经有多个数据库在建或已经完成并在逐步完善过程中,包括:勘探与生产技术数据管理系统(A1)、油气水井生产数据管理系统(A2)、管道生产和管理系统(A3)、地理信息系统(A4)、采油与地面工程运行管理系统(A5),数字盆地系统(A6)、工程技术生产运行管理系统(A7)、油气生产物联网系统(A11)等。生产及措施数据分别储存在A2、A5等数据库中。
(3)历史数据 指历史文献中记录下来的各种生产数据或措施数据记录,经过基于石油知识关联的整理和完善,这些信息将成为可用的数据。但这些数据中常存在不确定描述性信息、错漏、重复、不系统、不规范等问题,应根据各种专业和非专业背景知识修订。
(4)理论推理与估算数据 在不能通过其它方法直接获取数据的情况下,常用有科学依据的理论推测得到数据。如地质状况相同或相似的两口井,依据专家经验和生产规律,借鉴邻井的生产制度;如超深井动液面太深,用常规的回声探测法已经无法测量,常采用有依据的估算方法。
(5)实验数据 模拟油田实际生产或地层状况,实验测出的数据。如模拟流体地层和油管内的流动、模拟地层岩石受力情况等获得各种实验数据。试验数据与实测数据的结合使用效果较好。
2 数据特征
如何有效管理和利用石油工业的大数据,是管理人员、研究人员和信息人员都非常关注的问题,而数据挖掘(Data Mining)正是解决这一问题的有效途径之一,它可以将数据转换成有用的信息和知识,从而实现从“大数据”到“大信息”、“大知识”的跨越。大数据的特点可以总结为4个V,即volume(体量浩大)、variety(模态繁多)、velocity(生成快速)和value(价值巨大但密度很低)[6]。这样的数据特点在石油行业同样存在,数据量大、数据格式多、存储分散、非结构化数据多、研究对象非均质性强、专业应用软件多等数据特点,使石油行业数据挖掘工作进行困难。为了更好的利用生产及措施数据进行研究,弄清数据的特点是必须的。
2.1 海量特征
生产及措施数据虽然只是石油工业数据的一部分,但是其数据量之大也以难以想象,正如冰山一样,我们能管理和利用的数据还仅是冰山一角。传统记录数据的方法是人工读表,每两小时进行一次记录,一天12条记录。油井生产及措施数据涉及石油生产的多个流程及环节,所以多口油井多个环节一天的记录是一个客观的数字。随着物联网信息技术的应用,油田生产逐渐更数字化、智能化,自动化和信息化程度不断提高,不同生产环节均可进行数据实时读取,采集频繁采集密度大,时效性强数据量大,处理速度更快,生产及措施数据的增长速度从MB级迅速发展到TB、PB、EB、ZB级,经过“十五”以来约15年的统一建设,已经有约70个大型信息系统完成了建设并上线运行,仅在其中的“勘探与生产技术数据管理系统”(A1系统)中,就管理着约1500TB的数据和约30万口井的结构化数据[7]。而尚未入库、分散在各个单位和个人手中的数据更是难以统计。大数据时代的到来形成数据量的急剧膨胀和数据分析需求增加的趋势。
2.2 不完整特征
在实际油井生产中,采集的油井生产及措施数据中的数据一般都是有“噪音”的,存在不完整、不一致等问题。由于设备测量或传输故障、记录人员的失误、记录表的丢失、上载数据有问题等原因,造成原始数据的缺失、重复、异常、错误等。而石油工业的数据分析挖掘,由于涉及数据量大、变量多等因素,加之数据的不完整,通常都需要花费大量时间对这些复杂的数据进行分析,不完整的数据记录会使得分析挖掘难以进行(特别是做交互式数据挖掘时),对分析结果的准确性也有很大的影响。
所以对油井生产及措施数据进行数据挖掘分析前,需要解决数据文件中的人为误差,进行数据预处理,提高数据挖掘质量。数据预处理是将原始的真实数据库转换成适于数据挖掘的挖掘数据库。常用的数据预处理有数据清洗、集成、转换、规约等[8],都是在保证数据的完整性和挖掘结果可靠性的前提下,剔除或补充不完整数据,减少用于挖掘的数据属性和样本数,以提高挖掘的速度和精度。
2.3 多粒度特征
油井生产及措施数据的多粒度包括时间粒度(如日、月、年)、空间粒度(如井组、区块、油田等)、属性维度粒度等[9]。油气生产数据可从时间粒度进行单日、单月或一年的数据统计分析;也可以从空间粒度出发,分别考虑单井、井组、区块或整个油田的生产数据。
油井维护措施包括洗井、检泵、调参、热洗、清蜡等。措施数据占油井生产及措施数据的主要部分。从空间粒度上分析单井、井组、区块和油田的作业参数及效果。以单井年度措施记录为例,绘制单井年度措施记录图,有图1和图2两种展示方式。一口油井在一段时间内会有多种措施交替进行,各类措施同一时间轴上无规律非等周期出现。由于每次作业参数不同,作业后效果有好有坏,作业周期也不尽相同,各个措施非等周期出现,造成措施有效期叠加,使措施效果不清,无法判断一系列措施中哪一项对当前生产状况产生影响,积极影响或消极影响。
图 1 单井年度措施记录
图1 单井年度措施记录
油井措施作业以生产时间为主线,各措施非等周期交替发生,相邻两事件标号距离表示两事件发生的间隔。
2.4 多因素特征
油井生产及措施数据包括原油和地层的静态数据、生产数据、洗井、检泵、调参、热洗、清蜡参数数据等。每类数据有众多的影响因素[10-15],包括:
1)原油和地层的静态数据:井号、渗透率、原油粘度、含蜡量、地层能量、油层温度、油层中深、开采方式;
2)生产数据:井号、日产液量、日产油、含水率、系统效率、泵效、沉没度;
3)洗井参数:井号、洗井作业时间、洗井液类型(油洗、水洗)、洗井方式(正洗井、反洗井、正反洗交替)、洗井液用量、洗井进出口温度、排量、泵压、作业恢复期、洗井周期;
4)检泵:井号、检泵作业时间、施工原因(活塞磨损、上凡尔罩断、固定凡尔漏、卡泵、管杆磨断、管杆偏磨、管漏)、检泵周期、排量;
5)调参:井号、调参作业时间、冲程、冲次、泵径、作业有效期;
6)冲砂:井号、冲砂作业时间、冲砂方式(正冲砂、反冲砂、正反冲砂、联合冲砂)、冲砂液类型(油、水、乳状液、汽化液)、冲砂液用量、砂柱高度、排量、作业恢复期、洗井周期;
7)清蜡:井号、清蜡日期、结蜡井段、清蜡方式(机械清蜡、热力清蜡(热洗、电热、热化学)、微生物清蜡)、洗井液温度、洗井液类型(采出液、水、脱气原油、蒸汽)、洗井液用量、排量、洗井周期、作业恢复期;
8)措施效果衡量指标:油井产量、系统效率、措施成本。
图 3 措施参数E-R图
用E-R图(图3)表示各个措施数据及油井生产数据参数间的关系。可以看出影响生产和措施效果的事件和因素繁多,且相互关联性强,给油井生产参数优化、措施模式及参数选择工作带来了巨大挑战。
3 结语
抽油机井生产及措施数据来源广泛,包含内容庞杂,具有数据量大、数据不完整、数据多粒度、影响因素众多等特点。油井生产过程中影响生产和措施效果的事件和变量繁多,且相互的关联性强,给油井生产参数优化、措施模式及施工参数优选工作带来了巨大挑战。了解数据才能更好的运用数据,对抽油机井生产及措施数据的研究意义在于认识其内在规律,了解其特点,以更好的服务于大数据挖掘中油井维护措施的诊断、预警、优化、推荐,充分利用数据资源优势,突破传统方法的主观性和局限性,有针对的提高措施效果,降低措施成本。
[1] 李军, 周成虎. 地学数据特征分析[J]. 地理学, 1999, 02:63-67.
[2] 周荫清. 信息理论基础[M]. 北京:北京航空航天大学出社, 2006.
[3] 陈学诠, 陈洪亮. 数据库原理与工程应用[M]. 北京: 中国科技大学出版社, 1996.
[4] Martin E. Model Data Analysis. Data Modeling and Classification. McGraw-Hill.Inc, 3-15.
[5] David J.Maguire.Computer in Geography.Longman Scientific& Technical 1989. 15
[6] 张引, 陈敏, 廖小飞. 大数据应用的现状与展望[J]. 计算机研究与发展, 2013, S2: 216-233.
[7] 李大伟, 熊华平, 石广仁等. 基于全球典型油气田数据库的数据挖掘预处理[J]. 大庆石油地质与开发,2016, 35(1):66-70.
[8] 菅志刚, 金旭. 数据挖掘中数据预处理的研究与实现[J]. 计算机应用研究, 2004, 07:117-118+157.
[9] 檀朝东, 项勇, 赵昕铭, 王辉萍, 高丽洁.基于大数据的油气集输系统生产能耗时序预测模型[J]. 石油学报, 2016, 37S(2): 158-164.
[10] 廖锐全, 李勇, 张顶学, 等. 基于累加和GM(1,1)的油井措施费用预测模型[J]. Journal of Oil and Gas Technology, 2007(4): 105 - 107.
[11] 王朋珍. 基于模糊理论的油井措施多目标规划研究[D]. 大庆石油学院,2008.
[12] 李文华, 杨亚仿, 朱晓辉. 灰色关联分析方法在稠油井措施优选中的应用[J]. 长江大学学报:自然版, 2011, 08(6):74-77.
[13] 王飞飞, 史培玉, 王志亮, 等. 灰色预测改进模型在结蜡规律预测中的应用[J]. 油气储运. 2010, 29(8):592-594.
[14] 王文发. 油井措施评价指标与效益分析模型的研究[J]. 计算机与数字工程, 2012, 40(5):63-65.
[15] 王嘉琳, 张强, 刘齐.改进混洗蛙跳算法在油井措施优化中的应用[J].长春理工大学学报(自然科学版). 2014(6): 143-150.
Analysis on the Characteristics of Pumping Well Production and Measures Data
GAO Lijie, TAN Chaodong*, GE Keke, KAN Changxuan
(College of Petroleum Engineering, China University of Petroleum, Beijing 102249, China)
The era of large data in the oil industry has come, and the use of pumping wells of production and measures data is more extensive and important, but the basic knowledge about the production and measures data of pumping wells, such as concepts, sources, and features, are not adequately understood. Based on the analysis of the concept and source of production and measures data, this paper describes its basic characteristics such as massive features, incomplete features, multi-granularity characteristics and multi-factor characteristics.
production data; measures data; data characteristics
10.19551/j.cnki.issn1672-9129.2017.02.11
TP3
A
1672-9129(2017)02-0055-04
2016-12-02;
2017-01-05。
高丽洁(1993-),女,黑龙江省牡丹江市,硕士研究生,主要研究方向:数据挖掘、油井措施推荐;檀朝东(1968-),男,安徽望江,副研究员,博士,石油工程、物联网教学及科研。
E-mail:305642066@qq.com
引用:高丽洁, 檀朝东, 葛岢岢, 等. 抽油机井生产及措施数据特征分析[J]. 数码设计, 2017, 6(2): 55-58.
Cite:Gao Lijie, Tan Chaodong, Ge Keke, et al.Analysis on the Characteristics of Pumping Well Production and Measures Data[J]. Peak Data Science, 2017, 6(2): 55-58.