基于大数据平台的石油数据分析模型的研究与应用
2018-07-19王学军杨利霞
王学军,李 莎 ,杨利霞
(1.承德石油高等专科学校 计算机与信息工程系, 河北 承德 067000;2.中国石油天然气管道通信电力工程总公司, 河北 廊坊 065000;3.辽河油田公司信息工程公司, 辽宁 盘锦 124000)
随着IT、通讯和信息技术的发展,大数据和云计算在各行业和领域的应用都在飞速发展,针对行业在生产过程中采集、分析、积累的数据量越来越多,形成了超大量的数据群。这些数据在反应行业生产过程的同时,也体现了其内在的联系,就是这些数据以及存在的千丝万缕的联系,才真实地反应了行业生产的各种状况,同时也为其生产过程的监控、管理提供了很好的基础性信息。比如,在石油工程的斜井抽油生产过程中,其井深、井斜、扶正器等方面的参数相互制约,对于该生产过程非常重要,这些制约的关系都将通过石油生产的相关数据反映出来。在大数据平台下的数据挖掘技术和算法是一种分析相互制约数据的有效手段,通过数据分析和挖掘技术,探索出在石油生产过程中能反应生产过程的相互关联数据之间的关系,这些关系将为提高生产效率、加强管理、改善生产决策提供数据基础和方法依据[1-3]。
1 基于大数据的行业数据分析技术和过程
1.1 大数据支持下的数据挖掘算法
所谓大数据都能用“3V”(即量、类、时三个特征)来表示。量(Volume)就是数据容量大;类(Variety)就是数据种类多;时(Velocity)就是处理速度快,时效性要求高。这些特征非常准确地反映了目前石油工程、医疗卫生等行业中相关数据的特性。
基于行业大数据下的数据挖掘技术是指从某行业生产过程中积累的超大量数据中发现数据之间反映生产过程的内在规律、挖掘对生产管理有用信息和知识的技术和过程。通过数据挖掘技术对行业中的相关数据进行分析,可以得到那些行业生产过程本身存在、但又不能靠管理者轻易发现的的结论。这些结论通常以可视化的方式呈现,很容易被管理者和决策实施者理解,目前数据挖掘技术在石油工程、医疗卫生等行业发挥了重要作用。
1.2 行业数据分析处理过程
针对行业的数据挖掘首先从行业需求分析入手,根据工程单位在生产、管理、决策中需要解决的实际问题,才能确定数据分析处理的具体流程,一般包括如下过程:生产分析、数据解释、数据储备、选用模型、分析挖掘和得出结论,如图1所示。
1.3 石油数据分析技术的匹配性研究
石油数据分析过程影响因素比较多,要受到具体行业、具体生产过程等方面的影响,因此对应的数据挖掘技术也不是单一的,而往往是综合的、互相补充、相互促进的,其特色如下:
1)数据挖掘技术在行业数据处理的适用性。每一种数据挖掘方法都具有各自的适用情况,可以根据数据的特点进行分析,进而选择相应的数据挖掘方法进行处理。
例如,对于井眼轨迹来说,本身井眼轨迹就是一条曲线,只不过是一条复杂的空间曲线,但是如果将该曲线进行划分,那也可以变成局部的简单曲线,因此可以使用回归技术对其进行模拟。
2)数据挖掘技术在行业数据处理的综合使用性。由于行业数据非常复杂,变化非常多,因此每个数据处理过程都不是单一的,而是需要多个数据挖掘技术综合起来才能处理的。
例如,在斜井抽油的井眼轨迹描述中,对于变化比较规律的直线轨迹,可以使用一元回归函数进行模拟,而对于复杂的曲线轨迹,需要使用二元回归方法,同时还要使用分段处理的方法进行。在处理过程中,需要使用奇异点排除法,即将奇异点进行分类排除,然后逐一分析,最终确定奇异点的类型并进行相应处理。
2 大数据支持下的石油工程数据分析模型构建及应用
在基于行业数据处理步骤中,模型的选用和建立是起到承上启下的重要作用,首先要针对行业的具体数据进行分析,才能选用适合的模型,同时选用的模型还要考虑到后面的数据分析和挖掘,应该和预期的结果相匹配。
2.1 石油数据模型选取
石油生产过程是一个包括多个生产环节的过程,这些环节之间存在着必然联系,同时这些关系之间还存在相互制约的关系,正是这些必然、制约的关系影响了数学模型的选取。数学模型的选取对于计算数据、应用软件的开发都非常关键。选取恰当的模型,将为生产企业节省人力、物力,并提高经济效益。通过对石油工程具体生产的了解、数据特性的分析,结合具体生产过程,选取了适合于斜井抽油生产过程的三种模型,即适合于空间受力分析的三维三元模型、适合于模拟油藏储量的黑油模型、以及适合于油气渗流力学的数学模型,这些模型将为数据挖掘的应用奠定基础[4,5]。
2.2 石油数学模型优化
模型的选取原则是受生产过程、数据描述和处理过程等因素影响的,比如针对采油过程中的井眼轨迹来说,斜井抽油是一个立体模型,需要三维模型,直井的描述需要二维模型,但是实际生产决定了整体是三维的立体斜井空间,但是有很大部分是平面结构,需要二维空间即可,同时三维模型的基本思想是针对“直井”的二维模型的基础上发展得来的其基本研究思路是一致的,因此可以构建“二维+三维模型”来描述斜井抽油的实际生产过程。
2.3 石油行业数据处理模型应用案例——井眼轨迹的描述
1)斜井井眼轨迹描述的数据分析
根据斜井抽油生产实际情况,井眼轨迹的描述是需要连续性的曲线,尤其是在斜井抽油中,井眼轨迹直接影响了如何设置抽油机井的各项参数,首先必须知道井眼轨迹的基本形状。因此,出现了必须将离散型的数据转变成连续性曲线的需要。
2)斜井井眼轨迹描述需要解决的问题
由于石油生产是要在自然条件下进行的,同时很多工作是在地下完成的,并且要受到地理、气候、地层等多方面情况影响的,因此通过生产数据得出的井眼轨迹(即通过离散数据得出的连续曲线)不是规则曲线(单调或者基本规则的图形)构成的,这样解决该问题的难点及解决办法如下:
① 曲线形状的确定
通过离散数据得到的曲线不一定是规则的,很难判断其形状及变化规律。解决办法:将曲线进行分段描述,不同段的曲线采取不同的计算方法达到准确描述的目的。在每一段曲线(性质相同或相近数据组合的数据组)内,曲线的变化应该是相对规则的,并且性质也比较好判断。可采用数据挖掘中的回归算法来描述曲线的基本形状,达到模拟井眼轨迹基本状况的目的。
② 曲线接点处形状的确定
由于斜井抽油离散数值的不连续性,往往在不同性质曲线的接点处,很难实现对曲线的连接。解决方法:通过对大量实例分析得出的经验结果,可使用奇异点分析、分阶段回归、二次函数等方法进行完善,在曲线节点处近似模拟曲线的形状,将一段一段的不连续的曲线最终构成一个连续的曲线,即完整井眼轨迹的描述。
3)针对优化模型的算法优化(一元线性回归算法的优化)
通过斜井抽油的生产过程分析,针对优化的二维+三维模型的描述,可以准确描述影响井眼轨迹的因素包括测深、井斜角、方位角、垂深、平移等参数,通过对这些参数的具体分析,以研究“平移”参数为例,发现测深、垂深等参数的变化比较大(对于一口井来说都在数十米),而对于井斜角的变化不是很大(有些井斜角只有几度或者不到1度),因此,本文采用了分阶段处理参数的方法,即采用变化规律相同或相近的参数,两次使用一元线性回归的方法。比如可针对垂深、测深变化数据比较大,且变化规律相同或相近的参数,使用一元线性回归描述井眼轨迹的大致图形(即井眼轨迹的大致走向);然后在利用变化不是很大的井斜角等不可缺少的描述井眼轨迹的参数进行局部的扰动值的分析和描述。这样即解决了由于参数差别过大造成的有些参数无法发挥作用,同时也解决了斜井抽油变化复杂的实际生产状况问题,应用效果良好。
4)结论分析
通过斜井抽油具体情况分析可以看出,在针对斜井的井眼轨迹描述过程中,将性质相同的阶段简化为二维模型,利用线性回归算法进行基本井眼轨迹的描述。对于情况复杂的区域或连接点位置,采用再次回归(或二次曲线)方式进行模拟,很好地解决了利用数据挖掘回归计算模拟描述经验轨迹的问题。
通过上述优化和计算,可确定描述井眼轨迹的主要参数和影响因素,为井眼轨迹的描述提供了数据依据。
3 总结与展望
针对大数据平台下的数据挖掘算法为基础,在超大量数据中采用优化模型及优化算法能够很好地解决油田生产中的数据分析方面的问题,很好地实现了体现大数据支持下的数据挖掘技术和油田生产之间的结合。但是由于斜井抽油生产过程很复杂,这样的 优化和结合并不是容易研究分析和发现的,需要我们对超大量数据的挖掘和分析,还需要充分结合油田生产的实际,这显然需要一个长期而且艰巨的过程,需要我们不断努力探索和追求。