斜井有杆泵数据挖掘系统中的预处理设计
2012-08-14高书香
高书香
(承德石油高等专科学校 石油工程系,河北 承德 067000)
随着油气田工程中斜井数量的增加,将产生超大量油井方面的工程数据,对这些数据的研究和处理,将影响工程决策和实施过程[1]。而处理这些数据时行之有效的方法就是进行数据挖掘;它能够从超大量、有噪声、模糊的、随机的、不完整的实际生产数据中发现隐含的、事先未知的、却是潜在有用的知识和信息。数据挖掘是数据库中知识发现的一个主要步骤;知识发现可以分为5部分,即数据选择、数据预处理、数据转换、数据挖掘、结论及验证[2]。
1 数据挖掘目标值的确定
油田的生产运营应该是以最大经济效益为目标,而不是以油井的系统效率、采油量、作业费用等指标的最大值为目标。在有杆泵系统的生产管理中,确定各种管理措施的优选方法也应该以经济效益为指标。因此通过数据挖掘来回答诸如“哪个管理方案是最优的”等类似问题,这是传统评价方法无法具备的。在数据挖掘设计中,建议选择单井生产成本作为目标值或是响应值。
影响单井生产成本的因素很多,在工艺分析的基础上认为,作业费用、设备费用、单井油气产量等是主要影响因素。但是,作为一个生产系统,油井的上述3 个主要因素分别受到地层参数、设备参数、流体参数、生产参数等众多因素的影响。为了能充分进行数据挖掘,必须首先保证数据的全面性。针对生产过程的每个环节,设计各数据库的字段时,应该保证数据之间的完整性,不能因为影响因子小,而将该数据丢弃[3]。
2 有杆泵系统数据分类
简单说,有杆泵生产系统中的所有数据都可能会影响其生产成本。例如,导致杆管偏磨的因素很多[4],那么因杆管偏磨导致单井生产成本增加的因素就有很多。为了便于对超大量的数据进行采集与归类,借鉴文献[4]的分类方法,将主要数据分成油层基础数据、井眼轨迹数据、井下流体数据、井下工具数据、井下作业数据、地面设备数据、日常生产数据等7 大类数据;每一大类数据又可以细分成多种数据;具体分类见表1。
表1 有杆泵系统数据分类表
对固定的油井而言,油层基础数据是定值,不必采集。但对数据挖掘技术而言,数据信息量越大,则其获取知识的准确度越高。另外,将油层基础数据纳入到超大量的数据信息中,既可以实现同一油藏的不同油井数据的共用,还可实现不同油田之间的油井数据共用。因此,有必要将油层基础数据纳入到数据库系统中。
3 数据的预处理设计
在数据库设计中易出现空白数据、错误数据、重复数据等不规范现象和问题,需要经过统一的过滤和修正。因此数据预处理的主要目的是清洗错误的、有冲突的、重复的数据,避免数据的冗余或不统一,以利于数据搜索。
3.1 数据的标准化处理
数据选择是为了目标而搜索和选择相关数据,其目的是辨别出待分析数据的集合,缩小处理范围,提高数据挖掘质量。例如,生产层岩性的数据值可按岩石深度分别赋予不同深度上的对应值;杆柱材质的数据值可按材质类型分别赋予不同的数值;等等。
3.2 过滤噪声数据
为了确保数据挖掘系统在信息和文字识别中能够正确地分析和录入数据,应必须找出数据库中的空白数据、错误数据、重复数据等以便修改和完善。另外还要找出所有不完整的数据,例如高含蜡量的油井数据中有清防蜡时间,但却没有加药量和药剂类型;措施后的油井数据中有措施名称和新换管柱数据,但却没有措施后地面设备数据。上述情况下都会导致系统信息的不确定性,降低数据挖掘结果的可靠性。因此必须加以过滤或修改。
3.3 数据单位的规范化
不同油田、不同油井、不同时间内记录的数据很可能存在单位上的不同;即使使用的是同一单位,其计量标准可能也会不同。例如,油井的油套压数据在记录时,有的是用MPa 作单位,有的却是用atm 作单位;油井的动液面数据有的是以方补心为标准计量,有的数据却是以井口位置为标准计量;等等。为使数据能够进行纵向、横向的比较,需要把计量标准、数据单位等进行全面统一。将统一后的结果进行整理,以便查阅和使用。
3.4 表达术语统一化
石油生产中有很多一事多名的现象。例如,油层套管和生产套管在很多情况下混用;油层压力、地层压力、油藏压力在很多表述中是同一个压力;流压、井底流动压力、流动压力在很多情况下是同一处的压力,有时却是折算出的不同点的压力;等等。在数据库的建立过程中,会出现大量的类似数据,需要设定统一的使用规范和名称,以保证数据的完整有效。需要将统一后的结果进行整理和文档化,以便查阅和使用。
3.5 成本量化处理
在石油生产中,即便是同一家厂商的产品,在不同时间、不同生产单位的支出也是不同的。为了获得较为客观的数据挖掘结果,对所有产品、设备及作业费用等设定一个具体数据;而这些数据也是数据库中的一部分。这样既避免了因设备费用差别而引起的方案优选问题,还可以利用数据挖掘获得企业在不同设备上的支出费用分析。
4 结语
通过数据的预处理过程,数据库中的数据成为统一标准的、无噪声的数据。此后即可采用数据挖掘系统中的挖掘算法对相关问题进行知识和信息发掘。
[1]王学军,田乃林,高书香.斜井抽油相关数据的处理方法[J].油气田地面工程,2011(6):3 -4.
[2]唐笑林.数据挖掘技术的研究与应用[J].华东理工大学学报(自然科学版),2008(4):290 -295.
[3]王学军,田乃林.斜井有杆泵抽油参数系统中的数据库设计[J].油气田地面工程,2011(3):81 -82.
[4]高书香,王学军.抽油机井杆管偏磨因素分析[J].油气田地面工程,2010(10):52 -53.