APP下载

长输管道完整性管理中的数据挖掘和知识决策

2016-08-16赵志峰高炜欣

关键词:梁平长输完整性

赵志峰,文 虎,高炜欣,郭 军

(1.西安科技大学 能源学院,陕西 西安 710054; 2.西安石油大学 电子工程学院,陕西 西安 710065; 3.教育部 西部矿井开采及灾害防治重点实验室,陕西 西安710054)



长输管道完整性管理中的数据挖掘和知识决策

赵志峰1,2,文 虎1,3,高炜欣2,郭 军1,3

(1.西安科技大学 能源学院,陕西 西安 710054; 2.西安石油大学 电子工程学院,陕西 西安 710065; 3.教育部 西部矿井开采及灾害防治重点实验室,陕西 西安710054)

为提高长输管道完整性管理中数据挖掘和知识发现的能力,针对管道大数据的特点,以管道外腐蚀中的土壤腐蚀数据管理与分析为例,对土壤电阻率、氧化还原电位、氯离子含量、硫酸根离子含量、含水量、pH值6种土壤腐蚀多因素指标,运用粗糙集方法构造管道土壤腐蚀多因素指标数据集,建立决策表,进行原始数据约简,以及结构重要度分析,从而在多指标因素中找到反映该地区土壤腐蚀特点的核心判别指标,并根据其核心指标因素利用决策树规则,按照多指标因素中结构重要度的大小对决策树结构进行优化,建立分类规则模型,进行有针对性的多因素管道土壤腐蚀诊断决策。利用模型对川气东送梁平管道段的检验样本进行了实例分析,诊断结果符合现场实际情况。

长输管道;完整性管理;土壤腐蚀;粗糙集;决策树

赵志峰,文虎,高炜欣,等.长输管道完整性管理中的数据挖掘和知识决策[J].西安石油大学学报(自然科学版),2016,31(4):109-114.

ZHAO Zhifeng,WEN Hu,GAO Weixin,et al.Data mining and knowledge decision in the integrity management of long-distance pipeline [J].Journal of Xi'an Shiyou University (Natural Science Edition),2016,31(4):109-114.

引 言

管道输送具有高效、成本低、可穿越各种工况的特点,在能源运输中发挥着难以取代的作用。可是管道一旦发生事故不仅会带来巨大的经济损失,也可能会导致人员伤亡和环境污染。管道完整性管理作为一种系统性的安全管理模式,是多年来管道安全管理的实践体现,它以预防为主的主动维护,通过分析并预测管道损伤的程度,以保证管道的结构完整性[1]。

长输管道完整性管理以数据资料的采集、存储、清洗及数据分析与挖掘为基础,其中数据的分析与挖掘是完整性管理的基础核心和高效应用的前提,为管道安全输送决策服务[2]。目前,针对长输管道大数据分析研究的主要方法有:模糊数学逻辑法,由于其在隶属函数中参数阈值的选取具有一定的主观性,会对结果准确率有较大影响[3];灰色系统分析法,它的关联度求解算法有着明显缺陷,导致结果可能不精确[4];神经网络分析法,存在着训练不足和训练过度的问题,性能不十分稳定[5]。由于上述方法都有一定的局限性,由此可能出现长输管道完整性管理中预测预防的精度和准确率不高,时效性较差,失去了发挥完整性管理应有的效果。

1 长输管道完整性管理中土壤腐蚀多因素实例分析

土壤腐蚀数据管理与分析是管道外腐蚀安全管理的重要项目。由于管道工况的差异性,其土壤腐蚀多因素的选取和地域性的不同,造成多因素影响的因素和大小也不相同,由此可能出现管道完整性管理中土壤腐蚀参量选用不完全,甚至未考虑重要的腐蚀环境因素(如土壤电阻率、氧化还原电位、含水量、土壤pH值)与地域的关系[6],这种情况下会导致数据分析不完全,所得结果存在一定的片面性,甚至得到错误的结果,影响到长输管道完整性管理决策的正确性。

以中石化川气东送管道完整性管理项目梁平段为例,运用基于粗糙集和决策树的数学方法,对梁平段土壤腐蚀多因素的原始数据进行数据挖掘和知识发现,为该地区段的管道完整性管理提供决策服务。

1.1数据挖掘

针对梁平段土壤腐蚀现场采集的数据,按试片取片数据以及采集批次进行6种影响因素统计,并随机选取20组腐蚀数据进行数据挖掘,具体见表1。

表1 梁平段管道土壤腐蚀实际原始样本指标因素值Tab.1 Actual soil corrosion factors of Liangping section pipeline

粗糙集理论是处理不确定问题的数学工具,它在不需要考虑任何先验信息的条件下,直接通过对观测数据进行分析处理,利用粗集算法从决策表中删除重复的相同信息和冗余项,简化条件属性,从而精简决策指标[7]。

根据粗糙集方法将表1作为决策表,其中把长输管道土壤腐蚀选取点U={X1,X2,…,X20}作为研究对象,把管道土壤腐蚀所选取的影响因素T={土壤电阻率,氧化还原电位,氯离子质量分数,…,pH值}作为条件属性,管道土壤腐蚀的等级D={非常严重,严重,中等,轻微,极低}={5,4,3,2,1}作为决策属性。根据腐蚀等级以及土壤腐蚀指标因素分类模式要求[9-11]对表1进行标准归一化处理[8],结果见表2;结合粗糙集离散化要求对表1进行离散化处理,见表3。将数据冗余项3(或6)、项2(或17)、项7(或14、或18)、项16(或19)删除,得到的新决策表按约简决策规则进行属性约简,以及结构重要度分析。

表2 土壤腐蚀指标因素分类区间Tab.2 Classification intervals of pipeline soil corrosion factors

表3 土壤腐蚀因素离散化数据Tab.3 Discretization of pipeline soil corrosion factors

1.2属性约简和结构重要度分析

决策表中条件属性对于结果属性的重要度小时,可从决策表中删除该条件属性,进而计算时去掉该属性对结果属性分类正域值的大小。值越小,说明该条件属性对于决策属性的重要度越小;值越大,说明该条件属性对于决策属性的重要度越大;其值为零,表示对结果属性无影响,可以删除。

结合梁平段管道土壤腐蚀数据,定义整个数据集合为U,T和J分别为条件属性集和结果属性集,其中条件属性集T含有:土壤电阻率a,氧化还原电位b,氯离子质量分数c,硫酸根离子质量分数d,含水率e,pH值f。结果属性集J为土壤腐蚀等级。因此:

U/J={{1,4,5,7,9,11,13,15},{2,3,12,20},{8,10,16}};

U/T={{1,3},{2},{4},{5},{7},{8},{9},{10},{11},{12},{13},{15},{16},{20}};

U/T-a={{1,3},{2,5},{4},{7},{8},{9},{10},{11},{12},{13},{15},{16,20}};

U/T-b={{1,3,20},{2,8,10},{4},{5,13},{7},{9},{11},{12},{15},{16}};

U/T-c={{1,3},{2},{4},{5},{7},{8},{9},{10},{11},{12},{13},{15},{16},{20}};

U/T-d={{1,3},{2},{4},{5},{7,20},{8},{9},{10},{11},{12},{13},{15},{16}};

U/T-e={{1,3,5},{2},{4},{5},{7},{8},{9},{10,16},{11},{12},{13},{15},{20}};

U/T-f={{1,3},{2},{4},{5},{7},{8},{9,13},{10},{11},{12,20},{15}}。

结果属性对各类的正域为:

POST(J)={2,4,5,7,8,9,10,11,12,13,15,16,20};

POST-a(J)={4,7,8,9,10,11,12,13,15};

POST-b(J)={4,5,7,9,11,12,13,15,16};

POST-c(J)={2,4,5,7,8,9,10,11,12,13,15,16,20};

POST-d(J)={2,4,5,8,9,10,11,12,13,15,16};

POST-e(J)={2,4,7,8,9,10,11,12,13,15,16,20};

POST-f(J)={2,4,5,7,8,9,10,11,12,13,15,16,20}。

各属性的结构重要度:

根据以上的计算可知,该管道外腐蚀土壤影响因素的重要性排序为:∂TJ(a)=∂TJ(b)>∂TJ(d)>∂TJ(e)>∂TJ(f)由于∂TJ(c)和∂TJ(f)=0,表明这2个条件属性对结果无意义,可以删除。同时删除数据中的非正域项(第1和3项)和冗余项第20项(与第12项重复),土壤腐蚀约简项见表4。

表4 土壤腐蚀约简项Tab.4 Simplification of pipeline soil corrosion factors

2 知识决策实例分析

2.1建立决策树

决策树是一种树型结构的递归分类模型,它以实例数据为集合空间,利用树型结构将空间属性分类,根节点以分类要求为依据,每个分节点为一个分类问题,并分类成2个或2个以上的块,每个块再继续分类直至叶节点的产生,一个叶节点就是某个属性条件下分类的数据。从根节点到叶节点的每一条路径就代表了一条分类规则[2]。

建立决策树的关键问题是构造决策树结构的好坏,也就是对测试属性的选择和决策树的修剪[13]。为了便于寻找分类规则,更好地进行管道大数据中的知识发现,决策树的根节点要选取核心测试属性,再通过核心测试属性的不同值来构造分支,其分支节点选取结构重要度值大的测试属性,运用递归分类的方法重复建立。由于管道大数据集合空间的特性会导致过拟合的问题,因此有必要对决策树进行修剪,即将相反分类规则以及重复分类规则的冗余项删除,以提高决策树规则信息分类的能力。

针对梁平段管道土壤腐蚀数据的例子,选取表4中的前10项为分析数据,后2项为测试分类检验举例,进行土壤腐蚀多因素影响决策树的属性选择、决策树修剪和知识分类决策。对于决策树的根节点选择核心因素指标土壤电阻率和氧化还原电位,分支节点根据非核属性结构重要度大小,依次选择硫酸根离子质量分数,含水率。叶节点为结果属性土壤腐蚀等级。管道土壤腐蚀多因素分类决策树如图1所示。

图1 管道土壤腐蚀多因素分类决策树Fig.1 Multi-factor classification decision tree of pipeline soil corrosion

2.2知识发现

对图1管道土壤腐蚀多因素分类决策树进行修剪。由于根节点土壤电阻率a与氧化还原电位b的核心属性值相等,即结构重要度相同,再根据分类规则可以看出:(3,3)-(1)-(3)-4级,(3,3)-(2)-(5)-4级,(4,1)-(2)-(4)-4级,这3条规则可以被其他针对土壤腐蚀等级4级的分类规则包含在内,应予以剪除。利用修剪后的决策树对表4最后二项数据作测试分类检验,可以看出:第15项(2,4)-(3)-(5)属于(3,2)-(3)-(3)-4级和(3,4)-(2)-(5)-4级之间,可以判定该测试数据结果属性级别为4级。第16项(2,2)-(2)-(3)属于(2,1)-(2)-(5)-2级和(2,2)-(2)-(5)-2级之间,可以判定该测试数据结果属性级别为2级。以上测试数据的分析结果符合其现场实际结果属性级别,为该管道段的土壤腐蚀多因素分类的知识决策提供了依据。

3 结 论

(1)基于粗集-决策树方法对梁平段管道的实例分析,表明只有综合考虑其管道大数据的特性,以及不同区域环境影响因素不同的特点,进行数据的挖掘和知识发现,才能提高长输管道完整性管理的针对性和适应性。

(2)运用粗集方法的属性结构重要度分析能充分利用原始数据自身的客观信息,无需任何先验条件和附加信息,进行多值和非数值的重要度处理;而传统的属性结构重要度分析法只能处理二值的数值型模式问题。通过利用粗集核属性,以及属性结构重要度值,可以构建知识规则易发现、且直观的决策树,减少了树的复杂度,提高了容错能力和分类的效果。

[1]董绍华.管道完整性管理体系与实践[M].北京:中国石化出版社,2015.

[2]王毅辉,李勇,蒋蓉,等.中国石油西南油气田公司管道完整性管理研究与实践[J].天然气工业,2013,33(3):78-83.

WANG Yihui,LI Yong,JIANG Rong,et al.Research and practices of the integrity management of gas pipelines operated by PetroChina Southwest Oil & Gasfield Company[J].Natural Gas Industry,2013,33(3):78-83.

[3]柳华伟,陈杨.模糊综合评价法在埋地管道腐蚀状况评价中的应用[J].石油工程建设,2011,37(5):43-45.

LIU Huawei,CHEN Yang.Application of fuzzy integrated evaluation method in evaluating corrosion state of buried pipeline[J].Petroleum Engineering Construction,2011,37(5):43-45.

[4]吴志平,蒋宏业,李又绿,等.油气管道完整性管理效能评价技术研究[J].天然气工业,2013,33(12);131-137.

WU Zhiping,JIANG Hongye,LI Youlü,et al.Efficiency appraisal of oil & gas pipeline integrity management[J].Natural Gas Industry,2013,33(12):131-137.

[5]王金秋,李为相,朱承飞.基于粗糙集和BP神经网络的石化管道外腐蚀程度预测应用[J].计算机测量与控制,2015,23(1):266-272.

WANG Jinqiu,LI Weixiang,ZHU Chengfei.Application on petrochemical pipeline outside corrosion prediction based on RS and BPNN[J].Computer Measurement & Control,2015,23(1):266-272.

[6]RICHARD McNealy,LUCINDA Smart,STEVEN Osgood.Effect of corrosion growth rate estimated from consecutive assessments on response to in-line inspection anomaly predictions[C].paper 1560-MS presented at the SPE NACE International,11-15 March 2012,Salt Lake City,Utah.

[7]PAWLAK Z.Rough sets[J].International Journal of Information and Computer Science,1982,1(5):341-356.

[8]MANDAL Santosh Kumar,CHAN Felix T S.,TIWARI M K.Leak detection of pipeline:an integrated approach of rough set theory and artificial bee colony trained SVM[J].Expert Systems with Applications,2012,39(3):3071-3080.

[9]秦晓霞.埋地管道土壤腐蚀性与防护研究[D].青岛:中国石油大学(华东),2009.

[10]胡世信.阴极保护手册[M].北京:化学工业出版社,1999.

[11]刘春波.埋地钢质管道腐蚀防护模糊综合评价技术研究[D].北京:北京工业大学,2007.

[12]张延松,赵英凯.基于PCA和粗糙集构建决策树的变电站故障诊断[J].电力系统保护与控制,2010,38(14):104-109.

ZHANG Yansong,ZHAO Yingkai.Fault diagnosis of substation by the constructed decision tree based on principal component analysis(PCA) and rough set[J].Power System Protection and Control,2010,38(14):104-109.

[13]黄宇达,范太华.决策树ID3算法的分析与优化[J].计算机工程与设计,2012,33(8):3089-3093.

HUANG Yuda,FAN Taihua.ID3 Algorithm for decision tree analysis and optimization[J].Computer Engineering and Design,2012,33(8):3089-3093.

责任编辑:张新宝

Data Mining and Knowledge Decision in the Integrity Management of Long-distance Pipeline

ZHAO Zhifeng1,2,WEN Hu1,3,GAO Weixin2,GUO Jun1,3

(1.Energy School,Xi'an University of Science and Technology,Xi'an 710054,Shaanxi,China;2.College of Electronic Engineering,Xi'an Shiyou University,Xi'an 710065,Shaanxi,China;3.Key Laboratory of Western Mines and Hazard Prevention,Ministry of Education,Xi'an 710054,Shaanxi,China)

In order to improve the ability of data mining and knowledge discovery in the integrity management of long-distance pipeline,taking the management and analysis of the soil corrosion data of long-distance pipeline external as an example,the multi-factor (the resistivity,oxidation reduction potential,chloride ion content,sulfuric acid root ion content,water content and pH value of soil) data set of pipeline soil corrosion is constructed using rough set method based on the large data characteristics of the pipeline,the decision table is established,the original data of the pipeline are simplified,and the structural importance degree is analyzed to find the key factors reflecting the soil corrosion characteristics in this area from all factors.The structure of decision tree is optimized using decision tree rules according to the structural importance degree of the key factors,and the classification rule model is established to carry out the diagnosis and decision of multi-factor pipeline soil corrosion.The soil corrosion sample of Liangping segment of the natural gas transmission pipeline from Sichuan to east was analyzed using the established model,and the diagnosis and decision result is in line with the actual situation of the field.

long-distance pipeline;integrity management;soil corrosion;rough set;decision tree

A

2016-03-01

陕西省教育厅重点实验室科研计划项目(编号:14JS079);中国石油科技创新基金研究项目(编号:2014D-5006-0605);2013陕西省教育厅自然科学专项(编号:2013JK1077)

赵志峰(1978-),男,讲师,主要从事安全预控技术、检测及监控技术的研究。E-mail: zfzhao@xsyu.edu.cn

10.3969/j.issn.1673-064X.2016.04.019

TE832.2

1673-064X(2016)04-0109-06

猜你喜欢

梁平长输完整性
长输管道建设中焊接技术的研究
中华蜜蜂为梁平柚授粉的效果及梁平柚蜂蜜品质研究
关于长输管道安全距离确定方法的探讨
石油化工企业设备完整性管理
长输管道全位置自动焊接工艺研究
昆士兰大学
The Color Purple
莫断音动听 且惜意传情——论音乐作品“完整性欣赏”的意义
精子DNA完整性损伤的发生机制及诊断治疗
诗人访谈