APP下载

一种改进的CSCA+PCA化工过程异常检测技术*

2017-04-16王静虹李晨阳支有冉王志荣

中国安全生产科学技术 2017年7期
关键词:化工分类样本

王静虹,李晨阳,支有冉,王志荣

(1.南京工业大学 安全科学与工程学院,江苏 南京 210009;2.江苏省危险化学品本质安全与控制技术重点实验室,江苏 南京 210009;3.南京工程学院 机械工程学院,江苏 南京 210009)

数字出版日期: 2017-07-19

0 引言

化工生产过程往往具有易燃易爆、高温高压、有毒有害等特点,一旦在安全方面出现问题,极易引发重大的人员伤亡和财产损失事故。当化工生产过程中的人、机、环、管等主体发生或即将发生某些事件时,化工企业应能够对一些异常进行快速反应,在事件造成后果前或者事件发生前,就对异常情况进行控制,从生产的不安全状态迅速恢复到安全状态。这种能力必须依赖于在严格的时间限制内对这些主体释放的信息进行监测、捕获、分析、预警以及调控。而这种功能与自然界生物体的免疫系统具有很强的相似性。

免疫系统能够保护机体不受外部细菌、病毒的感染。基于生物免疫系统中蕴含丰富的信息处理机制,人工免疫系统(Artificial Immune system, AIS)的概念自20世纪七八十年代被提出以来,在故障诊断、网络监测等领域都获得了迅猛的发展[1-2]。在化工过程异常诊断方面,继传统的基于历史数据[3]、基于动态模型[4]和不依赖动态模型的诊断方法[5]之后,利用人工免疫进行异常诊断的研究也逐渐开展,如清华大学的赵劲松团队在国内率先基于人工免疫原理对间歇化工过程开展故障诊断研究,取得了一系列进展[6-8]。但大多数的过程异常检测都存在一个很突出的问题,即过程参数数量众多且关联关系极其复杂,传统的人工免疫算法如克隆选择算法、阴性选择算法、人工免疫网络算法等直接应用于过程异常检测时并不一定有显著的效果,而且现有研究也多是基于特定的化工过程,其检测方法的适用性仍有待提高。

此外,针对过程参数进行特征提取可以有效改善故障诊断的效率,其中应用最为广泛的1种方法就是主成分分析法[9],如孟程程等人[10]提出利用核主成分分析方法对高炉冶炼过程中的故障进行检测,以适应高炉的非线性特征;吴卓卓[11]建立了1种基于主成分分析和支持向量数据描述的故障检测模型,并通过TE数据进行仿真实验;陈果[12]提出基于主成分分析的转静碰摩故障特征提取方法并与支持向量机相结合,验证了方法的有效性。但在化工过程异常检测中,人工免疫算法与主成分分析方法的结合效果、适用范围及具体技术方案仍有待深入的研究。

以下利用人工免疫系统的识别、学习、记忆、自适应等特点,基于人工免疫算法中经典的克隆选择分类算法CSCA (Clonal Selection Classification Algorithm) 和主成分分析方法PCA(Principal Component Analysis),构建适用于多参数多模式的化工过程异常检测方案,采用国际通用的TE过程数据集开展数值实验,测试并验证经PCA方法改进后的CSCA对化工过程异常检测的效果,从而为化工过程异常检测提供1种具有较广泛适用性和较高准确性的科学技术手段。

1 克隆选择分类算法CSCA及其检测效果

Brownlee[13]在2005年基于克隆选择算法提出了克隆选择分类算法CSCA,并在机器学习领域获得了广泛认可和应用。该算法的流程如图1所示。已有研究指出[14],CSCA算法相对一般的克隆算法,在准确率上有明显提高,而在平均绝对误差和均方根误差中,CSCA算法均要低于一般克隆算法。另外,由于CSCA采用了更为复杂的克隆选择和迭代策略,因此,系统构建时间会比一般克隆算法明显增多。

图1 CSCA算法流程Fig.1 The flowchart of CSCA algorithm

根据这一算法的思想,构建基于克隆选择分类算法(CSCA)针对化工过程异常检测分类的主要步骤,如图2所示。在这过程中,免疫系统概念与过程异常检测算法的对应关系如表1所示。

图2 基于CSCA的过程异常检测分类步骤Fig.2 The procedure of anomaly detection and classification of chemical process by CSCA

考虑通用的具有代表性的TE过程(田纳西一伊斯曼过程)数据对所建立的CSCA化工过程异常检测技术进行验证,通过TE过程数据调试该检测技术的性能。TE过程数据包含训练集和测试集,训练集和测试集各自含有22种异常模式,每个异常模式下的数据均包含53个属性[15],能够为异常检测研究提供所需的基础数据。

表1 免疫系统概念与CSCA过程异常检测分类算法的对应关系

表2所示是采用机器学习领域2个标准数据库“Iris Plants Database”和“Large Soybean Database”对CSCA算法进行验证以及进一步采用TE过程数据中的训练集和测试集分别进行检测之后的结果。可以看到,CSCA对Iris和Soybean 2个标准数据集的分类效果都比较好,因此CSCA检测技术本身是准确的、有效的。而采用TE过程数据进行分类时,发现,当数据样本很大、属性很多的情况下,分类效果很不理想。

现实情况是,化工过程异常需要考虑很多种类,且依靠单一属性参数(如温度、压力、浓度等)往往无法及时检出早期微小异常,因此基于大样本多属性的过程数据进行异常检测,是更符合过程安全现实需求的。这就提出一个问题:如何对过程数据进行可靠的预处理,寻求在数据样本规模、样本结构和异常检测效果之间的最优匹配,以实现基于CSCA的过程早期微小异常的准确、高效检测和识别。

表2 基于CSCA的异常分类效果

2 结合主成分分析的CSCA分类检测效果

2.1 过程数据降维后的检测结果分析

考虑到TE训练集包含53个属性,22种异常模式,先采用主成分分析(PCA)方法对其属性进行降维处理;再将降维之后的样本作为CSCA的检测样本,对其进行异常检测分类。PCA分析的结果如图3所示。由图可知,前11个主成份的贡献率累积达85.37%(≥85%),所对应的属性为att01,att09,att13,att18,att19,att21,att34,att38,att39,att45和att51。运用CSCA对经过主成分分析筛选出的样本再次进行异常检测分类,此时的数据样本总数仍为10 580,针对每一类属生成的记忆细胞数目如图4所示。最终结果显示,同样在22种异常模式情况下,进行PCA处理之后的样本正确分类比例为39.8%,未正确分类比例为60.2%。由此可知,尽管采用PCA方法进行了属性降维,但由于总的样本数仍十分庞大,分类准确率虽有所提高,但仍无法令人满意。

图3 主成分的贡献率累积百分比Fig.3 The cumulative percentage of the contributionrate of principal components

图4 生成的记忆细胞数目Fig.4 Number of memory cells

在此基础上进一步考虑缩减样本规模。由于TE过程异常数据是从第8 h后开始引入不同类型的异常,前8 h均为稳态无异常数据,因此,考虑到异常检测效果应该在异常情况一出现即尽快将其检出,因此选择10 h的数据样本(前8h为稳态正常数据,后2 h为异常数据),样本总数为4 399。考虑到如果基于这10h的数据能够获得好的异常检测效果,那么也就意味着在过程异常出现2 h内,CSCA即能检测并识别出异常情况的类型。首先,对数据进行PCA处理,获取4个主成分,对应属性att05,att38,att45和att51,运用CSCA分类正确率为30.2%。而未进行PCA处理时,正确率为26.5%。如果仍采用之前的11个主成分时,正确率40.9%。具体结果整理见表3所示。从中可以看到,过程异常数据的规模、属性的数目对CSCA异常检测效果具有明显的影响。尽管CSCA可以对大多数通用数据集有不错的检测分类效果,但对于化工过程数据来说,由于样本规模过大以及异常类别过多等现实情况的存在,还需要进一步探讨更为有效的数据降维或重构方案,才能使异常检测正确率提高到满意的程度。

表3 基于CSCA+PCA的异常检测分类效果(未数据重整)

2.2 过程数据重整后的CSCA异常检测

基于主成分分析的结果,在TE数据中选择4个主成分的主要构成参数作为监测对象。选取异常模式class01,class02,class03和class04的数据作为试验数据。数据重整中重点关注异常引入的时间,即:考虑到每个异常模式下的前160个数据是引入异常模式之前的,在异常检测中有可能形成干扰,因此只采用引入异常模式之后1h的数据,组织成样本集1,共80组数据。采用引入异常模式之后2 h的数据,组织成样本集2,共160组数据。将异常发生后第3 h的数据单独提取,组织成样本集3,共80组数据。仍然采用CSCA算法对重整后的异常样本进行检测分类,分类结果如表4所示。可以看到,控制分类样本数之后,CSCA对4种异常模式具有较好的检测效果。

在此基础上,对样本集3的异常模式进行预测,详细预测结果列于表5,其中下划线显示的是预测错误的样本。共计85%的样本被准确定位为class03异常模式,与实际情况相符。

表5 样本集3的预测结果

注:表格中的预测值通过四位二进制表示所属的异常类型,例如“0001”表示归属为故障模式class04。

3 结论

1)基于人工免疫原理的克隆选择分类算法(CSCA)面对大样本多属性的化工过程数据时,在异常检测效果方面存在局限性,即过程异常数据的规模、属性的数目对CSCA异常检测效果具有明显的负面影响。

2)基于TE过程数据的异常检测和分类实验表明,通过主成分分析(PCA)方法进行数据降维及数据重整之后,CSCA对过程异常分类辨识的准确率可提升到85%以上,从而适应化工过程异常检测的实际需求。

3)研究提出的CSCA+PCA的化工过程异常检测技术方案,可以应用于多参数多异常模式的化工过程;为进一步提高异常检测分类的准确性和可靠性,今后将进一步研究过程数据的样本规模、样本结构及其复杂非线性关系对于异常检测效果的影响。

[1] González F A. A study of artificial immune systems applied to anomaly detection[M]. The University of Memphis, 2003.

[2] Morteza J, Hossein M, Kasra M, et al. A Method in Security of Wireless Sensor Network based on Optimized Artificial immune system in Multi-Agent Environments[J]. Research Journal of Recent Sciences, 2013,2(10):99-106.

[3] Venkatasubramanian V, Rengaswamy R, Kavuri S N, et al. A review of process fault detection and diagnosis: Part III: Process history based methods [J]. Computers and Chemical Engineering, 2003, 27(3): 327-346.

[4] Tian W D, Sun S L, Liu J Q. Fault diagnosis in chemical processes based on dynamic simulation[J]. Journal of System Simulation, 2007, 19(12):2831-2835.

[5] 黄启明, 钱宇, 林伟璐,等. 化工过程故障诊断研究进展[J]. 化工自动化及仪表, 2000, 27(3):1-5.

HUANG Qiming, QIAN Yu,LIN Weilu,et al. Advances of fault diagnosis for chemical process[J]. Control and Instruments in Chemical Industry, 2000, 27(3):1-5.

[6] 魏巧玲, 赵劲松, 钟本和. 基于模拟疫苗的人工免疫系统在氯乙烯聚合间歇过程故障诊断中的应用[J]. 化工学报, 2015, 66(2):635-639.

WEI Qiaolin, ZHAO Jinsong,ZHONG Benhe . Application of AIS based on SV for fault diagnosis of vinyl chloride polymerization batch process[J]. CIESC Journal, 2015, 66(2):635-639.

[7] 戴一阳,赵劲松,陈丙珍. 化工过程混合故障诊断系统的应用[J]. 化工学报,2010,61(2):342-346.

DAI Yiyang, ZHAO Jinsong ,CHEN BingZhen. Application of hybrid diagnostic system for chemical processes[J]. CIESC Journal, 2010,61(2):342-346.

[8] 戴一阳, 陈宁, 赵劲松,等. 人工免疫系统在间歇化工过程故障诊断中的应用[J]. 化工学报, 2009, 60(1):172-176.

DAI Yiyang,CHEN Ning,ZHAO Jinsong,et al. Application of AIS to batch chemical process fault diagnosis[J]. CIESC Journal , 2009, 60(1):172-176.

[9] 陆宁云, 杨英华, 王福利. 基于迭代主成分分析的过程监测方法的研究与实现[J]. 控制与决策, 2002, 17(2):215-218.

LU Ningyun, YANG Yinghua,WANG Fuli. Research and implementation of process monitoring based on iterative principal component analysis( PCA)[J]. Contr ol and Decision, 2002, 17(2):215-218.

[10] 孟程程,曾九孙,李文军. 核主成分分析的高炉故障检测研究[J]. 中国计量学院学报,2012,23(4):332-337.

MENG Chengcheng,ZENG Jiusun,LI Wenjun. Blast furnace fault detection based on KPCA[J]. Journal of China University of Metrology, 2012,23(4): 332-337.

[11] 吴卓卓. 基于田纳西—伊斯曼过程故障检测方法研究[D]. 上海:华东交通大学, 2016.

[12] 陈果. 基于一类支持向量机与主成分分析的转静碰摩故障检测技术[J]. 振动与冲击,2012,31(22):29-33,38.

CHEN Guo. Rotor-stator rubbing fault testing technique based on one-class support vector machine and primary component analysis[J]. 2012,31(22):29-33,38.

[13] Brownlee J. Clonal Selection Theory & Clonalg: The Clonal Selection Classification Algorithm (CSCA)[J]. Cheminform, 2005, 36(14):341.

[14] 黄黎黎. 人工免疫算法研究及其在癌症诊断中的应用[D]. 北京:北京邮电大学, 2010.

[15] 齐向娟, 李士雨, 孙灵栋. ChemCAD在精馏塔动态模拟中的应用[J]. 计算机与应用化学, 2008, 25(6):752-756.

QI Xiangjuan, LI Shiyu, SUN Lingdong. Applied of ChemCAD in distillation column dynamic simulation [J]. Computers and Applied Chemistry, 2008, 25(6):752-756.

猜你喜欢

化工分类样本
《化工管理》征稿简则
《化工管理》征稿简则
一起化工安全事故的警示
分类算一算
用样本估计总体复习点拨
分类讨论求坐标
推动医改的“直销样本”
数据分析中的分类讨论
教你一招:数的分类
随机微分方程的样本Lyapunov二次型估计