基于强化稀疏PCA的时变过程离群点检测研究

2020-09-02胡田田颖

软件导刊 2020年8期

胡田田颖

摘要：为改善传统离群点检测技术以适应工业过程中由于设备老化、催化剂失效等引起的时变特性，运用强化学习自主探索田纳西伊斯曼工业环境以提取最优特征变量，运用稀疏PCA算法，对所提取的变量建立模型进行离群点检测，并将检测结果与强化PCA、稀疏PCA和KNN模型进行比较。实验结果表明，强化稀疏PCA模型可以有效提取出最优建模变量，建立最优离群点检测模型，准确率为93.33%。基于强化学习的特征提取方法可以有效实现高维数据降维，基于稀疏PCA的离群点检测提高了离群点识别率，增强了主成分解释能力。

关键词：强化学习;稀疏PCA;特征提取;时变特性;离群点检测

DOI：10. 11907/rjdk. 192481 開放科学（资源服务）标识码（OSID）：

中图分类号：TP306文献标识码：A 文章编号：1672-7800（2020）008-0084-05

Abstract： In order to improve the traditional outlier detection technology to adapt to the time-varying characteristics caused by equipment aging and catalyst failure in industrial process， the reinforcement learning is used to explore the Tennessee Eastman industrial environment to extract the optimal characteristic variables. The sparse PCA algorithm is applied for outlier detection according to the extracted variables and the results are compared with reinforced PCA， sparse PCA and KNN models. The experimental results show that the RSPCA model can effectively extract the optimal modeling variables and establish an optimal outlier detection model with an accuracy of 93.33%. The feature extraction method based on reinforcement learning can effectively reduce the dimensionality of high-dimensional data. The outlier detection based on sparse PCA improves the recognition rate of outliers and enhances the interpretation ability of principal components.

Key Words： reinforcement learning; sparse PCA; extracted variables; time-varying characteristics; outlier detection

0 引言

计算机技术的快速发展导致数据海量化和存储快速化，人们很难从大量高维数据中提取出有用信息。因此，如何从海量、复杂、高维数据中获取有价值的数据成为亟待解决的重要课题。目前，传统技术很难满足数据处理要求，数据挖掘技术应运而生[1]。

离群点检测作为数据挖掘中重要的研究方向之一，对于异常信息的检测及监控起着非常重要的作用。离群点指明显与其它观测对象的观测结果相差甚远，与现存机制模型不一样的数据。离群点的存在严重影响了正常数据的分析，可能导致模型误差、参数估计偏差和错误的结果。因此，在对数据集进行建模和分析之前，执行离群点检测任务具有重要意义，它可以消除噪声或发现潜在的、有意义的知识，广泛应用在金融领域欺诈检测、互联网领域入侵检测、疾病诊断、工业领域故障监测等诸多领域。随着测量技术的完善和采集设备的增多，数据来源变广且维数急剧增加，导致离群点检测技术面临一系列问题。

在以往的离群点检测算法中，王震等 [2]针对基于距离的离群点检测算法存在的时效性问题，提出一种基于粗粒度单元的离群点检测算法，避免对象之间海量的距离计算，实现离群点检测;张卫旭等 [3]提出一种基于密度的聚类算法思想，并借鉴文献[2]将数据距离按次序排列，仅扫描该簇类的数据检测离群点，减少了时间及复杂度;古平等 [4]借鉴文献[3]的聚类思想，提出一种基于多重聚类的离群点检测算法PMLDOF。该算法采用聚类剪枝技术减少计算量，并计算剩余数据的局部离群度LDOF，利用多重聚类的差异性对簇的边缘点进行筛选实现离群点检测;Bai等 [5]提出基于分布式密度的大数据离群点检测方法，改进了文献[3];Aggarwal等 [6]提出基于子空间投影和遗传算法的离群点检测方法，采用遗传算法划分子空间进行离群点检测;Zhang等 [7]借鉴文献[6]中基于投影的思想，提出高维数据流中投影离群点检测技术，采用无监督或监督学习获得在线自进化和适应动态数据流的稀疏子空间模板（SST），用于有效检测投影离群点;Filzmoser 等 [8]提出在转换空间的数据上采用主成分单一性质检测离群点，需要的计算开销小，且适合于处理大规模数据集;Thennadil等 [9]改进了文献[8]，提出利用偏最小二乘法和改进的马氏距离检测离群点，该方法可应用于多元变量数据集，并根据权重自动更新模型，但容易受到灵敏度参数的影响;Huang等 [11]改进了文献[10]，根据互邻图概念和离群点聚类大小通常远小于正常聚类的思想，提出一种新的离群点聚类算法ROCF，其可自动计算数据库的离群率，有效检测出不含top-n参数的离群点及簇;Reis等 [12]应用并拓展了一种基于无监督随机森林的离群点检测算法。利用该算法计算实验光谱的相似性度量，然后对数据集进行可视化和聚类，利用相似矩阵搜索数据集中的对象并检测数据集中的离群点;Smadi等 [13]提出了一种神经网络和强化学习相结合的在线网络钓鱼邮件检测方法，该方法可随着时间推移对系统进行改进，增强了钓鱼邮件检测率。

从上述文献发现，传统的离群点检测算法通常针对静态数据集，在设备老化、催化剂及数据漂移等引起的数据时变性上，以及高维数据集下的精度及效率上存在很多问题，难以有效挖掘出离群点，存在较高的误检率。而离群点检测算法与强化学习相结合则在特征提取和离群点检测率方面表现更好。本文采用强化学习与稀疏PCA结合的方法对TE过程进行验证，并与强化PCA、稀疏PCA和KNN进行比较。

1 强化稀疏PCA模型

1.1 强化学习

强化学习是一种重要的机器学习方法，其基本原理是通过感知环境状态信息学习动态系统的最优策略，并通过反复试验不断与环境互动改善其行为[14]。强化学习的基本框架如图1所示，由智能体、环境、策略、行为和奖励5个要素组成 [15]。

为了适应工业环境的时变性，采用强化学习探索离群点检测率变量。强化学习探索关键变量及提取过程如下：

设定环境的初始状态是一个仅含有0元素和1元素的随机矩阵[S∈Rl×m]，其中[m]是环境所包含的过程变量维数，[l]是初始状态数目。每个状态[Si∈Ri×m（i=1，2...l）]表示为稀疏PCA建模所选择的变量组合。如表1所示，元素0表示不选择对应的相关变量建立模型，元素1表示已经选择相关变量建立模型。

2 实证分析

2.1 实验数据

TE工艺是一个基准案例，包括反应器、产品冷凝器、蒸汽—液体分离器、循环压缩机和产品汽提器5个单元操作[18]，该过程有12个操作变量，22个连续过程测量，19个成分。有关TE工艺的详细介绍见参考文献[19]。在不考虑反应器搅拌速度的前提下，利用TE仿真模型生成实验数据集，并对包含的52个变量进行模拟。训练数据集包括正常数据[X∈R100×52]和异常数据[Y∈R50×52]。测试数据是[Z∈R500×52]，包含16个异常值。利用训练数据集，采用增强稀疏PCA方法建立离线模型，并通过测试数据验证该方法的可行性。

2.2 实验方法

对于离群值检测，构造两个统计量分别检测主元空间和残差空间的变化，即[T2]和[SPE]统计量。[T2]统计量代表标准得分的平方和，其用于衡量主导模型中所包含的信息量。[SPE]统计量是通过分析新测量数据的残差以显示此样本数据是否符合主元模型而进行的离群点检测，它度量了数据点无法由主元模型描述的信息量。根据式（8）建立的稀疏PCA模型，统计信息定义如下：

其中，[i=1，2，，n]，表示第[i]个样本，[Λ=diag（λ1，，][λm）]是由样本[X]协方差矩阵的特征值构成的对角矩阵，[T2lim]是[T2]统计量的置信限，[SPElim]是[SPE]统计量的置信限。本文采取核密度估计方法估算置信限[20]，以核密度中99%的概率分布線作为置信限，该方法包含1%的错误率。

2.3 实验结果

图3（a）表示使用最优RSPCA模型进行异常值检测的结果，共检测到15个离群点。结果表明，强化学习所提取的最优变量有效且很重要，稀疏PCA检测离群点方法准确;图3（b）通过计算[T2]和[SPE]统计量，利用强化主成分分析（RPCA）方法进行离群点检测。最优RPCA模型精确检测出14个离群点;图3（c）表明，通过计算[T2]和[SPE]统计量，只使用稀疏PCA模型检测异常值，其中13个异常值被正确检测。稀疏PCA能检测出离群点，但误检率较高;图3（d）使用更新的KNN方法对离群点和正常点进行分类，这是一种基于在线检测结果动态更新的方法。利用更新KNN方法对在线数据进行分类以检测异常值。横坐标表示样本点，纵坐标表示类别，其中类标签“1”和“2”分别表示正常点和异常点。红色符号表示测试数据集已知的正确类，蓝色符号表示KNN分类的测试数据集结果。图3（d）为最优KNN模型检测结果，精确检测到15个异常值。显然，改进后的KNN方法中的异常率与RSPCA方法一致。但是，由于更新的KNN方法对稀疏点不敏感，因此其误检率高于RSPCA方法。

将RSPCA模型与其它3种方法进行比较，发现RSPCA模型能有效检测出离群点，且准确率高，误检率低，如表2所示。

图4表示PCA模型和稀疏PCA模型第一主成分的负载向量。红色表示主成分与52个变量相关，蓝色对应稀疏主成分，表明与3个选定的变量高度相关。第2个和42个变量与稀疏主成分呈负相关，第21个变量与稀疏主成分呈正相关。图4表明稀疏主成分分析可以清晰地解释主成分的最重要特征，从而提高主成分的可解释性。

3 结语

本文通过强化学习方法实现特征提取，并在此基础上建立稀疏PCA模型，针对具有时变特性的工业过程所存在的离群点进行检测。强化学习特征提取方法不仅增强了工业环境自主探索能力，还可从原始数据中提取出最关键的变量，缺点是该方法所需要的时间较长。稀疏PCA模型中加入正则化参数，增强了重构变量的可解释能力，同时提高了计算效率。TE过程仿真结果表明，该方法能有效提取最优变量，验证了HRSPCA检测离群点的有效性和准确性。未来要优化强化学习训练时间问题，进一步研究导致离群点产生的原因，实现离群点的实时检测及原因分析。

参考文献：

[1] 刘小霞. 面向海量数据的关联规则挖掘算法研究[D]. 北京：北京邮电大学， 2007.

[2] 王震. 基于距离的离群点检测算法分析与研究[D]. 重庆：重庆大学， 2011.

[3] 张卫旭，尉宇. 基于密度的局部离群点检测算法[J]. 计算机与数字工程， 2010， 38（10）：11-14

[4] 古平，刘海波，罗志恒. 一种基于多重聚类的离群点检测算法[J]. 计算机应用研究， 2013， 30（3）：751-753.

[5] BAI M， WANG X， XIN J， et al. An efficient algorithm for distributed density-based outlier detection on big data[J]. Neurocomputing， 2016， 181（C）：19-28.

[6] AGGARWAL C C， YU P S. An effective and efficient algorithm for high-dimensional outlier detection[J]. VLDB Journal， 2005， 14（2）：211-221.

[7] ZHANG J， GAO Q， WANG H， et al. Detecting projected outliers from high dimensional dataStreams[C]. Cancun：International Conference on Database & Expert Systems Applications. Springer-Verlag， 2009.

[8] FILZMOSER P， MARONNA R， WERNER M. Outlier identification in high dimensions[J]. Computational Statistics and Data Analysis， 2008， 52（3）：1694-1711.

[9] THENNADIL S N， DEWAR M， HERDSMAN C， et al. Automated weighted outlier detection technique for multivariate data[J]. Control Engineering Practice， 2018（70）：40-49.

[10] DUAN L. A local-density based spatial clustering algorithm with noise[J]. Information Systems， 2007， 32 （7）：978-986.

[11] HUANG J， ZHU Q， YANG L， et al. A novel outlier cluster detection algorithm without top-n parameter[J]. Knowledge-Based Systems， 2017（121）：32-40.

[12] REIS I， POZNANSKI D， BARON D， et al. Detecting outliers and learning complex structures with large spectroscopic surveys——a case study with APOGEE stars[J]. Monthly Notices of the Royal Astronomical Society， 2018， 476（2）：2117-2136.

[13] SMADI S， ASLAM N， ZHANG L. Detection of online phishing email using dynamic evolving neural network based on reinforcement learning[J]. Decision Support Systems， 2018（9）： 107-121.

[14] KAELBLING L P， LITTMAN M L， MOORE A W. Reinforcement learning： a survey[J]. Artificial Intelligence Research， 1996， 4（1）：237-285.

[15] KLUSá EK J， JIRSíK V. Comparing fitness functions for genetic feature transformation[J]. IFAC-PapersOnLine， 2016， 49（25）：299-304.

[16] HUI Z， HASTIE T. Regularization and variable selection via the elastic net[J]. Journal of the Royal Statistical Society， 2005， 67（2）：301-320.

[17] DOWNS J J， VOGEL E F. A plant-wide industrial process control problem[J]. Computers & Chemical Engineering，1993， 17（3）：245-255.

[18] CHEN H， TI O P， YAO X. Cognitive fault diagnosis in tennessee eastman process using learning in the model space[J]. Computers & Chemical Engineering， 2014， 67（3）：33-42.

[19] JIANG Q， YAN X， ZHAO W. Fault detection and diagnosis in chemical processes using sensitive principal component analysis[J]. Industrial & Engineering Chemistry Research，2017，50（4）：1635-1644.

（責任编辑：杜能钢）