APP下载

现代流程工业的机器学习建模

2019-01-18赵顺毅陈子豪栾小丽

自动化仪表 2019年9期
关键词:流形局部建模

赵顺毅,陈子豪,张 瑾,栾小丽,刘 飞

(江南大学自动化研究所,轻工过程先进控制教育部重点实验室,江苏 无锡 214122)

0 引言

流程工业是通过反应、分离、混合、成型等物理、化学变化,使生产原材料增值的行业。围绕流程工业对象的建模工作,既是过程控制和优化的基础,又是流程工业向智能化转型的基石。然而,随着工业制造技术向智能化的发展和革新,现代化的流程工业装置集成度日渐提高,结构渐趋复杂,工艺复杂度上升,从单变量简单系统向兼有非线性、强耦合性及不确定性等多重性质的多变量复杂系统变迁。通常,为反映过程的主要变化规律及清晰地描述系统行为,需在流程工艺机理分析的基础上,依据物料平衡、热量平衡及化学、生物反应动力学,建立对象的机理数学模型。一方面,机理模型可反映流程工业生产过程中性能指标与各变量的相互关系,便于分析输入与输出装置工况并量化各环节中的综合指标;另一方面,机理模型可以指导生产工艺及设备的设计,通过对设备数学模型的分析和仿真,追溯影响被控过程动态特性的主要因素。然而,机理建模很大程度上依赖于对过程机理的认知。由于有现代流程工业中往往伴随着复杂的物理化学甚至生物变化,很难建立其准确的机理模型。另外,由于内外因素影响常常具有非平衡、非稳定和强非线性等特点,造成机理建模成本高、难度大,准确性和可靠性难以保证,还容易导致失配等问题。

数据驱动是解决机理不清晰对象建模的有效方法。该方法利用离线、在线数据来描述对象的运行规律和相关模式,可以实现流程工业过程对象的性能指标建模。在诸多数据驱动建模方法中,以机器学习为核心的策略近年来已成为流程工业中的研究热点[1-4]。本文聚焦现代流程工业,概述机器学习算法的基本理论和研究应用,依次阐述典型单层机器学习算法研究及应用,深度学习模型构筑的基本理论、算法基础和变式应用以及基于流形学习方法的流程工业对象建模研究和应用。

1 单层机器学习

单层机器学习区别于深度学习,是对没有逐层提取层次特征机器学习算法的一种统称。从另一个角度来看,机器学习算法又可分为无监督学习和有监督学习。由于单层无监督机器学习算法在流程工业中已有广泛探讨,本文侧重于有监督单层机器学习,主要目标任务为分类与回归。

1.1 分类

分类算法多用于实现流程工业对象的故障检测、识别和诊断,常用的分类算法有k-近邻(k-nearest neighbor,kNN)算法、支持向量机(support vector machines,SVM)、朴素贝叶斯、随机森林。

1.1.1 kNN算法

kNN算法是一种可用于分类的懒惰学习方法[5],在给定测试集的情况下,该方法利用某种距离度量来挑选和测试集最相似的k个训练样本,然后基于这k个邻居的信息来预测新样本的归属。对于分类任务,预测往往基于“投票法”,即新样本的类别标签根据k个训练样本出现最多的类别来选定。

kNN的理论依据非常简单,易于理解,适合处理非线性数据集的多分类问题,被广泛地应用于流程工业故障检测和诊断中。例如,为了适应多模态批量轨迹非线性和非高斯分布的工业对象,2007年,He等提出了一种基于kNN的故障检测方法[6]。针对FD-kNN密集计算量大、存储量大、不利于在线过程监控的问题,Yang等人提出了一种基于陆地标记的谱聚类的kNN故障检测方法[7]。2015年,Zhou等考虑到主成分分析(principal component analysis,PCA)降维可能扭曲样本轨迹之间的距离,提出了一种基于距离保持的随机投影算法和kNN的故障检测方法[8]。

基于kNN的故障检测方法对非线性多模态数据集具有适应性,借助PCA等特征提取算法可有效地解决由遍历未知样本到所有已知样本的距离而引起的时间复杂度问题。然而,数据维度越高,基于欧式距离的kNN算法的区分能力就越弱。同时,kNN算法可解释性差,无法给出分类的明确规则。

1.1.2 随机森林

随机森林(random forest,RF)算法是一种由决策树构成的机器学习算法,它将弱分类器组合成森林,从而减小模型中参数估计的偏差。对高维数据、特征遗失数据、不平衡数据的处理是随机森林的长处[9-10]。模型的多样性和每个模型的强度被认为是随机森林学习性能的两个关键命题。为提高分类树之间的多样性和随机森林中个体分类树的性能,采用层次聚类方法对随机森林中的离线模型进行选择,可以同时降低在线故障分类复杂度。

在诸多RF算法中,基于Bagging的随机森林算法在分类任务上具有得天独厚的泛化能力。为适应不同的工业对象,也出现了诸多不同融合与变式算法。例如,2018年Liu等提出了一种基于层次聚类选择的加权随机森林方案,用于复杂工业过程中的故障分类[11];Zhang等结合风力发电流程背景提出了一种结合XGBoost的随机森林故障检测框架[12]。值得指出的是,对于样本数较少的工业数据集,基于Bagging的随机森林不能产生很好的分类结果。

1.1.3 SVM

SVM是一种利用超平面划分样本的分类算法。若存在非线性关系时,SVM还可通过核函数将数据映射到高维特征空间进行分类。对于样本少、高维、非线性数据集等情形,SVM有着不可替代的优势。在集成学习和基于深度神经网络结构之前,SVM基本占据了分类模型的主流。特别在流程工业领域中,故障样本数量相对较少,但信号数据易于采集的情况下,SVM算法在连续过程故障检测和诊断任务上应用非常广泛[13]。

针对过程数据中正常和各故障下样本不平衡,单类支持向量机作为一般SVM的一种变式,能够在过程数据维度很高或对相关数据分布没有任何假设的情况下,检测奇异样本或者离群样本。典型应用有Mahadevan等提出的一种基于递归特征剔除单类支持向量机的故障检测与诊断方法[14]。2014年,Yin等提出了一种鲁棒性单类支持向量机,使离群样本对单类 SVM的决策边界影响较小,同时也引入了距离度量和相应的阈值[15]。由于工业中故障数据存在高相关性以及噪声,Nor等结合了小波分析、核Fisher判别和SVM算法等优势,提出多尺度故障分类诊断方法[16];Ghalyani在多标签SVM的基础上融入模糊思想,在工厂的冷却循环露点过程中取得不错的效果[17]。针对存在变量漂移的动态过程, Gul等使用增量支持向量机使得SVM能够适应变量的变化趋势[18]。

1.1.4 贝叶斯网络

贝叶斯网络(Bayesian network,BN)是一种简单的因果推理模型。Gonzalez 等利用贝叶斯网代替PCA和独立主成分分析(independent component analysis,ICA)来进行过程监测,使得提取后的变量具有可解释性,并结合核密度估计方法来处理非高斯过程的数据[19];Dey等利用贝叶斯网络诊断加工过程中状态变化的根本原因[20]。为了改善贝叶斯网络的效果,Zhao等提出了三层网络结构的贝叶斯网络来进行冷水机的故障检测和诊断[21]。Cai等建立了一种与故障层直接相连的新层,称为观测信息层,提高了故障诊断的准确性,并将其应用于多传感器数据融合的地源热泵故障诊断[22]。Adedigba等提出基于利用PCA 和BN 的综合动态失效预测分析方法[23];Yang等将案例推理与BN结合,提出了一种基于故障模式及影响分析的案例推理方法[24]。

针对整个工厂的大规模过程,Zhu等提出系统的分布式贝叶斯网络建模方法[25]。考虑数据复杂性和过程不确定性,Wang等改进了BN算法,使用过程知识和数据驱动相关分析结合的混合技术来确定BN网络结构[26]。针对过程的动态特性,Amin等提出了基于动态贝叶斯网的故障检测、根源诊断和故障传播路径识别方案[27]。

1.2 回归

在流程工业中,回归分析常用于软测量和质量监测。较为广泛使用的有监督回归算法包括:主成分回归法(principal component regression,PCR)、偏最小二乘回归(partial least squares regression,PLSR)、支持向量回归(support vector regression,SVR)。

1.2.1 PCR

PCR是一种针对高维数据的回归算法,其核心思想是通过数据降维,消除自变量中相关性的重复。考虑流程工业数据集的不规则采样;Ge等人引入贝叶斯正则化的基于半监督主成分回归的软测量建模方法,有效地融合了未标记过程数据信息[28];Yuan等提出了一种在实时学习框架下的基于局部加权核主成分分析的软测量方法,使模型具有对非线性关系的拟合能力和实时更新能力[29]。考虑数据集样本不均衡、多工况非线性对象;Zhu等提出了一种基于混合半监督贝叶斯主成分分析的软测量模型[30]。

主成分分析仅考虑了过程变量之间的相关性,并没有将过程变量与目标变量之间的相关性纳入模型范畴。这使得工业数据特有的过程变量信息冗余性的问题没有得到解决。

1.2.2 PLSR

PLSR是一种可用于多因变量对多自变量建模的分析方法。在软测量建模中,若数据量小于变量维数,其效果一般优于主成分回归[31]。在诸多应用场景中,PLSR已被证明能够捕捉局部工况或者模式下的过程数据和指标之间的线性关系。考虑过程数据中的动态变化,Wang等基于石化工业产品质量实时软测量背景,在建模过程中覆盖过程数据中的动态变化,实现动态偏最小二乘(dynamic partial least squares,DPLS)软测量[32];Galicia等为DPLS提供了理论分析与验证并提出了一种基于降阶DPLS的软测量方法[33]。除基于DPLS外,Kaneko等也提出了利用基于ICA的故障检测与分类模型对目标变量进行预测,对PLSR模型进行适当的模型更新[34];Liu提出快速移动窗口算法来实现PLSR模型的实时更新,并应用于预测空气分离过程中的氧浓度[35];Poerio等提出了一种基于高度重叠的递归PLS的软测量方法,以多局部模型集成、递归的形式,提高在线更新和对动态过程数据的鲁棒性[36]。针对不规则采样的问题,Zheng等提出了一种基于半监督概率偏最小二乘的软测量模型,对聚丙烯生产工艺流程进行分析[37]。

值得注意,无论是PCR或是PLSR,其特征提取均只捕捉了变量间的线性关系,并不能有效地将非线性关系纳入考虑范畴。为此,提出了各类核函数的方法,但所涉及核函数的种类和伴随而来的超参数对于一般过程数据很难实现自适应。

1.2.3 SVR

SVR是一种常用的非线性建模方法,其策略是运用非线性变换函数将非线性数据映射到高维特征空间,再利用线性回归方法进行建模。为应对流程工业对象发生漂移工况,Kaneko提出了一种基于结合时间变量的在线SVR的软测量模型[38];并基于预测精度和计算时间选择合适的超参数和窗口大小,对上述软测量方法进行优化与理论分析[39]。针对间歇过程,Jin等提出了一种基于局部学习和在线SVR的批处理多模型自适应软测量方法[40]。基于同策略,Zhang等提出了一种基于局部目标集参数优化的最小二乘支持向量机的软测量模型及该方法的分布并列式框架[41]。

2 深度学习

近年来,深度学习作为一种基于大量可用数据与计算机强大计算能力的特征提取方法,进入了人们的视线,其深层结构所独有的特征重用、抽象以及不变性等特征,能够较好地适应复杂结构和高维大样本的特征提取。具体说,特征提取算法旨在从原始复杂数据中最大限度地提取出蕴含特异性信息的不变性特征。相较于传统机器学习,深度学习仅需要处理一阶原始特征,模型结构会自发地学习到对象或系统的抽象特征表示[42-44]。

根据不同的特征提取原理,典型的深度学习结构有自编码器、深度置信网和卷积神经网络。

2.1 自动编码器

作为PCA的衍生,2006年由Hinton提出的自动编码器(autoencoder,AE)是一种无监督的深度学习算法,可根据项目的特定需求,自动地将输入数据转换为不同维度的编码[45]。一般地,自编码器的优化是通过反向传播重构输入与原始输入之间的重构误差实现的。重构误差可以作为数据压缩过程中信息丢失的度量。它可以通过计算重构输入和原始输入之间的均方根误差以及交叉熵等来量化。最终通过AE对特征提取模型进行贪婪逐层预训练[46],以确定每层自动编码器权值矩阵的初始参数值。基于目标变量的标签值,通过最后一层全连接层以误差反向传播的形式,以微调整个深度神经网络。

受模型复杂度、训练集数据量以及数据噪声等因素的影响,通过AE得到的初始模型往往存在过拟合的风险。降噪自动编码器(denoising autoencoder,DAE)是AE的一个特殊版本[47],力图在尽可能保留关于原始输入的本征信息的同时,消除应用于AE输入数据的随机噪声或损坏的影响。DAE兼具深度网络结构和降噪功能所提供的泛化能力和对有限输入扰动的鲁棒性,故在流程工业领域中鲁棒建模、软测量亦或是过程故障检测和诊断都有着其应用的优势。Zhang等提出了一种基于叠加去噪自动编码器(stacked denoising autoencoder,SDAE)和kNN的非线性过程监测方法[48];Yan等提出了一种基于DAE的软测量建模方法,采用改进的梯度下降法对深度网络结构模型的参数进行迭代更新[49]。

2.2 深度置信网络

深度置信网络(deep belief networks,DBNs)是一个无监督概率生成模型。与传统判别模型相对,生成模型是建立观察数据和标签之间的联合分布的评估[50]。受限玻尔兹曼机(restricted boltzmann machines,RBMs)是深度置信网络的基础模块。DBNs是一种图形模型,它学习提取训练数据的深层抽象表示,兼有对先验知识和后验知识学习与评估的特性,因此适用于故障识别和诊断等需要考虑因果关系的任务。例如,Gan等针对机械系统的多层次故障诊断任务,提出了一种具有小波包能量特征的层次故障诊断网络[51]。Tao等提出了一种结合多振动信号和DBNs的故障诊断方法,利用DBNs的特征提取能力,自适应融合多特征数据,识别各种轴承故障[52]。相似地, Zhang等提出了一种基于DBNs和多传感器数据融合的智能球螺旋退化识别方法[53];Sha等以滚动轴承为对象,提出了一种局部线性嵌入连续DBNs的故障检测方法,以适应高维非线性结构的数据[54]。

2.3 卷积神经网络

卷积神经网络(convolutional neural networks,CNN)是一类包含卷积计算且具有深度结构的前馈神经网络,训练时可以选择依据标签或目标变量的监督学习,也可选择无标签或目标变量的非监督学习。其隐含层由共享参数的卷积核的卷积层和具有稀疏性的池化层组成,使得卷积神经网络能够在训练过程中以较小的计算量对格点化特征进行学习,且对输入数据的特征没有额外要求。一般地,CNN由以下三种层结构构成:①卷积层由若干卷积单元组成;②池化层由非线性池化函数组成,旨在实现对特征的降采样;③全连接层位于网络末端,由一般的全连接网络组成,旨在特征提取完成后,完成分类任务。

CNN对具有格点化特征的图像数据进行特征提取有着独有的优势。即针对先进检测仪器所采集的数据,例如光谱数据和热成像数据等,CNN可表现出超越其他特征提取算法的优越性。2018年Le等提出一种基于光谱分析仪的卷积神经网络-极端学习机(convolutional neural network-extreme learning machine, CNN-ELM)煤样分析方法。采用该方法对煤样的水分(%)、灰分(%)、挥发性物质(%)、固定碳(%)、硫(%)含量及低热值(J/g)进行了回归分析[55];Wen提出了一种CNN故障诊断方法,通过将信号转换为二维图像,提取转换后的二维图像特征,并在电机轴承数据集、自吸离心泵数据集和轴向柱塞液压泵数据集上取得了良好的故障诊断准确率[56]。

3 流形学习

根据流形分布定律——高维数据往往分布在低维流形附近,流形学习能直接学习这种流形结构,从而提取数据中的目标信息。相比其他维数约简的方法,流形学习不再使用均值和方差这类的统计性质,而是直接使用流形的几何性质,如测地线距离、局部欧式空间性质、切平面性质[57-58]等。

在过程监测和故障诊断中,典型多元统计方法PCA和PLS学习的是高维数据的全局性质,而流形学习针对的是数据的局部信息。典型流形学习算法有邻域保持嵌入和局部保持投影。它们分别保留了与局部线性嵌入和拉普拉斯特征映射相同的学习非线性流形结构的能力,还可以对函数进行线性估计,具有良好的泛化能力。

3.1 局部保持投影

局部保持投影(locality preserving projection,LPP)是一种能较好保持非线性流行结构的线性流形学习方法,它的特点是观察空间里相邻的点在投影后也能保持相邻关系。

作为一种线性流形学习方法,LPP已经成功应用于流程工业中,如批次过程监测。为了同时保留数据的全局和局部性质,Yu将LPP的思想引入PCA,提出局部和全局主成分分析算法[59];Luo利用PCA的优势改进LPP提出全局和局部保持投影算法[60]。近年来,许多研究者针对LPP提出了更多的改进方法,使其适用于更广泛的过程监测。Zhong等为了利用测量数据和质量指标数据之间的关系,同时捕捉他们的流形并进行分析,提出质量相关的全局和局部偏最小二乘映射[61];Song等为进一步提升监测效果,提出时空全局和局部映射方法,同时利用数据的时间和空间信息来构建领域,进而更好地捕捉数据的流形结构[62]。

3.2 邻域保持嵌入

邻域保持嵌入(neighborhood preserving embedding,NPE)是一种局部线性嵌入维数约简方法。该方法首先构建一个矩阵来描述样本点之间的局部欧氏空间性质,然后寻找一个使得局部性质能够最大程度被保留线性映射。NPE及其改进算法在流程工业中的应用非常普遍,如Ma等考虑数据的全局和局部信息,提出了局部和全局嵌入算法[63]。Song等在NPE只考虑重构误差的基础上,提出双重权重矩阵和强化的目标函数[64]。考虑到非单峰高斯分布的过程数据,Li等利用基于局部信息的统计方法学习多元高斯分布数据的优点,结合NPE提出空间局部统计方法进行过程监测[65];针对动态过程,Hu等提出动态多路NPE进行补料间歇过程监测[66]。

4 结束语

目前,深度学习正在向流程工业领域渗透。深层网络结构的算法所具有的灵活性是不可估量的。但深度学习仍存在其固有缺陷:①深度学习的深层网络结构导致训练用时增加,使得深度学习的在线更新难以实现;②随着深度的增加,人为选定的每一层网络神经元个数、激活函数、网络层数等决定了模型所能达到的上限;③深度结构对于大数据量(或称大信息量)的数据集具有强依赖性。

直接使用几何性质的流形学习区别于基于统计理论的特征提取算法,在机器学习领域独树一帜,通过保留结构化数据的局部性质而非全局性质,以保留数据流形结构的几何性质。流形学习在流程工业过程中的广泛应用,还有诸多方面值得进一步探讨:①在构建邻域时,邻域参数如何选取;②邻域构建搜索算法的计算复杂度问题;③在流形学习的超参数中数据固有维数对学习效果影响;④流形学习算法多集中于无监督学习,如何利用样本标签的类别信息。

综上,虽然机器学习在过程控制与优化领域中正逐步发挥不可替代的作用,但仅依赖于数据驱动模型也会为过程安全保障带来风险。如何使机器学习更好地应用于流程工业,还需多学科进一步协同攻关。

猜你喜欢

流形局部建模
局部分解 巧妙求值
非局部AB-NLS方程的双线性Bäcklund和Darboux变换与非线性波
联想等效,拓展建模——以“带电小球在等效场中做圆周运动”为例
紧流形上的SchrÖdinger算子的谱间隙估计
迷向表示分为6个不可约直和的旗流形上不变爱因斯坦度量
Nearly Kaehler流形S3×S3上的切触拉格朗日子流形
基于PSS/E的风电场建模与动态分析
不对称半桥变换器的建模与仿真
局部遮光器
吴观真漆画作品选