基于协同训练的半监督异构自适应软测量建模方法的研究

2020-06-06李东黄道平刘乙奇

化工学报 2020年5期

李东，黄道平，刘乙奇

（华南理工大学自动化科学与工程学院，广东广州510641）

引言

近年来，基于数据驱动的软测量技术被广泛地应用到工业过程中，主要用于生产过程重要且难以测量变量的预测[1-2]。基于数据驱动建模的方法作为软测量技术中有效且常用的建模方法,无须掌握复杂的生化反应机理，仅仅需要通过对易获取的数据进行分析，建立输入输出数据的相关模型[3-5]。其中，主成分回归(PCR)[6]、偏最小二乘(PLS)[7]、高斯过程回归(GPR)[8]、支持向量机(SVM)[9]等模型近年来在工业建模中受到了广泛的关注[10]。然而，随着工业过程越来越复杂，不易检测的变量越来越多，收集数据的成本更是随之增加，导致在获取的数据中，标记数据和未标记数据的比例严重不平衡。在机器学习领域，将同时包含输入和输出的数据称为标记数据，只包含输入的数据称为未标记数据。如何充分地利用大量的未标记数据所携带的信息，成为建模过程的当务之急。半监督学习算法的提出有效地解决了这个难题，并在近年来得到了广泛的研究[11-13]。半监督学习按照方法分类，可以概括为基于图的方法(graph-based method)[14]、生成式模型(generative models)[15]、TSVM(transductive support vector machines)[16]、自训练方法(self-training)[17]和协同训练算法(co-training)[18]。

协同训练算法作为一种典型的半监督学习算法，其基本思路是：基于标记样本建立两个或者多个相互独立的回归模型，然后从未标记的数据中选择一些置信度高的数据加入到训练集中，有效地更新和改进模型。周志华等[19]首次提出了协同训练回归算法，并将协同训练算法应用到软测量的研究中。包亮等[20]将协同训练算法与传统的PLS 算法结合，建立了一种可以有效地解决线性问题的cotraining PLS 软测量模型。但是，该方法是一个离线的软测量模型，模型的预测性能会随着时间推移不断退化。为了提高模型的预测性能，Goldman 等[21]提出一种改进的协同训练算法，采用交叉校验的方法挑选无标记数据。虽然，该算法选择了置信度更高的无标记数据，但是交叉验证的过程计算成本较高。Nigan 等[22]从标记数据的分组方式入手，通过随机采样的方法把标记数据分成两组，模型的预测能力也得到了一定的提升。然而，这种分组方法容易产生离散的标记数据集，从而降低模型的预测性能。周志华等[23]提出tri-training 的协同训练算法，期望通过建立三个相互独立的标记数据集和回归模型以提高模型的泛化能力。但是，当标记样本较少时，三个初始的回归模型可能会同时将不适合的无标记数据选入建模的数据集合，在迭代过程中错误不断累积，从而降低软测量模型的预测精度。

本文提出了一种异构自适应co-training RPLSRBP 混合软测量模型。首先，该方法采用传统的协同训练算法，将标记数据分成两组回归建模并训练，不同之处在于文中提出了一种新型的标记数据的分组方法。传统而言，研究对象是复杂的工业过程且数据波动大，无论是常用的整体均分的方法还是随机分组的方法，都容易使标记数据只包含局部特征，最终导致建立的软测量模型精度不高。为此，本文提出了奇偶分组的方法，先对标记数据依次编号，然后使用奇偶分组的方法将标记数据均分为两部分。该方法，一方面，数据同样地被均分成两份，另一方面，两组标记数据都会包含整段标记数据的全局信息。此外，以往标记数据使用的回归算法仅采用一种线性或非线性的回归方法。然而，本文的协同训练算法将同时采用两种不同类型的回归算法对标记数据建模并训练。同时采用两种回归方法不仅提高两组回归模型的独立性，还增加了回归模型的多样性（线性和非线性），以期解决可能存在于线性和非线性之间的弱非线性数据的建模问题。最后，文中通过递归PLS模型和递归BP模型合理地解决了数据漂移和模型退化等问题。特别是由于工业生产过程中复杂的生化反应、恶劣的环境以及容易波动的数据等因素，实时更新的线上模型能有效地克服这些问题和提高模型的预测性能。

1 递归PLS和递归BP

1.1 递归的PLS（RPLS）

RPLS 算法由传统的PLS 算法改进而来。不同于传统的PLS 算法，RPLS 算法是一种在线回归算法。训练数据每增加一个新样本，就会剔除一个旧样本，通过在线修正样本的均值和方差，将新样本的全部信息代入到模型中[24]。然而，RPLS 算法的数学原理和PLS算法一致，具体过程如下：

其中，X∈Rn×m和Y∈Rn×1表示输入矩阵和输出矩阵，n表示数据组的个数，m表示输入变量的个数。T∈Rn×a和U∈Rn×a是X和Y的得分矩阵。a是潜在变量的数量，th是T的第h行向量，uh是U的第h行向量。P(a×m)和Q(a×1)是加载矩阵，ph是P的第h行向量，qh是Q的第h行向量。E和F是噪声矩阵。uh和th之间的关系是：

式中，bh是X空间主成分t与Y空间主成分u的内部相关关系的回归系数。因此，X和Y之间的关系可以表示为Y=TBQ+F，B为回归矩阵。

对于RPLS 算法，在基于训练数据的基础上得到T、U、P、Q、B矩阵后，PLS 算法会将新的数据xt、yt并上遗忘因子λ(0 ≤λ≤1)来更新训练数据X和Y。其中，更新后的X=[λX,xt]，Y=[λY,yt]。通过对训练数据X和Y的改变，Y=TBQ+F中的T、Q、B矩阵也得到更新。

PLS 算法是一种适用于高维数据问题的方法。然而，污水处理过程非常复杂，变量众多并且时变性强。RPLS 算法不仅能将高维数据以尽可能小的信息损失投影到由几个主元构成的低维空间，还可以通过递归的方法将新加的数据信息用于更新和优化模型。

1.2 递归的BP神经网络算法（RBP）

作为最具有代表性的神经网络，BP神经网络是一类采用反向传播算法进行训练的前馈神经网络。RBP 神经网络同样采用反向传播算法和标准的网络结构，不同的是RBP 神经网络是一种线上回归算法，在增加一个新的标记数据的同时会剔除一个旧的标记数据，再重新建立新的预测模型[25]。RBP 神经网络结构同样是由输入层、隐藏层和输出层组成，层与层之间单向连接且无互连。输入层单元个数由输入变量决定，输出层单元个数由输出变量决定。隐藏层单元个数目前没有明确的标准，通常采用反复验证的方法确定合适的单元个数。详细的计算过程参考文献[26]。

对于RBP 算法，在通过BP 算法求得网络结构中各神经元的权值和阈值后，新的数据xt、yt会并上遗忘因子λ(0 ≤λ≤1)对原来的训练数据X和Y更新，即X=[λX,xt]，Y=[λY,yt]。最后，由更新后的X和Y再次对网络结构学习训练，确定新的权值和阈值参数。

RBP 神经网络不仅具有良好的非线性逼近和泛化能力，还能够充分运用新的数据信息实时更新预测模型。从而受到了众多研究者的青睐，并应用到了多个领域[27]。

2 基于协同训练的软测量

协同训练算法是为了能够充分利用未标记数据所携带的信息，提高模型的性能。但是，目前多以分类作为主要的研究方向[28-29]。周志华等[19]提出的协同训练回归，将协同训练应用到回归领域[20-22,30]。本节提出了可以解决非线性问题的cotraining BP 模型和异构自适应co-training RPLSRBP 混合回归模型。通过改进协同训练的过程和应用不同的回归算法，使得模型能够更好地应对污水处理中存在的复杂性和非线性等问题，提高模型的预测能力[31]。

2.1 co-training BP模型

co-training BP 模型用BP 神经网络算法代替传统的PLS算法，把标记数据平均分成为两部分，然后建立回归模型并用可信度最高的未标记数据训练模型。由于BP 神经网络算法可以通过迭代训练逼近任何函数[32]，因此co-training BP 模型针对具有非线性特点的污水处理过程具有较好的预测表现。

co-training BP模型的具体过程如下。

最后，当满足迭代中止条件时，用最终的标记样本集建立两个新模型回归值的均值作为最终的预测值。

在协同训练回归（Coreg）的研究中，周志华等[19]提出置信度∇u的定义。通过计算原始数据建立模型的RMSE 值和更新后数据建立模型的RMSE 值的差值，可以找到与原始数据一致性最高的未标记数据，提高半监督学习算法的准确性。

根据协同训练的思想，co-training BP 模型建立并训练了两个独立的回归模型。通过交叉验证的方法减少错误数据的积累。此外，选择置信度最高的新标记数据，使得更新后的标记数据集与最初给定的标记数据集的特征高度一致。

2.2 异构自适应co-training RPLS-RBP 混合回归模型

异构自适应co-training RPLS-RBP 混合回归模型不同于传统的协同训练模型。通过改变标记数据的均分方式和使用线上的回归算法，使得模型能够更好地解决污水处理过程中非线性、时变性和数据变化大等问题，并且随着时间的变化，新采集的数据信息也能得到充分的利用。

图1 训练过程(a)和预测过程(b)的图形说明Fig.1 Graphical description of training process(a)and prediction process(b)

当满足迭代中止条件时，得到最终的标记数据集L1和L2。然后分别用RPLS 算法和RBP 算法对L1和L2建立预测模型，取两个模型回归值的均值作为最终的预测值，如式(9)所示。当有新的标记数据加入L1和L2时，使用1.1 节和1.2 节中所提的方法对L1和L2更新，重复建模过程并对下一组数据进行预测。模型的详细过程如表1所示。

异构自适应co-training RPLS-RBP 混合回归模型是一种基于协同训练回归的软测量模型，所以该模型能够选择合适的未标记数据对预测模型进行更新。此外，该模型在均分标记数据时，克服了局部的弊端，选取的标记数据具有全局性。采用两种不同类型的回归模型，可以建立更全面的回归模型。使用线上的回归算法，能够充分地使用新的数据信息来更新预测模型。

表1 异构自适应co-training RPLS-RBP 混合回归模型的详细流程Table 1 Detailed flow of heterogeneous adaptive cotraining RPLS-RBP hybrid regression model

3 案例研究

为了评估所提出的软测量模型的预测性能，通过一个完善的模拟污水处理厂(WWTP)——废水处理仿真基准模型（BSM1）以及一个实际的污水处理厂对所提模型进行验证。同时，通过与传统的cotraining PLS 和co-training BP 模型比较，验证异构自适应co-training RPLS-RBP 混合回归模型对多个污水重要指标的预测性能。模型的预测性能使用均方根误差(RMSE)和相关系数(R)作为评估标准。

3.1 案例一

3.1.1 研究背景 BSM1 是由国际水协会(International Water Association, IWA)基于1 号活性污泥模型(activated sludge model No.1,ASM1)所提出的一种基准仿真环境。平台的设备由一个生物反应器(5999 m3)和一个二次沉淀池(深4 m,10 层,6000 m3)组成。生物反应器包含五个反应池，前两个反应池（每个1000 m3）为非曝气的，后三个反应池（每个1333 m3）为曝气的。处理污水的平均流量为20000 m3/d,可生物降解的化学需氧量(COD)的平均浓度为300 mg/L。仿真数据由14 d 的晴天数据组成，每15 min取样一次，共1344组数据（更多详细的介绍可参见文献[33]）。

在测试过程中，将出水的SS、SNH、SNO 浓度以及重要出水指标化学需氧量(COD)和五日生物需氧量(BOD5)作为输出变量。根据机理、工艺流程和专家经验从可测变量中选取15 个易测量变量作为输入变量，详细变量信息可以参见文献[34]。为了验证co-training PLS-RBP 模型在不同条件下的有效性，分别取数据集的前10%、20%、30%、40%和50%作为标记数据（即134 组，269 组，403 组，538 组和672 组），剩余的数据覆盖输出变量后作为未标记数据。当训练终止后，将输出变量补充并作为测试数据，评估模型的预测性能。

表2 不同的标记样本率下的RMSE值Table 2 RMSE values at different labeled data rate

3.1.2 预测性能表2是在不同的标记数据比例下三种模型对输出变量预测的RMSE 值。显然，随着标记数据比例的增大，三种模型的RMSE 值都在减小，预测结果越来越好。比较标记数据比例相同时三种模型的RMSE 值可知，所提的co-training RPLS-RBP 模型的预测表现是最好的，RMSE 值最小。尤其适当标记数据的比例为50%的时候，图2给出具体的预测曲线图。

图2 所示为三种模型对输出变量的预测曲线（标记样本率为50%）。对比图2中各行的预测结果可知，三种模型对SNH 和SNO 的预测效果令人满意，预测曲线能够很好地跟踪目标的变化趋势。这主要是由于在BSM1 仿真平台模拟出的晴天条件下，SNH 和SNO 的数值相对稳定。然而，在对重要出水指标COD 和BOD5的预测曲线中，所提模型的预测效果最佳，完全优于co-training PLS 和cotraining BP 模型。这是由于co-training RPLS-RBP模型使用递归的回归算法，充分使用新的数据信息来更新预测模型。此外，从观测曲线中的峰值与谷值的预测结果可以看出，co-training PLS 和cotraining BP 模型预测曲线远不及co-training RPLSRBP 混合回归模型的跟踪效果。同时，值得注意的是co-training RPLS-RBP 混合回归模型对于所有输出变量的峰值与谷值的预测曲线基本也可以与实际曲线完全重合，进一步证明了该模型对在平稳的条件下污水处理厂的重要指标优异的预测能力。

三种模型对输出变量预测的评价指标RMSE、R值和耗时如表3 所示（标记数据占总数据50%）。比较耗时可知，由于co-training RPLS-RBP 模型是一种自适应的在线模型，每次预测都会对模型校正并重构，所以耗时约是co-training PLS 模型的6倍，cotraining BP模型的3倍。虽然耗时增加，但是模型的预测性能却有显著的提高。首先，通过三个模型对各输出变量的RMSE 值可知，co-training-RPLSRBP 混合回归模型的RMSE 值均为最小，且远远小于另外两个模型的RMSE值。尤其是对重要出水指标BOD5的RMSE 值，相较于co-training PLS 和cotraining BP 模型分别减少了93.77%和94.68%。比较三个模型的R值可知，co-training RPLS-RBP 混合回归模型的R值最大，表现出最优的预测能力。然而，值得注意的是，co-training BP 模型对COD 的R值偏小，仅为0.753，没有满足预测要求。主要的原因是BP 神经网络算法在每次对不同变量预测时需要通过反复的训练，找到最合适的隐藏层神经元的个数。然而，在本案例中，为了保证co-training BP和co-training RPLS-RBP 模型具有相同的条件，对两种模型选取了相同的神经元个数。表3中加粗的数值是最小的RMSE 值和最大的R值，说明co-training RPLS-RBP模型对BOD5的预测表现最佳。

表3 输出变量的RMSE、R值和耗时（标记样本率为50%）Table 3 RMSE，R values and time consuming of the output variables（labeled data rate is 50%）

图2 输出变量的预测曲线与实际曲线的对比图（标记样本率为50%）Fig.2 Prediction profiles of output variables compared with real values(labeled data rate is 50%)

3.2 案例二

3.2.1 研究背景与案例一不同，案例二为一个实际的活性污泥水处理厂，目的是去除有机物和营养物质。它是一个简单的活性污泥污水处理厂，该污水处理厂的工艺过程分为五部分：预处理、一次沉淀、曝气罐、二次沉淀和污泥回流，该工厂的污水处理量为3.5×104m3/d（更多细节可以参考文献[35]）。在污水处理的过程中，随着时间的推移，进水率和微生物质量和种类数量会发生变化。这一过程共包含38 个变量值，由于对反应过程的了解有限，传感器的工作环境恶劣，所以每隔1 d 收集一次，共计527组数据。

图3 不同标记样本率下RMSE值的变化曲线Fig.3 Change curves of RMSE value under different labeled data rate

本案例研究的目的是评估co-training RPLSRBP 混合回归模型在真实的污水处理厂对难测量变量的预测能力。选择出水指标化学需氧量(DQO)和生物需氧量(DBO)作为输出变量。输入变量的选择，根据工艺机理分析和相关专家经验，在可测量变量中选取18个变量作为模型输入，详细的变量信息可参见文献[35]。由于数据中存在有暴雨影响的异常数据点，在模型训练前删除了7 个严重离群的数据点。但是，为了验证所提出模型对突变数据的预测性能，保留了一些受环境影响较小的数据点。为验证所提模型在不同标记样本率下的有效性，分别取数据集的10%、20%、30%、40%和50%数据（即52 组、104 组、156 组、208 组和260 组）作为标记数据，剩余的数据在覆盖预测变量后作为未标记数据。当满足终止条件后，将未标记数据的输出变量DBO-S和DQO-S补充后作为测试数据，评估模型的预测表现。

3.2.2 预测性能三种模型对DQO 和DBO 在不同标记样本率下的RMSE 值变化曲线如图3 所示。显然，当标记数据的比例增大时，三种模型的RMSE都在减小，尤其是co-training BP 模型。此外，比较在相同标记样本率下三种模型的预测结果可知，当标记样本率足够大时，所提的co-training RPLS-RBP模型预测性能最好，有最小的RMSE值。然而，当标记样本率偏小时，则co-training PLS模型的RMSE值较小，这主要是因为BP神经网络的构建和训练需要大量的数据，当标记样本率偏小时，网络结构将不够准确，导致预测精度下降，RMSE 值偏大。为进一步验证co-training RPLS-RBP 模型的预测性能，下文将对标记数据充足时做详细的分析。

三种模型对DQO 和DBO 的预测曲线如图4 所示（标记样本率为50%）。显然，co-training RPLSRBP 混合回归模型的预测曲线与实值曲线基本吻合，预测结果优于另外两个模型。此外，对于实际的污水处理厂，由于设备短缺，导致数据的采样周期变长，数据的波动性变大，非线性增强。观察预测曲线和实际曲线的拟合度可知，co-training RPLS-RBP 混合回归模型能够对具有强烈非线性特征的数据达到令人满意的预测结果。个别由于环境变化产生的突变点，虽然不能做到完美预测，但是预测结果也优于其他两个模型。

图4 输出变量的预测曲线图（标记样本率为50%）Fig.4 Prediction curve of output variables(labeled data rate is 50%)

图5 是三个模型对DQO 和DBO 预测结果的评价指标RMSE 和R值的条形图（标记样本率为50%）。由RMSE 值的条形统计图可知，co-training RPLS-RBP 模型的预测表现最好。但是，三个模型对DQO 的预测表现都不佳。主要的原因是因为DQO 本身数值偏大且波动范围大，导致预测过程中RMSE 值也随之增大。观察R值条形图，虽然三个模型对DQO 预测的评价指标RMSE 值偏高，但是R值却都达到了90%以上，显然满足预测要求。在DQO 预测结果的预测指标R值中，co-training RPLS-RBP 模型的R值远大于另外两种模型且达到了92%。此外，三种模型的预测耗时分别为8.968、69.896 和83.059 s。由于co-training RPLS-RBP 模型是一个自适应的线上模型，在每次预测时都需要对模型重建，所以时间消耗较大。但是，该模型取得令人满意的预测效果，一定量的时间消耗也是可接受的。总之，由评价指标RMSE 值和R值的条线统计图，可以推断出co-training RPLS-RBP 混合回归模型对具有强烈非线性的数据能够取得良好的预测表现。

3.3 讨论

在3.2 节，通过两个案例研究对所提出的异构自适应co-training RPLS-RBP 混合回归模型进行了验证。结果表明，所提模型具有较好的预测性能。两个案例包含了较为稳定的线性数据和存在异常波动的非线性数据，对测试模型的适用范围有非常大的影响。结合其他两个模型的预测结果分析得到以下结论。

（1）co-training BP 模型对于输出变量的预测效果优于co-training PLS 模型。然而，在存在受环境影响的数据异常点时，co-training BP 模型对于异常点的预测表现较差。

（2）本文提出的异构自适应co-training RPLSRBP 混合回归模型无论对稳定的线性数据还是存在异常点的非线性数据，预测结果都是最优。这是由于在线回归模型能够充分运用新的数据信息，实时地更新和优化预测模型。

（3）异构自适应co-training RPLS-RBP 混合回归模型对案例一中的COD 和BOD5的RMSE 值为0.238 和0.003，比co-training BP 模型的RMSE 值减小了96.1%和94.7%。对其他输出变量的也能有较高的预测精度。

（4）对于案例二，在采样周期长、数据波动大的条件下，异构自适应co-training RPLS-RBP 混合回归模型对于DQO 和DBO 的预测结果优于cotraining PLS 和co-training BP 模型，印证了所提模型对非线性数据预测结果也是最佳的。

（5）无论是本文提出的异构自适应co-training RPLS-RBP 模型还是其他模型，对实际污水厂的预测效果明显不如BSM1 仿真平台的预测效果。其主要的原因是因为BSM1 仿真平台的数据是在晴天条件下的稳态数据，而实际污水厂中的数据包含由环境或是设备故障导致的异常数据。其次，BSM1 仿真平台设备完善、采样周期短和数据量充足等，而实际污水厂设备短缺、采样周期长、数据量小等。

4 结论

图5 输出变量的RMSE和R的条形图（标记样本率为50%）Fig.5 Bar graphs of RMSE and R values(labeled data rate is 50%)

随着工业过程越来越复杂，标记数据和未标记数据比例严重不平衡。本文提出了一种半监督异构自适应co-training RPLS-RBP 混合回归模型。异构自适应的混合回归模型，能够有效应对污水处理过程中的数据漂移和模型退化等问题。使用奇偶分组的方法提高了标记数据的全局性，避免了数据因离散导致的回归模型不准确等问题。最后，通过一个线性数据案例和一个非线性数据案例验证了模型适用的广泛性。结果表明，无论是条件稳定的线性数据还是存在异常波动的非线性数据，异构自适应co-training RPLS-RBP 混合回归模型均具有更好的预测效果。然而，由于该模型在建立初始回归模型时需要大量的标记数据，所以，当标记数据比例较小时，基于数据驱动建模的建模方法将无法满足需求。将机理建模和数据驱动建模结合的混合模型可作为以后的研究方向。