APP下载

基于深度卷积生成对抗网络的缺失数据生成方法及其在剩余寿命预测中的应用

2022-09-09张晟斐李天梅胡昌华杜党波司小胜

航空学报 2022年8期
关键词:样本预测函数

张晟斐,李天梅,胡昌华,杜党波,司小胜

火箭军工程大学 导弹工程学院,西安 710025

预测与健康管理(Prognostics and Health Management, PHM)技术的提出实现了从计划性维修到视情维修的转变,可以在维修成本、资源损耗与生产效益之间决策出最优平衡点,已广泛应用于电子、航空航天和军事应用等多种领域。其中,剩余寿命(Remaining Useful Life, RUL)预测作为PHM的基础与核心,对于掌握设备健康状态从而保障设备安全可靠运行具有重要意义。Lei等将现有的RUL预测方法分为:基于机理模型的方法、基于统计模型的方法、人工智能的方法以及混合方法。基于统计模型的方法主要通过监测设备性能退化变量,建立其退化模型,进而实现剩余寿命预测,能够刻画出设备运行过程中的随机波动、观测噪声等多重不确定性,已取得了丰硕的成果。基于人工智能的方法采用监测数据训练神经网络,通过最小化网络输出与真实值之间的偏差以优化网络参数,从而实现退化过程建模。

上述2种方法都属于数据驱动的剩余寿命预测方法,这类方法需要获得充足且完整的监测数据,但随着设计水平与制造工艺的进步,诸如航空发动机之类的高可靠性设备存在着故障样本少、观测噪声、传感器失效导致数据缺失等问题,从而导致在此数据基础上进行的相关分析等工作得到的结果可靠性难以保证。在上述问题中,数据缺失会同时造成数据量变少、数据分布出现偏差等影响,且造成数据缺失的原因是多方面的,因此需要采取合理有效的方法对缺失数据进行处理。

传统的缺失数据处理方法主要分为删除法与填充法。删除法即通过直接删除缺失项得到“完整”的数据集,优点在于简单易行,但会造成信息丢失并导致数据分布出现偏离,仅适用于缺失比例小的情况。填充法可分为基于统计学的填充方法与建模填充的方法,前者包括均值填充、随机填充、前(后)向插补、加权填充等方法,主要思想是利用未缺失数据的统计特性对缺失数据进行填充,这类方法得到的填充结果稳定,适用于缺失序列分布特性简单明确且变量相关性强的情况。建模填充的方法如回归模型填充、K近邻插补、EM(Expectation Maximization)算法填充等,基本思路是选取不同的模型或算法来度量缺失数据与观测到的数据之间的距离,调整参数使这一偏差最小从而实现对缺失数据的估计。建模填充的方法可以充分利用现有数据包含的信息,但对数据集本身存在要求,如:数据集中数据存在较强的关联、数据服从某种特定分布等。

随着大数据时代的到来,工程设备获取的监测数据呈现出海量化、非线性、高维化等特征,传统的缺失数据处理方法难以有效利用时序数据的前后依赖关系对历史信息与未来趋势之间的关联关系进行充分挖掘。此外,设备的退化分布属于时变分布,传统的处理方法在进行数据填充时容易扭曲原数据集的分布特性。考虑到深度神经网络能以任意精度拟合任意复杂度的函数,且能够有效处理大样本、高维度的数据集,因此可以借助于深度学习进行缺失数据填充。Fedus等基于自编码器进行时序数据生成,但该算法的训练过程需要完整的时序数据,因此难以保证训练数据存在缺失时的生成效果。Gondara和Wang基于去噪自编码器实现缺失数据的多重插补,该算法将缺失数据视为一种特殊的噪声,通过去噪解决多种缺失模式下的填充问题。该方法的局限性在于初始化网络时使用平均值或最常用的标签来代替缺失数据,可能导致多变量关系的扭曲。Che等开发了GRU-D模型,不仅利用门控循环单元 (Gate Recurrent Unit, GRU)捕获时间序列的前后依赖性,还利用缺失模式实现更好的预测结果,但该方法不能直接用于缺乏预测标签的无监督学习。Yoon等首次将生成对抗网络(Generative Adversarial Network, GAN)应用于缺失数据生成,通过增加掩模矩阵与提示矩阵向判别器提供附加信息,从而确保生成器准确估算缺失位置与缺失值,但该方法未考虑时序数据的前后依赖关系。Zheng等提出一种基于双重GAN的故障预测方法,首先采用infoGAN生成逼近真实分布的故障样本与非故障样本,同时将判别器的部分网络结构作为推理网络的组成部分以获得生成样本所对应的标签,将生成样本与标签送入第2个生成对抗网络进一步加强样本与对于标签的一致性。该方法主要针对训练样本较少但数据集连续且完整的情况,难以保证当真实数据存在缺失时生成样本的可靠性。Luo等采用GRU构成GAN实现了时序数据的生成,该方法通过非缺失数据与生成数据之间的平方误差来保证生成个体的可靠性,但是无法保证缺失数据的填充结果符合整体分布。

现有的研究大都借助已有的网络结构(如自编码器、GRU等)构成GAN,从而实现故障样本的扩充、时序数据的生成等。其中,在进行样本扩充时通常以完整的时序数据作为训练基础,在进行缺失数据生成时又往往忽略前后依赖关系。此外,GAN的训练过程属于无监督学习,仅依赖生成器与判别器的对抗博弈来保证生成数据的可靠性,而缺乏一种能够量化生成数据与真实数据一致性的评估指标。因此,面对存在缺失的时间序列,如何保证生成数据的同时满足:① 以缺失数据作为训练基础;② 学习时间序列的前后依赖性;③ 与真实样本分布保持一致,仍然是一个尚未解决的问题。为解决以上问题,本文针对数据驱动的剩余寿命预测过程中面临的数据缺失的问题,提出了一种基于深度卷积生成对抗网络(Deep Convolutional Generative Adversarial Network, DCGAN)的缺失数据生成方法。该方法充分利用GAN强大的学习能力,将生成序列与真实序列之间的分布偏差融入DCGAN的损失函数中,在改善DCGAN训练稳定性的同时保证生成序列与真实序列的一致性。在此基础上,本文利用双向长短时记忆网络(Bi-directional Long Short-Term Memory, Bi-LSTM)建立了设备退化趋势预测模型,通过预测退化量超过失效阈值的时间实现了剩余寿命的预测。最后,基于锂电池的退化数据对所提方法生成数据的可靠性进行了应用验证。此外,在应用于剩余寿命预测时,通过完整数据、生成数据以及缺失数据下剩余寿命预测的对比结果,发现本文所提方法可有效解决数据缺失问题,提升剩余寿命预测对数据缺失的鲁棒性。

1 预备知识

1.1 深度卷积生成对抗网络

自Goodfellow等提出生成对抗网络(Generative Adversarial Networks, GAN)以来,该方法已成功应用于图像超分辨率重建、目标检测、文本生成等多个领域,各种衍生模型相继被提出。DCGAN从工程的角度利用卷积运算对GAN进行改进:① 生成器和判别器分别使用微步幅卷积和步幅卷积代替池化操作;② 使用批量标准化(Batch Normalization, BN)操作加速训练;③ 去掉全连接层,使其变为全卷积网络;④ 生成器除最后一层采用Tanh外其余层激活函数均采用ReLU,判别器激活函数采用LeakyReLU。DCGAN训练速度快,内存占用量小,是快速实验最常用的结构。

1.2 K-S检验

非参数统计检验无需假定特定的总体分布,仅需要做出一般性的假设。Kolmogorov-Smirnov(K-S)检验是基于累积分布函数来检验某一单样本分布是否符合某种理论分布,或用于检验2个样本分布是否具有显著差异性。相较于其他双样本非参数检验方法,K-S检验具有不依赖均值的位置、对样本位置参数和形状参数都很敏感、无需假设样本分布等优点。

1.3 双向长短期记忆网络

双向长短期记忆网络(Bi-LSTM)能够同时学习输入数据的前向和后向时序信息,能够更加深入地挖掘退化数据包含的时序信息,解决了梯度消失、梯度爆炸与长期依赖问题,其网络结构如图1所示,上标L表示最后一层。相比于传统长短期记忆网络,该网络通过网络与后向层网络完成输入序列的处理后,在提取出序列深度特征的同时实现短期依赖性的表征,能够充分利用过去与未来数据所蕴含的信息。

图1 Bi-LSTM网络结构示意图Fig.1 Structure of Bi-LSTM

Bi-LSTM的实现过程如式(1)所示:

(1)

式中:→与←分别表示前向与后向传递;分别代表遗忘门(Forget Gate)、输入门(Input Gate)和输出门(Output Gate);分别表示细胞状态(Cell State)和隐藏层状态(Hidden State);、tanh分别表示Sigmoid激活函数与双曲正切激活函数;为权值矩阵;为偏置;下标f、i、o、c分别表示遗忘门、输入门、输出门和候选层;*表示向量内积。将最后一个前向层的输出状态与最后一个后向层的输出状态拼接起来,通过全连接层映射可得到Bi-LSTM在时刻的网络输出结果,即

(2)

式中:分别表示全连接层的权重与偏置。

2 缺失数据下的剩余寿命预测方法

针对缺失数据下的剩余寿命预测问题,本文提出了一种基于DCGAN的缺失数据生成方法,并将该方法用于剩余寿命预测,其主要思路如图2所示。

图2 基于DCGAN-KS的缺失数据生成方法及其在剩余寿命预测中的应用Fig.2 Generation method of missing data based on DCGAN-KS and its application in RUL prediction

为解决真实数据集存在缺失的问题,基于DCGAN学习真实数据分布并对缺失数据进行填充;针对DCGAN建模过于自由、训练不稳定的问题,通过K-S参数检验判别生成数据与真实数据的一致性并优化生成结果;最后,利用Bi-LSTM能有效应对时序数据前后依赖性的优点,基于生成数据得到设备性能退化预测结果。针对图2所示的本文方法的主要思路,下面给出具体的实现过程。

2.1 归一化处理

为方便问题描述及后续的建模分析,可对监测数据进行如下定义:具体而言,监测得到的设备历史性能数据可记为=[,,…,],=[,1,,2,…,,],其中,(1≤≤)表示第个设备的监测数据,,(1≤≤)表示属于第个设备的第组监测数据。由于传感器个数不同,,可以是一元或多元数据,与此对应的监测点记为=[,,…,],=[,1,,2,…,,]。

考虑到不同监测量具有不同的量纲,且激活函数敏感区间有限,因此需要对原始数据进行归一化处理,归一化公式如式(3):

(3)

(4)

2.2 缺失数据生成

对于存在缺失的数据集,将监测数据与所对应的监测时刻同时送入DCGAN学习其真实时序分布,其原理如图3所示。

生成器从随机噪声分布()中采样并向真实数据分布映射,其输出结果为

()=(·+)

(5)

对于判别器而言,当输入为真实数据时网络判别结果为1,当输入为来自生成器的伪样本时网络判别结果为0。即

()=(·+)=1

(6)

(())=(·()+)=0

(7)

图3 DCGAN网络结构Fig.3 Structure of DCGAN

式中:、表示激活函数;、分别表示来自真实数据和随机噪声的样本;分别表示生成器网络与判别器网络中的权值和偏置。

生成器的优化目标是尽可能欺骗判别器使其对应伪样本的输出结果为1,判别器的优化目标是正确区分数据来自真实样本还是来自生成器的伪样本,可将整个过程视为一个二元极大极小博弈问题,表示为

~()[lg(1-(()))]

(8)

式中:()表示真实数据分布;()表示采样噪声的先验分布;(·)表示计算期望值。当且仅当生成数据分布()与真实数据分布()达成一致,即()=()时,意味着对抗训练达到纳什均衡。

2.3 基于K-S检验改进的DCGAN生成方法

在DCGAN的训练过程中,生成器和判别器的优化交替进行,因此,式(8)所表示的优化目标可拆分为如下2部分:

[lg(1-())]

(9)

(10)

从式(10)可以看出生成器的梯度更新信息来自于判别器的输出结果,真实数据则不直接参与生成器的参数更新过程,虽然回避了似然函数求解的难题,但也埋下了训练发散的隐患。根据文献[36]中的推导可知,在训练过程中,首先优化判别器,将生成器的目标函数带入最优判别器表达式中,可以得到:

()=2(|)-2lg2

(11)

可知,优化生成器相当于最小化真实分布和生成分布之间的Jensen-Shannon(JS)散度,当2个分布交集很少或判别器很容易将两者分开时,JS散度固定为常值lg2。此时,产生梯度消失现象,生成器无法获取有效的信息继续更新,模型训练中止,得到的生成结果表现出模式崩溃或训练发散的问题。因此,如果能保证生成器始终能获得有效的梯度信息,将有效地避免训练不稳定的问题。K-S检验是比较双样本分布最常用的非参数方法之一,对样本的经验累积分布函数的位置和形状差异具有敏感性。K-S检验首先绘制生成2个样本分布的累积概率曲线,随后计算同一值对应的2条曲线之间沿轴的距离,搜索此距离的最大值并带入K-S概率函数以计算相似概率。当2个分布差异较大时,K-S检验仍然可计算得到相似概率,从而保证判别器始终可以提供有效的梯度更新信息。此外,基于K-S检验判别双样本分布的相似性时,无需假设样本所属分布类型,该优点与设备退化过程的时变特性相适应。因此可考虑结合K-S检验的思想来修改优化目标,在解决网络训练不稳定问题的同时,提供一个与生成样本质量相关的训练进程指标,从而量化判断生成效果。

(12)

(13)

(14)

相似概率可以通过可靠性分布函数表示:

(15)

(16)

比较值与给定的置信度的大小,若>则可认为2个样本分布之间无明显差异。最大取1,因此,相似概率越接近1说明两样本一致性越强,因此,在训练时可沿着使值尽可能大的方向进行梯度优化。式(8)表示的目标函数可修改为

z~()[lg(1-(()))]+()

(17)

此时,生成器与判别器的优化目标修改为

=[lg(1-())]-()

(18)

=[lg()]+

[lg(1-())]+()

(19)

Adam优化器具有实现简单、计算高效、参数的更新不受梯度的伸缩变化影响等优点,适用于目标函数不稳定或梯度稀疏的情况,因此本文采用Adam算法对参数进行优化。将待优化参数记为=[,]、=[,],则网络参数可以在同一训练步骤中更新:

(20)

式中:表示学习率;表示Adam函数。DCGAN-KS网络的训练过程可总结如算法1所示。

算法1 DCGAN-KS的训练过程Algorithm 1 Training process of DCGAN-KS

考虑到Wasserstein距离(又称Earth-Mover, EM)在2个分布重叠度很低甚至没有重叠时仍能够有效衡量生成数据分布与真实数据分布之间的距离,因此采用Wasserstein距离衡量所提方法以及对比方法在缺失数据填充方面的性能,相应的数学模型定义为

(21)

2.4 基于Bi-LSTM网络的RUL预测

生成数据能够补全真实数据集中缺失的信息,从而获得完整的设备性能退化数据。在采用退化数据进行RUL预测时,需要把退化数据送入滑动时间窗处理以获得对应的标签。滑动时间窗可以在保留原始数据局部依赖性的前提下,将原始序列转换为所需格式。具体地,选择长度为的时间窗每次沿时间方向移动一个单位,时间窗内的数据被视为训练样本,对应的标签是步之后的退化数据。处理过程如图4所示。

对于个训练数据,经滑动时间窗处理所得的训练集数据如下:

(22)

矩阵中每一行为一个训练样本,最后一列为该样本对应的标签。对于每一个训练样本,遗忘门首先对上一个节点的输入进行选择性忘记:

=(+-1+)

(23)

图4 滑动时间窗处理过程Fig.4 Process of sliding time window

式中:表示当前时刻的输入;-1表示上一时刻的隐藏层状态;为待更新参数。

输入门有选择的记忆当前输入并更新细胞状态:

(24)

式中:-1分别表示当前时刻与上一时刻的细胞状态;为待更新参数。

输出门控制更新状态的输出:

(25)

式中:为待更新参数。

Bi-LSTM预测网络的输出为输入样本步之后的退化水平预测值,即

[(,,…,)+]

(26)

式中:表示Bi-LSTM网络所表征的非线性函数。

训练过程中,反向调节网络参数,使得预测值与真实值之间的误差最小,损失函数表示为

(27)

同样采取Adam算法对参数进行优化。训练完成后,模型可得到测试集对应的设备性能退化水平预测值,当该值首次达到预先设定的失效阈值时,认为设备已失效。当前时刻到失效时刻的时间间隔即为设备剩余使用寿命预测值RUL。

3 实 验

3.1 实验设置

采用马里兰大学先进寿命周期工程中心提供的CS2电池退化数据集,分别从生成效果和预测效果2方面来论证所提方法的有效性。该数据集包括4组电池退化数据,每块电池先以1 C恒定电流率充电,当电压达到4.2 V后维持电压不变,当充电电流下降至0.05 A时重复此前的充放电过程,当电池的放电电压只能达到2.7 V时认为已达到失效阈值。容量可以有效反映电池健康状况,实际应用中通常采用在一定充放电条件下电池容量衰减到失效阈值时所经历的充放电周期次数来描述电池的剩余使用寿命,因此选择该指标进行锂电池RUL预测,本文中的剩余使用寿命是指从当前时刻开始至锂离子电池容量不能维持设备正常工作所经历的充放电周期次数。上述4组电池容量变化曲线如图5所示。

由于设备退化是一个量变到质变的累积过程,因此在设备运行后期进行RUL预测尤为必要。故而将编号为CS2-35、CS2-36、CS2-38电池的完整数据和CS2-37截止到600个循环周期的容量数据作为训练样本,将CS2-37的600个循环周期之后的样本作为测试样本来评估预测性能,失效阈值选择文献[42]中的0.5 Ah。其中,CS2-37电池可视为现场设备,将10%、30%、50%、70%的4种缺失率下的缺失数据送入生成网络得到连续完整的生成数据,随后将存在缺失的原始数据和生成数据分别送入预测网络,从而评估生成数据的有效性。

图5 CS2电池组容量变化轨迹Fig.5 Capacity trajectory of CS2 battery

本文工作主要面向设备RUL预测中的数据缺失问题,因此主要就生成效果进行对比,各对比方法描述如下:

1) 生成对抗网络。网络结构如表1所示。输入样本与输入噪声的尺寸均为850,生成器和判别器的学习率均设置为0.000 1,迭代次数为6 000。

2) 删除法。直接把存在缺失的样本删除。

3) 前向插值。利用前一个非缺失值填充。

4) 后向插值。利用后一个非缺失值填充。

5) 线性插值。利用相邻的未缺失值建立线性函数(),缺失值由对应的()替代。

6) 样条插值。保形分段三次样条插值,将缺失数据前后序列均表示为一个三次函数,使得在缺失值处具有光滑衔接的性质。

7) 移动均值插值。取缺失值前后10个长度的数据的均值代替缺失值。

8) 移动中位数插值。取缺失值前后10个长度的数据的中位数代替缺失值。

将对缺失数据处理后得到的数据送入Bi-LSTM进行预测,采用的网络架构见表1,学习率为0.000 5,迭代次数为200。

表1 网络超参数Table 1 Network hyperparameters

3.2 缺失数据生成结果

本节展示了在不同缺失率下各方法的缺失数据处理效果。首先分别按照10%、30%、50%、70%4种缺失率对编号为CS2-37的电池数据进行随机缺失处理,然后将不同缺失率下的真实数据送入DCGAN-KS进行训练,学习真实分布并生成样本。具体地,采用MATLAB读取电池数据并确定数据容量,人为设定缺失率并计算得到需要删去原始数据的数量。在当前循环次数低于需要删去的数量时,基于floor函数产生数据容量范围内的随机数,将该随机数对应位置的数据删去,从而得到存在缺失的数据集。本文所提方法与删除法等对比方法在不同缺失率下的处理结果如图6~图9所示。

从图6~图9中可以直观地看出,不论缺失率高低,生成数据均能与真实数据趋势保持高度一致,说明所提方法在面对缺失率较高的情况时仍能够生成足够可靠的样本,对于缺失率这一指标保持较强的鲁棒性。此外,所提方法并不是通过简单地复制或替换原始数据来完成对缺失数据的处理,而是在充分考虑噪声等外部因素的干扰下逼近真实的分布特性,所得到的生成数据具有较高的应用意义。与其传统方法的细节比较图论

图6 缺失率为10%时的生成结果Fig.6 Generated results at missing rate of 10%

图7 缺失率为30%时的生成结果Fig.7 Generated result at missing rate of 30%

图8 缺失率为50%时的生成结果Fig.8 Generated result at missing rate of 50%

图9 缺失率为70%时的生成结果Fig.9 Generated result at missing rate of 70%

证了所提方法的优越性,由DCGAN-KS模型得到的生成数据在不同缺失率下均更加接近真实数据,说明模型在输入存在缺失情况下仍可以学习到真实分布。

表2展示了不同缺失率下各方法的生成数据以及缺失数据与真实数据之间的EM距离,量化评估了各方法的生成效果,最优结果已加粗表示。横向比较可以看出所提方法几乎均取得最优结果,说明得到的结果更加接近真实分布。纵向比较则表现出随缺失率提高,各方法得到的结果均有所增大,但所提方法增幅最小,故而本方法在面临高缺失率的数据时仍表现出较高的鲁棒性。

表2 不同缺失率下各方法生成样本与完整样本的EM距离Table 2 EM distances between generation sample and complete sample at different missing rates

图10为训练过程中的K-S检验统计值(K-S)、相似概率以及网络损失值(,)的变化轨迹,可以看出随迭代次数增加,相似概率逐渐趋向于1,生成器与判别器的损失也不断靠近并保持稳定。图10(a)和图10(b)中的存在多处冲击,但是在波动后并没有发散到无穷大,而是又收敛于区间[4,6]内的某一数值。出现波动的原因主要是在训练过程中生成器生成的数据具有多样性,因此K-S检验的结果也存在着较大变化。而冲击可以理解为设备实际工作中由于受到外界环境作用或噪声影响下导致的设备性能不平稳波动,这也是通过GAN网络得到的生成数据的优势之一:生成数据不是对已有数据进行简单的复制或数学运算得到,而是在学习真实数据分布的基础上充分考虑外界环境可能带来的影响。训练过程中各参数的变化说明修改后的损失函数可有效指导生成器优化过程,还可改善DCGAN训练不稳定的问题。

图10 训练过程中各指标变化轨迹Fig.10 Track of each indicator during training

3.3 剩余寿命预测结果

在本节中,首先将缺失数据与生成数据经由窗口长度和步长分别为50和10的时间窗处理,从而得到满足预测网络需求的样本。相应的,预测结果为输入样本10步之后对应的电池容量。比较不同缺失率下缺失数据和生成数据的预测效果,从而验证生成数据在后续RUL预测应用中的作用。

由于在工程实际中,预测滞后更可能导致严重的安全事故,因此认为在预测偏差绝对值相同的情况下,预测滞后劣于预测提前。这一思想在所选取的评价指标中得以体现:均方根误差(Root Mean Square Error, RMSE)对模型预测滞后和预测提前给予了相同的惩罚,而评分函数(Scoring Function, SF)则给予预测滞后更大的惩罚系数。

图11展示了在4种缺失率下的训练数据、缺失数据、生成数据预测结果以及真实寿命曲线,可以直观地看出生成数据的预测结果均比缺失数据的预测结果更加接近真实寿命。且随着缺失率增大,缺失数据下的预测效果明显变差,但生成数据下的预测效果几乎没有变化,说明不同缺失率下的生成数据均能与真实数据保持较高的一致性,生成算法具有较高的可靠性。

图11 不同缺失率下的预测效果Fig.11 Prediction results at different missing rates

根据文献[43],采用RMSE和SF这2个评估指标对预测结果进入深入研究,2个指标的公式分别为

(28)

(29)

式中:表示测试集中采样的总数目;=RUL-RUL表示每个采样点的真实值与预测之间的偏差。

表3给出了不同缺失率下预测效果的量化评估结果。在相同的缺失率下比较缺失数据和生成数据的预测效果,数据表明生成数据的RMSE和SF值均小于缺失数据,说明利用生成数据得到的预测结果更加准确。结合预测效果图可以发现,生成数据从未出现预测滞后情况,说明利用生成数据得到的预测结果在实际应用中安全性更高。最后比较在不同缺失率下的预测效果:随缺失率提高,缺失数据的RMSE和SF值呈明显增大趋势,生成数据的变化相对较小,说明生成数据可以很好地改善缺失率提高造成的不良影响。

表3 不同缺失率下预测效果Table 3 Prediction effect at different missing rates

4 结 论

大数据背景下,针对数据缺失下的RUL预测问题,本文提出一种基于改进的DCGAN的数据生成方法,通过实验论证本文方法可有效解决数据缺失问题从而改善后续RUL预测的效果。本文工作内容如下:

1) 由于传统的缺失数据处理方法在解决大数据时存在计算能力不足、学习能力弱的问题,提出了一种以缺失数据作为训练基础,并可以充分学习时间序列前后依赖特性的生成方法。该方法以DCGAN为基础网络,以存在缺失的监测数据为训练样本,充分挖掘数据中蕴含的信息,自动学习真实分布并生成数据。

2) 利用K-S检验的思想改进DCGAN网络,通过在网络损失函数中加入检验结果保证生成数据与原始数据的一致性。此外,将网络修改为有监督的学习,提供了判断网络训练程度的指标。

3) 考虑到设备退化数据在时间维度上具有前后依赖性,采用Bi-LSTM构建设备退化趋势预测模型,在提取序列深度特征的同时充分利用过去与未来数据所蕴含的信息,从而获得高精度的预测结果。

本文方法可以得到缺失数据的点估计,在后续的工作中,可考虑通过多重插补获取估计值的不确定性,从而向后续的RUL预测提供更多有价值的信息。此外,可考虑根据预测结果对生成网络进行优化,实现缺失数据下RUL预测的闭环建模与训练。

猜你喜欢

样本预测函数
选修2—2期中考试预测卷(B卷)
选修2—2期中考试预测卷(A卷)
直击高考中的用样本估计总体
随机微分方程的样本Lyapunov二次型估计
关于函数的一些补充知识
高中数学中二次函数应用举隅オ
无独有偶 曲径通幽
基于支持向量机的测厚仪CS值电压漂移故障判定及处理
七年级数学下册期末检测题(B)
《福彩3D中奖公式》:提前一月预测号码的惊人技巧!