基于多传感器-深度长短时记忆网络融合的瓦斯浓度预测研究∗
2021-08-28华刘雨竹徐楠张俊男
付 华刘雨竹徐 楠张俊男
(1.辽宁工程技术大学电气与控制工程学院,辽宁 葫芦岛 125105;2.辽宁工程技术大学矿业学院,辽宁 阜新 123000;3.国网公主岭市供电公司,吉林 公主岭 136100;4.辽宁机电职业技术学院材料工程系,辽宁 丹东 118009)
煤与瓦斯突出是目前煤矿开采主要事故原因之一,对开采设备、人员生命安全造成极大威胁,因此研究井下回采工作面瓦斯浓度变化趋势,利用煤矿安全监测系统采集的瓦斯相关数据实现对未来瓦斯浓度的精准预测,为煤矿安全生产预警工作提供可靠依据显得尤为重要[1]。
目前国内及国际上许多研究人员对如何精准预测井下瓦斯浓度做了大量研究,主要包括混沌时间序列[2]、ARMA时间序列模型[3]、人工神经网络[4-5]及支持向量机[6]等方法,虽然这些研究取得了较好的预测结果,但其算法无法准确有效捕捉序列数据的时序相关性,且支持向量机仅适用于小数据样本,而采用人工神经网络方法时其结构参数确定存在经验依赖性的问题,源数据通常仅为单一传感器的历史数据,而瓦斯浓度变化趋势受环境影响较大[7],且具有非线性、时变性特性,故怎样将影响瓦斯浓度变化趋势因素间的关联特征进行有效提取,建立最佳预测模型进而提高预测模型准确性及鲁棒性仍然是一个亟待解决的问题。
LSTM作为一种深度学习技术[8],属于一种循环神经网络的变体模型,在时序建模方面具有极强的适应性,可依靠其故有特殊结构单元,解决原有递归神经网络训练间隙易发生梯度消失及梯度爆炸[9]的缺陷,有效利用历史序列信息,实现数据之间潜在关联关系的深度挖掘,进而可提高瓦斯浓度动态预测的精确性。
本文提出一种基于深度LSTM网络的多传感器瓦斯浓度预测模型,首先以Pearson相关系数法对多传感器数据进行关联程度判定,筛选强关联因素作为模型输入,降低数据规模及复杂度。然后对其进行多变量相空间重构,选取随机搜索算法对LSTM网络参数进行自动寻优,再利用所得LSTM网络对多传感器时间序列与瓦斯浓度时间序列之间的非线性关系进行动态建模,并进行单步及多步滚动仿真预测实验,结果表明本文所建模型具备更好的的预测性能与鲁棒性。
1 井下多传感器信息耦合
由于煤炭开采的条件较恶劣,瓦斯浓度与开采深度、煤层厚度、地质特性、CO浓度、氧气浓度、负压、空气流速、温度等多种因素有关,许多种关联因素联合作用最终构成复杂的井下瓦斯动力系统。由此可见,单一瓦斯传感器所表征的信息量有限,并不能充分展现瓦斯浓度的演化趋势,由此,本文提出利用多传感器耦合数据作为瓦斯浓度预测模型的输入参数。
1.1 瓦斯浓度与环境因素相关性分析
瓦斯浓度预测模型输入数据的有效筛选对避免增加训练成本和模型的复杂性具有重要意义,故本文采用距离分析法中的Pearson相关系数来近似刻画井下各传感器信息与瓦斯浓度数据的相关性,进而合理选取模型的输入变量。两个n维数据X、Y的Pearson相关系数运算表达式为:
在此式中,X i表示i时间X元素的值,Yi表示i时间Y元素的值,¯X与¯Y为该位置对应元素平均值。根据此公式找到与预测值相关度较高的因素,并将其作为多传感器预测模型的输入,既考虑多变量的影响,又降低了模型复杂度,具有一定实际意义。
1.2 多传感器变量相空间重构
由于瓦斯浓度时间序列具有混沌特性,而由Takens等人提出的相空间重构技术[10]能够通过找到某一时间序列合适的嵌入维数m(且满足m≥2d+1,其中d表示吸引子的分形维数),利用各向量的延迟坐标重构得到数据“等值”的高维度相空间,由此便可还原该混沌系统的规律性,降低后续分析复杂度。由Takens嵌入定理可得,重构维数m及延迟时间τ存在关联关系,本文选用相关参数法中的C-C关联积分法通过关联积分同时估计出相空间重构的嵌入维数m及延迟时间τ,对回采工作面与影响瓦斯浓度变化趋势有关的强关联因素进行m与τ的关联求取,进而还原形成多传感器信息构成的高维相空间。
对于设定样本时间序列X={x i|i=1,2,…,N},首先以m和τ作为关键参数重构多传感器信息相空间X={X i},X i为其中的相点,其关联积分可定义为:
式中:d ij=‖X i-X j‖,M表示重构后相点的数目,如x<0,则θ(x)=0;如x≥0,则θ(x)=1。
设共计有N种相关因素的时间序列,第i类因素的时间序列表示为X i=(x i,1,x i,2…x i,k),i=1,2,…,N,其中k为第i类因素时间序列中数据的总量,则进行多传感器信息相空间重构后其中各相点应为:
此式中p=j,j+1,…与τi分别为i类因素m和τ,如m1+m2+…m p≥2d+1,则进行多传感器信息重构后得到的相空间与原瓦斯动力系统依然是微分同胚关系,参数选择合理。
2 长短时记忆网络算法
由于瓦斯浓度值不是独立变量,其与巷道空气流速、环境温度、湿度、CO浓度、氧气浓度等各类条件均有关,且这些影响因素与瓦斯浓度的值在时间上存在普遍关联性,在时间序列的变化过程中具有高程度的因果性,而LSTM网络算法具有深度学习功能性,其针对于时间序列的建模能力强,不仅可以利用瓦斯浓度数据在时间上的相关性,且可以自动挖掘信息之间存在的隐含关联信息,有效提高未来瓦斯浓度预测精度。
2.1 LSTM网络结构
LSTM算法由Hochreiter和Schmidhuber提出,是递归神经网络的一种改进模型[11],由于其具有循环反馈的记忆逻辑框架,可同时利用实时数据和历史数据,能够全面考虑时间序列数据的时序相关性,可利用任意长度的历史时间序列数据进行建模预测,其单元结构为图1所示。
LSTM网络结构通过引入门(输入门I t,遗忘门F t,输出门Ot)来控制和维持LSTM的单元状态,一般采用tanh函数进行描述,改进了传统递归神经网络模型的隐藏层,令自身可实现独有的持久记忆,实现信息在存储器中的长久保留。图1中C t-1表示前一采集时刻LSTM网络单元元组的状态,h t-1表示前一采集时刻LSTM网络的隐藏层状态,x t表示当前时间点的输入状态,^C t则表示单元临时状态。各变量之间的关系可用如下公式表示:
式中:W f,W i,W c,W o是权重线性变换矩阵;b是偏差向量;σ是激活函数,可将变量映射至区间[0,1]中。LSTM主要工作流程为:各信息流通过LSTM单元后,每一个门将同时进行相应运算,并由其激活函数判断其是否激活,单元状态C及隐藏层状态h(同时是输出)都会得到更新,I t的输入经过非线性变换后与F t处理过的单元状态相叠加形成C t,通过数据映射和输出门的调整与控制生成LSTM网络的最后输出h t。
2.2 LSTM网络训练
现阶段,LSTM网络的训练算法主要为BPTT(按时间反方向传播算法)及RTRL(实时循环学习算法)2种。因BPTT算法概念较RTRL算法清晰且计算效率更高,故本文选取更具优势的BPTT算法作为LSTM网络的训练算法,其训练流程为:①令LSTM网络在时域空间展开为一深层神经网络;②运用经典误差反向传播算法(Back Propagation,BP)计算模型相关梯度参数;③利用所得参数对①形成的网络进行训练。
其时序展开图如图2所示。
2.3 LSTM参数设置
LSTM网络超参数设置对于算法能否以最优状态建立起着十分关键的作用。本文需构建的LSTM预测模型涉及的超参数为层数N、Lwindow(LSTM输入时间窗口长度)、Nhidden(隐藏层神经元数)、Sbatch(子训练样本集个数)、Rlearing(学习率)及Emax(回数)。为防止过拟合现象的出现,本文设置Emax为500,并以此控制预测模型的训练成本。
超参数自动寻优算法主要包括随机搜索搜索算法[12]及网格搜索算法[13]等,本文选用随机搜索方法对Lwindow、Nhidden、Rlearing、Sbatch四种超参数进行自动寻优,其基本思想是考虑到不同超参数子空间对算法收敛效率的影响程度存在差异,可根据不同超参数的重要程度,选择不同的搜索范围,解决了网格搜索算法在高维空间遍历搜索耗时长且效率低的缺陷。选取均方误差值作为目标loss函数:
式中:^y为子训练样本集中预测得到的瓦斯浓度值,y为瓦斯浓度实际值。
3 LSTM多传感器耦合瓦斯预测模型
瓦斯浓度的预测模型实质上就是利用现有数据通过运算为得到未来时间段的瓦斯变化趋势而建立的一种数学映射[14]。本文将瓦斯浓度历史数据及经Pearson相关系数法分析提取的瓦斯浓度关联因素监测数据进行多变量相空间重构后作为LSTM网络的输入参数,实现基于LSTM网络的多传感器信息瓦斯浓度动态预测。
3.1 模型预测流程
Step 1 数据预处理。随机抽取综采工作面历史瓦斯浓度及其相关影响因素时间序列数据,利用数据平滑法进行去噪,排除干扰;
Step 2 数据相关性分析。利用1.1节所述的Pearson相关系数法对采集数据进行关联程度强弱判断,得出模型输入参数。
Step 3 多变量相空间重构。运用1.2节方法对瓦斯浓度历史数据及其确定的强关联因素进行多变量空间重构,形成训练样本Y p(x)。
Step 4 构建LSTM网络预测模型。采用随机搜索算法对模型超参数进行优化处理,获取最合适的瓦斯浓度预测模型超参数组合;
Step 5 模型训练。按照同比例划分训练集和验证样本集,对所建模型进行训练,并经全连接层(FC)获得单步瓦斯浓度预测结果;
Step 6 实现多步预测。利用已经训练好的预测模型进行多步延伸滚动预测。
Step 7 误差分析。利用误差评价指标,将预测值与实际值进行对比分析,评价预测模型单步及多步预测性能。
3.2 多传感器预测模型结构
本文选用FC全连接层作为瓦斯浓度预测值的输出,将末层LSTM网络单元的输出映射为一维向量即为所求值,所建立的基于深度LSTM网络的多传感器瓦斯浓度预测模型结构如图3所示。
图3 基于LSTM网络的多传感器瓦斯浓度预测模型结构图
3.3 预测模型评价指标
为分析预测模型的预测精度及泛化能力,选用RRMSE(相对均方根误差)及MAPE函数值(平均绝对百分误差)作为评价
指标,其表达式为:
式中:N为瓦斯浓度数据测试集预测点个数;y i为瓦斯浓度数据测试集合中的实际瓦斯浓度值;^y i为瓦斯浓度数据测试集中瓦斯浓度预测值。
4 算例研究
本文实验数据来源为山西焦煤官地矿的16403综采工作面KJ90N煤矿安全监测系统,每隔2 min采集煤矿不同矿点的多传感器信息,获取大量瓦斯浓度及其相关联数据。
4.1 多传感器数据相关度分析
运用统计分析软件利用1.1节Pearson相关系数法对井下空气流速、压力、温度、湿度、CO浓度、氧气浓度时间序列数据与瓦斯浓度时间序列数据进行相关性分析,结果如表1所示。
表1 瓦斯浓度影响因素相关性分析
Pearson相关系数的绝对值越大,表明两个元素之间的相关性越强。从表1可看出,井下空气流速与瓦斯浓度相关度最大,而温度、CO浓度次之,压力、氧气浓度、湿度因素与瓦斯浓度相关程度较低。所以,本文选择瓦斯浓度、空气流速、温度、CO浓度因素形成多传感器耦合源数据作为预测模型的输入参数。需要说明,不同煤矿环境的瓦斯浓度与各影响因素的相关性存在差异。
4.2 实验数据预处理
选取2019年10月13日某时段400个采样点的瓦斯浓度及同时段连续时间序列的CO浓度温度、空气流速等采集数据作为研究数据,形成瓦斯浓度多传感器耦合数据作为训练集,将其接续时间段的120条瓦斯浓度数据选作测试集。由1.2节C-C关联积分法分别求得瓦斯浓度、空气流速、温度、CO浓度序列相空间重构参数如表2所示。
表2 多传感器信息相空间重构参数
按照1.2节式(3)进行多传感器数据相空间重构得出各相点,对重构后的相空间选用Wolf方法得出其最大Lyapunov指数值为0.0587>0,验证其混沌特性,最终形成400组瓦斯浓度多传感器信息耦合序列,可实现瓦斯浓度的短期预测。
4.3 预测模型超参数优化
本文采用随机搜索算法重点搜索LSTM模型中Rlearing及Sbatch,其设置有助于提升LSTM预测模型训练收敛速度及预测精准度,Rlearing采用指数下降方式,搜索范围为{1e-4,5e-4,5e-3,1e-2},而LSTM网络层数及其隐藏层神经元数根据经验可在较小的范围内搜索[15],网络层数搜索范围为{2,3},Nhidden搜索范围为{10,20,40,60,100},为防止训练出现过拟合问题,Sbatch搜索范围设置为{16,32,64,128,256},训练过程中loss函数值最小的一组超参数作为最终预测模型超参数组合,以下网络结构比较均在实验得出的最优Rlearing及Sbatch条件下进行,其超参数选取情况为表3。
表3 模型超参数选择结果
4.4 实验结果分析
4.4.1 单变量与多变量预测模型性能对比
为验证本文所提出基于LSTM的瓦斯浓度多传感器信息耦合预测模型预测性能的优异性,将其与仅依据历史瓦斯浓度时间序列这一单一变量及依据瓦斯、空气流速、压力、温度、CO浓度、氧气浓度、湿度7个变量进行瓦斯浓度预测的LSTM预测模型进行性能对比,所得结果如图4所示。
图4 不同输入变量模型损失函数对比
由图可知,单输入变量预测模型的收敛性较差;而7输入变量预测模型由于引入了较多影响因素造成其模型收敛性能劣于强关联因素4输入变量所构建的预测模型,也就是说强关联因素的输入有助于提高LSTM预测模型的预测性能,而弱关联因素的输入反而会降低其预测性能,验证了经相关性分析确定模型输入变量进而建立多传感器预测模型的必要性。
4.4.2 单步预测结果分析
本节选用时序数据预测领域常用的ARMA、ANN两种方法建立瓦斯预测模型与本文所建立的LSTM瓦斯浓度预测模型的单步预测精度进行对比,首先将多传感器信息耦合序列进行平稳化处理,即对其进行二阶有序差分变换作为ARMA时序模型的输入,构建ARMA(6,2)时序预测模型;ANN模型选用具有单隐藏层结构的前馈神经网络,并选用sigmoid函数作为隐藏层激励函数,对耦合数据进行归一化处理作为输入,网络预测完成后对其反归一化处理作为输出,其输入层节点数为6,隐藏层节点数为7,输出节点为1。
各模型单步预测结果对比如图5所示。
图5 多种模型单步预测结果对比
由图5可以看出,采用本文所建立的基于LSTM的瓦斯浓度多传感器信息耦合预测模型进行单步预测得到的浓度预测值和瓦斯浓度的实际值间整体拟合性更优,与其他两种模型相比更预测结果更接近瓦斯浓度的实际真实值。各预测模型误差指标结果为表4所示。
表4 各预测模型误差指标对比
从图表中可以看出,LSTM瓦斯浓度预测模型相较于ARMA及ANN模型,其RRMSE指标分别降低了46.8%和50.2%,MAPE%指标分别降低了33.8%和50.1%,且预测耗费时间少于其他两种模型,仅为1.29s,验证了本文所建立模型在保证高预测精度的同时,具有预测效率较高的优异特性。
4.4.3 多步滚动预测结果分析
为实现本文所建模型外推滚动预测功能,验证模型具有较好的鲁棒性,通过将瓦斯浓度预测的单步预测结果作为历史数据再次输入历史监测数据,形成多步预测模型的新输入序列,可实现瓦斯浓度的多步外推预测,使模型在多步动态预测方面仍保持较高的预测精度与预测效率。对以上相同3种模型进行2~5步滚动预测,得出预测误差结果如表5所示。
表5 2~5步预测结果误差指标对比
其误差指标随预测步数变化结果如图6所示。
由图6可以看出由于多步滚动预测有不可避免的误差积累,模型的预测精度均有下降的趋势,但对比ARMA及ANN瓦斯浓度预测模型,LSTM模型在预测步数达到5步时,其RRMSE指标分别降低了42.5%和40.0%,MAPE%指标分别降低了32.5%和40.6%,说明本文所提出的基于LSTM的多传感器瓦斯浓度预测模型在多步滚动预测中具有较好的鲁棒性,依然保持极佳的预测性能。
图6 1~6步预测结果误差
5 结论
文本首先采用Pearson相关性分析法判断不同瓦斯浓度影响因素与其自身变化关联程度,实现预测模型输入参数的有效信息挖掘,进而减轻建立预测模型的复杂性、提升模型训练效率,并对其进行多变量相空间重构,利用深度LSTM网络动态时序建模的优越性,选用随机搜索算法作为LSTM网络超参数寻优算法,建立基于最优LSTM网络参数的多传感器瓦斯浓度预测模型,对回采工作面瓦斯浓度序列进行仿真实验,结果表明此模型能够充分利用多传感器信息,在单步及多步滚动预测较其他方法具有更高的预测精度与预测效率,为实现井下回采工作面瓦斯浓度的高效精准预测提供可靠的技术支持。