APP下载

基于链式多重插补的WOA-ELM煤与瓦斯突出预测模型*

2022-08-10温廷新苏焕博

中国安全生产科学技术 2022年7期
关键词:适应度瓦斯准确率

温廷新,苏焕博

(辽宁工程技术大学 工商管理学院,辽宁 葫芦岛 125105)

0 引言

随着煤矿开采深度和强度不断增加,高瓦斯、高地应力作用下引起的煤与瓦斯突出动力灾害事故频发[1]。该类事故作为煤矿开采过程中1种极其复杂的瓦斯动力现象,是破坏力极强、危害性极大的灾害之一,伴随着大量瓦斯涌出,严重威胁到矿工的健康和安全,造成采掘设施破坏,影响煤矿的安全生产[2-3]。因此,如何科学、准确地预测煤与瓦斯有、无突出危险性对煤矿的安全生产具有重要意义。

关于煤与瓦斯突出预测问题,国内外学者开展了大量研究[4-8]。传统方法主要包括钻屑指标、综合因素预测、地球动力学划分等。随着煤矿精准智能开采概念的提出,研究者越来越多地关注数学模型预测方法[4-5]。郑晓亮等[4]提出采用数据挖掘多重填补(Multiple Imputation,MI)方法填补缺失数据,并将填补后数据采用支持向量机(Support Vector Machine,SVM)预测煤与瓦斯突出;Ru等[5]首次提出利用相关系数实时填补缺失数据,根据Pauta准则完成异常数据识别,处理后利用随机森林(Random Forest,RF)模型实现煤与瓦斯突出预测。近年来,数据挖掘技术快速发展,学者们提出了很多改进算法,试图在现有数据基础上提高煤与瓦斯突出预测性能[4],He[6]建立的粒子群优化算法(Particle Swarm Optimization,PSO)优化反向传播(Back Propagation,BP)算法预测模型;韩永亮等[7]的遗传算法(Genetic Algorithm,GA)优化极限学习机(Extreme Learning Machine,ELM)预测模型;谢国民等[8]采用果蝇优化算法(Fruit Fly Optimization Algorithm,FOA)优化支持向量机建立预测模型等。上述模型均显著提高了煤与瓦斯突出的预测精度,然而仍存在部分可改进的内容:现有预测模型大多默认的数据集是完整的,而在数据传输和融合过程中,数据易丢失,且部分有突出的数据难以收集,数据存在缺失,导致可用有突出数据太少,其预测精度易受原始数据的影响。整体上看,对煤与瓦斯有、无突出危险性预测时,对数据集优化预测精度的提高通常会高于对算法改进带来的提高,但单独对数据集优化或对算法改进均很难避免方法自身局限性,影响模型预测效果。GA算法优化函数需调节参数较多,其收敛速度有待提高,PSO,FOA算法收敛速度快但易陷入局部最优;采用SVM,BP等算法预测,泛化能力较弱,一定程度上降低预测性能。

鉴于此,本文拟提出1种链式支持向量机的多重插补(Multiple Imputation by Chained Support Vector Machine,MICE_SVM)方法对煤与瓦斯突出预测数据集中缺失数据进行插补,高精度地增大可用数据集;选用跳出局部最优能力较强的鲸鱼优化算法(Whale Optimization Algorithm,WOA)优选极限学习机(Extreme Learning Machine,ELM)的输入层权值及隐含层阈值,提高全局搜索能力并加快收敛速度,提高算法的泛化能力,即将数据集优化和算法改进结合使用,建立基于MICE_SVM-WOA-ELM的煤与瓦斯突出预测模型,与其他模型对比分析,验证该模型的有效性及稳定性,以期为煤与瓦斯突出预测方面提供1种新的方法。

1 理论基础与模型构建

1.1 MICE_SVM

科学研究中,数据缺失会减少原始数据有价值的信息量,导致估计效率降低,易得出误导性结论[9],是需要解决的主要问题之一。对于煤与瓦斯突出数据,由于实际事故发生次数较少,部分指标数据难以收集,为增大可用数据集,提高煤与瓦斯突出预测准确性,对缺失数据插补显然是不可忽略的。

缺失数据插补是最常用于处理缺失数据集问题的方法,常用的插补技术分为基于统计分析和基于机器学习2种类型。在统计分析领域,学者们做了大量的研究工作,并提出了许多有效的插补方法[4]。链式方程多重插补(Multiple Imputation by Chained Equations,MICE)方法就是其中1种,该方法是1种特殊的多重插补技术,链式方程则是一个形象称谓,实际上具体算法由一系列模型组成,任何能够推理的预测模型都可作为插补模型用在MICE中[10]。理论上,众多方法中多重插补是最完善的,但并没有1个多重插补算法适用于所有缺失问题,需对具体问题提出合适的插补算法[10]。对煤与瓦斯突出预测中缺失数据插补时,是通过数据集中其他指标数据预测有效值,当指标数据出现异常值时,会缺乏处理能力,影响预测有效值的效果。机器学习中,SVM在回归任务中通过将新的个体映射到同一高维空间中,并基于它们落在最大间隔超平面内来预测有效值[9],使其受到异常的噪声数据影响较小,且文献[11]表明运用模型与多重插补相结合的方法插补效果更好。因此,选用SVM作为插补模型,应用到MICE中,构造MICE_SVM缺失数据插补算法,其插补过程如图1所示。

图1 MICE_SVM方法插补过程

由图1可知,MICE_SVM算法插补过程包含插补、分析和汇总3个步骤,具体过程:

步骤1:svm.svr()函数利用非缺失数据对原始矩阵中的缺失值进行插补得到m个(默认m=5)完整数据集。

步骤2:with()函数分别对每个完整集采用数据分析方法分析,得到不同的结果列表。

步骤3:pool()函数将上一步得到的结果按照最优原则整合为1组结果,得到最终的完整数据集。

1.2 ELM

ELM是1种基于前馈神经网络的学习算法。该算法随机初始化所有输入层与隐含层间连接权值w及隐含层神经元阈值b,选择任意1个激活函数计算隐含层输出,通过简单的矩阵计算确定隐含层与输出层间连接权值。传统前馈神经网络是通过梯度下降法更新参数,计算复杂度高,学习速度慢,与其相比较,ELM学习速度更快,计算复杂度低,泛化性能高。然而,ELM的w和b是随机生成的,在对煤与瓦斯突出预测时,其泛化能力不足以处理训练过程中未出现的非线性复杂样本,故拟选用操作简单、参数优化效果较好的WOA算法优化选取ELM的w和b,进一步提高ELM对煤与瓦斯突出预测效果。

1.3 WOA

WOA是基于座头鲸气泡网狩猎行为推演出的1种寻求全局最优化的群体智能算法。气泡网狩猎行为融合了座头鲸收缩包围猎物和螺旋狩猎2种方式的局部开发能力,以及随机搜索猎物的全局寻优能力。与其他智能优化算法比较,WOA算法操作简易、需调整的参数少、跳出局部最优的能力强、收敛速度快,且能够提升优化后算法效果,在函数优化方面具有一定优势。利用WOA对ELM的w和b进行优化,将每条鲸鱼个体看作1种优化策略,将鲸鱼位置维度设置为ELM算法待优化的参数数目,在鲸鱼不断更新自身位置的过程中得到ELM算法的最优参数组合。

1.4 基于MICE_SVM的WOA-ELM煤与瓦斯突出预测流程

WOA算法优选ELM参数的步骤为:

1)设定ELM隐藏层神经元数目l,隐藏层激活函数f(x),随机初始化输入层权值w和隐藏层阈值b。

2)设置WOA算法参数,包括种群规模S,最大迭代次数t和鲸鱼个体空间维度K等参数。

3)随机初始化种群各个体二维位置,其位置是有关ELM参数w和b的K维向量,如式(1)。

K=g×l+l

(1)

式中:K为待优化参数个数;g为输入层神经元个数。

4)令鲸鱼种群迭代次数t=0,选用均方误差作为适应度函数如式(2),计算初始鲸鱼种群中各个体的适应度值并进行比较,选取适应度值最小的个体所代表的状态记作Wbest。

(2)

式中:k为第k个训练集样本;N为训练集样本数目;M为类别数目;yk为预测值;ck为实际值。

5)将迭代次数加1,更新WOA算法参数A,C等值,产生一个[0,1]区间内的随机数p。分别计算每个个体下一步的位置,当|A|<1,p<0.5时,则通过对猎物包围来更新位置如式(3);当|A|<1,p≥0.5时,则个体螺旋式更新位置如式(4);反之,当|A|≥1时,则个体根据式(5)随机搜索猎物。计算上述3种行为对应的适应度值并比较,选取最优适应度值对应的最佳位置作为鲸鱼个体下一个位置,同时更新种群中最优个体所代表的状态Wbest,i,并与Wbest进行对比,更新Wbest。

X(t+1)=X*(t)-A·|CX*(t)-X(t)|

(3)

X(t+1)=D′eblcos(2πl)+X*(t)

(4)

X(t+1)=Xrand-A·|CXrand-X(t)|

(5)

式中:D′表示包围猎物阶段步长;X(t+1)表示下一次迭代后候选解的位置向量;t为当前迭代次数;X*(t)表示当前最优解的位置向量;X(t)表示当前候选解的位置向量;A和C为系数向量;D′=|X*(t)-X(t)|;b为常数,定义了对数螺线的形状;l为[-1,1]间的随机数;Xrand为随机位置向量。

6)个体迭代寻优,当达到最大迭代次数时,停止迭代,得到适应度值最优个体。否则,重复步骤5)。

7)输出WOA优化后的w和b,利用最优参数训练ELM,对煤与瓦斯数据集建立预测模型。

本文提出的缺失数据下基于MICE_SVM的WOA-ELM煤与瓦斯突出预测流程如图2所示。

图2 煤与瓦斯突出预测流程

2 试验分析与模型验证

2.1 影响指标选取

煤与瓦斯突出表现为1种强烈的复杂的非线性动力过程,受多种因素综合影响。其中,瓦斯含量、瓦斯压力、煤的坚固性系数等是影响煤与瓦斯突出的主要因素。煤层中瓦斯含量、瓦斯压力影响着煤与瓦斯发生突出时强度大小,瓦斯含量越高,压力越大,发生突出可能性就越大;煤的坚固性系数是用来反映煤体对抗未知外力的综合性参数指标,其值越小,则发生突出的危险性就越大。除上述介绍的影响指标外,还有其他指标,王刚等[12]指出瓦斯含量对煤与瓦斯突出的影响最大,其次是瓦斯扩散系数、瓦斯压力和孔隙率;郑晓亮[13]得到煤层坚固性系数、孔隙率和瓦斯放散初速度对瓦斯的解吸速度和是否能形成一定压力有较大影响。

综上所述,本文以淮南朱集矿区为背景,考虑到瓦斯扩散系数检测困难,且检测数值误差较大,故选用以下5个因素作为煤与瓦斯有无突出预测影响指标:瓦斯含量X1,m3/t;瓦斯压力X2,MPa;孔隙率X3,%;煤层坚固性系数X4和瓦斯放散初速度X5,mL/s。

2.2 基于MICE_SVM数据插补

选用郑晓亮[13]的淮南朱集矿实测煤与瓦斯样本数据,其中无突出71组(无缺失数据),有突出62组(有缺失数据),有突出数据统计描述见表1。

表1 原始有突出数据描述统计

62组煤与瓦斯有突出数据中,有35组无数据缺失,27组部分数据缺失。缺失数据的影响指标包括X3,X4,X5,其中指标X4缺失最多,为15组。该数据集缺失率达到了24.19%,当缺失率大于15%时,需插补处理。若仅选用无缺失的35组数据对煤与瓦斯突出进行预测,数据量少,模型训练不充分,导致预测准确率降低。本文的煤与瓦斯有突出数据的缺失为非单调缺失,利用提出的MICE_SVM方法实现缺失数据插补,而后将插补后数据用于预测模型的训练和测试。

为验证MICE_SVM插补方法更具优势,选取常用的插补方法,包括均值法(Mean)、支持向量机法(Support Vector Machine,SVM)、K最近邻法(K Nearest Neighbor,KNN)、随机森林法(Random Forest,RF)和蒙特卡罗马氏链方法(Markov Chain Monte Carlo,MCMC),与MICE_SVM方法对比。

缺失数据插补性能的评估主要基于预测准确度PAC和分布准确度DAC 2个评估指标[14]。PAC主要通过Pearson相关系数r和均方误差RMSE来验证插补效果,其中,r用来度量插补结果值与实际值间的差异,r接近1,表明插补技术是有效的;RMSE则用来描述插补结果值与真实值间的密切关系,RMSE值越小,表明插补效果越好[14]。DAC则表示维持数据值真实分布的能力,使用Kolmogorov-Smirnov距离评估,将K-Sstatistic和K-Sp-value统计量作为参考分布的累积分布函数间的距离,若K-Sstatistic很小或K-Sp-value很大,则表明缺失数据插补前、后具有相同的分布,插补效果更好。6种插补方法评估指标结果比较见表2。

由表2可知,MICE_SVM插补方法的PAC和DAC 2个评估指标结果均最优。结果表明:MICE_SVM方法对煤与瓦斯突出中缺失数据插补更具优势。

表2 不同插补方法的效果对比

2.3 WOA-ELM模型参数优化

WOA-ELM模型的参数设置:S为50,t为100,K为90,激活函数选用Sigmoid函数。优化选取ELM隐藏层神经元数目对提高ELM算法预测准确率至关重要,隐藏层神经元数目过多或过少,均会影响ELM的学习能力。故借鉴“试错法”思想,采用不同的隐藏层神经元数目训练ELM,其取值区间为[1,30],分别计算对应训练集的均方误差并进行比较。为提高模型预测准确率,快速收敛到最优值,最终选取的最优隐藏层神经元数目l为15。

为验证WOA优化算法可有效提高全局搜索能力并加快收敛速度,采用GA,PSO和WOA分别优化ELM,寻优迭代100次,其适应度值变化情况如图3所示。其中GA的参数设置:S=50,t=100,K=5、交叉概率为0.8、变异概率为0.05;PSO参数设置:S=50,t=100,K=5,c1为1.5,c2为2.5。

图3 GA,PSO与WOA优化ELM的适应度对比

由图3可知,PSO-ELM较GA-ELM收敛速度更快,且具有更小的适应度值;WOA-ELM较PSO-ELM具有跳出局部最优能力更强的优势,且以更快的速度收敛到最小的适应度值0.035 2,提高了全局寻优能力,表明WOA优化ELM优势明显。

2.4 突出预测

为验证MICE_SVM方法插补数据的有效性,构造插补前和插补后2种试验数据集,采用ELM算法分别对2种数据集预测并比较预测结果,将试验数据集随机划分为80%训练集和20%测试集。插补前,无突出71组,无缺失的有突出35组,从中分别随机选取57组和28组用于算法训练,其余数据用于测试。插补后,无突出数据71组,有突出数据62组,从中分别随机选取57组和49组用于算法训练,其余数据用于测试。随机选取易导致每次训练和测试样本不同,会对结果造成较大差异,为减小试验误差,重复试验20次,结果取均值[7]。数据插补前、后煤与瓦斯有、无突出的预测结果见表3。

由表3可知,缺失数据插补前、后,整体数据集的平均预测准确率分别为89.77%和90.93%,均方误差分别为0.102 3和0.090 7,前、后变化均不大。其具体预测结果,插补后,无突出的平均准确率为92.15%,与插补前对比变化不大;而有突出数据的平均准确率为90.41%,明显大于插补前的83.02%。结果表明,MICE_SVM算法可高质量增大可用数据集,对包含缺失值的有突出数据的预测准确率提升效果明显,对无突出数据预测准确率和整体预测准确率提升效果不大。

为验证WOA优化ELM算法可提高煤与瓦斯有、无突出预测准确率的有效性,按照上述数据集划分,分别采用MICE_SVM-ELM和MICE_SVM-WOA-ELM这2个模型训练与测试并进行对比,重复试验20次,最终结果取均值。2种模型预测效果如图4所示(0表示无突出,1表示有突出)。

图4 数据插补后不同模型预测效果

由图4可知,采用MICE_SVM-WOA-ELM模型对27组测试集数据预测结果只有1个样本与实际情况不相符,而MICE_SVM-ELM模型的预测结果有3个样本不相符。结果表明,WOA优化算法可有效提高ELM算法预测性能,即提高无突出和有突出样本预测效果以及整体数据的预测准确性。

2.5 ELM和其他算法预测效果对比分析

为验证WOA-ELM在煤与瓦斯有、无突出危险性预测方面较其他模型具有优势,使用Python语言实现KNN,SVM和ELM这3种常用算法,并将预测结果与WOA-ELM模型对比。模型1~7分别代表KNN,SVM,ELM,MICE_SVM-KNN,MICE_SVM-SVM,MICE_SVM-ELM,MICE_SVM-WOA-ELM,模型1,2,3分别为KNN,SVM,ELM预测插补前数据集,即无突出数据71组,无缺失有突出数据35组,从中分别随机选取57组和28组训练模型,其余数据测试训练好模型;模型4~7分别为KNN,SVM,ELM,WOA-ELM算法在插补后数据集上预测,即无突出71组,有突出62组,从中分别随机选取57组和49组训练模型,其余数据测试。其中KNN参数n_neighbors=5;SVM参数kernal=‘rbf’,c=1.0,gamma=0.2。试验均重复20次,结果取均值,不同模型预测结果见表4。

表4 不同模型预测结果比较

由表4可知,对缺失数据插补前,无突出数据71组,有突出数据35组,无突出数据的数据量明显多于有突出数据的数据量,其预测结果易倾向于数据量较多的无突出数据组,使其预测准确率更高。将模型1,2,3的预测结果对比可知,ELM受不同类别数据量不平衡的影响最小,在有突出数据偏少的情况下,其预测准确率为83.02%,明显高于KNN的66.53%和SVM的73.70%;将模型1,2,3和模型4,5,6的预测结果对比可知,MICE_SVM插补缺失数据前、后,采用KNN,SVM和ELM预测,对有突出的预测准确率提高均很显著,但对整体的预测准确率提高不明显;将模型4,5,6,7的预测结果对比可知,WOA-ELM模型对插补后的数据集预测准确率最高,说明WOA优化算法可显著提高ELM算法的预测性能。由此可知:MICE_SVM-WOA-ELM模型在煤与瓦斯有、无突出危险性预测方面具有更好的预测效果和泛化能力。

3 结论

1)提出1种MICE_SVM方法对有突出数据缺失值插补方法,与Mean,SVM,KNN,RF和MCMC对比,MICE_SVM方法的PAC和DAC 2个评估指标结果均优于其他方法。对缺失数据插补前、后,分别采用ELM算法预测插补前、后的有突出预测准确率分别为83.02%,90.41%,插补后较插补前准确率提高了7.39%,结果表明MICE_SVM显著提高了有突出预测准确率,是1种有效的缺失数据插补算法。

2)不同的分类算法对煤与瓦斯有、无突出危险性预测准确率不同,插补前、后,相比于KNN和SVM,ELM的预测准确率均更高,整体预测准确率分别为89.77%,90.93%。

3)缺失数据插补后,选用WOA优选ELM算法的输入层权值及隐藏层神经元阈值,建立最佳预测模型,对无突出、有突出和整体的预测准确率分别为97.94%,96.25%,96.48%,较优化前的ELM算法的准确率分别提高了5.79%,5.84%,5.55%,结果表明:WOA-ELM模型对无突出、有突出和整体的预测准确率均有提高,WOA可有效提高ELM算法的预测性能。

猜你喜欢

适应度瓦斯准确率
改进的自适应复制、交叉和突变遗传算法
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
2015—2017 年宁夏各天气预报参考产品质量检验分析
颈椎病患者使用X线平片和CT影像诊断的临床准确率比照观察
矿井瓦斯涌出量预测
11采区永久避难硐室控制瓦斯涌出、防止瓦斯积聚和煤层自燃措施
启发式搜索算法进行乐曲编辑的基本原理分析
高瓦斯矿井防治瓦斯异常涌出措施的应用
基于人群搜索算法的上市公司的Z—Score模型财务预警研究