APP下载

基于PCA-BO-XGBoost的矿井回采工作面瓦斯涌出量预测

2022-05-06王媛彬李媛媛韩骞李瑜杰周冲

关键词:主成分分析法

王媛彬 李媛媛 韩骞 李瑜杰 周冲

摘要:针对矿井回采工作面瓦斯涌出量预测精度欠佳的问题,建立基于极端梯度提升(XGBoost)瓦斯涌出量预测模型。首先,为解决瓦斯涌出量影响因素维数高和信息冗余等问题,在预测模型中引入主成分分析法(PCA)对11种影响因素降维。其次,通过贝叶斯优化算法(BOA)对XGBoost中超参数进行优化以提高预测模型的精度。最后,将训练集数据作为预测模型的输入进行训练,利用训练好的模型对测试集数据进行验证,并与传统的BP神经网络和支持向量机进行对比。结果表明:PCA-BO-XGBoost模型的平均绝对误差为0.070 3,均方根誤差为0.095 7,能够满足对瓦斯涌出量预测的精度要求。与其他机器学习算法相比,建立的模型预测精度更高、耗时更短、效率均更高,对煤矿井回采工作面瓦斯涌出量的预测精度和效率提升具有借鉴作用。

关键词:瓦斯涌出量预测;XGBoost算法;主成分分析法;贝叶斯优化;超参数

中图分类号:TD 76文献标志码:A

文章编号:1672-9315(2022)02-0371-09

DOI:10.13800/j.cnki.xakjdxxb.2022.0223开放科学(资源服务)标识码(OSID):

Gas emission prediction of the stope in coal mine

based on PCA-BO-XGBoostWANG Yuanbin,LI Yuanyuan,HAN Qian,LI Yujie,ZHOU Chong

(College of Electrical and Control Engineering,Xian University of Science and Technology,Xian 710054,China)

Abstract:In order to solve the problem of poor prediction accuracy of gas emission in the stope,a prediction model based on extreme Gradient Boosting was established.For the influencing factors from gas emission such as high dimension and information redundancy,principal component analysis was introduced into the prediction model firstly to reduce the dimension.Secondly,the hyper parameters in XGBoost were optimized by Bayesian optimization algorithm to improve the prediction accuracy.Finally,the data of the training set was utilized as the input of the prediction model for training,and the trained model was employed to verify the data of the test set,and it was compared with the traditional BP neural network and support vector machine.The results show that the mean absolute error of PCA-Bo-XGBoost model is 0.070 3,and the root mean square error is 0.095 7,which can meet the accuracy requirements of gas emission prediction.Compared with other machine learning algorithms,the model established in this paper is higher in prediction accuracy,less in time-consuming and stronger in efficiency,which has great significance for the improvement of the prediction accuracy and efficiency of gas emission in the stope.

Key words:gas emission prediction;XGBoost algorithm;principal component analysis;Bayesian optimization;hyperparameter

0引言

煤炭是中国重要的能源[1],随着人类对煤炭资源的开采和使用,浅部地区的煤炭资源逐渐减少[2],埋深地下千米的煤炭将会成为往后开采的重要目标[3]。然而面对煤层瓦斯赋存环境更加复杂、瓦斯复合灾害更加严重以及开采难度更高的局面,准确预测深部矿井的瓦斯涌出量成为亟需解决的问题[4]。

在煤矿的开采过程中,回采工作面是矿井瓦斯涌出的主要来源,最易发生安全事故,尤其是工作面的隅角处通风效果差、温度和湿度较高,容易积聚瓦斯,被看作是瓦斯的重点防治区域。而瓦斯防治的首要目标是将瓦斯浓度控制在安全合理的范围以下,所以精准地预测瓦斯涌出量并实时根据瓦斯浓度采取相应的抽采措施,能够有效降低事故发生概率、减少人员伤亡和财产损失。因此,对回采工作面瓦斯涌出量预测方法的研究具有重要的意义。为此,众多学者对瓦斯预测进行深入的研究,旨在减少甚至是避免瓦斯事故的发生,为煤矿安全生产起理论指导作用[5]。

传统的煤矿瓦斯涌出量预测方法有分源预测法、矿山统计法等[6-7]。随着计算机技术的发展,在瓦斯涌出量预测方面,出现一些新的预测方法。如:灰色系统[8]、BP神经网络方法[9]、支持向量机方法[10]等。徐刚等人提出基于因子分析法和BP神经网络的预测方法对工作面瓦斯涌出量进行研究[11]。刘鹏等人针对CART决策树稳定性差的问题,对CART决策树进行改进,提出一种结合支持向量机的增强CRAT回归算法,并将该方法应用于瓦斯涌出量用预测,取得较好的效果[12]。肖鹏等人为提高瓦斯涌出量预测的精度,提出将小波包分解方法和極限学习机相结合,建立小波-极限学习机的瓦斯涌出量预测模型,为瓦斯涌出量时变序列的预测提供了新的思路[13]。温廷新等人将BP神经网络、粒子群优化算法(PSO)以及AdaBoost迭代算法相结合建立一种瓦斯涌出量分源预测模型,经实验分析该模型的平均相对误差要小于BP神经网络预测模型[14]。丰盛成等人为了准确预测回采工作面的瓦斯涌出量,提出PCA-PSO-LSSVM的瓦斯涌出量预测模型[15]。代巍等人将变分模态分解(VMD)方法、差分进化(DE)算法以及相关向量机(RVM)相结合,提出基于VMD-DE-RVM的瓦斯涌出量区间预测方法,获得较高的预测结果[16]。李树刚等人构建因子分析与BP神经网络相结合的瓦斯涌出量预测模型,实现对煤矿井下瓦斯涌出量的预测[17]。

综上所述,大量学者对瓦斯涌出量进行研究,在预测精度和效率方面都有所提高。但是仍存在以下两方面不足:一方面是煤矿井下环境较复杂且影响瓦斯涌出量的因素具有非线性的特点,使得预测精度的提高受到一定限制。另一方面是BP神经网络本身存在收敛速度慢和易陷入局部最优解等问题,导致预测精度不高。因此有必要在前人研究的基础上继续探索新的预测方法对瓦斯涌出量进行预测。针对瓦斯涌出量的因素具有非线性的特点,文中利用主成分分析法(principal component analysis,PCA)进行原始数据降维,提取瓦斯涌出量数据的特征信息;针对神经网络精度欠佳的问题,建立极端梯度提升(extreme gradient boosting,XGBoost)瓦斯涌出量预测模型;针对XGBoost模型中超参数难以确定的问题,将贝叶斯优化(bayesian optimization,BO)算法引入XGBoost中,建立BO-XGBoost预测模型,并且与随机搜索和网格搜索所建立的模型进行对比分析,验证贝叶斯优化模型在泛化性能和预测精度上具有优势。最后将PCA和BO-XGBoost相结合,建立PCA-BO-XGBoost的瓦斯涌出量预测模型。

1主成分降维

主成分分析法(principal components analysis,PCA)的基本思想是通过对存在线性关系的特征变量经过线性变换组合成少数几个特征变量,变换后的特征变量叫做主成分。每个主成分都是通过对原始变量线性组合得来的,且各主成分之间是没有相关性的,虽然主成分的数量要少于原始的变量特征,但是主成分包含了原始数据的大多数信息,因此可以做到简约数据的作用,尤其是对较高维度的数据。假设有n个数据样本,每个数据样本都有m维的特征,则可以建立m×n阶的数据矩阵为

笔者利用主成分分析法对瓦斯涌出量数据进行降维处理,具体步骤如下。

1)对瓦斯涌出量的数据进行中心化处理。

2)计算样本的协方差矩阵。

3)计算协方差矩阵的特征值和特征向量。

4)选择主成分的个数,论文按照累计贡献率超过85%的选取原则选择主成分。

5)根据计算出的特征向量写出主成分的表达式。

2预测模型的构建

2.1XGBoost算法原理

XGBoost是一种由多个弱学习器叠加训练而成的集成算法[18],弱学习器一般指分类和回归树。XGBoost中每棵树拟合的是前一棵树与真实值之间的残差,依次迭代直至达到停止条件,最后对所有树的拟合结果累计求和值,得到最终的预测结果。

在使用XGBoost模型进行预测的过程中,如果训练数据太多,需要先进行数据筛选或通过降维方法来剔除无效数据,减少特征数量,否则模型容易过度拟合;相反,如果变量太少,容易产生欠拟合现象。因此,数据样本的多少对预测结果的精度至关重要。

2.2贝叶斯优化

贝叶斯优化算法(bayesian optimization algorithm,BOA)是基于概率学中“贝叶斯理论”的一种黑盒优化算法。BOA在运行某一组超参数时,会考虑前一组超参数的优化结果,以此可以更有效地得到最优的参数解。有2个核心部分,分别是先验函数(prior function,PF)和采集函数(acquisition function,AC)。文中的先验函数采用高斯过程,采集函数采用概率提升(probability of improvement,PI)函数来提高模型的泛化能力。贝叶斯优化流程如图1所示。

2.3瓦斯涌出量预测流程

建立基于PCA-BO-XGBoost的瓦斯涌出量预测模型具体的算法步骤如下。

1)瓦斯涌出量数据的预处理。利用公式(1)~(3)对11种影响瓦斯涌出量的因素进行降维处理,并把降维后的数据分为训练集和测试集。

2)确定预测模型中的超参数值。设置XGBoost模型中待确定的超参数寻优范围,在此基础上笔者采用BAO对超参数进行寻优以确定最佳的超参数。

3)训练XGBoost预测模型。根据上一步骤中寻优的结果,设置XGBoost模型中超参数的值,同时将训练集数据输入到XGBoost模型中,以此得到训练好的瓦斯涌出量预测模型。

4)瓦斯涌出量预测。根据第3)步得到的预测模型,将测试集数据输入到该模型,得出预测的结果,并对该结果进行分析和评价。

基于PCA-BO-XGBoost的瓦斯涌出量预测流程如图2所示。

3.1瓦斯涌出量数据降维

实验数据采用黄陵二号矿的历史样本数据,随机采样130组样本构成测试集,其中每个样本包括了11种瓦斯涌出量影响因素。瓦斯涌出量的影响因素众多,例如开采煤层瓦斯含量、开采技术、地面大气压变化等,文中采取最主要的2种因素,即地质因素和开采技术因素,其中地质因素包括煤层埋藏深度、煤层厚度、煤层瓦斯含量、煤层倾角、邻近层瓦斯含量和煤层间距;开采技术因素包括日进度、日产量、采高、工作面采出率和工作面长度。部分原始数据见表1。煤层埋藏深度X1(m)、煤层厚度X2(m)、煤层瓦斯含量X3(m3/t)、日进度X4(m/d)、日产量X5(t/d)、煤层倾角X6(°)、邻近层瓦斯含量X7(m3/t)、煤层间距X8(m)、采高X9(m)、工作面采出率X10(%)、以及工作面长度X11(m),预测的目标为绝对瓦斯涌出量Y(m3/min)。

表2是选取不同数量的影响因素进行预测后产生的结果与原始数据之间的误差对比。可以看出,影响因素减少,模型预测精度会随之降低。对于11种瓦斯涌出量影响因素本身存在的数据重复、冗余问题,进行相关性分析,得到各因素之间的相關系数矩阵见表3。表3展示了瓦斯涌出量的影响因素间的相关性大小,不同因素间存在相关性大小不同,如果直接使用上述数据对瓦斯涌出量进行预测势必会增加预测模型的复杂度。因此,需要对原始数据预处理,从而达到精简影响因素的目的。主成分分析法作为数据降维最常用的方法之一,在瓦斯涌出量预测领域中运用比较广泛。与其他算法相比,PCA在数据处理上降维效果明显,且处理时间较短,实用性较强。因此,笔者利用主成分分析法对11个影响工作面瓦斯涌出量的因素进行数据降维,得到的主成分对不同的影响因素分配不同的权重系数,选择满足要求的主成分个数,即预测模型的输入变量,并将这些输入变量继续作为后续工作中学习器的输入。降维后的结果如图3所示,各成分累计的方差贡献率见表4。

当主成分贡献率累计值达到85%以上,能够保证降维后的变量包含充分的原始信息。为了更充分地保证信息量,笔者在85%的基础上选取贡献率达到90%的主成分进行后续分析。由表4可知,前5个主成分的累计方差贡献率分别为61307%,73.970%,81.277%,87.878%,91541%,前5个主成分的累计方差贡献率超过90%,实验结果表明PCA对数据降维有明显效果,能够减少各因素之间的相关性所带来的影响,减少计算。因此,选取前5个主成分进行后续分析,各主成分的系数见表5,F1~F5为降维后的5个主成分。

5个主成分是对11个瓦斯涌出量影响因素进行线性变换得到,不会改变原始影响因素的客观存在。

3.2XGBoost超参数寻优

XGBoost模型中含有大量需要设置的超参数,最主要的3类超参数分别是:常规的超参数、提升器超参数以及任务参数。一般情况下,常规的超参数和任务参数采用默认值,所以只需要对提升器超参数进行适当调整,达到优化模型性能的目的。由于XGBoost模型中的超参数较多,如果对所有参数进行优化,会给计算机带来巨大挑战,增加寻优时间。根据文献[19-20]的建议和实际情况,最终选择7个超参数作为待寻优的目标,设定的7个超参数取值范围见表6,其余超参数均保持默认值不变。

为证明贝叶斯算法在预测模型中的优越性,笔者分别利用网格搜索、随机搜索和BOA对XGBoost模型的7个超参数进行寻优对比。综合考虑后选用均方误差和寻优时间作为寻优的评价指标,3种寻优算法的寻优结果见表7,算法性能对比结果见表8。

对表7的寻优结果进行分析,由不同寻优算法所得到的参数值相差甚大,这是随机搜索和网格搜索算法在寻优过程中陷入局部最优所导致的。结合表7和表8可知,相较于其他2种搜索算法,BOA在时间和均方误差方面上具有很大的优势,寻优时间为7.87 s,明显小于网格搜索和随机搜索,BOA的均方误差为0.009 16,同样在3种算法内达到最小。

3.3基于PCA-BO-XGBoost预测模型对瓦斯涌出量预测

由3.1小节中的PCA对130组瓦斯涌出量影响因素进行数据降维,得到的部分结果见表9。其中,F1~F5是经过PCA降维得到的5个主成分,Y代表瓦斯涌出量。将130组数据分为训练集(前100组)和测试集(后30组)输入到建立的PCA-BO-XGBoost预测模型中进行训练和预测。

为验证文中所建立的模型性能,分别建立PCA-XGBoost、PCA-BP以及PCA-SVM这3种预测模型与提出的预测模型进行对比,可以得到4种算法的预测趋势与原始数据的对比结果以及预测算法产生的误差如图4、图5所示。

从图4可以看出4种预测模型均与原始的样本数据保持大致相同的趋势,结合图5的预测误差结果进行分析,PCA-BO-XGBoost瓦斯涌出量预测模型的误差较低且总体变换趋势较为平缓。

为进一步验证PCA-BO-XGBoost模型的优越性,选取平均绝对误差和均方根误差2个评价指标进行误差对比,其结果见表10。结合表10进行分析可知,PCA-BO-XGBoost预测模型的平均绝对误差为0.070 3,是4种预测模型中最小的,与PCA-XGBoost预测模型、PCA-SVM预测模型以及PCA-BP预测模型相比,平均绝对误差分别降低129%,2.86%,6.27%。PCA-BO-XGBoost预测模型的均方根误差是0.095 7,与PCA-XGBoost预测模型、PCA-SVM预测模型以及PCA-BP预测模型相比,均方根误差分别降低0.92%,2.17%,888%。

分析上述試验结果,PCA-XGBoost模型的预测曲线要好于PCA-BP和PCA-SVM模型的预测曲线,证明XGBoost在精度提高方面更具优势。在此基础上,采用贝叶斯优化PCA-XGBoost中的超参数进一步减小了XGBoost的预测误差,对模型的预测性能有较好的提升作用,所以PCA-BO-XGBoost 预测精度要高于未经过优化的PCA-XGBoost预测精度。综上所述,建立的PCA-BO-XGBoost得到的预测变化趋势与实际变化最接近,不仅更加符合实际的变化情况,且具有更高的预测精度和泛化能力。

4结论

1)针对瓦斯涌出量影响因素过多的问题,利用主成分分析法对原始数据降维,有效减小输入数据的复杂度和各影响因素之间的重复、冗余,达到提高预测精度的目的。

2)选择BOA对XGBoost模型中的超参数寻优,同时与经典的寻优算法网格搜索,随机搜索进行对比实验,结果表明:BOA耗费时间最少,且优化后的预测模型均方误差达到最低。因此,建立了PCA-BO-XGBoost瓦斯涌出量预测模型。

3)通过仿真实验来验证瓦斯涌出量预测模型的性能,并利用PCA-SVM模型、PCA-BP模型和PCA-XGBoost模型进行预测结果的对比分析,该算法将平均绝对误差分别降低了1.29%,2.86%,627%,均方根误差降低了0.92%,2.17%,888%。实验结果表明,文中算法能够明显提升预测精度和效率,对矿井的安全生产实践提供一定的理论参考和指导,具有现实意义。

参考文献(References):

[1]刘峰,曹文君,张建明,等.我国煤炭工业科技创新进展及“十四五”发展方向[J].煤炭学报,2021,46(1):1-15.LIU Feng,CAO Wenjun,ZHANG Jianming,et al.Current technological innovation and development direction of the 14th Five-Year Plan period in China coal industry[J].Journal of China Coal Society,2021,46(1):1-15.

[2]袁亮.我国深部煤与瓦斯共采战略思考[J].煤炭学报,2016,41(1):1-6.YUAN Liang.Strategic thinking of simultaneous exploitation of coal and gas in deep mining[J].Journal of China Coal Society,2016,41(1):1-6.

[3]谢和平.深部岩体力学与开采理论研究进展[J].煤炭学报,2019,44(5):1283-1305.XIE Heping.Research review of the state key research development program of China:Deep rock mechanics and mining theory[J].Journal of China Coal Society,2019,44(5):1283-1305.

[4]吕伏,梁冰,孙维吉,等.基于主成分回归分析法的回采工作面瓦斯涌出量预测[J].煤炭学报,2012,37(1):113-116.LV Fu,LIANG Bing,SUN Weiji,et al.Gas emission quantity prediction of working face based on principal component regression analysis method[J].Journal of China Coal Society,2012,37(1):113-116.

[5]WANG H,WANG E Y,LI Z H.Study on dynamic prediction model of gas emission in tunneling working face[J].Combustion Science and Technology,2022,194(3):506-522.

[6]王晓蕾,姬治岗,谢怡婷,等.采煤工作面瓦斯涌出量预测技术现状及发展趋势[J].科学技术与工程,2019,19(33):1-9.WANG Xiaolei,JI Zhigang,XIE Yiting,et al.Present situation and development trend of gas emission prediction technology in coal face[J].Science Technology and Engineering,2019,19(33):1-9.

[7]孙海涛,付军辉,张志刚,等.煤矿采动影响下地面井群瓦斯抽采范围研究[J].煤炭科学技术,2021,49(2):109-114.SUN Haitao,FU Junhui,ZHANG Zhigang,et al.Study on gas drainage scope in surface well group under the influence of coal mining area[J].Coal Science and Technology,2021,49(2):109-114.

[8]YUAN B.Study on gas emission prediction of working face based on GM(1,1)model[J].Journal of Physics Conference Series,2020,1549(4):042031.

[9]黄贺江.回采工作面推进过程中的瓦斯涌出预测分析[J].工矿自动化,2017,43(8):90-93.HUANG Hejiang.Prediction and analysis of gas emission in advancing process of stope working face[J].Industrial and Mining Automation,2017,43(8):90-93.

[10]ZHANG L,LUO L,HU L,et al.An SVM-based classification model for migration prediction of Beijing[J].Engineering Letters,2020,28(4):1023-1030.

[11]徐剛,王磊,金洪伟,等.因子分析法与BP神经网络耦合模型对回采工作面瓦斯涌出量预测[J].西安科技大学学报,2019,39(6):965-971.XU Gang,WANG Lei,JIN Hongwei,et al.Gas emission prediction in mining face by Factor Analysis and BP neural network coupling model[J].Journal of Xian University of Science and Technology,2019,39(6):965-971.

[12]刘鹏,魏卉子,景江波,等.基于增强CART回归算法的煤矿瓦斯涌出量预测技术[J].煤炭科学技术,2019,47(11):116-122.LIU Peng,WEI Huizi,JING Jiangbo,et al.Predicting technology of gas emission quantity in coal mine based on enhanced CART regression algorithm[J].Coal Science and Technology,2019,47(11):116-122.

[13]肖鹏,谢行俊,双海清,等.小波-极限学习机在瓦斯涌出量时变序列预测中的应用[J].西安科技大学学报,2020,40(5):839-845.XIAO Peng,XIE Xingjun,SHUANG Haiqing,et al.Application of wavelet-extreme learning machine in time-varying series prediction of gas emission quantity[J].Journal of Xian University of Science and Technology,2020,40(5):839-845.

[14]温廷新,孙雪,孔祥博,等.基于PSOBP-AdaBoost模型的瓦斯涌出量分源预测研究[J].中国安全科学学报,2016,26(5):94-98.WEN Tingxin,SUN Xue,KONG Xiangbo,et al.Research on prediction of gas emission quantity with sub sources basing on PSOBP-AdaBoost[J].China Safety Science Journal,2016,26(5):94-98.

[15]丰胜成,邵良杉,卢万杰,等.PCA-PSO-LSSVM模型在瓦斯涌出量预测中的应用[J].辽宁工程技术大学学报(自然科学版),2019,38(2):124-129.FENG Shengcheng,SHAO Liangshan,LU Wanjie,et al.Application of PCA-PSO-LSSVM model in gas emission prediction[J].Journal of Liaoning Technical University(Natural Science Edition),2019,38(2):124-129.

[16]代巍,付华,冀常鹏,等.回采工作面瓦斯涌出量VMD-DE-RVM区间预测方法[J].中国安全科学学报,2018,28(9):109-115.DAI Wei,FU Hua,JI Changpeng,et al.Interval prediction method for gas emission from coal mining face based on VMD-DE-RVM[J].China Safety Science Journal,2018,28(9):109-115.

[17]李树刚,马彦阳,林海飞,等.基于因子分析法的瓦斯涌出量预测指标选取[J].西安科技大学学报,2017,37(04):461-466.LI Shugang,MA Yanyang,LIN Haifei,et al.Selection of gas emission prediction index based on factor analysis[J].Journal of Xian University of Science and Technology,2017,37(4):461-466.

[18]CHEN T,GUESTRIN C.XGBoost:A scalable tree boosting system[C]//Proceedings of the 22nd ACM SIGKDD international Conference on Knowledge Discovery and Data Mining.New York,United States:Association for Computing Machinery,2016:785-794.

[19]JIANG Y,TONG G,YIN H,et al.A pedestrian detection method based on genetic algorithm for optimize XGBoost training parameters[J].IEEE Access,2019,7:118310-118321.

[20]邓新国,游纬豪,徐海威.贝叶斯极限梯度提升机结合粒子群算法的电阻点焊参数预测[J].电子与信息学报,2021,43(4):1042-1049.DENG Xinguo,YOU Weihao,XU Haiwei.Prediction of resistance spot welding parameters by Bayes-XGBoost and Particle Swarm Optimization[J].Journal of Electronics & Information Technology,2021,43(4):1042-1049.

猜你喜欢

主成分分析法
山东省旅游产业竞争力评价研究
中国装备制造业阶段竞争力研究
陕西省各地区人力资本水平综合评价与分析
基于主成分分析的煤层气赋存影响因素分析
成都市中心城区商服用地基准地价空间演变规律研究
基于主成分分析法的高校财务风险评价指标体系构建
太原市土地可持续利用研究
基于主成分分析法的成都市房地产泡沫程度评价
考察我国各省市自治区社会发展综合状况
金华市服务外包产业科技创新能力研究