APP下载

基于LASSO-LARS的回采工作面瓦斯涌出量预测研究

2022-09-22黄连兵

煤炭科学技术 2022年7期
关键词:瓦斯煤层工作面

陈 茜,黄连兵

(1.煤炭工业规划设计研究院有限公司,北京 100120;2.山东科技大学 电子信息工程学院,山东 青岛 266590)

0 引 言

近年来,我国煤矿安全形势有所好转,安全事故起数和死亡人数逐年下降,但安全形势依然严峻,煤矿事故频发,重特大事故时有发生。据不完全统计,2013—2017年期间全国煤矿事故1 945起,死亡人数3 771人,其中瓦斯事故起数和死亡人数分别占11.21%和30.17%,成为仅次于顶板灾害事故的第二大安全事故种类,可见瓦斯仍是引发煤矿安全事故的主要因素之一。而瓦斯涌出量作为瓦斯防治与管理,矿井通风系统设计的重要基础数据,快速、精确的预测瓦斯涌出量是实现煤矿安全生产的重要前提。国内外众多学者对煤矿瓦斯涌出量的预测模型做了大量的研究。齐庆杰等[1]、陈存强[2]、马文伟等[3]分别采用分源预测法对矿井瓦斯涌出量进行了预测;曹朋等[4]将多元线性回归和BP神经网络模型进行组合,预测了矿井瓦斯涌出量;苗杰[5]、施式亮等[6]分别采用灰色系统相关理论对矿井瓦斯涌出量进行了研究;杨宏海[7]、杨明磊等[8]将SVM 回归与分源预测法相结合建立SVM 分源预测数学模型,对回采工作面的瓦斯涌出量进行了回归分析;胡坤等[9]利用正则化异常值隔离与回归方法(LOIRE),结合TLBO优化算法,建立了TLBO-LOIRE优化预测模型对相关影响因素进行计算分析并对煤矿回采工作面瓦斯涌出量进行了预测。但上述预测模型也存在着一定的缺陷,如:神经网络模型需要选择模型及参数,存在着收敛速度慢等缺点;灰色理论预测当原始数据序列波动大并且信息过于分散时,预测精度将会降低;聚类分析法中隶属度的确定受人为因素影响较大。且上述各种方法都不能很好地解决实际工作中普遍存在的变量之间多重共线性问题。消除变量共线性方法,常见的有主成分分析(Principal Component Analysis,PCA)、线 性 判 定 分 析(Linear Discriminant Analysis,LDA)等方法。虽然它们具有较好的降维效果,但由于其改变了原始特征空间的结构,得到的新特征意义不明,不容易理解。针对以上现状,提出了一种基于Lasso算法的特征选择方法,在原始特征空间的基础上,通过剔除无关和冗余的特征选择出一个最优特征子集,原始数据集的特征意义没有改变,且具有更好的可读性。利用从数据角度筛选出的瓦斯涌出量影响因素的主要特征来建立预测模型,从而能够准确地追踪回采面瓦斯涌出量的变化规律。

1 LASSO算法原理

最小绝对值压缩选择模型(Least Absolute Shrinkage and Selection Operator,LASSO)是一种带有惩罚的正则化稀疏模型,最早由统计学家TIBSHIRANI于1996年提出[10]。为了给LASSO方法提供有效的算法支撑,BRADLEY等[11-12]提出了最小角回归(Least Angle Regression,LARS)算法。ZOU等[13]提出了Elastic Net方法,该方法在LARS的基础上加入二范数约束条件,解决了高维小样本数据的过拟合问题。施万锋等[14]提出一种均分式Lasso方法,通过将特征集分组选择然后合并的方法,解决了LASSO算法在计算高维数据时的内存开销问题,使得LASSO算法在分布式计算框架中的应用成为可能。

LASSO回归的基本思想是将回归系数的绝对值之和约束在一个常数条件下,使得残差平方和最小,从而使得某些自变量的回归系数自动压缩到零,即在传统线性回归方法最小平方估计的基础上增加了绝对值形式的惩罚项,达到变量选择的目的,得到可解释的模型[15-17]。

对于多元线性回归模型:

y=β0+β1x1+β2x2+…+βpxp+ε

(1)

其中,y为因变量;xi(i=1,2,…,p)为自变量;βi(i=1,2,…,p)为未知参数;ε为随机误差项。

LASSO方法的系数估计为

(2)

2 矿井瓦斯涌出量预测模型的建立

影响瓦斯涌出量的因素众多,根据大量研究成果,笔者选取回采工作面测量的10个因素为主要影响因素,包括煤层埋藏深度(X1)、渗透率(X2)、煤层厚度(X3)、煤层瓦斯含量(X4)、CH4浓度(X5)、风量(X6)、日产量(X7)、煤层间距(X8)、煤层挥发分产率(X9)、邻近层瓦斯含量(X10)[1-9,18-20]。

图1 LASSO回归算法的建模过程Fig.1 Flow of LASSO regression algorithm modeling

瓦斯涌出量动态预测模型训练过程如下:

1)提取煤矿瓦斯涌出量影响因素原始数据,X=[X1,X2,…,X10]T,为消除不同指标量纲的影响,需要将观测数据标准化、正规化,即:

(3)

2)采用机器学习常用的相关性热图方法,将属性之间的线性相关性可视化,并判断各属性之间的共线性,如存在,则利用Lasso进行降维处理,反之则直接进行多元回归分析。

3)若属性之间存在多重共线性,通过Lasso方法计算后,当影响因素对应的参数回归结果为“0”时,该特征被舍弃;若非“0”则将该特征列入候选特征集合。从而得到稀疏解,达到降维的目的。

4)得到低冗余特征子集后,利用特征子集进行训练,创建模型族,即不同的λ值的拟合系数。

5)生成最优预测模型:选用十折交叉验证的方法(10-fold Cross Validation)确定参数,具体步骤如下:①将训练集合的顺序随机扰乱;②将扰乱后的训练集合等分为10份;③从参数集合中的第1个参数开始,每次不重复地选择一个参数;④从第1份开始,每次取出一份作为测试集,其余的作为训练集;⑤使用训练集和选择的参数进行模型训练;⑥用训练好的模型对测试集进行预测;⑦对n次的预测结果计算平均识别率;⑧选择取得最高识别率的测试集参数。

6)根据最优参数建立多元回归方程,进行瓦斯涌出量预测。

马刺说:“元帅的蓝晶马不吃不喝,整日悲嘶,到第七天,身上汗落如雨,蓝晶不融,堆积如丘。后来,马朝着北方长嘶三声,就气绝而死。马死了,汗晶也在瞬间化成一摊水。”

3 模型应用与分析

3.1 回采工作面瓦斯涌出影响因素的选取

将收集到的淮北某矿回采工作面瓦斯涌出量及各影响因素形成样本集,样本数据见表1。其中,前57组回采工作面数据作为样本训练集,后5组数据作为预测样本,用于检验所建模型的预测效果。

表1 回采工作面瓦斯涌出量和影响因素数据集

续表

3.2 瓦斯涌出量影响因素相关性分析

相关性图是一种表示2个变量之间相关关系的热图,是广泛使用的数据可视化方法之一。采用相关性热图对瓦斯涌出量影响因素数据进行更直观的展示,如图2所示。计算每组影响因素之间的相关性,每个格子的颜色代表行与列的相关性,颜色越红代表相关性越强,越蓝代表相关性越弱。由图中可以看出,影响瓦斯涌出量部分属性之间有很强的相关性,适用于Lasso算法进行特征筛选。

图2 瓦斯涌出量各影响因素的相关性热图Fig.2 Data correlation heatmap of affecting factors

3.3 基于Lasso算法的高影响因素筛选

使用Python语言编程进行机器计算,运用Lasso方法对选取的9个属性进行参数估计与变量选择,用LARS算法实现计算。采用十折交叉验证方法进行模型选取,同时获得模型的性能最优估计。通过交叉验证计算不同alpha取值下的均方误差(MSE),获得最优估计,结果如图3所示。

图3 alpha和均方误差图Fig.3 Figure of alpha and mean square error

图3中横向虚线表示每个惩罚系数alpha对应的目标均方误差,横向实线表示在十折交叉验证过程中均方误差的平均曲线。纵向虚线表示在所有的alpha值中最优解,即当alpha取值为0.012 17时,获得模型的性能最优估计。图4表示瓦斯涌出量在Lasso回归中系数随参数的变化情况,由图4可知,当参数alpha很小时,变量均未被选入模型中,随着alpha的不断增大,变量依次进入模型,当alpha到达一定值时,变量全部进入模型。同时,随着alpha取值的逐渐增大,压缩程度增大,所选入模型的变量个数越少。

图4 瓦斯涌出量在LASSO回归中系数随参数的变化Fig.4 Regression coefficient with alpha in LASSO

因此,应当选取合适的参数值以做出权衡。当alpha取值为10-2左右时,从最初的10个影响因素中挖掘出6个高影响因素,剔除掉4个低影响因素,在一定程度上简化了指标体系结构。与此同时,当alpha取值0.012 17时模型的预测均方误差控制在0.5以下,能够兼顾预测精度与因素筛选。

运用LASSO变量筛选,最终选出了煤层埋藏深度、煤层厚度、煤层瓦斯含量、煤层挥发分产率、风量和煤层间距6个因素对瓦斯涌出量影响最大,系数结果见表2。其中影响最大的是煤层瓦斯含量和煤层埋藏深度,并具有显著的正向作用;煤层厚度和煤层间距显著度不如煤层挥发分产率和风量;渗透率、CH4浓度、日产量和邻近层瓦斯含量数据对瓦斯涌出量的影响不显著,没有被选入模型。以LASSO算法筛选出的高影响因素为基础,结合得到的回归系数,对瓦斯涌出量进行预测。

表2 基于LASSO算法进行属性选择的系数结果

3.4 预测结果分析对比

为更好地验证预测效果,将LASSO预测结果与主成分分析预测结果进行对比,2种模型预测结果的相对误差见表3,与实测值对比如图6所示。由图6可知,运用LASSO预测模型的最大相对误差为9.2%,最小相对误差为2.5%,平均相对误差为6.5%。根据主成分选取原则,选取前4个成分(贡献率91.378%>85%),进行回归预测的最大相对误差为24.7%,最小相对误差为10%,平均相对误差为14.4%,远低于LASSO预测的精度。

表3 基于LASSO和主成分分析的瓦斯涌出量预测值比较Table 3 Comparison of predictod gas emission based on LASSO and principal component,regression

图5 基于LASSO和主成分分析的瓦斯涌出量预测结果Fig.5 Prediction of gas emission based on LASSO and principal component regression

同时,引入平均相对变动值(Average Relative Variance,ARV)、均方根误差(Root Mean Square Error,RMSE)作为误差评判标准,综合评价模型的预测精度和泛化能力。ARV值越小,预测模型泛化能力越强;RMSE值越小,预测模型的精度也越高。2种不同预测模型效果综合对比见表4。

表4 2种预测模型综合效果对比

结果显示基于LASSO多元回归模型预测精度更高,而且具有一定的泛化性。主成分分析的降维技术改变了数据的原始特征空间结构,得到的新的特征意义不够明确,主成分中存在着噪声和虚假分量,降低了特征的准确性和代表性,从而影响了预测结果。而LASSO模型通过剔除无关和冗余的特征选择出的最优特征子集,特征意义没有改变,具有更好的可读性,从整体上提高了预测结果的准确性。

4 结 论

1)LASSO回归模型采用LARS算法对影响瓦斯涌出量的高维数据进行了降维处理,CH4浓度、日产量和邻近层瓦斯含量对瓦斯涌出量的影响不显著。

2)经与主成分分析法对比,LASSO特征筛选方法在信息筛选方面优于主成分分析法,预测精度更高,泛化能力更强,为回采工作面瓦斯涌出预测模型的选择提供了一种新的依据。

3)由于LASSO回归模型和主成分分析法均属于线性模型,未充分考虑特征中的非线性因素,采用非线性化的方法对模型进行改进,将是下一步研究的重点方向。

猜你喜欢

瓦斯煤层工作面
11采区永久避难硐室控制瓦斯涌出、防止瓦斯积聚和煤层自燃措施
高瓦斯矿井防治瓦斯异常涌出措施的应用
单轨吊机车在煤矿综采安(撤)工作面中的应用
极近距离煤层采空区下煤层巷道支护研究
松软低透煤层CO_2爆破增透技术应用研究
瓦斯探钻钻头的一种改进
综采工作面过陷落柱防治及其对策
综采工作面的快速回撤
三软煤层掘进支护综合分析
综采工作面坑透结果分析与验证