APP下载

基于回归Shapley 值分解法的回采工作面瓦斯涌出量影响因素研究

2023-11-29谢紫琦胡婧妍

煤矿安全 2023年11期
关键词:因变量回归方程贡献率

杨 涛 ,谢紫琦 ,胡婧妍 ,王 辰

(1.华北科技学院 矿山安全学院,河北 三河 065201;2.华北科技学院 安全工程学院,河北 三河 065201)

在未来很长一段时间内,煤炭作为我国主体资源的格局不会变。随着浅部煤炭资源的耗竭,开采深度正以10~25 m/a 的平均速度增加,目前我国诸多矿井开采深度已达到1 000~1 500 m。深部煤层井下环境相较于浅部煤层更加复杂,导致瓦斯防治与抽采变得更加困难,明确各因素对回采工作面瓦斯涌出量变化的影响程度是目前亟须解决的问题[1-4]。

目前分析各因素对回采工作面瓦斯涌出量变化的影响程度多采用因子分析法。李忠群等[5]通过因子分析法对某矿回采工作面瓦斯涌出量的影响因素进行分析,确定了相对于其他影响因素,瓦斯含量、地质条件、开采技术对回采工作面瓦斯涌出量变化的影响程度更加显著,其中瓦斯含量的影响效果最为显著;马彦阳[6]基于因子分析法,对回采工作面瓦斯涌出量的影响因素进行降维处理;马晟翔等[7]、李树刚等[8]、徐刚等[9]通过因子分析法对回采工作面瓦斯涌出量的影响因素进行降维处理,并提取出3 个具有实际含义的因子。

因子分析法的原理是提取具有共性的因子,通过原始变量占因子之间的权重计算因子得分,其本质是一种降维方法,主要针对多变量大样本的系统,在统计学中一般将自变量数目大于20 的称为大样本,而影响回采工作面瓦斯涌出量变化的因素往往不足20,故因子分析法并不适用于对回采工作面瓦斯涌出量影响因素的研究[10-11]。因此,提出一种新的方法,基于回归的Shapley 值分解法,分析各因素对回采工作面瓦斯涌出量变化的影响程度。

1 理论分析

Shapley 值是博弈论中的一个概念,具体数值是指总体中的部分对于总体边际贡献的平均值,总体贡献指某个部分是否存在对整个系统提供的有效增值[12-15]。Shapley 值法具有适用于任何不平等分解的优点,同时其结果易于被各方接受,在统计学中应用十分广泛。基于此,将Shapley 值法应用于回采工作面瓦斯涌出量影响因素的研究中。

Shapley 值法定义如下:

假设N={i},i=1,2,3, ···,n,表示n个影响因素参与主体构成回采工作面瓦斯涌出量变化的集合。

x为N的任一子集,x∈N,υ(x)为实值函数,且满足以下2 个条件:

则υ(x)称为子集x的特征函数,表示子集x的收益。

υ(N)为集合可能获得的最大收益,用Si表示N中i元素从集合中获得的最大收入。该合作收益需满足如下条件:

则集合N下的各元素所得利润分配的Shapley 值为:

式中:Xi为集合N中包含元素i的所有子集;|x|为子集x中的元素个数,ω(|x|)为加权因子;υ(x/i)为该子集除去元素i后可取得的收益。

基于回归的Shapley 值分解法是将传统回归方程分解法与Shapley 值法相结合,原理是将目标变量的不平等分解为其决定因素的贡献,并用数值表现出各回归变量对因变量不平等的贡献[16]。基于回归的Shapley 值分解法具有不限制不平等指标种类与不限制回归方程形式的优点[17-19]。在回归方程的基础上应用Shapley 值分解法,满足应用Shapley 值法的4 个前提条件。

应用基于回归的Shapley 值分解法,建立回归方程后,可说明各回归因子的贡献率,并且结果可以被各回归因子接受。

2 基于SPSS 统计分析软件的样本选择

根据文献[20],其回采工作面瓦斯涌出量及影响因素的数据来源于第4 系地层以黄土为主的超厚煤层。选用煤层瓦斯含量X1、煤层厚度X2、煤层埋深X3、煤层上覆基岩厚度X4、煤层倾角X5和工作面推进速度X6这6 个变量,建立各因素对影响回采工作面瓦斯涌出量的回归模型,其中前15组数据作为模型构建数据集,后2 组数据作为验证数据集。

通过煤层瓦斯含量、煤层厚度、煤层埋深、煤层上覆基岩厚度、煤层倾角和工作面推进速度6 个变量,建立各因素对影响回采工作面瓦斯涌出量的回归模型,其中前15 组数据作为模型构建数据集,后2 组数据作为验证数据集。瓦斯涌出量及影响回采工作面瓦斯涌出量各因素的数据见表1,表中:Y为回采工作面瓦斯涌出量。

表1 瓦斯涌出量及影响回采工作面瓦斯涌出量各因素的数据Table 1 Gas emission quantity and data of factors affecting gas emission quantity in working face

通过上述数据将回归模型设定为:

式中:Y为因变量;β0为截距项;βi为自变量的估计系数。

进行多元线性回归分析之前,需要确保数据满足一定的前提条件:因变量为定量数据,自变量与因变量之间具备线性关系及自变量之间不存在多重共线性问题,回归分析的因变量需服从正态分布。

从表1 可以得出,回采工作面瓦斯涌出量作为因变量是连续的数值,属于定量数据。

为明确自变量与因变量是否呈现线性关系及自变量之间是否存在多重共线性问题,应用origin 软件中的相关性热图进行初步分析,描述各变量之间线性关系的相关性热图如图1。

图1 描述各变量之间线性关系的相关性热图Fig.1 Correlation heat diagram describing the linear relationship between the variables

相关性热图是通过皮尔逊相关系数判断各变量之间是否存在线性相关关系,数值越接近1,表示2 个变量的正相关程度越显著;数值越接近-1,表示2 个变量的负相关程度越显著。从图1 可以看出:自变量煤层厚度和工作面推进速度均与因变量回采工作面瓦斯涌出量存在显著的正线性相关关系;自变量煤层瓦斯含量、煤层埋深、煤层上覆基岩厚度和煤层倾角均与因变量回采工作面瓦斯涌出量具有存在线性相关的趋势。通常认为皮尔逊相关系数绝对值大于0.8 时,存在多重共线性问题,图1 各自变量之间具有不存在多重共线性问题的趋势。基于上述推测,采用SPSS 统计分析软件对自变量与因变量的线性关系及其自变量之间的多重共线性问题做定量分析,多元线性回归模型检测见表2。

表2 多元线性回归模型检测Table 2 Multiple linear regression model testing

检验水准设置为0.05,其中:煤层埋深与煤层倾角的显著性大于0.05,说明接受原假设;煤层埋深和煤层倾角均与回采工作面瓦斯涌出量不存在显著的线性关系,直接选用此组数据,建立的回归模型在统计学中不具备说服力,故需剔除煤层埋深与煤层倾角变量;自变量的方差膨胀系数VIF 值均小于5,说明在严格统计学条件下,各自变量之间不存在多重共线性问题。

通过图1 相关性热图所得推测与表2 多元线性回归模型检测所得结论存在差异,这是由于通过皮尔逊相关系数对各变量之间的线性关系进行初步分析时,变量之间需满足一定的前提条件,故推测结果可能产生误差。因此,选取多元线性回归模型检测所得结果,剔除煤层埋深与煤层倾角变量。

通过Q-Q 图分析因变量是否符合正态分布,Y的正态Q-Q 图如图2。

图2 Y 的正态Q-Q 图Fig.2 Normal Q-Q diagram for Y

Q-Q 图的原理是预先假定数据正态,画出正态分位数直线,通过实际数据与假定正态分位数直线的拟合程度,判断实际数据是否为正态分布。通过图2 可以看出,因变量符合正态分布。通过上述定量分析,得出只需将煤层埋深、煤层倾角变量剔除,剩余变量均符合构建回归方程的要求。

基于回归的Shapley 值分解法,并不限制回归方程的形式。线性回归分析主要应用于因变量为连续变量的情况,Logistic 回归方法主要应用于因变量为分类变量的情况,泊松回归分析主要应用于因变量为技术变量的情况。回采工作面瓦斯涌出量的数据类型为连续变量,故采取多元线性回归分析中的OLS 回归方法建立回归方程。

3 基于回归的Shapley 值分解

将剔除无关变量后的数据,导入stata 统计分析软件中,并通过OLS 回归方法对数据进行回归分析,基于stata 统计分析软件的回归分析结果见表3。

表3 基于stata 统计分析软件的回归分析结果Table 3 Results of regression analysis based on stata statistical analysis software

由于F值为117.9,Prob>F=0,得出此回归分析具有显著的统计学意义,在0.01 显著性水平上是有效的;校正的拟合优度=0.970 9,标准误差为2.693 2,得出煤层瓦斯含量、煤层厚度、煤层上覆基岩厚度、工作面推进速度可以解释回采工作面瓦斯涌出量的97.09%,证明此回归模型的拟合程度显著高。

对于煤层瓦斯含量:P统计量的概率值为0.030,小于0.05,说明煤层瓦斯含量与回采工作面瓦斯涌出量在0.05 显著性水平上正相关。

对于煤层厚度:P统计量的概率值为0,小于0.01,说明煤层厚度与回采工作面瓦斯涌出量在0.01 显著性水平上正相关。

对于煤层上覆基岩厚度:P统计量的概率值为0.003,小于0.01,说明煤层上覆基岩厚度与回采工作面瓦斯涌出量在0.01 显著性水平上正相关。

对于工作面推进速度:P统计量的概率值为0.022,小于0.05,说明工作面推进速度与回采工作面瓦斯涌出量在0.05 显著性水平上正相关。

根据上述分析结果可以得出回归方程为:

应用Shapley 值分解法分解上述已建立的回归方程(8),分析各因素对影响回采工作面瓦斯涌出量的贡献率,基于回归的Shapley 值分解结果见表4。

表4 基于回归的Shapley 值分解结果Table 4 Results of the regression-based Shapley value decomposition

通过表4 可以得出:煤层厚度对影响回采工作面瓦斯涌出量的贡献率为60.11%,说明煤层厚度是决定性因素对于影响回采工作面瓦斯的涌出量;工作面推进速度对影响回采工作面瓦斯涌出量的贡献率为23.05%,为次要因素;煤层瓦斯含量对影响回采工作面瓦斯涌出量的贡献率为9.80%,为非必要性因素;煤层上覆基岩厚度对影响回采工作面瓦斯涌出量的贡献率为7.04%,为非必要性因素。将自然因素(煤层厚度、煤层瓦斯含量、煤层上覆基岩厚度)命名为Group1;工作面推进速度属于开采因素,命名为Group2,分析2 组数据对影响回采工作面瓦斯涌出量的贡献率,不同组对影响回采工作面瓦斯涌出量的贡献率见表5。

表5 不同组对影响回采工作面瓦斯涌出量的贡献率Table 5 Contribution rate of different groups to the gas emission in working face

根据表5 得出:自然因素组Group1 对影响回采工作面瓦斯涌出量的贡献率为75.31%,开采因素组Group2 对影响回采工作面瓦斯涌出量的贡献率为24.69%;说明影响回采工作面瓦斯的涌出量主要取决于自然因素,但通过开采因素可以调节回采工作面瓦斯的涌出量。

利用16、17 组数据,验证基于回归的Shapley 值分解结果的可靠性,验证组与模型组对比见表6。

表6 验证组与模型组对比Table 6 Comparison of validation group with model group

通过表6 可以得出,模型组与验证组煤层瓦斯含量、煤层厚度、煤层上覆基岩厚度、工作面推进速度、自然因素组Group1 和开采因素组Group2 对影响回采工作面瓦斯涌出量的贡献率数值上虽有差异性,但总体占比并无明显变化,煤层厚度与自然因素组Group1 仍为决定性因素,说明上述结果与结论分析可应用于超厚且第四系地层以黄土为主的煤层。

通过上述分析结果,对今后解决第四系地层以黄土为主的超厚煤层中存在的瓦斯突出问题及煤与瓦斯共采问题具有重大意义。各自变量对回采工作面瓦斯涌出量的影响均为正相关,面临瓦斯浓度超过临界值时,自然因素无法改变,可以通过降低回采工作面推进速度,进而降低回采工作面瓦斯的涌出量。需判断煤层是否具备煤与瓦斯共采条件时,可通过煤层厚度进行决策,已具备共采条件的煤层,为追求更高的经济效益,在保证安全开采的条件下,可通过提高工作面的推进速度,增加日煤产量,同时升高瓦斯日抽采量。

4 结 语

1)建立了基于OLS 回归的回采工作面瓦斯涌出量影响因素模型,此回归模型达到97.09%解释程度,并且回归模型中的自变量,同时含有自然因素和开采因素。

2)通过基于回归的Shapley 值分解法对回归模型进行分解,得出在煤层厚度为超厚且第四系地层以黄土为主时:煤层厚度对影响回采工作面瓦斯涌出量的贡献率为75%左右,是决定性因素;工作面推进速度对影响回采工作面瓦斯涌出量的贡献率为25%左右,是次要因素;煤层瓦斯含量与煤层上覆基岩厚度对影响回采工作面瓦斯涌出量的贡献率均小于10%,是非必要因素。

3)将各自变量归纳为自然因素与开采因素,分析2 个组别对影响回采工作面瓦斯涌出量的贡献率,得出在煤层厚度为超厚且第四系地层以黄土为主时,自然因素对影响回采工作面瓦斯涌出量的贡献率为75%左右,开采因素对影响回采工作面瓦斯涌出量的贡献率为25%左右。

猜你喜欢

因变量回归方程贡献率
调整有限因变量混合模型在药物经济学健康效用量表映射中的运用
采用直线回归方程预测桑瘿蚊防治适期
线性回归方程的求解与应用
线性回归方程要点导学
一种通用的装备体系贡献率评估框架
走进回归分析,让回归方程不再是你高考的绊脚石
适应性回归分析(Ⅳ)
——与非适应性回归分析的比较
关于装备体系贡献率研究的几点思考
偏最小二乘回归方法
В первой половине 2016 года вклад потребления в рост китайской экономики достиг 73,4 процента