基于PCA-RF模型的冲击地压预测
2023-08-21杨超宇
郭 浩,杨超宇
(安徽理工大学 经济与管理学院,安徽 淮南 232000)
冲击地压[16],又称为“冲击矿压”,在煤矿开采过程中,由于工作面的条件发生改变,导致巷道严重变形,煤岩受到破坏而引起的动力灾害[1].
目前,我国大部分矿务局均曾出现冲击地压事件,2004~2014年,大约出现35起,300名工人身亡和1 000余名职工伤亡[2].2020年2月22日,山东能源集团龙堌煤矿4人不幸遇难,煤矿治理成为解决冲击地压问题的关键.
冲击地压受到多种因素影响,如围岩应力,切向应力,弹性能以及煤体本身因素等,姜福兴[3]基于应力等因素对冲击危险性进行分析和评估.在多因素影响冲击地压的条件下,提出多种机器学习模型用来预测冲击地压.预测冲击地压的模型有SVM、KNN、RF、XGB、GB、NB[6],以及神经网络算法,如BP神经网络[7],深度神经网络[8]等等.
国内外研究中,陶杰[4]利用模糊预测模型对冲击地压进行预测.李明亮用KNN、SVM、RF、LDA等六个机器学习模型[9]对岩爆等级进行预测,发现LDA模型能起到和实际等级相同的预测效果.谢学斌基于GA-XGB模型对冲击地压进行分类预测研究[10].毕娟使用一种R型因子分析Fisher判别的预测模型[11],目的是提高预测准确性.BOKE基于优化朴素贝叶斯模型对冲击地压进行分类预测[12].学者都使用相应的模型对冲击地压进行了相应的冲击地压预测,但有些模型采用的数据集存在差异,其预测标准可能存在不同.
本文基于优化的随机森林模型(PCA-RF)实现冲击地压的预测分类,对冲击地压数据预处理,选取出六个参数和标签值,利用主成分分析法对冲击地压数据集进行特征降维,构建优化的随机森林模型,对实验结果比较分析,将混淆矩阵及准确率作为模型评估指标.实验表明,PCA-RF模型准确率为88.9%,RF模型的准确率为77.8%,证实了PCA-RF模型比RF模型拥有更好的预测效果,从而实现对冲击地压危害的有效预测.
1 随机森林优化模型
1.1 随机森林算法
RF算法[5]是基于Bagging思想的集成学习理论和随机子空间的一种多分类模型,是Bagging算法的改进版.RF使用了CART决策树为弱学习器,CART作为RF使用的弱学习器,CART分类树用基尼系数确定最佳特征,并确定该特征的最佳二值切分点,Gini(D)值越小,数据集D的纯度越高.基尼系数见式(1).
(1)
其中:y为类别数,p(k)为一个样本被归类进第k类的概率.
但RF计算也存在着缺陷,在噪声较大的类型或回归问题上很轻易发生过拟合现象,并且针对有各种取值属性的数据,取值分布较多的属性会对随机森林形成更大的影响,所以随机森林在这些数据结果上出现的属性权值是不可信的.这也是单一的RF算法存在的缺陷.而PCA(Principal Component Analysis)算法可以解决这一问题.
1.2 基于主成分分析算法优化
(2)
D=(dij)p×p
(3)
以上公式建立在X(n×p)(p值为6)原始矩阵转换Y(n×p)矩阵的基础上.
通过主成分分析提取样本数据主成分,并且对数据进行预处理,消除了不同取值的数据对RF模型的影响,进而利用RF模型进行冲击地压的分类,这样组合的模型能够达到训练时间缩短,收敛速度提高,从另外一方面又提高了分类准确率的目的.因此将主成分分析与随机森林结合在一起,优劣互补,能够很好解决冲击地压预测分类问题.
1.3 模型结构与流程
基于PCA-RF算法的模型,如图1所示,该模型主要涉及三个部分,即样本数据处理、数据特征降维、模型的训练及预测.首先通过对数据进行异常值处理,剔除样本偏差大的数据,尽可能使得样本数据更加平均,选取合适的特征和标签,对标签进行分类并替换为数字标签,如原数据的标签为None、Light、Moderate、Strong,需将原始标签替换为数字标签,依次为0、1、2、3.其次通过预处理过后的数据进行标准化,求得相关系数矩阵并计算方差贡献率,通过方差贡献率选取符合条件的几个成分,从而实现数据特征降维的目的.最后利用RF模型进行训练和预测,其中测试训练时,需设定模型循环迭代的次数,对模型产生的实验结果进行分析和评估.
图1 PCA-RF算法模型
2 数据分析及预处理
2.1 数据来源
通过相关文献[10,13]的查找及收集,共采集100条数据,数据特征分别为Wet(弹性能指数)、σc(单轴抗压强度)、σt(单轴抗拉强度)、σθ(最大切向应力)、SCF(应力系数)、BCF(脆性系数).以数字代替原有标签,从无到强烈分别是None-0、Light-1、Moderate-2、Strong-3.见表1.本文数据将冲击地压等级划分为四类,分别为无、轻度、中度、强冲击地压.四类占比依次为24.24%、26.26%、29.29%、20.2%.
表1 冲击地压数据
如表2所示,当围岩无任何现象发生时,为无冲击地压;当围岩出现破裂并伴随微弱声音则为轻度冲击地压;围岩破裂程度更高伴随岩体松散则为中度冲击地压;围岩出现严重变形则为强冲击地压.
表2 冲击地压等级标准划分表
2.2 数据整体分析
在图2中,纵坐标依次分别为σθ、σc、σt、SCF、BCF、Wet,横坐标依次为None、Light、Moderate、Strong四种强度.图中纵坐标为σc和BCF数据比较集中,异常点较少.其余四类均出现超出上边缘的异常点,其中SCF中Strong类型和Wet中None类型异常点较多.
图2 各标签对应的箱线图
2.3 数据预处理
对其异常值进行取中位数处理,并对整体数据进行标准化,标准化公式参考式(2),之后计算相关系数矩阵,相关系数矩阵如表3所示.
表3 相关系数矩阵
在表3中,SCF(应力系数)变量与σθ(最大切向应力)存在高度的相关性,其次就是BCF(脆性系数)与σt(单轴抗拉强度),相关性仅次于前者,因此存在一定程度上的信息重叠,需对该预处理过后的数据集进行降维.
采用PCA方法对数据进行降维,对其方差贡献率和累计方差贡献率见图3,在前5个特征中,累计方差贡献率已经超过98%,一定程度上包含原有数据的完整信息.
图3 累计方差贡献率图
3 实验与结果分析
3.1 模型训练
本文采用的模型分别为PCA-RF和RF模型,分别利用数据对其进行训练.在利用PCA对其数据集进行数据预处理过后,减少数据的冗余,一定程度上缩短模型训练的时间,提高模型的预测精准度.本文RF算法中,选定参数n_estimators为49,criterion为entropy,表示选用entropy信息熵来寻找节点和分枝,并对训练的模型进行迭代,不断使其准确率逼近一个有效的值,能一定程度上实现分类预测的效果.在对模型进行训练之后,统计各个模型的预测分类结果,采取准确率作为评价指标,以混淆矩阵的形式对实验模型的预测结果进行展示.同时统计每个模型的准确率,并进行不同模型之间的对比分析.在本文中,分别对两个模型进行训练,训练数据集和测试集的比例为8∶2.
3.2 实验结果分析
3.2.1 实验结果
每个模型的预测与真实对比见表4,模型预测结果混淆矩阵[15]见表5.表4中,左侧第二列为真实标签,右侧为两个模型的预测结果,分别与真实数据进行对比;表5中为各个模型的预测结果的可视化,最左侧的0-3标签为对应的真实值,模型名下方的0-3代表预测数据对应的标签,对角线是每个模型对应预测正确的个数.
表4 模型真实值与预测值对比表
表5 混淆矩阵
3.2.2 结果分析
模型预测对比如图4所示.数字0~3分别对应四个等级,等级程度以数值大小依次递增.PCA-RF模型有两个预测错误,样本序号为2的将强冲击地压预测为中度冲击地压;序号为8的将无冲击地压预测为中度冲击地压,RF模型有四个预测错误,分别有2个强冲击地压预测为中度冲击地压,1个无冲击地压预测为中度冲击地压,1个无冲击地压预测为轻度冲击地压,总体情况为Strong类型的冲击地压错误预测为除了无冲击地压(None)等级外其他冲击地压等级.两种模型中均未出现将严重冲击地压(Strong)预测为无冲击(None)地压,因为这种情况一旦在现实中发生,将会带来严重的后果,这会产生严重不良的影响.通过实验结果可以看出,PCA-RF的预测准确度最高.
图4 模型预测对比图
4 结 语
通过对模型的训练与预测,结合混淆矩阵,通过对PCA-RF与RF模型进行比较,PCA-RF的预测准确度较高,从混淆矩阵及预测值和真实值的比较结果中可得到:在预测准确率方面PCA-RF模型>RF模型,且经过实验的验证,运用主成分分析和不运用主成分分析的模型相比,前者在训练时间上有一定缩短,从而达到缩短模型训练所需要的时间,提高模型效率的目的.因此,PCA-RF模型相对RF模型来讲,对冲击地压的预测具备一定的准确度,在一定程度上有利于对冲击地压进行有效的预测.
本文存在的不足:在预测结果中虽然PCA-RF模型总体预测效果不错,但还存在个例预测错误的现象,原因可能是算法内部的某些参数的设置有待提高和加强,后续工作将进一步完善.