基于改进的SSA-BP神经网络的矿井突水水源识别模型研究
2024-03-15刘伟韬李蓓蓓杜衍辉韩梦珂赵吉园
刘伟韬, 李蓓蓓, 杜衍辉, 韩梦珂, 赵吉园
(1.山东科技大学 矿山灾害预防控制省部共建国家重点实验室培育基地,山东 青岛 266590;2.山东科技大学 安全与环境工程学院,山东 青岛 266590)
0 引言
突水事故作为煤矿常见的五大灾害之一,对煤矿的影响是多方面的。据不完全统计,过去20 a间我国共发生煤矿水害事故1 206起,其中较大的事故有103起[1]。突水事故一旦发生,会造成严重的经济损失和人员伤亡。快速精准地识别突水水源是水害治理工作的关键,对煤矿安全生产有着至关重要的意义。
目前,有关地下水水化学特征及成因的研究主要是利用水样数据,借助图示法进行可视化分析,进而判断矿井水的来源。王昱同等[2]以浅埋煤层的矿井水为研究对象,通过Piper三线图、离子比例系数法等对矿井水的水化学特征进行研究,运用聚类分析、主成分分析(Principal Component Analysis,PCA)与贝叶斯网络(Bayesian Network,BN)判别模型综合分析矿井水的补给来源。范立民等[3]以榆神府矿区的潜水含水层和承压含水层为研究对象,利用常规离子浓度分析、三线图、Gibbs图和Person相关系数等数理统计方法分析了矿井地下水水化学特征的形成机理,以此探讨了含水层中各离子的主要来源。水化学特征分析方法对矿井地下水的来源分析有着重要意义,但由于地下水类型的复杂性,通过常规的水化学特征分析方法难以精准确定其来源。
机器学习为矿井突水水源的识别提供了新的思路,早期水源识别方法多集中于单一模型的构建,如Fisher判别模型、BP神经网络、极限学习机(Extreme Learning Machine, ELM)、支持向量机(Support Vector Machine, SVM)等[4-5]。但由于地下水系统的复杂性,含水层化学成分随时间、空间变化,单一的判别方法往往会出现较大误差。邵良杉等[6]采用改进鲸鱼优化算法(Improved Whale Optimization Algorithm,IWOA)优化混合核极限学习机(Hybrid Knenel Extreme Learning Machine,HKELM),并构建了水源识别模型,验证了该模型的计算精度和稳定性,在矿井上得到应用。秋兴国等[7]构建了PCA结合确定性分层跳跃循环网络(Cycle Reservoir with Hierarchical Jumps,CRHJ)识别模型,实现了对多元时间突水序列数据的识别。Li Xiang等[8]针对深部采煤环境下多水源含水层混合水样,建立了基于遗传算法(Genetic Algorithm,GA)和极端梯度提升(eXtreme Gradient Boosting,XGBoost)的矿井水源识别模型,准确率达94%,为华北地区类似矿井的水害防治提供了技术参考。段李宏等[9]利用传统的Fisher判别模型对煤层底板突水水源进行预测,模型准确率达93%以上。施龙青等[10]建立了基于T-球型模糊聚集算子法、粗糙集理论、D-S证据理论与单指标未知测度函数的突水水源混合比例计算模型,并应用三维高密度电法探测验证了模型的准确性,研究方法不仅克服了传统Piper三线图的缺点,同时揭示了黄土梁峁地貌的水化学演化规律。尹会永等[11]利用麻雀搜索算法(Sparrow Search Algorithm,SSA)结合GA对BP神经网络初始权重和阈值进行2次寻优,构建了SSA-GA-BP神经网络矿井底板突水预测模型,确定了矿区具有突水危险性的样本点,提高了预测精度。黄敏等[12]利用PCA结合混沌麻雀搜索算法优化随机森林(Random Forest,RF)模型,建立了矿井突水水源识别模型,减少了原始数据的冗余,提高了识别准确率。现有识别模型弥补了水化学特征分析方法的不足,从寻优算法结合机器学习入手,解决了单一模型准确率较低的问题。但突水水样数据具有随机性且寻优算法易陷入局部最优,需进一步研究如何提高模型泛化能力和跳出局部最优。
针对上述问题,本文提出了一种基于改进的SSABP神经网络的矿井突水水源识别模型,充分利用BP神经网络处理数据上的较强自学习、自适应能力及SSA优势,将混沌映射和随机游走策略应用于模型之中,分别在初始种群和最优个体上提高算法跳出局部最优的能力,提高突水水源识别模型的泛化能力、适用性与准确率。
1 研究区概况
山东济矿鲁能煤电股份有限公司阳城煤矿位于山东省济宁市汶上县境内,梁山煤田的东部,矿区内地势平坦,地层走向以东北方向为主。井田受构造活动的影响,褶皱和断裂的分布具有复杂性和多样性[13]。井田含煤地层为石炭系上统太原组、二叠系下统山西组。井田地层系统由老至新分别为奥陶系、石炭系、二叠系和第四系。井田内主要含水层有第四系砂砾层孔隙(第四系)含水层、山西组砂岩(山西组)含水层、太原组灰岩(包含三灰和十下灰)含水层、奥陶系灰岩(奥灰)含水层,其分布如图1所示。其中,第四系上组含水层具有中等富水性,下组含水层富水性弱;山西组砂岩含水层富水性弱;三灰含水层富水性中等且含水性不均;奥灰含水层富水性较强。本次共收集阳城煤矿水样数据68组,其中奥灰含水层水样13组,三灰含水层水样21组,山西组含水层水样11组,第四系含水层水样18组,采煤工作面矿井水水样5组。
图1 研究区主要含水层Fig.1 Main aquifers in the study area
2 水化学特征分析
2.1 常规离子浓度分析
采用最大值、最小值、平均值、标准差及变异系数作为评价指标,对研究区各含水层水样及矿井水水样进行评价,结果见表1,其中标准差、变异系数、pH无单位。可看出除第四系含水层外,研究区地下水的水化学特征表现为阳离子以Na++K+为主,阴离子以Cl-为主,奥灰含水层SO24-含量较其他含水层高,这是奥灰含水层区别于其他含水层的重要特征;三灰含水层中各离子浓度特征与山西组含水层相似;矿井水中主要离子浓度与奥灰含水层差别不大,说明矿井水的主要来源可能为奥灰含水层。从地下水的变异系数来看,三灰含水层中SO24-离子变异系数为1.27,该离子在三灰含水层中表现极不稳定;第四系含水层各离子变异系数相差不大,但呈现出较强的空间变异特性,这是因为该含水层为浅层含水层,易受到降雨等其他外界条件的影响。整体而言,研究区水质呈弱碱性,矿化度(Total Dissolved Solid,TDS)整体不高,总硬度(Total Hardness,TH)随含水层深度增加有减小的趋势。
2.2 水化学类型分析
Piper三线图常被用于地下水水质分析,该图由2个三角形和1个菱形组成,通过绘制样本的水化学数据,可直观地了解水样中各种离子的相对含量和化学组成,并根据Na++K+、Ca2+、Mg2+、HCO3-、SO24-、Cl-的浓度对水样数据进行分类,用于分析和区分不同的水化学类型[14-16]。阳城煤矿不同含水层的水样数据Piper三线图如图2所示。可看出数据在阴离子分布特征上表现较分散,阳离子分布出现重合。奥灰含水层水质类型为Cl·SO4-Ca·Na型和Cl-Na型。其中,Na++K+分布在40%~80%(毫克当量百分比)之间,Ca2+分布在20%~70%之间,一部分水样点Cl-分布在60%~100%之间,一部分水样点SO24-浓度较高,分布在40%~60%之间。三灰含水层水质类型主要为Cl-Na型,明显看出Na+,Cl-含量较高,毫克当量百分比达70%以上。该含水层水样类型分布较集中,但与奥灰含水层水质类型存在一定的重合。山西组含水层水质类型主要为HCO3·Cl-Na型,有部分水样点混有SO24-,这可能与该含水层分布在煤层顶底板两侧有关,受到采掘活动的影响。第四系含水层水质类型为HCO3-Na·Ca型和Cl·HCO3-Na·Ca型,有个别水样点类型为SO4·Cl-Na型,其中HCO-3含量较高,分布在60%~100%之间。从Piper三线图可看出,研究区含水层地下水的Na+,Ca2+含量较高,这与含水层的围岩岩性有着重要关系。当地下水与岩石矿物接触时,水中的Ca2+,Mg2+被吸附并交换释放出Na+,进而进入地下水中,使得水中Na+浓度升高。
图2中矿井水水样分布较为分散,阳离子Ca2+,Na+毫克当量百分比较大,阴离子SO24-,Cl-毫克当量百分比较大,其水质类型有Cl·SO4-Ca·Na型、Cl-Na型,初步判断其来源于奥灰含水层和三灰含水层。
根据前文分析,研究区各含水层间地下水类型复杂,各含水层水化学类型存在一定重合,各典型离子的特征在地下水中表现不明显。为准确识别矿井水来源,综合考虑离子浓度的差异性及指标的代表性,除选取主要阴阳离子外,还选取了TH,TDS,pH值作为突水水源识别指标,旨在提高水源识别模型的判别精度和效率。最终确定9个突水水源识别指标,建立基于改进的SSA-BP神经网络的矿井突水水源识别模型。
3 突水水源识别模型
BP神经网络模型[17]分为信号前向传播和误差反向传播2个步骤。当输入层接收到样本数据信号后,将信号传递给隐含层,隐含层利用连接的权重和激活函数对信号进行处理,之后信号输入输出层得到水样类别,即为信号前向传播。当输出值与实际值不一致时,根据输出值与实际值的误差,利用梯度下降法反向调整神经网络的权重,并不断迭代训练,以减小误差,直到达到停止条件,即为反向传播。使用BP神经网络进行分类识别时引入SSA,以优化初始权重和阈值,从而避免模型陷入局部最优,提高识别的准确率。
3.1 改进SSA
3.1.1 SSA
麻雀种群中有发现者、加入者和预警者,发现者在整个种群中有较高的能量,负责搜索有丰富食物的区域,为加入者提供正确的觅食方向。在一定条件下,发现者和加入者的角色可相互转换[18]。觅食过程中,当预警者发现麻雀的天敌时,会向发现者和加入者提供信号,使其转移到其他安全区域寻找食物资源,之后通过计算适应度值更新麻雀位置,找到最优个体。
假设麻雀种群为n×d的矩阵,n为麻雀总数,d为待优化问题变量总维数。所有麻雀的适应度值可表示为f。发现者在种群中占有重要地位且适应度值较高,其位置更新公式为
式中:i为麻雀数量;j为待优化问题变量维数;Xij为麻雀当前位置;t为迭代次数;r为Matlab中rand命令,规定为产生(0,1)之间均匀分布的随机数或矩阵;R为预警值,R∈[0,1];S为安全值,S∈[0.5,1];R<S表明区域中未发现捕食者,可安全觅食;Q为服从正态分布的随机数;L为元素全部为1的矩阵。
加入者位置受发现者的影响,其位置更新公式为
式中:Xw为当前全局最差位置;Xp为目前发现者占据的最优位置;A为元素全部为1或-1的矩阵,表明第i个加入者在该区域未获得食物,需前往其他区域觅食。
预警者可发现麻雀天敌,预警者数量占麻雀总数的10%~20%,其位置更新公式为
式中:Xb为当前全局最优位置;fi为当前麻雀个体的适应度值;fg为当前全局最优适应度值;K为随机数,K∈[-1,1];fw为当前全局最差适应度值;ε为调节常数,以避免分母为零;fi>fg表明当前麻雀位置处在种群边缘,极易被天敌捕食;fi=fg表明处于种群中的麻雀意识到危险,需调整位置。
3.1.2 Sine混沌映射
SSA是随机生成初始种群,生成的种群常常分布不均匀、遍历性较差。Sine混沌映射的表达式简便,确保了更高的遍历性及随机性[19],因此采用Sine混沌映射对SSA进行改进。Sine混沌映射表达式为
式中Yt为第t次迭代的混沌映射值,Y∈(0,1)。
3.1.3 随机游走策略
为进一步提高SSA跳出局部最优的能力及求解精度,引入随机游走策略对最优个体进行位置更新。随机游走策略基本思想是布朗运动模型的理想状态,它规定了步长及方向,即从一个或一系列顶点开始遍历一张图。模型迭代之初,适应度好的个体对其他个体进行扰动,随机游走边界较大,随着迭代次数的增加,边界变小,以此确定最优个体,从而起到考虑全局的作用。随机游走策略表达式为
式中:k为随机游走的步数;Z(k)为随机游走的步数集;c为计算累加和。
为将步数集限制在可行域范围内,对随机游走的步数集Z(k)进行归一化处理。
式中:Z为归一化处理后的步数集;为当前第i只麻雀在第t次迭代中的步数集;a和b分别为步数集中的最小值和最大值;d和m分别为第i只麻雀第t次迭代步数集中的最大值和最小值。
将改进的SSA应用到BP神经网络的阈值和权重优化过程中,首先进行SSA参数设置,引入Sine混沌映射使麻雀种群均匀分布,然后通过计算适应度值进行麻雀种群的更新,引入随机游走策略扰动当前最优个体,如果满足终止条件,则获得最优BP神经网络权重和阈值,最后基于构建的BP神经网络输出识别结果。改进的SSA-BP神经网络模型建立流程如图3所示。
图3 改进的SSA-BP神经网络模型建立流程Fig.3 Process of improved the SSA-BP neural network model
3.2 模型拟合效果
确定BP神经网络的输入层及输出层,将9个指标作为突水水源识别的输入变量,水质类型作为输出变量,使用Matlab计算平台按照改进的SSA-BP神经网络模型建立流程对63组水样数据进行训练测试,待参数调整到模型准确率达到要求后,对5组矿井水水样数据进行识别验证。63组样本数据中随机选取45组数据作为训练集,18组数据作为测试集。通过多次迭代训练并结合经验公式h=(u,v分别为输入层、输出层节点数,q为经验参数),确定BP神经网络隐含层个数为8。依据划分的训练集及测试集拟合结果,改变BP神经网络训练函数,不断调整最大迭代次数、学习率等参数。设置SSA相关参数,麻雀数量n=30,种群中发现者数量占比为70%,安全值S=0.6。运行后,模型训练集识别准确率如图4所示,其中主对角线为正确预测的样本数。可看出45组数据中类型1和类型2即奥灰和三灰水存在误判,识别准确率达到95.6%。类型1的9组水样数据有1组被判别为类型2,准确率为88.9%,同理其他类型准确率分别为93.3%,100%。模型测试集准确率如图5所示,可看出18组数据识别准确率达到100%。
图4 改进的SSA-BP神经网络模型训练集识别准确率Fig.4 Training set recognition accuracy of improved SSA-BP neural network model
3.3 模型对比分析
将改进的SSA-BP神经网络模型与BP神经网络模型、SSA-BP神经网络模型进行对比,各模型准确率预测结果如图6所示。可看出BP神经网络模型误判率为5/18,SSA-BP神经网络模型的误判率为2/18,改进的SSA-BP神经网络模型误判率为0,说明改进的SSA-BP神经网络模型在准确率上有着较好的表现。
为验证模型精度及收敛速度上的优越性,利用均方误差和适应度值对各模型做进一步比较。
设定神经网络目标误差均为1×10-6,各模型均方误差随迭代次数变化情况如图7所示,可看出3个模型通过多次迭代逐渐趋于设定的目标误差,改进的SSA-BP神经网络模型迭代10次后趋于稳定,且与设定的目标误差相差最小,SSA-BP神经网络模型迭代13次后趋于稳定,BP神经网络模型表现较差。
图7 各模型均方误差变化曲线Fig.7 Mean square error change curves of each model
种群适应度值随迭代次数变化情况如图8所示。可看出改进的SSA-BP神经网络模型能在初始时找到离最优适应度值最近的点,从而减少迭代次数,定位全局最优位置。
图8 适应度值变化曲线Fig.8 Adaptability change curves
将5组矿井水水样数据作为输入层数据输入训练好的模型中,模型给出归一化后的识别结果,结果得分最高的即为分类类别,识别结果见表2。可看出矿井水样的主要来源为奥灰含水层,有2个水样分别来自三灰含水层和山西组含水层,相比于水化学分析的结果,该模型可精准地将水样区分,后续可根据识别结果,结合矿井水样的采集点开展相关的水害防治工作。
表2 改进的SSA-BP神经网络识别结果Table 2 Improved SSA-BP neural network recognition results
4 结论
1) 对研究区水化学特征进行分析,初步判断矿井突水的来源为奥灰含水层和三灰含水层。
2) 利用混沌映射和随机游走策略对SSA初始种群和最优个体进行扰动,提高算法跳出局部最优的能力,构建了基于改进的SSA-BP神经网络的矿井突水水源识别模型。该模型训练集识别准确率达95.6%,识别测试集识别准确率达100%。相比于其他模型,该模型误判率为0,均方误差最小,能快速定位适应度值最优点,找到全局最优解,可信度高,可用于矿井突水水源的识别。
3) 基于阳城煤矿水化学特征分析数据,将5组待测矿井水水样数据输入模型,确定矿井水的来源为奥灰含水层、三灰含水层和山西组含水层,模型识别的结果与水化学特征分析的结论相互印证,实现了精准区分。