APP下载

RF-CARS结合LIF光谱用于矿井涌水的预测评估

2020-07-08周孟然来文豪闫鹏程宋红萍戴荣英胡天羽

光谱学与光谱分析 2020年7期
关键词:约简水样矿井

卞 凯, 周孟然, 胡 锋, 来文豪, 闫鹏程, 宋红萍, 戴荣英, 胡天羽

安徽理工大学电气与信息工程学院, 安徽 淮南 232001

引 言

涌水灾害已成为煤矿五大灾害中影响矿井安全作业的第二大灾害[1]。 矿井涌水不仅需要现场早期预警, 还需要准确判断涌水水源的类型[2], 这有利于及时掌握涌水水害信息并采取必要的治理手段, 降低灾害所带来的伤亡事故率与重大经济损失。 煤矿井下涌水水源识别和研究的方法主要有离子浓度法、 同位素分析法、 微量元素法等[3], 这些方法虽然取得了一定的识别效果, 但存在分析时间长、 判别准确性不高、 操作过程复杂等特点[4], 难以根据其动态变化迅速提供可靠的信息, 限制了矿井涌水的实时在线分析, 达不到预警效果。

为了解决现有涌水水源识别方法的不足, 激光诱导荧光(laser-induced fluorescence, LIF)被用于矿井水害研究领域, 并结合机器学习和深度学习方法实现了矿井涌水水源类型的快速且准确识别, 取得了良好的鉴别效果; 如何晨阳[5]等采取主成分分析法将小波变换去噪的突水水样荧光光谱数据进行降维处理, 利用K最近邻算法进行水样的识别, 达到了极高的分类准确率。 Hu[6]等利用激光诱导荧光技术结合深度学习方法, 提出了一维卷积神经网络方法用于自动识别九种矿井突水水样, 在不进行复杂的预处理情况下实现了突水水样的快速、 精准识别。 然而目前这些利用激光诱导荧光对矿井涌水进行识别的机器学习和深度学习方法所建立的都只是分类识别模型, 只能定性的判别涌水的种类, 而不能预测和精准评估不同种类水样的含量以实现定量分析, 且各属性因素之间的相关程度未能进行有效分析, 部分训练模型和调参过程也较为复杂。

随机森林(random forest, RF)是一种不仅可用于分类结果分析, 还能根据属性重要度进行特征选择, 降低模型的复杂度的高效算法, 如文泽波等[7]利用RF特征选择算法提取出烟雾特征并结合支持向量机实现了视频烟雾的检测。 Brokamp[8]等使用RF模型对城市空气中的细颗粒物的浓度进行了预测。 Lefkovits[9]等提出了将RF特征选择算法应用于提升脑肿瘤图像分割的判别模型。 竞争性自适应重加权算法(competitive adaptive reweighted sampling, CARS)是通过自适应重加权采样技术消去无用信息的一种变量选择方法, 能提升运算和建模效率, 如Li[10]等利用CARS结合偏最小二乘线性判别分析用于高果糖玉米糖浆和麦芽糖浆掺假蜂蜜的检测。 刘珊珊[11]等提出CARS用于激光诱导击穿光谱来确定猪饲料中铜元素的含量, Wang[12]等采用CARS方法结合近红外光谱技术对大豆秸秆的生物含量进行快速评价与分析。

偏最小二乘回归(partial least squareregression, PLSR)是一种新型多元统计回归分析算法, 可以解决多属性之间的高度相关性, 避免回归模型估计失真。 本文通过联合RF与CARS方法对荧光光谱属性进行精简, 利用精简后的光谱属性建立PLSR模型进行水样预测, 为矿井涌水激光诱导荧光光谱的预测定量评估提供理论依据。

1 实验部分

1.1 设备和仪器

用如图1所示的激光诱导荧光涌水光谱系统完成光谱数据的采集, 该系统主要由激光器、 光谱仪、 荧光探头、 光纤和上位机组成。 选用波长为405 nm的蓝紫光半导体激光器(北京华源拓达激光技术有限公司), 最大输出功率为120 mW, 光谱仪选用USB2000+微型光纤光谱仪(美国Ocean optics公司), 内含高灵敏度2 048像素的线性CCD阵列(型号ILX511, 日本索尼公司), 设定其光谱检测范围为340~1 021 nm, 分辨率为0.5 nm, 积分时间为1 s/1 000 nm, 浸入式微型荧光探头(型号FPB-405-V3, 广东科思凯公司)可插入待测水样获取荧光信号。 为了避免其他光源对荧光光谱获取的干扰, 测量在避光的暗室中进行, 测量将探头垂直浸入水样并确保探头侵入透明容器的高度始终保持一致。 使用计算机上的Spectra Suite软件进行记录收集所有样品的荧光光谱数据, 算法仿真则是在Matlab R2016b和Origin 2017环境下运行。

图1 激光诱导荧光涌水光谱系统

1.2 材料和样本

矿井水害约80%是由老空水引起的, 老空水较其他涌水水源有着极强的破坏性, 砂岩水害有着持续时间长、 温度高等特点; 将老空水、 砂岩水、 老空水与砂岩水的混合水作为研究对象进行实验, 水样在2019年3月采集于安徽省淮南市顾桥煤矿。

由于老空水危害性之大, 其含量严重关系到水害的防治工作, 则以老空水为基础分别混入不同含量的砂岩水, 第一组水样为老空水含量占总量的0%(纯砂岩水), 第二组水样为老空水含量占总量的50%、 第三组水样为老空水含量占总量的67%、 第四组水样为老空水含量占总量的75%、 第五组水样为老空水含量占总量的80%、 第六组水样为老空水含量占总量的100%(纯老空水)。

将现场采集到的水样立即进行密封和遮光处理并带回实验室储存, 以保障实验所采集数据的真实性与可靠性, 每种水样各采集50组, 共300组光谱数据作为实验样本。

1.3 光谱的预处理

光谱数据在传输过程中会受到设备、 外界环境、 操作不当等因素的干扰而存在大量的噪声信号, 这些干扰信号与有用的光谱数据信息叠加在一起会严重影响实验结果[13], 为了避免噪声干扰, 需要对原始荧光光谱进行滤波去噪处理。 分别对原始光谱采用Savitzky-Golay卷积平滑法(Savitzky-Golay smoothing, S-G)、 局部加权回归散点平滑法(locally weighted scatterplot smoothing, Lowess)进行去噪处理, 根据选定回归模型的评估指标对比原始光谱和去噪后光谱的预测能力, 选择合适的去噪方法。

1.4 RF-CARS联合PLSR用于矿井涌水预测评估

随机森林是一种基于模型聚合思想用于解决分类和回归问题的算法, 由Breiman于2001年提出[14], 可以在不增加计算复杂度的情况下, 对变量有着较好的解释作用; RF算法进行属性约简主要是删去重要度较低的属性, 当加入随机噪声后, 袋外数据准确率无明显变化, 说明这个特征对于样本的预测结果影响不大, 进而说明重要程度较低, 需将其删去以保留重要度较高的属性。

RF算法递归属性约简的步骤如下:

(1)计算每个属性的重要度W, 并按重要度依次递减顺序降序排列

属性重要度

W=∑(Error2-Error1)/N

(1)

式(1)中,N为随机森林树的棵树, Error2代表加入噪声干扰的属性袋外数据误差, Error1代表属性的袋外数据误差。

(2)剔除重要度最低的属性, 剩余的属性组成新的属性集合。

(3)利用新组成的属性集合构建回归预测模型;

(4)重复步骤(1)和(2), 比较每次递归所建PLSR模型的预测精度;

(5)选出预测精度最高, 评估指标最好的一组属性集合。

竞争性自适应重加权算法是基于达尔文自然选择方式提出的[15], 通过蒙特卡洛采样建立回归模型并计算变量回归系数的绝对值权重, 去掉权重小的波长点, 利用交互验证选出交叉验证均方根误差(root mean square error of cross validation, RMSECV)最小的子集, 可有效寻找出最优变量组合。

CARS算法进行属性精简的步骤如下:

(1)蒙特卡洛采样, 随机抽取一定比例样品作为校正集建立PLSR模型。

(2)计算变量回归系数的绝对值权重w, 评价属性的有用性

(2)

式(2)中,αi为第i个属性的重要度,q为属性个数。

(3)指数衰减函数用来去除贡献度α较小的属性。

(4)采用ARS采样技术提取出新的属性集合X, 建立PLSR模型, 并计算RMSECV。

(5)n次采样后, 挑选出RMSECV最小的集合为最优属性子集。

最终采用判定系数R2、 残差平方和RSS、 校正均方根误差RMSEC、 预测均方根误差RMSEP、 平均绝对误差MAE作为根据PLSR建立回归模型的评估指标, 模型R2越高, RSS, RMSEC, RMSEP, MAE越小表明模型具有良好的预测精度和性能。

2 结果与讨论

2.1 原始光谱数据获取

利用激光诱导荧光涌水光谱系统采集光谱数据, 呈现出的水样原始荧光光谱如图2所示, 不同比例的老空水受激光照射时, 其中的荧光物质会吸收光能, 并释放能量产生荧光, 形成荧光光谱, 在400~600 nm之间出现峰值; 六组水样的光谱分布主要分为三个部分, 最上层是老空水光谱, 最下层是砂岩水光谱, 由于这两种水样的化学成分和荧光物质浓度不同, 导致其光谱形状与波峰数量有很大差异, 容易区分, 中间部分为老空水分别混入不同含量砂岩水的四组水样, 这四组水样化学成分接近, 所呈现的光谱难以进行准确的辨别, 因此, 需要借助机器学习回归算法对涌水样本进行精确分析。

2.2 光谱预处理

分别对原始光谱采用S-G卷积平滑和Lowess平滑方法进行去噪预处理, 都采用3个窗口进行平滑, 如图3所示。 较原始荧光光谱, 由于第四、 五两组水样老空水含量相近, 光谱依然存在部分重叠情况, 但其他重叠部分更为分散, 整体水样更容易区分, 说明经S-G卷积平滑和Lowess平滑去噪预处理后的涌水荧光光谱更适合光谱分析。

图2 水样原始荧光光谱

图3 预处理后的荧光光谱

2.3 RF-CARS属性精简

原始荧光光谱数据共2 048个属性, 每个属性都含有不同光谱信息, 不同属性对于光谱分析的重要性程度存在明显差异, 非关键且重要度低的属性将会影响涌水水样回归模型的建立, 达不到较好的预测效果; 利用RF属性约简方法删除重要度低的属性, 提升建模的效率和预测能力。 随机将300组样本以4∶1的比例划分, 240组样本(每组40个样本)划分为校正集, 剩余的60组(每组10个样本)作为预测集, 先对原始光谱及两种去噪方法分别建立PLSR模型, 再用RF分别对其进行初次属性约简; 设置树的棵数ntress为200, 如表1所示, 经Lowess平滑法去噪后, 模型的预测效果最好, 且经过初次约简的属性整体重要性程度W较高且相对稳定, 最终选用Lowess平滑法去噪的光谱数据进行研究。

表1 不同去噪方法预测结果

属性初次约简的属性重要度分布情况如图4所示, 可以看出在2 048个属性中, 大部分属性(共1 662个)的重要度为0, 主要分布在波峰两侧平缓的光谱范围区间内, 这些属性对水样的预测结果没有任何影响, 属于非关键光谱数据信息, 可以将其删去, 其中部分属性由于平滑处理消除了干扰的噪声信号, 使其具有了重要度, 保留剩下的386个属性作为初次约简后的属性。

图4 属性重要度分布

利用RF算法继续对初次约简出的386个属性进行递归约简, 删去重要度为0的不相关属性, 根据PLSR建立回归模型, 递归循环16次的RF属性约简结果如表2所示, 随着递归次数不断增加, 关键属性个数逐渐递减且所对应的预测评估指标R2和RSS也在发生变化, 当递归次数达到6次时, 回归模型的R2达到最大, RSS达到最小, 预测效果最好, 之后关键属性个数和整体预测精度都逐渐趋于稳定, 则约简出的223个光谱属性作为RF算法的最终约简结果。

约简后的光谱属性数量明显减少, 模型预测精度得到提升, 为了达到精准评估的要求, 需进一步精简光谱属性, 将RF算法约简后的223个光谱属性采用CARS算法进行二次约简。

设定蒙特卡洛采样次数为200, 属性精简情况如图5所示, 图5(a)中表示属性精简过程中被选中属性的变化趋势, 随着采样次数的逐渐增加, 由于属性的粗选和精选过程, 被选属性的选择速度逐渐减小, 由图5(b)看出采样过程中, RMSECV值整体变化趋势是先减小后增大, 与矿井涌水预测评估无关的荧光光谱信息在RMSECV值减小过程中被剔除, 对照图5(c) , 当对应蓝色标注位置采样46次时, RMSECV值达到最小值0.021 1, 有用的光谱信息则在之后的采样过程中被消去而降低了模型的预测能力, CARS算法最终精简出了77个有用的光谱属性。

表2 RF属性约简结果

图5 CARS属性精简情况

2.4 PLSR模型验证

图6 校正集预测结果

图7 预测集预测结果

表3 预测结果对比

3 结 论

猜你喜欢

约简水样矿井
基于粗糙集不确定度的特定类属性约简
HC油田N138区注入水配伍性研究
基于二进制链表的粗糙集属性约简
以机器人研发应用引领矿井“四化”建设
建立三大长效机制 保障矿井长治久安
我国相关标准水样总α、总β放射性分析方法应用中存在的问题及应对
平行水样分配器在环境监测中的应用
水样童年
实值多变量维数约简:综述
广义分布保持属性约简研究