拉曼光谱联合WOA特征筛选的矿井水源识别方法研究
2024-04-08周茗皓陈小刚崔继峰
周茗皓, 陈小刚*, 崔继峰, 卞 凯, 胡 锋
1. 内蒙古工业大学理学院, 内蒙古 呼和浩特 010051
2. 安徽理工大学电气与信息工程学院, 安徽 淮南 232001
引 言
伴随着煤矿开采深度的不断增加, 煤矿生产过程中将会面临着瓦斯、 水、 火、 煤尘和顶板灾害等一系列煤矿灾害问题[1-2], 矿井水害现已成为继矿井瓦斯灾害之后的第二大灾害[3]。 例如, 2020年11月29日11时30分, 湖南省衡阳市耒阳市导子煤业有限公司源江山煤矿发生重大透水事故造成13人死亡, 直接经济损失3 484.03万元[4]。 为了切实保障煤矿安全生产, 减少矿井水害事故发生, 准确地识别出矿井突水水源的类型是开展水害防治的重要前提[5]。 现阶段, 国内外用于判别矿井突水水源的方法有多种[6-7], 如地下水水位动态、 水化学分析法、 GIS理论分析法等。 其中, 水化学分析法是应用最为广泛的方法之一, 但是水化学方法需要在严苛实验环境获取矿井水源的水化学参数(如pH值、 离子浓度、 电导率等), 此外水化学分析方法耗时较长, 不适合作为矿井水源在线辨识的解决方案。
拉曼光谱法作为光谱分析方法的分支之一[8], 其具有分析精度高、 灵敏度高、 不消耗待测样品等诸多优点, 在农业、 化工以及生物医疗等诸多领域有着普遍应用[9-11]。 但是, 拉曼光谱数据通常维度较大, 数据分析过程较为复杂[12]。 针对这一问题, 需要开展拉曼光谱的特征筛选研究, 减少拉曼光谱数据的冗余, 以此来提升光谱分析的实时性, 这对于保障矿井水源拉曼光谱检测的实时性具有重要意义。
本文在采集矿井水样拉曼光谱的基础上, 首先对水样的原始拉曼光谱进行平滑预处理, 随后采用鲸鱼优化算法(whale optimization algorithm, WOA)筛选矿井突水水源拉曼光谱的特征拉曼信息, 去除拉曼光谱中的冗余信息降低拉曼光谱数据的维度, 筛选出的特征拉曼信息作为不同分类器的输入用于构建矿井突水水源辨识模型, 探索WOA筛选矿井突水水源拉曼光谱特征信息的可行性。
1 实验部分
本文以矿井突水水源拉曼光谱特征拉曼信息筛选为目的, 首先利用拉曼光谱系统获取水样的拉曼光谱, 随后对原始拉曼光谱进行平滑预处理, 然后利用WOA筛选水样拉曼光谱的特征拉曼信息(值得注意的是筛选出的矿井突水水源拉曼光谱的特征拉曼信息并非水分子的特征拉曼峰, 而是矿井水源拉曼光谱中对矿井水源辨识最有帮助的拉曼信息。 ), 最后将筛选出的特征拉曼信息作为不同分类器的输入校验WOA筛选矿井突水水源拉曼光谱特征的可行性。 具体实验过程如图1所示。
图1 矿井突水水源拉曼光谱分析流程图
1.1 材料
本文以2021年10月在淮南张集矿采集的老空水(水样A)、 顶板砂岩裂隙水(水样B)、 奥灰水(水样C)、 太灰水(水样D)和地表水(水样E)为实验材料, 矿井水样采集点信息如表1所示。 在单一矿井水源的基础上, 将顶板砂岩裂隙水、 奥灰水、 太灰水以及地表水和老空水按照体积比1∶1进行混合(分别记为水样F、 水样G、 水样H、 水样I), 共计得到五种单一水样和四种混合水样。 这九种水样各有160个样本, 共计1440个矿井水样样本, 其中每种水样选取112个作为训练集, 即训练集样本数共有1 008个; 每种水样剩余的48个样本作为测试集, 即测试集样本数共有432个。 为保证实验过程中采集到的拉曼光谱数据更加真实、 可靠, 所有采集到的矿井水样样本都避光密封保存。
表1 矿井水样采集点信息
1.2 拉曼光谱采集
采用Laser785-5HFUO激光器(上海如海光电科技有限公司)作为矿井水样拉曼光谱的激发光源, 该激光器的峰值波长为(785±0.5) nm, 激发功率在0~500 mW区间可调。 为便于今后的实际应用, 采用RPB-785-1.5-FS可浸入式探头(上海如海光电科技有限公司), 可直接放入待测水体进行拉曼光谱的测量。 产生的拉曼光谱由XR3000光纤光谱仪(上海如海光电科技有限公司)采集, 该配置有2 048×64面阵近红外增强CCD, 光谱检测范围为780~1 070 nm。 在采集矿井水样拉曼光谱过程中, 激光器功率设定为25 mW, 光谱仪积分时间设定为500 ms, 拉曼光谱的采集由Uspectral-PLUS(Version 5.2.0)软件记录, 同时整个光谱采集过程在暗室中进行。
1.3 拉曼光谱预处理
由于光谱仪采集的光谱信号中除了含有有用信息, 还存在随机误差, 这样测量所得光谱曲线中存在噪声干扰, 因此需要对采集的原始光谱数据进行预处理。 常见的光谱预处理方法有移动平均平滑(moving average smoothing, MAS)、 局部加权回归散点平滑(locally weighted scatterplot smoothing, LOWESS)、 局部散点平滑(locally estimated scatterplot smoothing, LOESS)、 S-G卷积平滑法(savitzky-golay smoothing, SG)、 稳健局部加权回归散点平滑(robust LOWESS, RLOWESS)以及稳健局部散点平滑(robust LOESS, RLOESS)。
1.4 WOA特征拉曼信息筛选
由于受到座头鲸捕食行为的启发, Mirjalili等[13]在模拟座头鲸群体包围、 追捕、 攻击猎物等过程的基础上, 提出了一种新型群智能优化算法, 即鲸鱼优化算法, 该算法具有结构简单、 参数设置少、 收敛速度快以及较强的全局搜索能力。
利用WOA筛选矿井水源拉曼光谱的特征拉曼信息, 其基本思路是: 根据矿井突水水源的拉曼光谱辨识问题确定待优化参数, 即矿井水样的拉曼光谱的特征拉曼信息, 鲸群中每个个体所处空间位置均包含一组特征拉曼信息。 通过适应度函数来衡量个体所处空间位置的优劣, 利用鲸觅食策略不断更新鲸个体位置直至获取最佳鲸空间位置, 即获得待优化问题的最佳的一组特征拉曼信息。 特征拉曼信息的筛选过程如下:
步骤1: 定义适应度函数。 由于WOA是一个求解极小值的过程, 因此将矿井水源分类模型的测试集分类误差作为适应度函数, 即目标函数为
(1)
式(1)中,Ncorrect为测试集中预测正确的样本数量,Ntest为测试集总的样本数量。
步骤2: WOA参数初始化。 从全波段拉曼光谱数据中随机选取一组特征拉曼信息作为初始鲸鱼位置, 并设置WOA的参数, 包括群体数目N、 最大迭代次数T以及选择收缩包围机制和螺旋位置更新的概率p(p为[0, 1]上的随机数, 初始值采用随机函数设定)。
步骤4: 当p<0.5时, 若A<1, 按照式(2)来更新当前鲸群个体的空间位置。
对总有效率、NIHSS评分和预后良好率3个评价指标绘制倒漏斗图,见图6、图7和图8。结果显示所有漏斗图基本对称,大部分数据点均匀分布于倒漏斗图的上部,提示发表偏移的可能性很低。
(2)
(3)
(4)
(5)
步骤5: 当p≥0.5时, 按照式(6)来更新当前鲸群个体的空间位置。
(6)
式(6)中,b为定义的对数螺旋形状常数,l为[-1, 1]之间的随机数。
1.5 拉曼光谱分类
为了实现拉曼光谱数据的分类辨识, 采用BP神经网络(back propagation neural network, BPNN)、 K-近邻算法(k-nearest neighbor, KNN)、 支持向量机(support vector machine, SVM)、 决策树(decision tree, DT)以及朴素贝叶斯(naive Bayesian, NB)等基础分类算法构建拉曼光谱分类模型, 以此来实现矿井水源拉曼光谱的辨识。
2 结果与讨论
2.1 原始拉曼光谱
利用XR3000光纤光谱仪采集矿井水样的拉曼光谱数据, 实验测得九种水样(每种水样160个样本)的1 440个样本的拉曼光谱图如图2所示。 从图中可以看出, 单一的老空水具有较好的辨识度, 但是当出现混合情况时变得难以区分, 混合比例接近的混合水样略有重叠, 因此需要借助化学计量学方法进行分类辨识。
图2 原始拉曼光谱
为了更加直观地了解不同水样的拉曼光谱差异性, 采用五种算法作为分类器, 将原始拉曼光谱数据作为输入, 观察不同分类器下矿井水源拉曼光谱的分类效果, 相关结果如图3所示。 从图3中可以看出, 针对原始的拉曼光谱数据, 采用不同的分类器得到的分类效果存在一定的差异性, 但是我们注意到BP、 KNN、 SVM、 DT和NB这五种算法都具有较高的分类精度, 所有的算法对于测试集样本的分类精度均高于90.00%。 不同分类算法对于原始拉曼光谱数据的分析结果差异性主要体现在分类器模型本身的差异性, 此外, 原始拉曼光谱数据存在一定噪声, 而不同的分类算法对于噪声的抗干扰能力也是不同的。
图3 原始拉曼光谱数据的分类结果
尽管五种分类算法对于原始拉曼光谱具有不错的分类精度, 但是矿井水源拉曼光谱辨识精度还有进一步提升的空间, 因此, 对原始拉曼光谱进行光谱平滑处理是十分必要的。
2.2 平滑预处理
为消除噪声干扰, 减小误差, 同时保留光谱曲线中的有用信息, 分别采用MAS、 LOWESS、 LOESS、 SG、 RLOWESS以及RLOESS对矿井水源的原始拉曼光谱数据进行预处理, 并将预处理后的光谱信息作为分类器的输入, 得到预处理后拉曼光谱在五种算法模型下的分类精度如表2所示。
表2 不同预处理方法的辨识准确率(%)
通过观察表2可以发现, 对矿井水源的原始拉曼光谱进行平滑预处理后, 不同分类器下拉曼光谱的分类精度都有了一定程度的提升。 特别地, 我们发现当采用不同的预处理方法对原始拉曼光谱进行处理时, 五种分类器的平均识别精度各异, 而采用MAS处理时, 五种分类器的平均识别精度可以达到最大值, 即98.94%, 这说明MA更加适合用于矿井突水水样原始拉曼光谱的平滑处理。 而当采用SVM作为拉曼光谱数据的分类器的时候, 六种不同的分类器均可以实现100.00%的识别精度, 这说明这五类分类算法中, SVM算法更加适合用于分析平滑预处理后的拉曼光谱。
此时, 五种分类器对于预处理后的拉曼光谱有着比较高分析精度, 但是, 原始拉曼光谱数据维度较大(2 048维), 分析过程耗时较长。 以MAS处理后的拉曼光谱数据为例, 统计不同分类器的分析时间如表3所示。 可以看出, 不同分类器的对于拉曼光谱的分析时间具有显著性的差异, 其中KNN和DT分类器的分析时间较短, BP和SVM分类器的分析时间较长, 而NB分类器的分析时间最长, 需要700多秒。 因此, 采用的一定的特征选择策略对拉曼光谱进行拉曼信息筛选, 有效降低光谱数据的维度, 提升数据分析的速度是很有必要的。
表3 不同分类器的分析时间(s)
2.3 WOA拉曼信息筛选
矿井水样拉曼光谱数据共有2048个光谱数据点, 由于数据量很大, 运算时间很长, 而且存在一定的共线性, 在构建矿井水源识别模型的时候可能会导致模型的预测能力不够高。 因此, 使用WOA对水样拉曼光谱数据进行拉曼信息筛选, 提取出拉曼光谱数据中重要性高的特征拉曼信息。
原始拉曼光谱数据经过MAS预处理后, 然后使用WOA进行特征拉曼信息筛选, 最后利用筛选的特征拉曼信息数据建立KNN分类模型(选择KNN作为分类器是为了减少WOA迭代筛选特征拉曼信息的时间), 最小的分类误差值对应的拉曼信息变量个数为最终的筛选结果。 特别地, 在使用WOA进行特征拉曼信息筛选的过程中, 将群体数目设置为5, 将最大迭代次数设置为100。 图4为提取不同个数的拉曼信息变量时分类误差的变化趋势图, 从图中可以看出, 分类误差从最初的1.16%, 经过9次迭代筛选后达到了最小值0.00%。 此时, 筛选出的特征拉曼信息数量为102个, 也就是说, 当筛选出的102个特征拉曼信息就可以实现矿井水样拉曼光谱的精准辨识。
图4 WOA在不同迭代次数下的分类误差
与全部的2 048个拉曼光谱数据点相比, 由WOA筛选出的102个特征拉曼信息将原始拉曼信息的点数缩减为原来的4.98%, 优选出的102个特征拉曼信息如图5所示, 在图中以红色的方块表示, 可以看出筛选出的特征拉曼信息有效地覆盖了拉曼光谱的波峰和波谷位置, 因此其可以保证拉曼光谱分析的精度。
图5 WOA选择最佳特征拉曼信息
2.4 筛选后光谱分析
为了进一步验证WOA筛选出的拉曼信息的有效性和可靠性, 将筛选出的拉曼信息作为矿井水源辨识的输入信息, 分别使用BPNN、 KNN、 SVM、 DT和NB这五种分类算法构建矿井水源类型的辨识模型, 统计五种分类算法的分类精度和分析时间, 相关结果如表4所示。
表4 筛选出拉曼信息的分析结果
通过观察表4可以看出, 五种不同的分类算法对于筛选后的特征拉曼信息数据都有着非常优异的辨识性能, 识别精度均可以达到100.00%。 而当我们观察分析时间的时候, 可以很明显地看出分析时间大大缩减了, 这主要是因为拉曼光谱数据的维度降低了, 使得分析速度变快。 通过和表1中全维度拉曼光谱数据的分析时间进行比较, 可以看出, 不同分类器的分析时间都有着不同程度的下降, 其中KNN的分析时间最短(由0.13 s缩短至0.03 s), 而NB的分析时间缩短最多(从700.48 s缩短至34.68 s)。 综上, 采用WOA来筛选矿井水源拉曼光谱的特征信息是有效的, 并且可以提升分析速度, 这对于矿井水源的快速检测具有借鉴价值。
3 结 论
以老空水、 顶板砂岩裂隙水、 奥灰水、 太灰水和地表水以及它们混合的水样作为研究对象, 使用拉曼光谱系统采集不同水样的拉曼光谱数据。 首先, 采用不同的处理方法对原始拉曼光谱数据进行平滑预处理, 然后利用WOA筛选拉曼光谱的特征拉曼信息, 最后将筛选出的特征拉曼信息作为输入, 在BPNN、 KNN、 SVM、 DT和NB分类器下验证WOA筛选矿井突水水源拉曼光谱特征拉曼信息的效果。 研究结果表明: MAS对于原始拉曼光谱的平滑效果最好, 可以有效地消除拉曼光谱数据中的部分随机噪声, 提高光谱分析精度; 利用WOA进行拉曼光谱的特征拉曼信息筛选, 从2 048个拉曼数据点中优选得到102个特征拉曼信息, 大幅减少了后续建模的数据维度, 而且WOA筛选的特征拉曼信息的建模精度高于全拉曼数据建模精度; 采用WOA筛选的特征拉曼信息构建BPNN、 KNN、 SVM、 DT和NB水源辨识模型时, 其分析速度都有着不同程度的提升。 综上, 采用WOA筛选矿井水源拉曼光谱的特征信息, 可以有效地减少拉曼光谱数据的冗余, 可以为矿井水源的快速检测提供借鉴。