APP下载

基于深度残差网络和近红外光谱的煤矸石智能识别

2024-04-23王亚栋贾俊伟谭韦君

分析测试学报 2024年4期
关键词:煤矸石矸石残差

王亚栋,贾俊伟,谭韦君,雷 萌

(1.山西天地王坡煤业有限公司,山西 晋城 048000;2.天地(常州)自动化有限公司,江苏 常州 213125;3.中国矿业大学 信息与控制工程学院,江苏 徐州 221116)

煤矸石作为煤炭开采和加工过程中产生的副产品,其含碳量较低,燃烧性能不佳。当煤矸石混入煤炭中时,会显著降低煤炭的发热效率[1]。因此,在煤炭被输送至市场前,对煤矸石进行有效的识别和分选至关重要[2-3]。目前,煤矸石的分选主要依赖人工拣选、湿选和干选等方法[4]。人工拣选虽具有一定的灵活性,但在追求高效率的现代生产环境下,其效率和准确性均显不足,同时高强度的劳动也可能引起工人的健康问题。湿法分选虽然在一定程度上提高了效率,但其复杂的工艺流程和大量的水资源消耗可能导致严重的环境污染。干选法主要包括破碎法、射线法和图像识别法[5-7],其中破碎法成本较低,但普适性较差;射线法辐射性较强,需要加装隔离设备,设备成本较高;图像识别法易受光照和粉尘的影响,难以达到生产要求。

近红外光谱分析(NIRS)技术凭借快速、实时、无需化学试剂和对环境无害的特性,在煤炭的定性和定量分析领域得到了广泛的认可和应用[8]。杨恩等[9]将光谱探头安装于采煤机上,通过分析煤岩界面的近红外反射光谱曲线,实现了煤岩界面分布的快速精确探测。Yu 等[10]通过改进线性判别分析算法,并结合近红外光谱技术对煤产地进行检测,识别准确率达97.21%。Zou 等[11]基于近红外光谱技术和改进的U 型网络,挖掘多个煤质工业参数的关联特性,实现了多煤质参数的协同预测。宋亮等[12]通过建立标准化差异煤炭指数模型分析可见光-近红外光谱,实现了烟煤与褐煤的分类。Xiao等[13]将局部感受野与极限学习机结合,基于可见-近红外光谱,实现了烟煤、无烟煤、褐煤等煤种的分类。也有部分研究人员将近红外光谱应用于煤矸石识别领域。李廉洁等[14]采用特征波长筛选策略,基于可见-近红外光谱高光谱成像,实现了黑色背景下块状煤与矸石的识别。但针对煤与矸石的近红外光谱智能识别研究尚处于起步阶段。

以卷积神经网络(CNN)为核心的深度学习技术能够高效、自主地挖掘数据内蕴藏的潜在特征,应用范围广泛,覆盖计算机视觉、自然语言处理、医学信号处理和语音识别等领域[15-16]。

基于上述背景,本文从河南、河北、山东3个煤矿产区采集了不同煤种的430组煤和矸石样本,构建了国内首个开源的煤炭与矸石近红外光谱数据集,通过迭代计算欧氏距离以识别并剔除异常光谱,确保数据集的质量和代表性。同时通过融合深度学习和近红外光谱分析技术,构建了基于一维残差网络(1D-ResNet)的分类模型,用于煤与矸石的快速识别(相关数据和代码开源于:https://github.com/usefulbbs/Coal-Gangue)。

1 数据与方法

1.1 光谱数据采集

煤炭作为一种天然形成的化石燃料,其化学组成和物理性质受到地质成因和成矿环境的显著影响。由于不同地区的地质条件差异,煤炭展现出多样的性质特征[17]。为丰富实验样本、增加样本的多样性,实验分别从河南、河北和山东3 个省份采集了430 组煤炭和矸石样本,每个产地的样本数量如表1 所示。在河南与河北境内所采集的主要是无烟煤,其含碳量与燃点较高,密度、硬度较大,燃烧时无烟产生,广泛用作化工业重要原料和民用生活燃料;在山东省内所采集的煤炭主要为焦煤,属于中等变质烟煤,发热量高、粘结性强,是炼焦的重要原料。

表1 不同产地的煤和矸石样本数量Table 1 Number of coal and gangue samples from different regions

根据我国煤炭开采的相关标准和规定,并结合对我国矿井的实地调研,确定本实验的环境条件为:采集温度(20±10)℃,相对湿度50%±20%,并在正常大气压强下进行实验。实验使用VIAVI公司生产的高性能便携式近红外光谱仪MicroNIRTMPro采集样本的光谱数据。为了确保测量的准确性和重复性,对每个样本进行5 次扫描,以扫描结果的均值作为最终测量数据。鉴于煤与矸石均属于固体样本,采集时将仪器设置为漫反射模式,并固定仪器与样品的距离为20 mm,以获得最佳的光谱反射效果。光谱波长范围为908.1~1676.2 nm,涵盖了125 个不同的波长点,可为分析提供丰富的光谱信息。为保持数据的一致性和可靠性,每隔10 min 进行一次背景校正,确保光谱数据的稳定性和准确性。样本的近红外光谱是典型的一维数据,图1给出了煤和矸石各25个样品的近红外光谱图。

图1 部分样本的近红外光谱图Fig.1 Near infrared spectra of a few samples

1.2 异常光谱剔除

在样本光谱采集的过程中,环境的变化或不恰当的操作均可能会导致数据集中出现与正常光谱显著不同的异常值。这些异常值的存在不仅会干扰数据分析,还可能误导模型的训练过程,从而影响最终的测试结果。因此,建模之前需对光谱数据进行细致的异常值检测和剔除。

欧几里得距离(ED),即欧氏距离,是欧几里得空间中两点间的直线距离,常用于衡量数据间的相异度。 光谱数据集Xm×n=[x1,x2,...,xm]中样本间的欧氏距离可表示为:

式中,xi为第i个样本的光谱,包含n个特征点,i= 1,2,...,m;xj为第j个样本的光谱,包含n个特征点,j= 1,2,...,m;xik为第i个样本光谱的第k个特征点,k= 1,2,...,n;xjk为第j个样本光谱的第k个特征点,k= 1,2,...,n。

对于采集到的样本,其分布近似遵循正态分布。实验通过采用迭代方法和3-sigma 准则,逐步剔除样本光谱数据集中的异常值,具体步骤如下:

Step1:计算数据集Xm×n的平均光谱xˉ,平均光谱代表了光谱数据集的综合属性,能反映数据的总体趋势;

Step2:根据公式(1)计算各样本光谱到xˉ的欧氏距离{D(xi,xˉ)|i= 1,2,...,m};

Step3:按照99.7%的置信度检测异常值,利用3σ准则将检测阈值设置为D标准差的3倍(3σ)。其中,平均值:

标准差:

Step4:当|D(xi,) -μ| ≥3σ时,即判定xi为异常值并剔除。当有异常值被剔除时,须重新计算新数据集的。重复以上步骤,直至无异常值出现。

通过上述过程从数据集中移除可能导致模型训练偏差的异常光谱,从而保证模型的泛化能力和测试结果的可靠性。

1.3 1D-ResNet

残差网络(ResNet)是一种高效的深度学习结构。在其训练过程中,网络各层的参数和非线性映射函数会逐步调整优化,以最小化网络输出与实际标签之间的损失函数。这一优化过程确保了近红外光谱输入在经ResNet处理后提取的特征与目标标签之间的对应性。具体而言,网络通过赋予对最终预测结果有正向影响的特征更高的权重,同时降低可能引入误差的噪声成分的权重,以此提高模型的准确性和鲁棒性。

残差网络构建在残差模块之上,通过加入“短路连接”实现恒等映射。典型的残差模块如图2 所示。恒等映射可通过跨越两个卷积层的直接连接,实现模块的输入与主路径输出的叠加。这样的设计允许梯度在训练过程中直接传递,无需经过多层非线性变换,极大地减轻了梯度消失的问题。此外,这种短路连接还有助于网络更有效地学习恒等映射,从而使更深层次的网络训练变得更加稳定和高效。

图2 残差模块结构图Fig.2 Structure of the residual module

原始的ResNet结构主要是为二维图像数据设计的。近红外光谱是一种一维数据,需要在网络设计上进行调整以适应其特性[18]。首先,将常规的二维卷积层替换为一维卷积层,使卷积核可在光谱数据上沿一个维度进行卷积操作。其次,在考虑光谱数据特性和处理需求的基础上,将网络的超参数设置如下:残差模块中卷积层的数量为2,卷积核大小为3,滑动步长和填充数量均为1,其中的激活函数采用指数线性单元(ELU):

式中,s为ELU单元的输入值;α为可调节参数。

ELU 可以避免神经网络在变得更深时出现梯度消失问题。与线性整流函数(ReLU)不同,ELU 会在输入为正时直接输出该值,而在输入为负时输出一个小的负数。这种设计既避免了ReLU 的“死区”问题,又可以减少噪声的影响。

残差模块的输出维度(卷积核数量)需要根据模块所在的位置进行调整,1D-ResNet 的结构和数据维度变化如表2 所示。初始单个样本的光谱维度为(1,125),以其作为网络的输入数据。在输出维度中,第一维表示输入数据的批大小( Batch size),第二维表示特征维度,第三维表示网络通道数。

表2 1D-ResNet网络参数Table 2 Parameters of the 1D-ResNet network

1D-ResNet 的网络结构如图3 所示。批归一化层(BN)用于加快和稳定训练过程,最大池化层用于压缩特征图大小,保留显著信息[18-20]。残差模块保存了原始输入信息,有效缓解了梯度消失问题。Flatten用于将多维的输入一维化。全连接层作为分类器,输出的两个数值经Softmax函数处理后作为每个类别的条件概率。

图3 1D-ResNet的结构图Fig.3 Structure diagram of 1D-ResNet

针对煤和矸石的二分类任务,在模型训练时采用交叉熵损失函数(Loss)进行分类:

式中,y为真实的标签值(0或1);p为预测标签为1的概率值。

1.4 模型评价方法

模型预测的准确率A按照下式进行计算:

式中PT为正确分类为煤的样本个数;PF为错误分类为煤的样本个数;NT为正确分类为矸石的个数;NF为错误分类为矸石的个数。

实验采用五折交叉验证对模型进行评估,将样本随机均分成5 份,每次选择其中1 份作为测试集,其余4份作为训练集,共进行5次实验。为了避免样本不平衡对实验结果的影响,在样本划分时,每一份样本中煤和矸石的数量大致相当。最后,取5次预测准确率的平均值用于衡量模型的性能。该方法能够全面评估模型在不同数据集上的泛化能力和稳定性,从而确保得出的结论基于全面和均衡的数据分析。

2 结果与讨论

2.1 异常值剔除

为避免异常值的干扰,本实验按照样本来源地和类别,基于欧氏距离对异常样本进行迭代剔除。异常值的判定过程如图4 所示,在对河南矸石样本集进行第1次迭代时,2#样本与平均光谱的欧氏距离超出了阈值,因此被作为异常值剔除,在第2 次迭代时未发现异常值,迭代终止。类似地,山东煤炭中的46#样本被当作异常值剔除,其余样本集中未发现异常值。

图4 河南矸石数据异常值第1轮迭代(A)和第2轮迭代(B)剔除过程,以及山东煤数据异常值第1轮迭代(C)和第2轮迭代(D)剔除过程Fig.4 The exclusion process of outliers in the first iteration(A) and the second iteration(B) for abnormal values in Henan gangue data,as well as the exclusion process in the first iteration(C) and the second iteration(D)for abnormal values in Shandong coal data

图5 展示了河南矸石和山东煤中异常样本光谱与正常样本光谱的对比。图中实线表示正常光谱,虚线表示异常光谱。尽管正常样本和异常样本的光谱在整体趋势上相似,但在吸光度值上存在显著差异。这种差异可能源于测量设备的偏差或操作人员引入的误差,这些因素会对模型的最终预测结果带来不利影响。

图5 河南矸石光谱数据集(A)和山东煤光谱数据集(B)中异常样本与正常样本光谱对比示意图Fig. 5 Comparison schematic of spectral data between abnormal samples and normal samples for the Henan gangue spectral dataset(A) and the Shandong coal spectral dataset(B)

2.2 建模分析

图6 展示了1D-ResNet 在训练过程中损失变化的曲线图。在该图中,实线代表训练集的五折平均损失变化,虚线则表示测试集的五折平均损失变化。在训练的初期阶段(0~约400轮),训练集和测试集对应的损失迅速下降,表明1D-ResNet 具有良好的学习和拟合能力,能在标签的引导下快速、准确地调整模型参数实现模型的有效训练。之后,损失曲线趋于平稳并维持在一个较低的水平,表明模型在经过充分训练后,已达到较好的收敛状态。此时,模型的性能在训练集和测试集上表现出一致性,说明1D-ResNet 在处理此类数据时具有较好的泛化能力。这种稳定的损失趋势也表明了模型对于捕捉煤矸石光谱特征的有效性,同时避免了过拟合的问题,确保了模型在实际应用中的可靠性和预测准确性。

图6 五折交叉验证平均损失变化曲线Fig.6 Five-fold cross-validation average loss change curve

为客观评价1D-ResNet 的性能,本实验将其与近红外光谱领域中常用的分类模型进行了对比,包括支持向量机(SVM)、决策树(DT)、随机森林(RF)和K近邻(KNN)。使用五折交叉验证对每种方法进行评估,得到对应的模型参数量、每一百个样本的平均推理时间和分类准确率,结果如表3所示。

表3 不同模型实验结果对比Table 3 Comparison of experimental results of different models

在传统方法中,SVM 的性能较好,五折交叉验证准确率为93.92%。1D-ResNet 的预测准确率高达96.26%,明显优于其它方法,表明由残差模块构成的网络模型,能较好地分析样本光谱特征,学习煤与矸石光谱间的差异。虽然1D-ResNet每一百个样本的平均推理时间为16.230 ms,长于其它模型,但已满足实际应用需求,这一时间上的轻微牺牲并不会对其有效性产生显著影响。

3 结 论

在传统的煤矸石识别方法中,人工分选和机械湿选存在效率低、消耗大量水资源等问题。为解决此问题,本文融合近红外光谱分析技术和深度学习方法,实现了快速、有效的煤矸石识别。通过采集不同产地不同煤种的430 组煤和矸石样本,增强了实验结果的普适性和可靠性,并提供了更具代表性的数据基础。采集样本的近红外光谱后,利用欧氏距离剔除了数据集中的异常值,并构建了基于1DResNet 的识别模型,该模型能够自动学习光谱的内在特征。五折交叉验证结果表明,模型的分类准确率达96.26%,优于传统的机器学习方法(SVM 和随机森林等)。该文为煤矸石识别提供了一种快速实用、简洁高效的分析方法。

猜你喜欢

煤矸石矸石残差
浅谈煤矸石在固废混凝土中的应用
矿井矸石山环境危害与防治措施分析
基于双向GRU与残差拟合的车辆跟驰建模
矿山矸石绿色充填系统设计及参数研究*
邢东矿ZC5160/30/50型复合型充填液压支架的研究与应用
基于残差学习的自适应无人机目标跟踪算法
基于递归残差网络的图像超分辨率重建
煤矸石的综合利用
平稳自相关过程的残差累积和控制图
改性煤矸石对污水中油的吸附作用