基于随机森林的综放工作面煤矸图像识别
2020-06-02薛光辉李秀莹钱孝玲张云飞
薛光辉, 李秀莹, 钱孝玲, 张云飞
(中国矿业大学(北京) 机电与信息工程学院, 北京 100083)
0 引言
目前智能化开采成为煤炭安全高效开采的发展方向与必然趋势。国家能源技术革命创新行动计划、国家安全生产监督管理局“机械化换人、自动化减人”科技强安专项行动都将煤炭智能化开采技术列为重点研究方向[1]。每年地下开采的厚煤层产量占煤炭总产量的45%左右,综合机械化放顶煤(综放)开采是目前我国厚煤层矿区主要的采煤方式[2]。由于综放工作面煤矸识别理论和技术尚不成熟,目前多采用人工进行放煤控制。顶煤放落时,主要依靠放煤工人通过耳听和眼观来判断放落的是煤还是矸石,并以此确定顶煤是否放完。放煤过程中存在放煤口粉尘较大、光线弱、空间狭窄等情况,难以准确判断顶煤放落程度,容易导致过放或欠放,且严重损害工作人员身体健康。因此,垮落煤矸自动识别是综放开采智能化的基础理论和关键技术之一,已成为国内外研究热点。
目前有伽马射线法[3]、振动信号法[4-5]、声波信号法[6]、图像法[7]等应用于煤矸识别,前3种方法受到煤矸物理特性等条件的限制。越来越多的学者利用图像法对煤矸识别进行研究:伍云霞等[8]提出基于字典学习算法提取煤矸图像特征;孙继平等[9]通过支持向量机对煤矸特征识别进行了研究;田慧卿等[10]利用小波变换提取图像纹理特征以进行煤矸识别。但现有方法存在参数调节难度高、预测准确率低、易过拟合等问题。针对上述问题,本文提出基于随机森林(Random Forest,RF)算法的综放工作面煤矸识别方法。利用灰度-梯度共生矩阵提取纹理特征,采用RF算法对煤矸纹理特征重要性进行排序降维,对比分析了降维前后RF分类模型对煤矸图像的识别效果。该方法可为放煤自动化提供理论基础。
1 RF算法原理
RF算法于1995年由L. Breiman和Adele Cutler提出[11],是基于Bootstrap重采样法[12],在决策树模型[13]基础上,采用Bagging集成方式[14]构造的学习算法。RF算法下的综放工作面煤矸图像样本分类原理如图1所示。
设(X,Y)∈RM×R,其中X为具有M个元素的特征向量,Y为样本的标签向量。取N个样本构成训练集S,Z个样本构成测试集Q,则RF生成步骤如下。
图1 RF算法下的综放工作面煤矸图像样本分类原理Fig.1 Classification principle of coal-gangue image in fully mechanized top coal caving face based on RF algorithm
(1) 利用Bootstrap重采样法从训练集S中随机且有放回地抽取样本,构建n个子训练集Si(i=1,2,…,n),每次未被抽取到的样本称为袋外数据(Out-of-Bag,OOB)[15]。
(2) 将子训练集Si作为输入,构建分类回归决策树,决策树生成过程中,从M个特征中随机且无放回地抽取m个特征作为子集(m远小于M),使用基尼指数选取最优属性进行节点分裂。每棵子决策树ti最大限度生长,不进行剪枝,m值在整个森林生长过程中保持不变,样本集和特征选择都是随机的,因此子决策树间相互独立,且一定程度上可减少模型过拟合。
(3) 将生成的子决策树的分类结果进行组合,设Pi(cz/f)(z=1,2,…,f,f为类别总数)为子决策树ti分类后某一类别cz出现的概率。煤矸分类为二分类,即f=2,设c1表示分类结果为煤,c2表示分类结果为矸石。
因OOB没有参与RF模型训练,可采用OOB构造袋外误差EOOB。EOOB与交叉验证得到的误差基本一致,常作为模型的泛化误差估计,计算复杂度低,其公式为
(1)
式中Ei为单个OOB预测误差。
2 样本集的建立
2.1 煤矸图像预处理
顶煤放落试验在山西中煤担水沟煤业有限公司担水沟煤矿6203综放工作面进行。该工作面开采9号煤,平均厚度为17.56 m,矸石类型为砂质泥矸与中砂矸。利用矿用摄像仪获取放煤口图像。煤矿井下工作面光线较弱,因此使用防爆光源进行均匀补光。试验中共选取300组垮落煤矸图像,其中200组组成训练集,100组组成测试集。
对采集到的图像做裁剪、灰度转化、对比度增强、图像滤波等预处理。预处理前后的垮落煤矸图像如图2所示。
煤原图
灰度图
增强对比度
图像滤波
矸石原图
灰度图
增强对比度
图像滤波
2.2 煤矸纹理特征提取
灰度-梯度共生矩阵[16]是图像像素距离和角度的矩阵函数,通过图像中一定距离和方向的两点灰度之间的相关性反映图像在方向、间隔、变化上的综合信息。将图像的梯度信息加入到灰度-梯度共生矩阵中,可使共生矩阵更能包含图像的纹理基元及其排列信息,即{H(h,g);h=0,1,…,Lh-1;g=0,1,…,Lg-1},其中H(h,g)为灰度-梯度共生矩阵,h为灰度,g为梯度的总像素个数,Lh为灰度图像的灰度级数,Lg为梯度图像的灰度级数。为降低计算的复杂性,对灰度-梯度共生矩阵进行归一化处理,使其各元素之和为1。
(2)
在H(h,g)基础上,提取了300组煤矸图像的小梯度优势W1、大梯度优势W2、灰度分布不均性W3、梯度分布不均性W4、能量W5、平均灰度W6、平均梯度W7、灰度均方差W8、梯度均方差W9、相关性W10、灰度熵W11、梯度熵W12、混合熵W13、惯性W14、逆差距W1515个纹理特征,即煤矸纹理特征数M=15。构建特征向量W,W=[W1,W2,…,W15],定义垮落顶煤标签为1,垮落矸石标签为2。垮落顶煤和矸石的灰度-梯度共生矩阵纹理特征见表1。
2.3 煤矸纹理特征重要性分析
RF算法在模型构造过程中对煤矸各个纹理特征重要性进行评估。煤矸纹理特征重要性计算方法有2种。
表1 垮落顶煤和矸石的灰度-梯度共生矩阵纹理特征Table 1 Gray-gradient co-occurrence matrix texture features of caving top coal and gangue
(1) 把一个特征变量的取值变为随机数,计算对应的RF预测精度的降低程度。该值越大表示该煤矸纹理特征变量重要性越大。
(2) 采用基尼指数计算每个特征变量对决策树节点上预测值的异质性即节点不纯度的影响。该值越大表示该煤矸纹理特征变量的重要性越大。
衡量煤矸图像灰度-梯度共生矩阵特征重要性的指标如图3所示,指标值越高表示该特征对分类的影响越大。图3(a)是采用精度平均减少值作为衡量标准,而图3(b)则是采用节点不纯度的平均减少值作为衡量标准。由图3可知,小梯度优势W1、梯度分布不均性W4、平均灰度W6、惯性W14、逆差矩W155个特征具有较高的重要性,在RF分裂时贡献较大。
(a) 预测精度平均减少值为衡量标准
(b) 节点不纯度平均减少值为衡量标准
对煤矸纹理特征进行降维,只保留小梯度优势W1、梯度分布不均性W4、平均灰度W6、惯性W14、逆差矩W155个特征值进行模型分类。构建特征向量V,V=[W1,W4,W6,W14,W15]。定义垮落顶煤标签为1,垮落矸石标签为2,构建样本数据库。
3 实验与结果分析
分别采用降维前的煤矸纹理特征W和降维后的煤矸纹理特征V作为RF的输入向量,构建W-RF模型、V-RF模型,进行关键参数的选择,分析对比2种模型的煤矸图像分类准确率及泛化能力,探讨所提出的分类算法应用在综放工作面煤矸图像识别的可行性。
3.1 关键参数的选择与确定
RF模型在对煤矸纹理特征进行训练时,需要调节的关键参数主要包括决策树个数n及每次分裂时选取的特征数量m。
决策树个数n主要根据训练集的规模和特点而定。为减少随机性的影响,设置决策树最大个数为1 000,m为缺省值,在某一确定的决策树个数下,建立100个RF模型进行训练,取煤矸分类准确率的平均值为当前决策树个数下的分类准确率,利用两种RF模型(W-RF、V-RF)进行实验,决策树个数对分类性能影响如图4所示。
由图4可知,不论是降维前还是降维后的煤矸纹理特征作为输入向量,煤矸分类准确率都在决策树个数为100~200区间内达到最高,综合考虑分类准确率及建模速度,选取决策树个数n为150。
图4 决策树个数对煤矸分类性能的影响Fig.4 Influence of number of decision tree on classification performance of coal-gangue
表2 W-RF和V-RF在不同m值下煤矸分类准确率Table 2 Coal-gangue classification accuracy by W-RF and V-RF under different m values
3.2 实验结果分析
(1) RF模型下煤矸分类的查准率与查全率。对于煤矸分类问题,可将测试集根据其真实标签与RF分类结果划分为真正例(TP)、假正例(FP)、真反例(TN)、假反例(FN),具体指标见表3。
表3 降维前后RF模型在测试集上的指标Table 3 Indicators of RF model on test set before and after dimension reduction
查准率是针对RF预测煤矸分类结果而言的,它表示预测为煤的样本中有多少是真正的煤,即TP/(TP+FP)。
查全率是针对测试煤矸样本而言的,它表示样本中的煤有多少被分类正确,即TP/(TP+FN)。
在本次实验中,降维前RF煤矸分类的查准率为0.96,查全率为0.9。降维后RF煤矸分类的查准率为0.98,高出降维前0.02,降维后RF煤矸分类的查全率为0.96,高出降维前0.06。
(2) RF模型煤矸分类的泛化能力。主要从煤矸测试集分类结果、袋外错误率对RF模型煤矸分类的泛化能力进行分析。
煤矸纹理特征降维前后RF模型在测试集上的分类结果如图5所示。同时,如果RF模型对图像的预测类别与测试集中标签类别一致,以“○”标记,反之用“*”标记。
(a) 降维前
(b) 降维后
由图5可知,降维后的RF模型对于煤矸图像错误分类少于降维前的RF模型,错误分类的煤矸图像都分布在中心区域,即在RF模型分类过程中,当输出为煤和矸石的决策树个数相当时,会发生错误分类的现象,这种情况下产生错误是可以接受的,即RF模型的煤矸分类泛化能力可以接受。
降维前后RF模型在煤矸识别过程中产生的袋外错误率如图6所示。
由图6可知,降维前RF模型煤矸分类袋外错误率经50次迭代缓慢达到10%~11%,降维后RF模型煤矸分类袋外错误率经50次迭代快速收敛达到9%,说明降维后RF模型煤矸分类的泛化能力更好,且收敛、训练速度更快。
4 结论
(1) 开展了综放工作面顶煤放落试验,提取了煤矸图像的灰度-梯度共生矩阵纹理特征,构建了纹理特征向量,为后续研究提供了数据支持。
(a) 降维前
(b) 降维后