APP下载

基于决策树的矿井通风阻变型故障诊断及传感器优化布置*

2021-03-12倪景峰乐晓瑞常立峰邓立军

中国安全生产科学技术 2021年2期
关键词:决策树矿井故障诊断

倪景峰,乐晓瑞,,常立峰,邓立军

(1.辽宁工程技术大学 安全科学与工程学院,辽宁 葫芦岛 125105; 2.辽宁工程技术大学 矿山热动力灾害与防治教育部重点实验室,辽宁 葫芦岛 125105; 3.山西瑞通路桥新技术有限公司,山西 太原 030000)

0 引言

复杂通风网络故障诊断和风速传感器优化布置是实现智慧矿山的关键技术之一,矿井通风仿真系统的应用与人工智能的蓬勃发展,使得矿井通风智能故障诊断的实现成为可能。故障诊断系统的应用具有较大的社会价值和经济效益,但目前故障诊断系统的研究较少[1-2]。

决策树由心理学家和计算机科学家E.B.Hunt于1962年提出,其运行速度快、鲁棒性好、易扩展到大型数据库中、可嵌入式特征选择等优点使其广泛应用于医疗诊断、股票预测和目标检测等领域[3-4]。决策树学习算法不仅可以构建分类和回归故障诊断模型,还可以进行嵌入式特征选择,二者在同一过程中完成,是解决矿井通风故障诊断与风速传感器优化布置的最优解决方案。

在矿井通风故障智能诊断方面,刘剑等[5]将矿井风门失效、巷道冒落变形、巷道堵塞、巷道掘进延伸或报废等现象称为通风系统阻变型故障;郭欣[6]、姚志强[7]利用机器学习的方法对通风网络和管网进行故障诊断,通过矿井通风仿真系统建立阻变-风量(风压)故障样本,以分支编号作为分类标签,阻变量作为回归值,利用支持向量机对样本进行训练和分类预测,初步实现矿井通风智能诊断。

在传感器优化布置方面,火源探测传感器优化布置[8]和瓦斯传感器无盲区优化布置[9]等研究相对成熟,但针对故障诊断的风速传感器优化布置研究较少。赵丹等[10]、潘竞涛等[11]对角联巷道传感器位置优化进行研究,并在大明矿矿井通风故障诊断系统中进行实际布置实验;刘剑等[12-13]在矿井通风系统阻变型故障诊断及风速传感器位置优化研究中提出 “扫帚模型”的传感器布置方法;居银银[14]提出基于决策树和特征选择的神经网络钓鱼网站检测研究,通过特征选择减少维度灾难,提高钓鱼网站监测能力。现有的风速传感器优化布置主要是通过计算巷道分支相关度来选择传感器布置地点,本质是过滤式特征选择,未将诊断模型的性能作为传感器布置评价标准,难以满足故障诊断系统需要与传感器布置相匹配的实际要求。

鉴于此,本文提出1种嵌入式风速传感器优化布置方法,构建基于决策树的智能故障诊断系统,并在唐安矿进行模拟实验,该方法的步骤如下:

1)利用IMVS构建唐安矿矿井通风仿真系统,通过改变巷道分支风阻构建空间数据集,地理位置靠近的巷道分支产生的故障对通风系统的影响相似。

2)对空间数据集预处理,分别确定适合回归和分类的故障样本集的无量纲化方式。通过比较ID3和分类与回归树(CART)故障诊断准确率,选择更适合的决策树模型。

3)对决策树进行剪枝处理,以获得更优复杂度的故障诊断模型,降低泛化误差,提高准确率。

4)设置对照实验,确定风速传感器最优布置数量及布置地点,验证布置方法的有效性。

本文为矿井通风故障诊断提供1种新的嵌入式风速传感器优化布置及智能诊断方法,并通过唐安矿验证模型的有效性。其应用可解决风速传感器布置与故障诊断模型不匹配的问题,提高模型故障诊断准确率。智能诊断系统能够及时发现隐患,避免故障可能带来更大的损失,提高煤矿智能化水平。

1 空间故障样本集预处理

1.1 构建矿井通风仿真系统及数据预处理

矿井通风智能故障诊断系统主要由矿井通风故障样本集、故障位置分类判断模型、故障量回归预测模型及风速传感器优化布置4个方面构成。

数据是故障诊断的基础,矿井通风故障样本集是由通风网络映射产生,具有空间自相关性[15]。保持唐安矿结构及风机动力不变,改变巷道分支风阻模拟通风网络阻变型故障,利用矿井通风仿真系统IMVS[16]生成“阻变地点—阻变故障量—风量”关系的空间数据集D。

将矿井通风空间数据集不同规格的数据转换为统一规格,能够提高模型收敛速度和提升模型准确率,避免某个取值范围较大的特征对模型计算造成影响。其主要处理方式为数据归一化和标准化[17]。不同的模型需要独特的数据处理方式,不能脱离模型评价数据预处理方式的好坏。数据归一化的公式如式(1)所示:

(1)

式中:x*为样本数据归一化值;x为样本数据;max(x)为样本数据最大值;min(x)为样本数据最小值。

数据标准化的公式如式(2)所示:

(2)

式中:x′为样本数据标准化值;μ为样本数据均值;σ为样本数据标准差。

1.2 模型性能度量

在构建矿井通风故障诊断模型之后,还需要对模型诊断性能进行评估。矿井通风故障位置判断的目标为尽可能正确地诊断故障地点,因此需对模型使用故障诊断准确率进行度量,其计算如式(3)所示:

(3)

式中:Accuracy为故障诊断准确率;M为模型正确分类样本个数;m为故障位置诊断所有样本数。

故障量回归预测的目标为使预测值与真实值尽可能接近,因此使用均方误差对模型进行度量,如式(4)所示:

(4)

2 决策树故障诊断及传感器优化布置原理

2.1 决策树的故障诊断模型

决策树是1个有向无环图,其用树状图的结构来呈现通风网络故障诊断规则,以解决故障位置分类判断和故障量回归预测问题[18]。矿井通风故障诊断的决策树模型如图1所示。由图1可知,1棵决策树包含1个根结点Q1,表示监测风量,若干对应测试特征的内部结点Q2和若干对应故障位置和故障量结果的叶结点ei,树杈表示对特征的1次划分;v表示决策树划分时选择的风量。

图1 矿井通风故障诊断的决策树模型Fig.1 Decision tree model for fault diagnosis of mine ventilation

2.2 嵌入式风速传感器优化布置方法

风速传感器优化布置的核心是从所有巷道分支中确定最适合布置传感器的地点和最优布置数量,即利用最少的特征达到最优的分类和回归效果[19],嵌入式传感器布置原理如下:

1)决策树每次分枝均会选择对信息熵或基尼系数影响大的特征,因此,在决策树模型中选择排序靠前的特征是对分类、回归模型影响较大的特征,该特征即为传感器布置巷道分支。

通过信息增益为准则来选择划分特征的决策树称为ID3[20],空间数据集D的信息熵Ent(D)定义为式(5),Ent(D)的值越小,则数据集D的纯度越高。

(5)

式中:D为空间数据集;k为1,2,…,|y|;pk为第k类样本所占的比例。

以基尼指数作为划分特征标准的决策树称为CART,Gini(D)反应从数据集D中随机抽取2个样本,其类别标记不一样的概率,Gini(D)越小,则数据集的纯度越高。空间数据集D的纯度用基尼值表示的计算如式(6)所示:

(6)

式中:K为样本的总类别;Gini(D)为样本集D的基尼值。

2)将选择的巷道分支代入到模型中,权衡模型故障诊断准确率与风速传感器数量的关系,选择最优布置数量。

嵌入式风速传感器优化布置方法将特征选择与故障诊断训练在同一个算法中进行,有效地解决模型与特征选择不匹配的问题[21]。风速传感器优化布置不仅能够降低监测成本,提高传感器利用率,还是降低数据维度、避免维度灾难重要手段。

3 实例研究

3.1 唐安矿通风网络仿真系统

唐安煤矿坐落于山西省高平市马村镇唐西村西,占地50万m2,可采资源储量约1.4亿t,巷道分支数n=88,其中13处巷道分支安设通风调节设施,原始参数情况下,风机工况点的风机风量和网络风阻分别为107 m3/s,1 874 Pa,构建唐安矿空间数据集的步骤为:

1)对唐安矿通风系统进行普查,其内容包括记录巷道、掘进工作面、采煤工作面、构筑物的参数和主要结点标高。

2)对唐安矿矿井通风系统进行阻力测定,确定各段巷道的实际风量、风阻和阻力系数,测量构筑物的风量和阻力。

3)构建唐安矿矿井通风仿真系统IMVS,并综合调试。

4)保持通风网络结构及风机动力不变,通过改变巷道分支风阻生成“阻变地点-阻变故障量-风量”故障样本,通过重复步骤1)~4)生成空间数据集D。

3.2 唐安矿通风网络故障诊断模型

将空间数据集随机划分为70%的训练样本和30%的测试样本,由式(3)可计算出,数据标准化的唐安矿通风故障位置诊断的十折交叉验证故障诊断准确率为85.58%。数据归一化的故障位置诊断的十折交叉验证故障诊断准确率为86.3%。对于矿井通风故障位置判断模型,数据的归一化处理准确率优于标准化处理。

数据归一化的唐安矿矿井通风故障位置判断图如图2所示。实际阻变位置和预测阻变位置重合代表故障位置判断正确。

图2 唐安矿矿井通风故障位置判断模型Fig.2 Judgment model of mine ventilation fault location in Tang’an mine

唐安矿故障位置判断的错误主要为邻近巷道分支,其原因为邻近巷道分支的发生故障对系统影响相似,故障诊断错误在一定程度上不影响故障维修人员对故障地点的判断。

由式(4)可计算出,空间数据集归一化的唐安矿通风故障回归预测十折交叉验证的均方误差为0.603 1。数据标准化的故障量回归预测的十折交叉验证均方误差为0.286 3,空间数据集集标准化处理能明显提高决策树回归准确率。

空间数据集标准化的唐安矿矿井通风巷道分支故障量回归预测图如图3所示。

图3 唐安矿矿井通风巷道分支故障量回归预测模型Fig.3 Regressive prediction model of branch fault quantity in mine ventilation roadway of Tang’an mine

3.3 唐安矿风速传感器优化布置

本文使用贝尔实验室设计的开源图表工具graphviz对决策树进行可视化,以CART可视化的前2层为例对决策树进行解释,如图4所示。

图4 唐安矿通风网络故障诊断CART前2层可视化图Fig.4 Visualization diagram for first two layers of fault diagnosis CART on ventilation network in Tang’an mine

决策树每个方框中包含的数据有特征划分值qi,将结点划分为2类;根结点的样本数为1 253,经过划分将样本分为1 186和67;决策树将基尼系数高的特征作为根结点,该特征也是对决策树影响最大的特征;划分比例value,根据划分结果class将每种分类结果按比例放置在value中。

根据式(3)计算,矿井通风故障诊断ID3决策树故障位置分类十折交叉验证的平均故障诊断准确率为84.9%,其故障诊断准确率低于CART决策树。

唐安矿巷道CART决策树基尼系数最高的20条巷道分支基尼系数见表1。其中,num为基尼值排序;label为巷道分支编号;gini为基尼系数;samples为样本数。

表1 唐安矿巷道分支基尼系数Table 1 Gini coefficients of roadway branch in Tang’an mine

唐安矿通风网络风速传感器优化布置图如图5所示,标注Qi的巷道分支为风速传感器布置巷道。嵌入式风速传感器布置能够在算法运行过程中自动忽略相似和冗余特征。

图5 唐安矿通风网络风速传感器优化布置Fig.5 Optimized layout of wind speed sensors in ventilation network of Tang’an Mine

风速传感器数量的选择需要多次构建决策树模型,不断减少特征数来权衡准确率和特征数量之间的平衡。以基尼系数从大到小的顺序选择传感器布置点,风速传感器布置数量与随机布置对比如图6所示。

图6 唐安矿风速传感器布置数量优化Fig.6 Optimization on layout number of wind speed sensors in Tang’an mine

由图6可知,风速传感器的数量与故障诊断准确率成正比,基尼系数大的巷道分支对准确率影响较大。随着风速传感器布置数量的增加,模型故障诊断准确率的提升放缓。选择基尼系数最大的15条巷道分支作为风速传感器布置点,根据式(3)计算其故障诊断准确率为84.5%,高于随机对照组的故障诊断准确率68.2%。

3.4 唐安矿决策树故障诊断模型剪枝

决策树学习算法会倾向于过拟合,使得模型泛化能力下降。决策树剪枝处理能够有效地降低模型复杂度,提升故障诊断准确率。

选择故障诊断准确率更高的CART决策树进行剪枝处理,决策树最大深度对准确率影响关系如图7所示。由图7可知,当最大深度小于45时,决策树拟合不足,不足以刻画模型。当最大深度大于45时,模型过拟合,故障诊断准确率下降。

图7 决策树最大深度剪枝效果Fig.7 Pruning effect on maximum depth of decision tree

决策树叶结点最小样本数min_samples_leaf与故障诊断准确率关系图如图8所示。由图8可知,当叶结点最小样本数为6时,故障诊断准确率最高。

图8 决策树叶结点最小样本数剪枝效果Fig.8 Pruning effect of minimum sample number for leaf node of decision tree

当叶结点最小样本数为6,最大深度为45时,CART决策树泛化误差最小,故障诊断准确率最高为91.1%。

4 结论

1)决策树学习算法不仅能够构建矿井通风故障位置判断分类模型、故障量预测回归模型,还能对嵌入式风速传感器优化布置。

2)矿井通风空间数据集由矿井通风网络映射产生,具有空间自相关性的特点。嵌入式特征选择由算法本身删除相似特征与冗余特征,解决故障诊断算法与风速传感器匹配度低的问题。

3)空间数据集归一化能够提高故障位置判断分类模型准确率,标准化能够提高故障量预测回归模型准确率。

4)CART准确率略高于ID3决策树,决策树剪枝处理能够降低泛化误差,提高模型故障诊断准确率。

5)选择基尼系数最高的15条巷道分支作为风速传感器布置地点,其故障诊断准确率优于随机布置对照组。随着风速传感器布置数量的增加,故障诊断准确率提升放缓。

猜你喜欢

决策树矿井故障诊断
基于包络解调原理的低转速滚动轴承故障诊断
一种针对不均衡数据集的SVM决策树算法
以机器人研发应用引领矿井“四化”建设
建立三大长效机制 保障矿井长治久安
决策树和随机森林方法在管理决策中的应用
基于决策树的出租车乘客出行目的识别
因果图定性分析法及其在故障诊断中的应用
水循环高效矿井乏风热泵系统分析与应用
基于肺癌CT的决策树模型在肺癌诊断中的应用
基于LCD和排列熵的滚动轴承故障诊断