APP下载

基于分位数回归的煤炭发热量预测

2022-08-13赵先枝陈军林

工矿自动化 2022年7期
关键词:发热量因变量煤质

赵先枝, 陈军林

(1. 内蒙古煤炭地质勘查(集团)一五三有限公司,内蒙古 呼和浩特 010010;2. 中国地质大学(北京) 地球科学与资源学院,北京 100083))

0 引言

煤炭发热量是评价煤质的关键指标,对于煤炭利用、煤炭价值评估等非常重要[1]。精确的煤炭发热量数据需要通过实验测试得到,但煤炭发热量的实验测定在当前技术条件下较繁琐、耗时且昂贵[2]。在对煤炭发热量精度要求不高的情况下,通常通过建立数学模型,利用测试相对廉价且容易获取的指标来预测煤炭发热量。在煤炭发热量预测方面,前人提出了线性回归[3-4]、BP神经网络[5]、支持向量回归[6-7]等方法。其中实际应用最广泛的是线性回归,该方法模型简单、计算快速,但存在以下问题:对于非线性数据拟合能力欠佳,难以表达较为复杂的自变量和因变量关系;需要数据服从特定的分布假设;对异常值敏感。

分位数回归是Roger Koenker和Gilbert Bassett于1978年提出的一种回归分析方法[8],经过不断发展形成了线性分位数回归、神经网络分位数回归、分位数回归森林等方法。分位数回归具有如下优点:不需要对数据做任何的分布假定;具有对异常点不敏感的特征;模型比较稳健;能够给出比传统回归分析更丰富的预测结果;可用来研究自变量与因变量之间的关系。目前关于分位数回归在煤炭发热量预测方面的应用研究较少。本文采用线性分位数回归和分位数回归森林2种分位数回归分析方法对煤炭发热量进行预测,分析各预测变量对结果变量的影响,并与传统线性回归方法进行对比,分析不同回归分析方法在煤炭发热量预测中的效果。

1 数据介绍

为建立可靠的数学模型,需要充足的数据来进行回归模型训练和测试。美国地质调查局的COALQUAL(https://ncrdspublic.er.usgs.gov/coalqual/)煤炭质量数据库[9]包含了美国25个州的煤质样品测试数据,数据量大且煤质分析指标较全面,可以公开使用。本文从该数据库中选取煤质工业分析数据和元素分析数据组成数据集,考虑到实际应用中更多地使用工业分析数据进行发热量计算,选取煤炭的全水分Mt、灰分Asd、挥发分Vad3个工业分析指标来进行回归分析,计算低位发热量Qnet,ad。

数据集中一些数据存在空值、异常值等问题,因此在回归分析之前,需要进行数据预处理,剔除包含空值的数据,删除明显在正常煤质指标范围之外的异常数据。经过数据预处理得到4 540个煤质样品测试数据,其中80%的数据用来训练回归模型,其余数据用来测试回归模型。

2 方法原理

2.1 线性回归

线性回归方程为

式中:yi为第i(i=1,2,…,n,n为样本个数)个样本的因变量; β0为常数项; βj为第j(j=1,2,…,p,p为自变量个数)个自变量的回归系数;xij为第i个样本的第j个自变量。

通过已知的自变量和因变量求解式(1)中的常数项和回归系数,得到自变量和因变量之间的函数关系,利用该函数关系可对新的样本进行预测。

2.2 线性分位数回归

线性分位数回归是线性回归的扩展,其方程与线性回归方程相似:

式中:τ为分位点,取值范围为0~1;Qτ(yi)为因变量yi的τ分位数估计值; β0(τ)为 常数项; βj(τ)为第j个自变量的τ分位数回归系数。

通过使中值绝对偏差达到最小来找到最佳的分位数回归线。

式中:M为中值绝对偏差; ρτ为检查函数。

检查函数根据误差的分位数和符号(正或负)为误差赋予不对称权重。

式中μ为单个数据点的误差。

传统线性回归分析预测的结果是因变量的条件期望,分位数回归的预测结果则是因变量的条件分位数,不同分位点对应不同的条件分位数估计值[10],多个条件分位数估计值构成了因变量的条件概率分布[11]。

2.3 分位数回归森林

由线性回归扩展得到的线性分位数回归能处理的问题有限,预测结果往往精度不高。近年来有许多学者将分位数回归思想应用到机器学习算法中[12-14],如将分位数回归与随机森林[15]结合,形成了分位数回归森林方法。该方法继承了随机森林算法抗过拟合能力强、稳定性高、无需复杂调参、可处理非线性回归问题等优点。其计算过程如下:

(1) 生成多棵决策树,存储每棵决策树每个叶节点的所有观测值。

(2) 给定观测变量x,遍历所有决策树,计算每棵决策树观测值的权重wi(x)。

(3) 对于所有y∈R,利用权重wi(x)计算分布函数的估计:

式中:X为自变量矩阵;I(·)为示性函数;Y为决策树节点上的因变量观测值。

(4) 计算条件分位数的估计值:

式中inf{·}为取下限函数。

3 结果及分析

回归模型需要先确定输入变量集,以确保所使用的自变量能够反映因变量的变化,同时自变量之间能够排除多重共线性。不同自变量之间及其与发热量之间的关系可用相关系数(表1)来表示。从表1可看出,Mt与Qnet,ad之间的相关性很高,且呈负相关,说明该指标是回归分析预测发热量的主要指标。而Vad,Asd与Qnet,ad的相关系数均较小,说明这2个指标对于发热量预测的重要性远低于Mt。Mt,Vad,Asd3个预测变量之间的相关性也较小,则可同时使用Mt,Vad,Asd来构建回归模型。因此,发热量预测模型以Mt,Vad,Asd为预测变量,以Qnet,ad为结果变量。

表1 煤质参数相关系数Table 1 Correlation coefficients of coal quality parameters

利用训练数据训练线性回归模型,得到回归方程:Qnet,ad=37.736-0.087Vad-0.647Mt-0.387Asd。对线性回归方程进行检验,得到方差膨胀因子小于10,表明自变量之间不存在多重共线性,且回归方程F检验显示回归效果显著。

用测试数据对训练好的线性回归模型进行验证。选取9个分位点(τ=0.1~0.9),利用R语言软件包quantreg,quantregForest分别执行线性分位数回归、分位数回归森林,采用均方误差、平均绝对误差、均方根误差和决定系数4个指标来评价回归分析结果,得到不同回归模型评价结果,见表2。

表2 不同回归模型评价结果Table 2 Evaluation results of different regression models

从表2可看出,不同回归分析方法得到的结果有一定差别,但决定系数均在0.96以上(τ= 0.5时),说明用Mt,Vad,Asd3个指标来预测煤炭低位发热量是可行的,能够得到较为可信的发热量预测值。分位数回归森林方法的预测误差随分位点增大呈先减小后增大趋势,在τ= 0.5处预测误差最小,且决定系数最大达0.984,预测效果优于线性回归和线性分位数回归方法。

不同回归分析方法下回归拟合线如图1所示。可看出线性回归拟合线为1条,且穿过数据点分布范围的中心,反映的是数据点的平均趋势,但仅1条线无法限定数据点的分布范围;分位数回归拟合线为多条,大部分数据点分布在τ= 0.1和τ= 0.9对应的2条拟合线之间的范围内(未包括在该范围内的数据点为异常点)。由此可知,线性回归给出的预测值是1个均值,而通过分位数回归能够给出预测值的范围,在评估煤质时更具有实际意义。

图1 不同回归分析方法下回归拟合线Fig. 1 Regression fitting lines under different regression analysis methods

通过线性分位数回归可计算出不同分位点对应的回归系数,见表3。

为研究不同预测变量对结果变量的影响,根据表3可得线性分位数回归系数随分位点变化曲线,如图2所示。可看出Mt回归系数随分位点增大呈增大趋势,其绝对值则越来越小,说明Mt对低发热量煤炭的发热量预测影响大,对高发热量煤炭的发热量预测影响小。Vad和Asd的回归系数随分位点增大呈先减小后略增大趋势,其绝对值则先增大后稍有减小,说明Vad和Asd对低发热量煤炭的发热量预测影响小,对高发热量煤炭的发热量预测影响大。

表3 不同分位点下线性分位数回归系数Table 3 Linear quantile regression coefficients under different quantiles

图2 线性分位数回归系数随分位点变化曲线Fig. 2 Variation curves of linear quantile regression coefficients with quantiles

4 结论

(1) 应用线性回归、线性分位数回归、分位数回归森林3种回归分析方法进行了煤炭发热量预测,其中分位数回归森林的预测误差最小。

(2) 分位数回归方法能够预测煤炭发热量的条件分位数,而不仅仅是条件均值,从而为煤炭发热量预测提供了更丰富的信息。

(3) 根据煤质参数相关系数评估全水分、灰分、挥发分对于煤炭发热量预测的重要程度,结果表明全水分对于煤炭发热量预测的重要程度远大于灰分和挥发分。

(4) 利用线性分位数回归分析了全水分、灰分、挥发分对煤炭发热量预测的影响,结果表明:全水分对低发热量煤炭的发热量预测影响大,对高发热量煤炭的发热量预测影响小;挥发分和灰分对低发热量煤炭的发热量预测影响小,对高发热量煤炭的发热量预测影响大。

猜你喜欢

发热量因变量煤质
多煤层复杂煤质配煤入选方案的研究
不同分选工段瘦精煤煤质分析与配伍性研究
调整有限因变量混合模型在药物经济学健康效用量表映射中的运用
煤炭中全水分对收到基低位发热量影响的规律分析
浅析单一煤种及混煤中灰分与发热量的相关关系
煤炭中外水分对发热量的影响探讨
多元线性回归分析在动力煤低位发热量测定中的应用
偏最小二乘回归方法
谈谈如何讲解多元复合函数的求导法则
精心设计课堂 走进学生胸膛