APP下载

基于时间序列和机器学习预测尘肺病发展趋势研究

2023-11-13李申龙王振平卢国群徐修立李宗山

中国煤炭 2023年10期
关键词:年产量尘肺病权值

李申龙,王振平,卢国群,徐修立,李宗山,初 昊,肖 旸

(1.陕西未来能源化工有限公司金鸡滩煤矿,陕西省榆林市,719000;2.西安科技大学安全科学与工程学院,陕西省榆林市,710054)

0 引言

我国是一个以煤为主的能源生产和消费大国,目前我国煤炭消费量占全球的20.3%。当前,煤炭仍是我国最主要的能源,且在今后相当长的时间内以煤为主的能源消费结构不会改变[1]。“十三五”期间煤矿整体安全生产形势呈稳定好转趋势,但随着整体开采深度的增加,煤矿粉尘灾害日益严重[2]。井下工人长期吸入矿尘,极易引发尘肺病,因吸入煤尘过多而患上尘肺病的工人数量在逐年增加[3]。

据统计,煤矿井下采煤工作面是产尘量最大的位置,约占50%,掘进工作面约占35%,喷浆作业地点约占10%,装煤、运煤以及卸煤过程约占5%[4]。这些生产环节所产生的粉尘有一部分可以通过一些降尘措施进行消除,但有大部分粒径较小的粉尘会从这些降尘措施中“逃逸”,并且可以长时间悬浮于生产作业空间之中[5-7]。这些粒径较小的粉尘被称为呼吸性粉尘,它可以通过防护面罩,经过鼻腔进入肺部并且无法从肺部排出,沉降在肺泡里导致肺部纤维化,最终导致尘肺病的发生[8]。由于这种尘肺病主要发病于煤矿行业,因此这类尘肺病又叫煤工尘肺病。在煤矿行业中,尘肺病是一种常见的职业性疾病,作为“隐性”矿害,它有着比瓦斯爆炸、水害等“显性”矿难更大的威胁[9]。据统计,每年因尘肺病死亡的矿工人数远高于其他原因死亡的矿工人数,并且尘肺病是一种潜伏时间较长的职业病,其危害的持续之久、程度之恶劣都足以引起大家对它的重视[10]。根据国家卫建委公布,近几年尘肺病新增病例总数约24.76万人,其中煤工尘肺病新增约12.54万人,约占50.65%[11]。

综上所述,煤工尘肺病是占比最大的尘肺病病种。结合全国煤炭年产量、煤矿从业人数与每年尘肺病病例数,综合考虑各种影响参数,建立合理的模型预测2024-2030年煤炭产业发展状况与尘肺病的发展是一个重要的研究方向。笔者采用时间序列预测法预测2024-2030年全国煤炭年产量和煤矿从业人数,取2021年和2022年的真实数据作为参照,得出时间序列预测法的精确度;使用1998-2022年的煤炭年产量、煤矿从业人数与1998-2021年尘肺病病例数作为变量建立神经网络预测模型,将时间序列预测法得到的煤炭年产量和煤矿从业人数作为输入变量,取2021年的真实数据作为参照,用来对比检验模型,从而预测2024-2030年全国尘肺病患病病例数。

1 理论研究

1.1 时间序列预测法

时间序列预测法的原理是假设现阶段以往数据可以准确地显示其过去的历史轨迹[12]。则假定以往序列{Y}的历史轨迹时刻(1~n-1)对应的显示值{y1,y2,…,yn-1}及当前时刻n对应的显示值yn,利用时序列预测法对未来出现的n+t(t≥1)时刻的值yn+t进行预测。当预测步长只有1 时,称之为单步预测;当预测步长大于1时,称为多步预测。设预测模型为:

(1)

f(…)、g(…)——待估函数;

{ζ}——观测噪声。

1.2 BP神经网络

BP神经网络(BPNN)是一种按误差反向传播训练的多层前馈网络,主要包括输入层、隐藏层和输出层3部分,3部分之间主要依靠权值和阈值连接[13],结构如图1所示。基本的BPNN是通过不断进行信号的正向传播和误差的反向反馈这2个过程来反复修正各单元权值和阈值,从而缩短预测值与目标值的差距。本研究输入层神经元个数为3,代表输入的影响因素;隐含层神经元个数为7,与输入层神经元个数n为2n+1的关系;输出层神经元个数为1,代表输出的尘肺病病例数。训练次数选择1 000次,训练目标选为0.000 1,学习速率选为0.01。

1.3 遗传算法优化后的BP神经网络(GA-BPNN)

GA-BPNN的要素主要包括5部分,首先通过编码现有的权值和阈值从而得到一个初始的种群,而编码的权值和阈值一般采用区间[-0.5,0.5]内的随机数[14]。个体编码使用二进制编码,主要包括输入层和隐藏层之间权值、隐藏层与输出层之间权值、隐藏层本身阈值、输出层本身阈值4部分,通过十位的二进制编码,将所有阈值和权值的编码连接起来形成个体的编码;之后为找出最优个体需要计算种群适应度值,其中obj作为目标函数的输出;最后进行变异操作,用随机方法选出发生变异的基因,如果所选的基因编码是1,则需要将其变为0,如果所选的基因编码是0则需要变为1。遗传算法运行参数包括群体范围T、遗传代数G、交叉概率Pe和变异概率Ph。在本研究中遗传代数选用100,交叉概率0.7,变异概率0.01。GA-BPNN算法流程如图2所示。

图2 GA-BPNN算法流程

2 结果分析与尘肺病发展趋势预测

本次预测模型选取数据来自于国家统计局官网、国家卫建委官网以及部分文献[15]。为预测2024-2030年尘肺病的发展方向,首先对1998-2020年煤炭行业从业人员和煤炭年产量2个变量进行统计,部分统计曲线如图3所示[16]。

图3 1998-2020年煤矿从业人员、煤炭年产量及尘肺病病例数

由图3可知,煤炭年产量自1998年以来,除个别年份外,基本呈现稳步上涨趋势,说明煤炭依然是我国的能源主体;1998-2001年,煤矿井下作业人数呈现下降趋势,2001年以后又呈现上升趋势,2014年以后呈现大幅下降趋势,这一方面与国家发布政策有关,另一方面与现阶段全国煤矿实现智能化矿井有关;尘肺病病例数在2017年之前呈现上涨趋势,而近几年尘肺病病例数在不断下降。

随着国家对尘肺病的不断重视,新型高效的除尘技术在不段的研究发展,作业人员的个体防护措施也在不断加强,这使得在今后几年时间里,尘肺病新增病例数可能会维持在10 000人左右。

根据统计的1998-2020年全国煤矿从业人员和煤炭年产量数据,采用时间序列预测法对2024-2030年全国的从业人员和年产量进行预测。预测模型使用SPSS软件建立,煤矿从业人员的预测模型采用最优的布朗模型,煤炭年产量选用最适于预测的霍尔特模型,预测结果见表1。

表1 2024-2030年煤矿从业人员和煤炭年产量预测值

由表1可以看出,煤炭年产量逐年递增,呈现稳步增长状态。现阶段国家大力发展智能化矿井,采掘速度和运输速度方面在不断提升,加之国家能源的主体依旧是煤炭,人们对煤炭的需求量不断加大,因此煤炭年产量有稳定增长的趋势,预测结果符合时代的发展和人们的需求。煤矿从业人数预测在2024年将达到256.85万人,在之后的几年会呈现微型波动的趋势,这种趋势取决于人们对煤炭产能的需求。而随着智能化矿井的推进,井下工作面工人数量将会实现部分缩减,但由于操作系统及设备的维护更换等仍需部分高科技作业人员,其趋势依旧为小幅度下降。

分析2021—2022年我国煤炭产业经济形势研究报告[17]和2022—2023年我国煤炭产业经济形势研究报告[1]得出,2021年我国煤炭年产量40.7亿t,煤矿从业人数261.2万人,2022年我国煤炭年产量45.0亿t,煤矿从业人数259.7万人。通过上述预测模型计算得出,2021年煤矿从业人数为263.29万人,煤炭年产量为41.34亿t;2022年煤矿从业人数为260.48万人,煤炭年产量为45.89亿t。通过对比报告真实结果与预测模型的预测结果可以看出,二者趋势相同。

将统计的1998-2020年全国煤矿从业人员和煤炭年产量数据分为23组,首先构建标准BP神经网络模型,训练样本随机抽取18组,其余5组数据作为测试样本,采用R2、标准均方根误差检验值(NRMSE)、 平均绝对百分误差(MAPE)以及相对误差作为判断拟合程度的评价指标,预测值如图4所示。

图4 2种模型下的预测值和相对误差

由图4可以看出,5组测试集中除了第二组和第四组数据有较大偏离外,其余3组预测值与真实值较为接近;由误差曲线可以清楚看出,第一组和第三组预测值与真实值最为接近。再将2021年和2022年煤矿从业人员和煤炭年产量值以及SPSS软件模拟的2024-2030年煤矿从业人员和煤炭年产量预测值以及年份作为神经网络预测阶段的输入变量,预测结果见表2。

表2 2024-2030年尘肺病病例数预测值

通过分析预测值和真实值之间的关系,发现BPNN采用煤炭年产量、煤矿作业人员数量以及年份对尘肺病病例数进行预测是可行的,但是由于BPNN本身的局限性,它的预测精度未能达到预期效果。结合评价指标值可以看出BPNN中决定系数R2值为0.811,这表明BPNN的拟合效果欠佳,还需要进一步优化。

为提高BPNN的预测精度,采用GA优化后的BPNN模型。通过采用GA-BPNN模型对上述BPNN模型相同的训练集和测试集进行训练和测试,其测试集的预测值如图4所示。从图4可以看出,经GA优化后的BPNN模型相较之标准BPNN而言,其预测精度有了明显的提升;通过误差曲线也可以看出,经GA优化后BPNN相较标准BPNN而言误差有明显的下降。

BPNN和GA-BPNN的评价指标值如图5所示。由图5可以看出,经GA优化后的BPNN决定系数R2与BPNN相比有了明显的提高,而NRMSE、MAPE则是有明显的下降。当R2越接近于1,说明该模型的预测值越接近真实值;当NRMSE、MAPE越小,预测值越精准。

采用同样方法,将2021年和2022年煤矿从业人员和煤炭年产量值以及SPSS软件模拟得出的2024-2030年煤矿从业人员和煤炭年产量预测值以及年份作为神经网络预测阶段的输入变量代入到经GA优化后的BP神经网络模型后,2024-2030年尘肺病病例数预测结果见表2。通过对比BPNN和GA-BPNN的预测值可以得出,BPNN的预测值在8 700~29 000之间,预测值左右偏离较大。而GA-BPNN预测值在8 800-10 000之间,预测值浮动不大,这表明GA-BPNN模型更加稳定,由此可得经GA优化后的BPNN提高了预测精度和模型的稳定性。

据国家卫健委官方数据统计,2021年尘肺病新增病例数为11 809例。对比2021年份GA-BPNN模型尘肺病病例数的预测值11 529人,其相对误差为2.37%;而BPNN模型尘肺病病例数的预测值13 115人,其相对误差为11.06%。因此,GA-BPNN的模型预测精度更高,而在往后的几年时间里,新增尘肺病例数应该普遍呈现降低趋势,这与国家对职业病防治的重视程度有密切关联,此外煤矿从业人数的减少对职业病病例数的增减也有重要影响。

3 结论

(1)结合我国国情和煤炭行业的发展前景来看,经过时间序列预测法得到的预测值,具有合理的发展趋势,并且通过选取最优的模型可以大大提高时间序列预测模型精度。

(2)根据尘肺病病例的预测结果可以清楚发现BPNN预测出的尘肺病病例数与真实值之间相差不大,表明通过BPNN建立从业人员数、煤炭年产量以及尘肺病患病人数的预测模型具有一定的科学依据,并且有一定的可行性。

(3)经GA优化后的BPNN预测结果明显优于BPNN 的预测结果,表明GA对标准BPNN模型的权值和阈值进行了优化得到最佳的权值和阈值,相较之只使用标准BP神经网络模型而言,经GA优化后的BP神经网络模型避免了局部最优解,使得模型更收敛,预测结果更加精确。

(4)通过不断增加尘肺病预测模型的输入变量个数,不断优化神经网络模型,可有望建立一个普遍适用的预测尘肺病患病人数模型,从而可以尽早提出相应的预防措施,不断完善职业病管理机制。

猜你喜欢

年产量尘肺病权值
石斑鱼年产量已破20万吨!2023年,你对这条鱼的信心有多大?
增长4.17%!年产量重回80万吨,2023年河蟹如何延续280元/斤的“高价神话?
国家尘肺病诊疗中心组建
一种融合时间权值和用户行为序列的电影推荐模型
一例尘肺病患者的呼吸康复治疗体会
番茄小镇年产量达到500万千克
痛泻要方加味汤治疗尘肺病验案2则
CONTENTS
STAR FLOWER WATER 百年“明星”两岸渊源 1929年产量超过1000万瓶
基于权值动量的RBM加速学习算法研究