APP下载

基于径向基函数神经网络的组合模型在煤工尘肺发病工龄预测中的应用*

2014-09-01武建辉郭正军尹素凤王国立

郑州大学学报(医学版) 2014年6期
关键词:均方尘肺工龄

武建辉,薛 玲,郭正军,尹素凤,王国立

1)河北省煤矿卫生与安全实验室;河北联合大学公共卫生学院流行病与卫生统计学学科 唐山 063000 2)河北联合大学公共卫生学院儿少卫生与妇幼保健学学科 唐山 063000

基于径向基函数神经网络的组合模型在煤工尘肺发病工龄预测中的应用*

武建辉1)△,薛 玲2),郭正军1),尹素凤1),王国立1)

1)河北省煤矿卫生与安全实验室;河北联合大学公共卫生学院流行病与卫生统计学学科 唐山 063000 2)河北联合大学公共卫生学院儿少卫生与妇幼保健学学科 唐山 063000

△男,1981年12月生,硕士,讲师,研究方向:疾病监测、数据挖掘,E-mail:wujianhui555@163.com

径向基函数神经网络;多重线性回归模型;组合模型;煤工尘肺;发病工龄

目的:研究径向基函数(RBF)神经网络与多重线性回归的组合模型在煤工尘肺发病工龄预测中的性能优劣。方法采用RBF神经网络模型与多重线性回归模型对研究数据进行分析,对2模型进行加权拟合,采用均方根误差、均方误差、平均相对误差对模型的预测性能进行评价。结果多重线性回归模型、RBF神经网络模型和组合模型真实值与预测值比较,差异均无统计学意义(t配对=1.552、0.231、0.155,P均>0.05)。多重线性回归模型、RBF神经网络模型和组合模型的均方根误差分别为(1.63±0.11)、(2.45±0.19)和(0.59±0.07)(F=26.141,P<0.001),均方误差分别为(2.656 9±0.241 2)、(5.986 7±0.380 4)和(0.348 3±0.065 3)(F=49.678,P<0.001),平均相对误差分别为(7.15±0.82)%、(15.39±1.25)%和(3.68±0.59)%(F=35.282,P<0.001)。结论在煤工尘肺发病工龄的预测中,组合模型预测性能优于单一模型。

尘肺是因长期吸入生产性粉尘并在肺内潴留而引起的以肺组织弥漫性纤维化为主的全身性疾病[1],其中煤工尘肺占很大比例。煤工尘肺危害严重,一旦发生即使脱离接触粉尘仍可缓慢进展成为严重危害煤矿工人健康的职业病[2-3]。如果在煤工尘肺发病之前对其做出预测,并采取相应的保护措施,例如降低粉尘浓度、及早脱离粉尘接触环境,并给予一定治疗,达到预防煤工尘肺的目的,将会产生巨大的经济效益。但是煤工尘肺发病的危险因子有很多,它们之间的关系也很复杂,有线性因素,也有非线性因素,并且不同接尘工种和工龄的矿工罹患煤工尘肺的危险不同[4-5]。在煤工尘肺发病工龄的预测中,要综合考虑这些因素及其变化,单用一种模型准确对发病工龄进行预测具有很大困难。组合预测本质上是将各种单项预测看作代表不同信息的片段, 通过信息的集成分散单个预测特有的不确定性和减少总体不确定性, 从而提高预测精度[6]。因此找出一种组合预测模型对煤工尘肺的发病工龄做出比较精确的预测显得尤为重要。作者对基于径向基函数(RBF)神经网络的组合模型在煤工尘肺发病工龄预测中的应用进行了研究,现将结果报道如下。

1 对象与方法

1.1调查对象唐山市某职业病医院1949年至2010年确诊的所有煤工尘肺患者1 314例,有效病例1 128例。

1.2调查内容与方法调查内容包括工种、接尘工龄、矿别、出生时间、开始接尘年龄、发病工龄以及是否吸烟等。患者病情信息在该医院数据库基础上,于该医院职业病科进行核实。

在组合预测方法中,权重系数的确定方法很多,可以从不同的方向出发,例如线性、非线性,还有矩阵等。研究[7]表明,若权重系数选择恰当,组合模型预测结果优于各单一模型预测结果。该研究采用取方差倒数的方法求解权重系数, 其思想是为了使组合模型的预测精度尽可能的高,其误差平方和必须最大限度地小,因此对误差平方和小的模型给予较大权重系数,而对误差平方和大的模型给予较小的权重系数。考虑到协方差性质显然有COV(e1,e2)=0,e为各模型的预测误差,于是w1可表达为:

从而有,

通过上面的组合预测法以及组合权重系数的确定方法,就可以使组合预测误差的方差最小。所以由各种单项预测方法的误差平方和计算出权重系数,再乘以单项预测值,就可以得到组合预测的结果。

2 结果

2.1模型的预测效果3种模型的预测效果图见图1~3。可知,3种预测模型都基本符合理想状态下的分布,其中多重线性回归模型和组合模型的分布情况更合理。

图1 多重线性回归预测值与真实值散点图

图2 RBF神经网络模型预测值与真实值散点图

图3 组合模型预测值与真实值散点图

2.2模型的统计学检验结果见表1。可知,多重线性回归模型、RBF神经网络模型和组合模型均可以对煤工尘肺患者的发病工龄进行预测,并且其预测结果真实可靠。

表1 煤工尘肺患者发病工龄真实值与预测值的比较(n=226) a

2.3模型的预测性能从数据库中随机抽取50份样本,分别计算3种模型的均方根误差、均方误差及平均相对误差并进行比较,结果显示组合模型的误差均最小,见表2。

表2 模型预测误差比较(n=50)

*:与多重线性回归模型比较,P<0.05;#:与RBF神经网络模型比较,P<0.05。

3 讨论

作为危害工人健康的头号职业病,尘肺发病情况分析及预测工作在职业病防治中有着极其重要的地位。作者采用了回顾性调查的方法,使用单一模型和组合模型分别对煤工尘肺的发病工龄进行预测,与以往的尘肺调查研究[2]相比,主要有2点不同:就统计分析指标而言,采用的是患者个体的发病工龄,而非群体性指标如发病率、病死率等;就方法而言,引入RBF神经网络的组合模型并用于煤工尘肺个体发病工龄的预测,具有更高的预测精度。

多重线性回归模型具有较好地处理线性因素的能力,但需要对非线性因素进行复杂处理;RBF神经网络模型具有良好的非线性映射能力,但其在拟合过程中,由于初始中心点较多,可能在选择的过程中产生病态数据,从而影响预测性能[8]。煤工尘肺发病工龄影响因素较多,还可能存在着某些未知因素,使用单一模型进行预测时效果稍差。组合模型是将各种单一模型看成是代表集合不同信息方向的整体,将散乱的信息整体组合到一起,实现信息的整合,整合后的信息可以减弱各单一模型的不确定性,削弱误差较大的模型对最后输出结果的影响[9]。组合模型中各个单一模型对所研究数据的敏感性不同,以及各自的优缺点不同,这样导致它们的预测精度也不相同,对组合模型最终结果的贡献也不尽相同。所以组合预测应该把它们的贡献大小尽量表现出来,这样才能最大地发挥各自的作用,预测精度也会增大。组合预测模型最主要的问题就是求出各单一预测方法的权重,使得组合预测模型能最大化地提高预测精度[10]。该研究将2种模型进行组合,在弥补2种单一模型不足的同时,又能减少预测的随机性,提高预测精度。

为了客观地评价各模型的优劣,选择了均方根误差、均方误差、平均相对误差3种误差作为评价指标。均方误差是使用最普遍的预测误差评价指标之一,其计算公式为各样本预测误差的平方之和除以所收集样本数,它能够较明显显示出较大误差的影响, 其值越大, 说明预测误差越大。该研究结果显示组合模型预测的均方误差最小,RBF神经网络模型最大。均方根误差为均方误差的平方根,它只对一组预测数据的可靠性进行分析,可以很好地表现出不同预测模型预测误差的微小差异, 因为其对误差起到了放大效果, 所以它可以敏锐地反映预测误差的细微变化,在实际运用中均方根误差越小越好。该研究中,组合模型的均方根误差最小,预测可靠性优于其他2种预测模型。平均相对误差≤5%时为理想状态。分析显示组合模型的预测精度较RBF神经网络模型和多重线性回归模型小,预测效果理想。通过选择的3种误差指标,均发现组合模型的效果优于其他2种单一模型。

该研究表明,在煤工尘肺发病工龄预测中,组合模型的预测精度明显优于多重线性回归模型和RBF神经网络模型,该组合方法不仅运算简便、迅速,而且有良好的预测精度和较高的识别能力,其对煤工尘肺发病工龄的预测具有一定的应用价值。

[1]李翠兰,钱庆增,沈福海,等.某煤矿掘砌工人肺通气功能分析[J].环境与职业医学,2012,29(6):371

[2]刘红波,杨永利,段志文,等.基于神经网络模型预测未来煤工尘肺发病危险性的研究[J].中国卫生统计,2009,26(6):617

[3]王晓红,武建辉,郭正军,等.基于BP神经网络的煤工尘肺发病工龄预测组合模型的研究[J].中国煤炭工业医学杂志,2013,16(2):263

[4]Lee WL, Choi BS. Reliability and validity of soft copy images based on flat-panel detector in pneumoconiosis classification[J].Acad Radiol, 2013, 20(6):746

[5]Mukhopadhyay S,Gujral M,Abraham JL,et al.A case of hut lung: scanning electron microscopy with energy dispersive x-ray spectroscopy analysis of a domestically acquired form of pneumoconiosis[J].Chest,2013,144(1):323

[6]王丹,张敏,郑迎东.中国煤工尘肺发病水平的估算[J].中华劳动卫生职业病杂志,2013,31(1):24

[7]张国良,后永春,舒文,等.三种模型在肺结核发病预测中的应用[J].中国卫生统计,2013,30(4):480

[8]张辉,柴毅.一种改进的RBF神经网络参数优化方法[J].计算机工程与应用,2012,48(20):146

[9]Rabe F. A logical framework combining model and proof theory[J].Mathemat Struct Comput Sci, 2013, 23(5):945

[10]陈银苹,吴爱萍,余亮科.组合模型对乙肝发病趋势的预测研究[J].解放军医学杂志,2014,39(1):52

(2014-02-25收稿 责任编辑姜春霞)

Application of combination model in forecasting work year of coal workers′ pneumoconiosis based on radical basis function neural network

WUJianhui1),XUELing2),GUOZhengjun1),YINSufeng1),WANGGuoli1)

1)HebeiProvinceKeyLaboratoryofOccupationalHealthandSafetyforCoalIndustry;DivisionofEpidemiologyandHealthStatistics,SchoolofPublicHealth,HebeiUnitedUniversity,Tangshan063000 2)DivisionofMaternal,ChildandAdolescentHealth,SchoolofPublicHealth,HebeiUnitedUniversity,Tangshan063000

radical basis function neural network; multiple linear regression model; combined model; coal workers' pneumoconiosis; onset length of service

Aim: To study the pros and cons of prediction performance of multiple linear regression model and radical basis function neural network combined model to forecast the work year of coal workers′ pneumoconiosis.Methods: Root of mean square error, mean square predict error, and mean percent error were applied to analyze the predicting outcomes of the three models in order to achieve the aim of comparing the prediction performance. Results: For multiple linear regression model,radical basis function neural network and the combination model, the difference between true and predicted values were significant(tpaired=1.552,0.231, and 0.155,P>0.05).The root of mean square error of the multiple linear regression model,radical basis function neural network and the combination model was respectively (1.63±0.11),(2.45±0.19),and (0.59±0.07)(F=26.141,P<0.001). The mean square predict error was respectively (2.656 9±0.241 2),(5.986 7±0.380 4),and(0.348 3±0.065 3)(F=49.678,P<0.001). The mean percent error was respectively (7.15±0.82)%,(15.39±1.25)%,and (3.68±0.59)%(F=35.282,P<0.001).Conclusion: In the prediction of coal workers′ pneumoconiosis incidence seniority, combined forecasting model is superior to a single model.

10.13705/j.issn.1671-6825.2014.06.014

*河北省科技支撑项目 11276911D;河北省卫生厅医学重点项目 20120146;唐山市科技支撑项目 11150205A-3

R181.3

猜你喜欢

均方尘肺工龄
构造Daubechies小波的一些注记
肺康复护理对提高尘肺患者生活质量的影响研究
那些和工龄有关的事儿
Beidou, le système de navigation par satellite compatible et interopérable
你的工龄和这些福利有关
这七种情况,不在岗也能算工龄
煤工尘肺壹期晋期贰期常见影响因素分析
煤工尘肺块状纤维化相关因素的临床观察
一类随机微分方程的均方渐近概自守温和解
基于最小均方算法的破片测速信号处理方法