APP下载

FiPLS在烟煤水分近红外检测中的应用*

2016-09-02杨晓丽马公喆陈云秀汪文超刘梦娇

广州化工 2016年4期
关键词:烟煤个数区间

杨晓丽,马公喆,陈云秀,汪文超,刘梦娇

(曲靖师范学院化学化工学院,云南 曲靖 655011)



FiPLS在烟煤水分近红外检测中的应用*

杨晓丽,马公喆,陈云秀,汪文超,刘梦娇

(曲靖师范学院化学化工学院,云南曲靖655011)

偏最小二乘是一个在近红外光谱解析中常用的计量学算法,结合变量筛选方法既可以提高模型的预测能力,也可以大大降低建模的难度。本文将前向区间偏最小二乘用于烟煤水分近红外光谱解析。提取出的区间数为2,变量个数从1557减少到54个。所提取的波长区间主要位于O-H一级泛频吸收带。预测平均绝对百分误差从0.0865降低到0.0818。研究结果表明,前向区间偏最小二乘可以显著减少变量数并提高预测准确度。

烟煤;水分;偏最小二乘;区间选择

近红外光谱技术是一项快速、准确、无损伤的检测手段,目前已广泛用于农业、文本识别、营养物质检测、石油化工等领域[1]。由于近红外光谱属于典型的高维数据,且包含了大量随机噪声、仪器噪声、无用信息等,这给近红外光谱解析带来了巨大挑战。化学计量学方法常用来解析近红外光谱,如偏最小二乘[2]、人工神经网络[3]、支持向量机[4]等。偏最小二乘(partial least squares,PLS)可以很好地解决光谱共线性问题,常用于建立近红外光谱检测模型。在建立PLS模型的同时对光谱区间进行选择,可以进一步提高建模精度、简化模型。区间策略[5]和移动窗口技术[6]已用于光谱区间筛选。

煤炭在生产、流通和使用过程中,常需要检测发热量、水分、挥发分、灰分、固定碳等项目。传统分析方法耗时、繁琐,时间滞后性严重,往往不能满足工艺调整的需要[7]。虽然煤的组成复杂,但是可以通过近红外光谱技术获得C-H、S-H、O-H等键的泛频、合频及倍频吸收。因此,近红外光谱技术被用来尝试解决煤质分析快速、实时、自动化问题[8-9]。

本文针对烟煤水分检测,采用前向偏最小二乘法对光谱区间进行筛选,并建立检测模型。以交叉检验均方根误差评价光谱区间优化效果,以预测绝对平均百分误差、回收率和相关系数来评价模型预测精度。

1 实 验

1.1烟煤中水分检测

烟煤样品处理至80目粒度,采用热重分析测量烟煤水分[10]。共100个样品,从中选出测量值居中的10个样本用于预测,剩下的90个样本用于建立模型。

1.2近红外光谱采集

采用Thermo Antaris Ⅱ采集烟煤样品近红外光谱,波数范围4000~10000 cm-1,分辨率:8 cm-1,扫描次数:64,每条光谱包含1557个点。

2 前向区间偏最小二乘

偏最小二乘(partial least squares,PLS)采用正交策略提取出光谱中主成分并建立多元线性回归模型[2]。由于PLS依据主成分分析建立回归模型,因此主成分个数对建模准确性非常重要。PLS在建模过程中,依次提取出包含信息量多的主成分,当主成分的贡献率达到85%以上就可以认为包含了有用信息且剔除了噪声及无用信息。本文中PLS自动提取累计贡献率85%以上的主成分建立回归模型。

区间偏最小二乘(interval partial least squares,iPLS)将光谱分成m个等宽子区间,在每个子区间建立PLS回归模型。采用留一法[11]计算交互验证均方根误差(root mean squared error of cross validation,RMSECV)衡量该区间包含信息量多少。前向区间偏最小二乘(forward interval partial least squares,FiPLS)首先将各区间RMSECV从小到大排序,依次增加区间并计算新的留一交叉验证误差,若误差降低继续增加区间,若误差增大停止,所得到的就是筛选出的区间。用筛选出的区间建立PLS模型并进行预测,求得平均绝对百分误差(mean absolute percent error,MAPE)、均方根误差(root mean squared error of prediction,RMSEP),并考察预测回收率。

3 结果与讨论

由于本文采用的PLS自动筛选出累计贡献率达到85%的主成分建立回归模型,因此FiPLS模型需要调整的参数只剩下区间宽度。

3.1区间个数对区间筛选结果的影响

区间个数(nw)决定了FiPLS的准确度,本文考察了区间个数从5~100,对最终预测MAPE和RMSEP影响(图1)。

图1 区间个数对MAPE和RMSEP的影响

显而易见,MAPE和RMSEP对区间个数变化比较敏感,在一定区间内上下波动。当nw>60时,MAPE和RMSEP的波动变得略宽,出现几个小平台。这说明区间个数较少时,区间划分对包含信息影响较大,因此MAPE和RMSEP波动较大。随着区间个数的逐渐增多,每个区间包含的变量个数逐渐减少,区间个数变化对区间宽度影响较小,MAPE和RMSEP的波动变宽。仔细考察MAPE和RMSEP,可以发现MAPE随nw变化更精细,更能反映nw对区间筛选结果的影响。因此本文选取MAPE确定FiPLS最终结果。当nw=58时,FiPLS结果最佳,模型获得的MAPE=0.818,RMSEP=0.0021。

为了进一步评价模型对未知样本的预测能力,本文还采用预测值与实际值的相关系数r来监控模型性能。nw变化对r的影响见图2。

从图2可见,r与MAPE及RMSEP类似,都对nw变化很敏感。但r变化趋势与MAPE及RMSEP并不一致,较低的MAPE或RMSEP并没有提高预测值与实际值的相关性,这说明nw对各样本预测准确度的影响不一致,较高的相关性并不能代表较好的预测性能。

3.2区间筛选结果

当nw=58时,FiPLS获得了最好的预测结果。筛选出的区间有两个,分别位于703~729变量区间及859~885变量区间(图3),对应的波数范围是6707~6807 cm-1及7309~7409 cm-1。7209~7305 cm-1和6607~6703 cm-1均位于O-H一级泛频吸收带[12]。这进一步说明FiPLS可以有效实现光谱区间筛选。图3中用黑色方框表明了筛选出的两个区域,由图3可见在这两个区域光谱图有一个非常平缓的吸收峰出现。经过区间筛选后,光谱包含的点数从1557减少到54个,可以大大降低建模难度、提高建模速度。

3.3FiPLS结果

为了详细考察FiPLS的预测性能,图4a给出了PLS预测结果分析,图4b给出了FiPLS结果分析。

对真实值和预测值进行过原点的线性回归,结果表明FiPLS的预测结果优于PLS。FiPLS预测结果对真实值的线性回归相关系数从0.01005升高到0.0616,回归标准差基本没有变化。PLS预测值的最高回收率是120.39%,最低回收率是93.89%;而FiPLS预测值的最高回收率降低到118.99%,最低回收率提升到94.72%。对比FiPLS的预测结果和PLS的预测结果可以发现,FiPLS在减少光谱变量数的同时也提高了预测精度。

图4 PLS(a)和FiPLS(b)预测结果

4 结 论

本文采用前向区间偏最小二乘对烟煤水分近红外光谱解析进行区间筛选,将光谱变量从1557个减少到54个,可以大幅降低建模难度,加快建模速度。研究结果表明,前向区间偏最小二乘可以准确提取出水分相关的两个区间。对比筛选区间的预测结果和全光谱结果,算法在实现区间筛选的同时也可以提高预测准确度。

[1]Ferrari M,Mottola L,Quaresima V.Principles,techniques,and limitations of near infrared spectroscopy [J].Canadian Journal of Applied Physiology,2004,29(4):463-487.

[2]Geladi P,Kowalski BR.Partial least square regression:a tutorial [J].Analytica Chimica Acta,1995,185(1):1-17.

[3]Borggard C,Thodberg H.Optimal minimal neural interpretation of spectra [J].Analytial Chemistry,1992,64(5):545-551.

[4]Vapnik V.The nature of statistical learning theory [J].IEEE Transactions on Neural Networks,1995,10(5):988-999.

[5]Bao JS,Cai YZ,Corke H.Prediction of rice starch quality parameters by near-infrared reflectance spectroscopy [J].Journal of Food Science,2001,66 (7):936-939.

[6]Delwiche SR,Bean MM,Miller RE,et al.Apparent amylose content of milled rice by near-infrared reflectance spectrophotometry [J].Cereal Chemistry,1995,72 (2):182-187.

[7]伍秀玲.煤质工业分析指标传统法与全自动工业分析方法的比较[J].煤质技术,2008(4):35-37.

[8]苏彩珠,陈晓翔,黄文志,等.应用NIRS分析技术快速检测煤炭质量[J].检验检疫科学,2007,17(6):34-35.

[9]卢福洁,韩熹.近红外光谱分析技术在煤品质快速分析中的应用[J].现代科学仪器,2011(4):43-44.

[10]常宏,李爱启,王洪伟,等.煤中水分的快速测定[J].煤质技术,2004(2):50-52.

[11]Kearns M,Ron D.Algorithmic stability and sanity-check bounds for leave-one-out cross-validation [J].Neural Computation,1999,11(6):1427-1453.

[12]邓孺孺,何颖清,秦雁,等.近红外波段(900-2500nm)水吸收系数测量[J].遥感学报,2012,16(1):199-206.

Determination of Bituminous Coal Moisture Based on FiPLS*

YANG Xiao-li,MA Gong-zhe,CHEN Yun-xiu,WANG Wen-chao,LIU Meng-jiao

(College of Chemistry and Chemical Engineering,Qujing Normal University,Yunnan Qujing 655011,China)

Partial least squares method is a widely used method in near-infrared spectra analysis.When combined with feature selection technique,it can highly improve the predictive ability of the model and reduce its complexity.Interval partial least squares were applied forward to determine bituminous coal moisture with near-infrared spectra.Two intervals were selected which were lied in O-H first universal frequency absorption band.Furthermore,the number of variables reduced from 1557 to 54.Prediction mean absolute percent error reduced from 0.0856 to 0.0818.

bituminous coal;moisture;partial least squares;interval selection

云南省省级大学生创新创业训练计划项目(编号:201310664003);云南省教育厅一般项目(编号:2012Y414);曲靖师范学院招标项目(编号:2011ZB006)。

杨晓丽(1980-),女,副教授,主要从事计算化学研究。

TQ015.9

B

1001-9677(2016)04-0026-03

猜你喜欢

烟煤个数区间
你学会“区间测速”了吗
2020年泰国动力煤进口量同比增长8.48%
2月份泰国动力煤进口量环比增长5.43%
怎样数出小正方体的个数
气氛及后置催化剂对平朔烟煤热解特性的影响
烟煤烟气吸附剂脱汞技术的现状及展望
等腰三角形个数探索
全球经济将继续处于低速增长区间
怎样数出小木块的个数
怎样数出小正方体的个数