近红外光谱结合Lasso算法测定制浆材抽出物含量
2016-01-21房桂干崔宏辉熊智新
吴 珽 房桂干,* 梁 龙 崔宏辉 熊智新
(1.中国林业科学研究院林产化学工业研究所,国家林业局林产化学工程重点开放性实验室,生物质化学
利用国家工程实验室,江苏南京,210042;2.南京林业大学轻工科学与工程学院,江苏南京,210037)
近红外光谱结合Lasso算法测定制浆材抽出物含量
吴珽1房桂干1,*梁龙1崔宏辉1熊智新2
(1.中国林业科学研究院林产化学工业研究所,国家林业局林产化学工程重点开放性实验室,生物质化学
利用国家工程实验室,江苏南京,210042;2.南京林业大学轻工科学与工程学院,江苏南京,210037)
摘要:为实现制浆材材性的快速测定,首先用常规方法测定了144个制浆材样品的冷水、热水、苯-醇和1% NaOH抽出物含量,并采集了样品的近红外光谱,然后对原始光谱进行预处理,并运用Lasso算法及交互验证建立最优校正模型。对模型进行独立验证,决定系数分别为0.9186、0.9085、0.9241、0.9760,预测均方根误差分别为0.24%、0.30%、0.28%、0.38%,相对分析误差分别为3.50、3.31、3.63、6.45,绝对偏差分别为-0.42%~0.37%、-0.43%~0.41%、-0.47%~0.40%、-0.55%~0.57%。这些模型预测性能能够满足制浆造纸工业的要求,同时,也证实了Lasso算法用于制浆材抽出物测定的可行性。
关键词:Lasso算法;近红外光谱;制浆材;抽出物含量
制浆材材性对制浆造纸过程的相关工艺及参数的确定有较大影响,如综纤维素含量直接决定纸浆得率;木素本身存在发色基团,影响漂白剂用量;冷热水抽出物与纸浆得率和成浆质量存在一定关系;苯-醇抽出物会阻碍药液浸透且易使纸浆着色;1%NaOH抽出物与原料变质和腐朽程度相关,根据其含量可预见该原料的碱法制浆得率[1]。制浆材因树种和生长情况不同,其材性存在显著差异。因此,在实际生产过程中,有必要实现制浆材材性的实时快速测定,以便及时调整制浆工艺参数[2]。传统材性分析过程用药多、耗时长,无法满足实时测定的需求[3]。近红外光谱(Near-infrared Spectroscopy,NIR)属于分子振动光谱,产生于共价化学键非谐能级振动,是非谐振动的倍频与组合频,含有含氢基团X—H(X=O,C,N,S等)的物质都会产生近红外光谱。制浆材原料化学成分中含有大量含氢基团,因此,近红外光谱可用于制浆材化学成分分析;此外,近红外光谱仪提供的近红外光在样品内部会发生反射、折射、衍射、吸收并与样品内部分子相互作用,从而负载着样品的成分与结构信息,可用于分析制浆材的物理性质[4]。近红外光谱技术作为一种光谱测量分析手段,具有快速无损的优势[5],近年来,在制浆材原料分类[6]、材性测定尤其是木素、纤维素、半纤维素的含量测定[7- 8]、纤维形态分析[9]等方面取得了较多成果。贺文明等测定了112个阔叶木和针叶木样本的4种抽出物含量,建立了校正模型,用于预测未知样[10]。Lasso(the least absolute shrinkage and selection operator)算法是一种新兴的数据处理方法,所建模型有较强的样本外预测能力[11],在经济学[12]、统计学[13]等方面有较多应用。本研究为了更接近制浆造纸工业的实际需求,利用便携式阿达玛近红外光谱仪直接采集制浆材木片的光谱;通过传统化学方法测定了样品中的冷水抽出物、热水抽出物、苯-醇抽出物和1% NaOH抽出物含量;在Matlab7.0软件中加载Lasso算法建立了制浆材4种抽出物的预测模型,以满足制浆造纸生产中对原料抽出物含量实时测定的需求,同时,也证实Lasso算法适用于制浆材材性的测定。
1实验
1.1原料
由林产化学工业研究所造纸室提供的样本为制浆常用的3种阔叶材(桉木、杨木、相思木),其种植面积广,使用广泛,在我国制浆材中具有显著的代表性。原木去皮后经削片机切削成规格为20 mm×10 mm×2 mm的木片,分树种共采集144个样品,置于空气中平衡水分。待所有样品水分平衡后,采集近红外光谱,并测定抽出物含量。针对每一树种,随机选取12个样品数据组成校正集,用于建立预测模型,其余样品作为验证集用于预测模型的独立验证(见表1)。
表1 制浆材样本来源及使用情况
1.2实验仪器与光谱采集
实验仪器为华夏科创仪器有限公司生产的便携式阿达玛变换近红外光谱仪。设定仪器参数如下:扫描波长范围为1600~2500 nm,分辨率为8 cm-1,光谱重复扫描50次自动平均为一个光谱。将样品木片平铺在采样杯底部,层层叠起,不留透光缝隙。采集光谱后将样品倒出,重新混合装入采样杯采样,每个样品以此方法采集3次光谱,取平均值作为样品原始光谱。
1.3抽出物含量测定
样品近红外光谱采集完毕后,置于粉碎机中磨成细末,过筛,截取能通过0.38 mm筛孔(40目)而不能通过0.25 mm筛孔(60目)的细末。冷却至室温后,置于聚乙烯袋中密封备用。
按GB/T 2677.4—1993测定水抽出物含量:冷水抽出物测定采用温度为(23±2)℃的水处理48 h;热水抽出物的测定则用95~100℃的热蒸馏水加热3 h。按GB/T 2677.6—1994测定苯-醇抽出物含量:用苯-醇混合液抽提试样,将抽出液蒸发干燥、称量,从而定量测定溶剂所抽出的物质含量。按GB/T 2677.5—1993测定1% NaOH抽出物含量:用1% NaOH溶液处理试样,残渣经洗涤干燥至质量恒定,根据处理前后试样的质量差确定其抽出物含量。
1.4Lasso算法与分析过程
设有p个自变量x1,x2,…,xp和因变量y,它们之间可建立如下线性回归模型:
y=α+β1x1+β2x2+…+βpxp+ε
(1)
式中,α为常数项,β1、β2、…、βp为回归系数,ε为随机扰动项。
Lasso算法的本质是在回归系数的绝对值之和小于等于一个常数λ的约束条件下,使残差平方和达到最小来产生某些严格等于0的回归系数,从而得到参数估计值。它对系数的绝对值而非系数的平方项进行惩罚,也叫L1范数惩罚。常用残差平方和的最小值加上一个对回归系数进行的惩罚函数表示,即:
(2)
(3)
1.5评价标准
2结果与讨论
2.1不同抽出物含量测定值分布
测定全部144个样品的4种抽出物含量,其分布情况见表2。由表2可知,冷水抽出物含量为0.69%~3.81%,但主要集中在0.69%~3.00%之间;热水抽出物含量集中于1.93%~5.50%,在5.50%~6.05%之间的数据极少;苯-醇抽出物含量在0.88%~4.20%之间均匀分布,在4.20%~5.07%间的数据极少;1% NaOH抽出物含量分布较均匀,13.5%~15.5%间的数据略密集。4种抽出物总体数据覆盖面较宽,有利于建立具有普适性的预测模型。
表2 样品抽出物的测定值 %
2.2原始光谱及预处理
图1为制浆材样品的近红外光谱图,其中,横坐标为光谱波长、纵坐标为样品对光谱的吸收强弱。样品置于空气中平衡水分后,水分均在12%左右,差异较小,可忽略水分差异对近红外光谱的影响。样品在扫描波长范围内存在较强吸收,但光谱吸收带较宽且重叠严重,难以精确区分谱带归属。通过Matlab7.0软件采用多元散射校正对原始光谱进行预处理,以提高性噪比,消除干扰信息,结果见图2。
2.3模型的建立与独立验证
图2 多元散射校正后的谱图
图1 原始近红外光谱图
表3 模型的参数及评价
图4 热水抽出物的预测
图3 冷水抽出物的预测
图6 1%NaOH抽出物的预测
图5 苯-醇抽出物的预测
3结论
3.1用国标法测定了制浆材样品的冷水、热水、苯-醇、1%NaOH抽出物含量,并使用阿达玛近红外光谱仪采集了样品光谱;在Matlab 7.0软件中使用Lasso算法,结合交互验证确定了PRESS最小时待建模型的最优调整参数,其分别为3.15、4.82、4.70、7.94。
3.2通过最优调整参数确定冷水、热水、苯-醇、1%NaOH抽出物的校正模型。冷水、热水、苯-醇抽出物模型质量较好,可用于非精确性预测,具有指导意义;1%NaOH抽出物模型质量好,能用于较精确的预测。
参考文献
[1]石淑兰, 何福望. 制浆造纸分析与检测[M]. 北京: 中国轻工业出版社, 2010: 29.
[2]刘宛予, 丁峰, 李洁, 等. 木片在线测量系统的研究[J]. 哈尔滨工业大学学报, 2009, 41(3): 85.
[3]Schwanninger M, Rodrigues J C, Fackler K. A review of band assignments in near infrared spectra of wood and wood components[J]. Journal of Near Infrared Spectroscopy, 2011, 19(5): 287.
[4]So C L, Via B K, Groom L H, et al. Near infrared spectroscopy in the forest products industry[J]. Forest Products Journal, 2004, 54(3): 6.
[5]李小梅, 王双飞. 近红外光谱技术在造纸工业中的应用[J]. 中国造纸学报, 2003, 18(2): 189.
[6]吴新生, 谢益民, 帅兴华. 基于近红外光谱法的造纸用木材原料的快速分类[J]. 中国造纸学报, 2007, 22(3): 14.
[7]Yao S. Determination of lignin content in Acacia spp using near-infrared reflectance spectroscopy[J]. BioResources, 2010, 5(2): 556.
[8]贺文明, 薛崇昀, 聂怡, 等. 近红外光谱法快速测定木材纤维素、戊聚糖和木质素含量的研究[J]. 中国造纸学报, 2010, 25(3): 9.
[9]王玉荣, 费本华, 傅峰, 等. 基于近红外光谱技术预测木材纤维长度[J]. 中国造纸, 2008, 27(6): 6.
[10]贺文明, 薛崇昀, 聂怡, 等. 近红外光谱技术快速测定木材抽出物含量的研究[J]. 中华纸业, 2010, 31(16): 18.
[11]Tibshirani R J. Regression shrinkage and selection via the Lasso[J]. Journal of the Royal Statistical Society, 1996, 58(1): 267.
[12]喻胜华, 张静. 基于Lasso的外商直接投资影响因素研究[J]. 湖南大学学报: 社会科学版, 2014, 28(2): 53.
[13]SHI Wan-feng, HU Xue-gang, YU Kui. K-part Lasso based on feature selection algorithm for high-dimensional data[J]. Computer Engineering and Applications, 2012, 48(1): 157.
[14]Tibshirani R J. The Lasso method for variable selection in the Cox model[J]. Statistics in Medicine, 1997, 16(4): 385.
[15]陆婉珍. 现代近红外光谱分析技术[M]. 北京: 中国石化出版社, 2007: 44.
The Prediction of Pulpwood Extractives Content by Near
Infrared Spectroscopy Combining with Lasso Algorithm
(责任编辑:关颖)
WU Ting1FANG Gui-gan1,*LIANG Long1CUI Hong-hui1XIONG Zhi-xin2
(1.InstituteofChemicalIndustryofForestryProducts,CAF;NationalEngineeringLab.forBiomassChemicalUtilization;
KeyandOpenLab.onForestChemicalEngineering,SFA,Nanjing,JiangsuProvince, 210042;
2.CollegeofLightIndustryScienceandEngineering,NanjingForestryUniversity,Nanjing,JiangsuProvince, 210037)
(*E-mail: fangguigan@icifp.cn)
Abstract:The contents of cold water, hot water, benzene ethanol and 1.0% NaOH extractive of 144 pulpwood samples were analyzed using the traditional methods, meanwhile their near-infrared (NIR) spectra were also collected. After the pretreatment of original spectra, the optimal prediction models were established by using Lasso algorithm and cross-validation. The independent verification of the optimal prediction models showed the coefficients of determination (R2) were 0.9186, 0.9085, 0.9241 and 0.9760. The root mean square error of prediction (RMSEP) were 0.24%, 0.30%, 0.28% and 0.38%. The relative percent deviation (RPD) were 3.50, 3.31, 3.63 and 6.45. The absolute deviation (AD) were -0.42%~0.37%,-0.43%~0.41%,-0.47%~0.40%,-0.55%~0.57% respectively for cold water, hot water, benzene ethanol and 1.0% NaOH extractives. The prediction performance of the four models could meet the need of pulping and paper making industry and meanwhile Lasso algorithm was feasible for the prediction and analysis of pulpwood extractive content.
Keywords:Lasso algorithm; near-infrared spectroscopy; pulpwood; extractive content
作者简介:吴珽,男,1988年生;在读硕士研究生;主要从事制浆造纸工艺参数在线检测的研究工作。
基金项目:国家林业局948项目“农林剩余物制机械浆节能和减量技术引进”(2014-4-31)。
收稿日期:2015- 07-20
中图分类号:O657.3;TS721
文献标识码:A
文章编号:1000- 6842(2015)04- 0022- 05
*通信联系人:房桂干,E-mail:fangguigan@icifp.cn。