APP下载

基于LASSO法的桉木-相思混合制浆原料近红外分析模型的建立

2020-11-06朱北平邓拥军房桂干

林产化学与工业 2020年5期
关键词:木粉木片预处理

吴 珽, 梁 龙, 朱北平, 邓拥军, 房桂干*

(1.中国林业科学研究院 林产化学工业研究所;生物质化学利用国家工程实验室;国家林业和草原局林产化学工程重点实验室;江苏省生物质能源与材料重点实验室;江苏省林业资源高效加工利用协同创新中心,江苏 南京 210042; 2.金东纸业(江苏)股份有限公司,江苏 镇江 212132)

2019年全年,我国制浆造纸行业纸浆消耗总量为9 609万吨,较上年增长2.36%。木浆共消耗3 581 万吨,占纸浆消耗总量的37%,同比增长8.42%;其中进口木浆占24%,同比增长6.97%;国产木浆占13%,同比增长11.17%[1]。当前制浆造纸行业存在纸与纸板低档产品过剩,中高档产品供应不足引发的产品附加值低,行业利润率低等实际问题,因此用于制取高档纸产品的木浆需求将进一步增加[2]。受疫情与贸易战影响,美洲、东南亚等地无法保证长期稳定的木浆供应,提高国内木浆产量和利用率是满足当前行业木浆需求的可行方法。我国云南、广西、广东、贵州、海南等省份近年广泛种植速生桉木,同时混交速生相思以维持土壤肥力,防止水土流失[3]。速生材经采伐并在林场配套木片加工厂处理后,为求产量最大化,来到生产线上的制浆原料往往是桉木片、相思木片及枝杈材、小径材等加工剩余物的混合。在实际生产中,大批量原料无法保证混合均匀,因此各批次原料组分不一,按原定制浆工艺参数生产,则难以保证纸浆性能合格;提高磨浆能耗输入,加大化学品用量,固然能满足纸浆性能要求,但又引发成本高、污染重等问题[4]。针对我国南方特定的制浆原料模式——桉木-相思混合原料进行快速分析研究,以期根据生产线原料的实时材性数据调整制浆工艺参数,在保证纸浆性能同时,做到用药、电耗、成本最小化,有其实际意义[5]。近红外光谱(NIR)属于分子光谱,当分子受到780~2 526 nm的电磁波辐射后,吸收特定频率的近红外光,原子的振动、转动能级发生跃迁,从而形成吸收光谱。NIR结合化学计量学方法作为一种快速分析手段,通过已知样品信息的光谱数据构建模型,利用模型对待测样品进行分析,可以提高常规定性定量分析的效率[6],近年已广泛应用于农业[7]、林业[8-9]、石油化工[10]等领域;并在常见单一制浆原料的识别[11]、物理性质研究[12-13]及化学成分含量的测定[14-15]等方面发挥着较大作用。本研究将多种中国南方常见的桉木与相思人为混合,采集近红外光谱,结合样本外预测能力强且多用于经济学[16]、统计学[17]的最小绝对收缩和选择(LASSO)算法建立校正模型,通过对桉木含量(混合程度)的预测确定原料的混合情况,并实现了桉木-相思混合原料综纤维素、Klason木质素、聚戊糖、苯醇抽出物和1%NaOH抽出物含量的分析预测。

1 材料与方法

1.1 原料

实验原料为制浆用混合桉木片和混合相思木片,桉木片由树龄5~6年的尾巨桉、尾叶桉U6、尾叶桉L11和蓝桉木片混合而成;相思木片由树龄6年的马占相思、厚荚相思、纹荚相思、大叶相思和杂交相思木片混合而成,原料具体情况如表1。将混合桉木片、混合相思木片磨粉后分别过筛,截取粒径0.25~0.42 mm的木粉。待木粉含水量稳定在12%左右,且相隔24 h差值不超过0.1%时,认为原料已经水分平衡。将桉木粉、相思木粉按人为设置的不同质量比均匀混合成135个样品,记为S1,其混合情况以样品中桉木的质量分数表示,设定数据均匀分布在0%到100%之间。另选取单一树种的桉木样本各5个制作木粉样品,记桉木质量分数为100%;选取单一树种的相思样本各5个制作木粉样品,记桉木质量分数为0%。以上45个单一树种样品记为S2,S1、S2共180个样本作为训练集,其作用在于各种混合比例情况及特殊情况(某次原料全部为桉木或相思)的模拟。据此训练集建立混合程度(桉木含量)、化学成分校正模型。此外,按质量分数梯度设定比例将桉木粉和相思木粉混合成40个样品,记下其中桉木的质量分数,记为S3。S3作为验证集,考察模型对于桉木-相思混合原料的分析能力。

表1 原料来源Table 1 Source of wood chips

1.2 数据采集

1.2.1NIR光谱数据采集 利用全息光栅分光(阵列检测器)近红外光谱仪,采集训练集和验证集共220个样品的近红外光谱数据。近红外光谱仪参数如下:光谱波长范围900~2 500 nm;波长点数为256个;光谱仪扫描速度为360(°)/min;采集次数为20次/圈;每个样品装样3次取平均光谱;采样时砝码对木粉压强为1.41 kPa;采样温度为20 ℃,相对湿度为50%[18]。

1.2.2原料特征数据采集 样品混合程度以其中桉木质量分数表示,混合时人为控制在0%~100%之间均匀分布。所有样品采集完近红外光谱后,测定其主要化学成分含量。综纤维素含量的测定按GB/T 2677.10—1995进行;Klason木质素含量的测定按GB/T 2677.8—1994进行;聚戊糖含量按GB/T 2677.9—1994测定;苯醇抽出物的测定方法参照国标GB/T 2677.6—1994进行;1% NaOH抽出物含量按国标GB/T 2677.5—1993测定。

1.3 基于LASSO算法分析模型的建立

1.3.1NIR数据预处理 为降低无关信息的影响,通常对近红外光谱数据进行预处理。常用预处理方法如信号平滑可用于降低噪声干扰,一阶导数(1st Der)、二阶导数(2nd Der)预处理用以消除基线和背景干扰,矢量归一化(V-Norm)用于消除光程变化对光谱产生的影响,多元散射校正(MSC)用以消除木粉颗粒大小不均匀导致的非特异性散射的影响。为求最大程度地降低无关信息影响,在Matlab 8.0中分别使用S-G 13点3倍平滑、V-Norm、1st Der;S-G 13点3倍平滑、V-Norm、 2nd Der;S-G 13点3倍平滑、MSC、1st Der;S-G 13点3倍平滑、 MSC、 2nd Der的组合预处理方法预处理900~2 500 nm间的全波段近红外光谱。

1.3.2LASSO算法原理 LASSO算法本质上是一种处理具有复共线性数据的有偏估计。设有p个自变量x1,x2,…,xp和因变量y,它们之间可建立如式(1)的线性回归模型,其中α为常数项,β1,β2,…,βp为回归系数,为随机扰动项。

y=α+β1x1+β2x2+…+βpxp+

(1)

设(xi1,xi2,…,xip;yi),i=1,2,…,n是变量的n组观测值,假定数据已经过中心标准化,即:

LASSO算法通过添加令回归系数的绝对值之和小于等于常数λ的约束条件,使残差平方和最小化以产生严格等于0的回归系数,从而得到参数估计值。对系数绝对值进行惩罚,用残差平方和的最小值加上对回归系数进行的惩罚函数表示,即:

(2)

(3)

1.3.3模型的建立 在Matlab 8.0中加载经不同组合方法预处理后的近红外光谱数据,以及样本混合程度、化学成分含量的训练集数据,运行LASSO算法,运用留一法进行交互验证建立校正模型,即针对不同的调整参数μ,每次从训练集S1、S2共180个样品中留1个样品作为预测对象,其他样品用于建模并预测该样品,不断重复上述流程,完结时训练集的每个样品均被预测1次且用于建模179次。当交互验证均方根误差(RMSECV)最小时对应的μ为最优调整参数,此时模型性能最优。

2 结果与讨论

2.1 测定数据的分布

样品混合程度情况如表2所示,桉木-相思混合原料训练集中S1部分和验证集S3中样品混合的程度在0%~100%区间上均匀分布,训练集中S2部分混合程度为0%或100%。

表2 样品混合程度分布Table 2 Mixing degree distribution of mixed samples

测定S1、S2、S3共220个样品的化学成分含量,S1、S3共175个混合样品的化学成分含量如表3所示。

表3 混合样品化学成分质量分数的分布Table 3 Distribution of chemical composition mass fraction of the mixed samples

图1 样品的近红外原始光谱Fig.1 The original near infrared spectra of samples

S1、S3的综纤维素质量分数包含在S2的分布区间73.30%~81.31%内;S1、S3的Klason木质素质量分数包含在S2的分布区间21.39%~27.61%内;S1、S3的聚戊糖质量分数包含在S2的分布区间17.52%~30.31%内;S1、S3的苯醇抽出物质量分数包含在S2的分布区间0.69%~5.13%内;S1、S3的1%NaOH抽出物质量分数与S2的分布区间11.41%~16.30%基本重合,其原因是桉木和相思的1% NaOH抽出物含量无显著差异,因此经过混合后可能出现含量范围略大于单一树种含量范围的情况。总体上175个混合样品的化学成分含量包含在单一样品化学成分含量分布区间以内,数据较为稳定。由S1混合样品和S2单一样品构成的训练集可以涵盖各种桉木-相思实际混合情况,由此可以建立适应性较强的桉木-相思混合原料化学成分含量分析模型。

2.2 样品的近红外光谱

采集S1、S2和S3共220个样品的近红外光谱,如图1所示。混合样品和单一材种样品的近红外光谱没有明显差别,1 400~1 500 nm和1 900~2 000 nm 间的水分子特征峰没有显著位移,样品间的差异仅集中在漫反射吸光度上。

2.3 建模方法的确定

对近红外光谱数据采用组合方法进行预处理后建模,4种不同预处理方法结合LASSO算法所得混合程度校正模型性能如表4所示。

表4 LASSO算法结合不同预处理方法建立模型情况Table 4 Models established by LASSO algorithm combined with different pretreatment methods

由表4可见,采用平滑、V-Norm、1st Der组合预处理原始光谱建立的混合程度校正模型RMSECV值最小,为1.63%,对应的μ值为13.62,此时确定的混合程度校正模型性能最优。同样,使用上述4种组合预处理方法结合LASSO算法,与训练集样本化学成分(综纤维素、Klason木质素、聚戊糖、苯醇抽出物、1%NaOH抽出物)含量分别建立分析模型,所得模型情况亦如表4所示。可见针对综纤维素建模应选择平滑、V-Norm、1st Der的预处理方法,最优调整参数μ为18.30;针对Klason木质素建模应选择平滑、MSC、2nd Der的预处理方法,最优调整参数μ为6.39;针对聚戊糖含量建模应选择平滑、V-Norm、2nd Der 的预处理方法,最优调整参数μ为9.64;针对苯醇抽出物含量建模应选择平滑、MSC、1st Der的预处理方法,最优调整参数μ为7.49;针对1%NaOH含量建模应选择平滑、V-Norm、1st Der,最优调整参数μ为12.07。

2.4 模型评价

对表4中经特定预处理方法、LASSO算法、特定最优调整参数建立的分析校正模型进行独立验证。在Matlab 8.0中加载验证集S3经预处理后的光谱数据和模型文件,经过计算分析得到预测值,并将预测值与测定值进行统计比较,6种模型的性能如表5所示,散点图见图2。

表5 模型的独立验证Table 5 The independent verification of the calibration models

a.混合程度mixing degree; b.综纤维素holocellulose; c.Klason木质素Klason lignin; d.聚戊糖pentosan;

分别以实测值为横坐标,预测值为纵坐标作散点图(图2),可看出6个分析模型对相应性质的详细预测情况。混合程度模型Bias值为0.217 3%,模型存在一定系统误差,使得预测结果略高于传统分析结果;双尾T检验P值为0.478 4(>0.05),预测值和测定值无显著性差异。综纤维素模型Bias值为0.011 3%,同样存在系统误差使得预测结果偏高;双尾T检验P值为0.907 7(>0.05),预测值和测定值无显著性差异。Klason木质素模型偏差值为- 0.019 0%,模型系统误差将使得预测结果偏小;双尾T检验P值为0.814 2(>0.05),预测值和测定值无显著性差异。聚戊糖模型所得点在y=x直线两侧分布均匀,模型不存在明显的系统性误差;双尾T检验P值为0.990 6(>0.05),预测值和测定值无显著性差异。苯醇抽出物模型偏差值为-0.011 0%,系统误差将使得预测结果偏小;双尾T检验P值为0.808 0(>0.05),预测值和测定值无显著性差异。1% NaOH抽出物模型所得点在y=x直线两侧分布均匀,模型不存在明显的系统性误差;双尾T检验P值为0.896 4(>0.05),预测值和测定值无显著性差异。

3 结 论

3.1通过多种方法预处理桉木-相思混合原料近红外光谱,结合LASSO算法,建立了桉木-相思混合原料混合程度(以桉木质量分数表示)、综纤维素、Klason木质素、聚戊糖、苯醇抽出物和1%NaOH含量分析模型。建模过程中的最优调整参数μ值分别为13.62、 18.30、 6.39、 9.64、 7.49、 12.07;6种模型的RMSEP值分别为1.93%、 0.61%、 0.51%、 0.80%、 0.28%、 0.41%;绝对偏差范围分别为-3.19%~3.24%、-0.96%~1.01%、 -0.89%~0.84%、 -1.37%~1.46%、 -0.43%~0.39%、 -0.58%~0.60%。其中混合程度、综纤维素、苯醇抽出物、1%NaOH抽出物含量分析模型符合行业快速分析要求,能用于较精确的分析;Klason木质素和聚戊糖含量分析模型适用于非精确性测定。混合程度(桉木质量分数)和化学成分含量分布基本覆盖了可能的取值范围,模型适应性好。

3.2本研究证实了LASSO算法用于混合制浆原料分析的可行性,这为算法择优以建立更精确的校正模型提供了更多的可能。

猜你喜欢

木粉木片预处理
求解奇异线性系统的右预处理MINRES 方法
高COD二噻烷生产废水预处理研究
FDM 3D打印PLA/木粉复合材料翘曲变形影响因素分析
澳大利亚2月针叶材木片价格上涨21%
基于预处理MUSIC算法的分布式阵列DOA估计
含异氰酸基表面改性剂制备及其在PVC/木粉材料中的应用
木粉及聚磷酸铵对PE-HD木塑复合材料阻燃和力学性能的影响
亚临界水挤出法制备ABS/木粉复合材料力学性能研究
听话的火柴
基于膜过滤的反渗透海水淡化预处理