基于光谱预处理的低温水曲柳原木含水率检测

2023-01-12阚相成李耀翔王立海解光强孟永斌李春旭谢军明李怡娜

中南林业科技大学学报 2022年11期

阚相成，李耀翔，王立海，解光强，孟永斌，李春旭，谢军明，李怡娜

（东北林业大学工程技术学院，黑龙江哈尔滨 150040）

东北地区是我国最大的林业生产基地[1]。树木的生长状态、集材道路的季节差异、原木的运输条件需求等决定了东北及其以北部分林区树木的采伐、运输需要在冬季进行。中国东北地区包含了寒温带气候类型，相比于国家的其他地区，其冬季更加寒冷而漫长。采伐和运输过程中的原木在较长时间段内处于冰点温度以下，为木材的充分、合理、高效利用带来了一定的困难。其中，水分含量是木材的重要特征之一，它影响着木材的许多性质。原木含水率不均匀，会使尺寸稳定性变差，易造成原木变形、端裂等问题[2]。

近红外光谱结合化学计量学方法进行定性或定量分析，这种技术已被广泛应用于化工、农业、医药等行业[3]。在木材科学上的应用主要在木材的树种识别[4]、力学性能[5]、物质含量[6-7]、密度[8-9]等的检测。可用于测量木材水分含量的技术主要有电（电阻和电容）、磁共振、雷达和X 射线等。与他们相比，快速、安全、高效、无损、非接触、操作简单、多组分同时测量等优点使近红外光谱检测技术在木材含水率的检测方面展示出更大的潜力[10]。Watanabe 等[11]通过研究3 个水分等级组成的混合样品，建立了一种基于近红外(NIR)光谱的对冷杉木材水分含量进行分类的快速、无损、在线方法。结果显示，基于NIR 的预测模型与通过烘箱干燥确定的实际计算值呈正相关。Tsuchikawa 等[12]将马氏广义距离法应用于近红外光谱对木材含水率的无损判别分析中。对从绝干到完全饱和状态各水分含量的木材样品进行了含水率判别准确性和合理性的检验。其中，二阶导数光谱预处理后的模型对每个木材样品都能很好地区分。汪紫阳等[13]结合偏最小二乘法建立了两个树种的近红外光谱含水率预测模型，结果显示近红外光谱技术能够用于混合木材的含水率模型的建立，混合模型验证集相关系数为0.930 9。

水曲柳Fraxinus mandshurica被称为东北“三大硬阔”之一，是一种常用的中高档家具和木制品用材[15]。现代研究发现当温度处于零点以下时，木材中的一部分水分将会发生相变[16]，这将导致相同含水率情况下木材内部水分的组成变得不确定，给含水率的检测与控制造成困难[17]。以水曲柳为研究对象，通过模拟水曲柳原木冬季的温度环境，从光谱预处理的角度对低温水曲柳原木含水率近红外预测模型进行优化，以提高预测精度、促进近红外光谱技术在木材生产过程中的实践应用。

1 材料与方法

1.1 样品采集

2020 年12 月份于黑龙江省方正县林业局星火林场（45°43′05.73″N，129°13′34.37″E），选取粗细不同的水曲柳原木，并对每根原木的不同位置进行现场切割，获取20 mm×20 mm×20 mm 的不同含水率的冻结水曲柳木块220 块。测得室外实时气温为-20℃。将获取的木块迅速装入保鲜袋运回实验室冰箱中，防止水分散失和解冻。冰箱设置温度-20℃恒温恒湿与试样采集温度保持一致，模拟室外样品采集地自然条件。

1.2 光谱采集

本次实验使用美国ASD 公司生产的LabSpec5000 光谱仪采集水曲柳样品的近红外光谱信息。光谱采集的波长范围为350～2 500 nm，采样波长精度1 nm。光谱分辨率为3 nm@700 nm、10 nm@1 400 nm 和2 100 nm。

实验开始前需要近红外光谱仪光纤探头对准白板进行空白校准，将每个水曲柳木块从冰箱和保鲜袋中取出，使用两分叉光纤探头在样品的横切面垂直采集NIR 光谱。每次采集的每条光谱为1.5 s 内扫描30 次全光谱后平均而得。为减少木材试样的水分散失，每个木块的采集过程需要在2 s内快速完成并及时放回保鲜袋中；为尽量减小水曲柳样本的温度波动，每个木块的光谱采集全程使用红外测温枪测温，温度变动过大的试样将重新放入冰箱中控温后再次采集光谱。低温状态试样的光谱采集完成后将保鲜袋中的试样放到恒温箱中解冻升温至20℃后再次采集光谱，以形成对照。

1.3 含水率检测

光谱采集完成后对每个试样进行称重与烘干处理以测量其含水率。具体测量过程和含水率计算按照《木材含水率测定方法》(GB/T 1931—2009)进行。最终测得水曲柳原木木块试样的含水率最高为66.92%，最低为35.35%，平均含水率值为46.58%（表1）。

表1 样本含水率统计Table 1 Moisture contents of samples

1.4 光谱预处理

根据光谱缺陷优化的目的和效果，可以分为基线校正、散射校正、平滑处理和尺度缩放四个光谱预处理方向[18]，其中每种预处理方向又有多种算法去实现。基线校正类预处理方法的目的是抑制基线漂移现象，改善光谱信号质量。常用算法包括一阶导数（1stderivative）、二阶导数（2ndderivative）等，求导的基本公式为

式中，xi为第i个光谱点，g为窗口宽度。

对近红外光谱进行信号平滑处理的目的是去除高频噪声的干扰，提高信噪比。信号平滑类算法较多，包括移动平均平滑法（Moving average，MA）、Savitsky-Golay 卷积平滑算法、高斯滤波（Gaussian Filter）、中值滤波（Median Filter）等，其中前两种较为常用，其公式如下：

强信号不一定有用，而弱信号的作用也容易被强信号覆盖，致使有用信息不被检测到。尺度缩放类的优化方法可以解决强信号带来的干扰，增强重要变量的辨识度，应用算法主要有中心化（mean centering）、标准化（normalization）和归一化（autoscaling）等。均值中心化是将样本光谱减去校正集平均光谱；标准化处理则是将均值中心化后的光谱除以光谱阵的标准偏差光谱；归一化是将每个光谱点减去所在变量列的最小值后，再除以光谱所在列最大值和最小值的差值。固体样品除了对光有吸收外，还会有散射作用。由于光的散射受样本表面粗糙度、固体的性质等物理因素影响，相同样品在不同的采集环境、采集位置、表面状况测量得到的光谱信息中心糅杂的散射信息也是不同的。以致所得样品原始光谱中含有大量的、与所测成分吸收无关的干扰信息。多元散射校正（multiplicative scatter correction，MSC）、标准正态变量变换（standard normal variate，SNV）等都可用来去除固体颗粒分布不均以及颗粒大小不同等产生的散射影响，其公式为：

对低温状态水曲柳原木含水率预测模型的优化尝试使用每个预处理方向的单一算法（图1），进行光谱预处理，探讨处理效果的适应性，筛选出较为合适的预处理方式。尝试将筛选出来的单一预处理算法根据效果进行组合，最终寻找低温状态水曲柳原木含水率预测模型最优预处理算法。

图1 光谱预处理算法Fig.1 Spectral pretreatment method

1.5 模型的建立与评价

预处理后的光谱采用偏最小二乘法（Partial Least Squares，PLS）方法建立含水率预测模型，采用校正集相关系数Rc、验证集相关系数Rp、校正均方根误差（root mean square errors of calibration，RMSEC）、预测均方根误差（root mean squared error of prediction，RMSEP）作为评价标准。

2 结果与分析

2.1 光谱特征

图2为-20℃温度下水曲柳试样在350～2 500 nm可见-近红外波段上的原始光谱图，图中为使用蒙特卡洛交叉验证法剔除异常样本后的220 条光谱。光谱中有多个波峰，其中1 150～1 220 nm 的波峰为C-H 的二级倍频与合频的吸收峰以及水中O-H 的合频吸收峰；1 450 nm 波长附近的吸收峰则对应于水分子中游离O-H 的一级倍频吸收带和木材中C-H 的合频吸收；1940nm 附近纯水分子中O-H 键伸缩振动的组频吸收带和羰基伸缩振动二级倍频[19]。将低温试样及其相同含水率下的常温试样各自的所有光谱平均后如图3 所示，可以发现低温与常温状态下的水曲柳平均光谱在600～1 000 nm、1 387～1 800 nm、1 866～2 176 nm3

图2 低温水曲柳试样近红外原始光谱Fig.2 Near-infrared raw spectra of Fraxinus mandshurica samples at low temperatures

图3 低温与常温状态下试样的平均光谱Fig.3 Average spectra of samples under low and normal temperature conditions

个波段有明显分离，尤其在1 420 和1 880 nm 附近两个吸收峰的强度和位置都有偏离。对两个不同状态的试样进行偏最小二乘判别分析（PLSDA），结果如图4 所示，前三个主成分得分图上两种状态的样本有明显的分离，两种状态的交叉验证判别分析准确率可达93.1%。以上均表明，低温对木材性质的近红外光谱分析的影响是不可忽视的，将其与常温状态下的光谱分离开来研究是有一定必要性的。

图4 主成分得分图Fig.4 Principal component scores

为了消除原始光谱边界波长震荡效应带来的影响，综合前人研究经验去除光谱两端噪声大，信噪比低且信息少的边缘波段后如图5 所示，我们选取1 000～2 100 nm 波段范围作进一步研究[20-21]。

2.2 单一预处理方法

首先验证了单一光谱预处理算法处理后的效果。图6a—f 分别为图5 使用图1 中九种预处理优化以后的光谱图。使用SPXY 算法将优化后的光谱按照3︰1 的比例划分为校正集与验证集分别建立PLS 冻结原木试样的含水率预测模型。表2为不经过任何预处理以及九种单一预处理算法优化后的预测结果。图7 为每个预测结果中RMSEP与原始光谱含水率预测RMSEP 相比的提高程度即验证集预测精度的提高。结合图表分析各种预处理的效果如何，选出适用于本研究的预处理方法。

图7 不同预处理方式验证集预测精度的提高Fig.7 The improvement of RMSEP under different pretreatments

表2 单一预处理建模效果Table 2 Results of Near-infrared prediction model after single pretreatments

图5 选定波段光谱Fig.5 Spectra of the selected band

2.2.1 信号平滑

由仪器检测到的光谱信号中既包含有用信息，同时也叠加着噪声误差，及时去掉两端但在选定的图5 光谱中，光谱两端噪声和随机噪声非常明显，需要进行平滑处理。由式（3）～（4）可以看出，移动平均平滑法和S-G 卷积平滑法两种平滑去噪算法中，窗口宽度是个较为重要的参量。选择宽度太大，去除噪声的同时也会将有用信号去除；宽度太小，达不到去除噪声的目的。在进行多次比较验证，既保证平滑效果最大化又防止有用信息失真情况下，最终MA 平滑窗口宽度定为11，SG 平滑为三次多项式21 点平滑。经过去噪算法预处理后的光谱，如图6a—b 所示，两种平滑算法均对采集到的冻结水曲柳试样光谱有明显的平滑去噪作用，随机噪声显著减少，光谱更加平滑，光谱的轮廓更加清晰。从图中两种算法的效果比较来看，差异并不大。从建模效果来看，两者与原始光谱相比验证集预测精度分别提高了22.47%和24.25%。SG 平滑后的RMSEP 为0.4457比MA 算法的0.4562 略有优势，原因可能是其加权平均比MA 平滑的平均算法更有利于有用信息的保留。

2.2.2 尺度缩放

图6c—e 分别为均值中心化、标准化和归一化后的光谱图。图中可以看到，均值中心化、标准化放大了某些变量，增强了样本光谱之间的差异；矢量归一化则是消除数据尺度差异过大带来的不良影响。然而由建模数据来看，均值中心化和标准化算法的结果与不经预处理的模型相比提高并不明显，RMSEP 分别为0.532 9 和0.520 2，精度仅提高了9.43%和11.59%。归一化预测精度提高较大，预测集相关系数Rp和RMSEP 分别为0.790 1和0.399 4，其原因可能是标准化处理算法给光谱中所有波长变量以相同的权重，比较适合低浓度成分的建模，而原木含水率较高。中心化仅通过增加样本之间的差异来提高预测能力，优化效果有限。归一化常用来校正由微小光程差异引起的光谱变化。

2.2.3 基线校正

图6f—g 分别为原始光谱一阶求导和二阶求导以后的光谱图，可以看到相比原始光谱，两种预处理算法在基线漂移抑制方面作用较为明显。并且一阶导数处理后有效提高了光谱的信号强度，波峰更加锐利，使得波峰和波谷的位置能够更加准确地定位，减少重叠波峰的影响。然而我们也可以发现，与原始数据相比，通过微分处理后的光谱在放大光谱有用信号的同时噪声信号也被不同程度地放大了，尤其在光谱末端1 800～2 100 nm信噪比较小范围内，存在较多的噪声信息，致使经微分处理后的光谱在该范围内变化剧烈。二阶导数处理后的噪声放大显然更加严重。这启示我们，降噪算法与微分算法联用或许有更加理想的效果。从建模数据来看，一阶导数和二阶导数处理后预测模型RMEP 从原来的0.588 4 分别减小到0.412 6 与0.489 5，预测集预测精度分别提升了26.88%和16.81%。二阶导数对预测精度的提升效果差于一阶导数，这可能与放大的噪声有关。

图6 单一预处理光谱图Fig.6 The NIR spectra of single preprocessing methods

2.2.4 散射校正

水曲柳试样的近红外光谱为漫反射吸收光谱，仪器检测所得原始光谱的绝对强度反映的信息并不全部是样品中某些成分的浓度信息。从原始光谱中可以很明显地看出，各光谱的绝对强度差异较大、光谱间存在基线平移、倾斜等现象，这主要是由于各光谱中的散射信息差异引起的。根据Kubel-ka-Munk 理论，漫反射吸光度与被测物含量线性相关，漫反射吸收系数、光程、散射系数都与相关系数有关。经过MSC 和SNV 两种方法预处理后，如图6g、i 所示，上述现象得到显著改善。预测集精度的提升均超过了30%，其中，SNV 的处理效果在单一预处理算法中最优，RMSEP 减小到了0.384 1，与原始光谱相比提高了验证集预测精度提高了34.72%。这说明，在低温水曲柳的光谱检测中，粗糙的横截面、低温产生的冰晶等带来的散射和折射影响较大。

2.3 预处理组合

由九种单一预处理算法对低温水曲柳试样的近红外光谱优化结果来看，SG 卷积平滑和MA 均对光谱有较好的去噪效果，但处理后的光谱中基线漂移和散射现象并未得到改观。不经过去噪处理的光谱在经过一阶导数和二阶导数进行基线校正的同时噪声也被放大了，限制了校正效果的提升。MSC 和SNV 两种算法在进行散射校正的同时也表现出了一定的基线校正的效果。但是光谱两端的严重噪声和零随机白噪声并未得到处理，这也进一步限制了建模效果。尺度缩放方法对于冻结水曲柳试样的作用明显。从建模效果来看与原始光谱相比中心化和标准化处理并未体现出较大的优化效果，矢量归一化算法处理后的光谱及优化效果与MSC 高度相似。

从上面的分析可以看出，每一种预处理算法通常会处理光谱测量过程中的一种到两种偏差，不能同时优化所有的问题。因此需要多种优化效果与不同的算法进行组合来达到更优效果。然而并不是算法越多效果越好，很多不适用的算法和效果重复的算法结合过多反而也会去除有用信号，导致信号失真。既保证达到最优的预处理效果的情况下又尽可能减少过处理而带来的失真，我们对预处理算法进行了择优组合实验。如图8a—f为筛选出来的预处理组合处理后的光谱，表2 为PLS 含水率预测结果。

图8 组合预处理后的光谱图Fig.8 The NIR spectra of combined pretreatments

如图8a 所示，将原始光谱进行SG 卷积平滑去噪后再通过一阶微分进行基线校正，光谱优化效果非常明显。两种预处理算法结合后与图6a—f 的单一预处理效果相比光谱质量得到显著改善，随机噪声明显减少，吸收峰位置更加明显。从含水率预测模型来看，预测集相关系数Rp达到了0.875 2，RMSEP 减小到了0.233 1，精度提高了60.38%。与之相对应的SG 平滑与二阶微分的组合预处理效果与单一预处理相比也有较大改善，但是噪声依旧较为明显。预测精度提高了51.5%，低于SG 平滑与一阶导数的组合。如图8c—d 所示，经过平滑与散射校正的组合同时解决了噪声与散射问题，从建模结果来平滑+MSC 与平滑+SNV两者差异不大，但两者都明显优于单一预处理模型差于平滑+一阶导数。将目前较为优秀的平滑+1st分别与MSC、SNV 组合。如图8e—f 所示平滑+一阶导数+MSC 与平滑+一阶导数相比光谱质量并未得到较大改善，建模结果也差别不大，预测精度的提升从60.38%升到了62.02%。而SG平滑+1st+SNV 预处理后的PLS 含水率预测模型预测集相关系数Rp可以达到0.912 8，RMSEP 降到0.177 4，预测集预测精度提高了69.85%，从图7 可以看出，在所选的单一预处理和组合预处理方式中表现最优。从光谱中可以看出，校正后的光谱噪声问题得到极大改善，波峰与波谷变得更加明显。总体来看，筛选后进行组合的预处理算法整体上优化效果要优于单一预处理。

表3 组合预处理后建模结果Table 3 Results of Near-infrared prediction model after combined pretreatments

3 结论与讨论

通过光谱分析和主成分分析，我们发现低温状态的水曲柳近红外光谱与我们常温下光谱是存在显著差异的，前三个主成分得分图上低温与常温的样本有明显的分离。低温对水曲柳试样近红外光谱的影响不可忽略。对采集到的近红外光谱进行了九种单一预处理算法优化并筛选出合适算法进行预处理组合。我们发现从光谱预处理的角度对低温状态下木材含水率的近红外光谱预测模型进行优化是可行的。9 种预处理算法均对预测模型有优化效果，并且效果也不相同，其中SNV 在单一预处理算法中表现最好，Rp为0.804 1，RMSEP为0.384 1，验证集预测精度提升了34.72%。将筛选出来的单一预处理算法进行组合后，组合算法均普遍优于单一算法。实验证明，SG 平滑、SNV和一阶导数的预处理组合可以显著提高低温状态下水曲柳原木含水率预测模型的预测精度。不同预处理方法及特征提取方法具有不同特点，构建近红外定量分析数学模型时，单独使用某种预处理方法所得效果可能不能让人满意，在光谱建模过程中常将多种预处理方法组合使用以提升模型性能。

木材低于冰点的温度下其中水分的存在状态和含量一直存在争议并没有普遍公认的结论。本文从预处理的角度对低温状态水曲柳含水率预测模型进行了优化，虽然并未解释各种状态水分的含量的理论问题，但是从实践应用的角度提出了低温下木材含水率检测的方法，具有重要现实意义。温度影响下的原木含水率近红外光谱检测精度的提高方法与角度远不止预处理。采取更先进的建模方法、增加特殊样本量等都是可能的解决温度影响、提高预测精度的思路，这些问题有待于在以后的研究中进行探讨，以期系统地解决近红外光谱法预测木材含水率所遇到的问题。