APP下载

基于近红外光谱反射率特征的木材树种分类识别系统的研究与实现

2016-06-15陈广胜

光谱学与光谱分析 2016年8期
关键词:特征选择木块特征向量

窦 刚, 陈广胜, 赵 鹏

东北林业大学信息与计算机工程学院, 黑龙江 哈尔滨 150040

基于近红外光谱反射率特征的木材树种分类识别系统的研究与实现

窦 刚, 陈广胜*, 赵 鹏

东北林业大学信息与计算机工程学院, 黑龙江 哈尔滨 150040

提出了一种基于木材表面光谱反射率的新型木材树种分类识别系统, 它解决了下面三个问题。 首先, 考虑到实际采集的光谱反射率曲线在某些波长噪声较大, 这些波长应该被删除。 另外, 木材光谱反射率曲线波段为350~2 500 nm, 原始实验数据为一个2 150维的向量(光谱采样间隔设定为1 nm), 所以要对光谱数据进行特征选择和降维处理。 为高效和同时地解决这两个问题, 使用了一种散步矩阵求解特征值方法进行了光谱特征波长的特征选择, 同时还对噪声波长进行了滤波处理。 该方法收到了较好的效果, 具有一定的新颖性。 最后, 为了使光谱仪采集到的光谱反射率曲线具有最佳的模式可分性信息, 还对室内照明光源的安装高度进行了最优化设计, 使用遗传算法求解出光源的最佳安装高度, 使得采集的光谱反射率曲线具有最佳的树种分类信息。 因此, 提出的这种照明光源安装高度优化设计方法, 在一定程度上提高了树种分类识别的精度, 它具有较好的可行性和一定的新颖性。 针对东北地区常见的五种树种(白松、 樟子松、 落叶松、 杨木和桦木)木材进行大量的(约10万次)分类测试, 实验结果表明五种树种木材的混合识别率达到了95%以上, 具有较好的分类识别精度和速度。 特征选择的波长主要集中在近红外波段。

树种识别; 特征选择; 近红外; 光谱分析; 遗传算法

引 言

木材树种分类识别是木材加工和贸易的一个重要环节, 它有助于充分利用木材资源和合理定价木材产品, 在木材加工企业和海关植检等部门有重要应用意义[1]。 现在的计算机分析处理检测识别技术主要有木材微观细胞结构分类识别和木材表面的宏观特征分类处理。 微观处理法需要显微镜和切片加工处理, 步骤繁琐复杂[2]。 宏观处理法包括图像分析处理法和光谱分析处理法。 图像法提取的分类特征主要有颜色特征和纹理特征两种。 颜色特征包括颜色矩特征、 直方图的能量、 熵等[3]。 纹理特征主要用空间灰度共生矩阵及其统计量, 还包括灰度行程长度矩阵、 Fourier频谱分析法等频域法[4-6]。 国外学者使用了超声波或者应力波进行了木材树种的分类识别, 但是容易受到外界噪声的干扰和木材内部缺陷的负面影响[7-8]。

光谱分析法主要是使用光谱仪采集1D光谱信号进行分类识别。 1D光谱信号包括光谱反射率和透射率, 运算速度比较快适合于在线实时检测。 例如, Piuri等设计了一种基于荧光光谱分析的木材快速种类识别装置[9], Lavine等使用Raman光谱仪和遗传算法对98种树木进行了热带和温带的软木和硬木种类识别[10]。 王志辉等研究了森林的高光谱树种分类识别, 采集叶片表面的光谱反射率特征, 使用了光谱微分法和光谱包络线法提取分类特征[11]。 杨忠等初步探索了使用近红外漫反射光谱技术进行木材表面光泽度测量的可行性[12]。

使用了美国ASD公司的FieldSpec ProFR4便携式分光辐射光谱仪在自然外界环境下采集不同树种木材表面的光谱反射率曲线, 它不再需要专用的激光光源, 只要现场的天气足够晴朗无云即可。 如果室外天气条件不好, 那么也可以在室内进行光谱反射率的测量。 这时需要使用ASD配备的专用室内光源卤素灯, 它一般安装在三角支架上并且安装高度可调节, 使得被测样本能够获得不同强度的照明。 因此, 对室内照明光源的安装高度进行了最优化设计, 使用遗传算法求解出光源的最佳安装高度(也称工作距离), 使得采集的光谱反射率曲线具有最佳的树种分类信息, 为后续的木材树种分类识别奠定良好基础。

另外, 由于现场环境复杂多变, 采集的光谱反射率曲线经常受到噪声的影响; 并且光谱曲线的波长范围是350~2 500 nm(采样间隔1 nm), 导致了光谱数据向量达到了2 150D, 直接用于分类时计算量较大降低处理速度。 因此, 设计了基于散步矩阵的采样波长特征选择和光谱曲线噪声波段滤波方法, 将光谱曲线的噪声滤波和特征选择同步完成, 不再需要单独的光谱信号数据滤波过程, 较大地提高了处理效率。

1 实验部分

1.1 仪器与材料

根据机器视觉木材树种自动识别原理, 建立了由木块、 多光谱辐射分析仪、 计算机等构成的实验系统平台(图1)。 多光谱辐射分析仪用于测量木材的光谱反射率, 采用美国ASD公司的FieldSpec ProFR4便携式分光辐射光谱仪, 该仪器工作波长范围350~2 500 nm; 采样频率10次·s-1, 光谱采样间隔设定为1 nm。 本系统的计算机使用了联想笔记本V4400A, CPU主频为I5系列, 内存8G, 硬盘空间1TB, 使用了Visual Studio 2005 C++编程环境完成木材树种分类识别系统的设计与编程。 测量木材光谱反射率时一般需要在被测木块下面铺一块黑布, 尽可能消除杂散光的影响。

在大庆市木材批发市场购买了五种常见树种白松、 樟子松、 落叶松、 杨木和桦木的木材, 加工成大约20 cm×15 cm×5 cm的木块, 共1 000块木块作为实验样本, 每个树种包括200块木块, 其中100块作为训练样本, 其余的100块作为测试样本。

图1 便携式木材树种识别系统示意图(室外环境)

Fig.1 The structure graph of portable wood species recoghition system coutdoor environment

1.2 光谱反射率曲线的滤波和采样波长特征选择

关于五种树种木材表面的光谱反射率采集, 为了减少实验时光照变化和光散射等外界干扰因素的影响, 每个木块表面反复多次采集数条光谱反射率曲线。 图2给出了五种树种木块的5条光谱反射率曲线的实例。 观察图2, 可以发现每个树种的光谱反射率曲线具有下面3点特征。 首先, 在某些波段内(例如2 400~2 500 nm)光谱反射率曲线变化很剧烈, 说明这些波段内噪声干扰比较大, 它们将对后续的树种分类识别产生负面影响, 应该滤除这些波段。 其次, 在不同的时刻采集的某树种木块的数条光谱反射率曲线都不完全相同, 如图3所示, 分析其原因, 这主要是现场的光照环境变化和光谱仪器的采样误差引起的。 因此, 对于各个树种样本, 应该采集多条光谱反射率曲线进行平均化处理。 最后, 实验收集到的木材光谱反射率曲线波段为350~2 500 nm, 每条曲线的原始实验数据为一个2 150维的向量(光谱采样间隔设定为1 nm)。 这样的高维向量进行分类处理有很大的计算代价, 并且很多波长的光谱反射率的树种可分性信息较差, 所以要对此高维向量进行特征选择/降维处理。

图2 不同树种木材表面的光谱反射率曲线

wood 015: Picea jezoensis; wood 1110: Larix gmelinii; wood 1440: Betula platy phylla; wood 2010: Pinus sylvestris; wood 3040: Populus davidiana

图3 同一树种(杨树)的同一木块样本的

为解决上述问题, 设计了一种基于散步矩阵的特征选择和光谱曲线滤波方法, 可以将光谱曲线的噪声滤波和采样波长特征选择同步完成, 不再需要单独的光谱信号数据滤波过程, 较大地提高了处理效率。

具体过程简述如下, 由于训练时每类树种光谱反射率曲线为600条(实验时每个树种训练样本为100块, 每个木块表面采集6条光谱反射率曲线), 可以近似正态分布, 这样, 每类树种就拥有600个2 150D的特征向量, 它对应于该树种在350~2 500 nm全波段内的光谱反射率。 根据多维正态分布的性质, 可容易求出每类树种训练样本的协方差矩阵Cj,j=1, …, 5; 进而求出全部五个树种的总体类内散步矩阵

(1)

式(1)中的P(wj)=0.2, 即假定各个树种的先验概率相同。 另外, 由于每类树种拥有600个2 150D的特征向量, 则全部五个树种就拥有3 000个这样的特征向量, 进而求出全部5个树种的总体散步矩阵/协方差矩阵St和总体类间散步矩阵Sb=St-Sw。

图4 正态分布下散度

1.3 室内照明光源的最优化设计

ASD公司的FieldSpec ProFR4便携式多光谱辐射仪对于光源照明要求比较高, 它配备了一种适合于室内检测的照明光源装置, 使用卤素灯(13 V/57 W), 可以提供均匀稳定的光照效果。 该照明装置可以固定在载物台或者三角支架上。 卤素灯安装的高度不同, 它距离被测样本木块表面的工作距离就不同, 这样光束到达木块表面的光照强度就产生了差别, 进而多光谱辐射仪就会采集到不同的光谱反射率曲线, 它们包含的模式可分性信息量也有所不同。 因此, 应该对卤素灯的安装高度进行最优化选择和设计, 使得采集的光谱反射率曲线产生的木材树种分类识别精度最好。

(2)

式中的[]为取整函数,hcurrent为光源的当前安装高度。 步骤2: 初始群体产生。 这里随机产生20个个体作为初始群体。 步骤3: 染色体解码和适应度计算。 将光源高度参数的二进制染色体解码, 以便求解其适应度值。 定义正态分布下(在光源的每个高度位置上, 每类树种光谱反射率曲线采集600条)的散度公式

(3)

图4(a)两类样本的两个正态分布的均值距离较远, 而各自的方差较小, 这样计算出来的散度比较大; 图4(b)两个正态分布的均值距离较近, 而各自的方差较大, 这样计算出来的散度比较小。

(4)

(5)

(6)

这样, 最终定义如下的适应度函数

(7)

其中,λ1, …,λN是1.2节应用散步矩阵方法求解出来的特征采样波长;h是光源的某一个安装高度。 遗传算法的其他步骤限于篇幅这里不再详述。

图5 散度和变换散度的函数关系图

1.4 分类器设计

使用了马氏距离函数分类器, 在分类器训练阶段, 假设经过光谱波长的特征选择后特征向量降维到N维, 那么可得每个木块有V1~V6共6个N维向量Vi=(v1,v2,v3, …,vN)T(实验时每个树种训练样本为100块, 每个木块表面采集6条光谱反射率曲线)。 这样, 每个树种可得600个这样的N维特征向量, 近似成多维正态分布, 可求其均值向量Mj和其协方差矩阵Cj,j=1, …, 5。

在分类器的测试和识别阶段, 使用了两种马氏距离对树种进行分类计算

(8)

(9)

2 结果与讨论

本系统的计算机使用了联想笔记本V4400A, CPU主频为I5系列, 内存8G, 硬盘空间1TB, 使用了Visual Studio 2005 C++编程环境完成木材树种分类识别系统的设计与编程。 首先进行了室外环境下理想光照条件下的训练和测试, 在木材树种分类处理的分类器训练阶段, 每个树种使用了600条全波段的光谱反射率曲线(将其存为csv文件), 使用了基于散步矩阵的光谱反射率曲线滤波和特征波长选择算法。 在特征波长选择中, 将特征波长对应的光谱反射率向量分别降维至5维、 10维、 15维、 20维、 …、 60维。 实验发现, 在特征波长向量为5~25维时, 选择的波长主要集中在1 600~1 700 nm范围内; 在特征向量为30~60维时, 选择的波长主要集中在1 600~1 700 nm和1 300~1 400 nm范围内。 另外, 观察图2中这两个波段区间, 可以发现它们不处在噪声污染区间范围内, 验证了本光谱波长选择算法同时也具有相应的光谱曲线滤波作用。

在测试阶段, 分别使用了式(8)和式(9)进行树种分类测试, 这两个公式都需要计算出Mx, 因此每次测试都是选择某一个树种的若干个特征向量进行处理计算其Mx。 实验中这样的特征向量数量取作20~35个, 并且选取是随机抽取的, 具有客观性。 再将特征波长向量分别降维至5维、 10维、 15维、 20维、 …、 60维后进行相应的测试实验。

实验发现, 应用式(8)时白松和樟子松的分类效果较差, 两者有时出现互相误识的情况。 分析其原因, 在将多个特征向量近似成正态分布时只考虑均值向量是片面的, 还应该考虑样本的分散程度即Cx。 但是, 应用式(9)时五个树种的分类识别效果比较好, 例如, 在降维后特征波长向量维数为30且特征向量数量为35的情况下, 白松、 桦木、 落叶松、 杨木和樟子松的正确识别率分别达到了98%, 100%, 96%, 100%和99%。 此种情况下, 单次测试所需时间平均为1.75 s, 这是一种比较理想的分类识别精度和速度。 分析其原因, 式(9)同时考虑了多个特征向量的均值Mx和协方差矩阵Cx, 当然近似成正态分布时特征向量的数量应该比较多(本实验中应该大于等于30)。 软件系统的运行界面参见图6。

图6 木材树种识别软件系统运行界面图

最后, 还进行了室内卤素灯照明光源条件下的分类识别实验, 使用了遗传算法进行了照明光源安装高度的最优化选择, 本实验光源的最优安装高度是28.5 cm。 实验中, 式(5)中的参数Q=64; 相应的实验装置图参见图7。 同样, 应用式(9)时五个树种的分类识别效果比较好, 例如, 在降维后特征波长向量维数为30且特征向量数量为35的情况下, 白松、 桦木、 落叶松、 杨木和樟子松的最佳的正确识别率分别达到了99%, 98%, 96%, 98%和99%, 与室外晴朗条件下分类识别精度基本相同。 在其他的光源高度情况下, 五种树种的分类识别精度有所下降, 例如, 最差情况下的正确识别率分别为88%, 85%, 80%, 84%和82%(特征波长向量维数为30且特征向量数量为35)。

图7 便携式木材树种识别系统示意图

Fig.7 The structure graph of portable wood species recoghition system (indoor environment) with adjustable radian’s mounting height

3 结 论

提出了一种基于光谱波长特征选择的光谱反射率曲线滤波和木材树种分类处理方法, 研制的软件测试系统具有较高的分类识别精度和处理速度。 我们计划针对国内的常见50余种树种、 珍贵树种(8类30种红木树种)和国外进口树种分别进行扩展研究, 进一步扩大木材树种样本数据库, 在大数据平台上开发出实用的快速的木材树种识别系统, 应用于海关植检等部门。

伴随着木材树种的增加, 有些光谱反射率曲线可能出现部分重叠难以区分的情况。 对于这样的一部分树种, 在分类器训练阶段我们将计划使用支持向量机映射到高维向量空间, 进一步增加其模式可分性信息, 提高相应的分类识别精度, 这是我们今后的研究工作方向。

[1] Khalid M, Yusof R, Liew E, et al. International Journal of Simulation System, Science and Technology, 2008, 9(3): 9.

[2] REN Hong-e, XU Hai-tao(任洪娥, 徐海涛). Scientia Silvae Sinicae(林业科学), 2007, 43(9): 68.

[3] Brunner C C, Shaw G B, Butler D A, et al. Wood and Fiber Science, 1990, 22(5): 413.

[4] YU Hai-peng, LIU Yi-xing, LIU Zhen-bo(于海鹏, 刘一星, 刘镇波). Scientia Silvae Sinicae(林业科学), 2007, 43(4): 77.

[5] Yusof R, Khalid M, Khairuddin A S M. Computers and Electronics in Agriculture, 2013, 93(2): 68.

[6] Filho P L, Oliveira L S, Jr A S B, et al. IEEE ICPR, 2010, 8: 4178.

[7] Jordan R, Feeney F, Nesbitt N, et al. Ultrasonics, 1998, 36(4): 219.

[8] Rojas J A M, Alpuente J, Postigo D, et al. Applied Acoustics, 2011, 72(8): 934.

[9] Piuri V, Scotti F. IEEE Trans SMC-Part C, 2010, 40(3): 358.

[10] Lavine B K, Davidson C E, Moores A J, et al. Applied Spectroscopy, 2001, 55(8): 960.

[11] DING Li-xia, WANG Zhi-hui, GE Hong-li(丁立霞, 王志辉, 葛宏立). Journal of Zhejiang Forestry College(浙江林学院学报), 2010, 27(6): 809.

[12] LIU Ya-na, YANG Zhong, LÜ Bin, et al(刘亚娜, 杨 忠, 吕 斌, 等). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2014, 34(3): 648.

Research and Implementation of Wood Species Recognition System with Wood Near Infrared Spectral Reflection Features

DOU Gang, CHEN Guang-sheng*, ZHAO Peng

Information and Computer Engineering College, Northeast Forestry University, Harbin 150040, China

This paper proposes a novel wood species recognition scheme based on the spectral reflection features of wood surface, aiming to address the following three issues in terms of the noise filtering, feature selection and radian’s optimal design . First, noises occur in some bands of wood spectral reflection curve so that these noisy bands should be deleted. Second, the wood spectral band is 350~2 500 nm, which is a 2 150Dvector with a spectral sampling interval of 1 nm. Therefore, both noise filtering and feature selection should be performed to wood spectral data. In this paper, to simultaneously and efficiently solve the two problems of feature selection and noise filtering, both a feature selection procedure and a noise filtering procedure are performed by solving the eigenvalues of dispersion matrix. This scheme is novel and produces a good outcome. Third, to make the spectral reflection curves picked up by the spectral instrument have the best pattern recognition information; an optimal design is performed for the indoor radian's mounting height. The genetic algorithm is used to solve the optimal radian's height so that the spectral reflection curves have the best classification information for wood species. Therefore, the optimal design scheme for the radian's mounting height can improve the pattern classification accuracy of the wood species to some extents, which is novel with excellent executive feasibility. Many experiments made with our developed software system on the five ordinary wood species in northeast region of China (i.e., includingBetulaplatyphylla,Populusdavidiana,PinusSylvestris,Piceajezoensis,Larixgmelinii) are performed for approximately 105times. It indicates that the overall recognition rate reaches to a good recognition accuracy of 95% for five wood species with an ideal recognition velocity. The selected feature wavelengths by using of our feature selection algorithm based on dispersion matrix are mainly in the near infrared band.

Wood species recognition; Feature selection; Near infrared; Spectral analysis; Genetic algorithm

May 8, 2015; accepted Oct. 11, 2015)

2015-05-08,

2015-10-11

国家自然科学基金项目(31170515), 教育部新世纪优秀人才支持计划专项(NCET-12-0809)资助

窦 刚, 1978年生, 东北林业大学信息与计算机工程学院博士研究生 e-mail: 13911621133@qq.com *通讯联系人 e-mail: kjc_chen@163.com

O439

A

10.3964/j.issn.1000-0593(2016)08-2425-05

*Corresponding author

猜你喜欢

特征选择木块特征向量
二年制职教本科线性代数课程的几何化教学设计——以特征值和特征向量为例
克罗内克积的特征向量
怎样数出小木块的个数
一类特殊矩阵特征向量的求法
EXCEL表格计算判断矩阵近似特征向量在AHP法检验上的应用
小鸭数正方体木块
Kmeans 应用与特征选择
联合互信息水下目标特征选择算法
基于特征选择聚类方法的稀疏TSK模糊系统
基于特征选择和RRVPMCD的滚动轴承故障诊断方法