基于BP神经网络的木材近红外光谱树种识别1)
2015-02-07王学顺孙一丹黄敏高黄安民
王学顺 孙一丹 黄敏高 黄安民
(北京林业大学,北京,100083) (中国林业科学研究院木材工业研究所)
基于BP神经网络的木材近红外光谱树种识别1)
王学顺 孙一丹 黄敏高 黄安民
(北京林业大学,北京,100083) (中国林业科学研究院木材工业研究所)
利用木材近红外光谱数据建立反向传播(BP)神经网络模型,实现对木材树种的分类识别。以桉木、杨树、落叶松、马尾松、樟子松5个树种的296个样本的近红外光谱数据为研究对象,运用主成分分析对光谱数据进行降维,并以处理后的主成分数据作为分类模型的输入变量,分别建立了不同属的桉树和杨树以及同属的落叶松和樟子松的BP神经网络二分类模型;建立了桉木、杨树、落叶松、马尾松、樟子松5个树种的BP神经网络识别模型,并利用遗传算法和粒子群算法对5树种分类模型进行优化。结果显示,对于不同属木材,BP神经网络模型树种识别率可达100%,对于同属木材树种识别率也可达85%以上;对所建立的5树种识别模型,BP神经网络树种识别率有所下降,但正确识别率也均可达到75%以上,经过遗传算法和粒子群算法对模型的优化,木材树种平均识别率可分别达到84%和87%以上,表明遗传算法和粒子群算法可以有效提高木材树种识别率。
近红外光谱;木材树种识别;BP神经网络;遗传算法;粒子群算法
木材是天然的聚合物质,其主要成分为纤维素、半纤维素和木质素等。研究表明,近红外光谱和纤维素、木质素以及其他碳水化合物的含量都有很强的相关性,木材近红外光谱含有大量的木材结构方面的信息[1-2]。近年来,随着计算机技术和化学计量学的发展,近红外光谱技术逐渐应用于木材科学领域,人们开始探索利用近红外光谱分析技术进行木材识别[3-4]。
近红外光谱分析是一种间接的分析技术[5],它通过建立校正模型实现对未知样品的定性或定量的分析。与传统的分析技术相比,近红外光谱分析技术具有分析速度快、效率高、适用样品范围广、成本低、操作简便等优点,以其独特的优势在食品、中草药和农产品快速鉴别中得到了成功的应用[6-7]。
反向传播人工神经网络(BP神经网络)[8]是一种按误差逆传播算法训练的多层前馈网络,是目前应用最广泛的神经网络模型之一。BP神经网络由输入层、隐含层和输出层3部分组成。由于BP神经网络对网络各层连接权值和各结点的阈值十分敏感[9],常用遗传算法[10-11]和粒子群算法[12-14]等智能优化算法对神经网络进行训练,以提高模型的学习能力。
遗传算法[15]是一种借鉴生物界自然选择和自然遗传机制发展起来的随机搜索算法,群体中的每个染色体即为问题的一个解,经过若干代的进化之后,算法收敛于最好的染色体,即为问题的最优解。
粒子群算法[16]是1995年由Kennedy和Eberhart通过模拟鸟群觅食行为而提出的一种基于群体协作的全局搜索算法,与其他进化算法一样,也是基于“种群”和“进化”的概念,通过个体间的协作与竞争,实现复杂空间最优解的搜索。PSO算法具有很好的生物学背景而易于理解、参数少而易于实现,对非线性、多峰值问题具有较强的全局搜索能力。
笔者以桉树、杨树、落叶松、马尾松和樟子松5个树种样品的近红外光谱数据为研究对象,建立BP神经网络树种识别模型。首先利用主成分分析法对光谱数据进行降维处理,作为BP神经网络的输入数据,建立了桉树和杨树以及马尾松和樟子松的二分类模型,建立了桉树、杨树、落叶松、马尾松和樟子松5树种分类识别模型,并利用遗传算法和粒子群算法对神经网络模型进行优化,以提高模型对木材树种识别精度,为木材识别的研究提供一定的参考价值。
1 材料与方法
1.1 样品来源
桉树、杨树、落叶松、马尾松、樟子松5个树种的296个样品均来自于中国林业科学院木材工业研究所,其中桉树64个、杨树64个、落叶松64个、马尾松62个、樟子松42个,它们在植物学中的分类如表1所示。
表1 树种的分类
1.2 仪器设备与样品制备
样品制备。用直径为12 mm的生长锥在木材胸高处钻取生长锥木芯,取出生长锥后立即用保鲜膜密封,在尽可能短的时间内放到冰箱冷冻保存,防止其水分流失。继而立即到加工中心加工成5 mm厚的试样,装入自封口保鲜袋保存,并在尽可能短的时间内采集近红外光谱。
仪器设备。实验室的光谱采集设备为美国分析光谱仪器公司(Analytical Spectral Devices,Inc.)提供的Field Spec近红外光谱仪,原始的光谱数据每一个的波长点数为2 151,波长范围:350~2 500 nm,实验室的温度为(22±1.5)℃,湿度为(50±3)%。光谱分析软件为The Unscrambler9.7,软件的运行平台为Windows 7(32位)。
样品经过光纤探头采集,30次/s扫描并自动平均为一条光谱,将得到的近红外光谱经ASD提供的专业软件转换成Unscrambler R文件后保存起来。
1.3 数据预处理与建模
利用MATLAB(R2013a)对木材样品近红外光谱数据进行降维处理、神经网络训练以及神经网络优化。首先采用主成分分析法来对数据进行降维处理,通过主成分分析将每个样品光谱数据从2 151个降维到3个主成分,其贡献率大于98%。
以原始光谱降维后的主成分作为神经网络模型的输入数据,并对树种数据的不同类别用1、2、3…进行编号。期望输出使用单位矩阵编码,样本种类依次对应单位矩阵的一个1,这样使得每种样本的期望输出在空间中相互正交且均匀分布(例如标示类为3时,期望输出向量就是[0 0 1 0 0])。
考虑到单隐含层已经可以满足分类精度的需要,本研究建立的BP神经网络模型均为单隐含层,隐含层传输函数为对数Sigmoid函数,输出函数为线性函数。神经网络输入层的节点数即为主成分数,输出层节点数为所要分类的类别数。在数据输入后,设定程序对所有数据进行随机排列,选取排列在前2/3的数据作为训练集构造神经网络,后面的1/3作为测试集来分析预测的准确性。
2 结果与分析
2.1 基于BP神经网络的树种二分类模型
选取不同属的桉树和杨树以及同属不同种的马尾松和樟子松分别建立BP神经网络二分类模型。在这个模型的实验中,统一设置BP神经网络模型隐含层节点数设定为1,训练次数设定为10次,训练目标为误差小于10-10。
2.1.1 不同属(桉树和杨树)树种的二分类模型
选取桉树和杨树各64个共128个样品的近红外光谱数据,随机选取40个桉树和40个杨树的光谱数据用The Unscrambler软件作出它们的光谱图,如图1所示。可以看出桉树和杨树的光谱差异明显,通过计算得到桉树和杨树样品的相关系数为0.793 876。
将桉树和杨树128个数据中随机选取86个数据作为训练集,余下42个数据为测试集建立BP神经网络分类模型,连续运行5次,结果见表2。
表2 桉树和杨树的分类结果
实验表明,树种差异较大的桉树和杨树样品,通过BP神经网络模型能够很轻易地分辨出来,树种识别率可达100%。
2.1.2 同属不同种(樟子松和马尾松)的树种二分类模型
选取樟子松和马尾松各52个共104个样品的近红外光谱数据,各随机选取40个光谱数据用The Unscrambler软件作出它们的光谱图,如图2所示。可以看出樟子松和马尾松的光谱十分相近,计算得到樟子松和马尾松的相关系数为0.985 816。作为同科同属的两种松树,已很难凭借光谱图进行树种识别。
图1 40个桉树和40个杨树样品的近红外光谱图
图2 40个马尾松和40个樟子松样品的近红外光谱图
从马尾松和樟子松104个数据中随机选取68个数据作为训练集,余下36个数据为测试集,用与上述实验相同的模型进行训练,连续运行5次,结果见表3。
表3 落叶松和马尾松分类结果
实验表明,BP神经网络能有效识别相关程度很高的树种,有效识别率均能达到85%以上。但结果也显示,相同的实验模型对这两种差异很小的树种的识别率有所下降。由此可以得出结论:在相同的神经网络条件下,树种越相近,分辨难度就越大。
2.2 BP神经网络的5树种分类模型
利用桉树、落叶松、马尾松、杨树、樟子松样品的近红外光谱数据,建立BP神经网络多树种识别模型,并利用遗传算法和粒子群算法对模型进行优化,提高模型识别率。
2.2.1 基于BP神经网络的5树种分类模型
选取桉树、落叶松、马尾松、杨树、樟子松的296个样本数据,随机选取样品总数的2/3数据作为训练集,余下1/3数据作为测试集,设定BP神经网络模型所用的隐含层节点数为7个,训练次数为150次,重复10次运行的正确率如表4所示。
表4 BP神经网络的5树种分类结果
结果表明:BP神经网络模型对5个树种的分类效果较好,桉树与杨树的判别准确率均为100%,落叶松为98.471%;而在同属的樟子松与马尾松之间识别率有所降低,其中马尾松准确率达到96.644%,樟子松平均识别准确率为75.048%。实验结果中除了樟子松的识别率偶尔低于70%之外,总体上来讲,BP神经网络模型对树种分类的结果是不错的。
2.2.2 基于遗传算法的BP神经网络5树种分类模型
利用遗传算法优化BP神经网络的权值和阈值,从而使得神经网络在运算时能够得到更好的权值与阈值,以提高木材树种的识别率。用与2.2.1实验相同的神经网络模型进行训练,遗传算法迭代次数为150次,设置种群规模为20,进化代数为80代,交叉概率为0.3,变异概率为0.2,选择操作采用轮盘赌法。重复10次运行的正确率见表5。结果表明,遗传算法优化后的神经网络树种分类效果变得更好,桉树、杨树判别准确率仍为100%,除马尾松的判别准确率略有下降外,落叶松和樟子松的识别率都有所提高,特别是樟子松的识别率从75.048%提高到84.722%,识别率有较大提高。
表5 遗传算法优化的5树种分类结果
2.2.3 基于粒子群算法的BP神经网络5树种分类模型
利用粒子群算法优化BP神经网络的权值和阈值,以提高模型识别率。粒子群算法选择迭代次数为150次,设置种群规模为20,进化代数为80代。表6为粒子群算法优化BP神经网络模型重复10次的正确识别率。结果表明,粒子群优化BP神经网络后5种木材的分类准确率进一步提高,桉树、杨树判别准确率仍为100%,虽然马尾松的判别准确率有所下降,但落叶松判别准确率达到100%,樟子松的判别准确率从75.048%提高到87.058%,表明粒子群算法可以有效提高BP神经网络模型对木材树种的识别率。
表6 粒子群算法优化的5树种分类实验结果
3 结论
利用BP神经网络结合近红外光谱用于桉树、落叶松、马尾松、杨树、樟子松5种木材的识别研究。建立了不同属的桉树和杨树以及同属的马尾松与樟子松的BP神经网络二分类模型,分类准确率平均达到90%以上,表明BP神经网络对两树种木材样品具有较高的识别率;建立了桉树、杨树、落叶松、马尾松、樟子松5个树种的BP神经网络多分类模型,模型平均正确识别率为75%,表明BP神经网络模型对多树种木材样品也具有较好的识别率。结果显示,当BP神经网络输出种类(即分类总数)增多时,树种的辨别难度就会增大,识别率将会降低;分别利用遗传算法和粒子群算法对BP神经网络模型权值和阈值进行优化,优化后的5树种判别准确率分别达到84%和87%以上,表明智能优化算法可以有效提高模型的识别准确率,在木材树种识别的应用中具有一定的研究价值。
[1] 王学顺.近红外光谱信息提取及其在木材材性分析中的应用研究[D].哈尔滨:东北林业大学,2010.
[2] 黄安民,江泽慧,李改云.杉木综纤维素和木质素的近红外光谱法测定[J].光谱学与光谱分析,2007,27(7):1328-1331.
[3] 崔宏辉,房桂干,梁龙,等.基于近红外光谱快速鉴别木材种类的研究[J].现代化工,2015,35(2):169-171.
[4] 杨忠,吕斌,黄安民等.近红外光谱技术快速识别针叶材和阔叶材的研究[J].光谱学与光谱分析,2012,32(7):1785-1789.
[5] 严衍禄.近红外光谱分析基础与应用[M].北京:中国轻工业出版社,2005.
[6] 秦华俊.近红外光谱分析技术在食品、饲料中的应用研究[D].南昌:南昌大学,2007.
[7] 韩莹,毕福均,侯惠婵,等.近红外光谱法鉴别何首乌真伪的应用研究[J].中国中药杂志,2014,39(22):4394-4398.
[8] Tang Jun, Wu Lei, Huang Helang, et al. Back propagation artificial neural network for community Alzheimer’s disease screening in China[J]. Neural Regeneration Research,2013,8(3):270-276.
[9] 吕砚山,赵正琦.BP神经网络的优化及应用研究[J].北京化工大学学报,2001,28(1):67-69.
[10] 刘伟伟.基于遗传算法的前馈神经网络优化研究[D].兰州:西北民族大学,2011.
[11] Guangying Chen, Kaiyun Fu, Zhiwu Liang, et al. The genetic algorithm based back propagation neural network for MMP prediction in CO2-EOR process[J]. Fuel,2014,126(9):202-212.
[12] 董卓莉.基于粒子群优化的仓虫分类识别技术研究[J].计算机应用与软件,2010,27(1):228-230.
[13] 谭明交,张红梅.粒子群优化算法及其在神经网络中的应用[J].计算机与信息技术,2008(7):6-8.
[14] 高海兵,高亮,周驰,等.基于粒子群优化的神经网络训练算法研究[J].电子学报,2004,32(9):1572-1574.
[15] 王小平,曹立明.遗传算法:理论、应用与软件实现[M].西安:西安交通大学出版社,2002.
[16] 潘峰,李位星,高琪.粒子群优化算法与多目标优化[M].北京:北京理工大学出版社,2013.
Back Propagation Artificial Neural Network Combined with Near Infrared Spectroscopy for Timber Recognition//
Wang Xueshun, Sun Yidan, Huang Mingao
(Beijing Forestry University, Beijing 100083, P. R. China); Huang Anmin(Research Institute of Forestry, Chinese Academy of Forestry)//Journal of Northeast Forestry University,2015,43(12):82-85,89.
We established the back propagation (BP) neural network model for timber recognition with the data of wood near infrared spectrum. We selected 296 spectral samples ofEucalyptuswood, poplar, larch,Pinusmassoniana, andMongolicaas the research object, and the principal components as input variables of classification model after the data dimension reduction by principal component analysis. Then we established the BP neural network classification model of two tree species between eucalyptus and poplar, larch and mongolica respectively, as well as the BP neural network recognition model of five tree species which was optimized by genetic algorithm and particle swarm algorithm methods. For different wood, the recognition rate of BP neural network model for different general wood could reach 100%, and still reach more than 85% for congeneric wood. For five tree species identification model, the recognition rate of BP neural network dropped to 75% above, while timber species average recognition rates were above 84% and 87%, respectively, through the optimization model by genetic algorithm and particle swarm algorithm, Both genetic algorithm and particle swarm algorithm could improve timber species recognition rate effectively.
Near infrared spectrum; Timber species recognition; BP neural network; Genetic algorithm; Particle swarm optimization
1)国家自然科学基金(31270591)。
王学顺,男,1959年12月生,北京林业大学理学院数学系,教授。E-mail:wangxueshun@bjfu.edu.cn 。
黄安民,中国林业科学研究院木材工业研究所,副研究员。E-mail:hbham2000@sina.com。
2015年4月13日。
O29
责任编辑:戴芳天。