木材树种计算机视觉识别技术发展与应用
2021-05-31何拓刘守佳陆杨焦立超殷亚方
何拓,刘守佳,陆杨,焦立超,殷亚方
(中国林业科学研究院木材工业研究所, 中国林业科学研究院木材标本馆,北京 100091)
随着全球森林资源贸易的剧增,以《濒危野生动植物物种国际贸易公约》(Convention on International Trade in Endangered Species of Fauna and Flora, CITES)管制物种为代表的木材贸易成为全球关注的焦点。我国是CITES缔约国之一,也是全球最大的木材进口国。2019年我国木材进口量1.14 亿m3,同比增长1.72%,我国木材缺口持续增加,木材资源对外依存度已超过50%[1]。但在利益驱动下,濒危珍贵木材走私活动日益猖獗,我国木材进口受到国际社会的广泛关注。同时,根据联合国环境规划署和国际刑警组织统计,全球每年木材非法贸易金额高达150亿美元,对全球森林资源及生物多样性造成严重破坏[2]。在木材贸易流通环节,对木材树种进行准确快速识别,是打击木材非法贸易活动的重要科学途径。因此,开展木材树种的精准识别技术研究并进行推广应用,对保障国家木材安全、保护森林物种多样性以及加强林产品产业链监管具有重要的现实意义。
传统木材树种识别方法是建立在木材解剖学基础上,通过木材宏观和微观构造特征进行树种分类,一般只能识别木材到“属”或者“类”[3-4]。基于分子生物学的DNA条形码[5]以及基于组织化学的近红外光谱[6-7]、气相色谱-质谱[8]、实时直接分析质谱[9-10]等方法,虽然为木材“种”水平的识别提供了新的途径,但构建完善可靠的木材识别特征(DNA序列、化学指纹图谱等)数据库需要花费大量的人力财力,且难以在口岸现场进行大批量样本的快速识别应用推广,从而限制了以上木材识别方法的进一步发展。
随着计算机技术的快速发展,计算机视觉技术在木材识别领域逐渐发展应用,为木材树种的准确快速识别提供了新的途径。与其他识别特征相比,木材构造图像特征更加容易获得,构建木材构造图像数据库更加省时省力,为木材树种的精准快速识别提供了可能。传统木材树种计算机视觉识别方法通过获取木材宏观或微观构造图像,采用数字图像处理技术对木材识别特征进行提取,进而采用分类器对木材树种进行分类。而最新发展的基于深度学习(deep learning)的木材树种计算机视觉识别方法在建立图像数据集基础上,通过构建深度卷积神经网络(convolutional neural network,CNN)对图像数据进行训练学习,自动提取木材图像识别特征,从而实现对木材树种的快速分类[11-12]。
笔者从图像采集、特征提取和树种分类等方面介绍了传统木材树种计算机视觉识别技术的研究概况,进而从图像数据集建立、模型构建、训练与测试以及系统开发与应用等方面,对基于深度学习的木材树种计算机识别技术研究进展情况进行综述。在此基础上,对基于深度学习的木材树种计算机视觉技术在木材识别领域的应用前景进行了展望,以期为木材树种自动精准识别技术研究应用提供新的思路。
1 传统木材树种计算机视觉识别技术
传统木材树种计算机视觉识别方法通过获取木材宏观或微观构造图像,采用数字图像处理技术对木材的识别特征进行提取,进而采用分类器进行木材树种分类[13](图1)。
图1 传统木材计算机视觉识别技术流程Fig. 1 Process flow chart of traditional computer vision technology for wood identification
1.1 图像采集
传统木材树种计算机视觉识别方法按照识别对象主要分为两类,即基于宏观特征图像和微观特征图像的木材识别[14]。木材宏观、微观特征图像中包含着木材识别特征,可以为木材树种识别提供有效的特征信息。
基于宏观特征图像的木材识别,主要通过数码相机、工业相机和扫描仪等图像采集装置获取颜色[15-18]和纹理[19-23]等物理特征图像,进而对木材树种进行识别。研究表明,木材宏观图像中颜色和纹理包含的识别特征较少,尤其对于相似树种木材,其颜色和纹理的特征差异非常小。同时,木材颜色容易受到外界环境的影响而改变,且木材在不同方向上显示的纹理差别较大,导致颜色和纹理特征对木材树种的识别能力十分有限[24]。
基于微观特征图像的木材识别,利用实体显微镜、生物显微镜以及扫描电子显微镜采集木材三切面的微观构造图像,提取出管孔、轴向薄壁组织和木射线等微观构造特征进行木材树种识别[25-30]。相比而言,微观特征图像包含木材更加丰富的构造特征,尤其是木材横切面构造图像,包含木材管孔、轴向薄壁组织和木射线等重要构造特征,为木材树种的识别提供了关键信息[31-33]。
但同时注意到,木材宏、微观图像均属于细粒度图像,需要专业的木材鉴定人员对图像进行准确标注。目前研究使用的图像很少是从经正确定名的木材标本采集而来,用于模型训练的图像可靠性无法保证,从而影响识别结果的准确性。同时,木材宏观特征图像通过非专业图像采集装置获取,容易受到外界环境的影响,图像噪声较大,图像数据集的一致性较差,导致图像质量不高,从而影响了最终的识别精度;而木材微观构造图像采集依赖于实体显微镜、光学显微镜和扫描电子显微镜等大型仪器设备,难以在木材树种现场识别领域得到应用。因此,亟须采用专业便携的图像采集装置从经正确定名的木材标本采集高质量木材构造图像,建立木材构造图像参考数据库,为木材树种计算机视觉识别技术的发展和应用奠定基础[34]。
1.2 特征提取
木材宏观图像中包含木材的颜色和纹理等分类特征,从木材图像提取出有效的识别特征是木材树种识别的基础。颜色是木材在宏观尺度上重要的物理特征,通过提取RGB颜色空间、颜色直方图和颜色矩等特征参数作为识别特征,进而对木材树种进行分类[35-37]。但木材颜色易受到外界环境的影响,木材在空气中缓慢氧化或受到霉菌侵染,其颜色会随之发生变化,而且相似树种的木材颜色十分接近,因此颜色特征在木材树种识别方面具有较大的局限性[38]。木材纹理由生长轮、木射线和轴向薄壁组织等解剖分子相互排列组合组成,纹理是木材树种的基本特征,也是木材树种识别的关键特征。大量研究通过对木材纹理进行定量化研究,获取纹理形状、纹理方向、纹理周期密度、纹理粗细均匀度、纹理基元大小、纹理行程和灰度分布均匀性等特征参数,用于木材树种的分类[39-41]。在宏观尺度上,同种木材的纹理变异性较大,而且木材在不同角度的切面显示的纹理各异,导致木材纹理对木材树种的识别难度大,识别结果不稳定。
木材微观构造特征的提取方法主要分为两类:基于图像分割的特征提取和基于整体图像的特征提取。基于图像分割的特征提取方法主要利用图像处理技术的二值化、阈值分割以及数学形态方法对木材微观构造中的管孔、轴向薄壁组织、木射线、胞间道等主要组织类型进行分割,分别提取这些微观构造的形态因子、组织比量和几何结构等特征[42-43]。大量研究对管孔特征进行分割和提取,并基于管孔的轮廓、数量、分布和组合类型等特征对木材树种进行分类[44-47]。但是,在木材的微观构造中,各种细胞组织类型在空间上都具有一定的联系,形成各种形态的组合类型,图像分割在一定程度上破坏了有效的识别特征,因而更多的研究采用图像整体的特征提取方法[48]。
图像整体的特征提取方法主要包括方向梯度直方图(histogram of gradient, HOG)、灰度共生矩阵(gray-level co-occurrence matrix, GLCM)、滤波法(gabor filter, GF)、小波变换(wavelet transform, WT)、尺度不变特征转换(scale-invariant feature transform, SIFT)和局部二值模式(local binary pattern, LBP)等方法。方向梯度直方图反映了图像不同点位之间像素的梯度,通过将整个木材图像细分为多个纹理基元进行特征提取,保持了图像光学和几何特征的不变性,对木材树种具有较好的识别效果[49-50]。灰度共生矩阵可以定义图像不同的统计量特征参数,从不同角度对木材纹理特征进行表示,常用的特征参数有能量、熵、对比度、差异度、逆差矩和方差等。由于灰度共生矩阵特征参数丰富,对木材纹理可以进行全面刻画,因而在木材纹理特征提取研究中得到了广泛应用[51-53]。滤波法通过特定方向上的局部频率信息进行图像纹理的表示,在木材纹理特征提取方面表现出显著的效果[54-56];但是,滤波法无法表示木材纹理在不同尺度和方向的细节结构特征。小波变换是空间(时间)和频率的局部变换,通过变换可以突出木材图像中局部重点特征,进而从木材图像中提取有效的识别信息[57-58]。尺度不变特征变换具有较好的稳定性和不变性,能够适应图像旋转、尺度缩放、亮度的变化,能在一定程度上不受视角变化、仿射变换、噪声的干扰,对木材不同方向的图像具有很好的辨别能力,可以提取出木材管孔的形状信息[59-61]。局部二值模式是用来描述图像局部纹理特征的方法,具有旋转不变性和灰度不变性等显著优点,提取的特征是图像局部的纹理特征,在木材纹理特征提取中被广泛应用,并取得较好的识别结果[62-63]。
虽然以上特征提取方法可以在一定程度上提取出有效特征对测试图像进行分类,但需要专业的知识经验进行人工设计特征,而且所提取的特征往往对于未知样本的图像识别能力比较有限,即模型的泛化能力较差[64]。
1.3 树种分类
从木材构造图像中提取出有效的识别特征,需要采用合适的分类器对木材树种进行分类。在木材识别研究中采用较多的分类器有线性判别分析(linear discriminant analysis, LDA)、人工神经网络(artificial neural network, ANN)、支持向量机(support vector machine, SVM)和最近邻分类法(K-nearest neighbor, KNN)等算法。线性判别分析是经典的线性分类方法,基本思路是将两个类别的数据投影到一条直线上,使这两个类别数据之间尽可能远离,且同类数据尽可能聚集在一起。Khairuddin等[65]采用LDA方法对提取的52种木材图像特征进行降维,解决了非线性结构特征数据的木材树种分类问题。人工神经网络通过模拟人的神经网络进行信号的传递、处理和输出,具有较好的鲁棒性和容错性,在木材图像分类中得到了广泛应用[66-67]。Ibrahim等[68]从30种木材的3000张图像中提取出24个图像特征,采用人工神经网络算法进行分类,树种识别成功率达到89%。支持向量机的基本思路是求解能够正确划分训练数据集且几何间隔最大的分离超平面,除了进行线性分类之外,支持向量机还可以使用核函数有效地进行非线性分类,将其输入数据映射到高维特征空间中进行分类。在木材图像分类研究中,支持向量机算法获得的分类结果普遍较好[26,50]。最近邻分类法是从训练数据集中找到与输入样本最邻近的K个样本,这K个样本的多数属于某个类别,即把该输入样本分类到这个类别[69]。Chao等[70]采用最紧邻分类法对LBP提取的特征进行分类,显著提高了分类效率以及识别成功率。研究表明,即使基于相同的特征参数,不同分类器对木材树种分类结果也存在差异[71]。以上分类器虽然取得了一定的树种分类效果,但是也存在一些局限性。例如,线性判别分析容易导致欠拟合,分类精度易受到提取特征的影响;人工神经网络对初始网络异常敏感,且需要消耗大量的算力;最近邻分类法的K值需要人为设定,算法的复杂度较高。同时,分类器的性能高度依赖于所提取的特征,但目前的分类器设计和特征提取是两个独立的过程,忽略了两者之间的联系,导致分类器的识别结果不稳定[67]。
综上所述,传统木材树种计算机视觉识别方法在以下三方面还存在不足:一是图像多数不是来自经正确定名的木材标本,未建立专业可靠的木材构造图像数据集,且图像采集多采用专业大型仪器,无法在木材树种检测现场使用;二是特征提取主要依靠人工设计特征来完成,提取的特征对未知样本的识别结果不理想,模型的泛化能力较差;三是分类器设计与特征提取分离,分类器对数据比较敏感,导致分类器不稳定、分类精度欠佳。因此,传统的木材树种计算机视觉识别技术尚未在木材识别领域得到应用推广。
2 基于深度学习的木材树种计算机视觉识别技术
近年来,深度学习逐渐成为机器学习领域最为热门的研究方向,在图像识别、语音识别、自然语言处理、医疗自动诊断和无人驾驶等领域取得了突破性的进展[72]。深度学习是一类主要使用深度神经网络为工具的机器学习算法,通过学习大量样本数据(文字、图像和声音等)的内在规律和表示层次,旨在使机器能够像人一样具有分析学习能力,可以识别文字、图像和声音等数据。深度学习在计算机视觉领域的快速应用,为木材树种识别提供了新的思路。深度学习方法通过构建深度卷积神经网络(包括输入层、卷积层、池化层和全连接层等),将特征提取和分类器整合到多层网络结构中,通过卷积层和池化层从木材构造图像中自主学习并提取特征,进而采用全连接层对木材树种进行分类。与传统的分类模型相比,卷积神经网络的训练是“端对端”的映射过程,不需要精确的数学表达式即可表示输入和输出的关系,避免了因图像预处理、分割、特征提取等操作带来的误差,从而突破了传统计算机视觉方法人工提取特征的技术瓶颈[73]。基于深度学习的木材树种计算机视觉识别方法通过建立专业的图像数据集,构建深度学习模型并进行训练测试,进而基于图像采集硬件以及算法软件,构建木材树种识别系统(图2),应用于木材树种现场快速检测领域。
图2 基于深度学习的木材计算机视觉识别技术流程Fig. 2 Process flow diagram of computer vision technology based on deep learning for wood identification
2.1 图像数据集建立
相比传统的计算机视觉识别模型,深度学习模型需要输入代表样本多样性的大量图像对模型进行训练,以避免模型出现“过拟合”,即模型对用于训练的样本具有较好的识别能力,但对其他未知样本的识别结果不理想。由于木材构造图像数据集的准确性会直接影响树种识别结果,用于图像采集的样本都应该来自经正确定名的木材标本。全球约有180个木材标本馆,收藏木材标本超过150万份,大量的木材标本为图像数据集的建立奠定了物质基础[74]。在基于深度学习的木材树种计算机视觉识别技术中,图像采集一般采用专业便捷的图像采集装置[75-77]或者手机外置镜头[78-79],以适应大样本量的图像采集任务以及木材树种现场识别应用场景。一方面,从大量的木材标本上采集图像,建立木材原始图像数据集;另一方面,也可以采用图像数据增强方法对原始图像进行旋转、镜像、平移和缩放等处理,以增大数据集的规模以及图像数据的多样性。
国内外专家学者已针对不同树种建立了木材图像数据集。例如:Tang等[78]构建了41个巴西树种包含2 942张木材构造图像的数据集;Ravindran等[11]基于美国农业部林产品实验室木材标本构建了楝科10种木材包含2 303张图像的数据集;He等[12]从全球4个木材标本馆采集了黄檀属和紫檀属共26种木材包含10 237张图像的数据集。这些图像数据集都是通过专业装置从木材标本上采集的木材横切面构造图像,图像分辨率高、噪声小、一致性好,为深度学习模型构建和训练奠定了高质量的数据基础。在图像采集时,为了尽量获取木材的种内变异特征,每种木材应选取尽可能多的木材标本进行图像采集,并且图像采集区域应覆盖整个横切面。在模型训练前,通常先将图像数据集划分为训练集和测试集,训练集图像用于对模型进行训练,测试集图像用于测试模型的精度。训练集和测试集一般采用80%/20%、70%/30%或60%/40%比例随机进行划分,或采用n倍交叉验证的方法进行划分,用于训练的图像通常不会被划分入测试集。
2.2 模型构建、训练与测试
深度学习是一种“端对端”的算法模型,图像输入到模型中,通过卷积神经网络对大量的图像数据进行训练学习、自动化提取特征和分类样本,进而输出分类结果。卷积神经网络一般由输入层、卷积层、池化层和全连接层构成,浅层网络主要提取图像的边缘特征,而深层网络可以学习到深度表示层次的图像特征[11]。基于深度学习的计算机视觉识别技术,本质上是将传统计算机视觉识别中的特征提取和分类器融合到深层卷积神经网络中。其中,卷积层和池化层起到了特征提取的作用,全连接层相当于分类器。卷积神经网络中比较常见的网络结构一般包括AlexNet、GoogleNet、VGG16和ResNet等。
在基于深度学习的木材计算机视觉识别中,研究人员分别基于VGG16、AlexNet、 Inception v4和ResNet 等网络结构建立了深度学习的模型[11-12,75-79]。深度学习模型需要大量的图像数据对模型训练,才能保障模型具有较好的识别能力。目前虽然已经建立了不同的木材构造图像数据集,但相比物体检测等领域的图像数据集而言,数据集的样本量还相对较少,容易导致模型产生“过拟合”。 同时,木材构造图像是一种细粒度图像,具有种内变异大、种间差异小的特点,相比普通的图像分类任务,木材构造图像分类难度更大。因此,在深度学习模型进行训练时,通常先采用迁移学习(transfer learning)方法在谷歌ImageNet大规模数据集上对模型进行预训练,再对模型的网络参数进行微调(fine tuning),进而用于木材构造图像分类任务中。在模型训练过程中,卷积层通过一系列卷积核从图像中提取特征,池化层可以降低卷积层输出的维数,以减少模型参数量和计算量。同时,通过设置初始值学习率、动量等参数,采用随机梯度下降方法对模型训练进行加速,使模型快速收敛并找到全局最优。
为了进一步防止模型出现“过拟合”,采用Dropout函数随机删除部分特征来提高模型的泛化能力,或者采用批量归一化(batch normalization)正则化方法加速深度卷积神经网络的训练[65]。模型测试和评价采用测试集图像进行,一般在科、属、种不同分类水平或者在图像块(patch)、原始图像等不同图像尺度水平上对模型的识别精度进行测试,并结合混淆矩阵和误判结果对模型的表现进行综合分析和评价[11-12]。但是,目前针对模型精度的测试处于实验室阶段,还未使用贸易流通中的木材样本对模型进行测试,以评价模型在实际应用中对于未知样本的识别能力。
深度学习模型虽然可以自动提取木材图像识别特征并进行快速分类,但深度学习模型是一个“黑盒子”模型,即图像输入到模型后,模型输出分类结果,模型提取的分类特征是不可见的。然而,对于木材树种分类而言,不同树种之间存在的精细构造特征差异,是木材树种进行分类的科学基础[12]。因此,对深度学习模型自动提取的特征进行可视化分析,通过图像特征可视化挖掘木材树种之间存在的精细构造特征差异,对于木材分类研究具有重要的科学意义。
2.3 系统开发与应用
基于深度学习的木材计算机视觉识别技术,由于其识别准确率高、速度快,在木材树种现场识别领域具有潜在的应用价值。开发基于深度学习的木材树种计算机视觉识别系统并实现应用,需要硬件和软件的相互配合。目前国内外研究多数采用专业图像采集装置或者手机外置镜头在实验室场景下采集图像,构建深度学习模型进行训练和测试,针对解决木材现场识别技术难题而专门开发图像采集硬件和软件的机构有美国农业部林产品实验室、马来西亚拉曼大学和中国林业科学研究院木材工业研究所。
美国农业部林产品实验室开发了XyloTron木材构造图像采集装置[75],重点采集了南美洲、非洲和拉丁美洲等地区热带树种木材横切面构造图像,建立了包含约130 000张图像的数据集,分别针对楝科10种相似木材、加纳地区15种热带木材建立了深度学习模型,识别精度分别为97.5%和97%[11, 76]。Ravindran 等[77]将基于深度学习的木材树种计算机视觉识别方法与化学识别方法(DART)进行比较,结果表明,前者获得了更高的识别精度和识别效率,在木材树种现场识别领域具有应用潜力。
马来西亚拉曼大学采用手机外置放大镜头采集了100种马来西亚产地木材的101 546张图像,利用轻量级网络SqeezeNet构建了深度学习模型,并开发了MyWood-ID木材图像识别系统,可以实现马来西亚100种常见贸易木材的快速识别,平均识别精度为77.52%[78]。
中国林业科学研究院木材工业研究所在国内率先开展了基于深度学习的木材树种计算机视觉识别技术研究,研发了木材构造图像专业采集装置iWood,并基于中国林业科学研究院木材标本馆,建立了包含黄檀属、紫檀属、古夷苏木属、桃花心木属、洋椿属等64种常见贸易濒危珍贵木材构造图像数据库,构建了15种黄檀属和11种紫檀属木材构造图像深度学习模型,识别精度高达99.34%[12]。同时,该所首次实现了深度学习模型自动提取的木材构造图像特征可视化,揭示了所提取的黄檀属和紫檀属木材构造关键识别特征分别为管孔和轴向薄壁组织,开发了基于深度学习的木材树种计算机视觉识别系统iWood[80],初步实现了濒危珍贵木材在实验室、海关和贸易市场等不同场景下的自动精准识别(图3)。
图3 应用iWood木材识别系统进行木材识别Fig. 3 Wood identification application using iWood system
3 展望与建议
传统的木材树种计算机视觉识别技术经过多年的发展,虽然在特征提取和分类器方法开展了大量研究,但由于缺乏专业便捷的图像采集装置以及科学可靠的木材构造图像数据库,未能在木材识别领域得到广泛应用。相比而言,基于深度学习的木材树种计算机视觉识别技术,通过专业图像采集装置或者手机外置镜头等从木材标本上采集了大量图像,建立了高质量木材构造图像数据集。同时,利用深度卷积神经网络实现了木材图像特征的自动提取与精准分类,具有识别准确率高、速度快、成本低和便携性好等优点,可以在海关检验、质量监督和木材贸易等领域得到广泛应用,为提升国际履约水平、保护森林树种多样性和加强木材产业链监管提供技术支撑。为了进一步推动基于深度学习的木材树种计算机视觉识别技术的发展和应用,建议未来在以下几个方面开展工作:
1)借助木材标本国家创新联盟等专业平台,开展木材标本数字化工作,采用专业化、标准化图像采集硬件和软件采集木材构造图像,建立起准确可靠的木材构造图像数据库,为基于深度学习的木材树种计算机视觉识别技术发展和应用奠定坚实的数据基础;
2)比较分析不同卷积神经网络结构及其参数对模型精度的影响机制,确立适用于木材构造图像的最优深度学习参数体系,实现木材树种计算机视觉识别技术的标准化;
3)基于木材构造图像数据库和深度学习模型参数体系,建立基于深度学习的木材树种计算机视觉自动精准识别系统,并在实验室、贸易市场和海关口岸等不同场景进行测试,根据测试结果对模型不断进行优化,提高模型的精度和泛化能力;
4)开展计算机视觉的识别特征可视化研究,解译木材识别构造特征中无法通过人类视觉发现的精细构造特征,进一步揭示木材精细构造特征在种间水平的变异规律,为木材分类理论提供科学依据;
5)开展计算机视觉信息与遗传信息、化学信息等多源数据深度挖掘研究,建立多源数据分类特征库;借助大数据和人工智能,实现木材多源数据分类特征的深度融合,形成基于精细构造图像、DNA条形码和特征化合物等多特征融合的木材精准识别技术体系。
致谢:感谢国家林业和草原局野生动植物保护司(中华人民共和国濒危物种进出口管理办公室)对本项目的资助;同时,感谢中国林业科学研究院木材工业研究所姜笑梅研究员、美国农业部林产品实验室Alex C. Wiedenhoeft博士对本论文提供的帮助和建议。