照片分类法与图像识别技术相结合的森林可燃物分类1)
2018-11-28刘方策张运林满子源孙龙
刘方策 张运林 满子源 孙龙
(东北林业大学,哈尔滨,150040)
森林可燃物类型是反映占据一定时间和空间的具有相同或相似燃烧性的可燃物复合体,不同可燃物类型有不同的火险情况[1]。单独的森林可燃物,理化性容易测定,但在实际工作中,森林可燃物是复杂的综合体,不同的可燃物构成不同的可燃物类型,具有不同的火险情况。因此,进行森林可燃物类型划分,对于我国森林火险区划,森林防火基础数据库建立有重要意义。
可燃物类型的划分方法主要有直接估计法、植物群落法、资源卫星图片法、可燃物检索表法和照片分类法。直接估计法和可燃物检索表法主要依赖林火管理人员的经验[2];植物群落法对于火行为难以确定,数据收集成本高[3];资源卫星图片法对林下可燃物类型分类不足[4];而照片分类法是一种快速简便的方法,用于量化和描述现场的可燃物特性,将可燃物样地照片与可燃物特征建立视觉联系,从而判断可燃物类型,客观真实的反映可燃物特征,相比其他划分方法,测定可燃物类型的时间减少80%[5]。
在20世纪70年代,美国开展了很多照片分类法的研究[6-10]。Muraro[7]提供可燃物类型的量化信息与抽样的森林可燃物照片,建立了现场可燃物和可燃物类型之间的视觉关联,从而判断两者的火行为是否相似。美国林务局在70年代启动了国家可燃物分类和数据库系统,其目标是生成定量可燃物数据、可燃物照片系列等[11]。每个照片系列旨在对可燃物类型进行快速、简单和廉价的评估,并附有数据表,包括可燃物类型量化参数[12]。Brown et al.[13]认为利用快速划分可燃物类型的照片分类法代替野外可燃物调查的详细测量。目前,北美地区已有52个可燃物照片指南[3],其他地区也在进行可燃物照片分类的研究(如南美、欧洲和墨西哥也进行了这类系列的开发)[14-17]。
金森等[18]利用照片和图像处理技术对人工林地表可燃物进行分类,建立了1 h时滞可燃物图像分类模型。除此之外,我国再没开展过可燃物类型照片分类法的研究。
森林可燃物类型的照片分类法是一种快速方便获取可燃物类型信息的方法。利用照片分类法划分可燃物类型,可更加快速的为林火预报提供依据,使预报落实到具体地段上。扑救森林火灾时,照片分类法可及时评估可燃物类型,有助于指挥扑火。在营林安全用火中,根据其划分的不同可燃物类型决定用火技术。本文以黑龙江省大兴安岭地区为研究对象,将照片分类法与近年来发展迅速的图像识别技术相结合,为森林可燃物类型分类提供参考。
1 研究区概况
黑龙江省大兴安岭地区地处我国东北部,平均海拔573 m,年平均气温-2.8 ℃,年平均降水量746 mm。土壤类型主要有棕色针叶林土、暗棕壤、灰黑土、草甸土和沼泽土;黑龙江省大兴安岭地区是我国纬度最高,且面积最大的林区(50°10′~53°33′N,121°12′~127°00′E),是我国唯一的寒温带针叶林区,以兴安落叶松(Larixgmelinii)为主要优势建群种,其他乔木树种主要有针叶乔木樟子松(Pinussylvestris)、偃松(Pinuspumila)、云杉(Piceaasperata)等,阔叶乔木白桦(Betulaplatyphylla)、黑桦(Betuladavurica)、蒙古栎(Quercusmongolica)、山杨(Populusdavidiana)、紫椴(Tiliaamurensis)等。灌草层的结构较为单一,以杜鹃(Rhododendronsimsii)、杜香(Ledumpalustre)和胡枝子(Lespedezabicolor)占优势。
2 研究方法
2.1 野外调查方法
2.1.1 样地设置和可燃物调查
设置20 m×20 m样地,调查记录样地坐标、海拔、坡位、坡度、坡向、林分郁闭度、物种名称等。对胸径大于等于1 cm的乔木每木检尺,记录主林层、次林层、站杆的盖度、第一枝下高、株数、平均胸径和平均树高。
在每个样地的四角和中心设置5个2 m×2 m小样方,调查胸径1 cm以下的灌木,记录灌木主层的盖度、活灌木比例、是否有针叶树垂下枝条。
样地内设置5个1 m×1 m小样方,调查非木质可燃物(活的草本和蕨类等),记录草本层主层和次层的盖度、活草比例、高度、载量,木质可燃物的厚度和盖度,腐烂和未腐烂树桩的数量、直径、高度,堆状可燃物的长、宽、高。
沿样地对角线设置5块0.5 m×0.5 m样方,调查腐殖质,记录凋落物、半腐殖质、腐殖质层和地衣苔藓的厚度、盖度、形态、物种组成及针叶、阔叶、草本植物的比例。
2.1.2 可燃物照片拍摄方法
拍摄方法的设计目的是为图像识别技术采集可燃物图像特征。森林可燃物层次体系[19]如图1,不同的可燃物层次结构对火行为的影响也不同。设计原则是快速且尽可能多的涵盖可燃物样地特征。因此,本研究按照森林可燃物的层次体系结构,将可燃物照片拍摄分为4个层次。
树冠层:该层次主要是在照片上体现可燃物层次体系的树冠特征。在样地内用相机对准正上方,拍摄样地内乔木树冠,照片内只包括树冠和天空。
图1 森林可燃物的层次体系结构
中间层:该层次主要拍摄树冠之下、低矮植被层之上的乔木,包括梯子可燃物、枯立木,在图片上体现可燃物层次体系的乔木层特征。对乔木远景拍照,包括整个树高,但尽量不要照到乔木层以下的可燃物(视地形而定)。
灌木层:该层次涵盖的可燃物特征最多,包括乔木层、灌木层、粗可燃物层、枯枝落叶层、地表可燃物层。将相机对准前方拍摄包括乔木、灌木、低矮植被及地面的照片,尽量不要拍摄到树冠。
地被层:该层主要拍摄样地内的低矮植被层、粗可燃物层、枯枝落叶层、地表可燃物层。将相机对准下方拍摄灌木、地表可燃物及地面。
每个层次不同方向共拍摄5张以上照片,拍摄时应站在样地中心拍摄并将焦距归零。若某层次缺失相应的可燃物特征,例如,样地内乔木未达到起测径级,没有形成树冠,则不拍摄树冠层照片。
2.1.3 可燃物照片数据库建立
将大兴安岭地区调查的51块样地,保存在数据库内,再把采集的照片保存到相应样地的文件夹;每个样地文件夹中的照片依照拍摄层次保存到各自相应的层次文件夹中,这样每一张照片都被准确的定义。例如,某一张图片的定义是:大兴安岭-1号样地-乔木层。并且,数据库内每块样地都附有可燃物样地参数。
2.1.4 可燃物类型划分
本研究采用系统聚类方法,对大兴安岭地区调查的51块样地进行可燃物类型划分。该方法的基本思想是,先将n个样本看成一类,并规定样本之间和类别之间的距离,开始时距离是相同的,然后在所有类中,选择距离最小的两个类合并为一个类,并计算新类之间的距离;再将距离最近的两个类合并,并且计算距离,这样每次合并两类,直到所有样本合并为一类为止。
由于本研究调查参数多达39个,调查样地为51个,过多的聚类因子不适合进行可燃物类型划分,因此,采用主成分分析法对聚类因子降维,降维后的因子回归系数作为聚类因子。在主成分分析之前,对调查参数进行Z分值标准化处理。
2.2 识别技术
2.2.1 图像识别的步骤
图像识别一般分为三个步骤:
第一步,将目标图片进行特征提取。采用目前最新、效果最好的卷积神经网络(CNN),这是一种带有卷积结构的深度神经网络,卷积结构可以减少深层网络占用的内存量,也可以减少网络的参数个数,缓解模型的过拟合问题。
第二步,将图像特征信息进行编码列表。对于分辨率较大的照片作降低分辨率处理后,再进行图像特征提取和编码处理。
第三步,相似度匹配运算。利用目标图像的编码值,在图像识别引擎中的图像数据库进行全局的相似度计算;根据所需要的鲁棒性,设定阈值,然后将相似度高的图片预保留下来。
2.2.2 建立识别算法
提取CNN特征:采用Imagenet-vgg-f(VGGNet)模型[20]来提取样地图像的CNN特征。VGGNet是一种深度卷积神经网络,揭示了卷积神经网络的深度与其性能之间的关系,相比之前的网络结构,错误率大幅下降。同时,其具有扩展性强,泛用性好,结构简洁的优点。VGGNet训练后的模型参数在官方网站上是开源的,可用来在特定的图像分类任务上进行再训练,提供了非常好的初始化权重。VGGNet最主要的特色是减少运算的参数量,对于单个的5×5的卷积层,在VGGNet模型上则体现为2个3×3的卷积层;单个7×7的卷积层,在VGGNet模型则是3个3×3的卷积层,参数量只有前者的(3×3×3)/(7×7)=55%,大大降低了模型的运算量,简化了数据结构,使得CNN对特征的学习能力更强。训练时,输入的是大小为224×224的RGB图像,预处理过程中只在训练集中的每个像素上减去RGB的均值。用第20个struct的数据,通过VGGNet模型获得每个样本图像4096维的特征向量。
图像相似度评判:对于两张图像I1和I2,需要计算两者相似度。首先利用VGGNet模型提取两张图像的4096维特征向量f1和f2,然后利用下式计算相似性:
式中:s为相似得分。这相当于两张图像归一化特征向量的内积,该值越大,代表图像的相似性越大。
样地检索:对于一块样地,可将可燃物样地图像特征分为4个层次(树冠层、中间层、灌木层以及地被层),每个层次采集有不同数量的照片。对于一张测试图像,如果其属于某一层次,则只在相应层次的数据库中进行检索。为了消除不同样地照片数目不同所带来的差异,仅计算该照片与不同样地样本的最大相似度。如果输入多张照片,则将多个最大相似度进行相加,这样就获得了测试样地同数据库中样地的相似度关系。按照相似度大小排序,最终返回样地检索结果。
在图像识别研究领域,存在top-n容错率,即在排名前n个结果中,如果有一个结果正确,那么本次分类即为正确[21]。大兴安岭地区的照片样本数为671个,采用Top-3容错率,即为排名前3的结果中有一个结果分类正确,那么本次分类就是正确的。
3 结果与分析
3.1 每层最少照片选择
该测试旨在分析该技术每层至少需要多少张照片,才能达到输出结果差异不显著。对大兴安岭地区51块调查样地进行测试,共671张照片,每块样地每层2至6张照片随机组合,依次递进测试,每种照片数测试30次,取Top-1结果,共得到7650个数据。
理论上,每层照片数越多,识别稳定性越高。该测试旨在找出可以达到稳定结果的每层最少照片数,将每层照片数得到的结果样地进行相互对比,2张对比3张,3张对比4张,依次类推。采用单因素方差分析法,分析两组结果的差异性是否显著。
由表1可知,F值大于F-crit值,表明每层2张与每层3张存在差异,P值大于0.01,小于0.05,说明差异显著。表明在每层2张的情况下,识别结果未达到稳定。
表1 每层2张与每层3张结果差异分析
由表2可知,F值小于F-crit值,表明每层3张与每层4张结果无差异,P值大于0.05,更进一步说明二者之间不存在差异,暂时认定每层3张可达到结果稳定。
表2 每层3张与每层4张结果差异分析
由表3可知,F值小于F-crit值,说明每层4张与每层5张结果无差异,P值大于0.05,更进一步说明二者之间不存在差异,当每层照片数大于3时,结果都是稳定的。
表3 每层4张与每层5张结果差异分析
由此可见,该软件至少每层3张照片,即可达到结果基本稳定。说明该软件在使用时,每层至少要导入3张照片,在调查拍摄可燃物样地时也应该每层至少拍摄3张。
3.2 精度测试
3.2.1 可燃物类型划分
可燃物类型是检验识别精度的标准,对于目标样地和算法输出的结果样地是否能归为一类,是通过可燃物类型来判断的。若目标样地与结果样地可燃物类型一致,那么本次分类即为正确,反之就是错误的。
本研究系统聚类分析采用欧几里得距离衡量相似尺度,依据华氏方法进行聚类,所有变量值均为Z分值。在聚类之前采用主成分分析法对聚类因子降维,连续并类的过程可以通过聚类谱系图直观展现出来,聚类因子主要为野外调查所收集的可燃物参数。
由表4可知,各聚类因子的信息提取率均高于0.6,说明合并因子造成的信息损失率在可接受的范围内。
由表5可知,39个因子被分为12类主成分,12类主成分的累加平方和为81.699%,大于75%,小于85%,说明当39个因子被分为12类主成分时,信息损失率稍大。考虑到可燃物床层的复杂性,累加平方和81.699%接近85%,信息损失率可以接受。
由图2可知,将12类主成分回归系数作为聚类因子,通过系统聚类分析得出,在聚集固定值为10的情况下,根据林分类型,将可燃物类型分为:灌木丛、落叶松-针阔混交林、落叶松-针叶混交林、阔叶纯林、落叶松纯林、樟子松纯林、灌丛草甸、针阔混交林、地衣苔藓、白桦纯林。利用系统聚类分析法,在聚类固定值为5的情况下,根据10个聚类的优势树种,将可燃物类型分为5类:LX-1(低矮植被类)、LX-2(落叶松-针阔混交林类)、LX-3(落叶松-针叶混交林类)、LX-4(樟子松纯林类)、LX-5(地衣苔藓地)。
表4 Z分值标准化后聚类因子的公共因子分析
3.2.2 精度检验
将划分好的可燃物类型编译成数值导入到每层3张照片数的结果中,如果目标样地的可燃物类型数值与结果样地的可燃物类型数值相减等于0,即视为分类正确。结果显示,51块样地,在每层3张照片随机组合,进行30次重复,共进行1530次检验,得到4950个结果。
51块样地Top-1检验结果,其中11块样地错分率为100%,9块样地准确率不足80%,32块样地准确率超过80%,23块样地准确率达到100%。因此,Top-1(仅将相似得分第一的结果计入)整体分类准确率为67.85%。
51块样地Top-2检验结果,其中8块样地错分率为100%,4块样地准确率低于80%;39块样地准确率高于80%,其中,37块样地准确率为100%。因此,Top-2整体分类准确率为78.95%,
51块样地Top-3检验结果,其中7块样地地错分率为100%,3块样地准确率低于80%,41块样地准确率高于80%,其中38块样地准确率为100%。因此,Top-3整体分类准确率为82.61%。
表5 聚类因子的变异数总计
4 结论与讨论
从照片输入数量来看,在每层3张照片的输出结果与每层大于3张照片的输出结果无显著差异,说明每层输入3张片可以得到稳定的结果。从理论上讲,结果的稳定与检验样地的图片组合数成负相关,也就是说,每层照片数输入的越多,样地各层的照片组合的选择越少,结果的差异性也就越小。总之,无论是填充数据库还是做野外调查拍摄,每层照片数不能少于3张。
从精度检验来看,Top-1的整体分类精度为67.85%,分类结果不理想;Top-2的分类精度为78.95%,可以接受;Top-3的精度达到了82.61%,表明在Top-3的情况下分类准确率是可靠的。在一般的图像分类中,通常采用Top-5容错率,主要应用在物体识别、风景识别、人脸识别等。本研究采用Top-3容错率,主要因为外业调查样地为51块,共拍摄671张照片,样本较少,同时又考虑到可燃物在空间上呈现的复杂结构,放宽了容错率。
一般的图像识别的对象为指纹、人脸、车辆、建筑、植物叶片、动物等,这些事物往往具有独特的结构、颜色和形态特征,识别难度相对较低。而森林可燃物样地尺度的群落特征十分复杂,可燃物种类繁多且形态各异,具有很强的空间异质性,识别难度相对较高。根据森林可燃物层次体系结构,将可燃物样地的图像特征分为4层,尽可能将各种可燃物都涵盖进图像特征。这种分层对各种可燃物层次、种类在检索时有很强的针对性,基本不会造成过度检索,既提高了准确率又提升了检索速度。
本研究与美国的照片分类法有着明显不同。美国的照片分类法是在目视前方拍摄平面和立体照片,由林务人员用立体眼镜对比现场可燃物与资料库里可燃物照片的相似程度[3]。本研究利用人工智能代替肉眼识别,旨在尽可能的在照片分类过程中,减少主观成分,同时,也是为了尽可能提取可燃物床层的特征。该分类依据是计算目标样地与数据库样地的每层每张照片最大相似程度,在结果输出窗口会输出相似得分排名前3的样地。根据目标样地的实际情况与Top-3样地在群落相似性、林分因子和可燃物参数等方面进行综合的对比,提高了检索速度。
图2 可燃物类型聚类结果
该技术目前尚处于初步研究阶段,与美国照片分类法相比还有很多不足。美国森林可燃物类型照片分类法经历40余年的发展,已经成为一个庞大的、不断完善的、易于调用的可燃物类型数据库。很多研究开发出可以用照片直接提取出可燃物载量、可燃物模型、潜在火行为和火效应模型等技术[22-25]。目前,该方法还不能直接提取出可燃物载量、火效应等指标,但原始调查数据可用于模型的计算,进而推算出更多的可燃物参数[26-31]。
由于数据库样本较少,但该方法的软件平台已经建立了数据库扩充的窗口,用户可以根据自己的需要添加样地,并划分可燃物类型。用户可以按照需求制定检索地区,不会扩大的检索范围。
探究图像特征与可燃物参数之间的联系,建立相关的线性或非线性模型,利用插值法推算出目标样地的可燃物参数。目前面临的问题是通过VGGNet模型提取的CNN特征,在每张照片上体现的是4096维的特征向量,无法直接用于建立可燃物参数图像模型。因此,在后续的研究中,需要对4096维的特征向量进行更高程度的降维,将高维度图像特征向量转化为输入到模型中的参数,建立与可燃物参数之间联系。