全卷积神经网络在建筑物震害遥感提取中的应用研究1

2019-07-28王晓青

震灾防御技术 2019年4期

陈梦王晓青

（中国地震局地震预测研究所，北京 100036）

引言

地震是对人类影响最大的自然灾害之一，为最大限度地减轻震害损失，灾后第一时间掌握灾情分布，对有效开展应急救援具有重大意义（王晓青等，2015；Janalipour 等，2016）。调查人员到灾区实地调查的传统方式虽能真实、准确地掌握受灾情况，但需花费较长的时间，且易受道路阻塞的影响。随着遥感技术的发展，遥感在抗震救灾中发挥着越来越重要的作用。遥感具有快速、非接触、覆盖范围广的特点，可迅速获取灾区的震害影像（王晓青等，2003；陈文凯等，2008）。如何从影像中快速提取建筑物震害信息是遥感应用的重要环节。建筑物震害信息提取经历了从基于像元到面向对象方法的发展历程。基于像元的方法不能充分利用纹理、形状和上下文等信息，制约了建筑物震害信息提取的精度（王岩等，2009）；面向对象方法弥补了基于像元方法信息提取精度的缺点，但面向对象方法应用于建筑物震害信息提取的特征，如纹理、形状等大多需要经过人机交互确定。在过去的几十年中，许多较成功的图像语义分割系统，如boosting（Shotton 等，2009）、随机森林（Shotton等，2008）、支持向量机（Fulkerson 等，2009）等，能较充分地利用纹理信息（Carreira 等，2011）和结构形状信息（Xuming 等，2004），但也需要人工干预选择特征并设置参数，影响其分类效果和效率。董燕生等（2011）基于面向对象的方法对建筑物震害瓦砾进行提取试验，其总体精度为78.57%。吴剑等（2013）以遥感影像分类的方式进行建筑物震害提取，将地物分为植被、水体、临时安置房、损毁建筑物和其他地物等，基于像元的方法分类总体精度为76.84%，面向对象的方法分类总体精度为90.38%。文翔等（2014）用面向对象的方法对高分辨率遥感影像进行分类，以提取建筑物震害信息，其总体分类精度为73.56%。杨春（2015）运用面向对象的思想，结合随机森林分类器，对鲁甸地震震后遥感影像进行分类，提取建筑物震害信息，以像元为统计单元，其总体分类精度为85%。

随着人工神经网络技术的发展，深度卷积神经网络已广泛应用于计算机视觉领域，如图像分类（Lecun 等，1998；Krizhevsky 等，2012；Sermanet 等，2013；Simonyan 等，2014；Szegedy等，2015）、物体检测（Erhan 等，2014；Girshick 等，2014；Girshick，2015；Kaiming 等，2015；Liu 等，2015；Ren 等，2017）等。许多研究者将深度学习技术应用于遥感图像分类的研究，总体来看可分为以下几类：①基于窗口的卷积神经网络：该方法将固定大小的图斑输入神经网络，利用卷积神经网络从该图斑中提取的特征对位于图斑中心一个或几个像素进行类别预测。Mnih（2013）利用该方法从高分辨率航空影像中提取房屋和道路，并取得较理想的结果，但这种方法计算量大、速度慢，目前已较少使用。②面向对象与卷积神经网络相结合的方法：该方法先将图像进行多尺度分割，得到超像元图斑，然后利用卷积神经网络对整个超像元图斑类别进行预测，这种方法虽对分类器进行了改进，但并未克服图像多尺度分割中存在的分割效果不良的问题。金永涛等（2018）采用该方法将地物分为建筑物、农作物、林地、水体、道路、其他地物等类型，总体精度为84.40%。③基于全卷积神经网络的方法：该方法将卷积神经网络全连接层替换为卷积层，并将不同层次的特征进行融合，实现了像元级的类别预测（Long 等，2015）。刘文涛等（2018）基于该方法进行了建筑物屋顶遥感提取，其测试精度达90%以上。

全卷积神经网络中使用的特征由神经网络自主学习得到，无需人工设定，因此，相对于传统方法，可在一定程度上实现快速自动分类。本文将全卷积神经网络应用于建筑物震害信息的提取，尝试解决建筑物震害遥感信息提取自动化程度不高的问题。

1 全卷积神经网络

Long 等（2015）提出全卷积神经网络的概念，并将其应用于图像语义分割。图像语义分割指将像素按照图像中表达语义含义的不同进行分组或分割。目前，以全卷积神经网络和上采样为基础的端到端的训练方法是当前语义分割的主流方法，为图像语义分割开辟了一条新的道路，可通过自主学习图像自身的特征实现语义分割任务，摆脱了人工设计特征的束缚。全卷积神经网络的基本思想是将卷积神经网络最后几层的全连接层替换为卷积层，从而使得特征图中包含位置信息。为实现图像各像素的分类，首先将卷积神经网络最后一层特征图上采样至与输入图像相同的尺寸，然后用分类器进行每一像素的类别预测。全卷积神经网络主要由卷积层、池化层和上采样层组成。卷积运算的实质是一个固定大小的卷积核以某一固定步长在图像上滑动做卷积运算。卷积运算过程中卷积核的权重参数及偏置参数均由通过神经网络的训练自主学习得到。神经网络中不同层的网络用于提取不同层次的特征。池化层的作用在于缩少参数矩阵的大小，减少网络中的训练参数，主要通过固定大小的窗口以特定的步长在卷积层输出的特征图上移动，取滑动窗口内的最大值（最大池化）或平均值（平均池化）作为输出。卷积和池化操作的详细内容参见常亮等（2016）的研究。

全卷积神经网络与卷积神经网络的主要区别在于：全连接层替换为卷积层；加入上采样层；采用跳跃层（skip-layers）结构。

1.1 全连接层替换为卷积层

1.2 上采样策略

1.3 跳跃层结构

如果仅对最后一层特征图进行上采样，虽可达到图像分割的目的，但图像语义分割的边界较模糊，不够精确。为解决此问题，Long 等（2015）提出跳跃层的策略，主要思路是将经过多次卷积池化操作后得到的高层次空间分辨率较低的特征图进行上采样，将上采样得到的特征图与低层空间分辨率较高的特征图进行融合，本文的融合方式为特征图中对应元素相加求和。将卷积层conv15 输出的特征图进行2 倍的上采样得到2×conv15，然后将其与第4 卷积层pool4 输出的特征图进行融合得到Fuse_pool4_pool15，再将Fuse_pool4_pool15 进行2倍上采样，并与第3 卷积层pool3 输出的特征图进行融合，将最终融合的特征图用于语义分割（见图1）。融合后的特征图集既包含高层特征图的语义信息，又包含低层特征图的边界信息，因此能获得较精确的语义分割结果。

图1 全卷积神经网络结构图（Long 等，2015） Fig. 1 Structure diagram of skip-layers of fully convolutional neural network（Long 等，2015）

图1 中image 为输入图像，conv1—conv15 为卷积层，pool1—pool5 为池化层。“n×”指后面对应的特征图经上采样操作后大小扩大到n倍。图1 中虚线箭头表示跳跃层结构，“+”表示数据的融合（Long 等，2015）。

1.4 全卷积网络选择与分类数设置

Long 等（2015）将在图像分类任务中表现较好的AlexNet（Krizhevsky 等，2012）、GoogLeNet（Szegedy 等，2015）、Vgg16 Net（Simonyan 等，2014）3 种卷积神经网络模型进行全卷积网络改造，并在PASCAL（Pattern Analysis, Statical Modeling and Computational Learning）网络组织的PASCALVOC 数据集上进行图像语义分割试验，得出Vgg16 Net 效果最佳的结论。因此本文选用Long 等（2015）基于Vgg16 Net 改造的全卷积神经网络进行建筑物震害信息的提取。由于本文中建筑物震害信息的提取是将遥感影像分为倒塌建筑物、未倒塌建筑物和背景，因此将网络中待分类别数目改为3。

1.5 损失函数

网络的输出层为第L层，其输出的分类数目为KL，本文中KL=3，选用softmax 函数作为分类器，计算每个像元属于kL类的概率值，softmax 函数表达式为：

1.6 精度评价方法

2 建筑物震害提取试验与分析

2.1 试验数据

2010 年4 月14 日7 时49 分，青海省玉树藏族自治州玉树县（33.2°N, 96.6°E）发生7.1 级地震,震源深度14km，宏观震中位于玉树县结古镇隆洪达附近，极震区烈度为Ⅸ度，结古镇房屋建筑遭受严重破坏。本文以玉树县城区局部区域为研究区，试验数据基于原国家测绘局在玉树地震震后拍摄的航空遥感影像，红绿蓝三波段，空间分辨率为0.2m。将该影像切割为500×500 像素的一系列图斑，从中选取427 张包含倒塌建筑物和未倒塌建筑物的图像图斑，进行倒塌建筑物、未倒塌建筑物和背景3 类地物类型标注，从而得到标注图斑。从427 张标注的图斑中随机选取393 张作为训练集，其余的34 张作为测试样本集，训练集和样本集的数据均由原始图斑和对应的标签图像组成。训练样本集和测试样本集在研究区的分布和放大图像分别如图2、3 所示。

图2 研究区震后遥感影像及选取的训练样本分布示意 Fig.2 Remote sensing image and training sample distribution in the research area

图3 震后高分遥感影像图斑及对应的真值 Fig. 3 training samples: post-earthquake high-resolution remote sensing image patch and the corresponding ground truth

2.2 试验方法

为加快模型训练速度，本文结合Long 等（2015）的方法，将预训练的Vgg16Net 的权重作为本文网络权重的初始化参数。通过制作的遥感数据集对网络进行训练，训练时采用梯度下降法，其中学习率参数决定了权值更新的速度，设置的太大会使结果达不到最优值，太小会使下降速度过慢，参考Long 等（2015）的研究，在本试验中学习率设为10-14。另一个参数为权值衰减参数，其设置的目的是防止过拟合，本文中将其设为0.0005。考虑计算机内存的限制，本文将每次迭代训练图斑的数目定为2。图4 所示为损失函数值随迭代次数的变化，图中损失函数值为参与训练样本的平均损失函数值。由图4可知，随着迭代次数的增加，损失函数值迅速减小。结合图4 的变化趋势，本文选取迭代训练50000 次得到的模型作为测试模型。

2.3 试验结果与精度验证

根据实际标注样本训练得到的全卷积神经网络参数模型，对34 张500×500 像素的验证样本原始影像图斑的建筑物震害类别进行预测，并与人工标注的真实结果进行比较（见图5、6）。图5、6 中红色表示倒塌建筑物，绿色表示未倒塌建筑物，黑色表示背景。

图4 损失函数值随迭代次数变化图 Fig.4 Variation of loss value with iteration times

图5 研究区遥感影像及验证样本图斑分布图 Fig.5 Remote sensing image and test sample distribution in the research area

图6 基于全卷积神经网络提取的建筑物震害信息结果示例图 Fig.6 The typical result showing seismic damage of buildings extracted from RS image by FCN

以像元为统计单位，统计验证样本分类情况，利用式（6）、式（7）分别计算每一类别的精度、总体分类精度，得到分类混淆矩阵，如表1 所示。由表1 可知，背景、倒塌建筑物和未倒塌建筑物的分类精度分别为89.3%、64.6%和72.2%，总体分类精度为82.3%，利用式（8）计算Kappa 系数为62.3%，显示结果具有较高的一致性。

表1 基于全卷积神经网络的建筑物震害提取结果混淆矩阵 Table 1 The obfuscation matrix of building damage extraction results based on full convolutional neural network

为验证本文所采用方法的有效性，在相同数据集的条件下，利用面向对象的遥感图像分类软件—ecognition 9.02 版本进行建筑物震害提取试验。采用面向对象监督分类的思想，试验的基本流程为图像分割、样本选择、监督分类。图像分割方法采用软件自带的多尺度分割算法，监督分类算法同样采用软件自带的cart 决策树算法。经反复试验比较，多尺度分割算法中的形状参数设为0.1，紧致度参数设为0.5；选用的分类特征包括亮度均值、各波段亮度标准差、形状指数、各方向的灰度共生矩阵、灰度共生矩阵标准差。最终的试验结果如表2 所示，背景、倒塌建筑物和未倒塌建筑物的分类精度分别为59.6%、84.7%和49.0%，总体分类精度为62.9%，Kappa 系数为37.3%。可见其总体精度远低于本文所采用的全卷积神经网络方法。

表2 基于cart 监督分类的建筑物震害提取结果混淆矩阵 Table 2 confusion matrix of building damage extraction results based on cart supervised classification

3 讨论与结论

本文采用基于Vgg16 Net 的全卷积神经网络，建立应用于建筑物震害信息提取的模型，以玉树地震玉树县城区局部区域为研究区，对研究区427 个500×500 像素的图斑进行建筑物倒塌、未倒塌及背景3 个类型进行人工标注，随机选取393 个标注样本，通过迭代分析得到应用于建筑物震害信息提取的全卷积神经网络模型，对余下34 个图斑进行震害信息提取，并与传统的面向对象方法震害信息提取结果进行分类精度对比分析。

试验结果表明，本文所建立的模型对建筑物震害提取总体像素精度可达82.3%，Kappa系数为62.3%，表明该方法具有一定的建筑物震害信息提取能力；与面向对象的方法相比，虽然倒塌建筑物的提取精度较低，但由于全卷积神经网络方法能自主地学习建筑物震害信息的特征，在一定程度上减少了人为因素的干扰，提高了建筑物震害信息提取的自动化程度，对灾后迅速掌握灾情信息具有一定意义。

本文所用方法也存在一定问题，对建筑物震害信息提取的精度不够高。出现这种现象的原因包括：对建筑物震害信息的提取基于一个尺度，缺乏多尺度特征的应用；不同地物的提取精度存在较大差异，且在该样本集下倒塌建筑物的提取精度低于传统监督分类的方法，由于样本类别间数量的不平衡，背景样本数量远多于倒塌建筑物和未倒塌建筑物的样本数量，使得模型的预测能力出现差异。

基于上述问题，以后的研究方向包括：①考虑全卷积神经网络没有利用遥感影像的多尺度特征，因此可将多尺度孔洞卷积应用于遥感影像的建筑物震害信息提取中。②对模型进行优化，在训练过程中按照训练样本的数量，对样本在训练过程中赋予相应的权重，以克服样本类别间数量不平衡的矛盾。