基于I-FCN模型的城市高分辨率遥感影像植被信息提取

2019-06-05马海艺张天怡代沁伶王雷光

西南林业大学学报 2019年3期

马海艺张天怡代沁伶代飞王雷光

( 1. 西南林业大学林学院，云南昆明 650233；2. 西南林业大学林业生态大数据国家林业与草原局重点实验室，云南昆明 650233；3. 西南林业大学大数据与人工智能研究院，云南昆明 650233；4. 西南林业大学设计学院，云南昆明 650233)

城市植被是指城市里覆盖着的生活植物，它包括城市内生长的森林、灌丛、花坛、草地等所有植物[1]。作为城市生态环境的重要组成部分，城市植被具有滞尘，缓解城市热岛效应，改善人居环境等重要的生态和社会功能以及巨大的经济效益，对城市的可持续发展有着重要影响。近年来，随着国家对城市的生态文明建设日益重视，国内掀起了创建“国家生态园林城市”的热潮。因此，城市植被高效精确地提取成为现代城市规划和生态环境评价的关键技术[2-3]。传统的人工地面调查方法由于需要投入大量的人力物力，费用高、周期长，很难长期获取有效的植被现状信息，而遥感以其信息获取速度快、周期短、时效性强的优势成为了城市植被信息提取的有效手段。遥感影像分辨率的不断提升不但为更高精度的植被信息提取创造了有利的条件，也提出了挑战[4-5]。因此，基于高分辨率遥感影像的城市植被信息提取成为当前的研究热点。

以支持向量机为代表的统计学习算法不能有效利用高分辨率遥感影像丰富的空间结构和纹理信息，植被信息提取的视觉效果差，“椒盐现象”严重[6]。面向对象的植被提取方法[7]虽然能够保证结果的完整性，但需要人为设置分割阈值，自动化程度低，且阈值选择不恰当极易造成植被提取结果细碎或像元的混分，性能不稳定。近年来全卷积神经网络[8]（FCN）以其强大的特征抽象与表现能力引起了人们的广泛关注，它通过池化与卷积实现区域分割和区域对象语义识别。但这种特征提取方式会使特征图的空间分辨率迅速下降，地物边界变得平滑，较小的地物被忽略[9]。尽管Long等[8]提出了多尺度融合的方法，网络的分类结果在细节表现方面依然存在不足。因此本研究对经典FCN模型进行改进，并以?高分辨率城市遥感数据为研究对象，通过支持向量机、面向对象算法、经典FCN模型和本研究提出的改进的FCN模型（Improved FCN model，I-FCN）4种方法提取该城市高分辨率遥感影像中的植被信息，并将提取结果的精度和视觉效果进行对比分析，旨在说明前3种方法在植被提取中的不足与I-FCN模型提取高分辨率遥感影像中植被信息的优势，为当前城市植被的监测研究提供参考。

1 数据来源与I-FCN模型

1.1 数据来源

研究数据采用德国法伊英根市遥感数据集（http://www2.isprs.org/commissions/comm3/wg4/tests.html），这是由国际摄影测量与遥感协会（ISPRS）提供的开源数据集。该数据集由DMC数字航空摄影机拍摄，空间分辨率可达9 cm，包括16幅影像，每一幅遥感影像的大小约为2 500×2 500像素，图中包含植被、建筑物、车辆、道路、水体等地物。数据集还提供人工标注的地表真实图像用于验证地物提取精度。为了突出植被信息，数据集中的遥感影像均为采用近红外、红和绿波段合成的标准假彩色正射遥感影像（CIR影像），植被显示为红色。

1.2 I-FCN模型

经典的FCN模型通过插值恢复图像分辨率的策略无法复原池化丢失的空间细节信息，为了解决这种对特征图进行上采样导致的预测结果粗糙的问题，本研究对经典的FCN模型进行了改进，提出I-FCN模型进行城市植被信息的提取。该模型包括输入层、卷积层、池化层、Dropout层、输出层，具体见图1。

图 1 I-FCN模型结构Fig. 1 Model structure of I-FCN

1）输入层。考虑到局部近邻像素的联系更为紧密，输入层采用图像局部子块。通过单层的图像局部感知，再结合多层映射更高层次的局部信息综合，还可以得到全局信息。这种方式既符合认知从局部到全局的特点，又可以有效节省内存的开销。

2）卷积层。高分辨率遥感影像中所包含的植被信息尺度大小差异性较大，既要充分利用高分辨率图像中丰富的空间信息，又要提高对各种复杂场景的特征提取的鲁棒性。本研究引入了多尺度卷积层，包含2种卷积方式，即大面积、连续的植被信息通过3个不同尺寸的空洞卷积[10]模板提取，模板尺寸分别为 3×3、5×5、7×7。而面积较小的、零散的植被信息通过3个3×3的卷积模板提取。

3）池化层。本研究采用步长为1的最大池化的方法，尺寸大小为2×2，即选择邻域内4个像素中值最大的像素代替原来4个像素。由于池化模板的尺寸为2×2，步长为1，所以相邻的池化领域有重叠。整体来看是选择最大的4个像素值代替原来的独立深度切片。

4）Dropout层。在FCN模型的训练过程中，随着迭代次数的增加，会出现网络过拟合的现象，为了减轻过拟合的风险，使用Dropout层在每次迭代的过程中随机丢弃一些网络参数。每次迭代丢弃的参数都不完全相同，这种参数丢弃是暂时的，并不会影响网络的训练精度，还能提高网络模型的泛化能力。此外，因为网络参数的减少，节约了训练时间，提高训练效率。

5）输出层。FCN经过以上3个网络层的处理输出结果为与输入图像大小相等的概率图，即每个像素属于植被与非植被的概率。

与经典的FCN模型相比，本研究中的网络模型设计了空洞卷积[10]与非下采样池化[11]。空洞卷积使卷积模板包含更大范围的信息，在有效增大感受野的同时不增加模型参数或者计算量，这使得网络模型能够在不增加训练时间的同时提取尺度更大的植被信息。但是空洞卷积会带来感受野跳跃，为了避免这一问题，本研究采取混合扩张卷积策略[12]，3个空洞卷积层的扩张率分别为1、2、3，对应的卷积模板尺寸分别为3×3、5×5、7×7。这种扩张率变换类似锯齿波，相比采取相同扩张率的卷积策略可以同时提取小地物与大地物。最大池化能较好地解决卷积层参数误差造成的估计均值偏移，也可以保留更多的纹理信息，常规的池化操作（图2a）步长为2，因此每经过一次池化操作特征图的长和宽变为原来的1/2，面积变为原来的1/4，空间分辨率迅速下降。为了更好地保留空间信息，本研究采取Sherrah[11]所提出的非下采样池化（图2b），步长为1，与一般的池化操作相比能够在保证特征不变性的同时保留图像的空间信息。

图 2 不同池化方法对比Fig. 2 Comparison of different pooling methods

2 基于I-FCN模型的城市植被信息提取

2.1 HSV变换

受到建筑物阴影的影响，阴影区的植被与光照区的植被相比在RGB颜色空间中各个分量都比较低，二者差异较大。为了更好地对阴影区的植被进行提取，首先对原始图像进行HSV变换，并将变换结果与原始图像叠加形成6维的图像。

2.2 特征标准化

为了加快网络的训练速度对原始图像的3个波段与H、S、V 3个分量共6个维度的特征分别进行特征标准化，使每一个维度的特征都具有零均值和单位方差。特征标准化的表达式为：

式中：i为特征维度，xi为原始特征值，为特征值的均值，σ为特征值的方差，yi为标准化后的特征值。

2.3 网络参数初始化

不恰当的初始化参数会导致网络训练时梯度下降速度较慢，参数更新难以实现，训练结果准确度下降。对此，本研究采用MSRA网络参数初始化方法[13]。该方法重点考虑了初始化时常见的梯度弥散问题，并计算出恰当的随机初始化范围，使网络在计算前向传播和梯度后向传播时，每层输出值的方差与上一层保持一致，这在一定程度上避免了网络层数较大时的梯度弥散问题。表达式为：

式中√：w表示网络参数，n表示网络参数的个数；代表高斯分布，即某一层的网络参数初始化为满足均值为0、方差为的高斯分布的随机数。

2.4 制作训练样本

将6维的图像随机划分为256×256大小的图像子块，即每个训练样本的尺寸为256×256×6，作为FCN网络模型的输入。为了扩充训练样本的数量，采取了数据增强的方法。首先从原始图像中的任意位置选择一个图像子块，然后对每一个图像子块分别旋转90°、180°和270°并做镜像变换，共7种变换形式。因此一个图像子块可以扩充为8个图像子块。这样既增加了训练样本的数量，减少过拟合的风险，又减轻了计算机内存的压力。实验表明，40 000个图像子块（从原始图像中截取5 000个图像子块）足够用于网路的训练，更多的图像子块会增加训练时间，对网络模型预测精度的提升没有起到明显效果。

2.5 训练I-FCN模型

任意选择16景影像中的14景作为训练图像对I-FCN模型进行训练。在训练过程中以人工标注的地表真实图像为学习目标，通过反复迭代求取使代价函数（网络预测值与地表真实图像之间的误差）最小化时所对应的参数，训练过程见图3。与传统神经网络的训练过程十分类似，本研究中的网络训练过程采用随机梯度下降法，学习速率为0.001，梯度的计算采用反向传播算法。

图 3 全卷积神经网络训练过程Fig. 3 The training process of FCN

2.6 植被信息的提取

I-FCN训练完成后即可用于植被信息的提取，该过程是前向计算不需要迭代，内存的需求量小，因此测试数据不划分图像子块，直接输入到全卷积神经网络中，经过隐含层的前向计算网络模型预测的像元属于植被与非植被的概率大小确定。

3 I-FCN模型植被信息提取的效果评价

为了评价I-FCN模型提取植被信息的效果，在2景测试图像上进行对比研究，对比支持向量机（SVM）、面向对象法、经典的FCN模型和IFCN模型4种方法的植被信息提取结果的视觉效果与准确性。

3.1 目视解译

4种方法的植被信息提取结果见图4～5。由图4c可以看出明显的“椒盐现象”，相比之下2种FCN模型的植被提取效果图（图4d、e）的图面较干净，地物纯净且呈现片状分布，植被与非植被地物之间的界限更加分明。在图5c中红色的屋顶被误分为植被，这也体现了SVM的结果误差高的原因。在图5e中阴影区的植被由于亮度值较低，在分割时与阴面的屋顶分为了1个区域，所以没有被检测出来。SVM对像元进行单独处理, 主要利用的是光谱特征, 缺乏对均质性区域的重视, 未能对邻域像元的信息进行整合, 在很大程度上影响了信息提取的精度, 所以分类结果中往往会存在许多的小斑块。FCN模型通过多个卷积层实现非线性映射，能够模拟人眼对植被识别时综合考虑光谱、形状、大小、纹理、相邻关系等一系列因素自动提取出植被信息。同时I-FCN方法还通过多分辨率卷积与非下采样池化更好地保留细节信息。虽然I-FCN方法在提取植被的边界存在少量的破碎斑块，但可以通过分类后处理加以改善。

3.2 定量评价

定量分析是为了更精确地计算植被信息提取的精度，本研究中评价指标使用总体精度、结果误差与Kappa系数。总体精度计算的是正确分类的像元比例，值越大表明分类效果越好。结果误差衡量的是将非植被像元错误地分为植被像元的比例，值越小说明误差越小。Kappa系数测定分类结果图与Ground truth之间吻合度，值越大说明吻合度越大。3种指标的取值范围均为0～1，分别从不同角度反映了植被信息提取的精度。4种方法在2景测试图像中的植被信息提取精度与误差见表1。

图 4 4种方法的植被信息提取效果Fig. 4 Vegetation information extraction effect diagram of 4 methods

由表1可知，I-FCN方法的总体精度和Kappa系数均高于其他3种方法。这表明I-FCN方法能够有效减少植被像元的漏分和误分，更加准确地提取植被信息。虽然面向对象方法的结果误差略好于其他3种方法，但是总体精度和Kappa系数的值远远低于其他3种方法，由此可以看出面向对象的植被提取方法存在大量的漏分情况，许多植被信息并没有检测出来。SVM的结果误差远高于其余3种方法，表明SVM的植被提取结果中有很多与植被光谱相似度高的非植被地物被错误地划分为植被，误分现象比较严重。在测试图像1中2种FCN模型的植被信息提取精度都高于SVM，主要原因在于FCN在提取植被信息时不仅考虑像元的光谱特征，还综合了空间、纹理等多种特征，这样有效保证分类结果的完整性。同时，SVM仅仅根据单一像元的光谱特性进行分类，非常容易受到遥感影像中复杂背景（阴影、反光）以及植被稀疏变化的影响导致漏分或误分。

综上所述，利用影像的多种特征是提高植被信息提取精度的关键。在测试图像2中SVM方法要好于FCN，因为测试图像2中的植被相比测试图像1中的植被破碎分散，面积较小。由于FCN的植被提取结果是通过对分辨率较低的特征图进行上采样得到，因此在分辨率较低的特征图中面积较小的植被无法体现，面积较大的植被反应出来面积较小，即使上采样也能恢复细节信息，所以FCN会有较多的漏分现象。I-FCN方法无论对大面积的植被还是破碎分散的植被都有较好的提取效果，且2幅测试图像的4个指标差异较小，具有根强的鲁棒性。

图 5 4种方法的植被信息提取细节Fig. 5 Vegetation information extraction detail map of 4 methods

表 1 4种方法的植被信息提取精度对比Table 1 Accuracy comparison of vegetation information extraction by 4 methods

4 结论与讨论

本研究对经典的FCN模型进行改进，应用于高分辨率遥感影像城市植被信息提取，该模型以非下采样池化代替传统池化操作并增加空洞卷积扩大感受野范围。I-FCN充分利用了高分辨率遥感影像所具有的纹理、结构等细节信息丰富的优点，通过多尺度卷积与非下采样池化获得光谱、空间、纹理多种特征用于植被信息的提取，减轻了高分辨率遥感影像固有的光谱分辨率较低、“异物同谱”、“同物异谱”的缺陷对植被信息提取结果的干扰。该方法与支持向量机这类基于像元特征的植被信息提取方法以及面向对象方法相比能够有效减少“椒盐现象”和像元误分现象的发生，与经典的FCN模型相比保留更多的细节信息，植被信息的提取结果更为精细。在视觉效果和结果误差、总体精度、Kappa系数这3个定量评价指标中本研究提出的I-FCN模型均有较好的表现。

FCN模型通过训练自主学习植被特征并自动完成植被信息的提取，能够有效避免人的主观因素对植被提取效果的影响，具有较强的鲁棒性和自动化程度。同时借助计算机GPU的并行运算可以大幅提升算法的运算效率，保证植被提取结果的实时性，可为城市植被动态监测和城市绿地系统规划提供技术支撑。