FCN与CRF结合的PolSAR影像建筑区域提取

2020-07-31肖雨彤张继贤黄国满顾海燕卢丽君

遥感信息 2020年3期

肖雨彤，张继贤，黄国满，顾海燕，卢丽君

(1.中国测绘科学研究院，北京 100036；2. 国家测绘产品质量检验测试中心，北京 100036)

0 引言

建筑区域是地物类别中的核心内容，也是地图制图中的重要成图元素。随着近几年城市建筑用地不断增加，如何提高建筑区域的识别与提取精度，在民用领域和军用领域都有比较重要的意义。目前，在光学影像中对建筑区的提取已经取得了较好的研究成果，但光学传感器成像依赖于光照条件，在云雨雾雪天气、夜间环境中，无法完成持续有效的监测，而合成孔径雷达(synthetic aperture radar，SAR)影像则不存在这些问题。

极化合成孔径雷达(polarimetric synthetic aperture radar，简称PolSAR或者极化SAR)是一种多参数、多通道的成像雷达系统。不同于单极化SAR数据只能通过单一极化发射通道来获取数据，PolSAR可以通过设置不同的极化发射通道和接收通道来获取物体在相异极化通道下的数据，获取更多的极化信息。利用SAR影像对地物进行解译有更大优势[1-3]。根据现有的研究成果，利用PolSAR影像提取建筑区域的方法可分为：基于几何纹理信息的建筑物提取，如Chellappa[4]提出的基于主线条和阴影的矩形轮廓进行提取的方法；基于极化散射特征的建筑物提取，如Lee等[5]提出的结合复Wishart分布和H/A/α分解的H/a-Wishart方法；基于多特征融合的建筑物提取，如Schuler等[6]提出的基于规范化相关系数和地物目标散射机理的提取方法。然而，这3类方法均无法充分利用影像特征信息。

深度学习起源于人工神经网络(artificial neural network，ANN)，是一种对深层人工神经网络进行有效训练的方法。其中，全卷积网络(fully convolutional networks，FCN)[7]、SegNet[8]等基于像素的语义分割网络模型具有自学习能力，能够将低层特征抽象组合为高层特征，广泛应用于图像处理领域，用以提取特定物体或进行图像分割。

因此，本文考虑将语义分割网络FCN引入PolSAR建筑区域提取研究。利用语义分割网络可以逐像素进行分类的优势，尝试提高PolSAR影像建筑区域提取的精度。然而，基于像素的提取方法最常出现的问题就是出现许多孤立点。考虑到这一问题，对FCN网络的提取结果进行基于条件随机场(conditional random field，CRF)[9-10]的后处理，利用其能联系上下文信息的特点，提高提取区域的完整性。

1 FCN+CRF的建筑区域提取方法

1.1 PolSAR影像预处理

PolSAR影像具有非常丰富的地物极化散射信息，但对每一类地物缺乏对应的具体物理解释。为了更充分地应用这些极化散射信息进行地物解译，学者们提出了多种极化目标分解方法，将目标的散射过程分解为代表不同散射机理的若干项。本文选用经典的Freeman 3分量极化目标分解方法[11-12]，对PolSAR影像进行预处理。Freeman分解是非相干目标极化分解方法中常用的一种基于协方差矩阵C或相干矩阵T的分解方法，它将协方差矩阵C或相干矩阵T分解成粗糙表面的Bragg散射、由二面角反射器得到的偶次散射和由一系列随机取向偶极子得到的体散射3种散射模型进行叠加。这一过程充分利用了雷达散射的物理特性，使得到的3种成分可以用来初步确定哪种散射机制成分占主要地位，并通过将3种散射分量与R、G、B一一对应合成假彩色图像，来对分解结果进行可视化处理。由此可以初步得到利于建筑物提取的极化散射特征。然而，这些特征都是需要先验知识判定的低层的特征，传统分割方法并不能良好地利用影像的语义信息，容易将同一内容的区域分割成不同的区域。因此，需要引入深度学习的方法来更好地应用图像的语义信息进行语义分割[13]，使具有同一内容信息的像素划分到同一语义类中，从而提高建筑区域提取的精度。

1.2 FCN网络原理

传统的卷积神经网络(convolutional neural networks，CNN)[14-15]在卷积层后连接3个全连接层，得到的结果是一个固定长度的特征向量。而FCN将全连接层去掉，换成了3个卷基层，这使得FCN可以接受任意尺寸的输入图像。在图像输出前，利用反卷积层对最后一个卷积层的特征图进行上采样，使它恢复到与输入图像相同的尺寸。在这个过程中，可以对每个像素都产生一个预测，同时可以保留原始输入图像中的空间信息；最后在与输入图像等大小的特征图像上对每个像素进行分类，逐像素地用softmax分类计算损失，相当于每个像素对应一个训练样本。

其网络结构如图1所示。在传统的CNN结构中，前5层是卷积层，第6层和第7层分别是一个长度为4 096的一维向量，第8层是长度为1 000的一维向量，分别对应1 000个类别的概率，而FCN将这3层表示为卷积层。

图1 网络结构图

对最后一个卷积层的特征图进行上采样，也可以理解为反卷积过程。首先根据原图像大小判断是否需要对特征图各神经元之间进行0填充，即上池化；然后进行卷积运算，最后得到一张与输入图尺寸相同的结果图。经过上一步的操作，基本可以实现语义分割，但是直接将全卷积后的结果进行反卷积，得到的结果往往比较粗糙。因此，引入跳级连接的策略，以加入更多前层的细节信息。根据结合层不同分为3种。

1)FCN-32s。上采样步长为32，运算后得到与原图像大小一致的结果，但这样做会导致损失过多的信息，结果不够精细。

2)FCN-16s。首先将最后一层上采样；然后和池4层的预测结合起来，最后再上采样恢复为原图大小。

3)FCN-8s。同样地，先上采样再结合更高层信息；最后上采样为原图大小。使用跳级结构使网络能够更好地预测细节，同时保留高级别的语义信息。

1.3 后处理CRF

虽然FCN可以从像素级别对图像进行分析，但得到的结果依旧比较模糊散乱，对像素间的联系考虑不充分，缺乏空间一致性。因此，需要引入CRF进行后处理，利用CRF能联系上下文的特性，完善建筑区域的提取。

CRF被定义为：在给定一组输入随机变量条件下，另外一组输出随机变量的条件概率分布模型，它是一种判别式的概率无向图模型。CRF的输出随机变量假设是一个无向图模型或者马尔科夫随机场，CRF的图模型结构理论上可以任意给定，但在实际应用中经常应用定义在线性链上的特殊的条件随机场，即线性链条件随机场。

设有线性链结构的随机变量序列X=(X1，X2，…，Xn)，Y=(Y1，Y2，…，Yn)，在线性链条件随机场中，在给定观察序列X的条件下，随机变量序列Y的条件概率分布为P(Y|X)。根据定义，最终条件随机场的条件概率可表达为式(1)。

(1)

式中：

(2)

由此可见，在运算过程中，目标像素点的属性判断与相邻元素的属性相关，相邻元素的特征越相似，则越可能被赋予相同的属性。

2 实验过程与结果分析

本文采用广州地区高分三号PolSAR数据进行实验，分辨率为8 m。为防止影像噪声对结果产生影响，首先采用Lee refined滤波对影像进行去噪，再对去噪后的影像进行Freeman 3分量分解。将得到的3分量分别对应R、G、B 3个通道合成假彩色图像，得到的假彩色图像即为初步的特征提取影像。利用它再进行深度特征提取，并引入条件随机场进行结果优化，得到最终的建筑区域提取结果。技术流程图如图2所示。

图2 技术流程图

2.1 数据预处理

选取经典的Lee refined滤波算法对图像进行滤波。该方法既能避免通道间的串扰，又能保持均匀区域的极化信息。对滤波后的影像结果进行Freeman分解，并将表面散射成分赋为蓝色，偶次散射成分赋为红色，体散射成分赋为绿色，得到的假彩色合成结果分别如图3所示。

图3 滤波分解后影像

不同地物在假彩色合成后区分度较高，说明散射功率能够反映地物间的不同。由于植被、树木的形状结构比较随机，且普遍为圆柱形散射体，因此可以用偶极子进行建模。电磁波被高矮不同的植被向各个方向随机的散射，其散射类型为体散射，在假彩色图中以绿色为主(山体被树木覆盖，依旧以体散射为主，呈现绿色)。农田相对来说，表面平坦，主要产生表面散射，但也有部分农作物高矮不同形状多枝叶，会产生一定的体散射，因此农田在假彩色图中呈蓝绿混杂色。人造建筑物的墙壁和地面构成二面角结构，所以以二面角散射为主。但是，建筑物区域的结构比较复杂，也会存在大量的体散射成分，所以在假彩色图中的人造建筑物区域既有粉色又有绿色，极个别强反射建筑会呈现高亮白色。

2.2 样本集制作

高分三号是2016年我国成功发射升空的一颗遥感卫星，由于其升空时间较短，人们对它所获得的数据研究不够充分，目前还没有成形的地物标注图。所以，针对实验所应用的广州地区影像，需要人工手动采集建筑区域标记。

利用Freeman分解得到的假彩色图，进行建筑区域样本集制作。将勾取的建筑区域栅格文件视为掩膜文件，将栅格文件与极化SAR影像文件进行大小为1 024、每次窗口移动步长为500的重叠剪裁，将得到的SAR切片记为Image、得到的掩膜切片记为Label，同时按4∶1的比例，将其分为训练集和测试集。其中，训练集用于网络模型的训练；测试集用于训练完成后测试模型精度。由于采用的FCN网络需要大量样本，所以将整合好的样本数据集进行进一步的扩充操作[16]。为保证标签和影像的一一对应，现阶段主要使用镜像和旋转操作(图4)。

图4 样本示意图

2.3 FCN网络搭建与训练

基于FCN的前半段与VGG19架构相同，直接使用了VGG19预训练好的权重。VGG19包括16个激励层、5个池化层。其中，设卷积层卷积步长为1，padding=‘SAME’。池化层采用平均池化。根据输入影像大小，将核大小设为2×2，步长为[1，2，2，1]，padding=‘SAME’。据此，每经过一个池化层，影像的长和宽就变为原本的1/2。经过全部池化层后，影像大小变为原来的1/32。FCN的中段将CNN网络原有的全连接层改为全卷积层，设置反卷积层卷积核的大小为7×7，1×1，1×1，padding=0，步长为1。根据文献[7]所阐述，FCN-8s结果普遍好于FCN-32s及FCN-16s，因此后段直接采用FCN-8s的思想，将浅层特征与深层特征联合，可具体表达为((conv7×2+pool4)×2+pool3)×8。

由于模型要求输入数据为3个通道的归一化影像，因此，网络搭建好之后，将影像的R、G、B对应的3个通道作为模型的输入对网络进行训练，设置批量训练大小为20，学习速率为0.000 1。

2.4 CRF后处理

将测试数据集输入上一步骤中训练好的网络模型中，得到FCN网络模型提取的建筑区域结果，并将其作为CRF模型的输入。具体步骤如下。

1)数据的输入。将FCN-8s的结果作为原始图像输入CRF模型，输入值为R、G、B 3个通道及坐标位置x、y。

2)二次像素分类。利用FCN模型所得到softmax(具有概率分布)，结合输入数据，进行再一次的像素点分类。由于建筑区域提取影像只分背景与建筑区域2种，因此softmax维度为2。随后，利用最大似然估计法对函数进行优化，直到模型收敛(本次实验迭代次数为15时收敛)。此时，可以通过模型求出每个像素的上下文信息，并可以根据计算的概率，推测出给定的一幅测试图像中像素是否属于建筑物。

2.5 实验结果与分析

为了验证本文FCN结合CRF方法的有效性，与其他2种经典的极化SAR分类方法——H/a-Wishart方法和支持向量机SVM方法的结果作对比，并用未经过CRF优化处理的FCN-8s结果验证优化处理的有效性。实验结果如图5所示。

由图5可以看出，对于不同大小的建筑区域，本文FCN结合CRF的方法均能较好地识别和提取，说明模型具有多尺度要素分割的能力。相较于未加CRF优化的FCN-8s结果，利用CRF优化处理后的结果，可以更准确地提取出建筑区域的轮廓，还原建筑区域的真实细节特征。相较于H/a-Wishart法和SVM法，本文FCN结合CRF的方法在视觉效果上最为贴近真实地物。同时，本文方法出现的误分区域远远少于其他2种经典方法，证明了本文方法可以有效避免传统方法中由于建筑区域的极化散射特征复杂、不能很好地联系上下文信息等原因造成的建筑区域容易与其他地物混分的情况。实验结果表明，将语义分割网络FCN应用于PolSAR影像进行建筑区域提取，可以实现高层特征与低层特征的联合，这种联合既保留了多维深度特征的精确性，又结合了低层特征的准确性，同时引入能联系上下文信息的CRF进行后处理，可以进一步利用临近像元信息辅助判断该像元的属性，尽可能地避免出现漏分错分，提高细节及轮廓提取精度。然而，本文方法依旧存在个别区域无法提取的问题，主要是由于样本选择时未能很好地做到均衡选择，个别特征样本选择数量过少导致网络对该特征学习不够。

图5 实验结果图

利用深度学习中常用的精度评价指标F1分数(F1 score)进行测评。F1分数又称平衡F分数，它被定义为精确率和召回率的调和平均数。精确率和召回率同等重要，最大为1，最小为0。其计算如式(3)所示。

(3)

式中：Recall表示为正确识别为1的个数/所有真值为1的个数；Precision表示为正确识别为1的个数/所有认为是1的个数，具体结果如表1所示。

表1 精度评价表

由表1看到，本文方法精度远高于H/a-Wishart方法，略高于SVM法，实现了提高建筑区域提取精度的目的。

3 结束语

本文提出FCN与CRF相结合的方法提取建筑区域，用以减少基于像素的提取方法易出现大量孤立点的问题，并利用高分三号全极化SAR影像进行实验。实验结果表明，利用极化分解方法进行低层特征提取后，再利用深度学习网络提取高层特征，对于提取建筑区域有较好的效果。但同时依旧存在一些问题，如小面积建筑区域提取不完整、部分建筑区域无法提取等，考虑主要是由于样本选择量不均匀导致模型对个别特征学习不够充分。因此，在以后的研究中，需要针对不同几何结构的建筑区研究其极化散射特征，并尽量均衡地选择样本，从而进一步提高建筑区域提取精度。