基于U-Net模型的无人机影像建筑物提取研究

2021-08-19邓烨，丁涛

科技创新与生产力 2021年7期

邓烨，丁涛

（1.安徽理工大学空间信息与测绘工程学院，安徽淮南 232001；2.矿山采动灾害空天地协同监测与预警安徽省教育厅重点实验室，安徽淮南 232001）

近年来，无人机技术发展势头迅猛，无人机影像在生活中的使用快速增加。无人机具有时效性高、便捷、成本低等优点，利用其拍摄影像及采用影像进行地物提取有着较大的优势。相较于卫星遥感影像，无人机影像具有分辨率较高、受云层等遮挡影响小的优点；相较于普通影像，无人机影像对地物细节描述更细致、含有更多的有用信息，传统的影像分类方法很难有效且精确地从航拍影像中提取建筑物信息。数字城市的重要地理要素之一就是建筑物，是各类城市专题图的重要内容，建筑物的自动获取对于社会公众、各行各业的应用都具有重要的意义。建筑物要素的快速提取是我国基础地理信息建设中一项十分重要的内容。

随着近年来信息技术的快速发展，计算机处理性能大幅提升，全卷积神经网络在影像语义分割及目标识别领域取得了十分显著的成果。Hosseiny等[1]提出了一种基于分段距离的色调、色饱和度、强度（HSI）异常检测方法，该方法利用分割区域的统计特性来抑制误报。钟城等[2]提出了一种卷积神经网络（Convolutional Neural Network，CNN）与生成式对抗网络（Generative Adversarial Networks，GAN）的组合模型。陆煜斌等[3]提出了一种基于残差网络的改进流量分类算法，缓解了传统卷积网络因层次太深导致难以训练的问题。

目前，对于图像分类，研究者们利用全卷积神经网络学习建立模型，已经取得了较理想的成果。于洋等[4]提出了一种结合全卷积神经网络与数字地表模型（Digital Surface Model，DSM）数据的无人机影像建筑物自动提取方法。刘文涛等[5]在全卷积神经网络的设计中使用了特征复用和特征增强。朱岩彬等[6]提出以SegNet模型为基础，结合U-Net模型的模型。传统的建筑物提取方法没有充分利用建筑物的纹理、形状等特征，对建筑物与其背景之间的空间关系建模能力不足，对于复杂建筑物的提取容易出现遗漏和错误的情况。因此，传统建筑物以及地物分类算法并未取得巨大突破[7]。

1 无人机影像建筑物提取研究方法

1.1 全卷积神经网络

全卷积网络（Fully Convolutional Networks，FCN）是2015年加利福尼亚大学伯克利分校（UC Berkeley）的Jonathan Long等在《Fully Convolutional Networks for Semantic Segmentation》一文中提出的一种框架，用于图像语义分割。经典的卷积神经网络的接受域是一定的，导致卷积神经网络识别不同尺度对象的能力差，由于高分辨率影像中的建筑物都以不同尺度出现，因此运用卷积神经网络对尺度不同的建筑物进行提取，结果会产生很大的差异。由于卷积网络对建筑物边界不敏感，会破坏影像中建筑物边界的完整性，而全卷积神经网络可以做到输入图像和输出图像大小一致，保存了图像的精度，因此人们逐渐用全卷积神经网络代替卷积网络提取影像中的建筑物[8]。U-Net模型属于全卷积网络中一个热门的网络结构，它在医疗图像分割中取得了很大的进步，具有结构简单等优点，许多的研究人员将其运用在影像建筑物提取中[9]。

1.2 U-Net模型

U-Net模型是2015年提出的语义分割模式，用于提取图像特征，最初用于医学领域，因其网络的形状类似“U”而得名。由于医疗图像数据较少，设计网络模型不宜过大，因此U-Net模型适用于较少数据的图像提取[10]。通过扩展卷积，U-Net模型可以使输入和输出的图像尺寸保持一致。U-Net模型包括编码器和编码程序共同构成的网络。U-Net的解码器可以看作是一个卷积神经网络，它通过对图像进行卷积和采样工作来获取图像的明显特征。UNet解码器是一个上采样的过程，它使最终输出图像的大小与输入图像的大小保持一致。U-Net模型基本架构见图1。

图1 U-Net模型基本架构

由图1可知，U-Net模型结构共有5层。图中的箭头①表示开始对卷积图像进行卷积的操作；箭头②表示跳跃连接层；箭头③表示对图像进行下采样操作；箭头④表示对图像进行上采样操作。跳跃连接层连接图像的深层特征和浅层特征（边界、颜色、纹理等信息），能够很好地保护图像的特征。经典U-Net模型架构总共有5层，含有9层卷积层，每一层卷积都会对图像进行两次卷积运算，每一次卷积运算使用大小为3×3的卷积核，其个数为64个。U-Net模型中分别使用4次下采样和4次上采样运算。假设输入U-Net模型的图像大小为572×572，原图像经过两次卷积运算后得到64个图像，图像大小为568×568；再对图像进行第一次下采样操作，下采样后得到64个图像，大小为284×284。原图像经过5组卷积和4次上采样后图像大小变为28×28，个数变为1 024个。先将第5组卷积后的图像进行第一次上采样，上采样后的图像与第4次下采样的图像合并，再对合并的图像通过3次卷积、上采样、跳跃连接后使图像输出。在U-Net模型中，卷积和下采样以及上采样计算中激活函数为线性整流函数（Rectified Linear Unit，ReLU），它能使训练速度加快。U-Net模型最后利用1×1的卷积来输出提取后的影像，激活函数使用Sigmoid或Softmax。

2 无人机影像建筑物提取实验与分析

采用美国德克萨斯州奥斯汀（Austin）市无人机摄影测量的正射影像作为验证数据集，此数据集包含大量植被和建筑物，用于验证本文方法对建筑物区域数据集提取的效果。

2.1 数据来源

本文使用的开源数据是法国国家信息与自动化研究所（Institut National de Recherche en Informatique et en Automatique，INRIA）公开的图像数据集。该图像数据集覆盖区域为5个城市，分别为奥斯汀（Austin）、芝加哥（Chicago）、基萨普（Kitsap）、维也纳（Vienna）、西蒂罗尔（West Tyrol），面积共计810 km2。5个城市的建筑物分布、风格各不相同，奥斯汀的建筑物分布不规则且遮挡严重；芝加哥的建筑物分布交错纵横间隙小；基萨普的建筑物分布散乱；维也纳有许多圆形建筑物；西蒂罗尔的建筑物比较集中化。5个城市的影像用于训练数据集。该图像数据集包含360张影像，影像格式为TIFF，大小均为5 000×5 000，分辨率为0.3 m。图像覆盖各种城市影像，从人口密集的城市到人口稀少、植被茂密的高山城镇。该数据集中了180张被人工标注的图像，另外180张图像作为模型的线上测试集使用，本次实验使用标记好的180张图像作为数据集。

2.2 滑窗采样

为了提高运算速率和降低对配置的需求，一副超大影像在输入模型之前一般要进行裁剪操作，裁剪方式主要有两种：滑窗采样和随机采样。滑窗采样是以固定的大小和步长依次按照一定顺序在影像中滑动，对超大影像进行裁剪；随机采样是指在影像中生成随机点，以随机点为中心以一定的角度裁剪出符合样本大小的影像。考虑到本文数据集比较大，要充分使用所有数据，因此本实验采用滑窗采样，滑动步长和滑动窗口均设置为224像素。

2.3 数据增强

为了增加训练样本的数据量，提高模型的泛化能力以及模型的稳健性，一般要对样本进行数据增强。本次实验对数据进行了下列操作。

1）旋转操作。将一半的影像进行90°的整数倍旋转。

2）翻转操作。将一半的影像进行水平或者垂直翻转。

3）归一化。将影像中的灰度值进行归一化。归一化的方式有两种：一种是将影像上像素点的灰度值除以255，另一种是将灰度值除以127.5再减去1。本次实验使用第二种方法将影像中像素灰度值进行归一化。

2.4 划分数据集

使训练所获得的模型符合平移和旋转不变性，滑动窗口将180张影像裁剪成108 000张大小为224×224的影像，并进行数据增强处理，处理后的影像创建训练集与测试集，比例为8∶2。其中，训练集主要应用于培训模型，测试集主要应用于培训模型分辨能力，验证集主要应用于网络结构，控制模型复杂度参数的确定。

2.5 实验设备和搭载环境

本实验在Window 10系统上完成，基于Tensorflow 2.1版本深度学习框架。Tensorflow是一个相对成熟且性能强大的深度学习库，具有强大的可视化功能，是被运用得最广泛的静态框架。

本实验使用GPU版本的Tensorflow，实验耗时40 h，计算机相关参数见表1。

表1 计算机配置参数

2.6 实验结果

使用U-Net模型深度迁移学习对无人机影像建筑物进行提取，结果见图2，可视化地对实验结果和标签图像进行分析。实验结果表明，本文所用方法确实可以较为有效准确地提取出建筑物的信息，且不受建筑物分布密集程度和建筑物类型的约束。

图2 部分实验识别结果

由图2可知，本文所用方法可以有效地提取实验场景中建筑物的位置，而不受建筑物分布密度和类型的限制，矩形建筑物提取效果较好，边缘清晰。同时，由于网络结构本身进行下采样和上采样的操作过程，导致建筑物的提取结果中边界会存在不完整或者模糊的现象。而且，建筑物周围的树木遮挡也会对其识别和提取造成一定的影响[11]。

2.7 评价指标

本文所采用的评价指标有：准确（Accuracy）率RA、精确（Precision）率RP、召回（Recall）率RR，对于本次实验，本文给出一些评价指标的定义[12]。

真阳性（True Positives，TP）ITP：对于标签中的建筑物，模型能预测为建筑物的数量。

真阴性（True Negatives，TN）ITN：对于标签中的非建筑物，模型能预测为非建筑物的数量。

假阳性（False Positives，FP）IFP：对于标签中的非建筑物，模型能预测为建筑物的数量。

假阴性（False Negatives，FN）IFN：对于标签中的建筑物，模型能预测为非建筑物的数量。

准确率RA是指在单标签分类任务中，每个样品只有一种确定类别，预测这个类别就是正确分类，没有预测这个类别就是错误分类，表达式为

精确率RP是指真实存在的“真正”的样本，确定是“真的”所占比重，表达式为

召回率RR是指在所有实际确实为真样本的情况下，样本被判为“真的”所占比重，表达式为

为了更好地评价提取结果，采用以上评价指标进行分析。评价结果见表2。

表2 建筑物提取结果评价（%）

3 结束语

本文利用语义分割U-Net模型完成对正射影像中建筑物的提取，针对目标区域数据太少等问题，使用深度迁移学习的方法在开源数据集训练U-Net模型，通过迁移学习对无人机正射影像中的建筑物进行提取。实验结果显示，该模型可以尽量恢复不同地物，特别是建筑物边界等细节，能较精确地提取建筑物信息。然而，在建筑和植物纹理类似的情况下，仍然存在着错误提取的情况。同时，全卷积神经网络存在下采样操作导致提取边界模糊的问题，下一阶段将提高模型精度，以改善提取结果。