基于多层神经网络的中分辨SAR图像时间序列建筑区域提取

2016-09-18杜康宁邓云凯

雷达学报 2016年4期

关键词：训练样本直方图深度

杜康宁邓云凯王宇李宁

（中国科学院电子学研究所北京 100190）

基于多层神经网络的中分辨SAR图像时间序列建筑区域提取

杜康宁邓云凯王宇李宁*

（中国科学院电子学研究所北京 100190）

为提高合成孔径雷达（Synthetic Aperture Radar， SAR）图像时间序列建筑区域提取的准确率和稳定性，该文结合时间序列图像的特点，提出了一种基于多层神经网络的建筑提取方法。该方法使用单幅SAR图像进行样本的粗略标记，并从经过直方图规定化处理后的时间序列图像中获得大量样本。通过单幅SAR图像生成的少量样本确定网络的深度，并从时间序列生成的样本中筛选出具有更高质量的样本作为最终模型的训练样本。利用数量大且质量高的训练样本学习得到模型参数。使用包含38幅25 m分辨率ENVISAT ASAR图像的数据集进行两组对比实验，实验结果中该文方法的最低准确率和最低Kappa系数分别90.2%和0.725，均高于其它3种传统方法，算法的稳定性以及准确率都有显著提高。此外，该方法还具有人工操作少、推广性强、训练高效等优点。

多层神经网络；合成孔径雷达；时间序列；建筑提取

引用格式：杜康宁，邓云凯，王宇，等.基于多层神经网络的中分辨SAR图像时间序列建筑区域提取［J］.雷达学报，2016， 5（4）: 410-418.DOI: 10.12000/JR16060.

Reference format: Du Kangning， Deng Yunkai， Wang Yu， et al..Medium resolution SAR image time-series built-up area extraction based on multilayer neural network［J］.Journal of Radars， 2016， 5（4）: 410-418.DOI: 10.12000/JR16060.

1 引言

合成孔径雷达（Synthetic Aperture Radar，SAR）由于其对地物的散射特性的特殊表征常用于目标识别［1-13］。由于星载SAR具有重访周期短、全天时、全天候和宽测绘带的特点，成为了连续观测大城市建设发展的重要手段之一。综合考虑计算量、检测精度以及覆盖面积等因素，中分辨率（10 m 到30 m）SAR图像比高分辨率和低分辨率图像更适合大城市的长期监测［3］。SAR图像时间序列对建筑提取的一个主要的难点在于如何保证每幅图像均获得高精度的提取结果，而高精度、高稳定性也是进行长时间变化监测的基本要求［4］。

目前，研究人员提出了大量SAR图像的目标识别方法［1-13］，如马尔科夫随机场（Markov Random Fields， MRF）［5］、稀疏表示［6］、小波变换（Wavelet Transform， WT）［7，8］、灰度共生矩阵（Gray-Level Cooccurrence Matrix， GLCM）［8］等。这些方法严重依赖于特征的质量，而深度学习的方法弱化了手工设计特征的重要性，为目标识别提供了另一种有效手段［8-12］。深度学习的研究热潮起于2006年，Hinton et al.首次成功训练了深度信念网（Deep Belief Network， DBN）［9］，该方法能从训练数据中学习到抽象概念［10］。随后的2010年，Mnih et al.为从光学遥感图像中提取道路信息训练了限制玻尔兹曼机（Restricted Boltzmann Machine， RBM）模型，并在提取精度上远远超过当时先进的算法［11］。近年来，深度学习算法在SAR图像领域也逐渐得到应用，并取得了很好的结果［8，12，13］。但并没有文献研究如何结合SAR图像时间序列的特点将深度学习算法用于建筑区域的提取。

对于时间序列图像的建筑提取任务，通常有如下3类模型训练方法：

（Ⅰ）使用单幅图像生成的样本训练模型，并用该模型对整个时间序列进行预测。

（Ⅱ）使用每幅图像生成的样本各训练一个模型，并用该模型预测对应的图像。

（Ⅲ）使用所有图像生成的样本训练一个模型，并用该模型对整个时间序列进行预测。

针对SAR图像时间序列建筑提取高准确率与高稳定性的要求，本文提出了一种基于多层神经网络（一种典型的深度学习结构）的建筑提取方法。该方法采用第Ⅲ类时间序列训练方法，并结合SAR图像的特点做出了方法上的改进。本文的第2节对提出的方法进行了具体描述，大致有如下3个步骤：（1）利用SAR图像时间序列空间信息的一致性，采用粗略手动标记单幅图像和直方图匹配获得大量训练样本；（2）利用时间序列信息的冗余性，通过对单幅图像获得样本的训练确定模型深度并从时间序列中筛选出质量高且数量大的训练样本；（3）利用时间序列信息的互补性，使用由时间序列生成的大量训练样本获得有效的多层神经网络模型。在第3节，通过对比实验分析了本文提出的方法与传统模型训练方法在提取性能上的提升。

2 基于多层神经网络SAR建筑提取方法

本文提出的建筑区域提取方法如图1所示，下面将分4个小节详细介绍。

图1 提出的建筑区域提取流程图Fig.1 Proposed built-up area detection scheme

2.1 预处理

由于地物的散射特性会随着时间存在一定的变化［14］、SAR传感器本身存在的不稳定性和SAR图像对入射角与方位角敏感等原因，图像间的整体亮度和纹理会存在差异。因而不同图像间获得的分类准确率会有不同。假设时间序列SAR图像已配准，即相同目标在不同图像中具有相同位置。利用时间序列SAR图像空间上的一致性可去除图像间强度的整体差异，并减少样本标记的工作量。利用建筑区域在时间上缓慢变化的特性，将代表研究时间段中间状态时间点的图像选作参考图像。

（1）直方图规定化。在城市中心附近选择一块地物随时间变化相对稳定的区域作为参考区域，如图2（b）蓝色方框所示。将参考图像在该区域的直方图作为参考直方图。以时间序列中每幅图像在参考区域的直方图各自作为一个输入，参考直方图作为输出，计算每个输入到输出的映射函数。将每个映射函数应用于对应的整幅图像上，以获得强度统一的时间序列图像。以上直方图规定化的详细实现方式可参考文献［15］。该方法使时间序列在稳定的城市区域具有一致的强度特性，消除了不同图像间的整体差异，降低提取任务难度。

（2）样本标记。在参考图像中，将一部分总体类别相同且分布集中的区域手动标记成建筑区域（正样本）和非建筑区域（负样本），如图2（c）所示。该标记过程为粗略标记，后续将介绍如何提升标签的准确程度。将从参考图像得到的标签作为整个时间序列的标签，用于生成样本。由于仅对参考图像进行标记且精度要求不高，所以仅需要少量的人工操作。

（3）样本生成。由于本文使用中分辨率图像，因而较小尺寸的图像样本就能辨别该区域是建筑或非建筑。利用样本标记获得的标签，以滑窗的方法从直方图规定化处理后的每幅图像中生成大量带有标签的样本。从参考图像生成的样本中随机抽取等量正负样本构成集合R，将整个时间序列每幅图像单独生成的样本共同构成集合S。利用样本集R用于模型深度的确定（具体训练方法见2.2小节），在确定模型深度过程中会获得一个有效模型MR。我们首先利用MR对S中的样本进行预测，并从预测结果与手动标签一致的样本中随机筛选出等量的正负样本作为集合T，然后利用新生成的样本集T重新对模型MR的网络结构进行训练得到最终的模型MT。

图2 数据集Fig.2 Dataset

2.2 模型结构

本文采用的多层神经网络结构如图3所示。该结构通过引入批量归一化［16］、修正线性单元（Rectified Linear Unit， ReLU）激活函数［17］、Dropout［18］等现代深度学习技术以提高模型训练速度及对超参数的鲁棒性［10］。下面是本文的网络结构说明和参数设置原理：

（1）批量归一化：批量归一化处理单元通过将每个批量训练样本的均值和方差都调整到0和1以达到加速模型训练的目的［16］。本文将批量归一化处理单元设置在输入层和每一个隐藏层的激活函数之后。

（2） Dropout：该技术通过在训练阶段随机将部分节点的输出置零，以防止模型过拟合［18］。由于批量归一化的引入，模型对Dropout的参数并不十分敏感，通常建议设定较小的置零率［18］。在本文将Dropout设置在每个隐藏层，并将参数设定为20%，即每次参数更新时随机将20%的输出置零。

（3）激活函数：由于ReLU: a=max（0， x）具有稀疏性和易于训练的特点［17］，本文将其作为每个隐藏层的激活函数。使用Sigmoid函数：a=1/（1+e-x）作为输出层激活函数。

图3 本文使用的网络结构。绿色圆圈表示网络结点；圆圈中的1表示偏置节点；输入层的x1到xn表示第1到第n个输入特征；箭头表示网络的权重；圆圈中的折线表示ReLU激活函数，光滑曲线表示Sigmoid激活函数，×表示训练过程中的Dropout单元Fig.3 The network architecture used by this paper.Green circle represent node； ‘1' in the circle represent bias unit； x1to xnrepresent the 1-st and n-th input feature； arrows represent network weights； fold line in the circle represents ReLU activation function， smooth curve in the circle represents Sigmoid activation function， ×represents Dropout unit

（5）输入层和输出层节点数：首先将样本映射成n维向量作为模型输入，输入层节点数即为n。区分建筑区域与非建筑区域是二分类问题，因而将输出层节点数设为1。

（6）隐藏层宽度和深度：隐藏层宽度和深度是控制模型容量和泛化能力的重要超参数。由于超参数需花费较多时间调优，较少的超参数更利于将该方法快速地应用到不同的数据中。因此，本文将每个隐藏层宽度作为由输入层节点数确定的常量，而将深度作为变量。为了兼顾计算效率和模型容量，隐藏层宽度需要满足两个限制：是2的指数且接近输入层节点数。由于数据经过直方图规定化处理，时间序列的差异性已经减小，提取任务的难度也随之降低，因而本文使用单幅图像生成的样本R来确定隐藏层的深度。首先，将隐藏层深度设置为1，使用R训练模型，在训练结束后记录该模型在R的准确率；然后，逐次增加隐藏层数量并重新训练，直到模型在R上的准确率不再增加结束训练。假设结束训练时隐藏层深度为l，将l-1作为最终模型的隐藏层数量，并将隐藏层深度为l-1时训练得到的模型记作MR。由于R样本数量较小，因而此过程并不耗时。

2.3 训练方法

本文使用后向传播（Back Propagation， BP）算法及批量随机梯度下降（Stochastic Gradient Descent， SGD）对模型进行训练。关于BP算法的推导过程可参考文献［10］，本文不再重复论述。下面将首先介绍训练过程中需要注意的关键内容。随后再针对时间序列SAR图像介绍如何使用不同的数据集获得最终的模型。

（1）随机化：对每个用于训练的数据集按照1:9的比例随机分为训练集和交叉验证集，且每个子集具有等量的正负样本。将训练集的正负样本分别随机化，并且让每个批量的训练样本都包含正负样本各16个。

（2）初始化：由于本文的模型结构引入了ReLU、Dropout、批量归一化等现代结构，参数初始化不再需要进行逐层非监督训练［10］，而是选择使用标准正态分布作为初始权重。

（3）优化器：由于Adam算法能够在训练过程中根据数据自适应地调整学习率和冲量［10］，本文将Adam算法作为SGD优化算法，所有参数与文献［19］一致。

（4）训练结束条件：使用Early Stopping算法监测训练的过程，并设定训练终止条件。训练过程中使用训练集更新模型参数，在每轮训练结束后记录交叉验证集的代价函数值。如果交叉验证集的代价函数值不再减小并超过指定的容忍次数，则停止训练。

使用以上训练方法，首先利用R数据集训练具有不同隐藏层深度的模型，以确定最终隐藏层深度l-1和模型MR。随后将MR用于数据集S的预测，并从预测结果与手动标记一致的样本中随机选出等量的正负样本作为数据集T。最后使用数据集T重新训练包含l-1个隐藏层结构得到最终的模型MT。需要注意的是在使用T进行重新训练模型时必须重新初始化模型参数，否则会因为训练集T为已训练模型的正确预测而无法继续学习，出现过拟合。

以上训练过程中，使用R确定时间序列模型深度的原因在于通过直方图规定化处理后的时间序列SAR图像具有一致的整体强度特征及重复的信息量，由单幅图像的样本确定的模型复杂度适用于整个时间序列。由于样本标记是基于参考图像实施的，理论上R样本标签的准确程度会高于序列中其他图像生成的样本。利用R训练得到的模型用于筛选最终的训练样本，可以去除大量由于标记不精确而引入的带有错误标签的样本，既提高了样本的质量，也放宽了对手动标记样本的精度要求。

超参数的数量是制约多层神经网络在不同数据中推广能力的重要因素。要获得较优的性能通常会花费大量的训练时间进行参数的调优，因而本文在设计过程中折衷选择了一些自适应的方法。具体为：选择Adam算法主要在于其具有自动调整学习率的特点；批量归一化使每层输入数据都有稳定的分布，从而使训练过程对超参数有较高的鲁棒性。因而本文将大量的超参数都设为常数（如Dropout参数为20%，批量样本数为32，及每层节点的数量），仅保留了模型深度这一变量用于不同数据的自适应调整。既保留了方法的灵活性，又避免了将该方法应用于不同数据时过多的参数调整。

2.4 山体去除

上文介绍了一个适用于时间序列SAR图像的建筑区提取方法，在利用样本数据确定模型参数后，以滑窗的方式将该模型用于整幅图像检测出建筑区域。由于山体和建筑在SAR图像中特征十分相似，模型可能无法区分。因而，使用DEM数据生成坡度信息，并将坡度大于30°的像素从检测到的建筑区域中移除，得到最终的检测结果［3］。

3 实验结果与分析

3.1 实验数据

本文选取北京地区为研究区域。北京市总面积约16410.54 km2，主城区位于平原区域，其北部和西部均有高山包围，如图2（a）所示。实验数据来自于搭载在欧空局ENVISAT-1/2卫星上的ASAR传感器。本文使用2003年6月到2009年3月这一时间段内的采集到的38幅图像进行实验，该组数据均采用C波段HH极化方式IMP模式获取。原始复数图像通过多视、配准、地理编码、几何校正处理后，以距离向和方位向均为25 m每像素的分辨率投影到WGS84（World Geodetic System 84）参考坐标系下。处理后的所有图像大小均为7053×5634像素。尽管ASAR具有1个月的重访周期，但仅能从存档数据中获得38幅图像。表1列出了所有数据的采集年月，可以看出不同年份的图像数量差异较大。

3.2 实验分析

实验部分包括3个内容，首先介绍本文方法实验的过程以及参数设定；然后，给出与第Ⅰ类、第Ⅱ类典型训练方法的对比；最后进行本文方法与第Ⅲ类常规方法的对比分析。

表1 数据采集年月Tab.1 The acquire year and month of data

本文选择2007年2月采集的图像作为参考图像。在市中心附近选择大小为 1200×1200像素的区域作为参考区域，如图2（b）蓝色方框所示。用参考图像计算参考直方图并对其他所有图像进行直方图规定化处理。选择9×9的图像块作为样本，因而输入层和隐藏层的宽度分别确定为81与64。利用标记的区域由参考图像和时间序列的所有图像分别生成包含40万样本的数据集R和包含约1500万样本的S。在确定隐藏层深度训练模型时，将Early Stopping的容忍度设为3。使用R进行不同深度的模型训练，当隐藏层深度增加到3时，模型在R的准确率不再增加，因而，将隐藏层深度设定为2，模型结构为81-64-64-1。在这个过程中同时获得了该结构下的有效模型，使用该模型对样本集S进行预测，预测准确率约为81.5%。从正确预测的样本中随机选出1000万作为时间序列的训练集T。最后再用T重新训练模型81-64-64-1，此时由于样本数量较大，因而将Early Stopping的容忍度设为1，通过3轮训练获得最终模型。为了验证本文确定模型深度方法的有效性，再次使用T对隐藏层深度分别为1到4的网络进行训练，并在T上进行验证，准确率分别为75.2%， 92.4%， 91.5%， 92.7%，可以看出隐藏层深度增加到2后准确率的提升将很小，单幅图像的样本确定的模型深度一致。

为比较不同训练方法的性能，本文使用准确率和Kappa系数作为性能评估的指标，并将本文提出方法标记为#0。将图2（b）红色方框所标记大小为1500×1500像素的区域作为测试数据。并结合高分辨率光学图像和SAR图像，通过手工标记的方法获得每一幅图像的真实类别。在所有实验中均采用相同的标记作为生成训练样本。对比实验分为两组，第1组标记为#0， #1， #2；第2组标记为#0， #3，#4， #5，基本设定如表2所示。

表2 对比实验设定Tab.2 The settings of method comparison experiments

对比实验1 使用81-64-64-1的网络结构，将本文方法得到的结果与第Ⅰ类（#1）、第Ⅱ类（#2）方法的的结果进行比较。由于#1与#2的训练样本仅从单幅图像生成，数量较小，因而使用图像旋转的方法生成更多的训练样本以提高模型性能。先将图像旋转到7个不同的方向，即π/4， 2π/4，··， 7π/4，再使用与#0相同的标签生成训练样本。该组实验的详细设置如表2中#0， #1和#2所示，实验详细结果如图4（a）、图4（b）和表3所示。

由于#1使用参考图像进行训练，因而在参考图像上有较好的评估结果，准确率和Kappa系数分别为92.7%和0.798。然而将该模型用于其它时间序列图像的预测时，某些与参考图像差异较大的数据的评估结果性能很差，因而得到的准确率和Kappa系数曲线抖动较大，其标准差分别为3.8×10-2和8.1×10-2。实验中最差结果的准确率仅有75.9%，Kappa系数仅为0.465。尽管测试图像经过了直方图规定化处理，图像间的差异性仍然存在，仅靠单幅图像生成的训练样本得到的模型很难在所有图像上都获得较好的检测性能。

表3 不同方法实验结果Tab.3 Result from different methods

图4 方法对比评估结果Fig.4 Different methods evaluation results

#2为每幅图像训练一个模型，增加了一定的自适应性，因而相比#1性能有所提高。平均准确率达到89.9%，最低准确率也为85.9%。然而最小的Kappa系数仍然很低，仅为0.502，准确率曲线和Kappa系数曲线波动都很大，其标准差分别为1.9×10-2和8.1×10-2。性能较差的一个原因在于图像中其它区域的特征没有被模型学习到。另一个原因在于仅使用参考图像得到的标签生成训练样本，但序列的其他图像中建筑区域可能发生了改变，导致引入了较多的错误标签。

相较于#1和#2，本文方法（#0）使用了整个时间序列生成的大量样本进行模型训练，利用了时间序列在信息上的互补性，丰富了训练样本的特征，因而在检测性能和稳定性上都有较大的提高。

对比实验2 为比较本文提出方法对传统第III类方法的改进，本文对不同深度模型做了实验对比。传统的第Ⅲ类方法通常使用原始数据生成大量训练样本训练模型，通过调整模型的复杂度以获得更好的性能。在这组实验中，使用直接随机选择的大量训练样本（未经过直方图规定化与样本筛选处理）直接训练不同深度（隐藏层数量分别为2， 3，4）的模型，以验证是否可以仅通过增加模型复杂度提高模型性能。实验设置如表2中方法#0， #3， #4，#5所示，实验结果如图4（c）、图4（d）和表3所示。

从实验结果可以看出虽然模型深度增加，但模型性能并未得到提升，反而会由于深度的增加而增加了训练过程中所需的计算量。本文方法通过使用直方图规定化，将不同时间的图像的整体强度进行了统一，避免了由于图像间由于强度不一致而造成的正负样本特征混淆，将时间序列建筑区域提取的难度降低。随后使用R训练的模型对样本进行预测并筛选出训练样本，可以去除部分由于粗略标记和不同时间建筑区域的变化而引入的带有错误标签的样本，提高了训练样本的质量。使用大量质量较高的训练样本对一个复杂度较低的网络进行训练，从而得到性能上的改善。由于样本质量的提升，#0训练过程仅通过3次迭代训练就停止，即两次迭代即可获得最终的模型。而#3， #4， #5训练过程分别迭代了5次、6次、5次训练才结束，并且#4，#5隐藏层深度比#0和#3高，每次迭代所需的时间也更多。虽然#0需要通过R训练得到的模型进行预测和样本筛选，而R仅有40万样本，训练过程和预测过程所需时间远小于使用1000万样本单次迭代所需要的时间。综上所述，本文方法具有较高的训练效率及模型精度。

图5给出了2007年2月的数据，使用本文提出方法得到的检测结果。图5（a）是模型直接分类后的检测结果，图5（b）是利用DEM去除山体干扰后的结果。

4 结束语

本文探索了多层神经网络在中等分辨率SAR图像时间序列的建筑区域提取的方法和性能。由于时间序列在特征上的差异性使得稳定而准确的建筑区域提取较为困难。本文利用时间序列SAR图像在空间上的一致性、在信息上的冗余性，通过获取高质量的训练样本并训练低复杂度的模型结构得到性能稳定且精度较高的模型。文中两组对比实验，说明了本文的训练方法在提取性能和稳定性上有较大提高，整个时间序列的最低准确率和Kappa系数分别90.2%和0.725远高于其它几种方法。从整个流程上看，本文提出的方法还具备以下良好特性：（1）只对单幅图像进行粗略标记即可获得大量高质量的样本，减少了样本采集需要的时间和工作量；（2）仅有模型深度一个超参数需要调优，有利于该方法在不同数据的应用，具有较强的推广能力；（3）具有高质量的训练样本和较低的模型复杂度，训练过程高效。

图5 2007年2月北京建筑提取结果Fig.5 Beijing built-up area extraction result from February 2007 data

［1］王璐，张帆，李伟，等.基于Gabor滤波器和局部纹理特征提取的SAR目标识别算法［J］.雷达学报， 2015， 4（6）: 658-665.Wang Lu， Zhang Fan， Li Wei， et al..A method of SAR target recognition based on Gabor filter and local texture feature extraction［J］.Journal of Radars， 2015， 4（6）: 658-665.

［2］孙志军，薛磊，许阳明，等.基于多层编码器的SAR目标及阴影联合特征提取算法［J］.雷达学报， 2013， 2（2）: 195-202.Sun Zhi-jun， Xue Lei， Xu Yang-ming， et al..Shared representation of SAR target and shadow based on multilayer auto-encoder［J］.Journal of Radars， 2013， 2（2）: 195-202.

［3］Gamba P， Aldrighi M， and Stasolla M.Robust extraction of urban area extents in HR and VHR SAR images［J］.IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing， 2011， 4（1）: 27-34.

［4］Hussain M， Chen D， Cheng A， et al..Change detection from remotely sensed images: from pixel-based to object-based approaches［J］.ISPRS Journal of Photogrammetry and Remote Sensing， 2013， 80: 91-106.

［5］Voisin A， Krylov V A， Moser G， et al..Classification of very high resolution SAR images of urban areas using copulas and texture in a hierarchical Markov random field model［J］.IEEE Geoscience and Remote Sensing Letters， 2013， 10（1）: 96-100.

［6］韩萍，王欢.基于改进的稀疏保持投影的SAR目标特征提取与识别［J］.雷达学报， 2015， 4（6）: 674-680.Han Ping and Wang Huan.Synthetic aperture radar target feature extraction and recognition based on improved sparsity preserving projections［J］.Journal of Radars， 2015，4（6）: 674-680.

［7］Uslu E and Albayrak S.Curvelet-based synthetic aperture radar image classification［J］.IEEE Geoscience and Remote Sensing Letters， 2014， 11（6）: 1071-1075.

［8］Geng J， Fan J， Wang H， et al..High-resolution SAR image classification via deep convolutional autoencoders［J］.IEEE Geoscience and Remote Sensing Letters， 2015， 12（11）: 2351-2355.

［9］Hinton G E， Osindero S， and Teh Y W.A fast learning algorithm for deep belief nets［J］.Neural Computation， 2006，18（7）: 1527-1554.

［10］Ian Goodfellow， Yoshua Bengio， and Aaron Courville.Deep learning［OL］.http://www.deeplearningbook.org/， 2015.10.

［11］Mnih V and Hinton G E.Learning to detect roads in highresolution aerial images［C］.Computer Vision-ECCV 2010，Springer Berlin Heidelberg， 2010: 210-223.

［12］Lv Q， Dou Y， Niu X， et al..Classification of land cover based on deep belief networks using polarimetric RADARSAT-2 data［C］.2014 IEEE Geoscience and Remote Sensing Symposium （IGARSS）， Quebec City， Canada， 2014: 4679-4682.

［13］Gong M， Zhao J， Liu J， et al..Change detection in synthetic aperture radar images based on deep neural networks［J］.IEEE Transactions on Neural Networks and Learning Systems， 2016， 27（1）: 125-138.

［14］Rossetti G， Prati C， and Rucci A.Monitoring the urban environment with multitemporal SAR data［C］.2015 IEEE Radar Conference （RadarCon）， Arlington， VA， USA， 2015: 0622-0627.

［15］Gonzalez R C， Woods R E著，阮秋琦，阮宇智，译.数字图像处理［M］.第2版，北京: 电子工业出版社， 2010: 74-79.Gonzalez R C， Woods R E， Ruan Qiuqi and Ruan Yuzhi.Digital Image Processing［M］.Beijing: Publishing House of Electronics Industry， 2010: 74-79.

［16］Ioffe S and Szegedy C.Batch normalization: accelerating deep network training by reducing internal covariate shift［OL］.arXiv: 1502.03167， 2015.

［17］Glorot X， Bordes A， and Bengio Y.Deep sparse rectifier neural networks［C］.International Conference on Artificial Intelligence and Statistics， La Palma， Spain， 2011: 315-323.

［18］Srivastava N， Hinton G， Krizhevsky A， et al..Dropout: a simple way to prevent neural networks from overfitting［J］.The Journal of Machine Learning Research， 2014， 15（1）: 1929-1958.

［19］Kingma D and Ba J.Adam: a method for stochastic optimization［OL］.arXiv: 1412.6980， 2014.

杜康宁（1988-），男，博士研究生，合成孔径雷达图像信息提取。

E-mail: dukangning11@mails.ucas.ac.cn

邓云凯（1962-），男，研究员，博士生导师，研究方向为星载SAR系统设计、成像及微波遥感理论。

E-mail: ykdeng@mail.ie.ac.cn

王宇（1979-），男，研究员，博士生导师，研究方向为星载SAR系统设计及信号处理。

E-mail: yuwang@mail.ie.ac.cn

李宁（1987-），男，安徽天长人，毕业于中国科学院电子学研究所，获得博士学位，现为中国科学院电子学研究所助理研究员，研究方向为多模式合成孔径雷达成像及其应用技术。

E-mail: lining_nuaa@163.com

Medium Resolution SAR Image Time-series Built-up Area Extraction Based on Multilayer Neural Network

Du Kangning Deng Yunkai Wang Yu Li Ning
（Institute of Electronics， Chinese Academy of Science， Beijing 100190， China）

To improve the accuracy and stability of built-up area extraction from Synthetic Aperture Radar （SAR） image time series， in this paper， we propose a multilayer neural-network-based built-up area extraction method that combines the characters of time-series images.The proposed method coarsely tags single images and obtains a large number of samples from time-series images that have been processed by a histogram specification procedure.To generate a training sample dataset， we use samples generated from one image to determine network depth and select samples with higher accuracy from the sample set taken from the timeseries images.The final model is trained by the selected large and high quality training dataset.We perform two comparison experiments with 38 25-m resolution ENVISAT ASAR images.Using the proposed method， we achieved 90.2% minima accuracy and a 0.725 minima Kappa coefficient， which are much higher than those of the three conventional methods.Thus， the accuracy and stability of built-up area extraction are significantly improved.In addition， the method proposed in this paper has the advantages of requiring minimal manual operation， well generalization， and training efficiency.

Multilayer neural network； Synthetic Aperture Radar （SAR）； Time-series； Built-up extraction

TP753

2095-283X（2016）04-0410-09

10.12000/JR16060

2016-03-19；改回日期：2016-06-12；网络出版：2016-06-27

李宁 lining_nuaa@163.com

国家自然科学基金（61301025），中国科学院百人计划

Foundation Items: The National Natural Science Foundation of China （61301025）， Hundred-Talent Program of the Chinese Academy of Sciences