采用神经网络架构搜索的遥感影像分割方法
2021-11-12周鹏,杨军
周 鹏,杨 军
(1.兰州交通大学 电子与信息工程学院,甘肃 兰州 730070;2.兰州交通大学 测绘与地理信息学院,甘肃 兰州 730070)
由于高分辨率遥感影像包含丰富的场景语义信息和精细的空间尺度,可清晰地呈现地物的细节特征、几何结构以及纹理特征,在一定程度消除了混合像元所引起像素类属的不确定性,在地物目标的精准分割中表现出巨大的潜力与优势,被广泛应用于农业、林业、国土规划、抢险救灾、军事侦察和环境保护等领域。高分辨率遥感影像存在像素光谱测度空间相关性复杂的问题,使对同一地物目标内像素光谱测度相似性减弱,不同地物目标间像素光谱测度相似性增强,导致相同地物目标出现更多的异质性和空间破碎性(影像分割结果中同质区域内几何噪声和空间不连续性增加)[1]。考虑到高分辨率遥感影像地物信息多样性及空间分布复杂性,如何准确地从高分辨率遥感影像中提取感兴趣的目标具有非常重要的意义[2]。
影像分割是计算机视觉领域一项关键的技术,是影像处理到影像分析的核心步骤。其根据同质性或异质性标准,将完整影像分成若干特定的、具有独特性质的子区域,并提出感兴趣目标。目的是使任何相邻的不同子区域互不重叠,简化并改变影像表示形式,使得影像更容易解译。常见的影像分割算法有:基于阈值的影像分割算法,基于区域的影像分割算法和基于边缘的影像分割算法[3]。由于高分辨率遥感影像带标签数据匮乏,导致分割的泛化能力较弱,决策具有不确定性,因此对高分辨率遥感影像的分割已成为该领域极具挑战的课题。
遥感影像具有海量数据、尺度依赖、空间相关性强等特点,能够很好地用语义分割的方法来提取地物。遥感影像分割结果直接影响到后期信息提取、影像解译及地物识别等过程的精度,因此,针对分割算法的研究意义重大。传统的分割算法主要通过全局统计信息,如像素级纹理、颜色直方图、结构和形状特征等方法对场景进行表达。该类方法主要基于低层特征,精度不高且使用范围小,已不能适用于高分辨率遥感影像分割。随着机器学习方法的快速发展,许多学者从不同角度对遥感影像分割算法进行了研究[4-6],其中基于深度学习的方法备受青睐。卷积神经网络(Convolutional Neural Networks,CNNs)将遥感影像分割方法带到了一个新的时代,在ImageNet上对卷积神经网络进行预训练的方法能有效提取图像场景全局信息,在高分辨率遥感影像特征提取中有着突出表现,但对局部信息提取不足。不同于自然图像,遥感影像地物复杂,分布离散,局部特征对全局遥感影像场景表达意义重大,预训练模型特征提取的方法侧重于全局特征提取而忽略了局部特征信息,导致对全局场景特征信息提取不全。全卷积网络(Fully Convolutional Network,FCN)通过反卷积滤波器对影像特征图进行上采样,可同时提高算法的精确度与鲁棒性,实现了对影像进行像素级的区分,解决了语义级别的图像分割问题。然而,这些网络由专家人工设计,存在过分依赖专家经验、网络设计耗时费力等问题,尤其是面对新任务时,网络的泛化能力较差。
针对高分辨率遥感影像标签样本数据少、特征提取不足及架构设计效率低的问题,为提升高分辨率遥感影像场景表达的能力,笔者提出采用神经网络架构搜索的高分辨率遥感影像分割方法,高效地搜索出面向遥感影像分割的网络架构。主要创新和贡献有:① 将网络架构搜索方法用于高分辨率遥感影像分割,提出资源平衡型部分通道采样的神经网络架构搜索框架;② 选择部分通道进行搜索空间的混合操作,以提高正则化效果,缓解网络过拟合;③ 采用Gumbel-Softmax Trick从离散概率分布的样本采样。
1 相关研究工作
基于深度学习的高分遥感影像分割方法提高了分割效率和精确度,而鲁棒性较好的网络模型通常需要专家耗费大量精力来设计和测试。不同的数据集,特征提取和融合的方式也不同,需要专家重新设计新的架构。为简化网络架构设计,减轻对人工架构设计的依赖,采用神经网络架构搜索(Neural Architecture Search,NAS)来自动搜索出最优网络架构的方法受到越来越多学者的重视。近年来,神经网络架构搜索方法搜索到的神经网络架构在性能方面已超越了人工设计架构,尤其是在二维图像分类领域,采用神经网络架构搜索的网络架构在参数量、网络规模和设计代价方面均表现优异。
神经网络架构搜索对遥感影像分割流程如图1所示,该搜索过程持续循环执行,直到搜索出性能符合要求的神经网络架构。搜索空间、搜索策略和性能评估是神经网络架构搜索的基本3要素[6]。
图1 采用神经网络架构搜索的高分遥感影像分割流程
搜索空间预先定义了能被神经网络架构搜索算法搜索到的神经网络架构。早期的搜索空间以链式结构为主,之后出现多分支神经网络架构搜索结构,使得神经网络架构搜索更加灵活。随着研究的进一步深入,深度神经网络(Deep Neural Networks,DNN)中出现了重复的子结构,称为Cell或Block。基于Cell结构的网络架构搜索,目标网络由Cell重叠拼接而成,引入Cell可将神经网络架构中相似的部分抽象到一个Cell中,使搜索空间简化。Cell通常被设计为有向无环图(Directed Acyclic Graph,DAG),DAG通过减少自由度来实现缩小搜索空间。
搜索策略定义了如何在搜索空间中进行搜索,即从预定义的搜索空间中选择网络架构,选择过程需要权衡效率与性能两方面。搜索策略一般分为基于离散空间的搜索策略和基于连续空间的搜索策略。基于离散空间的搜索策略直接在离散的搜索空间中设计,主要包括基于强化学习[7]的策略和基于进化算法[8]的策略。连续空间搜索策略将离散搜索空间中的神经网络架构映射到连续空间,再通过连续优化方法更新架构。
性能评估方法是对搜索到的网络进行评估,包括评估分割准确率、错误率及参数量等是否达到了预定的搜索目标,评估结果返回给搜索策略,以便对搜索策略进行调整优化。性能评估的理想状态是对当前的神经网络架构进行完整训练,一般在小规模代理任务上评估或使用加权共享来加速评估过程,以提高评估效率、节省计算开销。
文献[9]首次提出将搜索空间由离散转换为连续,使用梯度下降法来同时搜索架构和学习权重,该算法加速了训练过程,改变了传统架构搜索的思路,而在处理高分遥感影像时却存在一定的局限性,仍在处理高分遥感影像时却存在一定的局限性。首先,其优化算法建立在对Hessian矩阵的数学近似上,会产生一定的不可控误差,存在搜索算法不稳定的潜在问题。其次,当迭代次数过大时,跳跃连接的数量会急剧增加,使得网络架构变浅,整体性能降低。
文献[10]将早停机制(Early Stopping)引入到DARTS,减少了搜索时间,解决了DARTS中迭代次数过大时跳跃连接突增导致性能降低的问题,提高了网络性能,但不能保证所裁剪的边权值最小,存在一定的离散化误差。文献[11]采用辅助跳跃连接分支的方法,优化候选跳跃连接操作,有利于双层优化以更公平的方式进行,能更好地评估网络性能的优劣。文献[12]通过渐进方式逐步增加搜索单元,有效避免了内存消耗过大和网络过拟合,解决了代理训练集与目标测试集之间的差异,但该算法存在搜索结果不稳定和参数过多等问题。文献[13]随机采样部分通道和边缘正则化操作,可有效避免资源消耗严重,但在超大网络中采样时,会出现搜索效率降低和特征提取不完整。文献[14]采用贪婪策略,解决了搜索过程中验证准确率和实际测试阶段准确不匹配的问题,将搜索过程设计为逐步选择边并确定其操作的子任务,但该算法存在跳跃连接富集的问题。文献[15]是早期使用全卷积网络进行语义分割的算法之一,是一种基于深度学习的图像语义分割方法,采样编码器-解码器架构,通过4次下采样、4次上采样形成了U型结构,主要应用于医学图像分割。文献[16]采用深度可分离卷积,其模型编码器主体为带有空洞卷积的深度卷积神经网络(Deep Convolutional Neural Networks,DCNN)和空间金字塔池化模块,引入了多尺度信息,提高了语义分割的健壮性和运行速率。但是由于存在空洞卷积,计算复杂度高。文献[17]旨在解决自动驾驶或智能机器人的图像语义分割深度网络,由编码器和解码器组成,编码器部分在最大池化操作时记录了最大值索引,解码时通过对应的池化索引实现非线性上采样,因此节省了内存空间,提高了训练效率,但分割精确度提升不明显。文献[18]提出了一个网络级架构搜索空间,采用可微的连续方式,首次将神经网络架构搜索从图像分类任务扩展到密集图像预测任务。文献[19]提出使用神经网络架构搜索方法对遥感影像进行分割,分割效果虽然较人工设计的网络架构有了很大改善,但仍有一定提升空间。
以上方法在自然图像分类领域虽然取得了一定的成果,但在图像分割,尤其在高分遥感影像分割领域内的研究较少,尚未解决因离散化误差、跳跃连接富集等导致网络性能降低的问题。因此,如何针对高分遥感影像,设计性能良好的模型分割神经网络架构搜索算法仍亟待解决。
2 资源平衡型部分通道采样的神经网络架构搜索
2.1 网络整体架构
搜索单元Cell分为Reduction Cell和Normal Cell。Reduction Cell位于网络的1/3和2/3处,其余为Normal Cell,学习到的搜索单元也可以通过递归连接形成循环网络。每一个搜索单元表示为一个DAG图,由N个点V(p(0),…,p(n-1))和点之间的边E(i,j)构成,每一个节点p(j)代表为一个网络层,与输入的遥感影像或特征图相关,每一条边E(i,j)表示与节点p(j)可能的一种相关操作,如卷积或者池化。因此,对搜索单元Cell的求解过程就转变为求解每条边上对应的操作。每一个DAG由7个节点表示,其中包含2个输入节点,4个中间节点和1个输出节点。输入节点0是Cellk-2层的输出,输入节点1是Cellk-1层的输出。中间节点p(j)和它所有的前趋节点p(i)通过操作σ相连接,即
(1)
输出节点由4个中间节点连接而成,输出通道数为原输入通道数的4倍。
图2为资源平衡型部分通道采样神经网络架构搜索(Resource Balanced Partial Channel Neural Architecture Search,RBPC-NAS)流程。
图2 资源平衡型部分通道采样神经网络架构搜索流程
图2(a)表示基于可微的架构搜索过程,用DAG图来表示网络拓扑结构,每个节点表示输入的影像(或特征图)。首先,设置初始DAG图每条边的操作集合为空集,通过在每条边上添加不同的操作来持续扩大搜索空间;其次,通过双层优化问题求解,获取网络权重;最后,求解边上的混合概率来确定边上的具体操作。
在基于可微的架构搜索算法中,一般使用Softmax进行归一化操作,使操作之间存在一定的竞争关系,优化一个架构参数的同时抑制其他参数。采用基于资源平衡型渐进式剪枝法对搜索空间中的竞争机制进行优化。首先,将架构搜索中各操作之间单独的竞争关系优化为先合作后竞争的关系,即先使用Sigmoid函数,再使用Softmax归一化函数,从而使得每个操作有单独的权重,能够体现出其对超网性能的贡献;其次,在Sigmoid上添加exp()函数,经归一化处理,将搜索过程的输出规范在[0,1]内;最后,引入0-1损失函数来缩小连续编码离散化的差距,在保证公平的前提下,使不同操作的权重参数要么趋向于0,要么趋向于1,从而提高架构搜索的效率,使不同操作产生的效果差距增大。
2.2 资源平衡型渐进式剪枝法
为解决因引入Sigmoid函数打破原空间中竞争机制的问题,更好地平衡网络架构的精度和复杂度,在新的搜索空间中,针对网络架构参数α添加资源平衡项R,用以估计当前网络的复杂度,
R=ζ(F′+γF)+λL,
(2)
其中,λ(0,1)L(0,1)是由λ控制的0-1损失函数,ζ(F′+γF)是由ζ控制的复杂度损失函数。在提升搜索算法稳定性的同时,得到高性价比的网络架构,从而减小剪枝过程中产生的更新不平衡和离散化误差。该方法称为资源平衡型渐进式剪枝法。式(3)表示该算法的损失函数,
L(ω,α)=Ex∈Dtrain[φ(θ(exp(CE(f(x),y*))))]+ζ(F′+γF)+λL,
(3)
如图2(b)所示,训练集的优化在不考虑复杂度的情况下进行;随着优化过程的持续,ζ逐步增大,以促使网络在精度和复杂度之间趋于平衡;将某些操作对应的α值降低,当α值降低到设定阈值时,就将这条边从超网中裁剪掉。在每一次裁剪过程中,存在一个待裁剪数的期望值,期望值未达到设定阈值,ζ将继续增长;否则,ζ将减小。如果在一个迭代过程中没有操作被裁剪,则当前架构被选择为一个候选帕累托最优(Pareto-optimal)解。在多次剪枝过程中,每次裁剪参数α趋于0的操作,持续该过程,直到搜索出的网络足够精简,将存活时间最长的网络架构作为最终帕累托最优架构的子集。F倾向于抑制代价更高的算子,F′对每个操作添加一个固定的权重,抑制对分割任务贡献最小的算子。γ越大,裁剪的卷积数越多,促使网络架构朝着更高的计算效率发展,通过对γ的调整可以得到不同的帕累托前沿(Pareto Fronts)。
2.3 基于部分通道采样的混合计算
为降低内存使用率,提高搜索效率,选择部分通道进行搜索空间的混合操作,未选择的通道作为跳跃连接,直接连接到输出层。DAG图中,每一个节点表示输入张量到输出张量的映射,对于第i个节点,定义(Ii,Oi)为该映射,I表示从输入节点的第一个张量Tin到最后一个张量Ti-1以及输出张量的集合,Oi∈O,表示Ii上的操作,O表示搜索空间中操作的集合。如图2(c)所示,通过部分通道采样法,将中间节点的数据处理后进行通道融合,DAG中每个节点输入张量的通道分为被选中的通道和未被选中的通道两部分,k表示通道采样率,将选中的通道设置为1/k。通过设置k的大小,可对网络架构的测试结果进行调整,k值越大,整体架构的效率越高;k值越小,采样率越高,传输信息的准确率和分割精度就越高。引入部分通道采样法,也可提高正则化效果,缓解网络过拟合问题,并将内存使用率降低到原来的1/k。因而,实验过程中可以通过增加迭代训练次数来减少更新网络权重造成的不确定性,输出张量Ti计算如下所示:
(4)
2.4 高分遥感影像采样
相较于自然图像,遥感影像质量受成像条件影响较大,具有背景复杂、空间范围广、分辨率低、目标呈多方向性等特点,普通二维图像中的采样由softmax得到归一化概率函数,而softmax得到的是样本的均值,因而该方法难以适用于高分遥感影像采样。
Gumbel-Softmax Trick[20]是一种从离散分布取样的方法,其定义一种可微分的,离散分布的近似取样,得到的是近似的样本,而Softmax得到的则是样本的均值。因而,Gumbel-Softmax 一般用在需要对离散分布提取样本,实现可导的同时进行训练。由于对搜索空间使用梯度下降的搜索策略来选择有向无环图每条边的权重,因而采用Gumbel-Softmax Trick来进行连续松弛。
为使采样过程能够反向传播,可使用Gumbel-Softmax Trick方法得到样本的近似值,通过对式(1)优化,使其在离散概率分布中的采样效率更高:
(5)
离散分布的均值与样本有一定差异,两者的数值在极端的情况相近。基于可微的方法将所有中间结果保存在内存中,而Gumbel-Softmax Trick方法只选择一个操作保存。因而,如果有m个候选操作,计算量将减少为1/m。
3 实验结果与分析
3.1 实验环境与参数配置
本实验的硬件环境为Intel Core i9-9900k+GTX2080Ti,软件环境为Ubuntu18.04+CUDA 10.2+cuDNN7.6+Torch 1.4.0+Python 2.7。实验数据集WHUBuilding[21]和高分影像数据集(Gaofen Image Dataset,GID)[22]。
搜索阶段:batch_size初始值为3,input_size为512,初始通道数initial_channel为12,学习率learning_rate为0.01,最小学习率min_learning_rate为0.001,动量momentum为0.9,权值衰减weight_decay为3e-4。为方便与同类型其他网络架构进行对比,设置最大迭代次数max_epoch为60,搜索层数Layers设置为8。
训练阶段:batch_size初始值为2,input_size为512,初始通道数initial_channel为12,学习率learning_rate为0.025,动量momentum为0.9,权值衰减weight_decay为3e-4。最大迭代次数max_epoch为100,搜索层数Layers设置为8。
评估阶段:batch_size初始值为2,input_size为512,initial_channel为12,learning_rate为0.001,momentum为0.9,weight_decay为1e-4,num_cells为9。
3.2 实验结果与对比分析
3.2.1 WHUBuilding数据集实验
本实验在WHUBuilding数据集上进行架构搜索、训练和评估。该数据集大约有22 000个独立建筑,由航空数据集和卫星数据集组成。航空数据集的数据来自新西兰土地信息服务网站,数据集为基督城的建筑矢量数据,影像的原始地面分辨率为0.075 m,覆盖面积450 km2。卫星数据集范围包括东亚及全球城市,还包括涵盖了2011年2月发生6.3级地震并在随后几年重建区域的建筑物变化检测数据集。该数据集中图像被下采样到0.3 m的空间分辨率,并裁剪成8 188个不重叠的块,每块像素为512×512,其中,4 736张图像用于训练,1 036张图像用于验证,2 416张图像用于测试。
搜索阶段共迭代60次,耗时13.5 h。网络架构搜索的结果分为两类,一种是将输入的Feature map等大小输出,即Normal Cell,其步长为1;另一种是将输入的Feature map长宽各降低一半输出,用来改变影像的空间分辨率,即Reduction Cell,其步长为2。搜索的过程中,Cell内部进行不断更新,网络宏观结构没有变化,最后的网络架构由这两种Cell构成。将实验结果与SegNet、U-Net、DeepLab v3+和NAS-HRIS进行了比较,比较结果如表1所示。可以看出,本算法F1和MIoU分别比SegNet高4.86%和6.42%。本算法参数量为0.21 M,约是SegNet算法的0.7%,比NAS-HRIS算法多0.02M。
表1 RBPC-NAS在WHUBuilding上的测试结果
如图3所示,整体MIoU与迭代次数大体呈线性关系。训练刚开始时,模型在学习过程的初期,处于欠拟合区域。尤其是迭代次数较小时,如图3中,在迭代次数0至20次之间,MIoU分布比较离散,随着训练的进行,训练误差和测试误差都下降。在迭代20到90次时,MIoU提升比较平稳;之后,在迭代90至100次时,训练集误差下降,测试集误差上升,模型进入过拟合区域,MIoU开始出现降低。
(a)实验结果1
图4为几种影像分割效果的比较。图4(a)为输入的高分遥感影像,图4(b)为标签数据。SegNet在FCN的基础上增加了解码器,移除了全连接层,改善了边界划分,在独立建筑物分割过程中表现出较强的性能,是目前分割任务中流行的编解码结构,但分割相连建筑物的能力较弱,存在分割界限不明确的问题。U-Net分割生物医学影像准确率较高,其将编码阶段的整个特征图输入到相应的解码器,内存占用量大,虽然MIoU值高于SegNet,但其分割的独立性并不强,难以有效区分建筑物之间的区域。DeepLab v3+整体分割性能较好,但在影像局部特征非常接近时,建筑物中间部分存在误分割的情况。NAS-HRIS分割准确率较前几种算法有所提高,建筑物边界分割清晰,但局部与大建筑物相连的小物体分割有误。图4(g)为本文算法分割效果,其中矩形框标注表示算法分割效果较差,如图4(g)中第一幅效果图,椭圆形标注表示分割效果优于其他算法。综合比较,本算法分割效果最佳,网络参数最少,但由于渐进式剪枝运算耗费更多的GPU时长,使得搜索时间比NAS-HRIS长,此外,由于文中算法采用Gumbel-Softmax Trick方法,仅选择一个操作保存,造成对密集建筑物和边界连续变化处分割出现误差。
图4 RBPC-NAS分割高分辨率谣言影像效果图
3.2.2 GID数据集实验
GID是一个用于土地利用和土地覆盖分类的大型数据集。它包含来自中国60多个不同城市的150幅高质量高分二号(GF-2)影像,这些图像覆盖的地理区域超过了50 000 km2。GID影像具有较高的类内多样性和较低的类间可分离性。GF-2是高清晰度地球观测系统的第二颗卫星,包括了空间分辨率为1 m的全色影像和4 m的多光谱影像,每幅影像大小为6 800×7 200像素。多光谱提供了蓝色、绿色、红色和近红外波段的影像。近年来,GF-2已被用于土地调查、环境监测、作物估算、建设规划等领域[22]。为保证分割效果的可对比性,本实验中,将每一幅原始GID影像分割为182张影像,每张像素为512×512,共分割为27 300张影像,根据标签数据,从中筛选出12 000张数据多样且信息丰富的影像为数据集。在该数据集中,选取 8 000 张影像为训练数据,2 000张为影像为验证数据,2 000张为测试数据。所选取的影像包含建筑物、森林、农田、草地、水域等5个类别,如图5所示。
图5 分割方法的效果对比
本实验采用同WHUBuilding数据集类似比较方法,与SegNet、U-Net、Deeplab v3+和NAS-HRIS网络模型效果对比。如表2所示,RBPC-NAS的MIoU比上述4种方法分别高出6.34%、4.87%、5.71%和2.5%。表明采用本算法的网络架构搜索方法在高分辨率遥感影像分割中效果显著。由于在高分遥感影像切割过程中,部分影像缺乏标签数据,为充分体现出算法的分割效果,实验选取包含五类地物的切割影像。由图5可以看出,SegNet和NAS-HRIS在边界分割上效果不佳,SegNet在森林影像分割中分割误差较大,NAS-HRIS在草地影像分割中误差较大。本算法分割效果优于前两种,在5类地物分类中均表现最优。由于部分通道采样过程中,损失的部分信息对密集建筑影响较大,因而,本算法在分割密集建筑物时,效果相对较差。
表2 RBPC-NAS在GID上的测试结果
3.3 渐进系数对性能影响分析
网络架构自动搜索的关键是解决超参自动优化的问题,式(3)作为整个网络架构的目标函数,用来对网络超参如λ、γ逐步求精,以得到最优的网络架构,渐进系数ζ作为本算法中主要的参数,在模型训练过程中起着决定裁剪操作的作用。训练开始时,ζ初值为0,增量Δζ设置为1e-5,ζ最大权重值设为0.05,最小权重值设为0.01,裁剪操作最大的迭代次数为3。随着优化过程的进行,ζ逐渐增加,迫使对网络贡献小的权重降低。在每个裁剪回合中,都有一个预期要裁剪的操作符数量n0,值设为4。如果预期的裁剪数量n0没有达到,ζ将持续增长;否则,ζ开始减小。若在一个连续的裁剪周期内没有操作被裁剪到,则当前的架构作为最优架构输出。
渐进系数ζ在式(3)中起着重要调节作用。实验中对渐进系数与FLOPs关系进行了研究,如图6所示。渐进系数ζ初始值为0,并以1e-5的增量持续增加;在每一次迭代过程中,ζ首先增加,迫使弱操作的权重降低,随后ζ值降低,此时,操作空间中的弱操作逐步被裁剪。因而,随着迭代次数的增加,超网的FLOPs值逐步递减。
图6 渐进系数ζ与FLOPs的关系图
3.4 消融实验
为探讨笔者构建的资源平衡型渐进式剪枝法和基于部分通道采样的混合计算对目标分割结果的影响,构建了不同的网络进行训练和测试。实验结果如表3和表4所示。其中,RBPC-NAS_A表示仅引入资源平衡型渐进式剪枝法的测试结果,RBPC-NAS_B表示仅引入部分通道采样混合计算法的测试结果,RBPC-NAS为同时引入两种方法的测试结果。
表3 RBPC-NAS在WHUBuilding上的消融实验结果
表4 RBPC-NAS在GID上的消融实验结果
RBPC-NAS_A仅引入资源平衡型渐进式剪枝算法,相比于NAS-HRIS网络模型,参数量增加了 0.07 M,表3中,搜索时间和训练时间分别增加了2.1 h和2.2 h,PA、F1、MIoU较NAS-HRIS分别提升了0.24%、0.03%和0.35%。在表4中,较NAS-HRIS,在GID数据集下的RBPC-NAS_A搜索时间和训练时间分别增加了1.7 h和1.9 h,PA、F1、MIoU RBPC-NAS_A分别提升了1.39%、2.12%和1.78%。其原因在于NAS-HRIS基于传统算法,在训练阶段优化网络权重,在验证阶段更新网络参数,这种机制增加了计算负担,导致梯度估计不准确,从而使得搜索效果变差。一阶段优化方法能很大程度上降低计算量,但由于去除了部分操作,易引起离散化误差。
RBPC-NAS_B仅引入部分通道采样混合计算法,网络的参数量较NAS-HRIS减少了0.05 M,表3中,在WHUBuilding数据集下,搜索时间和训练时间分别减少了2 h和2.9 h,PA、F1、MIoU较NAS-HRIS分别提升了0.08%、0.01%和0.24%。表4中,在GID数据集下,搜索时间和训练时间分别减少了1.9 h和4 h,PA、F1、MIoU较NAS-HRIS分别提升了0.97%、1.82%和1.21%。通过选取部分通道进行搜索空间内的混合操作,对提高搜索效率和节省计算资源效果明显,与RBPC-NAS_A相比,RBPC-NAS_B对性能的提升效果不明显,原因为部分通道采样过程为提高效率,以牺牲部分采样数据为代价。资源平衡型渐进式剪枝法和基于部分通道采样混合计算相结合的方式,弥补了各自的缺点,提高分割精度的同时,节省了计算资源。
本算法在GID数据集的优化效果提升幅度明显高于WHUBuilding数据集,但整体性能评价指标低于WHUBuilding数据集上的测试结果,原因在于WHUBuilding数据集为建筑物数据,类型相对单一,而GID为高分辨率遥感影像,其物纹理信息丰富、成像光谱波段多、地物信息复杂,增加了分割的难度。
4 结束语
笔者提出一种以网络架构自动搜索方式分割高分辨率遥感影像的算法。该算法采用梯度下降的搜索策略在基于单元的搜索空间进行架构搜索。采用基于资源平衡型渐进式剪枝法对双层优化过程中存在的离散化误差和更新不平衡问题进行了优化,通过部分通道采样的混合计算方法,有效提升了算法的搜索效率和分割的准确性,针对高分辨率遥感影像的特殊性,引入Gumbel-Softmax Trick对高分辨遥感影像进行离散分布的近似取样。实验表明,本算法在WHUBuilding数据集上搜索整个网络仅用13.5 h,MIoU达到了90.93%;在GID数据集上搜索整个网络用时11.4 h,MIoU达到69.53%。实验中发现,本算法在高分遥感影像采样过程中耗费较大的计算资源,对边界连续变化和密集建筑物分割效果不佳,未来将针对这一问题开展研究,通过优化高分遥感影像采样方法和搜索策略,进一步提升算法的搜索效率。