APP下载

CNN-ISS遥感影像分类的瓦片边缘效应及消除方案

2021-04-02段增强刘杰东孔祥斌

农业工程学报 2021年2期
关键词:瓦片类别像素

段增强,刘杰东,鹿 鸣,孔祥斌,杨 娜

(中国农业大学土地科学与技术学院 自然资源部农用地质量与监测重点实验室,北京 100193)

0 引言

图像语义分割(Image Semantic Segmentation,ISS)是指,为图像中的每一个像素分配一个预先定义好的表示其语义类别的标签[1]。基于卷积神经网络的图像语义分割方法(Image Semantic Segmentation based on Convolutional Neural Network,CNN-ISS)是一门涉及计算机视觉、模式识别与人工智能等研究领域的交叉学科,是当前数字图像处理与机器视觉的研究热点内容之一[2-5]。作为典型CNN-ISS模型,DeepLab V3模型在Pascal VOC数据集上的均交并比(Mean Intersection over Union,mIoU)值达到86.9%,DeepLab V3+模型的分割精度达到了89.0%,在Cityspace公开数据集上也达到82.1%的分类精度[6-7]。CNN-ISS在遥感影像分类方面也具有较为广泛的应用,相较于传统遥感影像分类方法[8-9],CNN-ISS具有较强的迁移学习能力和泛化能力,能够有效提取地物纹理、几何等深层次特征,在高分辨率影像解译、复杂地物识别和作物分布制图等方面具备一定优势[10-14]。

出于效率或者硬件性能限制的考虑,通常需要对大幅的遥感影像进行瓦片切图[15],将生成的影像瓦片作为语义分割数据处理对象。人为的遥感影像瓦片化过程会产生瓦片边缘地物碎片,进而影响遥感影像边缘附近像素的分类精度,从而产生瓦片边缘附近像素分类精度低于瓦片中央区域像素分类精度的现象,即瓦片边缘效应[16]。目前学者针对CNN-ISS遥感影像分类的研究主要有3个方面,一是仅在瓦片尺度进行模型验证和精度评价[17-18];二是侧重于优化地物边缘分类的研究,并未对瓦片边缘效应做专门分析及特别考虑[19-20];三是通过“重叠预测”和概率图累加算法来降低或消除瓦片边缘效应[21]。目前鲜见对CNN-ISS模型分类结果的瓦片边缘效应进行定量化分析的研究文献。

本研究系统分析了研究区在高分辨率遥感影像CNN-ISS(以DeepLab V3为核心模型)分类中的瓦片边缘效应,构建了一个消除CNN-ISS瓦片边缘效应的数据后处理框架,以实现大幅遥感影像分类解译和瓦片边缘效应消除。

1 研究区概况

研究区位于河北省唐山市曹妃甸区北部以及滦南县南部地区(118°18"E~118°48"E,39°30"N~40°12"N)。具有典型的乡村土地覆被特点,土地覆被类型主要包括水田、水浇地、设施农用地、农村居民点、河流、坑塘、交通用地等(图1)。

2 数据与方法

2.1 数据源及其处理

2.1.1 训练区数据集构建

本研究训练区面积为200 km2(图1),研究采用2019年5月4日高分二号影像,经预处理后,最终得到空间分辨率为1 m的真彩色融合影像。通过人工目视解译土地覆被类型,分类标准如表1所示,进而构建CNN-ISS训练样本数据集(图2)。

表1 土地覆被类型及目视解译划分标准 Table 1 Visual interpretation division criteria of land cover type

CNN-ISS模型神经网络层数多、参数规模大,模型训练计算量大,出于模型学习精度和学习效率的考虑,通常限定特定尺寸图像作为训练和预测对象,常用的瓦片大小有256×256、512×512像素等。如果对大幅遥感影像进行语义分割,则需要首先将大幅影像进行瓦片化处理,以特定大小的瓦片作为基本处理单元。

本研究以DeepLab V3模型作为核心CNN-ISS模型,以512×512像素瓦片作为训练和预测处理单元。通过对训练区顺序裁剪生成2000张训练瓦片,并在此基础上采用随机翻转、增加点噪声、高斯滤波和双边滤波等数据增强处理方式[22-23],共计生成15000幅瓦片。由于道路和河流沟渠像素占试验区影像总像素比例较低,采用过采样方案[24]增加了3000幅包括高速公路和河流瓦片。最终的训练集包括512×512像素瓦片共计18000幅。选取其中的75%作为训练数据集,25%作为验证数据集。综合考虑效率及最终精度,本试验以ResNet V2_50预训练模型[25]为基础进行迁移训练。

2.1.2 预测区数据集构建

选取同幅影像内与训练区毗邻的14 km2区域作为预测区(图3),采用与训练区相同的分类标准,通过人工目视解译对预测区土地覆被类型进行划分。

预测区影像、土地覆被类型划分及瓦片化结果如图3所示。模型精度评估、影像瓦片边缘效应分析与消除等均基于预测区数据集完成。

2.2 研究方法

2.2.1 核心网络

语义分割(ISS)是在像素级别进行分类。CNN-ISS将输入的遥感影像通过CNN提取影像特征,得到像素类别得分图后,再通过softmax函数以及argmax函数得到输入影像的像素类别[26]。

典型的语义分割模型数据处理过程[27]如图4中CNN-ISS标注部分所示,具体可以概况为以下3个过程:

1)将瓦片输入至CNN-ISS模型中,进行影像特征提取。其公式为V=F(T,θ),其中,V为经过系列特征提取后形成的类别得分矩阵,T为瓦片处理单元矩阵,θ为CNN-ISS模型中各层网络的参数。实现过程依具体CNN-ISS模型而定,以DeepLab V3为例,这个过程包括了卷积、池化、空洞空间池化金字塔及上采样等数据处理过程。

2)将类别得分图中各像素的分值分别经softmax函数处理后,统一归一化至0~1范围内,生成的图像为类别概率图。这一过程的公式为P=softmax(V),P为类别概率矩阵。

3)选取某一像素点对应的概率矩阵中最大值的索引作为该像素的最终类别,这一过程输出的结果即为遥感影像分类图。这一过程的公式为C=argmax(P),C为分类结果矩阵。

本研究以DeepLab V3作为核心模型,该模型以ResNet 50作为特征提取网络,加入了空洞空间池化金字塔(Atrous Spatial Pyramid Pooling,ASPP)模块来提取全局、多尺度信息。ASPP采用了4个并行的卷积,即1个1×1的卷积和3个扩张率分别为(6、12、18)的3×3扩张卷积,同时加入了批归一化(Batch Normalization,BN)层对影像特征进行处理,最后通过16倍的上采样恢复到原图大小[28]。

2.2.2 瓦片边缘效应消除方案

遥感影像瓦片化会在瓦片边缘产生土地覆被类型碎片,从而影响分类精度,存在瓦片边缘效应。

本研究中,以整幅影像上做移窗切图后生成的512×512像素瓦片影像作为处理单元,纵向和横向均以512像素步长,依次从左到右,从上到下进行移窗和瓦片影像语义分割。为消除瓦片边缘效应,设定不同的移窗起点位置(i,k),i、k为该移窗偏置起点的像素行列位置,从而保证整幅遥感影像上任意像素点一定处于某次偏置设置下生成的瓦片中央区域。假定共进行m次移窗,则可为每个输入影像像素生成至多m批次的类别打分值,假定有n个分类类别,则每个像素至多生成m×n个类别打分值,以该像素的m×n个类别打分值为基础,设计不同的瓦片效应消除技术方案,从而提高语义分割精度。

设输入遥感影像为H×W×3的矩阵X,其中,H为影像高度,W为影像宽度,H和W单位都为像素,像素x(a,b)=[xR,xG,xB],xR,xG,xB代表输入影像的彩色通道,(a,b)代表某一像素在输入遥感影像上的坐标。

对X设定一个移窗切图的移窗起点为(i,k),进行移窗切图,将生成的瓦片数据集经核心CNN-ISS模型处理得到瓦片像素类别打分结果,拼接后得到全图打分结果,记为类别得分矩阵V(i,k),其中(i,k)为偏置起点的像素位置。对偏置起点为(0,0)的情况,得到类别得分矩阵V(0,0)。

其中v(a,b)为像素x(a,b)的各类别得分值所组成的一维向量组,即v(a,b)=[v1(a,b),...,vc(a,b),...,vn(a,b)],vc(a,b)代表像素x(a,b)预测分类c的类别得分值,c=1,2,..,n,n为语义分割的分类数量。

当偏置起点为(i,k)时,输入影像的前i行和前k列像素不参与瓦片生成和后续的CNN-ISS核心模型数据处理,因此无法得到其所对应的类别得分,则为其进行非数填充处理,在下边的矩阵表达中用NaN表示,得到偏置起点为(i,k)的类别得分矩阵V(i,k)

假定第s次偏置中,像素的c类别打分值记为为了消除基于瓦片数据处理而产生的瓦片边缘效应,本研究进行多次、不同的偏置处理,并对多次偏置生成的多个类别得分矩阵进行合成。表示编号s的偏置方案中,像素x(a,b)对应类别c的类别得分值和概率值,(,)abcv和 (,)abcp则表示合成后的c类别得分值和概率值;c(a,b)表示像素x(a,b)的分类结果。其中,c∈[1,n],s∈[1,m]。具体的瓦片边缘效应消除方案处理逻辑如表2所示,其操作对象均为像素x(a,b),故将下标(a,b)进行省略。

表2 瓦片边缘效应消除方案 Table 2 Tile edge effect elimination solution

方案1:假设影像中某一点在第s次偏置时,到瓦片边缘的距离最大,则选取此次偏置中该点对应的打分值作为该点的最终打分值后经softmax函数处理得到整幅影像的类别概率值Pc,进而得到最终分类结果。

方案2:对每个类别c,在m次偏置中形成的m个像素类别打分值中选最大值,作为类别c的类别判断打分值vc,进而根据vc计算类别概率pc和分类。

方案3:对m次偏置中形成的m个像素类别打分值求平均值,作为类别c的类别判断打分值vc,通过softmax函数得到类别概率pc,然后选取pc对应的类别作为最终分类结果。

方案4:将m次移窗得到的m组打分值分别进行softmax处理,得到m组像素类别概率值选择其中最大的类别概率值作为类别c的类别判断概率值pc,并将pc对应的类别作为像素的最终类别。

需要指出的是,本研究通过消除瓦片边缘效应来提升语义分割精度,是对CNN-ISS瓦片化处理结果的一种后处理方案,可采用不同的核心模型,且可以直接继承所采用不同核心模型的预训练结果或迁移学习结果。

2.2.3 精度评价指标

本研究采用总精度(Pixel Accuracy,PA)[29]、Kappa系数[30]、交并比(Intersection over Union,IoU)[31]、均交并比(Mean Intersection over Union,mIoU)[32]作为精度评价指标。PA、Kappa系数、IoU和mIoU的数值越大,说明CNN-ISS模型分类精度越高。

瓦片边缘效应具体体现为距离瓦片边缘愈近的区域,其错分像素占比愈高。本研究通过构建瓦片边缘距离误判率ERD(Error Rate with a Distance to tile edges,ERD)和整体误判率ERW(Error Rate of the Whole image,ERW)2个指标,来对CNN-ISS遥感影像分类解译的瓦片边缘效应进行定量分析,其计算式如下

式中d记为到瓦片边缘的像素距离,单位为像素,N为栅格总数,Nd瓦片边缘距离为d的栅格总数,表示到瓦片边缘距离为d的错分栅格总数,NF表示错分栅格总数。

3 结果与分析

3.1 DeepLab V3分类结果分析

本研究以DeepLab V3作为CNN-ISS核心模型。偏置起点设为(0,0),在不进行多次偏置前提下,得到的影像分类结果等同于将DeepLab V3原始模型分类瓦片直接拼接形成的分类图。本研究基于此结果对DeepLab V3分类精度进行评估,同时将其作为边缘效应消除方案的对照数据。由于各瓦片边缘效应消除方案均设置有多个瓦片切割起点偏置,因此有效预测范围与对照组不同,以下所有分析均选取公共有效区域进行。

本试验操作系统为Windows10,编程语言为Python 3.5,使用开源深度学习框架TensorFlow 1.9.0,计算机CPU为i7-7700HQ,配16 GB RAM和一块GTX 1070(8 GB)。DeepLab V3模型训练参数batch_size为4,初始学习率为0.0001,每8000次迭代学习率递减50%,L2正则化系数为0.0001。

在最终的分类模型中,训练集loss值为0.0698,验证集loss值为0.0011,在预测区总分类精度为94.99%,Kappa系数为0.8688,mIoU值为76.24%,各覆盖类型IoU值见表3中的对照组数据。与相关研究结果对比[13],本研究的PA、Kappa系数和mIoU值均达到较高数值,说明本研究的CNN-ISS模型具有较高分类精度,但由于训练数据及数据量较小,且道路和沟渠占比较少,导致其IoU相对较低。

表3 对照组精度汇总表 Table 3 Accuracy summary table of control group

CNN-ISS分类精度与标签精度及训练样本数据量有关,相关研究已经验证了DeepLab V3模型在遥感影像分类中的性能[2,33-36],而本研究重点在于瓦片边缘效应分析及其消除方案,因此不再对DeepLab V3在本试验中各地类精度进行更详细分析。

3.2 瓦片边缘效应分析

当遥感影像中的地物位于输入模型瓦片的边缘处时,会产生地物碎片或不完整地物,从而丢失部分识别信息,影响到分类精度。

本研究CNN-ISS影像瓦片大小为512×512像素,预测区总面积为14 km2。将每个瓦片按照3×3平均划分为9个区域,并将外围的8个子区作为边缘区域,中央子区作为中央区域,分别以边缘区域、中央区域和整个瓦片区域作为统计范围。14 km2预测区内对照组所有瓦片边缘处与中心处的精度评估结果如表4所示,整个瓦片区域的精度评价结果如表3所示。

表4 对照组瓦片边缘与中心处精度对比 Table 4 Accuracy comparison between tip edge and center of control group

PA、Kappa和mIoU评估结果整体表现为中央区域>整个瓦片区域>边缘区域;根据各地类中央区域IoU与边缘IoU的差值从高到低排序依次为,坑塘(6.41个百分点)>农村居民点(1.42个百分点)>道路(0.68个百分点)>其他农用地(0.67个百分点)>河流沟渠(−3.77个百分点),其中坑塘、农村居民点中央区域IoU与边缘区域IoU相比均高出1%以上,说明这2个土地覆盖类型的边缘效应更加突出。对照遥感影像和预测区标签可以发现,坑塘和农村居民点均由多种颜色和纹理的小斑块组成,属于典型的“异构体”复杂对象,因此瓦片切割产生的碎片更易损失对象的整体特征信息,因而其瓦片边缘效应更加突出。当道路、河流沟渠等线状地物靠近瓦片边缘或以较小夹角通过瓦片边缘时,也较易产生琐碎或狭长碎片,从而也具有瓦片边缘效应。“其他农用地”是整个景观中“基质”成分,瓦片切割造成的独立和零散分布的碎片较少,瓦片边缘效应相对较弱,表3数据也表明其他农用地具有较弱的瓦片边缘效应。

道路和河流沟渠在训练区样本数量都比较低,包含道路和河流沟渠的瓦片数量少,包含道路和河流沟渠的瓦片中其像素占比也很小,造成道路和河流沟渠分类精度相对较低。在预测区也存在类似情况,使得道路和河流沟渠精度统计学意义降低。

3.3 瓦片边缘效应消除

为消除边缘效应,本研究设置的横、纵向移窗偏置步长均为1/3瓦片宽度(高度),共计9次偏置,即在本研究中,s=9,因此除整幅遥感影像边缘处外,可以确保任意像素一定处于某次偏置设置下生成的移窗瓦片的中央区域。

运用2.2.2中各方案对预测区影像进行重新分类,测试了不同瓦片边缘效应消除方案的效果。如图5所示,瓦片边框处的河流沟渠、农村居民点和坑塘,瓦片内地物碎片导致分类结果出现明显的局部错分或漏分。较对照组,本研究所提5种瓦片边缘消除方案对瓦片边缘处的地物分类效果均有不同程度提升。

各方案精度汇总如表5所示。由表5可知,相较于对照组,方案1~5的各项评价指标均有不同程度提升。不同方案的Kappa系数从高到低依次为:方案2(0.8810)>方案5(0.8789)>方案3(0.8788)>方案4(0.8777)>方案1(0.8759),均大于对照组(0.8688)。方案2的分类效果最好,因此本文将以方案2为例,分析不同土地覆被类别精度可知,相对于对照组,各类型IoU提升幅度次序从高到低为:道路(4.13个百分点)>坑塘(2.97个百分点)>河流沟渠(1.61个百分点)>农村居民点(0.65个百分点)>其他农用地(0.46个百分点),总体规律表现为线状地物和复杂异构体(坑塘、农村居民点)的提升幅度高于基底地类(其他农用地)。方案2的mIoU最高达到78.20%,较对照组的76.24%提升了1.97百分点。

表5 各方案精度汇总表 Table 5 Accuracy summary table of each solution

预测区内对照组和方案2的所有瓦片的瓦片边缘距离误判率ERD统计结果如图6所示。对照组瓦片边缘距离误判率ERD随着到瓦片边缘距离的增加呈现波动下降的趋势,在瓦片边缘处时,ERD最高,达到了6.93%,在到瓦片边缘距离为242像素时,RED最低,为3.52%,而整体误判率ERW则为5.01%。ERD与到瓦片边缘的距离负相关,具有瓦片边缘效应。对照组整体误判率ERW为5.01%,方案2ERW下降到4.61%。与对照组相比,方案2ERD在所有距离上均有所下降,其中瓦片边缘附近ERD值由对照组的6.93%下降至4.75%,下降幅度最大,说明像素到边缘的距离对方案2 ERD的影响降低,瓦片边缘效应得到有效改善。

4 讨论与结论

4.1 讨论

本研究中DeepLab V3模型对高分辨率下具有复杂遥感影像特征的异构体(坑塘、农村居民点)识别能力较好,而对于线状地物(道路、河流沟渠)分辨能力较弱,产生这种现象的一个重要原因是训练区中的道路和河流沟渠样本占总像素比例低,即使进行过采样预处理,模型对于这种小样本地物的影像特征获取依然不足,这个问题在遥感影像CNN-ISS分类中普遍存在。因此可从以下几个方面进行优化:一是在数据预处理阶段,除了一般的图像处理数据增强手段,以及人为增加包含像素占比较少的小样本地物(如道路、河流沟渠等)瓦片数量的过采样方式,亦可通过“小样本地物提取+背景转换”的高级数据扩展方法,从而尽可能增加小样本地物、及其在各种环境场景中的图像特征信息[37]。二是构造适用于小样本数据的损失函数,通过增大损失函数中小样本地物的权重值来解决由于不平衡样本导致的模型精度问题。三是针对不同地物分类效果的差异特性,构建一种混合分类模型。例如,线状地物的像素在整幅影像中占比少且纹理简单,传统遥感影像分类方法对于此种类型地物识别效果较好,而对于复杂异构体而言,CNN-ISS模型能够更为有效提取其深层次影像特征,在今后的研究中可考虑根据地物类型整合使用各自最优的分类模型。

本研究提出的通过多次移窗偏置消除瓦片边缘效应的技术方案,本质上是通过多视野的方法降低地物碎片对图像分类精度的影响,而多视野信息是否综合以及如何综合消除瓦片边缘效应的效果各方案也有所不同。本研究提出的方案1直接将分类置信度最高视野中的像素分类作为该像素最终的分类结果,并未进行多视野信息综合;方案2~5不但进行多视野判断,还同时对每个视野(移窗)获取的类别打分矩阵或类别概率矩阵进行了信息综合。方案2、3分别在类别打分层次对多视野打分结果取最大值和取平均值,然后再以类别打分为基础计算类别概率值,进而对像素类别进行判断。方案4、5则在类别判断概率层次对多视野信息进行综合,其中方案4对多视野形成的类别判断概率取最大值,方案5对多视野类别判断概率取平均值;然后再在类别判断概率的基础进行类别判断。研究结果表明,上述多视野信息综合方案中,方案2效果分类精度最高。本研究提出的方案1~5的分类精度差异是否在不同场景保持一致有待进一步验证和分析。

对于具有代表性的DeepLab模型,从DeepLab V3到DeepLab V3-JFT、DeepLab V3+ (Xception)、DeepLab V3+ (Xception-JFT)的迭代过程中,在PASCAL VOC 2012数据集的mIoU依次分别提升了1.2%、0.9%和1.2%[7]。Liu等构建了一种全卷积神经网络——SRI-Net模型,在WHU Aerial Building Dataset中得到的IoU值较DeepLab V3+在该数据集中得到的IoU提升了1.78%[38]。本研究提出的消除瓦片边缘效应的技术方案是对CNN-ISS(DeepLab V3)的后处理方案,以方案2为例,相较于对照组,其mIoU提升了1.97个百分点,特别是对于线状地物和异构体的提升效果更大,对道路和坑塘的IoU分别提升了4.13和2.97个百分点。因此研究者认为,本研究的提出的瓦片边缘效应消除方案,作为一种CNN-ISS模型的后处理方案,能够有效提升整幅遥感影像分类精度,尤其针对复杂异构体和线状地物精度提升幅度更大。但是上述结论还应该在更多应用场景中进一步验证。

本文所用到的高分二号影像,经过预处理后,其空间分辨率为1m,在这种空间分辨率影像中,城市高大建筑物的阴影和侧墙面均表现明显,且对分类有较大影响。目前有研究提出专门的模型用于消除高大建筑物阴影对建筑物识别的影响[39]。城市建筑物,特别是具有复杂平面结构的建筑物,在瓦片化过程中的瓦片化效应应该更加突出,在未来可单独针对此应用场景展开瓦片边缘效应的相关研究。

4.2 结 论

由瓦片边缘距离误判率的统计结果可知,CNN-ISS分类精度与像素位置到瓦片边缘的距离呈正相关关系,瓦片中央区域精度高于瓦片边缘区域;各类型地物瓦片中央与边缘处的精度差异表明,不同类型地物的瓦片边缘效应程度不同,由复杂颜色、纹理图像特征构成的复杂异构体(农村居民点、坑塘)和线状地物瓦片边缘效应较其他地物的瓦片边缘效应更加突出。本文设计的5个消除瓦片边缘效应的技术方案,均可从不同程度消除瓦片边缘效应,其中取多次偏置中各像素类别打分值最大值对应的类别作为其最终类别的方案对精度的提升最大;此外,瓦片边缘效应消除方案对不同类型地物的效果也有差异,瓦片边缘效应消除方案对复杂异构体(农村居民点,坑塘)和线状地物分类精度的提升更大。

猜你喜欢

瓦片类别像素
像素前线之“幻影”2000
论陶瓷刻划花艺术类别与特征
打水漂
一起去图书馆吧
“像素”仙人掌
乡村瓦语
惯性
高像素不是全部
选相纸 打照片
您的像素,饱和吗?[上]