APP下载

基于面向对象与深度学习的典型地物提取

2018-03-06金永涛杨秀峰郭会敏刘世盟

自然资源遥感 2018年1期
关键词:面向对象尺度卷积

金永涛,杨秀峰,高 涛,郭会敏,刘世盟

(1.北华航天工业学院,廊坊 065000; 2.航天恒星科技有限公司,北京 100086;3.河北省航天遥感信息处理与应用协同创新中心,廊坊 065000)

0 引言

遥感图像解译有两大难点,即不同地物难以分割且地物类型难以精准识别。目前,遥感影像的分类方法按其分类基本单元的不同可分为基于像元的分类方法和面向对象的分类方法2大类[1]。基于像元的分类方法以影像单一像元为基本单元,主要利用影像的光谱特征进行分类[2],分类结果容易出现椒盐现象,而且由于影像存在“同物异谱”或“异物同谱”现象,易造成地物类别的错分和漏分,导致分类结果精度较低。面向对象的分类方法是利用“同质均一”的多个像元为基础分类对象,利用影像的光谱和空间纹理特征,突破了基于像元分类方法的限制[3],很大程度上解决了农作物、林地、水体、道路及建筑物等典型地物区分不开的问题。

深度学习是计算机科学机器学习领域中一个新的研究方向。其概念源于人工神经网络的研究,含多隐层的多层感知器就是一种深度学习结构[4-7]。Lecun 等在 1998 年提出的卷积神经网络是第一个真正的多层结构学习算法,它利用空间相对关系减少参数数目以提高样本训练性能[8-9]。深度学习可通过学习一种深层非线性网络结构,实现复杂函数的逼近,展现了强大的从少数样本集中学习数据集本质特征的能力[10-13]。

本文结合面向对象与深度学习的技术特点提出了一种新的典型地物信息提取方法。首先,采用面向对象方法提取典型地物对象特征; 然后,选用卷积神经网络Caffe框架对分割后的不同尺度对象进行深度学习,获取不同对象的形状和纹理特征,用以指导对象分类; 最后,有效解决典型地物信息提取分不准的问题。

1 研究区概况及数据源

本研究选择廊坊市永清县龙虎庄乡为试验区。该区位于E116°22′~116°36′,N39°11′~39°23′之间,主要土地利用类型为农作物、林地、水体、道路和建筑物等。选取了2016年8月27日2景国产高分二号(GF-2)卫星晴空影像数据,首先,对数据进行了几何精校正处理,将各波段数据进行影像的自动配准和镶嵌; 然后,对全色影像和多光谱(红、绿、蓝波段)影像采用ENVI Gram-Schmiddt Spectral Sharpening 方法进行了融合,使多光谱影像具备了丰富的纹理特征,最后通过矢量裁剪出试验区域,结果如图1所示。

图1选取的实验样本区域GF-2影像

Fig.1GF-2imageoftheselectedsamplearea

2 研究方法

2.1 技术流程

传统的面向对象方法根据不同类对象在特征上表现出来的差异建立模糊规则。对象特征包括颜色、光谱特征(如亮度值、归一化水体指数(normalized difference water index,NDWI)和归一化植被指数(normalized difference vegetation index,NDVI))、形状纹理(如边界指数、紧致度、长宽比)等,但对于特征描述得不够全面、准确。深度学习方法可以通过样本训练,掌握不同地物的形状、纹理、背景等特性,但也需要大量的标签,人工标识工作量大。表1对2种方法的优缺点进行了对比分析。典型地物目标识别技术流程见图2。

表1 面向对象与深度学习方法优缺点对比分析Tab.1 Advantages and disadvantages of object-oriented and in-depth learning methods

图2 典型地物目标识别技术流程图Fig.2 The flow chart of typical objects recognition technology

在表1基础上,对GF-2影像全色波段和多光谱波段进行融合处理后,首先采用多尺度分割算法对试验区影像进行图像分割; 然后在面向对象分割结果的基础上,构建耕地、林地、水体、道路、建筑物等典型地物对象特征规则集,对分割对象进行分类提取,得到训练样本,形成典型地物学习样本库; 之后根据训练样本进行深度学习,得到训练结果,并进一步对训练样本进行分类; 最后对提取的典型地物目标结果进行精度评价与分析。典型地物目标识别技术流程图如图2所示。

2.2 多尺度面向对象分割算法

多尺度面向对象分割算法将图像看作是一个由区域和区域之间的拓扑关系组成的一张区域邻接图[14],根据指定尺度进行分割,采用从单像元大小的区域开始,相邻影像区域两两合并增长的方法,设定阈值控制合并区域,保证生成高度同质性(或异质性最小)的影像分割区域(影像对象)[15],从而适于最佳分离和表示地物目标。

算法的基本思想是: 从单一像元开始,与邻近像元分别进行差异性度量计算,降低异质性,完成一轮合并后,以上一轮生成的对象为基本单元,继续与相邻对象分别进行计算,直到在规定的尺度上已经不能再进行任何对象的合并为止。这种异质性是由对象之间的光谱和几何形状差异决定的。初始时, 每个像素作为一个区域,差异性度量准则(f)的计算公式为

f=w1x+(1-w1)y,

(1)

式中:w1为权值,0≤w1≤1;x为光谱异质性;y为形状异质性;x与y的计算采用

(2)

y=w2u+(1-w2)v,

(3)

式中:pi为第i影像层的权值;σi为第i影像层光谱值的标准差;u为影像区域整体紧密度;v为影像区域边界平滑度;w2为权值,0≤w2≤1。u,v的计算式为

(4)

v=E/L,

(5)

式中:E为影像区域实际的边界长度;N为影像区域的像元总数;L为包含影像区域范围的矩形边界总长度。

在影像区域的合并过程中, 从区域邻接图中的每个区域入手, 寻找满足局部最优合并条件的区域对, 将这2个区域合并, 并更新与原来2个区域相连的所有区域的特征值及其与新区域的合并代价。当合并相邻的2个区域时,合并新生成的更大影像区域对象的异质性f′的计算式为

f′=w1x′+(1-w1)y′,

(6)

式中:x′,y′分别为合并新生成的更大影像区域的光谱异质性和形状异质性,即

(7)

y′=w2u′+(1-w2)v′,

(8)

(9)

(10)

式中:E′和L′分别为合并新生成的更大影像区域的实际边界长度和包含该新生成影像区域范围的矩形边界总长度;E1和L1分别为合并前的相邻影像区域1的实际边界长度和包含该影像区域范围的矩形边界总长度;E2和L2分别为合并前的相邻影像区域2的实际边界长度和包含该影像区域范围的矩形边界总长度。不同尺度的地类分割的结果如图3所示。

(a) 实验区真彩色原始影像 (b) 分割尺度45、颜色0.7、平滑度0.5 (c) 分割尺度65、颜色0.7、平滑度0.5 (d) 分割尺度100、颜色0.7、平滑度0.5

图3多尺度分割结果示意图

Fig.3Schematicdiagramofmultiscalesegmentation

2.3 基于多尺度规则集的样本库构建

结合试验区地表下垫面类型,通过对象的特征信息与地物之间的对应关系,建立样本分类选取的层次结构,即利用多尺度的分层分割,不同的地物采取不同的尺度进行分割; 然后,根据对象的光谱特征、几何纹理特征以及拓扑结构特征设置分类规则。建筑物、道路、水体和植被(包括农作物、林地)大类在大尺度分割层(分割尺度100、颜色0.7、平滑度0.5)中,分别利用亮度值、NDWI和NDVI作为判断依据进行初步提取; 再在植被大类的影像对象上选取适合其子类的分割尺度(分割尺度65、颜色0.7、平滑度0.5)来进行分割,考虑耕地的形状比林地规则,综合两者对象的边界指数、紧致度、长宽比等形状指数进行区分,具体的对象规则集如表2所示。

表2 对象规则集Tab.2 The rule set of objects

①式中B2,B3,B4分别为2,3,4波段亮度值。

基于对象判定规则,通过程序自动追踪各个类别下的样本边界,建立了包括耕地、林地、水体、道路及建筑物等主要典型地物信息遥感影像特征集,获取训练样本集。如表3所示。

表3 典型地类训练样本Tab.3 The training sample of typical objects

2.4 基于深度学习的典型地物自动识别

利用实验区各个类别的样本图片作为训练数据,将深度学习与面向对象的方法相结合,选用卷积神经网络模型,对训练样本数据进行深度学习,自动获取样本特征,利用面向对象分割结果实现典型地物的自动识别分类。其中,卷积神经网络的结构设计是问题关键,本文的深度学习框架采用Caffe框架,用到的卷积神经网络结构如图4所示。

2.4.1 卷积神经层

卷积神经层是对图像的每个像素点进行卷积运算,卷积核作为训练参数,经过几次处理之后,能够提取出图像的“特征值”。卷积神经层中,卷积核越大,对图像“抽象”的效果越好,但需要训练的参数就越多; 卷积核越小,越能够精细地处理图像,但要达到同样的“抽象”效果,需要更多的层数[16]。图像卷积过程如图5所示。在经典的神经网络结构中,采用11×11的卷积核。为达到预期结果,需引入大量参数,在不考虑偏置的情况下,11×11的卷积核参数是3×3卷积核的(11×11+1)/(3×3+1)=12.2倍,且每个输出点对应11×11次乘法和11×11次加法,计算量大,从而导致算法性能的降低,因此,本文采用3×3 和5×5 较小的卷积核。

图5 图像卷积过程示意图Fig.5 Imagine convolution process diagram

2.4.2 ReLU层

深度卷积网络一般都需要大量的数据进行训练,如果使用传统的激活函数(如sigmoid 函数和 tanh函数),数据计算量大,几乎不能够配合卷积神经层完成训练,因此,本文采用了线性激活函数(Rectified Linear Units,ReLU),不仅减少了训练时间,而且提高了算法性能。在ReLU中,对于给定的一个输入值x,如果x> 0,ReLU层的输出为x; 如果x< 0,ReLU层的输出为0。sigmoid 函数、 tanh函数、ReLU函数公式分别为:

sigmoid 函数:f(x) = 1 /[1+exp(-1)]g′(x) =[1-g(x)]g(x)。

(11)

tanh函数 :f(x) = sinh(x)/cosh(x)=[exp(x)- exp(-x)]/[exp(x) + exp(-x)] 。

(12)

Rectified 函数:f(x)=max(0,x)。

(13)

2.4.3 池化层

输入图像经过卷积神经层和ReLU 处理之后,图像中的每个像素点都包含了相邻区域的信息,造成了信息冗余,继续计算不仅会降低算法性能,还会破坏算法的平移不变性。为了提升算法的性能和鲁棒性,需要对图像进行二次采样[17],在深度卷积网络中,这种操作称为池化(pooling),即将图像分成一小块一小块的区域,对每个区域计算出一个值,然后将计算出的值依次排列,输出为新的图像。如果划分的区域之间互不重叠,其算法称为非重叠型池化,否则称为重叠性池化。对每个区域计算输出的方法也分为2种: 求平均值(mean pooling)或者取最大值(max pooling)。本文采用可重叠的、取最大值的池化运算,可以在一定程度上降低过度拟合。池化计算过程如图6所示。

2.4.4 规范化神经层

为了让图像更加具有对比性,需要设计规范化神经层。规范化神经层的作用类似于对图像进行“增加对比度”的操作。本文选用局部响应归一化(local response normalization,LRN)算法,选择通道内空间区域归一化,局部区域在空间上扩展,将每个输入值都除以

(14)

式中,α为缩放因子,默认值为1; β为指数项,默认值为5;n为局部尺寸大小,默认值为5。如此完成“临近抑制”操作后,可有效提高主体部分与其他部分的区分度。

图6 池化运算Fig.6 Pooling operation

3 结果与分析

根据龙虎庄乡试验区下垫面类型特征,将影像分类为建筑物、道路、水体、林地、农作物及其他6种类别。基于面向对象和结合深度学习模型的面向对象分类方法的典型地区提取结果如图7和8所示。

图7 基于面向对象分类方法的典型龙虎庄乡地物提取结果图Fig.7 Typical class selection result of Longhuzhuang township by Object-Oriented method

图8 结合深度学习模型的龙虎庄乡典型地物提取结果图Fig.8 Typical class selection result of Longhuzhuang township by deep learning method

本文采用随机抽样方法进行精度评价[18],在龙虎庄乡试验区GF-2卫星融合影像中随机选择了300个样本点像元,以目视解译结果为标准进行评价。随机点分布效果如图9所示。然后,通过混淆矩阵计算出用户精度、制图精度、错分误差、漏分误差、总体精度、Kappa系数等精度指标,对分类结果进行精度评价,计算结果如表4—表7所示。

图9 龙虎庄乡试验区随机点分布图Fig.9 Random point distribution of Longhuzhuang township

表4 基于面向对象分类方法的典型地物分类混淆矩阵Tab.4 Confusion matrix of typical classification by object-oriented method (个)

表5 基于面向对象分类方法的地物分类错分误分、漏分误分、制图精度与用户精度Tab.5 Commission and omission error,production and user precision by object-oriented method (%)

表6 结合深度学习模型分类方法的典型地物分类混淆矩阵Tab.6 Confusion matrix of typical classification by deep learning method (个)

表7 结合深度学习模型分类方法的地物分类错分误分、漏分误分、制图精度与用户精度Tab.7 Commission and omission error,production and user precision by deep learning method (%)

根据2种分类结果的混淆矩阵计算得到,基于面向对象分类方法的分类总精度为75.33%,Kappa系数为0.96; 结合深度学习模型面向对象分类方法的分类总精度为84.40%,Kappa系数为0.97,分类结果优于前者,主要是新提出的分类方法考虑利用了对象之间的相邻关系模型,可以很好地切割地物边界线,较好地划分了农作物和林地,建筑物和道路等易混淆地区,优于基于单一对象特征的分类方法。

4 结论

针对农作物、林地、水体、道路、建筑物等典型地物信息提取,提出了一种将面向对象与深度学习相结合的新方法。新方法将图像多尺度分割基础上构建通用规则集获取的典型地物样本特征为输入,然后通过深度学习方法进一步进行样本训练和特征提取,最后再将学习后的样本特征运用于分割结果完成遥感影像的信息提取。选取廊坊市永清县龙虎庄乡为试验区进行实验和精度验证,精度为84.40%。实验结果表明,新方法将面向对象与深度学习进行了合理、高效的结合,有效解决了典型地物分不准的问题,分类精度高于面向对象分类方法。但是新方法在通用规则集构建和深度学习结构设计方面尚不完善,有待进一步改进。

[1] 郑 毅,武法东,刘艳芳.一种面向对象分类的特征分析方法[J].地理与地理信息科学,2010,26(2):19-22.

Zheng Y,Wu F D,Liu Y F.A feature analysis approach for object-oriented classification[J].Geography and Geo-Information Science,2010,26(2):19-22.

[2] 赵英时.遥感应用分析原理与方法[M].北京:科学出版社,2003.

Zhao Y S.Theory and Methods of Remote Sensing Application Analysis[M].Beijing:Science Press,2003.

[3] 黄慧萍.面向对象影像分析中的尺度问题研究[D].北京:中国科学院研究生院遥感应用研究所,2003.

Huang H P.Scale Issues in Object-oriented Image Analysis[D].Beijing:Institute of Remote Sensing Applications Chinese Academy of Sciences,2003.

[5] Deng L.An overview of deep-structured learning for information processing[C]//Proceedings of Asian-Pacific Signal & Information Processing Annual Summit & Conference (APSIPA-ASC).Xi’an:Chinese Information Processing Society of China,2011:301-313.

[6] Arel I,Rose D C,Karnowski T P.Deep machine learning-a new frontier in artificial intelligence research[research frontier][J].IEEE Computational Intelligence Magazine,2010,5(4):13-18.

[7] Do V H,Xiao X,Chng E S.Comparison and combination of multilayer perceptrons and deep belief networks in hybrid automatic speech recognition systems[C]//Proceedings of Asian-Pacific Signal & Information Processing Annual Summit & Conference(APSIPA-ASC).Xi’an:Chinese Information Processing Society of China,2011.

[8] Farabet C,Couprie C,Najman L,et al.Learning hierarchical features for scene labeling[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,35(8):1915-1929.

[9] Kavukcuoglu K,Sermanet P,Boureau Y L,et al.Learning convolutional feature hierarchies for visual recognition[C]//Proceedings of the 23rd International Conference on Neural Information Processing Systems.Vancouver,British Columbia,Canada:ACM,2010:1090-1098.

[10] Charalampous K,Kostavelis I,Amanatiadis A,et al.Sparse deep-learning algorithm for recognition and categorisation[J].Electronics Letters,2012,48(20):1265-1266.

[11] Olshausen B A,Field D J.Emergence of simple-cell receptive field properties by learning a sparse code for natural images[J].Nature,1996,381(6583):607-609.

[12] Olshausen B A,Field D J.Sparse coding with an overcomplete basis set:A strategy employed by V1?[J].Vision Research,1997,37(23):3311-3325.

[13] Goodfellow I,Courville A,Bengio Y.Large-scale feature learning with spike-and-slab sparse coding[J].arXiv preprint arXiv:1206.6407,2012.

[14] 王卫红,何 敏.面向对象土地利用信息提取的多尺度分割[J].测绘科学,2011,36(4):160-161.

Wang W H,He M.Multi-scale segmentation in land-use information extraction based on object-oriented method[J].Science of Surveying and Mapping,2011,36(4):160-161.

[15] Woodcock C E,Strahler A H.The factor of scale in remote sensing[J].Remote Sensing of Environment,1987,21(3):311-332.

[16] Alain G,Bengio Y,Rifai S.Regularized auto-encoders estimate local statistics[J].arXiv:1211.4246,2012:1-17.

[17] Rifai S,Bengio Y,Dauphin Y,et al.A generative process for sampling contractive auto-encoders[J]. arXiv:1206.6434,2012:2.

[18] Zhan Q M,Molenaar M,Tempfli K,et al.Quality assessment for geo-spatial objects derived from remotely sensed data[J].International Journal of Remote Sensing,2005,26(14):2953-2974.

[19] 宫 鹏,黎 夏,徐 冰.高分辨率影像解译理论与应用方法中的一些研究问题[J].遥感学报,2006,10(1):1-5.

Gong P,Li X,Xu B.Interpretation theory and application method development for information extraction from high resolution remotely sensed data[J].Journal of Remote Sensing,2006,10(1):1-5.

[20] 曹 雪,柯长青.基于对象级的高分辨率遥感影像分类研究[J].遥感信息,2006(5):27-30,51.

Cao X,Ke C Q.Classification of high-resolution remote sensing images using object-oriented method[J].Remote Sensing Information,2006(5):27-30,51.

猜你喜欢

面向对象尺度卷积
基于3D-Winograd的快速卷积算法设计及FPGA实现
财产的五大尺度和五重应对
从滤波器理解卷积
面向对象的计算机网络设计软件系统的开发
基于傅里叶域卷积表示的目标跟踪算法
面向对象的数据交换协议研究与应用
宇宙的尺度
面向对象Web开发编程语言的的评估方法
9
一种基于卷积神经网络的性别识别方法