联合显著性和多层卷积神经网络的高分影像场景分类

2016-11-07何小飞邹峥嵘张佳兴

测绘学报 2016年9期

关键词：类别卷积显著性

何小飞，邹峥嵘，陶　超，张佳兴

中南大学地球科学与信息物理学院，湖南长沙 410083

联合显著性和多层卷积神经网络的高分影像场景分类

何小飞，邹峥嵘，陶超，张佳兴

中南大学地球科学与信息物理学院，湖南长沙 410083

高分辨率遥感影像中的场景信息，对于影像解译和现实世界的理解具有重要意义。传统的场景分类方法多利用中、低层人工特征，但是高分辨率遥感影像的信息丰富，场景构成复杂，需要高层次的特征来表达。本文提出了一种联合显著性和多层卷积神经网络的方法，首先利用显著性采样获取包含影像主要信息的有意义的块，将这些块作为样本集输入卷积神经网络中进行训练，获得不同层次的特征表达，最后联合多层特征利用支持向量机进行分类。两组高分影像场景数据UC Merced 21类和Wuhan 7类试验表明，显著性采样能够有效地获取主要目标，减弱其他无关目标的影响，降低数据冗余；卷积神经网络能够自动学习高层次的特征，相比已有方法，本文方法能够有效提高分类精度。

卷积神经网络；显著性探测；高分辨率遥感影像；场景分类

随着科学技术的进步，遥感卫星获取影像的分辨率不断提升，目前已经出现的高分卫星IKONOS、QuickBird使得遥感影像的分辨率达到米级、甚至亚米级别，标志着遥感领域已经进入了高分辨率影像时代。高分辨率遥感影像不仅具有丰富的空间、纹理特征，而且包含了大量场景语义信息。然而，由于场景的构成复杂且地物覆盖类别众多，很难从海量的影像数据中，直接获取感兴趣的场景信息。如何有效地表达和识别高分影像中的场景成为极具挑战的课题，已引起了遥感学术界的广泛关注[1]。

为了理解和识别高分影像中的场景信息，学者们先后提出了很多场景分类方法, 大致可以分为两类: 基于低层次特征的方法和基于中层语义特征建模的方法[2]。基于低层次特征方法通常采用颜色、纹理等全局统计信息来表达场景。文献[3]利用贝叶斯网络集成颜色特征、小波纹理特征和先验语义特征对室内、外场景影像进行分类。文献[4]提出了基于全局低层次特征的Gist方法，该方法将整幅场景作为对象，无需对场景中的目标进行分割，计算简单、快速，但只能区分较少类别的场景且精度有限。基于中层语义建模的典型方法就是视觉词袋模型(BoVW)[5]，通过对图像低级特征进行量化统计，进而表示视觉单词分布，为图像分类提供基础数据，它建立了场景对象的低层次特征和高层次语义之间的联系，能够较好地表达场景信息，获得比较高的分类精度，但是需要大量的存储空间和计算量，场景对象的分割效果也直接影响分类结果。文献[6]提出了一种基于词袋模型的影像表达方法——空间金字塔匹配核(SPMK)，计算简单有效。文献[7]通过计算视觉字典的共现，再结合BoVW方法，提出了一种空间共现核方法(SPCK++)，相比传统方法BoVW和SPMK分类精度最高，但是以上两种核方法都采用了非线性莫西核，计算复杂度非常高。此外，应用较多的场景分类方法还有主题模型(LDA)[8-10]，它是一种层次概率模型，基于视觉词典的分布来无监督的学习主题分布。基于主题模型还有很多扩展方法，例如将其与支持向量机(SVM)结合的SVM-LDA[11]方法，以上特征建模方法都依赖于K均值聚类来产生视觉字典，因此特征表达对于分类有很大的局限性。

最近，还有学者将深度学习算法应用到影像分类中，例如，文献[12]提出一种无监督特征学习方法，利用稀疏自编码网络提取特征，分类结果较已有算法有所提高，但是稀疏自编码只是一个浅层的网络，提取特征有限。文献[13]利用卷积神经网络[14]对遥感影像进行分类，虽然分类精度很高，但是没有涉及场景。总体而言，当前卷积神经网络在图像方面的应用主要集中在人脸识别、字母识别(车牌号、手写体等)、车辆检测以及自然场景分类，对于高分辨率遥感影像场景分类的研究甚少。因此，本文提出一种联合显著性和多层卷积神经网络的高分影像场景分类方法。通过显著性算法，获取能够表达场景信息的显著目标区域，然后在这些显著区域进行采样，构建初始样本集；利用深度卷积神经网络从样本集中提取高层次特征，最后联合不同层次特征输入支持向量机中分类。

1　原理与方法

1.1场景分类存在的问题

影像场景可以看成多个独立目标的集合，例如商业区由道路、建筑物、停车场等组成，这些独立目标具有不同的结构和纹理信息，通过不同的组合以及空间排列方式，形成不同的场景类别。场景分类对于影像解译和理解具有重大的意义，同一场景类别具有语义一致性，但是由于影像自身的差异和变化(例如光照、物体的形状、大小、位置等)使得同一类别的对象不一致；此外，不同场景类别之间还具有视觉相似性，这就给场景分类带来了困难[15]。具体表现为：

(1) 相同类内差异性：属于同一类别的场景影像，具有不同的表现形式，如图1中的高尔夫球场，有树木围绕的球场，也有宽阔没有草的球场，还有茂盛草地的球场，这些不同形式的高尔夫球场，在纹理、色调等方面都存在差异。

图1　相同类内差异性(类别为高尔夫球场)Fig.1　Differences within the same class (category: golf course)

(2) 不同类间相似性：场景类别虽然多种多样，但是组成场景的基本目标却是少量的，因此在不同的场景影像中，依然能够发现相似之处。如图2的3类不同场景类别交叉路口、建筑物、居民区，都有房子、道路等目标存在，区别只在于哪种目标占据影像的比例大，因此在分类时，这些类别很容易互相混淆，影响最终的分类精度。

图2　不同类间相似性(类别依次为：交叉路口、建筑物、居民区)Fig.2　Similarity between different classes (categories: intersection、building、residential)

1.2显著性采样

由于类内差异性和类间相似性的存在，直接利用原始影像进行特征提取，类别之间会相互影响，导致分类效果差。通过采样获取有意义的影像块，来代替原始影像的方法能够有效地提高分类效率和结果。传统的方法是直接分块，即对影像进行规则格网划分，然后随机选取块，此方法的前提是假定影像的不同区域包含相同的信息，对于遥感影像不太适用。文献[16]中利用SIFT采样，首先提取影像的SIFT特征点，将影像划分成格网，随机选取位于格网内的SIFT特征点，再以这些特征点为中心，选取一个矩形块，最后将很多块连接起来构成一个新影像作为初始输入。SIFT采样相比直接分块，能够针对性地选取一些与场景有关联的块，但是SIFT主要是一些边缘和角点，并不能选取可以表达场景信息的区域。

因此，本文采用显著性探测算法[17]来指导采样。显著性探测，就是在大量信息中选择感兴趣区域的过程，这些感兴趣区域通常包含了影像中的绝大部分信息，因此能够很好地表达影像。本文选取一种新的显著性探测方法——PCA Saliency[18]。该方法通过计算图案差异性、颜色差异性以及影像结构的先验知识，得到最终的显著图。一般的显著性方法在定义差异性时，采用最邻近算法，未考虑影像块内部的统计规律，该方法引入了影像块内部统计分析，利用主成分分析(PCA)来表达影像块，进而定义差异性。

(3) 影像结构的先验信息。先验信息包括以下内容：显著像素通常集聚成类，在场景中对应一个实际目标；人眼定位目标通常趋向于影像中心。通过计算高斯权重图G(px)来表示先验知识。

(1)

(2)

(2) 颜色差异性。在CIE LAB色彩空间，通过计算某个区域与其他区域的L2范数距离之和，来表征颜色差异性

(3)

(1) 图案差异性。传统度量图案差异性是通过计算每个影像块与其他影像块之间的距离，忽略了像素之间的联系。这里基于两个准则来计算图案差异性：自然影像中的非显著区通常集中在高维空间，而显著区则更加发散[18]；计算到平均块距离时，应该考虑影像块的分布。通过计算主成分可以得到分布情况

煤厚基本在2.0m左右，最厚达3.6m。井田内构造简单，褶皱一般不发育。煤层沿走向虽有小的起伏，但大断层稀少，仅在井田中、深部发现落差在20-40m的正、逆断层五条，并伴有次一级宽缓向斜和背斜，井田内小断层较发育。

最终的显著图是上面三者的乘积S(px)=G(px)×P(px)×C(px)，结果归一化到[0,1]之间，为了获得更加准确的显著图，还采用多个尺度：100%、50%、25%来计算，具体细节可以参考文献[18]。用上述方法计算高分影像的显著图，如图3所示。

从图3的显著性探测结果来看，不同区域对应不同的值，在图像上显示为明暗的差异。对于飞机、港口、储罐，显著区域是较明亮的飞机、船艇和圆形罐体，其他区域接近黑色；农田由于纹理重复出现，都比较显著，所以整体较亮。以上大部分类别的显著区域都是比较亮的，但对于河流和交叉路口来说，显著区域正好相反，都比较暗。总体来说，显著区域与非显著区域的对比差异明显，合理定义阈值可以获取感兴趣的显著区域。从目视来看，显著区域包含的目标对于场景理解最具代表性(例如港口中的船)，识别出关键目标也就相应地识别出了场景。

显著区域得到以后，就可以采集样本块。假设有N幅影像，对于每幅影像都可以得到对应的显著图，由于不同类别影像差异，显著区域有可能在明或暗处，因此笔者定义两个阈值α、β来区分显著与非显著区域，在大于α或小于β的区域随机选择M个块，每块大小为m×m，波段数为3(RGB)。因此，每幅影像构建样本集的大小为：m×m×3×M。

图3　6类高分场景影像以及显著性探测结果Fig.3　Six categories of high resolution scene image and corresponding saliency detection results

除了以上基本的网络层，为了更好地训练卷积网络，通常会加入一些技巧或策略，例如局部反差调整(local response normalization)和Dropout策略，局部反差调整通过将神经元激活值规范化，可以防止梯度弥散；Dropout能够有效避免过拟合，提高网络的泛化能力，合理地利用这些策略会加快网络的训练过程。

影像分类的关键在于特征提取，选取特征的好坏决定了最终的分类结果。人工设计的低层次特征，比如Gabor、LBP、SIFT等，在特定的分类和识别任务中取得了非常大的成功。然而，对于新的数据和任务，人工设计有效的特征需要大量新的先验知识，这无疑是困难的[19]。近年来，深度学习引起了广泛的关注，其通过建立类似于人脑的分层模型结构，对输入数据逐级提取从底层到高层的特征，从而能很好地建立从底层信号到高层语义的映射关系[20]。在图像处理方面，应用比较成功的深度学习模型就是卷积神经网络(CNNs)，它的起源可以追溯到1980年的神经认知机，它也是第一个真正成功训练多层网络结构的学习算法，该方法将局部感受野、权值共享、空间亚采样3种思想结合起来获得某种程度的位移、尺度、形变不变性，具有结构简单、训练参数少和适应性强等特点。一个基本的卷积神经网络结构可以分为3层：特征提取层(过滤器层)、特征映射层(非线性映射层)以及特征池化层(亚采样层)，通过堆积多个基本网络结构可以形成一个深度卷积神经网络。

在位于昆明市金鼎山的空气自动监测站，24小时不间断地对周围25平方公里以内的空气质量进行监测和评价。省生态环境厅环境监测处处长邓加忠介绍，从2017年起，全省投入近两亿元，在16个州市推广环境空气自动监测站的建设。全省129个县（市、区）已建成154个站点。正式投入运行后，全省环境空气质量监测不仅能实现“县县能监测”，随着环境空气质量预警预报工作的完善，还可实现“县县能预报”。

yi=bi+∑ikij*xi

(4)

式中，*表示卷积运算；xi表示卷积层的输入；kij是卷积核参数；bi是偏差值；s为步长，每个滤波器对应一种特定的特征。

(2) 特征映射层：为保证特征有效性，利用一个非线性函数对过滤器层的结果进行映射，得到特征图F

2.涉及油田的行政事业性收费被取消。2011年12月财政部、发改委发布《关于公布取消253项涉及企业行政事业性收费的通知》（财综〔2011〕127号）。其中，如山东省财政厅、物价局转发了该文件，取消了19项涉企行政事业性收费，其中取消了涉及胜利油田的落地原油管理费、工农工作协调费、水工程占用补偿费、石油勘探开发排污费等有12项费用，进一步缓解了油田生产经营压力。

fs=σ(bi+∑ikij×xi)

(5)

式中，σ是激活函数，常用的激活函数有tanh、sigmoid和softplus。tanh函数是sigmoid函数的一种变体，它的取值范围是[-1,1]，而sigmoid取值范围是[0,1]。线性修正单元ReLU[21]与生物神经元受刺激后的激活模型最为接近，而且具有一定的稀疏性，计算简单，有助于提升效果，也逐渐被用来作为神经网络的激活函数。

南朝时期，高昌籍僧人道普泛海求法未获成功。高昌籍另一位僧人智林，跟随其师道亮法师，终于来到了岭南，在广州弘法整整6载。《高僧传》载：

B企业的创始团队多为重点大学毕业的硕士研究生，在大疆、迈瑞、联想等知名企业工作多年，有无人机、机器人、智能家电设备等领域的研发经验，拥有十余项专利技术，并将其成功应用到新产品的研发中。可以说，产品上市前，企业主要是拼凑手头的研发经验和技术资源，属于手段导向型拼凑模式（11＞2）。产品上市后被评为粤港澳大湾区的明星产品，受到消费者的好评，获得了政府创业补贴和天使投资，与国内外数十家供应商、渠道商建立了合作关系，以拼凑外部优势资源。据表6编码显示，产品上市后，社会网络型条目数远远超过手段导向型条目数（12＞4），可将其判定为社会网络型拼凑模式。

1.3卷积神经网络

为了验证本文方法的有效性，根据采样策略的不同(有、无显著性)以及分类策略的不同(利用单层特征、利用多层特征)进行了交叉试验。无显著性采样的方法，直接从原始影像中随机选取相同数目的影像块进行分类；多层特征是指将两个全连接层(fc6和fc7)和第5个卷积层(C5)的特征联合起来，而单层特征只用最后的全连接层特征(fc7)。试验参数设置及结果如下所述。

图4　本文试验构建的卷积神经网络结构参数图Fig.4　A convolutional neural network structure parameter map constructed in this paper

2　高分影像场景分类试验

本文方法的整体流程如图5所示，首先利用显著性探测算法，获取影像的显著区域，在对应的原始影像上采集样本块(包含3个波段)；然后将采集的样本块划分为训练集和测试集，将训练集输入卷积神经网络中训练，提取层次特征并结合样本标签训练SVM分类器；测试阶段，利用分类器对样本块进行分类，获取样本块标签，由于每个场景影像由很多块组成，所以对样本块标签进行直方图统计，将最大频数所对应的标签作为最终场景影像的类别。

（2）健全独立董事的选举方式。独董是由股东大会根据参选名单，采取简单多数的投票制选举产生的，这样固然可以提高股东大会参与选举的热情和参与感，但是最终结果仍旧是由董事会决定的。因此，应尽可能削弱大股东在选举中产生的作用，将参选名单的确认由董事会提出改为由中小股东联名提出并选举。

2.1试验数据集

本文所用的两类高分辨率遥感影像分别是：①UCMerced21类场景影像，该数据选自美国USGS国家城市地图图像中的不同地区的航空遥感影像，分辨率为0.3m左右，每类有100幅，大小为256×256，影像类别具有高度的重复性，例如密集住宅区、中等住宅区和稀疏住宅区；②Wuhan7类场景影像，该数据集是将武汉地区的QuickBird影像融合后，人工选取了7个场景类别，分辨率为0.6m左右，每类有200幅，尺寸为256×256，影像示例如图6所示。

2.2试验结果与分析

两组患者耐受性均较好，不良反应主要为膀胱局部不良反应。观察组患者用药后发生3例尿痛、3例尿急、1例尿频、2例尿道灼烧感，不良反应发生率为23.08%(9/39)；对照组患者用药后发生3例尿急、2例尿频、3例尿道灼烧感，不良反应发生率为20.51%(8/39)，两组间比较无明显差异(P>0.05)，不具备统计学意义(表1)。两组患者用药后并未发生尿道狭窄以及白细胞减少或严重的肝肾功能损害。

选择 [Spatial Analyst 工具]→ [地图代数]→[栅格计算器]，在对话框中输入公式：＂backl2＂* ＂dem _ buildings＂，计算建筑物背光面轮廓高度，如图7所示。同理，获得在时刻13∶00和14∶00的建筑物背光面轮廓及轮廓高度数据 dem _13 和 dem_14。

卷积神经网络是一种监督学习模型，需要一定的标记样本来训练，训练过程与传统的BP算法相似，所有权重在训练之前随机初始化，然后进行前向传播并输出结果，计算输出结果与实际样本标签的差，按极小化误差的方法反向传播调整权矩阵。假设有输入样本(X,Yp)，前向传播后得到输出Op=Fn(…(F2(F1(XpW(1))W(2)…)W(n))，计算代价函数cost=Op-Yp，然后利用随机梯度下降法或L-BFGS[22]优化算法求解。本文试验构建了一个13层的卷积神经网络，包括输入层、5个卷积层、两个池化层，两个局部反差调整层、两个全连接层和一个输出层，网络参数和结构如图4所示，利用ReLU作为激活函数，采用最大池化，最后联合多层特征一起分类。利用显著性采样后，每幅影像由很多块代替，最后计算分类结果时，需要统计这些块的分类情况，将个数最多的类别作为该影像的最终分类结果。

(1)UCMerced：定义交叉路口、立交桥和河流的显著区域阈值β=0.3，其余类别的显著阈值α=0.8，每幅影像随机选取100块，每块大小为64×64×3，与文献[23]一样，每类影像随机选取80%作为训练样本，其余作为测试样本，卷积神经网络各层参数设置如图4所示。几种交叉试验的分类结果见表1。

图5　方法总体流程Fig.5　Overall architecture of the proposed method

图6　武汉7类场景影像库Fig.6　Wuhan 7 scene datasets

从表1的结果来看，利用显著性采样比直接采样的分类结果都高，说明显著性采样结果更具代

表性，选取的样本都是与场景信息强相关的；通常利用卷积神经网络提取特征进行分类，都只用单层特征(输出层特征)。表1结果说明结合不同层次特征进行分类相比单层特征分类精度有所提高，不同层次的特征增加了目标的可区分性。从图7的分类混淆矩阵可以看出，飞机、海滩、丛林、港口、停车场、河流等大多数类别分类精度较高，甚至达到100%，由于这些场景内的目标复杂程度不高，且不同类别目标的差异性大，用显著性可以准确地提取出关键目标，识别出关键目标也就相应的识别出场景；而分类精度较低的类别主要是建筑物、密集住宅区、中等住宅区、稀疏住宅区，这些类别场景相似性高，区别仅在于密集程度不同，而利用显著性提取的都是建筑物，容易混淆，导致分类结果差。此外，针对图1的类内差异性问题，从高尔夫球场的分类精度(90%)来看，有差异的影像都能正确地分为一类，说明本文方法能有效地解决这个问题；UCMerced21类中比较相似的类别有高速公路、交叉路口、立交桥、跑道，这些可以看作道路类；建筑物、密集住宅区、中等住宅区、稀疏住宅区、活动住房这些可以看作建筑类。对于图2的类间相似性问题，可以从这两个大类的分类结果来分析：表2分别为道路类和建筑类的分类精度，从表中可以看出每个子类的精度至少在80%以上，平均分类精度也达到88%以上，说明对于相似性的类别，本文方法也能够有效的区分。表3为已有分类方法的比较，本文方法总体分类精度达到92.86%，相比传统的词袋模型和主题模型方法，分类精度有了一定的提高。

水利部于2013年11月27日在京组织召开了试点工作座谈会，胡四一副部长参加会议并作重要讲话，各试点地区水行政主管部门分管领导和代表参加会议。座谈会总结交流了试点工作阶段性经验与成效，查找解决了试点实施中的有关问题，研究部署了下一阶段试点工作。

表1UC Merced 21类数据不同策略总体分类精度比较

Tab.1Overall classification accuracy on UC Merced 21 data set for different strategies (%)

特征无显著性有显著性单层特征多层特征单层特征多层特征精度87.6289.7692.1492.86

表2　道路类和建筑类的分类精度

表3　UC Merced 21类数据已有分类精度比较

图7　UC Merced 21类卫星场景影像分类混淆矩阵(显著性+多层特征)Fig.7　Confusion matrix showing the classification performance with the UC Merced 21 dataset(with saliency and multi-layer features)

(2) Wuhan：该数据集是从大影像上人工选取的，影像类别数较少，采样块大小仍为64×64×3，每幅图选取100块，显著区域阈值α=0.8，选取80%影像作为训练，其余作为测试；卷积神经网络的参数与UC Merced基本相同(只是最后输出层参数不一样)，也针对不同策略进行了交叉试验。表4为不同策略交叉试验的分类结果。

表4Wuhan 7类数据不同策略总体分类精度比较

Tab.4Overall classification accuracy on Wuhan 7 data set for different strategies (%)

特征无显著性有显著性BOVW[23]单层特征多层特征单层特征多层特征精度91.3694.8695.7198.2198.93

由于Wuhan数据集是从实际的大影像选取的，类别数没有那么多，所以分类精度很高，从表4可以看出词袋模型的分类精度也有91.36%，而利用卷积神经网络的精度达到98.93%，说明卷积特征对于目标具有很好的识别能力。此外，可以得出与UCM数据相同的结论，即利用显著性采样和联合多层特征，对于分类精度具有一定的提升。

三是缺乏对主题的深化与挖掘。教师让学生们课前准备名人的故事，并在课堂上与其他同学分享，但故事讲完，教学就戛然而止了。对孩子们来说，这节课只是听了一个又一个的故事，不断强化和重复“失败是成功之母”的道理，缺乏对主题的深化与挖掘，难以拨动学生的心弦。

3　结　论

本文针对高分辨率遥感影像多利用中、低层次特征，难以有效表达场景语义信息的问题，提出了一种联合显著性和多层卷积神经网络的分类算法。通过显著性采样，可以获取能够表达影像信息的有意义的关键目标，减弱了其他无关或次要目标的影响，降低了数据冗余；卷积神经网络具有权值共享，结构简单、训练参数少及适应性强等特点，能够逐层学习，获取高层次的特征，更好地表达场景信息。两类高分影像的结果表明，该方法能够有效提高分类精度，但是本文方法依然存在不足，例如，卷积神经网络的层次结构和参数设置是否最优依然是值得研究的问题；此外，对于只有细微差异的类别来说，像不同密度的住宅区，显著性算法也较难区分它们。以后的工作可以借鉴已有的网络模型结构进一步研究，以期得到更高的分类精度。

[1]CHERIYADAT A M. Unsupervised Feature Learning for Aerial Scene Classification[J]. IEEE Transactions on Geoscience and Remote Sensing, 2014, 52(1): 439-451.

[2]VAILAYA A, FIGUEIREDO M A T, JAIN A K, et al. Image Classification for Content-based Indexing[J]. IEEE Transactions on Image Processing, 2001, 10(1): 117-130.

[3]SERRANO N, SAVAKIS A E, LUO Jiebo. Improved Scene Classification Using Efficient Low-level Features and Semantic Cues[J]. Pattern Recognition, 2004, 37(9): 1773-1784.

[4]OLIVA A, TORRALBA A. Modeling the Shape of the Scene: A Holistic Representation of the Spatial Envelope[J]. International Journal of Computer Vision, 2001, 42(3): 145-175.

[5]SIVIC J, ZISSERMAN A. Video Google: A Text Retrieval Approach to Object Matching in Videos[C]∥Proceedings of the Ninth IEEE International Conference on Computer Vision. Nice, France: IEEE, 2003, 2: 1470-1477.

[6]LAZEBNIK S, SCHMID C, PONCE J. Beyond Bags of Features: Spatial Pyramid Matching for Recognizing Natural Scene Categories[C]∥Proceedings of IEEE Computer Society Conference on Computer Vision and Pattern Recognition. New York, NY: IEEE, 2006: 2169-2178.

[7]YANG Yi, NEWSAM S. Spatial Pyramid Co-occurrence for Image Classification[C]∥Proceedings of IEEE International Conference on Computer Vision. Barcelona: IEEE, 2011: 1465-1472.

[8]BLEI D M, NG A Y, JORDAN M I. Latent Dirichlet Allocation[J]. The Journal of Machine Learning Research, 2003, 3: 993-1022.

[9]LIENOU M, MAITRE H, DATCU M. Semantic Annotation of Satellite Images Using Latent Dirichlet Allocation[J]. IEEE Geoscience and Remote Sensing Letters, 2010, 7(1): 28-32.

[11]BOSCH A, ZISSERMAN A, MUOZ X. Scene Classification Using a Hybrid Generative/Discriminative Approach[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2008, 30(4): 712-727.

[12]ZHANG Fan, DU Bo, ZHANG Lianpei. Saliency-guided Unsupervised Feature Learning for Scene Classification[J]. IEEE Transactions on Geoscience and Remote Sensing, 2015, 53(4): 2175-2184.

[13]赵爽. 基于卷积神经网络的遥感图像分类方法研究[D]. 北京: 中国地质大学(北京), 2015.

ZHAO Shuang. Remote Sensing Image Classification Method Based on Convolutional Neural Networks[D]. Beijing: China University of Geosciences (Beijing), 2015.

[14]LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient-based Learning Applied to Document Recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324.

[15]解文杰. 基于中层语义表示的图像场景分类研究[D]. 北京: 北京交通大学, 2011.

XIE Wenjie. Research on Middle Semantic Representation Based Image Scene Classification[D]. Beijing: Beijing Jiaotong University, 2011.

[16]CHENG Dongyang, SUN Tanfeng, JIANG Xinghao, et al. Unsupervised Feature Learning Using Markov Deep Belief Network[C]∥Proceedings of the 2013 20th IEEE International Conference on Image Processing. Melbourne, VIC: IEEE, 2013: 260-264.

[17]温奇, 李苓苓, 刘庆杰, 等. 基于视觉显著性和图分割的高分辨率遥感影像中人工目标区域提取[J]. 测绘学报, 2013, 42(6): 831-837.

WEN Qi, LI Lingling, LIU Qingjie, et al. A Man-made Object Area Extraction Method Based on Visual Saliency Detection and Graph-cut Segmentation for High Resolution Remote Sensing Imagery[J]. Acta Geodaetica et Cartographica Sinica, 2013, 42(6): 831-837.

[18]MARGOLIN R, TAL A, ZELNIK-MANOR L. What Makesa Patch Distinct?[C]∥Proceedings of 2013 IEEE Conference on Computer Vision and Pattern Recognition. Portland, OR: IEEE, 2013: 1139-1146.

[19]BENGIO Y, COURVILLE A, VINCENT P. Representation Learning: A Review and New Perspectives[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(8): 1798-1828.

[20]余凯, 贾磊, 陈雨强, 等. 深度学习的昨天、今天和明天[J]. 计算机研究与发展, 2013, 50(9): 1799-1804.

YU Kai, JIA Lei, CHEN Yuqiang, et al. Deep Learning: Yesterday, Today, and Tomorrow[J]. Journal of Computer Research and Development, 2013, 50(9): 1799-1804.

[21]MAAS A L, HANNUN A Y, NG A Y. Rectifier Nonlinearities Improve Neural Network Acoustic Models[C]∥Proceedings of ICML Workshop on Deep Learning for Audio, Speech, and Language. [S.l.]: ICML, 2013: 1.

[22]SCHMIDT M, VAN DEN BERG E, FRIEDLANDER M, et al. Optimizing Costly Functions with Simple Constraints: A Limited-memory Projected Quasi-Newton Algorithm[C]∥Proceedings of the 12th International Conference on Artificial Intelligence and Statistics. Florida: ACM, 2009: 456-463.

[23]YANG Y, NEWSAM S. Bag-of-visual-words and Spatial Extensions for Land-use Classification[C]∥Proceedings of the 18th SIGSPATIAL International Conference on Advances in Geographic Information Systems. San Jose: ACM, 2010: 270-279.

(责任编辑：陈品馨)

Combined Saliency with Multi-Convolutional Neural Network for High Resolution Remote Sensing Scene Classification

HE Xiaofei,ZOU Zhengrong,TAO Chao,ZHANG Jiaxing

School of Geosciences and Info-Physics, Central South University, Changsha 410083, China

The scene information existing in high resolution remote sensing images is important for image interpretation and understanding of the real world. Traditional scene classification methods often use middle and low-level artificial features, but high resolution images have rich information and complex scene configuration, which need high-level feature to express. A joint saliency and multi-convolutional neural network method is proposed in this paper. Firstly, we obtain meaningful patches that include dominant image information by saliency sampling. Secondly, these patches will be set as a sample input to the convolutional neural network for training, obtain feature expression on different levels. Finally, we embed the multi-layer features into the support vector machine (SVM) for image classification. Experiments using two high resolution image scene data show that saliency sampling can effectively get the main target, weaken the impact of other unrelated targets, and reduce data redundancy; convolutional neural network can automatically learn the high-level feature, compared to existing methods, the proposed method can effectively improve the classification accuracy.

convolutional neural network; saliency detection; high resolution remote sensing image; scene classification

The National Natural Science Foundation of China (Nos.41301453；51479215); The National Basic Research Program of China (973 Program) (No.2012CB719903); Research Fund for the Doctoral Program of Higher Education (No. 20130162120027)

HE Xiaofei(1991—), male, master, majors in high resolution remote sensing image classification.

TAO Chao

何小飞，邹峥嵘，陶超，等.联合显著性和多层卷积神经网络的高分影像场景分类[J].测绘学报，2016,45(9)：1073-1080.

10.11947/j.AGCS.2016.20150612.

HE Xiaofei, ZOU Zhengrong, TAO Chao,et al.Combined Saliency with Multi-Convolutional Neural Network for High Resolution Remote Sensing Scene Classification[J]. Acta Geodaetica et Cartographica Sinica,2016,45(9):1073-1080. DOI:10.11947/j.AGCS.2016.20150612.

由表1，表2和图2可知，随着翁结水库坝下南碧河干流沿程工农业及生活供水量的不断增加，相应的退水污染物入河量不断增加，南碧河干流水质从上游至下游是逐渐变差的过程，污染物浓度增值在逐渐扩大，至灌区末梢小黑江汇口前断面，水质最差，相比工程建成前的COD、NH3-N浓度的增幅也最大。但工程建成后，南碧河干流水质总体均能满足水环境功能区划要求的地表水Ⅳ类目标，说明翁结水库下泄的水量过程能够满足下游河道水环境目标的要求。

P237

1001-1595(2016)09-1073-08

国家自然科学基金(41301453；51479215)；国家973计划(2012CB719903)；教育部博士点基金(20130162120027)

2015-12-04

何小飞(1991—)，男，硕士，研究方向为高分遥感影像分类。

E-mail： hxf0321@qq.com

陶超

E-mail： kingtaochao@126.com

修回日期： 2016-07-01