APP下载

基于分布式计算的BP遥感影像水体识别

2015-12-20田生伟丁建丽王知音

计算机工程与设计 2015年8期
关键词:训练样本水体阈值

杨 柳,田生伟+,禹 龙,丁建丽,王知音

(1.新疆大学 软件学院,新疆 乌鲁木齐830008;2.新疆大学 网络中心,新疆 乌鲁木齐830046;3.新疆大学 资源与环境科学学院,新疆 乌鲁木齐830046)

0 引 言

利用卫星遥感图像进行水体信息提取的关键在于设定合适的阈值,阈值过低会误提其它地物信息,阈值过高会漏提部分细小的水体[1]。阈值的选取具有一定的主观性和经验性,通常需要反复实验,使水体提取难以完全自动化。人工神经网络 (artificial neural network,ANN)是一种可以模拟大脑神经突触联接的结构和功能的具有自学习、自组织、自适应能力的信息处理模型。BP (back propagation)神经网络是一种按误差逆传播算法训练的多层前馈网络,具有很强的学习能力,是处理非线性数据的有力工具。

1 相关研究

近年来,BP神经网络在遥感信息提取领域得到了广泛的应用。钱育蓉等选取荒漠植被的典型光谱特征 (红边、绿峰、红谷等)作为输入参数,构建基于BP网络的植被分类模型,实现对荒漠植被的智能化分类[2];杨文亮等选取水体样本光谱信息、谱间关系等4个特征,利用BP神经网络进行水体提取,取得了较好的提取效果,但是需要时间花费较长[3];林娜等提取了高光谱影像的核最小噪声分离变换(kernel minimum noise fraction,KMNF)特征,使用BP神经网络对高光谱遥感影像进行分类,分类总体精度和时间性能得到提高[4];肖锦成等使用ETM+遥感数据,构建了基于BP网络的湿地覆被分类模型,并验证了模型的有效性[5]。

本文在分析提取水体光谱特征的基础上,提出了基于BP神经网络的自动化水体识别方法。将遥感图像中水体的典型特征作为输入元,并提出基于GNDWI和谱间关系的样本选择算法进行样本选择。对BP神经网络进行训练,在不设定阈值的情况下,获得了良好的识别效果。然而,BP神经网络算法的收敛速度慢且占用较大内存,在对海量遥感影像进行数据提取时出现耗时过长,甚至内存不足无法训练的情况[6,7]。为了解决这一问题,本文将并行计算的思想应用于遥感图像的水体信息提取中,构建基于MapReduce的BP神经网络水体识别模型,并设计实验验证模型的有效性。

2 ETM+遥感影像特征提取

2.1 研究区及数据源

艾比湖 (44°43′N~45°12′N,82°35′E~83°11′E)是准噶尔盆地最大的湖泊,也是新疆维吾尔自治区第一大盐水胡。它位于精河县境内,是博尔塔拉河、精河、奎屯河等多条内流河的汇聚中心。近年来,艾比湖干缩导致地下水位下降,使流域周边地区荒漠化大大加快,艾比湖生态恶化成为新疆第二大生态问题。

本文选取艾比湖2013年6月的Landsat ETM+影像为数据源,使用ENVI软件对影像进行几何校正、辐射校正,并对影像进行降噪和增色处理。

2.2 特征提取

水体对太阳光具有强吸收性,在大部分遥感传感器的波长范围内,总体上呈现较弱的反射率。随着波长的增加,水体的反射率不断减弱,在近红外和中红外波长范围内反射率几乎为零[8]。本文在对水体光谱特征进行分析整理后,选择以下特征来提取水体:

(1)ETM+5 波段亮度值 (BV)。ETM+5 为短波红外波段,位于两个水体吸收带之间,对土壤水分含量敏感,可以区分水体与其它地物。

(2)NDVI(归一化差异植被指数)。NDVI指数可以增强水陆特性,有助于区分植被、水体和土壤。其公式为

(3)谱间关系 (relations between spectrums): (ETM+2+ETM+3)- (ETM+4+ETM+5)。通过这4个波段的有效组合,增大了水体和阴影的差异,将两者很好的区分开来。

(4)MNDWI (改 进 的 归 一 化 差 异 水 体 指 数)[9]。MNDWI指数增强了水体与建筑物的反差,降低了混淆,提高水体的识别精度。其公式为

(5)NDBI(归一化建筑指数)。NDBI指数利用建筑物的灰度值在ETM+4、ETM+5波段明显高于其它地物这一特性,将建筑物与其它地物区分开来。本文使用NDBI指数来消除提取水体时误提建筑物信息的问题,其公式为

其中,NIR 为近红外波段,即ETM+第4波段;Red为红光波段,即ETM+第3波段;Green为绿光波段,即ETM+第2波段;MIR 为短波红外波段,即ETM+第5 或7波段。

3 基于BP网络的水体识别模型的设计

3.1 BP神经网络基本原理

BP人工神经网络是基于误差反向传播算法的多层前向神经网络,它具有很强的自学习和自适应能力。图1为常用的3层BP 神经网络结构,包含输入层、隐藏层和输出层。其中,X1…Xn为神经网络的输入,Y1…Yn为神经网络的输出。

图1 3层BP神经网络拓扑结构

BP神经网络通过信息的正向传播,输出层得到信息处理结果。当实际输出与期望输出不一致时,进入误差的反向传播阶段。BP神经网络根据输出层的误差估计输出层的直接前导层的误差,向隐层、输入层逐层反传,按误差梯度下降法不断调整各层权值,直至网络输出的误差达到预先设定的期望值。

3.2 训练样本的选择

训练样本的质量决定着整个识别模型的性能,为了保证选取的样本的准确性、代表性和统计性,通常需要人工干预选择样本,使水体识别模型难以完全自动化。因此,本文使用以下两种方式进行训练样本的自动选择 (设训练样本数为S):

(1)“棋盘式”样本选择

将研究区域看成是一个m*n的 “棋盘”,即整个区域被划分成m*n 个部分。在每个部分随机选取 [S/ (m*n)]个样本,构成覆盖大部分研究领域的训练样本。

(2)基于GNDWI和谱间关系的样本选择

朱长明等使用NDWI指数进行阈值分割,通过NDWI值实现初始样本的自动选择,但是该方法只用到了水体的单一特征,精度没有得到保证[10]。因此,本文使用GNDWI指数[11]结合波谱间关系对原始数据进行阈值分割,完成样本的自动选择。具体算法如下:

步骤1 计算原始图像的GNDWI值 (见式 (4)),选取合适的阈值,对水体图像进行初始分割

步骤2 对上一步的分类结果进行波谱间关系((ETM+2+ETM+3)- (ETM+4+ETM+5))计算,设定合适的阈值,对水体进行二次提取,得到更高精度的水体分类结果。

步骤3 对分类结果进行样本选取

其中,wi与wj分别表示水体和非水体样本在整个训练样本中所占的比例。在实验中,通过一定的试验来确定最优的样本选取比例。

3.3 BP网络的构建

实验选用标准的3层BP网络,即输入层、隐藏层和输出层。首先,对训练样本进行归一化处理,将提取到的水体特征:ETM+5波段亮度值、NDVI指数、谱间关系值、MNDWI指数、NDBI指数作为BP 神经网络的输入,则输入层节点数为5。令Y1= [1,0]T且Y2= [0,1]T构造输出参数矩阵,输出层节点数为2,Y1代表水体,Y2代表非水体。根据常用的经验公式确定隐藏层的节点数

其中,l为隐藏层节点数,m 为输入层节点数,n为输出层节点数,α为1~10之间的常数。通过一定的经验和数次的实验,最终确定α为8,则得到隐藏层节点为10。BP网络的其它参数设置见表1。

表1 BP网络训练参数

综上所述,本文采用3层5-10-2型BP神经网络对水体信息进行提取。首先,对预处理后的多光谱图像进行特征提取。然后,使用3.3节提到的方法进行样本的自动选择,得到训练样本和测试样本。使用训练样本对BP网络进行训练,为了避免结果的偶然性和随机性,采用3倍交叉法进行实验。为了加快BP 网络的收敛速度,利用Levenberg-Marquardt算法对整个网络进行优化。总体流程如图2所示。

图2 基于BP-ANN 的水体自动识别总体流程

4 基于分布式计算的BP-ANN水体识别模型

4.1 MapReduce编程模型

MapReduce采用“分而治之”的思想,把整个任务拆分成多个子任务,并将这些任务分发给一个主节点 (Name-Node)管理下的各个从节点 (DataNode)共同完成。然后,通过整合各个节点的中间结果而得到最终结果。

在分布式计算中,MapReduce框架负责处理并行编程中分布式存储、工作调度以及网络通信等复杂问题,把处理过程高度抽象为两个函数:Map和Reduce,Map负责把任务分解成多个任务,Reduce负责把分解后多任务处理的结果汇总起来。

4.2 数据划分及组织形式

数据块的划分方式和数据分块的大小直接影响着并行计算的效率。本文采用矩形块方式切分每幅影像,以默认数据分块大小 (64 M)为单位,对研究区影像进行切分。

选取开源的Hadoop为实验平台,基于HDFS(Hadoop distributed file system,HDFS)和HBase(Hadoop database,HBase)的特点,将遥感影像文件存放到HDFS中,其它元数据信息 (见表2)存入HBase中,并为同一数据块建立多个副本以提高数据块的可靠性与可用性 (图3为B0、B1等数据块存储在HDFS中的示例)。

表2 数据块元数据信息

图3 HDFS下遥感数据块读取流程

4.3 MapReduce水体识别模型的构建

将研究区遥感影像按4.2节中介绍的方式进行切分和存储。在Map任务中集成基于BP-ANN 的水体识别模型,提取每个影像块中的水体信息。Map函数以<key,value>键值对形式输出水体提取后的影像块。其中,key为 “影像名称”,value为影像块的存储地址。中间结果根据key值进行排序,将key值相同的影像块组成影像块序列作为Reduce任务的输入。在Reduce任务中,根据集合序列中每个数据块标识,将影像名相同的影像块合并然后进行输出。

4.4 实验环境的搭建

实验使用4台普通pc机,其中1台作为主节点 (Name-Node),其余3台作为数据节点 (DataNode)。在每台主机上安装Linux Ubuntu 12.04、Java环境、JDK 1.6 和Hadoop 0.20,搭建Hadoop集群系统。计算机的硬件配置详细信息见表3。

表3 计算节点配置信息

5 实验与分析

使用 “棋盘式”选点法和基于GNDWI和谱间关系的样本选择法进行样本的智能化选择,得到样本集Sqi和Sg(其中,令wi=2,wj=1)。

实验1:样本选择对识别结果的影响

训练样本的质量直接影响整个BP网络的识别效率,选择合适且具有代表性的训练样本是构建BP 网络的关键步骤。因此,本文将提取到的水体特征分别作为BP网络的输入,利用样本Sqi和Sg进行水体提取实验,实验结果如图4所示。

图4 样本选择对识别结果的影响

从图4中,我们发现基于样本Sg的水体识别正确率比样本Sqi平均提高了9.38%。这是因为 “棋盘式”样本选择法选出的样本虽然覆盖了大部分研究区域,但无法保证样本中的水体和非水体数量,使神经网络无法充分学习到水体和非水体的特性,因此获得较低的识别结果。通过对比两种样本选择算法的识别结果,证明了本文提出的基于GNDWI和谱间关系的样本选择算法的有效性。

实验2:特征组合对识别结果的影响

特征之间的组合对机器学习的结果有很大的影响,我们对比单个、多个不同特征间的组合对识别结果的影响,实验使用Sg作为训练样本,部分实验结果见表4。

从表4中,我们得出以下结论:①在单特征水体识别方面,利用NDVI指数的识别率最低,而MNDWI指数最高。在使用NDVI指数提取水体信息时,由于建筑物在红色波段和近红外波段的波谱特征极为相似,导致建筑物被误提为水体,影响了水体识别的正确率。因此,在特征组合时决定去除NDVI指数特征。②使用组合特征对水体信息进行提取,识别正确率均为90%以上,高于单特征的水体识别。其中,使用MNDWI指数、NDBI指数和波谱间关系的识别率最高。MNDWI指数增大了水体和建筑物的反差,降低了混淆。将MNDWI指数、谱间关系法相结合,去除了绝大部分建筑物和阴影。同时,一些细小的河流也被准确的提取出来。

表4 特征组合对识别结果的影响

实验3:基于BP-ANN 的分布式水体识别

为了验证模型的可扩展性,通过控制计算节点个数进行实验。为了更好的评价实验结果,引入加速比作为评价指标。将MNDWI指数、NDBI指数及波谱间关系作为BP网络的输入进行水体识别。实验结果如图5所示。

图5 BP算法训练耗时及加速比

由图5可知,随着节点的不断增加,BP网络的训练速度不断提高。当节点数为2时,水体识别的时间相对于单机缩短了17.07%;当节点数为4时,水体识别的时间缩短了56.09%。同时,如折线图所示,BP 算法的加速比随着节点数的增加而不断升高。当节点数为4时,并行加速比达2.28。由此,验证了基于分布式计算的BP-ANN 水体识别模型具有稳定的可扩展性。

6 结束语

阈值的选取是水体识别的关键步骤,选择的阈值是否合适决定着水体的识别精度。因此,本文提出了一种基于BP-ANN 的水体识别方法。通过提取水体多光谱遥感影像的若干特征作为神经网络的输入,探讨特征组合对水体识别结果的影响。考虑到训练样本对BP网络性能的影响,提出了一种基于GNDWI和谱间关系的样本自动提取方法,实现了训练样本的智能化提取。针对BP网络收敛速度慢、占用内存过大等问题,将并行计算的思想引入水体信息提取中,构建基于分布式计算的BP神经网络水体识别模型,缩短了训练BP网络花费的时间,提高了水体识别速率,得到了良好的识别结果。

[1]JIAN Xing,CHEN Hong,XING Zhongya,et al.Influence of waterbody types on threshold of waterbody area extration using remote sensing technology [J].Science Technology and Engineering,2014,14 (18):267-270 (in Chinese). [简兴,陈鸿,邢忠亚,等.利用遥感技术提取水体面积时水体类型对阈值的影响 [J].科学技术与工程,2014,14 (18):267-270.]

[2]QIAN Yurong,JIA Zhenhong,YU Jiong,et a1.Application of BP-ANN to classification of hyperspectral grassland in desert[J].Computer Engineering and Applications,2011,47 (12):225-228 (in Chinese). [钱育蓉,贾振红,于炯,等.BPANN 在荒漠草地高光谱分类研究中的应用 [J].计算机工程与应用,2011,47 (12):225-228.]

[3]YANG Wenliang,YANG Minhua,QI Hongxia.Water body extracting from TM image based on BPNN [J].Science of Surveying and Mapping,2012,37 (1):148-150 (in Chinese).[杨文亮,杨敏华,祁洪霞.利用BP 神经网络提取TM 影像水体 [J].测绘科学,2012,37 (1):148-150.]

[4]LIN Na,YANG Wnnian,WANG Bin.Hyperspectral image classification on KMNF and BP neural network [J].Computer Engineering and Design,2013,34 (8):2774-2782 (in Chinese).[林娜,杨武年,王斌.基于KMNF和BP神经网络的高光谱遥感影像分类 [J].计算机工程与设计,2013,34(8):2774-2782.]

[5]XIAO Jincheng,OU Weixin,FU Haiyue.Land cover classification of yancheng coastal natural wetlands based on BP neural network and ETM+remote sensing data [J].Acta Ecologica Sinica,2013,33 (23):7496-7504 (in Chinese). [肖锦成,欧维新,符海月.基于BP神经网络与ETM+遥感数据的盐城滨海自然湿地覆被分类 [J].生态学报,2013,33 (23):7496-7504.]

[6]CHENG Tao,LIU Ruomei,ZHOU Xu.Water information extraction method in geographic national conditions investigation based on high resolution remote sensing images[J].Bulletin of Surveying and Mapping,2014 (4):86-89 (in Chinese). [程滔,刘若梅,周旭.基于高分辨率遥感影像的地理国情普查水体信息提取方法 [J].测绘通报,2014 (4):86-89.]

[7]CHEN Chunpin,ZHA Yaxing,QIAN Ping,et al.MapReduce-based BP neural network genetic algorithm to study nonlinear system identification [C]//Virtual Operation and Cloud Computing,2013:249-255 (in Chinese).[陈春萍,查雅行,钱平,等.基于MapReduce的BP神经网络遗传算法在非线性系统 辨 识 中 的 研 究 [C]//虚 拟 运 营 与 云 计 算,2013:249-255.]

[8]ZHU Chenjie,YANG Yongli.Research of MapReduce based on BP neural network algorithm [J].Microcomputer Applications,2012,28 (10):9-19 (in Chinese). [朱晨杰,杨永丽.基于MapReduce的BP神经网络算法研究 [J].微型电脑应用,2012,28 (10):9-19.]

[9]XU Hanqiu.A study on information extraction of water body with the modified normalized difference water index (MNDWI)[J].Journal of Remote Sensing,2005,9 (5):589-595 (in Chinese).[徐涵秋.利用改进的归一化差异水体指数 (MND-WI)提取水体信息的研究 [J].遥感学报,2005,9 (5):589-595.]

[10]ZHU Changming,ZHANG Xin,LUO Jiancheng,et al.Automatic extraction of coastline by remote sensing technology based on SVM and auto-selection of training samples[J].Remote Sensing for Land and Resources,2013,25 (2):69-74(in Chinese).[朱长明,张新,骆剑承,等.基于样本自动选择与SVM 结合的海岸线遥感自动提取 [J].国土资源遥感,2013,25 (2):69-74.]

[11]SHEN Zhanfeng,XIA Liegang,LI Junli,et al.Automatic and high-precision extration of rivers from remotely sensed images with Gaussian normalized water index [J].Journal of Image and Graphics,2013,18 (4):421-428 (in Chinese).[沈占峰,夏列钢,李均力,等.采用高斯归一化水体指数实现遥感影像河流的精确提取 [J].中国图象图形学报,2013,18 (4):421-428.]

猜你喜欢

训练样本水体阈值
农村黑臭水体治理和污水处理浅探
生态修复理念在河道水体治理中的应用
人工智能
小波阈值去噪在深小孔钻削声发射信号处理中的应用
基于自适应阈值和连通域的隧道裂缝提取
比值遥感蚀变信息提取及阈值确定(插图)
广元:治理黑臭水体 再还水清岸美
宽带光谱成像系统最优训练样本选择方法研究
融合原始样本和虚拟样本的人脸识别算法
基于稀疏重构的机载雷达训练样本挑选方法