APP下载

基于特征选择的遥感影像分类研究

2020-01-08李佳城

现代信息科技 2020年15期
关键词:特征选择遥感影像分类器

摘  要:遥感图像分类的准确性很大程度取决于特征选择。为了解决遥感图像数据量大而导致的分类识别处理时间长,对系统资源要求高的问题,文章提出了使用属性子集评估器和最佳优先向前搜索方法,并结合无监督过滤器剔除掉冗余和不相关特征,最后使用J48算法构建遥感影像分类器模型。通过实验对比证明,选择对于建立分类器贡献率高的特征不仅可以降低分类的建模时间,而且节省系统处理数据的资源,对于实时性要求高的遥感图像应用尤为重要。

关键词:遥感影像;特征选择;分类器;数据挖掘

中图分类号:TP751;P237.4      文献标识码:A 文章编号:2096-4706(2020)15-0061-03

Abstract:The accuracy of remote sensing image classification depends largely on feature selection. In order to solve the problem of long processing time and high requirements for system resources caused by the large amount of remote sensing image data,this paper proposes the use of attribute subset evaluator and the best priority forward search method,combined with unsupervised filter to eliminate redundant and irrelevant features,and finally uses J48 algorithm to build remote sensing image classifier model. The experimental results show that the selection of features with high contribution rate can not only reduce the modeling time of classification,but also save the system data processing resources,which is particularly important for remote sensing image applications with high real-time requirements.

Keywords:sensing image;feature selection;classifier;data mining

0  引  言

遥感探测获取的重要遥感信息是遥感影像,对遥感影像的判读和各种目标地物的分类与识别在城市规划、土地利用及环境监测等国民经济建设领域有着广泛的应用[1],为此人们不断利用先进技术对其进行分类和识别的研究[2-5]。其中遥感图像的特征选择是遥感影像分类的重要环节,特征选择的有效性对于提高分类器处理数据的速率和减少系统资源的消耗至关重要。目前越来越多的数据挖掘和机器学习算法应用在遥感领域中,且使得对遥感影像的分类和识别更加快速和智能化。在上述背景下,本文基于辽宁工程技术大学“大学生创新创业训练计划项目”,重点研究特征选择对于各种目标地物的分类建模时间和分类准确性的影响,该研究成果可以应用于土地利用分类,选题具有理论意义和应用价值。

1  特征选择

数据预处理是使用数据挖掘和机器学习建立分类器的重要步骤,而特征选择又是其中较为重要的一步。特征选择是从给定的一组特征集中选择一组能为分类起良好作用的特征子集,同时特征选择也可以有效地减少特征空间的维度。特征选择属于机器学习的算法预处理步骤,优秀的特征集可以提高机器学习的准确性并且缩短分类器建模的时间。相反,有些算法如果使用不相关的、冗余的特征属性会使得学习结果大打折扣。

给定一个特征子集F={f1,f2,…,fn},n是特征集的大小。特征选择用二进制向量表示:D={D1,D2,…,Dn},Dt={0,1}(t=1,2,…,n),D中的每一位1和0分别表示F中相应位置的特征被选中与否,即Dt=1表示第t个特征ft被选中。反之Dt=0,表示第t个特征ft不被选择。特征选择优化目标函数值问题可描述为 。

特征选择是组合优化和搜索过程,是遥感影像进行前期数据预处理的关键技术之一,它在执行过程中包含两个最重要的阶段,即搜索策略和评价函数。

1.1  搜索策略

由于搜索空间大小不同,可以使用不同搜索策略,包括启发式搜索、穷举搜索、不确定搜索。

启发式搜索是根据某种特征选择方向找到近似最优解的特征子集。通常它只是对搜索空间局部进行的搜索,一般是在空集和全集之间的一条路径。因为它能够快速地搜索到一个可行解,因此可以解决大规模搜索问题,但它搜索的解不能够保证为最优解。在特征选择研究领域启发式搜索广泛采用的算法可以归纳为两大类,即最佳优先搜索(Best-first Search)和集束搜索(Beam Search)。Jain等人提出正向搜索和反向搜索及雙向搜索[6]。为了克服局部极小,出现了随机性地对属性增加和删除的随机搜索。

穷举搜索目的是找到符合选择判据的最优特征子集,不丢失最优解。常用穷举搜索的算法有分支界限法、Focus算法和ABB算法。这种搜索方法当特征数目多时,必将导致搜索空间过大,算法运行时间增加,因此穷举搜索会变得困难。

不确定性搜索是被评估的子集随机生成,而不是顺序生成。只要新产生的子集在维度、准确性等方面比当前最佳子集更好,就会被记录下来。不确定搜索方法适用于大规模数据集的特征选择。一般情况下,这种搜索需要的计算资源较多,收敛速度较慢,并且在很多情况下得到的是局部最优解。典型的不确定搜索算法是Kudo等人提出的遗传算法[7]。

1.2  评价函数

对于一个新的特征子集,需要根据一定的条件对其进行评估,评估值决定下一个搜索方向或者停止搜索。特征选择的评价函数用来帮助选择对于分类器模型建立有用的特征,在评估特征时需要使用数学上的度量标准来确定,即适应度函数。根据评估函数与分类器的关系,特征选择方法分成过滤器模式和封装器模式。其中过滤器模式的评价函数与分类器无关,特征选择度量上主要采用距离度量、信息度量(如信息增益和信息增益率)、相关性度量和一致性度量。封装器模式的评价函数与分类器相关,采用分类正确率作为评价函数。其思想是通过不断增加或减少属性集合,观察分类预测准确性的变化,最终选择维数最小且分类准确性最高的属性集合。为了综合过滤器和封装器两种模式的算法各自的优点,也出现了混合型算法。过滤器模式的特征选择在算法上保留度量简单,计算代价小和效率高的优点,不依赖机器学习算法,但是其降维效果一般。封装器模式的特征选择在算法上封装了学习算法,使用某一归纳算法结合重复统计抽样技术来评价特征的准确性,所以其计算复杂度非常大,但是降维效果非常好。

2  遥感影像分类器的设计

2.1  遥感影像数据集

本实验图像数据集为遥感图像公共数据集UC Merced Land-Use Dataset[8],该数据集由UC Merced计算机视觉实验室于2010年发布,均提取自USGS National Map Urban Area Imagery系列。如图1所示,此数据集公共领域图像的像素分辨率约为0.3米(1英尺),图像大小为256×256像素。此数据集包含21类土地利用遥感图像,其中每类包含各100张TIFF格式图像,共计2 100张。

实验使用WEKA 3.8.2软件,WEKA是怀卡托智能分析环境,使用Java语言编写的数据挖掘机器学习软件,是GNU协议下分发的开源软件[9,10]。ARFF格式是WEKA软件专用的格式,为此需要将遥感图像公共数据集中的扩展名为TIFF格式的文件转换为扩展名为ARFF格式的文件,再使用WEKA软件进行后续的数据处理和分类。本实验中是先使用Python把TIFF格式文件转换成mat文件,再把mat文件转换成ARFF格式文件。

2.2  特征选择

遥感图像公共数据集中的TIFF格式文件转化成ARFF格式文件后,每类遥感图像中的每个图像的每条记录由768个属性(包含最后一个标签属性)组成,且每个属性均为数值型(numeric)。实验进行特征选择前先使用ARFF格式文件加载器读取ARFF格式的源数据文件,然后使用属性子集评估器选取属性的一个子集,并返回一个指导搜索的度量数值。实验中我们选择CfsSubsetEval评估器,评估数据集每个属性的预测能力和其相互之间的冗余度。此评估器会根据算法选择与类别属性相关度高,但相互之间相关度低的属性。在搜索方法上,根据属性子集评估器CfsSubsetEval选择Best-First Search。该方法执行带回溯的贪婪爬山法,这里采用向前搜索,为了提高效率,缓存已评估的子集。最后使用过滤器模式中的无监督过滤器删除遥感影像数据集中冗余或不相关属性,为后续建立分类模型做准备。

实验从21类遥感图像随机选择5类进行特征选择。从这5类遥感图像中每类再随机选择15张遥感图像,共计75张。按照上述使用的评估器和搜索方法,对每张图像的256个实例进行统计,统计767个属性中每个属性的贡献率,汇总统计得到表1所示的属性贡献率最高的前6个属性。前6种特征属性在分类预测中的贡献率数值根据实验结果从大到小依次为att_512、att_256、att_767、att_511、att_255、att_766,如表1所示。

2.3  实验验证分析

数据挖掘分类算法中的决策树是一颗由多个判断节点组成的树。该算法选择增益值最大的属性作为判断节点进行分类。利用属性对当前分支节点进行相应样本的集合划分,所获得的信息增益表示为Gain(A),如式(1)所示。

Gain(A)=I(S1,S2,…,Sm)-E(A)       (1)

设属性A={a1,a2,…,ai},且a1,a2,…,ai互不相等。集合S被属性划分为V个子集{S1,S2,…,Sj,…Sv},其中Sj包含了S集合中属性A取aj值的数据样本。属性A被选为测试属性用于对当前样本集进行划分,设Sij是子集Sj中类Ci的样本数。根据A划分子集的熵或期望信息E(A)如式(2)所示。

E(A)=(Sij+…+Smj)/S×I(Sij,…,Smj)    (2)

设S是数据样本集合,S1到Sm是m个不同值的属性A分隔S而形成的V个样本子集。类别属性对应于m个不同类别Ci,i∈{1,2,3,…,m}。假设Si为Ci类别中的样本数。I(S1,S2,…,Sm)为给定样本分类的期望信息如式(3)所示。

I(S1,S2,…,Sm)=-(Si/S)×log2(Si/S)   (3)

本實验使用对于分类器形成贡献率最高的前12种特征属性att_248、att_255、att_256、att_495、att_499、att_508、att_510、att_511、att_512、att_765、att_766、att_767进行决策树的J48算法实验。实验中随机使用了21类遥感图像中的agricultural、baseballdiamond、overpass、golfcourse、tenniscourt类,并从中再次随机选取每类中的遥感图像进行分类识别。对特征选择前后使用J48算法的分类模型建模时间与分类准确率对比,如表2所示。

从表2中的实验数据可以看到,特征属性由767个减到12个关键特征属性后,在使用J48算法作为分类器的情况下,得到的建模时间均大大缩减,而分类的准确率略低于使用全部特征属性的效果,因此证明这12种特征在进行分类时可以满足正确分类的要求,且分类速度提升均在10倍以上,证明所进行特征选择的有效性。在使用特征选择建立分类模型时,所使用的数据量大幅减少,但仍然具有较高的分类准确率,同时建模时间也大幅缩短。通过特征选择,去除不相关和冗余信息,可有效减少存储和处理的数据量,提高后续数据分析的效率。

3  结  论

正确地选择出重要的特征属性,既可以约简数据,压缩数据量,降低建立分类模型所需的时间,同时又能保证所建立的分类模型具有较高的分类准确性。本文根据属性子集中每一个特征的预测能力以及它们之间的关联性进行评估,采用启发式搜索算法,并使用無监督过滤器删除冗余和不相关特征属性进行特征选择,从而降低数据维度,减少需要处理的数据量。通过使用数据挖掘软件进行实验证明,经过特征选择后建立的分类模型仍旧具有较高的分类准确率,同时极大地缩减了建模时间,节省了系统资源。

参考文献:

[1] 李晓斌,江碧涛,王生进.光学遥感图像场景分类技术综述和比较 [J].无线电工程,2019,49(4):265-271.

[2] 何婧媛,阿茹罕.基于卷积神经网络的遥感图像分类 [J].电子设计工程,2020,28(12):109-113.

[3] 王鑫,李可,宁晨,等.基于深度卷积神经网络和多核学习的遥感图像分类方法 [J].电子与信息学报,2019,41(5):1098-1105.

[4] 王晨安,李浩,李靖.基于改进自组织神经网络的遥感图像分类研究 [J].地理空间信息,2019,17(2):51-53+86+10.

[5] 李晓斌,江碧涛,王生进.光学遥感图像场景分类技术综述和比较 [J].无线电工程,2019,49(4):265-271.

[6] JAIN A K,DUIN R P W,MAO J C. Statistical pattern recognition:a review [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2000,22(1):4-37.

[7] KUDO M,SKLANSKY J. Comparison of Algorithms That Select Features for Pattern Classifiers [J]. 2000,33(1):25-41.

[8] YANG Y,NEWSAM S. Bag-of-Visual-Words and Spatial Extensions for Land-Use Classification [C]//18th ACM SIGSPATIAL International Symposium on Advances in Geographic Information Systems,ACM-GIS 2010.New York:Association for Computing Machinery,2010:270-279.

[9] 曹洪涛,张拯宁,李明,等.基于C4.5决策树的多特征遥感分类方法 [J].测绘工程,2016,25(3):73-76.

[10] 马晶,蒲伦,徐月,等.基于Weka平台的C4.5算法在影像分类中的应用 [J].测绘与空间地理信息,2017,40(5):52-55.

作者简介:李佳城(2001—),男,汉族,辽宁鞍山人,本科在读,研究方向:计算机技术在遥感测绘领域的应用。

猜你喜欢

特征选择遥感影像分类器
学贯中西(6):阐述ML分类器的工作流程
基于AdaBoost算法的在线连续极限学习机集成算法
一种统计分类方法的学习
基于智能优化算法选择特征的网络入侵检测
遥感影像资料在海图制图中的应用研究
故障诊断中的数据建模与特征选择
reliefF算法在数据发布隐私保护中的应用研究
一种多特征融合的中文微博评价对象提取方法
遥感数字图像处理课程实验综述
高分遥感影像中道路信息提取方法综述