APP下载

高分辨率影像建筑物提取方法对比

2020-04-24秦梦宇赵赫

科技创新与应用 2020年10期
关键词:增益决策树精度

秦梦宇 赵赫

摘  要:与传统的信息提取方法相比,将机器学习算法应用到遥感影像信息提取中,可以提高结果的精度,文章以WorldView-2遥感影像为例,首先利用多尺度分割选取最优分割尺度,获得影像对象。在基于对象的基础上利用特征空间优选工具获得最优特征子集,最后利用J48算法、随机森林算法对建筑物提取的效果进行分析。实验结果表明:J48算法在高分辨率影像建筑物提取中有更好地效果。

关键词:WorldView-2;面向对象;J48;随机森林;建筑物

中图分类号:TP751         文献标志码:A         文章编号:2095-2945(2020)10-0129-02

Abstract: Compared with the traditional information extraction methods, the application of machine learning algorithm to remote sensing image information extraction can improve the accuracy of the results. Taking WorldView-2 remote sensing image as an example, firstly, the optimal segmentation scale is selected by multi-scale segmentation, and the image object is obtained. On the basis of object-based, the optimal feature subset is obtained by using feature space optimization tool. finally, J48 algorithm and random forest algorithm are used to analyze the effect of building extraction. The experimental results show that J48 algorithm is more effective in building extraction from high-resolution images.

Keywords: WorldView-2; object-oriented; J48; random forest; building

随着技术的发展,遥感影像空间分辨率不断提高,高分辨率影像的细节信息越来越显著。传统的基于像元的信息提取方法,偏重于地物的光谱特征,而忽略了例如几何、纹理、上下文等特征,已经不能满足信息提取的精度要求。近年来,不少学者对基于对象[1-2]的方法进行了广泛研究,证明了该方法从高分辨率影像中提取地物信息的有效性。

与此同时,机器学习和数据挖掘广泛地应用到了影像信息提取中,其中J48算法[3]与随机森林算法[4]最为普遍,本文以瑞典斯德哥尔摩为例,对比这两种算法在WorldView-2影像建筑物提取中的效果。

1 数据准备

研究区地處瑞典的东海岸斯德哥尔摩,斯德哥尔摩所在纬度:59°18'00.00"N,所在经度:18°10'00.00"E。本实验数据采用Wordview-2影像,数据获取日期为2016年8月27日,多光谱波段空间分辨率为2米,研究区大小为1024×1024个像元。实验首先在ENVI5.3中对数据进行了预处理,获得了地表反射率。

2 研究方法

2.1 决策树J48算法

J.Ross Quinlan对ID3算法进行了改进,提出了C4.5算法。除了继承了ID3算法的所有功能以外,决策树C4.5算法还可以利用信息增益率来选择属性,合并具有连续属性值、处理含有未知属性值的训练样本等。

C4.5算法是对ID3算法的最大改进之处是对信息增益率的引入。属性选择时利用信息增益率,对连续属性实现离散化处理,将知识表示为决策树的形式,并最终生成规则。信息增益率[5]的计算公式如下:

GainRatio=I(C,V)/H(V)

计算出信息增益率后,将最高信息增益率所对应的属性作为根节点,然后向下递归建树最终形成产生式规则。Weka平台中的J48算法就是C4.5算法。

2.2 随机森林

随机森林属于集成分类器,它由一组决策树分类器组成,是基于无参数回归算法的集成学习策略,如果将单个决策树看为是某一方面的专家,所有专家聚集就构成了随机森林,最终的分类结果根据专家投票的结果得出[6]。

3 操作过程

3.1 分类体系的确立

根据研究区的地理特征、自然状况,通过试错法确立研究区的最优分割参数。本实验采用多尺度分割,分割尺度设置为80,形状因子设置为0.8,紧致度因子设置为0.5,共生成了3826个地物。结合Google earth高分辨率影像,共选取了565 个对象作为训练样本,将研究区分为5种土地覆被类型(表1)。

3.2 分类特征优选

为了避免分类过程中出现盲目使用多种特征容易导致计算量急剧增大、分类精度降低、分类特征冗余等问题[7],本实验采用易康中自带的Feature Space Optimization工具对分类特征进行优选。

对每个类别选取不少于50个样本(由于水体较少,不包括水体),对选取的21个特征进行计算,得到所有的特征组合与类别之间样本可分性的详细信息,从中能够直观看出:样本之间的区分距离随特征数量即维数的变化而变化。当特征数量较少时,不能很好地区分地物,当特征数量过多时,可能影响分类效率。如图1可以看出区分距离的变化趋势为先上升后下降,并在特征数量等于19时达到最大,因此确定最优特征数量为19。

4 分类结果及精度评价

基于J48算法以及随机森林算法得到的分类结果见图2。

选取566个独立于前述模型构建的训练样本数据集对以上2种方法的分类结果进行精度评价分析(表2)。从中可以看出,随机森林算法对影像整体的分类结果好于J48算法。但对于建筑物的提取,J48算法在生产者精度和用户精度上均高于随机森林算法。

5 结论

本文对比了J48算法以及随机森林算法在高分辨影像建筑物提取上的效果,得出J48算法优于随机森林算法的结论,但是J48算法在建筑物提取上仍有一些错误,例如将建筑物错分为道路、将道路错分为建筑物等。如何改进J48算法,得到更好的建筑物提取效果有待进一步的研究。

参考文献:

[1]许燕,段福洲,段光耀.面向对象的无人机影像分类研究[J].地理空间信息,2014(5):8+41-43.

[2]陈云浩,等.基于面向对象和规则的遥感影像分类研究[J].武汉大学学报(信息科学版),2006(04):316-320.

[3]史泽鹏,等.基于J48决策树算法的遥感土地利用变化分析[J].遥感信息,2014,29(1):78-84.

[4]Breiman L . Random Forests[J]. Machine Learning, 2001, 45(1):5-32.

[5]高海宾.基于Weka平台的决策树J48算法实验研究[J].湖南理工学院学报(自然科学版),2017,30(01):21-25.

[6]李欣海.随机森林模型在分类与回归分析中的应用[J].应用昆虫学报,2013,50(04):1190-1197.

[7]丛佃敏,等.基于最优特征空间构建的随机森林算法在WorldView-2影像分类中的适用性研究[J].科学技术与工程,2016,16(31):218-224.

猜你喜欢

增益决策树精度
数控车床加工精度的工艺处理及优化试析
经典仪表放大器(PGIA)的新版本提供更高的设计灵活性
简述一种基于C4.5的随机决策树集成分类算法设计
近似边界精度信息熵的属性约简
旦增益西的藏戏梦
宽频带增益放大器的设计与测试
放大器仿真设计
决策树学习的剪枝方法
电力系统短期负荷预测方法与预测精度
决策树在施工项目管理中的应用