基于不同分类器的农用地分类提取
2019-10-21赵忠国
张 峰 ,赵忠国,李 刚, 陈 刚
(1.新疆交通职业技术学院,乌鲁木齐, 830052;2.新疆大学资源与环境科学学院,乌鲁木齐,830052;3.河南测绘职业学院,郑州,450000)
0 引 言
【研究意义】遥感影像分类是获取地物的有效信息,而分类方法的选择是影响分类精度的关键因素[1]。传统的遥感分类方法在资料获取中受到人员的限制,在大面积的调查过程中也存在时间的制约,分类精度会受到数据的质量和判读者的经验水平的影响[2]。近年来,遥感分类不管从数据的来源和质量方面都有了进一步的发展,在分类方法上更趋向人工智能领域的发展[3]。目前,伴随着神经网络、支持向量机、随机森林等分类器技术的快速发展,结合高质量的遥感卫星数据,使得遥感分类的精度有了进一步的提升。选择一种合适分类器对遥感分类的精度具有重要意义。【前人研究进展】目前支持向量机(SVM)已经在盐碱地信息提取、湿地遥感分类、图像建筑物等方面得到了广泛的应用[4-6],支持向量机的高分辨率遥感影像的舰船目标识别研究也得到了应用[7]。程彬[8]通过利用最大似然法和支持向量机的方法对乾安县土地利用进行分类研究,结果表明支持向量机方法分类精度更高。随机森林(RF)已经在遥感图像分类中涉及树种分析[9]、土地分类[10]、生态区的划分[11]等方面得到了广泛的应用。Pierce 通过随机森林来对当地的森林火灾进行预警,大大降低了火灾风险程度[12]。随机森林也应用到高光谱遥感图像分类中的应用,李垒[13]通过提取高光谱数据的光谱信息和空间结构,提出了一种新的方法,且分类精度高于单一特征的方法。【本研究切入点】不同类型遥感影像各具特点、不同分类器各具优缺点,很难找到一个适合多种应用需求的分类器[4]。基于Landsat 8 OLI卫星遥感影像为数据源,对新疆奇台县农用地(草地、裸地、冬小麦、其他耕地、水体、道路)进行分类,利用支持向量机(SVM)、随机森林(RF)和神经网络(Neural Net)三种分类器对不同地物地类提取精度进行对比分析。【拟解决的关键问题】利用不同分类器方法对研究区农用地进行分类,并对不同方法进行比较分析,找出一种精度相对比较高的适合研究区地物的分类方法。
1 材料与方法
1.1 材 料
奇台县位于新疆东北部,东与木垒县为邻,南与吐鲁番市交界,西连吉木萨尔县,北接富蕴县、青河县,位于E89°13′-91°22′,N42°25′-45°29′。东西横距150公里,南北纵距250公里,县域总面积1.93万平方公里。 奇台县属中温带大陆性半荒漠干旱性气候。年平均气温5.5℃。7月平均气温22.6℃,年平均降水量269.4mm,农业资源丰富。图1
图1 研究区示意
Fig.1 Sketch map of research area
研究影像从地理空间数据云网站获取两景Landsat 8 OLI 影像数据(http://www.gscloud.cn/),成像时间为2017年4月19。将Landsat 8 OLI影像在ENVI软件的FLAASH模块完成辐射定标、大气校正,并对进行图像镶嵌、图像裁剪工作。辐射定标主要实现DN值到辐射率的过程;大气校正减少或消除大气对遥感影像的影响;对两幅相邻遥感影像进行大范围、无缝拼接,通过图像裁剪去除非研究区,最后得到研究区域。
实地GPS采样的50个野外实测点数据主要用来对冬小麦分类的验证,用高分辨率的Google Earth,利用目视判读对研究影像分类进行验证。
1.2 方 法
随机森林法是用N来表示训练用例(样本)的个数,M表示特征数目。通过输入特征数目m,用于确定决策树上一个节点的决策结果;其中m应远小于M。从N个训练用例(样本)中以有放回抽样的方式,取样N次,形成一个训练集(即bootstrap取样),并用未抽到的用例(样本)作预测,评估其误差。对于每一个节点,随机选择m个特征,决策树上每个节点的决定都是基于这些特征确定的。根据这m个特征,计算其最佳的分裂方式[14]。
支持向量机是一种二分类模型,目的是寻找一个超平面来对样本进行分割,分割的原则是间隔最大化,最终转化为一个凸二次规划问题来求解。同时能够在有限样本信息的条件下,在学习精度和学校效果之间找到最佳平衡[15]。
神经网络包括输入层、隐含层和输出层,输入层主要是包括单个训练像元的信息,比如光谱信息、高程、坡度等信息。不同层之间由互相连接的节点构成,因此可使得信息与多个方向互通。当训练样本数据越具有代表性,神经网络就越能映射真实世界的反应,从而得到精确的分类结果[16]。
2 结果与分析
2.1 参数精度检验
选用支持向量机算法(SVM)、随机森林算法(RF)和神经网络方法(NeuralNet)三种分类器对农用地分类提取进行对比分析。为保证分类精度,首先对三种分类器的参数进行分析。随机森林算法通过设置不同决策树的数量以及停止分割的最小样本数从而找出最适参数,三者所选特征均一致。随机森林算法决策树数量参数(Number of Trees , NT)设置对精度评价结果。表1
表1 决策树数量下精度变化
Table1 Effect of Decision Tree Number on Accuracy
决策树数量NT1102030405060708090100总体分类精度OA89.37%92.11%92.57%92.62%92.71%92.70%92.85%92.56%93.00%92.91%92.89%卡帕系数Kappa0.8590.8950.9010.9020.9030.9030.9050.9010.9070.9060.905
研究表明,随机森林算法决策树数量的不断增加,分类的总体精度整体在不断缓慢增高,Kappa的值也随之缓慢增高当决策树数量为80时,总体精度和kappa系数达到最大分别为93.00%、0.907,不过从整体角度来评价分类精度,决策树数量对分类总体精度不大。控制决策树数量为80时,对分割的最小样本数进行研究,随机森林算法不同分割的最小样本数(Min Node Samples,MNS)参数设置对精度评价结果。表1,表2
表2 停止分割的最小样本数参数下精度变化
Table2 the Effect of Minimum Sample Number Parameters on the Accuracy of Stopping Segmentation
最小样本数MNS11020304050607080总体分类精度OA93.00%92.74%92.11%92.07%94.30%91.49%91.58%91.17%91.14%卡帕系数Kappa0.907 20.903 80.895 40.894 70.92510.8870.888 30.882 50.882 4
当控制决策树数量为80时,不同分割的最小样本数对分类总体精度整体先增加后减少,kappa系数的变化与总体精度变化基本保持一致,但MNS=1时,分类整体精度高于其他分割的最小样本数参数(除MNS= 40),与MNS 是表示停止分割的最小样本数,MNS=1时,分割的更加精细,提高了分类总体精度。MNS=40时取得最高的总体精度94.30%、kappa系数为0. 9251。
支持向量机算法核函数选择径向基核函数,惩罚系数选择30,gamma参数设置为0;神经网络算法激活函数选择对数(Logistic),训练贡献阈值0.9,权重调节速度为0.2,由于进行非线性分类,隐藏层默认设置为1,当迭代次数为1 000次或训练RMS值小于0.1时停止训练,通过不断训练得到最好的神经网络RMS误差图,训练迭代到800次时训练的均方根RMS误差趋近于0.33,得到研究区的初步分类图,接着通过聚类等分类后处理方法,得到研究区的分类结果。图2,图3
图2 神经网络均方根(RMS)误差
Fig.2 RMS Error of Neural Network
图 3 研究区分类
Fig.3 Study Area Classification Diagram
2.2 分类精度评价
其中在神经网络分类中,草地的制图精度、用户精度较低,错分误差为14.41%,漏分误差为25.37%;冬小麦制图精度为97.44%,用户精度93.73%,错分、漏分误差分别为6.27%和2.56%。表3
表3 神经网络(Neural Network)农用地分类精度评价结果
Table 3 Accuracy Evaluation of Neural Network Ground Object Classification
地物分类Classificationof objects制图精度Cartographic accuracy用户精度User accuracy错分误差Commission Errors漏分误差Omission Errors草地Grassland74.6385.5914.4125.37裸地Bare land99.6592.137.870.35冬小麦Winter wheat97.4493.736.272.56其他耕地Other cultivated land89.5198.221.7810.49水体Water body100.00100.000.000.00道路Road88.6297.142.8611.38
表4 支持向量机(SVM)农用地分类精度评价结果
Table 4 Accuracy Evaluation of Ground Object Classification Based on Support Support Vector Machine
地物分类Classification of objects制图精度Cartographic accuracy用户精度User accuracy错分误差Commission Errors漏分误差Omission Errors草地Grassland67.3672.8427.1632.64裸地Bare land100.0094.255.750.00冬小麦Winter wheat94.6191.788.225.39其他耕地Other cultivated land93.5282.3517.656.48水体Water body100.00100.000.000.00道路Road34.5185.2514.7565.49
在支持向量机算法在地物分类精度评价中,草地的制图精度和用户精度分别为67.36%和72.84%。错分误差和漏分误差分别达27.16%和32.64%,相对于裸地、冬小麦和其他耕地分类精度最低。在随机森林算法对冬小麦分类的制图、用户精度分别为96.36%和96.90%,错分、漏分误差为3.10%和3.64%,三者分类整体精度评价结果。表6
三种算法的地物分类总体精度支持向量机(SVM)<随机森林(RF)R<神经网络(Neural Net),在 kappa系数方面支持向量机(SVM)<随机森林(RF)<神经网络(Neural Net),神经网络分类总体精度为94.84%比随机森林(NT= 80,MNS=40)分类高0.54%,比SVM分类算法高4.09%;kappa系数为0.9317,比RF、SVM分别高0.0069、0.54。整体分类中使用神经网络分类对研究区地物分类效果最好。
表5 随机森林(RF)农用地分类精度评价结果
Table 5 Evaluation of Random Forest Classification Accuracy
地物分类Classification of objects制图精度Cartographic accuracy用户精度User accuracy错分误差Commission Errors漏分误差Omission Errors草地Grassland87.0782.4017.6012.93裸地Bare land99.9393.996.010.07冬小麦Winter wheat96.3696.903.103.64其他耕地Other cultivated land93.6888.1111.896.32水体Water body97.5396.502.103.20道路Road56.9089.7110.2943.10
表6 精度整体评价结果
Table 6 Accuracy evaluation results
分类算法Classification algorithm支持向量机SVM神经网络Neural Net随机森林RF总体分类精度OA90.75%94.84%94.30%卡帕系数Kappa0.877 60.931 70.925 1
3 讨 论
遥感图像分类的主要研究目的是提取有效的地物类型,在地物信息提取过程中,如何选择适当可行的分类方法是我们所面临的主要问题之一。机器学习分类方法作为目前流行的算法,在分类精度方面和时间效率方面相对于传统的分类方法具有一定的优势[17]。
由于遥感成像的复杂性和多种不可控制因素的影响,在传统感影像分类过程中存在一定的模糊性和不确定性。神经网络算法能够在一定程度上消除上述的弊端[18]研究中神经网络算法相对于支持向量机算法和随机森林算法在模型训练时间消耗长,但是在分类精度方面是最优的,对于容易错分漏分的地物得到了比较好的分区,能够更准确地提取出目标地物。但是闫琰利用了神经网络和支持向量机等四种方法对遥感图像监督分类进行了总体分类精度评价,认为支持向量机在总体分类精度比神经网络算法较高[19],原因之一有可能在于在两者之间样本的选择方法不同而造成。 研究在神经网络算法中选择的模型参数均按默认值,在今后的研究中选取合理的神经网络模型和权重调节方面需要进一步的研究,因为默认的权重是用标准正态分布随机初始化的存在一定的弊端,因此在权重选择方面要进一步的实验从而选择最优权重。
刘毅[3]等通过对随机森林参数设置对分类精度的影响程度进行了研究,认为参数设置对分类精度的影像不敏感,使用默认条件下,就可以达到理想的分类效果。研究按照不同参数设置进一步实验得出随机森林分类控制决策树数量和最小样本数,从而保证分类效果。但是在最终分类精度方面高于支持向量机算法而小于神经网络算法。但是在实验过程中能够找到最优合适的分类树数目,能够不仅能提高分类精度同时在运算速度方面相对于其他算法具有一定的优势。
研究确定样本的方法是结合实地调查、目视解译标志与高分辨率遥感影像相结合的选取样本的方法,虽然在一定程度上提高了样本的精确性,但是在以后研究中,样本的选择要根据不连续性、代表性、分布、数量等方面综合考虑,进而保证分类结果的精度。同时除了样本因素考虑外,要进一步提高特征选择,如果选择特征少与多,会造成分类器设计简单与复杂,影响分类。因此进一步要研究分类所有特征,从而达到最优。
4 结 论
在神经网络算法中,冬小麦制图精度为和用户精度分别为相对于草地、裸地和其他耕地的精度要高。在支持向量机算法中,草地的信息提取精度相对于裸地、冬小麦和其他耕地最低。在随机森林算法中,耕地的提取精度整体要比其他地类提取的精度要好。而三种算法的地物分类总体精度进行比较中,神经网络算法的分类精度高于其它算法,适合该区域的基于遥感影像的农用地地物分类信息提取方法。