基于遥感和多源地理数据的城市土地利用分类
2022-03-24吴琳琳李晓燕毛德华王宗明
吴琳琳, 李晓燕, 毛德华, 王宗明
(1.吉林大学地球科学学院,长春 130012; 2.中国科学院湿地生态与环境重点实验室,中国科学院东北地理与农业生态研究所,长春 130102)
0 引言
城市土地利用信息反映着社会经济功能和活动,是城市规划和区域管理的重要基础[1-2],对于解决城市问题、科学合理的发展城市具有重要意义[3-5]。因此,准确、详细的城市土地利用信息对城市规划和发展起到关键性作用[6-8]。然而,城市土地利用类型复杂多样,人工进行实地调查费时费力,获取详细的城市土地利用信息较为困难[9-10]。国内外学者基于遥感影像获取城市土地利用信息展开了丰富的研究。Gong等[11]利用随机分类方法对中国332个地级市进行城市土地利用分类研究; Zong等[12]基于多源数据,采用随机森林算法对兰州市城市土地利用进行分类并分析不同特征组合对分类结果的影响; Zeferino等[13]利用Landsat8卫星影像研究环境数据对土地利用的影响; Saboori等[14]利用高分辨率影像多尺度的纹理特征与神经网络算法相结合,对城市土地利用信息进行提取。
随着城市化的不断发展,快速高效获取城市土地利用信息成为研究热点。随机森林是一种新型的集成算法,具有训练样本数量少、人工干预少,精度较高、不易过拟合的特点,相较于其他传统方法具有很好的鲁棒性[15-16]。目前,随机森林已广泛运用到遥感影像分类中。周天宁等[17]基于Landsat TM影像,利用随机森林优化算法对昌平区进行土地利用分类,其结果验证了随机森林在土地利用分类的稳定性; 马玥等[18]基于随机森林算法,对齐齐哈尔市周边的农业耕种区进行土地利用分类研究,实现了分类效率、精度及适用性之间的平衡,为农业耕种提供参考; 杨耘等[19]利用高分辨率影像提取城市土地利用分类,通过多个算法对比发现随机森林算法对城市土地利用类型提取效果较好,可以为城市土地利用分类提供准确的依据。
传统的土地利用调查无法满足城市土地管理的需求。随着通信技术的不断发展,热力图数据、社交媒体数据、兴趣点数据等具有地理意义的空间大数据获取方便,多源数据为城市空间结构的研究提供了依据和便利[20]。如兴趣点(point of interest,POI)数据与传统的土地调查数据相比,POI数据样本数量多、易获取,可以记录土地利用类型及位置信息[21],更能准确详细地展现城市空间布局,满足城市土地利用分类的需要。
哈尔滨市为黑龙江省省会城市,是中国15座副省级城市之一。哈尔滨地处中国东北地区,是东北北部的政治、经济、文化中心。哈尔滨市城市用地类型较多,获取困难,研究哈尔滨城市土地利用分类对促进城市发展和解决城市问题具有重要意义。选择哈尔滨城市用地为研究区,分析多源地理空间数据对城市土地利用类型的提取能力,利用多尺度分割和随机森林算法对哈尔滨市城市用地进行分类,为城市规划及管理提供依据。
1 研究区概况与数据源
1.1 研究区概况
哈尔滨市(图1)位于东北平原,地处E125°42′~130°10′,N44°04′~46°40′之间。哈尔滨市总面积为5.31×104km2,其中,建成区面积为302.41 km2; 截至2019年,全市常住人口为1 076.3万人,城镇人口709.3万人,城镇化率65.9%。哈尔滨市东部与牡丹江市相连,南部与长春市、吉林市接壤,西部与绥化市、大庆市相连,北部与伊春市接壤。哈尔滨市不仅是黑龙江省省会城市,同时也是东北亚中心地带。本文选取哈尔滨市环城高速路内为研究区。
图1 研究区位置示意图
1.2 数据源
1.2.1 Sentinel-2A遥感数据
研究所需的影像数据从Google Earth Engine平台下载(https: //earthengine. google. com/),采集的数据为2019年6月18日的Sentinel-2A遥感卫星影像。Sentinel-2A有13个波段,幅宽达290 km,重访周期为10 d。本研究获取该数据空间分辨率为10 m的红光、绿光、蓝光、近红外4个波段。影像无云,质量较好,可以满足研究需求。
1.2.2 OSM路网数据
路网数据在OpenStreetMap(OSM)网站上获取(https: // www.openstreetmap.org),OSM是目前最大的协作和公开许可的地理空间数据集合,被广泛运用于权威数据的替代或补充[22]。研究使用的数据是2019年哈尔滨城市道路中心线数据。根据路网数据的属性信息,提取哈尔滨市的高速公路、一级公路、二级公路及居民道路; 其次将路网数据根据等级建立缓冲区,根据哈尔滨市车道数量和车道宽度从遥感影像中选取道路样本进行采样测距取得平均值,将缓冲区宽度分别设置为24 m,42 m,25 m和13 m; 最后利用缓冲区数据将遥感影像数据进行切割(图2)。
(a) OSM路网数据(b) 路网缓冲区数据
1.2.3 采样地块数据
采样地块数据来源于Google Earth和实地调查采样,作为训练样本及验证样本。根据城市基本土地利用制图采样方案[11],将城市土地利用类型分为5个一级地类; 10个二级地类(表1)。在Google Earth中选取318个训练样本,涵盖了所有二级土地利用类型,选取的地块具有典型性和稳定性,并且土地利用混合性低。哈尔滨市实地选取66个样本,包括地理位置、一级类别、二级类别、建筑物名称、混合比例并拍摄现场照片作为验证样本。
表1 采样地块类型及数量
1.2.4 POI数据
POI数据来源于百度地图,通过爬虫获取研究区2019年6月的所有数据。POI数据基本涵盖城市地理的全部要素信息,其内容丰富且精度较高。POI数据包含的土地利用类型较为齐全,共有13个类型,18.2万条数据,为百度地图分类系统。经过对POI数据进行清洗和纠偏[23],将POI数据依据上述分类系统重新分类(表2)。
表2 POI城市基本土地利用分类体系
1.2.5 夜间灯光数据
夜间灯光数据来源于珞珈一号(http: //59.175.109.173: 8888/app/login.html)。夜间光照强度与城市用地类型有一定相关性,夜间灯光数据可以用来描述区域人口、城市化和经济发展状况[24-25]。人类活动强度越大,夜间光照强度就越大。本研究选择2018年9月8日的哈尔滨市夜间灯光数据作为人类活动指标,空间分辨率为130 m,是目前可获取的最新数据。由于2018—2019年间城市土地利用变化不大,因此选择此数据。对夜间灯光数据进行特征提取并进行重采样至10 m,参与哈尔滨城市土地利用分类。
2 研究方法
图3为研究中使用的主要方法: ①用OSM获取的路网数据生成城市地块; ②对Sentinel-2A数据、POI数据和夜间灯光数据进行特征提取; ③通过Google Earth和实地测量采集训练样本和验证样本; ④进行哈尔滨市制图和分类精度评估,分析不同特征组合对分类结果的影响。
图3 研究方法流程
2.1 多尺度分割方法
遥感影像多尺度分割的结果直接影响用地分类结果的好坏[26-27]。因此,确定最优分割尺度对城市土地利用类型的确定是至关重要的。对于一种特定的土地利用类型,最优分割尺度应能够较好地显示地物的边界,不能出现过于破碎或模糊的现象[28]。Woodcock等[29]最先利用布局方差对影像进行多尺度分割,得到的结果精度较好。因此,选择局部方差法对研究区进行最优尺度分割。计算公式为:
(1)
(a) 分割尺度为50(b) 分割尺度为100(c) 分割尺度为180
2.2 特征提取
表3是对数据提取的特征,分别对光谱、纹理、POI数据、珞珈一号夜间灯光数据进行特征提取。根据Sentinel-2A波段和典型光谱指数计算光谱特征; 通过灰度共生矩阵计算纹理特征; 计算POI总数、二级地类POI个数及比例; 计算夜间灯光数据的像元亮度DN平均值和DN总和。
表3 地块特征汇总
2.3 随机森林分类方法
随机森林是2001年由Breiman提出的一种机器学习算法,结合Bagging集成学习理论和随机子空间的方法,由多颗决策树分类器构成[30]。随机森林的训练流程如图5所示。首先,通过随机重采样的方式从原始训练样本中有放回的随机抽取N个训练集,每个训练集数量约为原始数据集的2/3; 其次,将每个训练集建立分类决策树,产生N棵CART决策树组成的森林。根据基尼系数最小原则选出最优内部节点分支; 最后,采用集成学习理论将N棵决策树的预测结果进行统计,通过投票结果判定未分类样本的类别,分类结果由多数决策树投票结果决定。在抽取样本时约有1/3的数据没有抽中,利用这1/3的数据进行内部误差估计,产生袋外(out-of-bag)数据误差。
图5 随机森林原理流程
本研究以地块为分类单元,随机森林算法通过eCognition Developer 9平台实现。通过实验得出,当N≥100时,各个地物类型的袋外误差趋于稳定。
2.4 精度评价指标
利用验证样本对随机森林分类精度进行验证,采用混淆矩阵对城市土地利用分类精度进行评价。评价指标包括生产者精度、用户精度、总体精度及Kappa系数,表达式分别为:
PA=Pjj/P+j,
(2)
UA=Pii/Pi+,
(3)
OA=(Pk1+Pk2+···+Pkn)/P,
(4)
(5)
式中:PA为生产者精度;Pjj为类型中第j类和实测数据类型第j类所占的组成成分;P+j为实际观测的第j类的总和;UA为用户精度;Pii为类型中第i类和实测数据类型第i类所占的组成成分;Pi+为分类得到的第i类总和;OA为总体精度;Pk1,Pk2,…,Pkn为实测数据类型中第k类所占的组成成分;P为总样本数;P+i为实际观测的第i类的总和。
3 结果与分析
3.1 精度验证
表4为一级地类精度的混淆矩阵,利用总体精度和Kappa系数来判定地类精度。一级地类总体精度为86.0%,Kappa系数为0.75; 二级地类总体精度为73.9%,Kappa系数为0.69。其中,商业用地用户者精度为95.1%,公园与绿地用户者精度为97.1%; 机关团体用地和医疗卫生用地分类精度较低,前者用户者精度为15.7%,后者用户者精度为11.1%。
表4 一级地类精度混淆矩阵
3.2 城市土地利用分类结果
通过OSM数据对哈尔滨市路网数据进行提取,利用多尺度分割将Sentinel-2A遥感卫星影像分割为地块。对POI数据进行筛选和重分类,将夜间灯光数据进行特征提取,利用随机森林分类方法对研究区进行分类,结果如图6所示。
图6 城市土地利用分类结果
3.3 不同特征组合的分类精度分析
图7为二级地类在不同特征组合下参与土地利用分类的生产者精度及用户精度。可以看出,不同数据组合参与土地利用分类的精度不同。当采样地块参与土地利用分类时,公园与绿地的生产者精度和用户精度最高,分别为95.5%和64.6%。相比加入POI数据和夜间灯光数据后精度的提高并不显著。说明对公园与绿地的识别主要依赖于遥感光谱特征和纹理特征。图7中,与(a)相比,(b)和(c)中商务办公用地和商业用地精度显著提高,但夜间灯光数据对商服用地精度的提升幅度更大; (b)中教育用地的精度高于(a)中的精度,说明POI数据可以提高教育用地的精度,其生产者精度为71.4%,用户精度为62.5%; (c)中夜间灯光数据对住宅用地的分类精度略有提高,但没有(b)中提高幅度大,表明POI数据可以改善对住宅用地分类精度,但程度有限; (a)中工矿仓储用地精度较低,(b)中工矿仓储用地精度有显著提高,说明工矿仓储用地更适合用POI数据参与分类。在所有试验中,机关团体用地和医疗卫生用地精度均较低,POI数据和夜间灯光数据对机关团体用地和医疗卫生用地精度提升改善程度有限。同(a)相比,(b)中体育和文化设施用地精度有所提升,说明POI数据可以提高体育和文化设施用地的精度,但是并未达到良好效果。遥感影像数据的光谱特征、纹理特征、POI数据和夜间灯光数据可以有效提高城市土地利用分类精度。单独使用采样地块数据参与分类时,城市土地利用分类精度较低; 当使用采样地块和POI数据时,可以较好地提高住宅用地、工矿仓储用地和教育用地精度; 当使用采样地块和夜间灯光数据时,对商务办公用地和商业用地精度提升较大; 将全部特征参与分类时,分类结果的精度最高,即为分类的最佳组合。这表明综合使用多源特征可以改善城市土地利用分类的精度,光谱特征、纹理特征、POI数据和夜间灯光数据可以显著提升某些地块类型的准确性,但是综合运用可以有效提升所有地物类型的准确性。
(a) 采样地块(b) 采样地块-POI
(c) 采样地块-夜间灯光数据(d) 采样地块-POI-夜间灯光数据
图7 基于不同特征组合的生产者精度和用户精度(二级地类)
4 结论与讨论
本文以哈尔滨市市区为研究区,结合OSM数据将地块划分为基本分类单元,基于Sentinel-2A遥感影像、POI数据和夜间灯光数据等,采用随机森林分类方法对研究区进行城市土地信息提取,得到如下结论:
1)一级地类总体分类精度为86.0%,Kappa系数为0.75; 二级地类总体精度为73.9%,Kappa系数为0.69。
2)遥感影像、多源地理空间数据及网络数据相结合能够有效提高分类精度,有利于提高城市土地利用分类效果。
3)POI数据可以显著提高住宅用地、工矿仓储用地和教育用地分类精度; 夜间灯光数据能够有效提高商务办公用地及商业用地分类精度。
相较于2018年中国基本城市土地利用分类,本文分类精度有较高的提升。文章选取训练样本的混合度更低,提高了训练样本的纯度和数量; 利用更详细的路网数据对地块进行分割,并且选取训练样本数据时尽可能在空间分布上均匀分布。尽管上述方法对于研究区能够得到较好的分类结果,同时也存在局限性。城市土地内部结构复杂多样,实际土地利用大多为混合地块,无法精确保证每个地块均为单一类型。同时城市的快速发展使城市三维空间利用率增加,一幢建筑中不同高度的建筑用地不是单一用地类型,仅用路网数据很难对其进行精确有效的划分。POI数据和夜间灯光数据可以有效提高分类精度,但是并不适合所有用地类型,造成城市土地利用分类精度差异性。在对城市土地利用类型进行分类过程中,应更进一步对地块进行精准划分,路网数据可以有效对地块进行划分,但是并不能完全将不同类型的地块划分出来。要进一步优化地块分割的过程,尽量减少有多种土地利用类型的地块,根据不同土地利用类型的特征使用不同尺度参数的分割。此外,对于具有多种利用类型的地块,根据不同高度或面积来有针对性地权衡POI数据对分类结果的影响,尽可能将不同土地利用类型进行细化区分。