基于POI大数据与土地利用数据协同的小尺度区域GDP空间化方法
2022-04-02妮邓树林
杨 妮邓树林
1广西财经学院管理科学与工程学院,广西 南宁,530003
2中国地质大学(武汉)地理与信息工程学院,湖北武汉,430074
3南宁师范大学地理科学与规划学院,广西 南宁,530001
国内生产总值(GDP)是衡量一个国家或地区经济发展水平的重要指标[1]。为了定量评估社会经济与资源环境之间的相互作用,有必要将社会经济数据与资源环境数据结合起来,将诸如与GDP相关的社会经济数据集进行空间化,以促进其与跨行政边界的其他环境和物理数据集的集成[2]。近年来,基于土地利用数据、夜间灯光数据来实现经济统计数据的空间化。然而,夜间灯光数据的应用存在夜间灯光数据饱和、溢出效应及在贫困的较小尺度区域精度受限等问题[3]。
近几年发展的城市热点(point of interest,POI)数据为其提供了新的思路[4]。POI分类与土地利用分类相一致,且POI数据具有以下优点:①POI数据研究尺度问题的灵活性更大,因为点数据可以转换为任意尺度;②人们的偏好和社会功能可以通过与POIs的交互作用而不是土地使用类型来体现;③POI数据的统计粒度更细。因此,这些数据提供了相对有用的信息,并一定程度上反映了城市内部经济的状况,特别是第二、三产值的差异。基于POI热点数据的研究已经取得系列成果,如在城市基础设施[5]、人口经济分布[6]、零售业集聚分析[7]、城市功能划分[8-10]、等。有学者尝试利用POI与经济发展之间的关系进行了初步探究,如文献[11]利用夜光遥感及小区POI数据,发现了住宅POI与经济增长的空间耦合关系;但仍缺乏系统分析城市各类POI热点数据与GDP增长直接的空间关系。
本文提出了一种基于城市热点POI大数据与土地利用数据协同的小尺度区域GDP空间化方法,建立POI大数据与经济统计数据之间的关系模型,第一产值基于土地利用数据采用面积权重法建模,第二、三产值基于POI热点数据空间关系权重建模,以期准确获取欠发达小尺度区域空间完整、时间连续的经济空间化数据。
1 数据源
土地利用/土地覆盖数据,采用2017-2018年成像的Landsat TM遥感图像,通过人机交互判读,得到1∶10万南宁市土地利用遥感检测数据。2018-2019年GDP统计数据来自《广西统计年鉴》。利用Geosharp1.0采集2018年城市多类型POI数据,包括餐饮、购物、科研教育、医疗卫生、休闲娱乐、金融、酒店、居民小区、其他等9种类型。
2 研究方法
2.1 各格网的多类POI热点参数统计
将所选的POI点叠加到研究区1 km×1 km格网上,根据POI类型与第二、三产值的相关性确定该类型所占的权重,进而确定该格网的GDP拟合参数值。
式中,Gxy表示第x个像元中第y种POI的热点参数;P xy代表该像元中第y种POI所占的比重(该像元中所有POI类型比例之和等于1);Ix表示第x个像元的热点参数。
2.2 分区分产业建立回归模型
1)第一产值空间拟合模型[12]:
式中,G1xy代表某个格网的第一产业经济密度系数;GLky分别表示第一产业中各产值;Gxy是土地利用类型x的平均产值;L1y~L4y分别是该县土地利用类型所占的面积。
2)第二、三产值空间拟合模型:
式中,G23xy表示某个格网的经济密度系数;NAxy、NBxy、NCXY、NIxy分别表示某个格网9种类型POI的数量;G23y表示y县的第二、三产值之和的经济系数。
2.3 GDP模拟的误差检验
GDP模拟误差检验的计算公式如下[12]:
式中,MPE是平均相对误差;RE是相对误差;n代表县的个数;POPm是县GDP模拟值;POPa是县GDP统计值。
2.4 GDP统计数据空间化
对拟合的经济系数用县级GDP统计数据进行线性调整,实现研究区GDP统计数据1 km×1 km格网化。
式中,GDPall是纠正后的GDP密度;GDPx是预测每个格网的GDP密度;GDPb是该县统计GDP;GDPc是该县预测GDP。
3 应用实例及结果分析
本文是以南宁区县及行政边界为基础,区(县)为研究单元。GDP统计数据的空间化模拟首先要确定GDP各产值与土地利用用地类型之间的关系。第一产值中的农、林、牧、渔业产值与土地利用类型中的耕地、林地、草地、水域相对应;而第二、三产业对应城乡工矿居民地。因此,第一产值基于土地利用数据采用面积权重法拟合;第二、三产值根据与各类POI的相关性,采用回归分析法,构建第二、三产值的回归模型;最后将模拟的第一产值格网数据与第二、三产值格网数据叠加,得到模拟的总产值。模拟结果的精度可通过与统计的GDP对比,最终得到南宁市GDP空间分布图。
3.1 相关分析结果
POI数据的相关关系,显现了较强的线性相关。即GDP统计数据中第二、三产值分别与餐饮、购物、居民小区、科研教育、医疗卫生、休闲娱乐、金融、其他、酒店等9种类型的相关系数R2分别为:0.920 3、0.954 2、0.840 0、0.945 3、0.927 4、0.892 6、0.832 1、0.957 9、0.903 9(见图1)。
图1 第二、三产值与城市热点POI数据的相关性Fig.1 Correlation Between Second and Third Industry GDP and Urban Hotspot POI Data
3.2 各产值模拟结果
将模拟的第一产值与第二、三产值叠加,得到总产值的拟合结果(见图2)。密度图可以宏观的反映南宁市的整体经济水平:南宁市中心城区高密度积聚区,由市中心、琅东片区向四周延申。交通通达性对城市经济的发展有很大影响,特别是对第二、三产业的发展。其次是武鸣、宾阳和横县,这几个县相对地理位置,交通条件,自然环境都比较占优势,总产值相对较高。
图2 模拟的总产值密度图Fig.2 Simulated GDP Gross Output Density Map
3.3 精度检验
对GDP各产值的模拟值与统计值进行相关性分析,从图3可以看出,模拟第一产值与统计值的决定系数R2=0.873 6,拟合效果一般,这可能是第一产值不仅与土地利用各地类的用地面积有关,还与其质量等级有一定关联,包括土壤质地、坡度坡向、土壤水分等。第二、三产值模拟效果较好,R2=0.938 9,说明城市热点POI数据与第二、三产业的发展有较大的关联,起到重要作用。整个研究区总GDP产值的拟合精度良好,R2=0.921 4,能真实反映出研究区的GDP空间差异及宏观分布特征。
图3 各产值空间化模拟精度Fig.3 Spatial Simulation Accuracy of Each Output Value
4 结束语
根据土地利用数据和城市热点POI大数据,利用动态区域化方法建立了第一、第二、三产值GDP的回归模型。利用回归方程得到了2018—2019年南宁市小尺度区域1 km2网格GDP估计值。主要结论如下:
1)建立3个产值而不仅仅是GDP的整体回归模型可以反映不同经济成分的空间分布特征。
2)我国区域GDP分布的空间异质性较为突出,本研究采用动态区域化方法,包括对从研究区域动态划分的各个子区域获取的POI和土地利用数据建立回归模型。它可以简单地解决空间异构问题,可进一步提高拟合精度。
3)同一类别的POI,如酒店,有不同的档次规模之分,其对GDP的贡献有较大的区别,由于POI数据获取的原因,未能及时加入到空间化模型中进一步提高GDP拟合精度,这将是后续研究努力的方向。