基于大数据融合的少数民族山区人口空间化研究
——以彭水苗族土家族自治县为例
2022-09-29焦欢肖禾李辉高丽
焦欢,肖禾,李辉,高丽
(1.重庆市地理信息和遥感应用中心,重庆 401147;2.重庆财经学院,重庆 401320;3.重庆工程职业技术学院,重庆 402260)
人口是生活在特定社会制度、特定地域具有一定数量和质量的人的总称。人口空间分布是指在某一确切的时点上人口在地理位置上的分布状况,是人口变化在空间上的表现[1-3]。人口统计数据空间化就是把人口数据进行定量和定位,以行政区域为单元把人口数据量化到一定的尺度的地理网格上[4-6]。人口增长一直都是时代的核心议题,而人口增长带来的在自然环境、资源、能源等之间的矛盾则更应被关注。深入了解一个地区的人口信息,关注人口空间的地理位置分布,预测人口地理空间变动趋势有利于对各种社会、经济、资源和环境问题的解决。目前,人口数据的获得大多是按行政单位通过普查或抽样方式进行,容易忽略人口内部分布的异质性。同时,这类人口调查通常耗时耗力,更新周期长,且通常以行政单位对数据进行公布,不利于人口数据的综合利用。而人口空间数据弥补了这类缺陷,其适配性强,可以与其他数据进行综合利用。
中国地形复杂,主要以山地为主,其面积约占国土面积的70%,山区居住的人口约有5.8亿人,占全国人口的2/5。山区的发展是中国发展的重要板块,山区人口的分布状况对山区发展经济有着非常重要的影响[7-9]。彭水苗族土家族自治县(简称彭水县)地处山区,同时也是一个少数民族自治县,地域特色突出,本研究选取彭水县为研究区,采用地形、土地利用类型、道路及河流数据为基础,以居民点为指示因子,应用大数据融合技术和空间回归模型,在乡镇尺度上进行人口空间化分析,结果生成30 m×30 m分辨率栅格人口密度图,在保持数据一致性的基础上也反映人口内部的空间变化。
1 研究区概况
彭水县位于长江上游地区、重庆市东南部,处武陵山区,居乌江下游,与石柱县、利川市、黔江区、沿河县等接壤,地跨北纬28°57′—29°51′,东经107°48′—108°36′。辖区总面积为3 903 km2,下辖3街道18镇18乡,是重庆市惟一以苗族为主的少数民族自治县,其中苗族人口占43.41%,其他少数民族占10.44%,由于地处山地,区域内部呈现出较大的分割差异,导致人口分布、地区经济发展极不均衡。
研究区属中亚热带温润季风气候区,气候温和,雨量充沛,雾多,光照偏少,年平均气温17.50℃,地势西北高而东南低,以中、低山地形为主,各类地貌中丘陵河谷地貌区约占13.40%,低山地貌区约占52.86%,中山地貌区约占34.04%,呈现两山夹一槽的地貌特征,为中国西南典型山区。
2 数据源及数据预处理
2.1 数据源
本研究使用数据源包括:①彭水县基础地理空间数据,包括研究区区县边界数据、河流以及道路数据等;②彭水县2018年土地利用现状数据(水系、道路、居民点等要素),通过人机交互解译获取,同时将解译出的成果数据随机选取800个点进行了解译精度验证,数据的总整体精度在95%以上,满足本研究精度要求;③2018年彭水县人口统计数据(彭水县2018年统计年鉴);④彭水县1∶10 000 DEM数据,分辨率为30 m,重庆市数字高程模型数据(DEM),来源于地理空间数据云(http://www.gscloud.cn/),并对数据进行拼接和裁剪,得到研究区数据;⑤WorldPop数据来源于英国南安普顿大学地理数据研究所。2018年中国区域WorldPop数据集是通过土地覆被类型法来进行转换的,所用的土地覆被数据为MDAGeoCover数据集,辅助数据包括建筑用地分布数据、OpenStreetMap数据、城镇规划数据等。
2.2 数据处理
1)将彭水县1∶10 000 DEM栅格数据转换为矢量数据。
2)将所有矢量数据(土地利用现状数据、DEM、居民点分布数据等)进行投影转换,将其标准规范及空间投影参数统一,然后进行空间匹配,以便进一步分析。
3)利用ArcGIS10.2将彭水县居民点数据与土地利用类型数据进行整合,得到不同土地利用类型居民点的分布情况。
4)对彭水县道路,河流水系数据分别进行缓冲区分析,并获取不同缓冲区范围内的居民点分布数据。
5)提取主要公路数据,使用ArcGIS中Identity命令来计算各乡镇道路的主要公路里程,求出各乡镇的主要道路网密度,并计算出居民点和主要道路之间的距离。
6)使用ArcGIS中Identity命令来计算各乡镇河流的长度,求出各乡镇的河网密度,并计算出居民点和河流之间的距离。
2.3 人口数据与环境因子相关性分析
人口空间分布受自然、社会经济发展程度等因素的影响[10-13],本研究运用SPSS软件对彭水县的人口密度、地形地势、道路、河流、土地利用类型进行了相关性分析:①各研究区的人口密度和地势之间相关系数分别为0.474、0.521、0.455,说明人口密度和地形地势存在着较为紧密的关系。②各研究区人口密度和道路之间的相关系数为0.688,说明人口密度和道路密度之间也存在着较强的相关性。③人口密度与河流密度的相关系数为0.486,说明各研究区人口密度与河网发达程度有一定相关性。④各研究区人口密度与居民点密度的相关系数为0.683,表明居民点密度与人口密度之间存在较强的关系。⑤通过分析各乡镇居民地占乡镇总面积的比重,得出其与各乡镇人口密度的相关系数为0.905,说明居民用地与人口密度存在着非常紧密的关系,其中居民用地(包括城镇建设用地与农村居民用地)与人口分布最为密切。
海拔高度、道路、河流、土地利用类型等因子对人口分布影响较大。因此,选取上述4类因子对研究区进行人口统计数据空间化研究。
3 研究思路与方法
3.1 研究思路
通过相关性分析可知,人口分布受居民点分布、土地利用类型、海拔、河流、道路等因子的影响。本研究主要的研究思路为:①通过GIS分析功能,得出各因子对居民点分布的影响权重;②得出各因子对人口分布的影响权重;③把影响因子与居民点权重数据进行融合;④采用单要素和多因子加权融合法拟合各乡镇的人口密度系数,再进行相关性分析,根据分析结果验证研究方法的准确度。
3.2 研究方法
3.2.1 空间回归模型经典的空间回归模型为空间滞后模型及空间误差模型[14-16],如式(1)所示:
式中,Y为因变量,X为自变量,β为X的空间回归系数,μ为残差,W为空间权重矩阵,ρ为空间自回归系数,λ为空间自相关系数,ξ为因变量误差,ε为自变量误差。
当μ=μ1时,模型为空间滞后模型(SLM);当μ=μ2时,模型为空间误差模型(SEM),本研究经过模型比较选择最佳空间回归模型。空间回归模型中R2(相关系数)的取值范围为[0,1],R2越接近于1,说明模型的回归拟合效果越好;基于八邻域(Queen)邻接规则的空间样本常常与其周围空间单元具有更加紧密的关联效应[17-20]。为更能全面地反映行政区域单元空间邻接关系,选择构建基于八邻域邻接关系的空间权重矩阵,认为当两个空间单元存在公共边或同一点即为相邻,权值为1,反之则为0。
鉴于人口数量不可能为负值,本研究默认回归模型的自变量系数及常量必须为正值,且还需通过显著性检验。建立空间回归模型后,将模型中的常量平均分配到每个乡镇的各个格网上,即在计算各格网单元上的人口数值时,原模型中的常量发生了变化,其余参数均未变。将各格网单元上的自变量数值代入模型计算各格网单元上的人口数值,实现500 m格网单元的人口构建。
3.2.2 影响因子权重确定
1)各因子对人口分布影响权重的确定。
①确定海拔高度对居民点分布的影响权重。将DEM转化为矢量数据与居民点分布图进行叠加分析,统计出各地形层次的面积和居民点数量,计算出居民点的密度(表1)。
表1 居民点密度随海拔高度变化表
②确定主要道路对居民点分布的影响权重。研究区主要路网设置了500 m的多级缓冲带。将道路缓冲区图与居民点分布图叠加,得到不同距离缓冲区内居民点的数量和面积,计算出各缓冲区内居民点的密度(表2)。
表2 居民点密度随道路缓冲距离变化表
③确定河流水系对居民点分布的影响权重。对彭水县河流每隔500 m建立一个缓冲区,将生成的河流缓冲区图与居民点分布图叠加,得到不同距离缓冲区中居民点的数量,计算河流缓冲区中的居民点密度(表3)。
表3 居民点密度随河流缓冲距离变化表
④土地利用类型中的居民用地、工矿用地以及耕地是人类活动作用自然界最直接的体现[21]。确定土地利用对居民点分布的影响权重。利用Arc-GIS10.2软件将土地利用分布图与居民点图进行叠加,再计算各地类中居民点的分布密度(表4),作为土地利用对居民点分布影响权重选定依据。
表4 居民点在各土地利用类型中的分布
从表1~表4可以看出,海拔在200~1 000 m间的居民点密度较高,均在10个/km2以上,海拔1 000 m以上居民点密度最小,均在10个/km2以下,人烟稀少。随着道路缓冲半径的增加,居民点密度总体呈现递减的趋势,在0~3 000 m的缓冲范围内,居民点密度最高为18.28个/km2,最小为8.26个/km2。随着河流缓冲半径的增加,居民点密度总体呈现递减的趋势,在0~3 000 m的缓冲范围内,居民点密度最高为14.96个/km2,最小为9.35个/km2。居民点分布与土地利用类型之间也存在较高的相关性,与耕地和建设用地相关性最高。
2)各影响因子与居民点权重数据融合。
①获取各因子决定的人口权重相对值Vr,该值使得各因子所得的人口权重值具有可比性,计算公式如下:
式中,Di为因子某个分级(i级)的人口权重值;i表示具体为哪个分级;N为因子分级(类型)的个数;t表示遍历的所有分级。
②获取各因子人口分布相对值Pr,将各因子决定的人口权重相对值与居民点人口权重结果叠加,得到4个因子分别决定的人口分布相对值图层。
③获取研究区相对人口密度栅格图,计算公式为[22]:
式中,Pr0为相对人口密度栅格值;n为因子个数,这里取4;λt为因子影响权重。
通过ArcGIS叠加分析及相关性分析得到海拔高度、道路交通、河流水系以及土地利用4个因子的影响权重(表5)。
表5 居民点分布影响因子权重表
3.2.3 影响因子权重确定在县级尺度上对人口数据进行空间化分析,并通过相对误差(RE)、平均相对误差(MRE)、平均绝对误差(MAE)和均方根误差(RMSE)来对其结果进行验证,其评价指标计算公式如表6所示。
表6 评价指标计算公式
4 人口空间分布模拟
为与区县一级的人口统计数据保持一致,将研究区以30 m×30 m的栅格生成人口密度图,按照以下公式进行计算,公式为:
式中,Pri为任意栅格点相对人口密度;Pt为某乡镇人口总数;Pi为该栅格点上分布人口数;n为某乡镇栅格数;
再利用ArcGIS10.2软件中分析工具的栅格计算器,最终得到研究区30 m×30 m栅格的人口密度分布图(图1)。彭水县2018年人口统计数据分布图(图2)。
经过上述相关性分析和空间回归分析,结合县域人口分布的修正,本研究在30个网格单元上估算人口值,分析了2018年彭水县人口空间化(图1、图2)。由于未利用的土地和水域未纳入空间回归模型,本研究在实现人口数据空间化的过程中,将这两类土地利用类型的网格单元人口设置为0,并认为它们是无人居住的,符合实际的人口分布规律。2018年彭水县人口分布主要集中在建设用地板块,人口分布高值区主要处在县城区域,其人口最高值为16 009,最小值为0,人口分布呈现出中部高、四周低、东部高、西部低的趋势,反映了相对平缓的山区土地利用和经济发展基础更好,人口集中度更高,城市化的发展也相对来说更快。其中,距离县城较远的乡镇大部分属于海拔较高的山区,用地条件较差,经济发展相对缓慢,人口分布数量较低。结合2018年彭水县人口分布的实际情况来看,研究结果符合2018年彭水县人口分布的实际情况。
图1 基于GIS的研究区人口密度模拟分布
图2 研究区人口统计数据分布
5 结果验证
通过随机抽取彭水县的12个乡镇,根据人口数据、WorldPop和基于土地利用的中国公里网格人口分布数据集的空间结果,对乡镇人口进行统计,再将其与常住人口进行对比分析得出相对误差(RE)、平均相对误差(MRE)、平均绝对误差(MAE)、均方根误差(RMSE)以得到人口空间化误差统计表(表7)。本研究的MRE、MAE、RMSE分别为43.34%、1 532、3 004,WorldPop数据集的MRE、MAE、RMSE分别为73.66%、1 845、3 156,中国公里网格人口分布数据集的MRE、MAE、RMSE分别为74.69%、1 956、3 023。本研究误差统计均小于WorldPop和中国公里网格人口分布数据集,表明本研究中彭水县区域的人口空间化数据结果精度高于WorldPop和中国公里网格人口分布数据集。
表7 人口空间化误差统计表
模拟的人口分布数据通过彭水县乡级人口统计数据进行了验证。考虑到研究结果的可靠性,分别取彭水县长滩乡、保家镇、大垭乡和梅子垭乡作为验证区域。通过地图矢量化的方法获取4个乡镇村级行政区划,分别具有村级数据为长滩乡21个、保家镇18个、大垭乡28个、梅子垭乡16个,共获取采样点83个。利用研究区模拟人口分布栅格结果计算各乡镇总人口,并与各乡镇的实际人口数据做相关性分析,相关系数均在0.85以上,说明人口分布模拟结果符合实际的情况。从图1、图2也可以看出,彭水县人口统计数据分布与人口模拟数据分布存在空间一致性,因此本研究基于GIS技术和RS数据的人口空间分布反演方法具有一定的科学性。
6 结论与讨论
6.1 结论
人口数据空间化是人口地理学的一个新的研究方向,它不仅打破了人口数据受制于行政区划的影响,也为人口数据的采集提供新的方向[23]。本研究在GIS和RS技术支撑下,运用大数据融合的方法,对彭水县进行人口统计数据空间化研究,主要结论如下:
1)通过对彭水县30 m×30 m分辨率栅格人口密度模拟图与彭水县各乡镇平均人口密度图的实际统计对比分析,模拟的彭水县人口密度与实际人口分布基本一致,说明本研究方法是可行的。
2)研究区人口分布不均匀,县城人口密度较大;居民点沿主要公路和河流水系分布居多,且随着海拔升高。人口分布密度越小。
3)从土地利用类型对人口分布的影响来看,耕地和建设用地和人口分布的相关性最大。
4)通过与WorldPop以及中国公里网格人口分布数据集的对比,本研究得到的人口数据空间化结果精度相对更高。
6.2 讨论
虽然通过运用多因素融合的方法对人口数据进行了评价,但本研究方法仍不够完善,还需要做进一步地探讨和数据优化。人口数据空间化是一个非常复杂的问题,其精度很大程度上取决于所选择的方法与模型。本研究使用的土地利用数据来源于遥感影像解译数据,由于研究区属于多山多雾的地理环境,导致解译精度有待提高。各因素权重的确定的步骤相对繁琐和复杂,并且受作者主观影响较大,对研究最终结果的模拟精度有所影响,后续将探讨运用更科学的方法确定好各因素的权重。因此,如何提高人口统计数据空间化的准确性,还值得进一步的探讨与研究。