中国乡镇(街道)人口密度数据集(2010年)
2020-11-16王卷乐王晓洁王明明姚锦一王岚涛邱丛丛
王卷乐,王晓洁,王明明,姚锦一,王岚涛,邱丛丛
1.中国科学院地理科学与资源研究所资源与环境信息系统国家重点实验室,北京100101
2.山东理工大学建筑工程学院,山东淄博 255049
3.武汉大学城市设计学院,武汉 430000
数据库(集)基本信息简介
数据库(集)名称 中国乡镇(街道)人口密度数据集(2010年)数据作者 王卷乐、王晓洁、王明明、姚锦一、王岚涛、邱丛丛数据通信作者 王卷乐(wangjl@igsnrr.ac.cn)数据时间范围 2010年地理区域安徽省、北京市、福建省、甘肃省、广东省、广西省、贵州省、海南省、河北省、河南省、黑龙江省、湖北省、湖南省、吉林省、江苏省、江西省、辽宁省、内蒙古自治区、宁夏回族自治区、青海省、山东省、山西省、陕西省、上海市、四川省、天津市、西藏自治区、新疆维吾尔自治区、云南省、浙江省、重庆市。空间分辨率 1 km数据量 108 MB数据格式 *.tif数据服务系统网址 http://www.sciencedb.cn/dataSet/handle/964基金项目中国科学院战略性先导科技专项(A类)(XDA19040501);中国科学院“十三五”信息化专项科学大数据工程项目(XXH13505-07)。
?
引 言
“100亿人在地球上如何生存和分布”被认为是21世纪地理科学的11个重大战略方向之一[1]。空间分布是人口的重要属性,人口密度则是表现人口空间分布最主要的形式和衡量人口分布地区差异的主要指标[2]。中国拥有世界上最多的国家人口总数,人口分布不平衡,资源环境承载压力大[3]。准确、精细的人口密度数据能够为区域规划与开发、灾害风险评估和救援、医疗资源配置和资源环境承载力评估等研究和应用提供支撑[4]。在全球尺度,美国国家橡树岭实验室完成了LandScan数据集[5],哥伦比亚大学国际地球科学信息网络中心完成了GPW(Gridded Population of the World)数据集[6],但这些全球尺度的数据集在中国的精度存在显著的区域差异[7-8]。在中国区域,有学者基于居民地重分类方法获取长江中游 4省人口空间分布数据[9],基于多元回归方法获取宣城城区人口空间数据[10],以及基于人口统计数据和土地利用关联建模的中国公里网格尺度人口空间分布数据集[11-13]。然而,这些数据多数是在县级人口统计数据单元基础上的产品,缺乏更精细尺度的表达刻画。乡镇级人口统计数据是目前官方公布的最精细的人口数据,然而乡镇级的人口空间数据缺乏。究其原因在于两点,一是乡镇级行政区划矢量数据获取困难,且存在大量的行政区划和地名变更问题,难以直接利用。二是乡镇级人口统计数据的空间关联需要进行大量的涉及乡镇地名和行政区划的空间数据匹配处理工作,工作量大且技术要求较高。柏中强等人[4]结合第5次人口普查构建2000年中国27省乡镇级平均人口密度数据集,但尚未见2010年的同类数据产品。本文将2010年国家统计局发布的中国31个省(直辖市、自治区)乡镇(街道)单元的人口统计数据按乡镇行政区划建立空间匹配。利用乡镇级行政区划数据的人口属性和面积属性计算乡镇级平均人口密度,经过矢栅转化形成本数据集。
1 数据采集和处理方法
1.1 数据采集
统计数据来源于中国国家统计局[14],乡镇(街道)边界数据来源于地理国情监测云平台[15]、国家地球系统科学数据中心[16]、中国科学院资源环境科学数据中心[17]和部分地图图件。
1.2 处理方法
1.2.1 拓扑处理
乡镇级行政区划矢量数据易存在两种拓扑错误:行政区划边界处存在重叠或空隙现象。造成这种错误有两种情况,一种是由乡镇(街道)矢量单元发生偏移造成的有规律的重叠和空隙,另一种是由乡镇(街道)矢量单元存在残缺或多余造成的不规律的重叠和空隙。其中第一种情况利用ArcGIS软件的空间校正(Spatial Adjustment)功能将乡镇(街道)矢量单元移回原来的位置,第二种情况利用ArcGIS的建立拓扑功能中的“不能重叠(Must Not Overlap)”和“不能有缝隙(Must Not Have Gaps)”规则实现对残缺部分的补充和对多余部分的去除。
1.2.2 属性关联
乡镇级人口统计数据与乡镇级行政区划矢量数据的属性关联是指人口统计数据的乡镇(街道)单元的人口总值属性同行政区划矢量数据的空间属性相关联,实现乡镇级人口统计值在空间上的分布。两者属性关联可以通过两者的公用字段(键)来自动关联,但往往由于存在以下3种情况导致人口统计数据和行政区划矢量数据不能完全自动关联成功:①乡镇级行政区划矢量数据的表征时间和乡镇级人口统计数据的时间不一致,在这段时间差内发生过行政区划的调整;②乡镇级行政区划矢量数据存在误差,矢量数据的行政区划单元多于或少于人口统计数据的行政单元;③人口统计数据和行政区划矢量数据对乡镇(街道)的命名方式不统一。由以上原因造成自动关联失败的乡镇(街道)单元需要进行手动关联。
本文采用决策树的思想实现乡镇级人口统计数据与乡镇级行政区划矢量数据的属性关联,如图1所示。此决策树共包含四层。第一层根节点以乡镇(街道)的名称作为公用字段(键)实现矢量数据和统计数据的自动关联,由此会出现自动关联部分和不能自动关联部分两个有向边。第二层对这两部分做进一步处理,其中自动关联部分需要以区县为单元检验自动关联的准确性;自动关联失败的部分以区县为单元进行手动关联,寻找自动关联失败的原因,由此产生6个有向边。第三层包含2个内部节点和4个叶节点。左边的内部节点是由行政区划调整导致的自动关联失败,需要根据调整信息统一矢量数据和统计数据的行政区划;右边的内部节点是自动关联错误的情况下,手动寻找统计数据中对应的人口值,2个内部节点分别产生2个有向边。中间的4个叶节点是第二层中间4个有向边的具体解决方案。第四层是第三层4个有向边的具体解决方案。具体流程如图1所示。
图1 乡镇级人口空间数据库建设流程[18]
1.2.3 平均人口密度计算
根据公式(1),计算各乡镇(街道)平均人口密度:
式中,D为人口密度(人/ km2);P为乡镇(街道)人口数量(人);A为乡镇(街道)面积(km2)。
1.2.4 矢量转栅格
利用ArcGIS的Polygon to Raster工具将人口密度矢量图层转化为栅格图层,空间分辨率为1 km×1 km。
2 数据样本描述
本数据集为栅格数据类型,空间分辨率为1 km2,后缀名为tif。本数据集包括全国22个省、5个自治区以及4个直辖市内42 122个统计单元的平均人口密度信息。数据以Krasovsky椭球为基准,投影方式为Albers投影,最后生成中国2010年乡镇街道人口密度。中国31个省(直辖市、自治区)的人口密度由东部地区至西部地区总体上呈现出密集到稀疏的分布规律,人口主要分布在中国的中东部地区,集中表现在京津冀、长三角、珠三角等经济文化较发达地区以及山东、河南等地区。图2是中国部分城市群2010年分乡镇街道人口密度示例图,图中将人口密度分为10级,蓝色区域代表人口平均密度小于等于50人/km2,红色范围表示人口平均密度大于等于2000人/km2。
图2 中国部分城市群2010年分乡镇街道人口密度分布
3 数据质量控制和评估
利用省级行政区划矢量边界统计栅格数据集,得到每个省份的栅格数据集人口值,与2010年省级人口统计数据进行对比(图3)。计算全国省级统计人口数据与栅格数据集人口数据之间的相对误差(图4),其误差计算公式(式2)如下所示:
其中,E表示相对误差;pi1表示第i个省级行政区栅格数据集的值;pi2表示第i个省级行政区统计人口值。
图3 栅格数据集人口与统计人口对比
由图3对比可得,数据集的人口分布趋势与省市级统计人口值基本一致,总体精度高达99%,说明本人口数据集精度较高。部分省份(例如福建省和浙江省)因地理条件复杂、乡镇(街道)行政边界破碎且多变,造成矢栅转换过程中产生误差略大,但仍然控制在10%以内,能够满足应用需求。
图4 栅格数据集人口与统计人口误差
4 数据价值
本数据集包括2010年全中国31个省级行政区,其中22个省、5个自治区和4个直辖市乡镇街道单元内人口统计数据。本数据集将全国范围内(不包括港、澳、台特别行政区)乡镇街道级人口统计数据与42 122个统计单元矢量边界进行关联,在空间上展示中国最精细的乡镇级人口分布数据。中国的全国人口普查数据每10年统计一次,因此本数据集可以成为乡镇(街道)级人口数据分布的本底数据集,可以在空间尺度上反映我国人口的精细分布状况,为经济发展、城市规划、医疗资源配置、灾害评估等提供数据参考。
5 数据使用方法和建议
本数据集可以用能够处理栅格或矢量数据的地理信息系统相关软件打开[4],包括开源的QGIS和GRASS GIS软件、商业化的ArcGIS、SuperMap、ENVI等。本数据集的空间分辨率为1 km,可以直接用来表征中国乡镇街道级的人口空间分布,为中国人口、资源、环境、灾害、生态等科学研究提供重要基础和本底数据。同时也可以结合同一尺度的土地利用数据、居民点数据、DEM数据、夜间灯光数据、道路交通数据、社交媒体数据等多源数据进行融合和综合分析,进一步揭示中国区域人口空间化的地理分布特征,为人类活动模拟、区域规划、资源配置、灾害评估等研究和应用提供数据产品。