APP下载

社交媒体位置数据支持下的城市功能区识别——以上海市为例

2022-09-15牛妍妍杨诣成於家王晨宇孙海情

关键词:居民区热力功能区

牛妍妍, 杨诣成, 於家,2*, 王晨宇, 孙海情

社交媒体位置数据支持下的城市功能区识别——以上海市为例

牛妍妍1, 杨诣成1, 於家1,2*, 王晨宇1, 孙海情1

(1.上海师范大学 环境与地理科学学院,上海 200234; 2.上海师范大学 “数字人文资源建设与研究”重点创新团队,上海 200234)

基于社交媒体位置数据,采用-means聚类方法,通过分析在500 m×500 m网格尺度上,城市不同时间的腾讯用户密度热力值变化规律,识别上海城市功能区,将不同区域按功能区类型划分为产业园区、城市居住区、郊区居住区、城市综合功能区、农村村落地区、农田、滩涂及未利用地分布区.通过将识别结果与高分辨率卫星影像和兴趣点(POI)数据的对比分析,证明了使用社交媒体位置数据进行城市功能区识别的可行性.本方法获取数据成本低,运用简便,为对其他地区主体功能区的划分提供了一种新的思路与方法.

社交媒体位置数据; 城市功能区;-means算法; 上海市

0 引言

随着人口和产业在城市的集聚,为了满足居民不同的生活需求,城市在发展过程中形成了不同的城市内部功能分区[1].城市功能是城市整体活动特点和类型的体现,识别城市内部功能区的空间分布结构,能够为城市结构优化、城市资源的优化配置和城市发展规划等提供决策依据[2].对城市功能区的研究多采用土地利用现状图、统计年鉴、调研问卷等数据,通过构建指标体系划分城市功能区.WU等[3]基于西安统计年鉴、土地利用调查数据集及政务网站公开栏等信息,通过构建城市功能分区指标体系,将西安市分成6个功能区,对西安市发展空间分异进行研究.WANG等[4]根据城市已定义的区划界限、交通环线、城廓线等方面划分西安的城市主要功能区.传统研究中,数据获取时间与人力成本较高,且更新不及时,同时,在指标体系构建中也存在权重系数设定的主观性问题[5].

近年来,大数据的研究方法被广泛运用于人文地理学的研究中[6].在大数据时代的背景下,基于多源位置数据的社会感知手段,成为实时、高效、客观地识别城市用地分类及混合用地、特殊用地的低成本工具[7].这些数据中所包含的时间和语义特征[8],有助于深入理解区域功能结构和人类活动之间的相互作用,提供从人类活动以及个体视角进行城市空间结构研究的新思路[5].很多学者根据社交媒体位置数据、兴趣点(POI)数据、出租车轨迹数据及手机信令数据,进行城市功能区的划分.NING等[2]基于新浪微博用户在深圳市的位置签到数据,结合用户签到频率、POI数量比例,以及土地利用混合程度,构建了POI数据模型,综合POI空间信息和语义信息,实现了城市空间自组织形态的功能区域主体功能识别.JIANG等[9]基于高德POI数据,通过数据的重分类与赋值,将上海城市空间分为六大类别,研究不同类别功能区的功能辐射程度与范围,并对上海绿地空间结构开展了评价.YAO等[10]使用时序出租车出行数据和POI数据对居民出行模式进行研究,基于动态时间规整和-medoids聚类算法识别广州城市功能属性和空间结构.ZHAO等[11]基于手机数据,分析了通信公司漫游用户数、基站网流量和话务量代表实际游客量的可靠性程度,并基于手机数据的波动规律识别城市功能区分布特征.但是,运用微博签到数据获取的用户覆盖面较小,且数据具有不确定性[12];POI数据在数据特性方面与建筑实体之间的对应性更强,并不能直接反映人类活动;出租车轨迹数据主要分布在中心城区,其在郊区较为稀疏;由于通信基站在郊区的间距较大,导致中心城区与郊区的手机信令数据分类结果具有较大差异.相较于POI、出租车、手机信令数据的局限性,用户使用社交媒体软件所产生的位置数据在一定程度上能够揭示城市用地的社会、经济功能,如以居住职能为主的区域和以办公职能为主的区域在一天中会呈现不同的人口活动强度和变化特征[7].

本文作者将腾讯用户密度热力值作为数据源,以上海市(除崇明区)的陆域范围为研究区域,将其划分成正方形网格,通过-means聚类方法,挖掘城市中500 m×500 m网格尺度上用户密度热力值变化的时间规律,实现上海城市行政地域的城市功能区识别.将识别结果与遥感影像、POI数据进行分析对比,验证本方法的可行性,并借此分析了上海城市空间结构,以期为上海城市建设与规划提出可行性建议.

1 研究区与数据源

1.1 研究区概况

1.2 数据源

选用腾讯用户密度热力值作为社交媒体位置数据源.腾讯用户密度热力值由腾讯公司(http://www.qq.com)发布.腾讯用户密度热力值记录了腾讯应用(如QQ、微信、腾讯地图和其他一些提供位置服务的移动应用)用户的位置信息.根据腾讯公司2016年发布的大数据白皮书(http://bigdata.qq.com),在北京、上海、广州等中国一线城市,腾讯应用用户占城市总人口的比例超过93%,可见运用腾讯用户密度数据来表达一线城市人口分布特征具有较高的可行性[13].此外,根据腾讯公司2021年度报告,腾讯公司旗下两大社交媒体软件——微信和QQ的月活跃账号数量已分别达到12.68亿和5.52亿,有较大的用户基础[14].腾讯用户的动态分布可以充分体现人口的分布与流动特点,是一般人群动态分布的抽样空间化表达.

本研究运用的腾讯用户密度热力值来源于微信宜出行公众号城市热力图,该数据主要呈现腾讯公司应用用户的实时密度信息,以表征该地区当前人口分布情况[15].应用Python编程语言,以1 h为间隔,获取了研究区域2019年8月25日—2019年8月31日,每日5∶00—22∶00共126个时刻(每日18个时刻)的腾讯用户密度热力值.原始数据坐标系统为国家测绘地理信息局加密的GCJ-02坐标系,经过数据去重、空间化、坐标校正、坐标转换等处理后,转换为上海城市坐标的空间数据.最终获得的人口动态分布数据精度高,点阵间距为27 m,可以较详细地反映特定区域、特定时间段的人口分布特征(图1).

图1 腾讯用户密度热力值

此外,还运用了高分辨率遥感影像与POI数据检验城市功能区识别结果的准确性和精度.高分辨率遥感影像数据来源于谷歌地图.POI数据通过高德地图采集,共16 514条记录.将POI数据综合为12类:餐饮购物、生活服务、体育休闲、医疗保健、酒店宾馆、旅游景点、居民住宅、政府机构、科教文化、交通设施、公司企业以及金融保险.

2 研究方法

2.1 数据预处理

2.2 K-means聚类算法

-means聚类算法是一种无监督学习算法[16],在1967年由MACQUEEN[17]首次提出.相较于其他聚类算法,-means聚类算法能以较小的计算开销,取得较好的聚类效果.

运用Python编程语言和第三方开源机器学习算法库scikit-learn进行算法编码,对预处理后的网格数据使用-means算法进行聚类,将网格聚类的结果作为城市功能区识别的结果.scikit-learn库囊括机器学习中分类、聚类、回归、降维四大类模型,集成了-means、支持向量机(SVM)、决策树、随机森林、主成分分析等常见算法.scikit-learn库中的Preprocessing data模块包含了标准化、归一化、变量转换、异常值处理等预处理操作的函数[18].

3 实验结果

3.1 聚类簇结果识别

根据相同类型城市功能区可能具有相似人类活动特征的原理,使用-means聚类方法,分别对研究区内21 582个网格进行聚类.经过多次测试与对比,当聚类簇的数量设为6,即将网格分为6类功能区时,划分的结果最为合理.

图2显示了将网格聚类为6种类型后,不同类型区域内的腾讯用户密度热力值的变化特征.

图2 6类功能区腾讯用户密度热力值变化.

(a) 休息日;(b) 工作日

类型1中腾讯用户密度热力值变化在工作日起伏不大,但日间(10∶00—17∶00)会出现明显的低谷,与类型6的特征比较相似,且低于类型6.结合遥感影像将其判别为郊区居民区,生活在该功能区的居民夜间至清晨在家休息,日间出门上班工作,动态人口呈现波动特征.但由于远离市中心,人口密度较低,呈现低腾讯用户密度热力值的特征.

类型2中腾讯用户密度热力值始终保持在0附近,说明该功能区人类活动较少,将其归为农田、滩涂及未利用地分布区.

类型3中休息日腾讯用户密度热力值明显低于工作日.工作日5∶00—9∶00腾讯用户密度热力值呈现增长趋势,10∶00—15∶00腾讯用户密度热力值明显高于其他时间段,16∶00—22∶00腾讯用户密度热力值迅速下降至低值,具有明显的通勤特征;休息日的腾讯用户密度热力值在全天呈现较低值.该变化模式与产业园区中人口变化模式较为吻合,将类型3归类为产业园区.

类型4中,休息日从10∶00开始都呈现稳定的中高腾讯用户密度热力值的特征,并一直持续到夜间;工作日10∶00—15∶00腾讯用户密度热力值明显高于其他时间段,16∶00以后出现下降趋势,但在夜间未降至低值,说明依然有大量市民在活动.城市中心的综合功能区往往存在写字楼、商场、居民区混合在一个区域的情况,与类型4的腾讯用户密度热力值波动模式相吻合,将类型4划分为城市综合功能区.

类型5的腾讯用户密度热力值在工作日和休息日都稳定在较低值,说明人类活动规模较小,经过与遥感影像的对照,将其划分为农村村落地区.

类型6中腾讯用户密度热力值呈现双峰特征.工作日8:00腾讯用户密度热力值有一个高峰,17∶00—22∶00存在另一个高峰,下午12∶00—14∶00处于全天最低值;休息日上午的腾讯用户密度热力值峰值时刻为9:00,晚于工作日,日间7∶00—17∶00的腾讯用户密度热力值一直高于工作日.城市居民区中由于要承担居住的功能,在晨间与夜间会有大量人聚集,在中午或者下午居民存在出行的需求,人数会有短时的下降,这与类型6的特征相似,将类型6归类为具有高人口密度的城市居民区.

3.2 识别结果验证

将分类结果进行可视化,并叠加高分辨率遥感影像与POI数据对分类结果进行验证.分类结果如图3所示.

图3 城市功能区分类结果

A地区为桂林路地铁站附近的上海漕河泾新兴技术开发区,公司企业与交通设施的POI占比分别达到了47.5%与11.9%,本研究将该地区归为产业园区,这与实际情况相一致.B地区为人民广场地铁站附近区域,通过对遥感影像与POI数据的分析,发现该地区聚集着来福士广场、上海市人民政府、上海博物馆等商业、办公、文化场所,同时也分布着均乐小区、顺天村等居民区,混合了多种城市功能,餐饮购物、生活服务、公司企业、居民住宅的POI占比分别达到44.4%、13.1%、15.1%及6.3%,是上海的城市中心,本研究将其归为城市综合功能区,分类结果准确.C地区为通河新村地铁站附近区域,位于上海主城区北部外环内,汇集了通河新村、民悦苑、共和新苑、宝宸共和家园等多个住宅小区,居民住宅与生活服务类型的POI在此区域内占比分别达到40.6%与14.3%,本研究将该地区归为城市居民区,分类结果与实际相符.D地区为浦东新区三林镇黄浦江沿岸地区,该地区位于上海市2035规划的城市副中心前滩南部,目前是未开发的城乡结合部,由于该地块的区位优势以及处于房租的价格洼地,在旧式住宅聚集了不少租客,形成了郊区低密度居民区,本研究将其归为郊区居民区,分类结果较为准确.E地区为奉贤区泰日镇乐善村的村落区域,研究将其归为农村村落地区,结果合理.F地区为松江区小昆山镇西部的一片农田,由于地处偏远,未被用于城市建设,本研究将其归为农田、滩涂及未利用地分布区,结果与实际比较相符.除上述典型样本外,共抽取100个随机样本,经高分辨率遥感影像结合POI数据分类结果检验,所提算法的检验精度达到78%,具有较好的可信度.

3.3 上海城市空间结构

以上海城市坐标原点(东经121°28'12",北纬31°13'48")为中心,5 km为间隔半径,生成13级缓冲区,并依次与网格进行叠置分析,统计每一级缓冲区中的功能区网格数量.

在距上海城市坐标原点5 km之内的区域,城市综合功能区的数量占比最高,距离中心越远,占比越低.城市综合功能区是城市居民的综合活动场所,集商业、办公、居住等多类功能于一体.城市中心由于交通便利、公共服务设施健全,对城市居民的吸引力大,易形成城市综合功能区.城市居民区的数量占比峰值出现在距上海城市坐标原点5~10 km的区域,说明上海的城市居民区主要分布在城市综合功能区周围,这些地区由于毗邻城市综合功能区,交通便捷,易吸引大量居民居住,形成城市居民区.产业园区主要分布在距城市中心15 km以外的城市近郊与郊区新城附近,由于其对劳动力的需求,往往毗邻居民区.郊区居民区则多位于距城市中心20 km之外的区域,其位置相对偏远、交通相对不便,人口密度较低.农田、滩涂及未利用地分布区大多位于30 km之外的偏远地区,人口较少,与主城区的联系程度较低.

上海城市主城区的空间布局形成了类似同心圆的结构,以上海城市坐标原点为中心由内向外依次为城市综合功能区、城市居民区、产业园区、郊区居民区、农村村落地区和农田、滩涂及未利用地分布区,各个区之间呈现“点-轴-面”的空间结构特征.在图3中,A,B,C和D地区所组成的区域范围内,综合功能区、城市居民区具有较大的面积分布,且呈现较为明显的同心圆结构,这与上海市中心城区高度城市化有关,说明上海市中心城区的城市功能已经呈现高度混合状态,大量城市综合功能区的形成,标志着该区域不再是单一的功能区.而郊区新城则大多由单一功能区组合而成,如图3中E,F所在的城市西北部和东南部,分布着较大面积的农田、滩涂及未利用地分布区,其余区域也多以产业园区、郊区居民区、农村村落地区这些单一功能区为主,有别于上海市中心城区出现的功能混合情况.

经过几十年的发展,在上海几个郊区形成了规模较大的卫星城:青浦新城、嘉定新城、松江新城、南汇新城和奉贤新城,在上海的“十四五规划”中也明确提出要加强推进“五大新城”的建设和发展.这些新城具有一定的规模与发展潜力,现如今已吸纳了不少居民与产业入驻,但是总体上尚未形成完善的城市功能,新城更多是主城区的“睡城”与承接主城区产业外溢资源的产业园区复合体,缺乏独立性.从图3中也可以看出,5个新城的城市范围内尚未形成连片分布的城市综合功能区.鉴于此,在未来的新城建设中应进一步加强城市核心功能的建设,如引导优质医疗、教育、商业落户五大新城,通过政策吸引科研院所与高端产业进驻,加快推进新城内部的公共交通建设等,推进新城的合理规划与发展,增强上海整个城市网络的张力和竞争力.

4 结论与讨论

采用-means聚类方法,通过分析城市500 m×500 m的网格尺度内,腾讯用户密度热力值在时间上的变化规律,识别上海城市功能区,并将上海市的城市行政地域划分为产业园区、城市居住区、郊区居住区、城市综合功能区、农村村落地区和农田、滩涂及未利用地分布区六大城市功能区.将识别结果与高分辨率卫星影像及POI数据进行了对比检验,符合区域的实际情况,证明本算法具有较好的可行性和实用性.本算法数据获取成本较低、实施较简单,可用于监测城市用地变化及结构的相关工作中.通过对城市功能区的识别与可视化,使决策者能够更好地掌握城市复杂的空间结构,有利于对不同的城市功能区进行合理的城市规划与管理.同时,识别结果也可为城市不同公共服务设施的选址提供决策依据,进一步推动城市功能区结构调整,促进区域协调发展.

此外,本研究尚有不足之处,今后将进一步完善研究内容:1) 精细化划分城市功能区,基于路网数据将城市划分为街区单元,使用真实的街区作为功能区识别的最小单元,进行功能区识别,使功能区划分结果更接近于实际情况;2) 获取更长时间序列的腾讯用户密度热力值,进一步融合多源数据(出租车GPS数据、公交数据、地铁数据及手机信令数据等)进行探讨.

[1] CHI J, JIAO L M, DONG T, et al. Quantitative identification and visualization of urban functional area based on POI data [J]. Journal of Geomatics, 2016,41(2):68-73.

[2] NING P F, WAN Y, SHEN Y R, et al. Identification of urban interest function region by using social media check-in data [J]. Journal of Geomatics, 2018,43(2):110-114.

[3] WU W H, XU J W, YANG J X. Quantitative research of spatial development differentiation in Xi’an from the perspective of urban functional zoning [J]. Geographical Research, 2012,31(12):2173-2184.

[4] WANG H, TIAN P P, LIU H. Spatial structuring of ‘new economies’ in Xi’an and its mechanisms[J]. Geographical Research, 2006(3):539-550.

[5] CHEN S L, TAO H Y, LI X L, et al. Discovering urban functional regions using latent semantic information: spatiotemporal data mining of floating cars GPS data of Guangzhou [J]. Acta Geographica Sinica, 2016,71(3):471-483.

[6] ZHONG B, DENG H K, AN N, et al. The re-examination of human geography research and the research methods in the context of big data [J]. Human Geography, 2019(3):14-21,90.

[7] XU J G, YANG F. A study of urban functional area identification methods based on big data of social sensing [J]. Urbanism and Architecture, 2017,260(27):32-36.

[8] KNOR E M, NG R T, TUCAKOV V. Distance-based outliers: algorithms and applications [J]. The VLDB Journal, 2000,8(3):237-253.

[9] JIANG J Y, DAI F, ZHAN J H. Urban functional zone recognition and green space evaluation of Shanghai based on POI data [J]. Chinese Landscape Architecture, 2019,35(10):113-118.

[10] YAO Y, ZHANG Y T, GUAN Q F, et al. Sensing multi-level urban functional structures by using time series taxi trajectory data [J]. Geomatics and Information Science of Wuhan University, 2019,44(6):875-884.

[11] ZHAO Y, ZHANG C Z, JIN Y H. How reliable are cellular positioning data in tourism environments?An exploration of functional regions [J]. Human Geography, 2018,33(3):137-144.

[12] SUI Z W, WU Y, LIU Y. Clustering LBSNS users based on check-in records [J]. Geomatics World, 2013,20(3):26-30.

[13] YAO Y, LIU X, LI X, et al. Mapping fine-scale population distributions at the building level by integrating multisource geospatial big data [J]. International Journal of Geographical Information Systems, 2017,31(5/6):1220-1244.

[14]腾讯控股有限公司. 腾讯控股有限公司2021年报[EB/OL]. (2021-12-31) [2022-04-15]. https://www.tencent.com/zh-cn/investors.html#investors-con-2.

[15] ZHANG X D, HAN H Y, SHU X F. Influencing factors on the vitality of five commercial complexes in Hangzhou: based on the heat maps analysis [J]. Journal of Geo-information Science, 2019,21(11):1745-1754.

[16] SARO J, KAVIT A. Review: study on simple K-means and modified K-means clustering technique [J]. International Journal of Computer Science Engineering and Technology, 2016,6(7):279-281.

[17] MACQUEEN J. Some methods for classification and analysis of multivariate observation [C]// Proceeding of Berkeley Symposium on Mathematical Statistics and Probability. Berkeley: University of California Press, 1967:281-297.

[18] YANG Y, ZHAO C. Survey on K-means clustering algorithm[J]. Computer Engineering and Applications, 2019,55(23):7-14,63.

Identification of urban functional areas based on social media location data: a case study of Shanghai

NIUYanyan1, YANGYicheng1, YUJia1,2*, WANGChenyu1, SUNHaiqing1

(1.School of Environmental and Geographical Science, Shanghai Normal University, Shanghai 200234, China; 2.Key Innovation Group of Digital Humanities Resource and Research, Shanghai Normal University, Shanghai 200234, China)

Based on social media location data,this paper uses-means clustering method to achieve the identification of urban functional areas in Shanghai by analyzing the change pattern of Tencent user density heat values at the grid scale of 500 m×500 m at different times in the city. The different areas of Shanghai are divided into industrial areas,urban residential areas,suburban residential areas,integrated urban functional areas,rural village areas,agricultural land,mudflat and unused land areas based on the functional area types. The feasibility of using social media location data for urban functional area identification is demonstrated by comparing and analyzing the identification results with high-resolution satellite images and point of interest(POI) data. The cost of data acquisition of this method is low. And it is easy to be used,which provides a new idea and methodology for the division of the main functional areas in other urban regions.

social media location data; urban functional area;-means algorithm; Shanghai

10.3969/J.ISSN.1000-5137.2022.04.019

2022-05-17

国家自然科学基金(72074151); 上海自然科学基金(20ZR1441500); 国家社会科学基金(18ZDA105)

牛妍妍(1998—), 女, 硕士研究生, 主要从事空间优化与选址、 应急疏散方面的研究. E-mail:2097585146@qq.com

於 家(1982—), 男, 教授, 主要从事空间优化与选址、 应急疏散方面的研究. E-mail: yujia@shnu.edu.cn

牛妍妍, 杨诣成, 於家, 等. 社交媒体位置数据支持下的城市功能区识别——以上海市为例 [J]. 上海师范大学学报(自然科学版), 2022,51(4):531‒538.

NIU Y Y, YANG Y C, YU J, et al. Identification of urban functional areas based on social media location data: a case study of Shanghai [J]. Journal of Shanghai Normal University(Natural Sciences), 2022,51(4):531‒538.

P 208; TU 984

A

1000-5137(2022)04-0531-08

(责任编辑:包震宇)

猜你喜欢

居民区热力功能区
热力站设备评测分析
烧结混合机各功能区的研究与优化
“熊”视眈眈
周六福520爱跑节1000人登陆西安城墙 热力开跑
衡水市不同功能区土壤营养元素的比较
集萌社
水功能区纳污能力计算及污染物总量控制
是谁让危险品企业埋伏居民区?
居民区WCDMA网络深度覆盖解决方案
主体功能区规划实施需要解决好四个问题