大数据在社会科学领域的应用探讨
——基于POI 大数据的案例
2019-06-13巫细波
巫细波
(广州市社会科学院 广东 广州 510410)
随着信息化、网络化、智能化及物联化的深入发展,各领域每时每刻都在产生大量数据,有别于传统的数据,大数据具有5V(Volume、Velocity、Variety、Value、Veracity)特点[1],即数据量大、数据生成及处理速度快、数据类型多样、价值密度较低、数据准确和可信赖。近年来,大数据已经引起了国内外学者的广泛关注和研究,在迈尔-舍恩伯格和库克耶合著的《“大数据”时代:生活、工作与思维方式的大变革》中指出大数据正在深刻改变经济生活的各领域[2],这本论著掀起了国内外大数据研究热潮并成为许多学科的热点与主流[3][4][5],朱建平对大数据的分析理念进行了深入辨析[6],张庆熊(2015)、李天柱(2018)、周良发(2018)等学者则专门讨论了大数据在人文社会科学领域的应用及发展趋势[7][8][9][10]。随着网络地图服务的快速兴起和普及,POI 这种具有地理坐标度信息的数据逐渐成为一种社科研究的重要数据类型。POI 数据是人口、土地、经济、社会等城市主要要素相互作用的综合体现,集地理位置信息和功能分类信息于一体,与传统数据相比较还具有规模大、覆盖广、类别多、易获取、更新速度快等优点,越来越得到用户认可和青睐,也日益引起研究人员的重视[11][12][13]。与传统基于城市用地类型划分的城市功能结构研究不同,通过POI 数据识别和分析复杂多变的城市功能空间结构可大量节省实地调研的时间,而且能够从宏观、中观及微观多种尺度对城市空间结构开展分析,使得研究结果也显得更为精细。一般而言,一个城市的POI 数据类型多样而且数量非常庞大,以广州为例,根据从高德地图抓取的POI 数据量达到128 万条(数据抓取时间为2017年7 月份),常用的Excel、Access、Stata、SPSS 等软件难以直接处理这么大量的数据,必须借助数据库进行存储和处理。对于大部分科研人员而言,免费而且功能足够的强大的开源数据库成为必然选择,常用的开源数据软件主要包括MySQL、PostgreSQL、SQLite 等,与商业数据库相比还有一些差距(见表1)。本文以粤港澳大湾区的496 万个POI 数据的存储与分析处理为例,结合PostgreSQL开源数据库探讨社会科学大数据的处理与应用方法,同时采用空间核密度方法分析粤港澳大湾区城市空间结构现状并总结其特征。
表1 主流数据库优缺点对比
一、研究数据与方法
(一)研究数据
POI 数据。一种能够代表真实地理实体的点状数据,一般包含点要素的名称、类别、经纬度、电话、所在省市以及地址等基本信息,POI中的坐标数据一般为WGS84 地理投影坐标,涉及距离、面积等空间统计分析需要将地理坐标转换为地图投影坐标。本文采用的POI 数据通过第三方网络数据爬虫工具从高德地图开放平台获取,数据获取时间为2017 年8 月。借助POI 数据之所以能够对城市空间结构开展研究关键在于每个POI 都是城市物质空间中实际存在的一个点,大量POI 集聚分布在空间上形成连片区域,能够反映城市功能空间布局特点,同时POI 数据还包括社会空间的各种属性信息,而城市空间结构研究根据研究目的和对象的不同可以分为城市物质空间和城市社会空间的研究,因而借助POI 数据可以同时从物质空间和社会空间两个维度研究城市空间结构的演化规律和各子系统的相互作用机制。高德地图POI 原始数据共包含汽车销售、餐饮服务购物服务、生活服务、体育休闲服务、医疗保健服务、住宿服务、风景名胜、商务住宅、政府机构及社会团体、科教文化服务、交通设施服务、金融保险服务、公司企业、道路附属设施、地名地址信息、公共设施等23 大类数据类型,本文根据研究目标选取其中的19 类POI 数据展开分析,以粤港澳大湾区范围内的广州、深圳、香港、佛山、澳门、惠州、肇庆、江门、东莞、中山、珠海等11 个地区的POI 数据为研究对象,POI 数据总量接近500 万条(具体见表2)。限于篇幅限制,本文只对所有POI 数据展开总体分析,不对7 大细分类型展开分析。
表2 粤港澳大湾区七类POI 数据情况
(二)研究方法
1.大数据分析方法
由于采用数量庞大的POI 数据对粤港澳大湾区城市空间结构展开分析,传统基于Excel、TXT、CSV 等文件系统的数据处理和分析方法已不可能胜任,必须借助大数据分析方法。大数据是一类复杂且庞大的数据集合,传统的基于文件系统的数据管理工具或者应用已经无法胜任其数据的处理工作,必须采用单机数据库系统或者分布式网络数据库进行高效率存储和数据传输,为各种数据分析提供强大的基本支撑。本文的POI 数据为500万条级别,可以采用单机数据库系统进行,本文采用PostgreSQL 数据库系统(版本为10.4),作为免费而且功能强大的关系型数据库系统,非常适合用于社科研究人员开展各类基于大型数据的科学研究。
2.空间核密度分析方法
一种将离散数据进行空间平滑处理形成连续分布密度图的方法,能够有效地分析出离散数据的空间分布特征和趋势,其计算公式如下:
公式(1)中,(fx)为空间位置x 处的核密度计算函数;h 为距离衰减阈值,可以是固定值,也可以根据样本进行计算或者是动态值,还可以根据点要素的属性值进行加权计算;n 为与位置x 的距离小于或等于h 的要素点数(如果采用加权方法,此处n 则为要素属性值的总数);k 函数则表示空间权重函数,一般是距离衰减函数。核密度计算公式的几何意义为密度值在每个核心要素ci 处最大,并且在远离ci 过程中不断降低,直至与核心ci 的距离达到阈值h 时核密度值降为0。本文采用ArcGIS 软件进行核密度计算,不采用加权处理,h值会根据样本特征进行自动计算。核密度分析方法会产生栅格数据,为显示不同区域POI 数据密度差异需要对栅格数据进行分组分级,本文主要采用Jenks 自然断裂法进行分组统计并显示。
二、基于开源数据库的大数据处理方法及步骤
(一)大数据分析基本流程
大数据的分析主要涉及到数据管理和结构支撑、开发模型和评测、可视化和用户接口、商业模型等几个方面,分析流程一般包括数据源、数据管理、数据建模和数据结果分析及可视化(见图1)。大数据分析过程中最耗时和耗力的环节就是数据的准备阶段,因此分析大规模的数据时必须考虑到数据存储、过滤、移植和检索的效率。此外,选择何种数据库也是必须考虑的重要问题,主要考虑应用场景、数据量及存储方式、多用户管理和并发性等问题。总体而言,开源数据库的功能也越来越强大,可以满足绝大部分科研需求。以流行的开源数据库为例,MySQL 易用性较强,主要应用于网络应用;SQLite 则主要应用于数据较小、嵌入式终端而且不需要多用户并发访问数据的场景;PostgreSQL 支持完整的SQL 标准、社区活跃、更新持续而且对空间数据和空间计算支持较好,综合而言非常适合社科人员使用,尤其适用于本文要处理的POI 数据。
(二)数据处理步骤
1.数据导入
数据库数据导入方式一般包括使用SQL 命令、数据库API 编程及图形化工具等三种方式,图形化工具比较适合社科领域研究人员采用,如果数据不规整需要整理则采用编程方式比较合适。本文使用的POI 数据为CSV 格式,这种格式数据可以用PostgreSQL 内置的“copy”命令导入,效率高,适合熟悉SQL 语法的研究人员;还可以利用PostgreSQL 内置的pgAdmin 可视化工具导入,步骤简单而且支持中文,适合大部分社科领域的研究人员,本文也采用这种方式。此外,还可以借助Navicat 等第三方数据库管理工具导入,可视化操作更加方便,但一般第三方软件需要付费。如果需要反复进行大规模的地理空间查询和分析,可直接借助PostgreSQL 的空间扩展模块PostGIS 将POI 数据中的地理坐标信息存储为Geometry 数据类型。
2.数据分类及合并
由于POI 数据源于地图导航领域,其分类方式需要根据研究目的对数据进行多次分类整理,在不删除原数据的情况下可采用视图方式对数据进行分类检索。本文以分析粤港澳大湾区城市空间结构为例,因此根据商业、产业、生活居住、政务办公、科教文化、休闲、交通等7 大类对POI 数据进行分类合并处理,如果需要数据交换还可以将分类合并后的每一类POI 保存为视图也可以导出为CSV 格式数据,方便下一步分析。这里对不同区域不同类型POI 数据进行分类统计(见表3),每一次查询都非常快,如果用以往基于文件系统的数据查询方式,基本不可能实现。
3.数据分析
由于PostgreSQL 数据库本身的空间统计与空间分析功能很弱,需要将POI 数据需要转换才能够为地理信息软件处理(如ArcGIS、QGIS、MapGIS等地理信息软件)。本文主要采用核密度方法,因此需要将POI 数据转换为地图投影坐标下的地理空间数据并用ArcGIS 进行核密度分析。
4.数据制图
POI 数据可以通过多种地理信息软件进行制图,一般情况下地理制图需要包括地图内容及地图附件(指北针、比例尺、图例等)。本文采用核密度方法对POI 大数据进行分析,其结果为栅格类型的图并结合粤港澳大湾区行政边界矢量数据进行显示,可以非常清晰地展示POI 数据的空间密度分布情况。
三、基于POI 大数据的案例分析
限于篇幅限制,本文仅对粤港澳大湾区地区所有类型的POI 进行总体核密度分析,研究探讨粤港澳大湾区各城市空间结构的总体空间布局特征,不单独对7 大细分类型POI 展开分析。总体上看,相对于基于传统统计数据的方法,基于POI 大数据的分析能够更加清晰准确地识别出粤港澳大湾区城市空间结构的网络化、多中心及空间连片化特征。
(一)城市功能空间整体上呈现高度集聚特征
总体上看,粤港澳大湾区绝大部分POI 分布于珠江两岸,其中东岸POI 数量明显大于西岸,外围区域POI 数量较少而且集聚规模较小。从地区分布看,广州和深圳两地的POI 数量最多而且较为接近,占比均超过了20%,分别达到23.44%和21.39%。采用ArcGIS 软件对粤港澳大湾区所有类型POI 进行核密度分析,结果显示:广州、深圳两大城市主城区均形成了大规模的高密度集聚区,香港九龙、东莞莞城、佛山禅城则形成了次级高密度集聚区,惠州惠阳、珠海香洲、广州花都及番禺、中山石岐、江门蓬江、肇庆端州等区域侧形成更小规模的集聚区(见图2)。
(二)多中心城市空间结构特征明显
广州、深圳、香港三大城市主城区是粤港澳大湾区城市空间的三大中心,各类城市功能POI均呈现高度集聚特征,对七类城市功能空间POI的数据分析均支持这一论断,三大中心在不同领域具有比较优势。其中,广州在政务办公、科教文化、商业、交通等方面占有数量优势,是大湾区政治、文化、商业及交通功能空间的主要核心;深圳在产业、科技创新等城市功能空间占有相对优势,成为大湾区新兴信息技术产业及产业科技创新的核心引擎;香港则在国际化功能空间、高等级科研空间等方面具有相对优势,是目前大湾区迈向全球化的重要窗口。
(三)城市空间等级化和网络化特征显著
粤港澳大湾区城市空间以广州、深圳、香港三大城市主城区为中心,借助完善的公路、铁路、水运及航空立体化交通网络,大湾区其他城市围绕这三个中心周围形成等级化、网络化特征明显的城市空间结构,整个大湾区城市空间结构主从关系明确,核心城市突出,居于主导地位。其中,佛山禅城、东莞莞城、珠海香洲、中山石岐、江门蓬江、肇庆端州、广州花都及番禺等区域形成大湾区次级中心区。东莞虎门及长安、惠州惠东、博罗及惠东、佛山三水及高明、广州从化及增城、肇庆四会及高要、中山小榄与古镇、珠海斗门等区域则形成三级中心城市;大湾区外围区域则围绕县域中心形成各类POI 小规模集聚区,成为大湾区城市网络结构体系的重要节点城市,三大层次城市通过实体交通网络与虚拟信息网络形成体系层次分明、等级化、网络化特征显著的城市空间结构。
(四)城市功能空间连片化特征明显
随着珠三角城市一体化进程不断深入发展,大湾区内部各城市之间的各类经济活动与人员往来日益频繁,各类城市功能空间POI 不但在各自城市行政边界内部形成POI 连片高密度集聚区,也逐渐突破城市行政边界制约,促使各类城市功能空间POI 在城市之间也逐渐形成了连片化高密度集聚区,这种高密度连片化特征在生活居住空间、交通空间及产业空间等方面显得尤为明显,如广佛、深莞之间的居住空间POI 连片化特征非常明显。
结语
随着物联网及智能化时代的到来,社会科学领域的数据类型及数量快速增长,传统基于文件型的数据存储和处理方法已无法适用,常用的Excel、Access、Stata、SPSS 等软件难以直接处理这么大量的数据,必须借助数据库进行存储和处理。对于大部分科研人员而言,免费而且功能足够的强大的开源数据库成为必然选择。本文以粤港澳大湾区的496 万个POI 数据的存储与分析处理为例,结合PostgreSQL 开源数据库探讨社会科学大数据的处理与应用方法。通过研究发现:PostgreSQL 数据库免费、易于适用、性能强大等特点使得非常易于社科研究人员使用,单机数据库系统能够轻松应付百万级数据量;POI 大数据也将随着网络地图服务的深入发展成为一种重要的社会科学研究数据;根据POI 大数据的空间核密度分析可以发现粤港澳大湾区城市空间呈现高度集聚、多中心、等级化及功能空间连片化特征。如果数据量进一步增加以及需要整合跨网络数据源,基于单机数据库的大数据处理方法则需要更新改进,必须借助基于云计算的大数据方法,这有待下一步的研究探讨。