基于大数据对城市公园的研究方法
2016-12-12李亮稷沈娉胡悦谭健岚
李亮稷 沈娉 胡悦 谭健岚
摘要:当今时代是大数据时代,市民对城市公园质量的要求也多样化。研究大数据的类型信息和收集平台,以及数据的可视化和处理平台,探讨大数据在城市公园的服务质量、人群特征两方面的研究方法。
关键词:大数据 ;城市公园 ;服务质量 ;人群特征
[本文系广东大学生培育专项资金项目,项目编号:j2tw-K1160010]
大数据时代的到来,使得城市时空间组织和行为研究方法面临着变革。近年来,国际上大量知名的开放数据组织开始支持国内数据访问;中国政府也在有序推进着政府的信息公开工作;大批互联网公司开始在一定程度上开放自己的数据。
城市公园作为一种面向着广大市民的公共服务,颇需关注。随着经济发展的小康要求,公园逐渐泛化,市民对公园质量的要求也多样化,但关于公园的服务质量、使用人群特征的研究并不多,且公园的服务质量和市民的需求之间出现了一定程度的错配,如空间使用强度错配、周边设施错配等。
因此,通过研究关于公园的大数据类型和收集方式,以及数据可视化和处理平台,并将数据和分析内容结合起来,能为以后研究者提供发掘城市公园的使用现象和规律、不同人群的需求方法,进而能对城市公园的供给和需求进行匹配,并提出有意义的政策和建议。
一、关于城市公园的大数据收集
对城市公园研究需要收集的数据信息:一是城市公园本身的信息,包括公园名称、位置经纬度、总体评分、评论数量和周边设施情况等;二是使用人群的活动状态和特征,包括基本信息、来源地、位置经纬度、使用时间、评论内容和舆情评价等。
网络大数据平台多样且形式丰富,具有收集途径多样、提取迅速、成本低、操作简单等优点,能够为研究者提供短期内采集大量公园数据的可能性。
(一)大众点评网数据
大众点评网是国内使用量较多的本地生活消费平台,也是全球最早建立的独立第三方消费点评网站。大众点评网能够为公园使用者提供城市各类公园的介绍信息、用户点评和周边公共服务设施信息。
收集数据的工具为火车头工具。收集数据的步骤为,在抓取网址中填入“公园”“广场”“绿地”和不同类型的“公共服务设施”等关键词,并填入抓取范围对角的经纬坐标。数据保存为Excel文件,信息包括:公共空间的名录、地理位置、公共空间拥有的评价数、用户对该空间的总体评分以及公共服务设施的数量和地理位置。
(二)新浪微博数据
新浪微博网是提供微型博客服务类的社交网站,是目前国内最大的网络信息交互平台。新浪微博蕴含海量有价值信息,其使用者数量基数大,状态信息更新频繁,信息传播迅速,收集意义十分重大。
收集方式为:利用微博开放平台作为接口,获取一定区域范围内的带地址信息的微博。收集操作较简单,可行性强。但从2015年4月之后,微博开放平台进行了身份验证的改革,平台的开放性降低,数据获取增加难度。数据保存为Excel文件,信息包括发送微博事件、微博ID、微博文本内容、发微博时候的经纬度、发微博的地区距离查询中心的的距离(单位是米)、用户的ID、用户性别、用户资料填写的省份和城市。
(三)百度搜索数据
百度网是全球最大的中文搜索引擎、最大的中文网站。百度拥有全球最大的中文网页库,目前收录中文网页已超过200亿,这些网页的数量每天正以千万级的速度在增长。与公园有关的搜索量和词汇,在一定程度上能反映出公园的热度和用户对公园的评价。
收集方法为:在上述微博数据中选出高频词,在百度搜索进行词频搜索“公园名称+关键词”,记录搜索数量。存在的不足是该方法使用人工方式进行搜索,使用起来方便性不高,如能设计自动搜索程序将有利于该方法应用。
(四)网络舆情数据
探宝是一款网络舆情监测产品,国内首个免费的舆论监测平台,舆论的监测信息的数据来源于8000多个主流新闻网站、论坛、网站、贴吧、网易、新浪、搜狐等博客门户,以及微信平台文章的信息采集及汇总整理。在探宝中能获得公园名称在不同媒体中出现的频率以及正负性评价,非常直观。
收集方法为:在探宝平台上输入相应公园,可得到网络上相关的信息数量信息来源以及正负面信息统计。不足为该方法使用人工方式进行所有公园搜索,使用方便性不高,且依赖于探宝舆情监测平台,数据经过了二重转换和整理。
(五)其他平台数据
1.手机移动数据
中国移动通信集团公司是中国通信行业三大运营商之一,在通信行业处于排头兵位置。移动数据蕴含使用者的一些基本信息、位置分布和生活轨迹等。收集方法为:基于移动公司平台,基于地图可以获取城市公园内的CGI和CGI可以获取使用的用户,最后基于用户可以提取业务信息;但移动公司平台针对商业用户服务,且数据涉及到大量的个人隐私,因此和科研机构合作很难。
2.开放爬虫系统数据
开放爬虫系统主要面向高校和科研单位的大数据研究团队,提供个性化、定制的互联网数据获取服务。该系统面对大众开放,通过绑定新浪微博帐号并通过验证后,用户即提交新浪微博的数据抓取任务。但在抓取数据的过程中,遇到了以下困难:(1)很多用户在公园里对其进行评论时不写出公园的名称,故以“××公园”为关键字抓取的数据会有很多遗漏;(2)系统对每天提交关键词的数量有限制,每个用户每日单个类型任务最多可提交5次,获取信息量小且需耗费大量人力手动搜索。
3.八爪鱼采集器数据
八爪鱼采集器是深圳视界信息技术有限公司研发的一款网页采集软件,以完全自主研发的分布式云计算平台为核心,可以从各种不同的网站或者网页获取大量的规范化数据,帮助用户实现网页信息的自动化采集。但是经过试验发现该方法存在的问题:(1)抓取的数据不含地理信息;(2)一次性抓取的数据量太少;(3)需要购买抓数据规则、现成的规则不能灵活满足抓取需求;(4)参照该采集器规则自行编程设计规则的难度较大。
4.ROST系统数据
ROST数据抓取工具是一款针对多种类型网页的数据抓取工具,可以抓取文学网站的数据以及“新浪微博”“腾讯微博”和“搜狐微博”等微博平台的数据。该工具的优点在于简单易操作,但存在问题是该工具已过期,不可直接使用。
5.Gooseeker数据
Gooseeker集搜客大数据软件针对Web这个大数据库,提供将网页内容进行语义标注和结构化转换的功能,能够把语义标签摘取下来,实现网络数据的抓取。单在抓取数据的过程中有两方面的局限性:(1)微博数据无法完整采集;(2)基于网页的采集方式使得很难自动采集到大众点评上的公园的研究。
二、数据处理的平台和方法
把收集的大数据整合成数据库,为了让研究者更方便直观地了解结果,可以借助图形化手段清晰地分析与传达数据,揭示出大数据背后令人惊奇的特征和规律。本研究探索了不同数据处理平台的可视化步骤,方便根据数据类型的不同,选择相应的分析处理平台。
(一)GIS平台
GIS平台,即地理信息系统,是一种特定的空间信息系统。它是在计算机系统的支持下,对地球表层空间中的有关地理分布数据进行采集、储存、管理、运算、分析、显示和描述的技术系统,将地图这种独特的视觉化效果与一般的数据库操作集成在一起。处理方法为:
1.建立空间数据库
通过数据抓取工具获取具有经纬度的数据后,对所有收集的数据进行清洗、预处理,并按要求批量汇总合并不同区域的数据excel文件,形成空间数据库。
2.文件导入ArcMap进行预处理
分别将参照点文件和参照地图导入ArcMap,添加参照点Excel文件,XY分别为经度、纬度,接着编辑空间参照属性,选择合适的地理坐标系,一般为“Xian 1980”。再导入研究的城市的划分边界,即可得到初步的数据空间分布。如果城市划分边界的坐标系和参考点的坐标系不一致,则需要运用万能坐标转换器对数据的坐标系统进行转换。
3.利用ArcToolbox处理工具进行相关分析
ArcMap的ArcToolbox中Spatial Analyst工具,可以生成直观的分析图表达数据的空间分布特征。以采用核密度分析为例,首先选择密度分析中的核密度分析,在选项卡上设置输出像元大小和搜索半径,其中城市层面和片区层面的搜索半径值不同。接着在符号系统选项卡中选择分类,分类方法选择自然间断点分级法,并选择色带,最后得到数据的空间分布可视化表达。
(二)百度地图LBS 开放平台
百度LBS开放平台具有开放定位、地图以及搜索三个领域的服务。用户可以将自身数据与百度地图的数据在云端结合,同时在平台上完成测距、本地搜索、周边查询、路径规划等所有关于位置数据的计算和分析。同时可以直接在开放平台上模拟或实现数据存储、数据字段设定、检索等,可以在编辑器中直接调试运行程序。
其操作简易,能在没有专门知识的情况下获得可以直接使用的代码,开发成本极低,另外可以共享百度地图用户和流量,但每次只能进行单个数据的操作,无法负荷大数据的可视化效果。处理方法为:
1.定位中心点
打开百度地图API中的地图快速生成器,可以按位置名称或经纬度进行中心点定位。
2.设置地图
可以在此步骤中对地图的尺寸、状态、各种按钮的位置、大小以及比例尺的单位进行细化调整。
3.添加标注
百度地图自带了点、线以及文字标注工具,可以直接在地图上进行标注地点名称、备注,等等:
4.获取代码
点击获取代码键就能得到地图信息的代码。
(三)“地图慧”平台
地图慧是一个提供在线地图与地理信息系统服务的网站,能一键式制作专业的地图应用,让数据内容在地理空间上得到可视化展示,是一款开创交互式地图、地理空间应用新形态的工具。该操作简单快捷,比较适合短时间内获得小规模的可视化效果,但其数据处理基于在线网站,只有数据导入功能而缺少数据导出功能,因而普适性较差。处理方法为:
1.选择地图及标注模板地图慧平台上有各种各样用途的地图模板,如在地图上标注公园位置,则可以选择业务地图中的点标注模板。地图数据创建进入制作界面后,创建地图的标题、介绍和标签。
2.手动标记和批量上传是添加点数据的两种方法
手动标记的优点是较为灵活,可直接标注在地图上,但是手动标记需要逐一修改名称、描述,若数据点多则时工作量较大;而批量上传可以按经纬网坐标定位,只需将空间名称、评论数、经纬度整理成excel表格,接着上传至网站,即可自动生成分析图。
(四)Google earth平台
谷歌地球是一款Google公司推出的虚拟地球仪软件平台。它把卫星照片、航空照相和GIS数据整合在一起,形成一个地球的三维模型。该平台支持导入、导出大量的矢量和图像文件,可以快速地制作GIS数据地图,还能使用电子表格导入程序制作大量地址的地图。Google earth平台以全面的谷歌卫星地图为依托,地图数据较齐全。
GIS平台与Google earth具有较好的数据交互功能,可以利用GIS的功能模块Layer to KML将GIS平台下的各种数据转换为KML文件导入Google earth中。KML文件是该平台的一种标定地理位置的地标文件,可用来描述和保存地理信息(如点、线、图像、多边形、3D模型等)。但由于谷歌地球是一个真实的球体模型,其坐标系统在与其他平台对接时会产生不可预料的偏差,因此在该平台上分析的数据难以在其他平台上进行进一步操作。
三、对于城市公园供给(服务质量)研究方法
(一)空间分布
城市公园在城市中的空间分布,反映出不同地区公园的服务强度。通过收集的大众点评网数据,包含经纬度和数量信息,接着通过GIS平台或“地图慧”工具能实现公园在城市上分布的可视化表现,再通过GIS平台生成相应的核密度图,可直观得知公园在城市中的分布规律。对比公园分布密度疏密的地区,特别是市区和郊区,分析成因,并提出加强建设区域公园的建议政策。
(二)服务均衡性
城市公园的服务均衡性,体现在人均绿地、公园覆盖率等。通过收集的网上统计的公园覆盖率、人均绿地面积,可以制作相应的柱状图,分析城市不同地区的公园情况。再通过GIS平台分析生成公园覆盖率图,分析公园在城市不同地区中覆盖的情况。对比公园分布密度疏密的地区,并结合调研和访谈结果,分析成因,提出协调城市各区域公园的服务均衡性的建议政策。
(三)开放使用情况
通过收集网上统计的研究城市的公园开放情况、使用情况及设施情况,可以制作相应的饼状图,再结合问卷和访谈结果,分析使用者对公园内部设施、清洁度和锻炼设施等硬件设施的评价,分析城市整体的公园开放使用情况、成因,并提出优化公园的开发使用的建议政策。
(四)交通设施便利性
先在GIS平台上描绘城市的公共交通道路网和地铁线路网,再提取大众点评网的地铁站点、公交站点和周边设施站点数据,通过GIS平台将数据可视化,生成相应核密度图。将线路网和公园核密度图叠加,和将站点设施核密度图和公园核密度图做对比,可以分析公园周边交通和设施的便利性,并探讨成因,提出改善公园周边交通和设施的建议政策。
(五)使用者满意度
使用者满意度可以由公园热度、评分和正负度反映。通过收集的大众点评网公园数据,分别将评论数量高和数量低的公园在GIS平台上进行可视化表现,能分析得到城市热度高低的公园的分布规律;再将评分高和低的公园在GIS平台上可视化表现,能分析得到城市评分高低的公园的分布规律;再通过网络舆情工具,收集城市公园的正负度和形容词的搜索指数,对比空间热度分布、评分分布图和正负度分布图,分析使用者满意度现状,并提出改善公园服务质量的建议政策。
四、对于城市公园需求(人群特征)研究方法
(一)人群画像
人群画像指城市公园内使用人群的性别比例、年龄结构、人群类型和来源省市,通过统计收集的微博数据和移动数据,制作相应的饼状分析图和人群分布图。分析城市公园内的人群画像,归纳出使用人群的基本特征。
(二)出行情况
使用人群的出行情况,主要包括出行交通方式、花费时间、使用目的、使用频率和停留时间,通过统计收集的移动数据和问卷调研访谈数据,制作相应的饼状分析图,可以分析城市公园内使用人群的出行特征及成因,并提出改善公园使用者的出行情况的建议政策。
(三)空间分布
公园使用人群空间分布,反映出不同区域的公园使用热度,对比城市人群分布和公园使用人群的分布,可以分析不同区域公园的使用效率。通过收集微博数据和移动数据,在GIS平台上实现空间可视化,得出城市人群的分布核密度图及公园使用人群的核密度图,分析人群的空间分布规律,并探究其中成因,对公园的建设提出建议政策。
(四)时间分布
公园使用者在工作日、休息日、节假日以及每天的不同时间段使用强度不同。通过收集公园内的微博数据和移动数据,根据时间整理出不同时间的数据,在GIS平台上实现空间可视化,得出城市人群在不同时间的分布规律,探究其中成因,并提出对使用者的出行有效的建议政策。
(五)使用需求
使用者对公园的使用需求,包括社会性需求、情感需求、功能性需求、知识需求和偶发性需求。获取的微博数据和大众点评网数据中,包含着使用者对公园的评价信息,通过语义舆情工具,提取出评价的关键词、舆情情况,从而归纳出人群的使用需求;再结合部分问卷调研和访谈,进一步验证出城市公园人群在使用需求方面的具体要求,并据此对公园的建设提出有利效建议政策。
参考文献:
[1]秦萧,甄峰,熊丽芳等.大数据时代城市时空间行为研究方法[J].地理科学进展,2013,(9):1352-1361.
[2]邓昭华.城市开放空间服务能力的研究方法探索[J].价值工程,2013,(35):7-11.
[3]崔永峰.游憩性城市公共空间使用状况评价(POE)研究[D].长安大学,2008.
[4]于彩娜.基于使用状况评价(POE)的城市公园研究[D].青岛理工大学,2012.
[5]李华.城市生态游憩空间服务功能评价与优化对策[J].城市规划,2015,(1):63-69.
[6]姜莎莎.综合性公园使用状况评价(POE)研究[D].北京林业大学, 2013.
作者单位:
华南理工大学
指导老师:邓昭华副教授