APP下载

基于ArcGIS 和FME 的兴趣点数据处理技术研究

2020-02-06刘帅王佳

交通科学与工程 2020年4期
关键词:经纬度格网交通

刘帅,王佳

(1.南京市城市与交通规划设计研究院股份有限公司,江苏 南京 210018;2.长沙理工大学 交通运输工程学院,湖南 长沙 410114)

随着大数据的发展,电子地图提供的各类兴趣点(point of interest,简称为POI)为交通规划设计提供了一种新的数据支撑。国外对于POI 数据的获取和应用研究较早。Mummidi[1]等人通过分析用户在地图上注释的标签,发现兴趣点,增加了POI 数据的获取途径。Xie[2]等人提出网络核密度分析,将线要素引入核密度分析,提高了核密度的运算效率。Lian[3]等人将POI 签到信息划分权重,通过用户的签到频率增大POI 的影响区域,帮助用户推荐感兴趣的POI 信息。李伟[4]等人通过GIS 平台对POI 数据进行处理,对厦门岛内常规公交线路的可达性进行了评价。于浩川[5]等人以公交线路数据和POI 数据为基础,通过开发软件对城市公交线路进行规划。这些研究成果表明:国外研究主要集中于POI数据分析,而国内主要集中于POI 应用,但POI 数据在交通规划应用中还有诸多缺陷。因此,作者通过分析POI 数据的获取和处理,拟构建研究区域格网坐标,提取模型和分区导出模型,提高POI 数据扒取的准确性和处理效率,以期为交通规划提供前期的基础数据。

1 POI 数据简介

1.1 POI 数据概念

POI 与人们的日常生活息息相关[6],其含有地理信息的空间实体[7],是可以通过计算机编程语言从电子地图检索和扒取的位置大数据来获取。通常包含ID、名称、经纬度、类别等相关信息,其中经纬度是POI 数据的核心属性。

1.2 POI 数据的优势

POI 数据具有样本量大、获取成本低、更新速度快、位置精度高及涵盖信息详细等优势[8]。POI的空间分布可以反映城市的空间结构。POI 数据越密集,城市功能越集中,则该区域可获得的机会越多。POI 的空间分布对交通规划设计和交通基础设施的布局有重要指导作用[9]。

1.3 POI 数据的主要类型

本研究采用高德地图POI 三级分类标准,一级分类23 种,二级分类264 种,三级分类869 种。通过分析各分类POI 对交通规划影响程度的大小,基于居民使用频次和设施点数量,对电子地图POI各类设施进行筛选和分类,筛选出与交通规划相关程度较大的设施类型。从一级分类中,选出12 个POI 类型,见表1。

表1 溆浦县城区主要POI 数量表Table 1 Quantity table of main POI in Xupu County

2 POI 数据获取

传统的POI 获取方式是实地调研采集,但数据量小不能大范围的进行数据分析。随着地理信息大数据的发展,人们对全球地理信息数据的需求也日趋增加,获取方式也更加便利。

2.1 POI 数据获取方式

目前,POI 获取主要有3 种途径:①通过爬虫代码从电子地图扒取;②通过电子地图开放平台(百度地图API、高德地图API 等)来扒取POI,这些网站开放了较为完善的开发接口[10];③通过集客大数据、Geosharp、火车头和八爪鱼等软件,直接采集POI 数据。利用Geosharp 软件获取POI 数据的操作相对简单、可行性高,并且POI 数据的准确率高,因此,通过它获取研究区域的POI。

2.2 Geosharp 获取POI 数据的思路

Geosharp 是一种网络地图数据采集软件,主要包括地理编码、坐标转换和数据采集3 个模块。地理编码模块可以把地址信息解析为经纬度;坐标转换提供百度、WGS84 和火星坐标系之间的转换;数据采集模块可采取所有类型的POI 数据和天气预报数据。

Geosharp 获取POI 数据可分为3 个步骤:①选择需要获取的POI 类型。根据高德地图分类标准,采用POI 的一级分类获取。②确定研究区域,设置研究区域的经纬度。如果研究范围不大,则可以直接获取。但研究范围过大,需要进行格网划分,分区获取。③确定数据保存路径。

2.3 Geosharp 获取POI 步骤

Geosharp 的“高德地图POI 采集工具”只需研究范围的经纬度,即可采集该矩形范围内所有POI数据,根据需要导出到Excel 中。通过经纬度在地图上添加X,Y 坐标,生成位置信息。通过POI 类别,研究各类型POI 的出行特征。通过ID,确定POI的唯一性。

2.4 FME 区域格网划分

POI 数据在进行大范围采集时,由于研究区域过大,如果一次输入整个范围的经纬度,不仅会花费大量时间,而且容易造成软件异常和数据丢失。因此,会增加获取数据的难度,其结果的误差也较大。其解决办法是对该区域划分成格网单元[11],按照每个网格的经纬度坐标扒取POI,再对数据进行合并。通过多种区域格网划分方法进行比较,发现FME[12]数据的交换与处理操作最简单,自动化程度高。因此,采用FME 对区域进行格网划分,并自动提取格网坐标。FME 可以实现超过200 种不同空间数据格式(模型)之间的转换,是一款无缝连接多平台空间数据的操作工具。FME 的操作流程主要分为读模块、转化器模块和写模块3 个部分。读模块可以从外部数据源读取要素数据。转换器可以在使用者的控制下,将这些数据合并或分割,从一种表达格式转换为另一种表达格式,也可以将这些要素挂接到外部数据库上。写模块将这些要素以一种支持的格式进行输出。

本研究通过FME 软件进行建模,自动对城市的格网进行划分,提取格网坐标。具体流程:

1) 通过读模块将研究范围地理文件进行导入;

2) 通过2DGridAccumulator 转换器生成格网,按照行列数进行拆分,创建格网类型,选择Polygons;

3) 通过GeometryCoercer 转换器将研究范围面转换为线,几何对象类型改为fme_line;

4) 通过BoundsExtractor 转换器提取格网坐标;

5) 通过AttributeManager 转换器将经纬度合并成一个单元格;

6) 通过counter 转换器进行计数,设置计数从1 开始;

7) 通过写模块将格网经纬度输出到 Excel文件。

根据FME 构造模型,将研究区域进行自动化划分格网,得到每个格网左上角和右下角的经纬度坐标。再将经纬度坐标依次输入Geosharp 高德地图的POI 采集工具。最后,通过Geosharp 分区获取POI 数据,得到整个研究区域所有的POI 数据。

3 POI 数据处理

3.1 POI 数据区域整合

通过Geosharp,从高德地图中采集POI 数据类型较多,但采用手动方法对各类Excel 进行合并的,操作比较繁琐。因此,采用FME 进行建模,自动将各类型POI 进行合并。FME 模型构建流程为:

1) 读取文件夹,将POI 的Excel 文件通过读模块进行导入。

2) 通过AttributeSplitter 转换器,对POI 类别进行拆分,创建3 个属性。Attribute Value 值分别为type_list{0},type_list{1},type_list{2}。

3) 通过写模块将所有数据输出到Excel。

3.2 POI 数据与地图关联

通过ArcGIS for Desktop 实现POI 数据和地图的关联。ArcGIS for Desktop 作为GIS 中的主流产品,其特点是数据管理效率高、空间分析能力强、可视化程度高。ArcGIS 为大数据的管理、分析和可视化提供了有效的处理工具。ArcGIS for Desktop主要由ArcCalalog (管理空间数据)、ArcGlobe(大型三维场景处理与分析)、ArcMap(二维数据的处理、管理和分析)和ArcScene(小型三维场景处理与分析)4 个部分构成。

通过FME 数据合并模型对POI 数据进行整合,导入到ArcMap 中,按照经纬度属性添加X,Y 坐标,生成位置信息,设置坐标系统,将POI 地理信息数据可视化,得到整个研究区域的POI 分布情况。POI 数据可视化结果如图1 所示。

图1 POI 点数据空间分布示意Fig.1 Spatial distribution of POI point data

3.3 POI 核密度分析

如果将每个POI 点均作为一个功能单元,POI密度越高,表明该地区城市功能越集中。为了分析POI 的聚集特征,了解各类服务设施的空间分布状况,利用ArcMap 10.2 的密度分析工具,对研究区域内的各类兴趣点进行分析。

3.3.1 核密度分析原理

密度分析是通过输入数据的数量计算数据的集散程度,生成一个连续的密度分析面。通过计算得到密度,将每个点的密度值分布在研究区域上,最后得到每个栅格的像元值[13]。

密度分析中,最为重要的是核密度分析。核密度分析一般用于计算要素周围邻域的密度。既可以计算点要素的密度,也可以计算线要素的密度。核密度分析示意图如图2 所示。

根据概率理论,核密度分析模型为[14−15]:

图2 核密度分析输出要素示意Fig.2 Schematic diagram of output elements of kernel density analysis

式中: k( )为核函数;h 为带宽,h > 0; x - Xi为估值点x 到事件Xi处的距离。

核密度分析可以体现POI 数据点的空间分布,对点状数据进行分析尤为有效。通过核密度分析,计算每个输出栅格像元周围点要素的密度,生成POI 数据点热力图。

核密度分析中,需要设置输出像元大小和搜索半径2 个参数。设置的搜索半径越大,生成的密度栅格越平滑,概化程度越高;搜索半径值越小,生成栅格显示的信息越详细。

3.3.2 交通小区划分

交通规划需要全面了解POI 对各类交通源的吸引程度。由于不可能对每个POI 单独进行研究,因此,分析POI 时,需要根据交通小区对POI 进行合并处理。

3.4 POI 分区导出模型构建

为了将所有POI 数据按照交通小区依次导出,得到每个小区的各类POI。传统的方法是划分好交通小区,依次裁剪,导出POI 数据。但当数据量较大,该方法费时费力,效率较差。ArcMap 可提供一种自动化处理工具—ModelBuilder,通过ArcMap的模型构建器,轻松实现批处理工作。

ModelBuilder 是创建、编辑和管理模型的应用程序[16]。其原理是将一系列地理处理工具串联在一起的工作流,它将其中一个工具的输出作为另一个工具的输入。可将ModelBuilder 看作一种简单创建、可循环操作的可视化编程语言。进行模型构建时,可以直接将工具箱的各种地理处理工具和需要处理的数据集拖动到模型构建器界面中。然后,有序地把它们连接起来,实现批处理工作。

模型构建器的优势:①ModelBuilder 可以集合ArcToolbox 各种工具,进行创建,并且自动化处理所构建的工作流;②结合使用ModelBuilder 和脚本,可将ArcGIS 与其他应用程序进行集成;③Model−Builder 创建的自动化模型,可以在Python 脚本中使用。

本模型构建中,将划分好的交通小区在ArcMap 按字段依次导出,添加裁剪工具,输入要素为POI 点数据,裁剪要素为交通小区面数据,得到各个交通小区的POI 数量。

3.5 交通小区当量POI 的计算

通过ArcMap 中ModelBuilder 构造,批量导出模型,将整体POI 数据按照交通小区进行划分,依次导出。交通小区内,不同类型的POI 对于交通规划的影响程度不一。通过结构熵权法,确定各类POI对公交出行的影响权重,依次对不同类别POI 进行量化计算,得到各个小区的当量POI 数据,为后续交通规划、公交线网优化[17]提供数据支撑。量化公式为:

式中:Di为交通小区i 的当量POI;E 为获取的POI类型数;we为第e 类POI 的权重;die为交通小区i第e 类POI 数量。

4 实例分析

以溆浦县为例,通过Geosharp 软件和高德地图,获取城区各类POI 数据。获取POI 之前,避免区域过大,造成数据丢失,对研究区域进行格网划分,采用FME 格网划分模型对溆浦县城区进行格网划分,如图3 所示。

通过Geosharp,由高德地图分区,获取格网小区POI。根据FME 的数据合并模型,将格网小区POI 数据进行合并、数据清洗,为ArcGIS 建立POI地理数据库进行前期数据准备。本试验获取了12个POI 类型,有效POI 数量为1 800 条,见表1。

图3 溆浦县格网划分示意Fig.3 Grid division diagram of the Xupu County

先将POI 数据导入ArcGIS,添加经纬度信息,设置地理坐标系为WGS 1984,导入溆浦县中心城区用地现状图,进行地理配准。再将POI 数据加载到溆浦县中心城区用地现状图进行核密度分析。设置热力图颜色,颜色越深,表示POI 数据比较密集;颜色越浅,表示POI 聚集程度较为稀疏。溆浦县POI数据空间分布如图4 所示。

图4 溆浦县POI 空间分布热力Fig.4 Thermal map of of POI in the Xupu County

根据溆浦县城区道路现状和城市规划分区情况,将该区域划分为22 个交通小区,小区划分示意图如图5 所示。

通过ArcMap 的ModelBuilder 构造,批量导出模型,将所有POI 数据按照划分的交通小区依次导出,得到每个小区的POI 类别和数量,通过权重进行量化见表2。

图5 溆浦县交通小区划分示意Fig.5 Division diagram of traffic district of the Xupu County

表2 量化后交通小区POI 数量Table 2 Number of POI in traffic area after quantification

5 结论

通过FME 构造格网坐标提取模型,对研究区域进行格网划分,再采用Geosharp 软件获取POI数据,最后基于ArcGIS 模型构建分区导出模型,将POI 数据分区导出,并进行量化处理。通过采用格网坐标提取模型和分区导出模型进行自动化处理,再导出各类POI 数据。该方法比原有裁剪导出操作更节省时间,也更有效率。

猜你喜欢

经纬度格网交通
遥感数据即得即用(Ready To Use,RTU)地理格网产品规范
繁忙的交通
云南地区GPS面膨胀格网异常动态变化与M≥5.0地震关系分析
实时电离层格网数据精度评估
基于经纬度范围的多点任务打包算法
小小交通劝导员
自制中学实验操作型经纬测量仪
基于格网法表土剥离时空顺序确定
澳洲位移大,需调经纬度
阅读理解三则