APP下载

基于海量POI数据的城市小学教育资源信息的提取与分析

2016-08-02蓝振家郭庆胜董慧娟

测绘工程 2016年10期
关键词:数据挖掘

蓝振家,郭庆胜,董慧娟,刘 晴,尹 航

(武汉大学 资源与环境科学学院,湖北 武汉 430070)



基于海量POI数据的城市小学教育资源信息的提取与分析

蓝振家,郭庆胜,董慧娟,刘晴,尹航

(武汉大学 资源与环境科学学院,湖北 武汉 430070)

摘要:通过网络爬虫获取海量POI数据具有巨大的应用前景。文中利用改进后的两步移动搜索法,计算居民区的教育资源可达性,评价以市为单位的小学教育资源的状况,将各市的GDP与教育资源可达性进行相关性分析,评价各省经济发展与城市教育发展的相关程度,为政府部门提供决策依据。同时,研究POI数据的预处理方法和分类方法。

关键词:POI;海量数据;城市小学教育资源;可达性;数据挖掘

大数据在近几年是一个热门话题。大数据(bigdata)是体量巨大(volume)、多种多样(variety)、高速变化(velocity)、真实质差(veracity)、价值密度低(value)的复杂数据集合[1-3]。这种定义指出大数据最为核心的问题就是如何从规模巨大、种类繁多、生成快速的数据集中挖掘出有用的信息,进而转变成知识,为用户提供决策服务,实现大数据的价值。大数据中约有80%的数据是与空间位置相关的[4]。POI的中文含义即兴趣点,它没有严格的定义。从地理编码的角度理解,可以认为凡是对地点地理位置具有指示或标示作用的名称都可以叫兴趣点[5]。兴趣点一般包含有名称、经纬度、地址等方面的信息,最大的特点是其中的位置信息[5]。但是,如何仅仅通过POI的位置信息挖掘出具有实际应用价值的信息是目前POI应用分析的难点。2012年国务院提出了关于推进义务教育均衡发展的意见,充分认识义务教育均衡发展的重要意义。小学教育是9年免费义务教育的重要一环,对小学教育资源发展进行评价有着重要意义。

目前,国内大部分小学教育资源的研究都针对小范围内的,陈莹采用GIS技术分析了北京市宣武区中小学的均衡性发展以及空间布局[6];任若菡等利用改进后的两步移动搜索法对重庆市黔江区的贫困区小学教育资源空间配置不合理等问题进行了研究[7];吕毅用GIS和可达性概念,对长沙市雨花区公立小学设施的供需现状进行了分析,对可达性进行评估[8]。很少有针对大区域范围内的小学教育资源的状况进行研究。为了满足对大区域范围内的小学教育资源分布状况的评价,本文将利用POI数据所包含的信息来挖掘小学教育资源的信息。

1分析方法与技术路线

小学服务半径范围内交通点(公交站,地铁站)的个数可以表征该所小学的便捷程度,个数愈多,便捷程度就越高。教育资源的可达性[6]是指学生从家(居民区)到学校(教育资源)的方便程度,它可以反映学生可获得的教育资源的多少。按照就近上学的原则,居民区出行距离范围内最近的小学的便捷程度可以作为居民区的教育资源可达性。POI数据是一种代表现实地理实体的点状数据,它可以代表交通点、小学、居民区甚至是占有一定面积的地理存在,通过海量POI数据,可以获取小学、居民区和交通点的分布情况以及位置关系信息,计算出便捷程度和教育资源可达性。网上获取的POI主要是城市范围内的,对小学教育资源信息的分析与提取也是以城市为研究对象。

首先,根据国家的小学服务半径标准,设定500m为服务半径。根据陈莹对北京宣武区教育服务区的划分,当小学服务半径取600m(路网距离)时,居民区被一所学校施教区覆盖的比例最大[6],因此小学生出行距离设置为600m,从而获得每一所居民区的教育资源可达性。然后,用ArcGIS的Join和summarize功能对所在市的相应居民区的教育资源可达性求平均值,代表该市每一所居民区平均可获得最近小学的便捷程度的多少,作为该市的教育资源可达性;用分级色彩的方式对各市教育资源可达性进行可视化,得到统计专题图。利用相关系数的计算公式(见式(1))计算以省为单位的各个市2013年GDP与教育资源可达性的相关系数,获得相关系数表。

(1)

其中:σxy表示以省为单位的各市2013年GDP与教育资源可达性的协方差,σx表示以省为单位的各市2013年GDP的标准差,σy表示以省为单位的各市教育资源可达性的标准差。最后,分析统计专题图与相关系数表,挖掘大区域范围内的城市小学教育信息。基于GIS和POI的城市小学教育资源分布状况评价的技术流程如图1所示。

图1 技术流程

2海量POI数据的预处理

本实验的POI原始数据来源于百度、图吧、图盟、腾讯等国内主要大型地图服务网站,经加工处理后的标注总量为13 362 917条,包括全国范围内的24个省/市,成果为分省导出的shp文件,共计13.8G,整理日期为2014-02。每条POI点的记录有8个字段,分别是FID、Shape、ID、name、X、Y、address、city。其中可用的信息包括name(名称),X,Y(经纬度坐标),address(地址),city(所在城市)。实验需要的POI数据有以下要求:无奇异数据、无重复项、保持数据格式的一致性、建立统一的坐标系、确定统计单元以及POI点之间的距离是点位置间的欧式距离。针对POI数据的要求,做如下处理:

1)去除奇异点。对经纬度按从小到大进行排序,删除经纬度不在研究区域内的点。

2)去重处理。删除名称相同,经纬度坐标相等的点。

3)格式规范化。对名称和地址字段中存在的中英文括弧以及数据英文全、半角等格式不一致问题进行规范统一。

4)数据源的统一。POI数据地理坐标采用Beijing_1954,投影坐标系为兰伯特投影 (China_Lambert_Conformal_Conic)与1∶400万基础地理信息要素坐标参考信息进行统一。

5)统计单元确定。研究对象以“市”为统计单元,将以“省”为单位的shp文件转成以“市”为单位的shp。

6)平面坐标获取。在ArcGIS中用“计算几何”功能获取POI点的平面坐标,利用POI点的平面坐标计算POI点之间的欧式距离。海量POI数据预处理的流程如图2所示。

图2 海量POI预处理流程

3城市小学教育资源数据的提取

实验需要对海量POI数据进行分类并提取出小学类、交通点类,居民区类。POI标注的信息结构主要包括名称、坐标及地址3种信息。由于坐标信息不带有文本描述属性,不具有文本分类的作用[9],地址信息表征的是POI点的相对位置,不具有分类特征属性,因此,将POI名称作为分类的重要研究对象。现阶段,对于中文POI名称分类的方法还比较少,刘晓娟提出一种基于Lucene的中文POI名称的切分与匹配方法,罗安提出了一种基于角色标准的中文POI名称语义分类方法等等[9-11],但都未做到完全正确的自动分类[12-14]。本实验采取特征关键词与POI名称进行匹配的方法。例如小学类:名称字段中包含“小学”字段的POI归为小学一类。分类后的POI数据存在2类问题:①某类POI数据中存在其它类别;②重复性的问题,例如:“武汉市黄陂区前川街道第一小学”,“武汉市黄陂区前川街道第一小学(南门)”,“武汉市黄陂区前川街道第一小学(西南门)”,这3条POI数据都会是小学类,但是实验只需要其中的一条数据。为保证实验数据的准确性,采用人工交互的手段。3个类别特征关键词的确定,由于国家对于POI分类没有制定国家标准规范,因此采用的是企业标准,即天地图有限公司2013年发布的天地图POI数据分类编码表。

4改进后的两步移动搜索法

本文在传统两步移动搜索法[15]的基础上,针对POI数据的特点和城市内小学生多采取就近上学的原则,进行了两方面的改进:①考虑到通过POI的位置信息来计算教育资源,将小学的便捷程度代替小学规模与人口的比值。②以居民区最近小学的教育资源代替居民区出行距离内小学教育资源的和,来代表居民区的可达性指标。因此,改进后的两步移动搜索法的第一步:以小学i为中心,以小学的服务范围(d0)为半径,建立搜寻域i,搜索所有在i距离阈值范围内的交通点m,作为该小学i的便捷程度,见公式(2)。

(2)

第二步:以任一居民区j为中心,以小学生的上学出行距离(d1)为半径,建立搜索域j,查找搜寻域内所有的小学,选择评价可达性指标。传统的是以搜索范围内学校便捷程度的和(见式(3))作为可达性指标,改进后的则是以搜索范围内最近的学校的便捷程度来代表居民区的可达性。

(3)

5实验结果与分析

实验数据有:①预处理和提取后的山东省、江苏省、浙江省、福建省以及广东省东部地区5个省份的POI数据。②1∶400万基础地理信息要素。1∶400万基础地理信息要素是国家测绘部门公开的数据,包括国界、省界、县界、地州界、主要公路、主要河流、主要铁路、主要湖泊、省级行政区和省会城市,以及经纬网,可以作为地理分析结果可视化的底图。③2013年全国各市GDP,来源于各地方统计局和宜居城市研究室。

图3 东部地区5省城市小学教育资源可达性统计图

图3为东部地区5省小学教育资源可达性的统计专题图。根据计算结果,可达性小于1为低,介于1到2为合格,介于2到5为较高,大于5的为高,将可达性分为4个等级:高、较高、合格、低。由图3分析可知:东部地区5省的省会城市除广州以外,教育资源可达性至少为较高;东部地区5省大部分城市的教育资源可达性都在合格线以上,只有9个城市的教育资源可达性为低。

以浙江省为例说明各市GDP与教育资源可达性的相关系数的计算,如表1所示。东部地区5省所在市GDP与教育资源可达性相关系数如表2所示。

表1 浙江省各市GDP与教育资源可达性以及全省的相关系数

表2 各省所在市GDP与教育资源可达性的相关系数

相关程度的划分:r>0,为正相关;r<0,为负相关。当|r|≥0.8时,为高度相关;当0.5≤|r|<0.8时,可视为中度相关;当0.3≤|r|<0.5时,视为低度相关;当|r|<0.3时,说明两个变量之间的相关程度极弱。由表1和表2分析可知:

1)山东省的各市GDP与教育资源可达性的相关系数介于0.5~0.8,为中度正相关,说明山东省的经济发展促进了城市小学教育的发展,当地政府应在保持对城市小学教育经济投入的基础上,更注重教育投入质量。

2)广东省的各市GDP与教育资源可达性的相关程度为弱负相关,说明当地政府对小学教育不够重视,应根据地区的实际情况加大对城市小学教育的投入。

3)江苏省、福建省以及浙江省3个省份的各市GDP与教育资源可达性的相关程度为低度正相关或弱正相关,说明这些省份的经济发展对城市小学教育的影响较小。当地政府部门应根据实际的状况调整对城市小学教育的投入。

6结束语

本文从海量POI数据的预处理,到数据的计算,最后到数据的可视化与分析,实现了从海量POI数据中,通过统计专题图和图表的形式,评价大区域范围内城市小学教育资源的可达性,经济与城市小学教育发展的相关程度,以及提取城市小学教育资源的信息,从而验证了实验方法的可行性。POI数据覆盖的范围非常广,除了教育方面的应用,还可以应用在公共安全、公共医疗以及城市规划等政府关切的领域。 总的来说,本文对海量POI数据信息的挖掘有一定的参考价值,对于海量POI数据的应用有一定的启示。

参考文献:

[1]UNITEDNATIONSGLOBALPULSE.2012,BigDataforDevelopment:Challenges&Opportunities[R].2012.

[2]MCKINSEYGLOBALINSTITUTE.2011BigDatatheNextFrontierforInnovation,Competition,andProductivity[R].2011.

[3]GANTZJ,REINSELD.Extractingvaluefromchaos.IDCiView,2011:1-12.

[4]王树良,丁刚毅,钟鸣.大数据下的空间数据挖掘思考[J].中国电子科学研究院学报,2013,8(1):8-17.

[5]龙军.基于角色标注的中文POI名称匹配的研究及原型系统实现[D].重庆:西南大学,2008.

[6]陈莹.基于GIS的基础教育资源空间布局研究[D].北京:首都师范大学,2008.

[7]任若菡,王艳慧,何政伟,等.基于改进的两步移动搜索法的贫困区小学教育资源可达性分析——以重庆市黔江区为例[J].地理信息世界,2014(2):22-28.

[8]吕毅.城市小学校可达性评价——以长沙市雨花区为例[D].武汉:武汉大学,2005.

[9]罗安,王勇,张福浩,等.基于角色标准的中文POI名称语义分类方法[J].测绘通报,2012(S1):521-524.

[10] 张玲.POI的分类标准研究[J].测绘通报,2012(10):82-84.

[11] 刘晓娟.基于Lucene的中文兴趣点名称的切分与匹配研究[J].电脑知识与技术,2011,7(21):5144-5146.

[12] 陈香,李晓明,詹然,等.从城市兴趣点中提取多层次地标方法探究[J].测绘与空间地理信息,2015,38(10):129-132.

[13] 陈睿嘉,康志忠,张卫涛.基于网络爬虫的导航深度服务信息自动采集[J].测绘工程,2015,24(1):17-24.

[14] 姚静.基于ArcGIS的大比例尺矢量电子地图制图研究[J].测绘与空间地理信息,2015,38(6):135-136,139.

[15]RADKEJ,MULan.SpatialDecompositions,ModelingandMappingServiceRegionstoPredictAccesstoSocialPrograms[J].GeographicInformationSciences,2000,6(2):105-112.

[责任编辑:刘文霞]

DOI:10.19349/j.cnki.issn1006-7949.2016.10.012

收稿日期:2015-05-26;修回日期:2015-10-26

基金项目:国家863计划资助项目(2012AA12A402);国家自然科学基金资助项目(41471384;41171350;41071289)

作者简介:蓝振家(1991-),男,硕士研究生.

中图分类号:P208

文献标识码:A

文章编号:1006-7949(2016)10-0059-05

Extraction and analysis of urban primary educational resource information based on massive POI data

LAN Zhenjia,GUO Qingsheng,DONG Huijuan,LIU Qing,YIN Hang

(SchoolofResourceandEnvironmentalSciences,WuhanUniversity,Wuhan430070,China)

Abstract:The massive POI data acquired from the web crawler has a great prospect of application.This paper calculates the educational resource accessibility of every residential area by means of improved two-step floating catchment area method.Then,the situation of the primary education resource in one city and the relevance between the provincial economic development and urban educational development are evaluated through analyzing the relationship between GDP and education resource accessibility.These achievements provide a decision-making basis for the government.Meanwhile,the methods of preprocessing and classifying the POI data are presented.

Key words:POI;mass data;urban primary educational resources;accessibility;data mining

猜你喜欢

数据挖掘
探讨人工智能与数据挖掘发展趋势
基于事故数据挖掘的AEB路口测试场景
数据挖掘技术在打击倒卖OBU逃费中的应用浅析
基于数据挖掘的学业预警模型构建
基于并行计算的大数据挖掘在电网中的应用
人工智能推理引擎在微博数据挖掘中的应用
一种基于Hadoop的大数据挖掘云服务及应用
数据挖掘在高校图书馆中的应用
基于GPGPU的离散数据挖掘研究
利用数据挖掘技术实现LIS数据共享的开发实践