基于微博位置签到数据的POI更新方法
2013-01-27曹劲舟武红宇
曹劲舟,武红宇
(1.武汉大学 遥感信息工程学院,湖北 武汉 430079)
基于微博位置签到数据的POI更新方法
曹劲舟1,武红宇1
(1.武汉大学 遥感信息工程学院,湖北 武汉 430079)
POI的现势性对于位置服务至关重要,但传统人工实地调查效率低,现势性无法满足需求。以当前用户参与数众多的微博社交网络为数据平台,提出了一种基于微博位置签到数据的POI更新方法。首先,对微博位置签到数据进行预处理,剔除语义与空间位置不一致的噪声点,在此基础上提出一种基于RANSAC算法的位置签到数据集地理配准方法,实现位置签到数据与已有地理数据库的可靠配准;然后,将位置签到数据集与已有POI数据库进行空间分析与匹配建模,对匹配不成功的位置签到数据进行有效性验证,提取有效新增数据入库用以更新POI;最后,以武汉市的街旁网位置签到数据进行POI更新实验,能够有效地发现新增POI和消失POI,为POI快速高效更新提供了全新的方式。
POI;微博;位置签到数据;更新
随着Web2.0技术的日益成熟和普及,LBS(location based service)成为当下发展最为迅猛的科技应用之一[1]。随着LBS的快速发展,其对位置信息时效性的要求也越来越高。POI(point of interest)作为当前位置信息的重要载体,其实时性、数据来源的可靠性和广泛性直接影响LBS业务的发展。传统POI更新主要采用人工现场采集再入库的方法[2],不仅费时费力、效率低下,其现势性也无法满足位置服务应用的整体需求。依靠互联网信息的语义理解成为POI抓取和解析的一个新的研究方向[3],但由于网络信息的复杂性以及地理信息以描述性的文字存储,因此难以进行批量化、规范化的提取;利用电信企业库中客户信息资源和地址库中空间信息资源,通过地址匹配技术实现POI的自动匹配更新虽已有一定的成果,但是没有提出更大众化的方法,仍然无法解决POI的快速更新难题[4]。
微博位置签到数据由用户通过带有GPS定位的移动智能终端上传,具有数据量大、现势性高、带有社会化属性等特点,是实现POI高效高质更新的一种潜在可用数据源。本文以当前用户参与数众多的微博社交网络为数据平台,提出了一种基于微博位置签到数据的POI更新方法。
1 POI数据更新技术框架
微博位置签到数据涵盖了更新POI所必需的全部信息,可以实现POI的快速、准确更新,其技术流程图如图1所示。
图1 POI更新流程图
以微博位置签到数据作为数据源,必须先对其进行预处理,剔除语义与空间位置不一致的噪声点;再将位置签到数据和已有POI数据库进行空间分析和匹配建模,匹配不成功的即是POI原有库中所不具备的数据,可以作为潜在的POI更新数据源,通过对其进行有效性验证,提取有效新增数据入库用以更新POI。
2 数据预处理与地理配准
微博位置签到数据是大众自愿上传的,存在精度不高、数据冗余和格式不正确等[5,6]。所以,必须先对数据进行预处理,剔除一些没有意义、关注人数很少或者信息缺失的点,合并大量重复的点,通过与已有POI数据集配准以提高数据精度,降低数据冗余度,满足POI更新的要求。
2.1 数据预处理
微博位置签到数据预处理主要包括以下内容:
1)设置签到次数和人数的阈值,以筛选剔除如表1第1条这样一些没有意义或者签到次数很少、关注度低的数据。
2)检查数据的属性信息是否齐全。对于缺失的信息,需建立一个标准格式对需要保留的数据按照标准格式进行修改。表1中第2条数据名称属性指示不全,全称应为“武汉长江大桥”。
3)对于大量的重复签到数据进行合并处理。该操作可以利用POI数据字典与微博位置签到数据进行比对,将对应于同一地理目标的不同别名、俗称与标准名称进行合并[7,8],如表1中第3~5条数据便是这种情况。
(2)对我国现行粮食政策和管理产生影响。一是完成粮食增产目标的难度进一步加大。我国在“十三五”期间制定的粮食核心区增长目标是到2020年新增粮食产能1000亿斤。在制定该规划目标时,粮食统计口径包括了谷物、薯类和豆类。如果统计口径调整后,特别是对于方案一而言,粮食增产的任务全部落到了谷物上,而2015年以来,全国谷物总产量一直处于下降趋势,要完成增长目标的难度较大。
表1 微博位置签到数据预处理统计表
2.2 数据的地理配准
由于移动智能终端的定位存在一定的误差,导致微博位置签到数据与已有POI数据集在空间上存在一定的偏移,因此要先将微博位置签到数据进行地理配准。本文采用RANSAC算法对位置签到数据和对应POI数据的仿射变换关系进行估算。RANSAC算法通过对数据集重复取样来获得基本子集,利用基本子集估算模型[9]。它根据一个容许误差将匹配点对分为内点和外点,利用内点数据进行参数估计[10]。进行数据拟合需限定可以确定模型所需的最小数据集合。本文采用仿射变换模型,求解6个参数至少需要4个点对:
1)从点对集S中随机选取4个点对样本,利用间接平差初始化仿射变换模型构建8个方程求解6个未知参数,并得到拟合的精度误差。初始化模型设为最优模型,初始误差设为最小误差。
2)设置迭代次数阈值N,最少内点数阈值Z。从数据集中继续随机取出点对样本,如果内点条件阈值diserror小于预设阈值,则认为该点对属于内点集Si;若Si的大小超过了阈值Z,则用Si重新估计模型参数。如果得到的新拟合误差小于最小误差,则把当前内点集Si设为最优内点集,由它估计的模型为最优模型。
3)在经过N次迭代后,由最优的内点集Si估算得到的即为最优模型,输出模型参数[11]。
3 数据匹配建模与POI更新
为了确定可用于更新POI的潜在数据集,需要将微博位置签到数据与现有POI数据库进行匹配,将匹配成功的微博签到数据剔除掉,匹配失败的数据即可作为潜在的可用于POI数据更新的数据集。
3.1 匹配建模
位置签到数据匹配建模包括空间匹配与属性匹配。属性匹配建立在空间几何匹配的基础上。
1)空间匹配。通过空间分析确定每一个微博位置签到数据与已有POI数据库的空间匹配关系。以微博位置签到数据为中心,通过设定一定的距离建立缓冲区,将缓冲区与现有的POI数据进行叠置分析,同时关联相应属性表。考虑到可能存在多个微博位置签到数据对应同一POI数据点,使得缓冲区间有重合,此时不应将缓冲区合并。
2)属性匹配。将微博位置签到数据与缓冲区里面已有的POI数据集的属性信息进行匹配,主要是指要素名称的匹配。字符串的匹配是一种有效的方法,其思路是将待匹配的名称和标准名称均视为字符串,检查待匹配字符串中的字符是否在对应的标准字符串中出现,出现的视为有效字符,未出现的视为无效字符,以有效字符与无效字符数量的比值和规定的阈值比较确定是否匹配成功。具体步骤如下:
②设定匹配阈值λ,与PS2S1相比较来判断二者是否匹配。如果满足式(4),则表示符合匹配条件:
③将微博位置签到数据与其对应的POI数据集都进行匹配后,将符合式(3)的中的最大值所对应的POI数据作为该微博位置签到数据的匹配POI点;反之,则视为该微博位置签到数据匹配失败。
3.2 有效性验证与POI更新
为了保证POI入库数据的精度,必须对潜在POI数据进行有效性验证。POI更新主要基于2种原因:①原POI数据库中没有包含该地理目标,但该目标已经具备加入POI的条件,此时只需直接将位置签到数据入库存储;②POI所对应的地理目标位置发生改变,此时需通过对位置签到数据的签到次数、签到人数、时间标签等信息进行统计分析以确定需要更改或删除POI。通过对签到次数与签到人数的比进行验证,分析签到次数的聚集程度,从而选择符合要求的签到数据作为合格的POI进行更新。
本文使用式(5)作为判定条件:
式中,λtt12是新时序t2与旧时序t1之间的签到次数增长率;Ct2与Ct1分别是新旧时刻的签到次数;|t2−t1|是时间跨度;ρ是签到次数与人数的比值;C是签到次数;U是签到人数;T与T'是预设的阈值。
POI对应的地理目标位置发生改变后,利用旧地理目标位置进行签到的会逐渐减少,而利用新地理目标位置进行签到的会逐渐增多。通过对一定时间跨度的签到数据进行增长率的统计,即可以判断原POI是否需要删除以及新POI是否需要增加。
4 实验分析
本实验使用的数据街旁网2011年9月和10月2个时序的位置签到数据集,覆盖范围包括整个武汉地区。数据的属性信息主要包括名称、签到次数、签到用户数量、唯一标示符、城市名以及经纬度等。已有POI数据库为2011年版四维图新导航数据,其属性信息包括名称、字大以及类型编码等。
4.1 配准精度
实验采用微博位置签到数据与已有POI数据名称属性完全匹配的188条数据进行精度分析。在迭代次数设为20,判断内点条件阈值设为0.003,最少内点数阈值设为100的情况下,提取出有效内点集120条。对这120条数据按最优仿射变换模型进行变换,对变换前后的匹配点与对应POI的距离偏差进行统计,配准后的距离偏差整体比配准前要小,配准后的偏差均值和标准差(见表2)也明显减小,说明地理配准使位置签到数据的精度得到显著提高,如图2所示。
图2 配准前后签到数据与对应POI距离偏差统计
表2 配准前后签到数据与对应POI的距离偏差均值和标准差/m
4.2 结果分析
本实验按照式(4)利用新时序2011年10月的签到数据计算潜在更新POI的平均签到增长率以及签到聚集程度。阈值设定为签到增长率0.3次/天,签到聚集度10次/人。最后,统计出1 424条潜在更新POI可以入库,更新率为31.1%。
新增POI空间分布和类型统计表可以体现不同区域、不同类别的发展状况[13]。由表3可以看出,餐饮行业因其流动性较大,地理位置容易发生变化,所以新增比例高;而政府机关不会经常变化其地理位置,所以新增比例低。
表3 新增POI类型分布统计表
图3 新增POI空间分布图
由图3可知,武汉地区新增POI集中于江岸区、光谷、武昌火车站以及长江大桥周边等人流量大的繁华区域。图4表示消失POI的空间分布,从图中可以看出消失的POI数量相对较少,所占比例极低。
图4 消失POI空间分布图
5 结 语
传统的POI获取方式效率低,现势性已无法满足LBS的应用需求。本文提出一种利用微博位置签到数据作为数据源进行POI更新的方法,通过对来自大众自发上传的、带有位置信息的签到数据的预处理和地理配准,并与已有的POI数据库进行匹配分析,能够快速发现新增POI,找出已有数据库中已经消失的POI。通过对来自街旁网微博位置签到数据集的POI更新实验,结果表明,基于微博位置签到数据的POI更新技术流程合理可行,微博位置签到数据内容类型丰富,属性信息完整,在对定位偏差进行改正后精度基本达到要求,进行POI更新具有较高的可行性,具有广泛的应用前景。
[1] 梁力予,任露凌,万艳华.“基于LBS的社交网络”在城市公共空间管理与运营中的应用[J].信息安全与技术,2011(7):56-59
[2] 韩向春,吕艳霞.基于Wiki技术的Web GIS数据更新[J].计算机工程,2008,34(11):283-285
[3] Zhang H. Structed POI Data Extraction from Internet News [C].Beijing, 2010
[4] 戴冬冬.基于地址匹配方法的POI数据更新研究[J].电脑知识与技术,2010,6(1):1-2
[5] Goodchild M F. Citizens as Sensors: the World of Volunteered Geography [J]. Geo Journal,2007(4): 211-221
[6] Goodchild M F, Glennon J A. Crowdsourcing Geographic Information for Disaster Response: A Research Frontier[J].International Journal of Digital Earth,2010, 3(3): 231-241
[7] 毋一舟,赖俊陶,吴煜晖.基于LBS签到数据更新POI的数据预处理研究[J].计算机与数字工程,2010,40(8):87-88
[8] 杜萍,刘勇.基于本体的中文地名识别[J].西北师范大学学报:自然科学版,2011,47(6):87-93
[9] 单欣,王耀明,董建萍.基于RANSAC算法的基本矩阵估计的匹配方法[J].上海电机学院学报,2006,9(4):66-69
[10] 周剑军,欧阳宁,张彤,等.基于RANSAC的图像拼接方法[J].计算机工程与设计,2009,30(24):5 692-5 694
[11] 曲天伟,安波,陈桂兰.改进的RANSAC算法在图像配准中的应用[J].计算机应用,2010,30(7):1 849-1 851
[12] 李玉森,张雪英,袁正午.面向GIS的地理命名实体识别研究[J].重庆邮电大学学报:自然科学版,2008,20(6):719-724
[13] 赵卫锋,李清泉,李必军.利用城市POI数据提取分层地标[J].遥感学报,2011,15(5):973-988
[14] 王文韬,谢阳群.LBS与社交网络联合应用的新模式研究[J].中国市场,2011(36):85-86
[15] 周春辉,朱欣焰,苏科华,等.基于LBS的兴趣点查询与更新机制研究[J].微计算机信息,2009,25(7):143-145
Update Approach of POIs Based on Weibo Position Check-in Data
byCAO Jinzhou
The latest tendency of POI is critical for location-based services. The traditional POIs collecting based on on-the-spot investigation is inefficient. However, the fact is that it is unable to meet the demands of the location-based service applications. In this paper, a POIs update approach based on Weibo that involved the largest number users was proposed. Firstly, by preprocessing Weibo check-in data, coarse error points that were semantically and spatially inconsistent were removed, on the basis of which, a geo-referencing method based on Weibo check-in data in RANSAC algorithm was proposed for the purpose of fulfilling reliability of Weibo position checkin data with existing geo-database. Secondly, spatial analysis and matching modeling of check-in data set and the existing POIs database was implemented. After validation of unmatched data, extraction of valid new data as an updated POI into database was implemented.Finally, a POIs update experiment of Wuhan Jiepang position checkin data was implemented with the proposed approach. The experiment results show that the proposed approach can meet the requirements and effectively find new POIs and disappeared POIs. It provides a new way to update POIs quickly and efficiently and has a good prospect of application.
POI,Weibo,position check-in data,update
P208
B
1672-4623(2013)02-0015-04
10.11709/j.issn.1672-4623.2013.02.004
2012-12-17。
项目来源:国家自然科学基金资助项目(61172175)。
曹劲舟,主要从事3S集成与应用研究。