高精准IP地理位置定位技术分析及应用
2022-11-11赵圆圆蔡锋波
赵圆圆 蔡锋波
(湛江科技学院 广东省湛江市 524000)
IP地址定位是一种通过IP地址来确定主机地理位置的技术。高精准IP地理位置定位可以实现街道级别的、实时的IP地理位置查询。采用超高精度IP实时定位技术,通过网络测量和大数据挖掘,对IP的地理位置和相关属性进行测量,在无需硬件支持的条件下,即可对被探测目标终端IP完成定位。本文从IP地址定位技术分析、多入口农贸平台位置服务应用举例和结论3个方面加以介绍。
1 IP地址定位技术
IP地址是IP协议提供的一种统一的地址格式,它为互联网上的每一个网络和每一台主机分配一个逻辑地址[1]。地区互联网注册管理机构(Regional Internet Registry,简称RIRS)是负责将IP地址块分配给ISP的多家国际组织之一。现在,全球共有五大RIR机构,分别为RIPE(Reseaux IP Europeans),欧洲IP地址注册中心,服务于欧洲、中东地区和中亚地区)、LACNIC(Lation American and Caribbean Internet Address Registry,拉丁美洲和加勒比海Internet地址注册中心,服务于中美、南美以及加勒比海地区)、ARIN(American Registry for Internet Numvers,美国Internet编号注册中心,服务于北美地区和部分加勒比海地区)、AFRINIC(Africa Network Information Centre,非洲网络信息中心,服务于非洲地区)以及APNIC(Asia Pacific Network Information Centre,亚太地址网络信息中心,服务于亚洲和太平洋地区的国家)[2]。APNIC负责为互联网注册机构(Internet Registry,以下简称IRS)分配IP地址,有时APNIC也会直接给终端用户分配地址。国家和本地互联网注册机构(以下分别简称为NIRs、LIRs)在APNIC的指导下,根据各种相关政策和程序,为其成员和客户分配地址空间。
APNIC Whois数据库详细说明了APNIC在亚太地区管理范围内的数字互联网资源记录(IP地址分配情况和AS号码),是一个可公开搜索的数据库[3]。每个记录都包含许多不同的对象,例如:AS号、地址段、人员等。
IP地址定位方法从基础数据采集、硬件系统搭建、应用场景划分和定位系统研发4个方面加以分析。
1.1 基础数据采集
基础数据采集为IP地理位置定位技术的研究提供基础数据支撑,是IP地址定位的基础性工作和关键技术。首先,按照不同的数据采集规则,针对不同数据源的数据格式,利用自动化智能化的数据采集技术;对采集到的数据进行筛选、清洗和挖掘,形成基础数据库,为系统提供基础数据支撑。
基础数据采集的研究内容包含确定数据源(如Whois开放数据等)、分析数据采集的方法(如网络爬虫、数据交换、地面采集等)、各种数据采集方法的可行性分析及实现方案、确定采集数据的属性值(如地理位置、经纬度、所属运营商等)、数据的清洗办法、数据的正确性验证、基础数据的迭代更新等。
为了保证数据质量和数据丰富性,针对不同的数据源,可以通过三种方式获取基础数据,分别是数据挖掘、数据采购、地面采集。数据挖掘是指通过网络爬虫,从特定网页如APNIC网站、BGP网站、地图类网站中获取IP及地理位置信息[4];数据采购是指从可以提供基础数据的公司进行数据采购,例如某本地服务网站、某网络打车网站等;地面采集是指利用数据采集软件,进行人工实地数据采集。数据采集技术已存在多个开源的第三方框架,例如Scrapy、Nutch、Crawler4j、WebMagic等;数据挖掘算法,例如支持向量机SVM、K-Means等,都已得到广泛应用。数据采集和分析情况如图1所示。
图1:数据采集和分析
1.2 硬件系统搭建
硬件系统搭建是指选择机器、购买机器、配置机器、测试机器和维护机器整个过程,通过构建硬件系统,为系统部署提供硬件环境。硬件系统包括GEO机器和VP机器(VantagePoint,探测机),GEO机器是系统定位算法的运算机,即系统的算法服务器,VP机器是系统的探测机,用于获取网络路径信息。
硬件系统中的GEO机器,要求网络稳定、配置高、易于管理即可,与覆盖ISP及其地理位置无关,通过比较阿里、腾讯、亚马逊等云服务器,选择符合要求的GEO机器即可。而VP机器用来获取网络路径信息,VP机器覆盖的ISP越多、位置分布越分散,探测到的路径信息就越丰富,系统的定位结果以及网络拓扑的绘制就会越准确。
1.3 应用场景划分
按照IP的应用场景,将IP分为9类,分别是住宅用户、企业专线、学校单位、数据中心、基础设施、移动网络、公共热点、组织机构和卫星通讯。应用场景划分如图2所示。
图2:IP应用场景分类方案
以香港地区网络为例,不同应用场景IP的用途与特征不同,如表1所示。其中,学校单位和数据中心的活IP率高,地理覆盖范围小,时延小,路由汇聚,与骨干网近;住宅用户的活IP率低,地理覆盖范围小,时延中,路由汇聚,与骨干网远。
表1:IP的9类用途及其特征
通过对IP的相关数据进行抽象分析,建立特征工程和数据模型;通过机器学习的方法,完成对IP的应用场景划分。该技术已经在香港、台湾和北京IP地理位置定位系统中使用,技术具备很强的可行性。
1.4 定位系统研发
定位系统的研发核心是IP地理位置定位算法,包含功能块和地域块划分、实时网络测量两个方面[5]。解决如何划分IP所属功能块和地域块、设计IP定位算法、采用什么样的相似度比较策略、IP地理位置定位返回哪些相关信息、对IP定位结果的信心度描述、定义IP定位的精度准确度和精密度、对IP定位的正确性进行评估、IP定位结果进行展示模型、以什么形式给客户提供IP定位服务等问题。
1.4.1 功能块和地域块划分
根据IP分配的区域特性,首先,以APNIC和应用场景将IP块进行功能划分,将IP块分成9类功能块,分别是学校单位、数据中心、住宅用户、企业专线、组织机构、基础设施、移动网络、公共热点和卫星通讯;其次,对每一个功能块,按地域分布进行地域块划分。功能块是指具有相同应用场景的IP块(IP连续),地域块是指同一功能块下,拥有相同地理位置的IP块(IP连续)。
IP地域块划分的应用示例如图3所示,右侧地图是香港地区的一张部分地图,红点表示定位系统中基准点所在的位置。针对香港宽频的住宅用户IP段14.136.22.0/21,其前6个IP块分布在小区1和小区2,其后两个IP块分布在小区3。也就是说功能块14.136.22.0/21被划分为2个地域块14.136.16.0/24-14.136.21.0/24和14.136.22.0/24-14.136.23.0/24。那么,如果有目标IP(14.136.22.22),即使是非基准点,我们也可以把它定位到小区3,小区3的直径为1公里,我们此次定位的最大误差距离也就是1公里。如果目标IP被定位到小区1和小区2,我们可以通过实时网络测量的方法,确定目标IP是在小区1还是在小区2。
图3:IP地域块划分的应用示例
1.4.2 实时网络测量
如图4所示,当用户输入目标IP,首先,定位系统把目标IP发送给中心服务器(G);其次,中心服务器把目标IP分发给一组探测服务器(1-8),探测服务器对其进行实时网络信息测量,并把测量结果返回给中心服务器;然后,定位算法对目标IP与基础数据中IP的网络相似度进行分析,将目标IP与基础数据中某个IP进行绑定;最后,将定位结果返还给用户,完成定位。
图4:定位系统研发的基本原理图
2 技术应用-以多入口农贸平台为例
2.1 功能引入
我国农产品种类丰富,然而受到市场信息滞后、农产品销售渠道单一、销售专业人员不足等因素影响,众多优质农产品没有获得其应有的市场价值,甚至存在“谷贱伤农”,农产品滞销等现象[6]。在“互联网+”的背景下,多入口农产品推广交易平台建设可以拓宽农产品销售渠道,对农产品的消费需求进行有效收集,迅速地将产品送达消费者,方便农产品厂商与消费者进行安全交易和交流,发挥农产品应有的市场价值。同时平台整合线下农业旅游资源,延长农业产业发展渠道,促进农业持续绿色发展。引入线下农业旅游功能,实现多元发展,开发出更多市场广泛接受的功能,让用户在实现农产品购买无忧的同时,享受农业旅游带来的乐趣。多入口农贸平台系统通过引入定位技术提供位置服务,电脑端通过IP地址定位技术确定用户当前位置,计算出与农家乐的距离,并提供路线规划,如图5所示。
图5:多入口农贸平台IP位置服务功能
2.2 实现流程
可以使用高德地图提供的api实现定位服务。先在高德开发平台注册登录。然后创建应用获取访问应用的密钥(Key),最后携带密钥去访问高德地图提供的根据IP获取定位的接口从而得到位置信息。从而计算出与农家乐的距离,并提供路线规划。可以选择不同的导航模式,如:步行、驾车、骑行等模式,得到相对应的路径规划。流程如图6所示。
图6:系统定位服务接入流程示意图
3 结论
高精度IP地址定位技术在保证定位精度的前提下,尽量减少测量开销,同时兼具良好的扩展性,并能保护用户隐私,在系统开发中具备很强的可行性。该技术对于网站区分用户的来源、提供针对性的服务、保障网络安全等网络应用具有非常重要的作用。