基于手机位置数据的地震灾情指标选择
2019-05-07庞晓克聂高众张昕李华玥夏朝旭范熙伟魏本勇
庞晓克 聂高众 张昕 李华玥夏朝旭 范熙伟 魏本勇
1)中国地震局地质研究所,北京 100029 2)浙江每日互动网络科技股份有限公司,杭州 310026 3)中国地震台网中心,北京 100045
0 引言
随着近年来重大地震灾害的发生,应急救援已经成为人们关心的问题。地震应急救援是防震减灾工作中的最后一道防线,要求及时高效(聂高众等,2018)。地震后短时间内获取地震灾情对应急指挥有重要作用,但震后的灾情获取存在黑箱期,即地震发生后无法快速获取地震灾情。地震发生后,为迅速启动灾后救援,更好地执行灾后救援响应任务,需要对地震灾情迅速做出评估。
近年来,手机的普及率逐渐提高,截至2013年,我国使用人数突破11亿,手机普及率高达84.9%,并且50%的城市居民都拥有智能手机,其中69%用户每天会使用智能手机访问互联网。美国皮尤研究中心(Pew Research Center)发表的数据报告显示,中国的智能手机普及率达到58%[注]① http://tech.sina.com.cn/mobile/n/n/2016-07-30/doc-ifxunyxy5956896.shtml。GPS和北斗卫星导航系统在移动终端应用中的定位服务成为主流配置,智能手机的发展,基于位置服务、位置分享服务、大规模分布式数据存储等技术,可以实时获取精准的海量手机位置信息,必然促使基于手机位置的数据服务的产生与发展。同时,基于手机位置的服务为学术研究提供新的数据源与可能性(李东平等,2017)。
基于手机位置数据可以分析手机用户线上线下行为,结合用户签到信息和时间特征,挖掘用户特征,分析用户在某区域的兴趣点,以及对新的兴趣点进行推荐(吴士锋等,2016)。该数据主要包含3类:一是冷数据画像,主要是用户性别、兴趣、常驻地、职业和年龄等较长时间不会变化的属性信息;二是温数据回溯,用户近期活跃应用的APP,近期去过的地方等具有一定时效性的行为数据;三是热数据场景,当前地点、打开的应用等场景化明显的精准信息。
对于地震分析来说,基于大数据分析从智能手机中获取用户的GPS信息、活跃WiFi数量、无线网络联网设备数量、汇总在线设备数量、区域平均移动速度、瞬时移动速度、异常震动设备数等数据,通过建模分析,将人口热力图方法应用于快速判定震后极震区(极感区)的位置、地震影响场的方向、地震的有感范围和不同震感范围内的人数统计以及灾区主要道路震后情况分析等,以便及时辅助判定灾情,为救援工作提供数据支撑,降低对人民群众生命财产的危害。
2 数据准备与研究方法
2.1 手机位置大数据的原理
全球移动通信系统(GSM,global-system of Mobile communications,)协会将基于移动电话平台的位置服务定义为:基于移动用户位置信息的服务,是指利用现有的移动通信网络资源,对手机用户或设备进行定位,并结合完备的地理信息数据库和信息搜索引擎,提供给用户丰富的位置信息服务(石伟华,2006;Kühn,2004)。
2.2 数据来源与覆盖率
本文数据来源于提供推送服务的第三方,其提供安卓推送(Android)及iOS推送软件开发工具包(SDK,software development kit)服务,使APP快速集成云推送功能。
目前拟采用消息SDK平台的用户数量很大,截至2017年8月,装机的SDK用户数达到数百亿,覆盖终端数十亿,接入应用数十万,日活用户近十亿,并发在线用户超过数亿。基于数据覆盖量较大,我们认为应用此数据进行分析有一定可行性。
2.3 数据采集
通过用户移动设备中的SDK,以一定时间间隔动态采集经过用户授权的设备位置相关信息。采集数据包含但不限于设备信息、GPS、WiFi信息、基站信息、联网数据等。多种数据源通过实时汇报模块上传至大数据中心,通过加工处理,对各手机终端进行唯一标识。
2.4 数据类型
基于地址进行数据检索时,当数据量非常大时,通常采用Geohash编码进行空间检索,相当于将全部地图平面均分为若干矩形方格。将二维的经纬度转换成字符串,每一个字符串代表了某一矩形区域(图1)。字符串越长,表示的范围精度越高,例如5位的编码能表示10km2范围的矩形区域,而6位编码能表示更精细的区域(约0.34km2)。
图 1 Geohash编码数据示意图
本文使用的数据也采用Geohash编码,受实际采集情况制约,本文地震案例使用的数据均为5位编码,覆盖烈度图Ⅵ度以上区域范围。
2.5 数据指标
移动设备联网后上报采集数据,云端服务器实时获取到分布在全国不同位置的移动设备上报的数据。当一个区域发生地震时,网络设施、电力设施、基站等都可能受到相应影响,因此在数据层上会产生一定影响。根据这些数据层特征,分析历史震例,评估各项特征对地震判别的敏感度,选出敏感度较高、数据质量较高的指标,间隔固定时间窗口前后取值,并用数据变化百分比作为量化突变的标准。
目前我们可获取的主要有4种数据:活跃基站数量、活跃WiFi数量、无线网络联网设备数量、汇总在线设备数量。
(1)活跃基站数量(station)
该数据是统计每个时间切片、疑似震区每个Geohash方格中的活跃基站数量,根据基站信标位置库可以检索指定地理范围内的基站数。移动设备可定时上报扫描到的基站信息。当某个时间切片、某个Geohash方格中活跃基站数量发生骤减或远低于之前平均水平时,说明该范围内发生大规模基站退服,推测该区域发生地震或其他突发灾害。
(2)活跃WiFi数量(wifimac)
该数据是统计每个时间切片、疑似震区每个Geohash方格中的活跃WiFi热点数量,根据WiFi信标位置库可以检索指定地理范围内的WiFi热点数。移动设备可定时上报扫描到的WiFi热点信息。某个时间切片、某个Geohash方格中活跃WiFi热点数量发生骤减或远低于之前平均水平时,说明该范围内发生大规模无线热点断电,推测该区域发生地震或其他突发灾害。
(3)无线网络联网设备数量(loginmac)
该数据是统计每个时间切片、疑似震区每个Geohash方格中的WiFi联网设备数量,根据WiFi信标位置库可以检索指定地理范围内的WiFi热点,联网的移动设备可定时上报连接状态与所连接网络,其中无线网络联网数据中包含WiFi热点信息。某个时间切片、某个Geohash方格中活跃WiFi联网设备数量发生骤减时,说明该范围内发生大规模无线网络断网,推测该区域发生地震或其他突发灾害。
(4)在线设备数量(gid)
该数据是统计每分钟震区范围中每个Geohash方格中的移动设备数量,根据多重定位方式获取服务的移动设备位置数据。当某个Geohash方格中移动设备数量发生骤减时,说明该范围内大规模移动设备的数据无法正常上报,推测该区域发生地震或其他突发灾害。
4种数据指标的相互关系,如图2 所示。
图 2 4种指标数据关系图
3 案例分析
在历史震例中选取了反映指标数据较好的3个地震:四川省阿坝州九寨沟地震、新疆博尔塔拉州精河地震、四川广元市青川地震。由于人口密集程度不同,不同地区可采集到有数据上报的Geohash编码的数量不同,分别计算每个Geohash编码位置震后不同时刻的指标数量变化情况,每个地震选取1个变化情况明显的位置点,分别对4种灾情指标进行分析。
根据3个地震发震前1天和地震当天4种地震灾情指标变化折线图的对比,判断地震对4种指标的影响程度,从而筛选出对地震敏感性较高的灾情指标。从3个地震折线图对比情况发现九寨沟地震4种灾情指标均有不同程度的变化;青川地震是在线设备数量和活跃基站数量在地震发生当天与前一天差别不明显,但是活跃WiFi数量和无线网络联网设备数量与前1天差别较大;精河地震也是4种灾情指标均有不同程度变化,相对于其他2个地震不同的是,精河地震震后指标数量均上升。根据3个地震案例推断,灾情指标数量发生变化是由地震引起的,因此也可以用指标的变化情况反向分析地震的影响状况。
图 3 九寨沟地震选点与震中位置示意图
3.1 四川阿坝州九寨沟县MS7.0地震(2017年8月8日21时19分)
九寨沟地震选取的观测点Geohash编码为wmcv7,该位置点位于九寨沟地震区沟口酒店区域,距震中约10km(图3),对该位置点活跃基站数量、活跃WiFi数量、无线网络联网设备数量、在线设备数量等4个不同数据指标震后2hr的数量变化情况绘制折线图(图4、5)进行分析。
对比震前1天(图4)与地震当天(图5)折线图可以看出:
图 4 2017年8月7日九寨沟地震前后震区wmcv7位置点地震灾情指标变化
图 5 2017年8月8日九寨沟地震前后震区wmcv7位置点地震灾情指标变化
(1)在线设备数量呈逐步下降趋势。 21:19分发生地震,设备数量先升高,在21:20分达到最高值,从21:20分开始下降,到21:21分时数量由113下降到55,21:21分后在线设备数量呈小幅度上下波动,但整体呈下降趋势。
(2)活跃基站数量情况与在线设备数相似,呈逐步下降趋势。21:19分发生地震,然后活跃基站数量先升高,在21:20分时达到最高值,从21:20分开始下降,到21:21分时数量由60下降到39,21:22分后活跃基站数量呈小幅度上下波动,但整体呈下降趋势。
(3)活跃WiFi数量在震后有突降变化。21:19分发生地震,活跃WiFi数量先升高,在21:20分时发生突降,21:20分时数量为658,21:21分时为264,21:22分时为138,21:22分后活跃WiFi数量在较低水平小幅度稳定波动,到22:16分,指标波动范围为100~200,22:16分后指标主要在100左右波动。
综上所述,可以发现4种指标中活跃WiFi数量最大。从图5 可以看出,震后4种指标数量都下降,在线设备数量、活跃基站数量和活跃WiFi数量在震后先上升,1min后开始下降,无线网络联网设备数量在震后瞬时下降,且变化率达到0.89,根据4种指标震后下降情况可以知道,在九寨沟地震中无线网络联网设备数量反应最灵敏,其次是活跃WiFi数量,但该指标存在数据延迟情况。
3.2 四川广元市青川县MS5.4地震(2017年9月30日14时14分)
青川地震选取的观测点Geohash编码为wmdwj,该位置点距震中约29km(图6),对该位置点活跃基站数量、活跃WiFi数量、无线网络联网设备数量、在线设备数量等4个不同数据指标震后2hr的数量变化情况绘制折线图(图7、8)进行分析。
图 6 青川地震选点与震中位置示意图
对比震前1天(图7)与地震当天(图8)折线图可以看出:
图 7 2017年9月29日青川地震前后震区wmdwj位置点地震灾情指标变化
图 8 2017年9月30日青川地震前后震区wmdwj位置点地震灾情指标变化
(1)在线设备数量在14:14分发生地震后,虽然数量下降,但是在震后3min时又开始增加,随后在线设备数量呈上下波动趋势,与震前波动幅度差别不大,说明震后数量的下降是正常波动现象,并不是受地震影响,因此推断该地震对在线设备数影响不大。
(2)活跃基站数量在14:14分发生地震后,虽然数量下降,但是在震后2min时又开始增加,随后在线设备数量呈上下波动趋势,与震前波动幅度差别不大,说明震后数量的下降是正常波动现象,并不是受地震影响,因此推断该地震对活跃基站数影响不大。
(4)无线网络联网设备数在震后瞬时发生突降,地震发生时数量为6,14:15分到14:27分内没有数据,可能是因为数据没有上报,也可能是因为在这段时间内无线网络联网设备数量为0。之后在14:28分时出现1个,并且持续了10min;随后数量增加恢复至震前水平。
综上所述,可以看出活跃基站数量和在线设备数量在震后虽然出现短暂下降现象,但很快又恢复至震前水平,因此可以判断指标数量的下降是正常波动,并不是地震造成的,说明该地震对这2种指标的影响较小;活跃WiFi数量在震后下降,并在1个多小时内都处于较低水平,可以推断活跃WiFi数量的下降主要是受地震的影响;无线网络联网设备数量在震后瞬时指标数消失,在14:28分时才出现,并且原因不明确,因此该次地震中无线网络联网设备数不能在震后快速反映影响情况。综上可得出,该次地震活跃WiFi数量反映地震情况最好。
3.3 新疆博尔塔拉州精河县MS6.6地震(2017年8月9日7时27分)
精河地震选取的观测点Geohash编码为tzfvw,该位置点距震中约34km(图9),对该位置点活跃基站数量、活跃WiFi数量、无线网络联网设备数量、在线设备数量等4个不同数据指标震后两2hr的数量变化情况绘制折线图(图10、11)进行分析。
图 9 精河地震选点与震中位置示意图
对比震前1天(图10)与地震当天(图11)折线图可以看出:
图 10 2017年8月8日精河地震前后震区tzfvw位置点地震灾情指标变化
图 11 2017年8月9日精河地震前后震区tzfvw位置点地震灾情指标变化
(1)7:27分发生地震后,在线设备数量在震后3min内持续增加,7:27分时数量为12,7:30分时数量为25,随后数量开始波动,但震后波动数量普遍高于震前水平。
(2)活跃基站数量与在线设备数量情况相似,在7:27分发生地震后,数量在震后3min内持续增加,7:27分时数量为11,7:30分时数量为26,随后数量开始波动,但震后波动数量普遍高于震前水平。
(3)活跃WiFi数量在7:27分发生地震后3min内持续增加,7:27分时数量为160,7:30分时数量为292,随后数量开始波动,震后0.5hr后数量稍微减少,但依然高于震前水平。
(4)无线网络联网设备数量在7:27分发生地震后3min内持续增加,7:27分时数量为18,7:30分时数量为43,随后数量开始波动,但震后波动数量普遍高于震前水平。
综上所述,可以发现4种指标数量在震后均为增加,折线图(图8、9、10、11)反映情况差别不大;4种指标中,活跃WiFi数量最大。该地震后3min内4种指标数量均持续增加,计算震后3min与震时的数量变化率,发现无线网络联网设备数量变化率最大,同时4种数据虽然都呈上升趋势,但根据折线图(图8、9、10、11)可以看出,无线网络联网设备数量在震后更稳定,波动趋势最小。
该次地震震后数据指标均为上升趋势,造成该现象的原因可能是地震发生时间为早晨,人们处于睡眠状态,本底噪声较低,并且选择的分析点不在震中附近,对人们影响相对不大,地震一发生,人们有所感应后,首先拿出手机查看情况,导致震后数据指标均上升。
4 结论
(1)通过对3个地震案例进行分析可以发现,四川省阿坝州九寨沟MS7.0地震和新疆博尔塔拉州精河MS6.6地震的震级较大,震后4种地震灾情指标均有明显的突变现象;四川广元市青川MS5.4地震的震级较小,在线设备数量和活跃基站数量基本变化不大。说明震级越大,地震灾情指标判别地震效果越好。
(2)4种地震灾情指标中活跃WiFi数和无线网络联网设备数在震后反应效果最好,活跃WiFi数的数量最多,反应灵敏,但是有延迟汇报的情况,实时性一般;无线网络联网设备数反应最为灵敏,数量相对活跃WiFi数较少,但该指标实时性较好。
(3)通过对新疆博尔塔拉州精河地震进行分析发现,并不是所有地震发生后地震灾情指标数量都会下降,没有人员伤亡的地震,震后网络活跃度可能增强,该现象可能与地震发生时间有关,例如精河地震的发生时间为早晨,人们处于睡眠状态,本底噪声较低,地震发生后数据指标上升,所以指标数量增加也可以反映地震的异常情况。
(4)基于手机位置数据对地震应急有很大用处,通过对其更深入的研究,未来可能对极震区、影响场方向以及道路堵塞等震后需要快速评估的问题都有所帮助,例如根据选取的敏感性指标,计算震后与震前数据的变化率,进行差值分析,变化率最高的部分是否与烈度图极震区拟合,以此来确定极震区;以及判断影响场方向,猜测数据变化率相似的点的分布方向有可能与实际影响场的分布方向一致,以此通过指标数据确定影响场方向。因此,通过对手机位置数据的研究与挖掘,可以延伸更丰富的应用,更好地为地震应急工作服务。