位置信息数据挖掘技术在应急管理中的应用探析
2018-02-27旷晖王俐
旷晖 王俐
摘要:随着我国手机普及率的不断提高,发生公共安全事件时,相关人员有极大的可能与手机处于同一个空间,通过手机定位技术采集人员的位置信息,使用空间数据挖掘技术可有效地进行目标人员位置信息的追踪和实现价值提取,能够提高应急救援效率,升政府应急管理能力。該文以手机位置信息为研究对象,从推断目标人员敏感信息为切入点,研究空间位置数据挖掘相关技术,总结当前各类技术的特点和不足,并提出一种自适应聚类方法,能提高聚类精度,更有效地支持应急管理系统,对提升相关部门应急管理能力有着重要意义。
关键词:位置信息;数据挖掘;公共安全;应急管理
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2018)35-0008-03
我们国家正处在一个快速发展的阶段,从高铁到地铁,从城市建设到新农村改造工程,从物流仓库到大型工厂,各个地区各项建设如火如荼地开展着,另一方面,随着城市化进程加快和人民生活水平的提高,高层建筑越来越多,人们聚集于住宅区、商场、影院及参加其他大型群体性活动或者外出旅游的概率也在不断提高,各种风险随之不断积聚。可以发现,近年来国内各种大型突发公共安全事件层出不穷。因此,公共安全事件发生前的预警、发生后及时高效的应急救援都非常重要,这既关乎公民的生命财产安全,也关系到老百姓对政府的信任和支持。当人群聚集过度引发踩踏事故,旅游遭遇地质灾害或极端天气(如地震、山洪、泥石流),建筑物发生火灾,各类矿场发生塌方事故等,都需要及时启动应急响应进行救援。传统的应急搜索设备如红外探测仪、生命探测仪、声波探测仪等虽各有所长,但对于大范围的搜索定位还是比较困难的。而随着移动互联网技术的快速发展,我国手机普及率不断提高,发生公共安全事件时,相关人员有极大的可能与手机处于同一个空间,通过手机定位技术采集人员的位置信息,使用空间数据挖掘技术可有效地进行目标人员追踪和实现价值提取,能够提高应急救援效率,也使得政府公共安全治理能力得到进一步提升。
1 当前主流手机定位技术分析
目前手机定位主要采用基于通信网络的方法如Cell-ID(小区标号)、TOA(到达时间)、TDOA(到达时差)[1]与AOA(到达方向角)等,需要三个以上的基站协同定位就可以获得手机的位置信息,例如TDOA算法的测时差精度要达到纳秒(ns)级,基线长度达到十公里量级能保证手机定位精度。针对地质灾害,区域范围内的基站往往不同程度地遭到损毁,无法通过该方法实施定位,这时往往使用多个应急通信车来协同开展定位,但其定位精度不高。针对上述问题,基于非均匀稀布阵列[2]的手机定位方法,对微弱信号探测能力强,对多个手机信号定位时,无须信号配对,能够高精度、高分辨地进行定位获取手机的位置,是未来手机定位技术的发展趋势之一,对传统手机定位方法起到有效补充的作用,手机定位示意如图1所示。
非均匀稀布阵列使用车载形式,由两部车组成定位系统,机动性强,阵列易于展开,可以缩短定位时间。每部车上分别采用十米量级小孔径稀布阵,由两部车上的小阵列形成大孔径稀布阵,可获得高精度、高分辨的手机位置信息。其定位方法如图2所示,在空间某一直线上不等间距地布置天线阵元,其有[M]个天线接收近场手机信号源从方位角[θ],距离[R0]辐射来的电磁波信号,根据阵列信号处理理论对随机化阵列建立数学模型。
选择第一个阵元作为坐标原点,建立[XY]坐标系,并将所有阵元所在的直线定为[X]轴。手机辐射信号的来波方位角[θ]定义为:射线[OT]以逆时针方向旋转至坐标轴[Y]所扫过的角度为正向角度。基于非均匀稀布阵列球面波模型可获得手机的位置信息,在不同的距离[R]和方位角[θ′]上扫描,计算空间谱:
其中,[N]为噪声的协方差矩阵,[αR,θ′]为阵列流矢量,搜索手机辐射信号空间谱[PR,θ′]的峰值,此峰值对应的扫描距离和方位就是手机的距离[R]和方位信息[θ]。
从以上分析可以看到,通过多种方法获取的位置信息,存在数据量巨大,误差精度不同,数据复杂性的问题,传统的数据处理方法已不再适宜。随着信息技术的不断发展,我们已然知道大数据技术对于处理复杂多维数据有着天然优势。因此使用数据挖掘技术对位置信息进行处理,能够更加快速准确地提取到关键信息,从而对应急管理各方面起到重要作用。
2 基于位置信息的自适应聚类数据挖掘方法
基于位置信息的数据挖掘是数据挖掘中一项重要的决策支持技术,关键在于从位置数据中挖取未知却有用的关联信息,提供给应急管理决策支持系统。位置信息的数据挖掘是利用数据挖掘技术从具有高维度、巨量、非线性等特性的位置数据中提取有用信息与知识的过程。在研究位置信息数据挖掘方法中,刑学锋[3]等人从位置信息的来源、挖掘和应用三个方面入手,提出了符合运营商特点的方案建议;王树良[4]等人在大数据背景下思考空间数据挖掘,分析了空间数据在大数据中的基础地位,分析了空间大数据面临的垃圾多、污染重、利用难的现状,剖析了空间大数据蕴含的价值;白嗣东[5]研究了室内定位系统在线阶段以加权的邻近算法,根据训练数据的统计分析给出定位算法参数的选定数值,并且分析了各个参数对定位性能的影响情况。
基于位置信息的数据挖掘算法众多,主要有统计分析方法、关联分析法、神经网络法、聚类分析法等。其中:1)统计分析方法是一种较为传统的数据挖掘方法,它基于数学模型或概率模型来提取位置信息中的知识,具有大量成熟算法,但统计分析方法不会将位置信息所具有的特性限制因素进行考虑,因此该方法对手机位置的特性挖掘不足;2)关联分析方法是采用关联规则或频繁项集来对不同数据集中的隐藏信息进行提取,能够揭示数据挖掘中所涉及的有趣联系;3)神经网络法中基本的成分是神经元模型,通过神经元接收来自其他多个神经传递过来的输入信号,并通过带权重的连接进行传递,与神经元的阈值进行比较再通过激活函数进行神经元的输出,在广泛的领域得到应用,但其模型随着深度的增加,参数量会非常巨大;4)聚类分析方法是一种研究最多,应用最广的数据挖掘方法,它通过无标记训练样本的学习来为位置数据的分析提供基础。聚类分析方法又包括基于划分的聚类方法、基于层次的聚类方法、基于网格的聚类方法、基于图的聚类方法和基于模型的聚类分法等。其中,基于划分的聚类方法主要有K均值算法,它将数据对象集划分到不同的子集中,使个每个数据恰好只有一个子集中,此聚类方法相对比较简单;基于层次的聚类方法通过形成一棵树来嵌套簇的集簇,除叶点外,树中每一个结点都是子女的并,而树根是包含所有对象的簇,虽然该方法仍有较多应用,但与其他聚类方法相比相对较老;基于网格的聚类方法创建网格单元集合能够有效地组织数据,并通过数据属性将数据分割成多个区间,且每个数据被指派到一个网格单元中,由邻近的稠密单元组成簇来实现数据的聚类。该聚类方法对低维数据非常有效,聚类过程高效,时间和空间复杂度低,但是随着位置数据维底的增加,网络单元的个数会呈指数级增加,因此对于高维数据,基于网络的聚类效果将会很差;基于图的聚类方法利用图的性质和特性来对数据进行聚类,比如利用稀疏化邻近度图来保留数据与其最近邻之间的联系、定义不同数据之间的相似度来共享最近邻个数、定义核心数据并构建环绕它们的簇、提供两个簇是否合并的复杂评估等,该方法简单、速度快,即便存在噪声也能够有效地聚类空间数据,但对于高维度数据会出现大量聚类错误;基于模型的聚类方法为每个簇建立一个模型,并采用此模型对数据进行最佳拟合,常常使用概率统计模型和神经网络模型分别进行概念聚类和自组织聚类。