通信运营商基于位置信息的大数据安全应用研究
2016-11-19王旭玮
王旭玮
[摘要]通信运营商具有接入用户的数量优势,拥有类型丰富的海量用户数据,尤以位置数据更具分析及结果应用价值。本文通过分析位置定位、数据安全及大数据相关理论,建立基于位置信息的大数据安全应用模型,为位置数据的分析及应用提供理论参考。
[关键词]位置信息 大数据挖掘 基站定位
引言:
伴随云计算理论研究与实践的不断深入,海量数据存储分析以及基于分析结果的大数据应用案例日趋丰富。通信运营商由于拥有用户规模优势,可形成用户基础信息、行为记录、位置数据等多类型的原始数据记录,具备部署大数据分析及应用的数据资源优势。而位置数据由于数据高价值性与敏感性并存的特性,导致各运营商基于位置信息的大数据应用还处于理论研究与小范围试点的阶段,缺乏系统的理论研究基础与完整的应用推广模型。
本文通过研究位置信息的来源、数据分析及安全保障措施等,提出基于位置信息的大数据安全应用模型,为位置数据的分析及应用提供理论参考。
一、位置数据的来源
通信运营商位置信息来源包括信令系统、业务应用系统、自有定位平台及网管及日志系统等,具体包括:
1、采集自信令的定位数据,如采集自MC、GB/IuPS、LTE等信令口的数据。通常为传统的基于基站定位方式(LBS),目前较为成熟的为基于基站CELLID的定位方式。该项数据源提供基于COO、RSS、AOA、TOA/TDOA等算法计算出的用户实时经纬度数据。2、来自业务应用系统的定位记录为提取软件记录的用户位置信息,该项数据包含LBS、A-GPS、WLAN等综合定位后的用户位置数据。3、自有定位平台为综合的定位信息为提取自专业定位系统产生的位置数据。4、网管及日志系统主要是基于通话、上网等行为,通过用户通信行为的接入点信息而生成的用户位置数据。
二、位置信息的分析
位置数据的记录格式为经纬度二维数据,基于用户位置数据可生成如下三类型分析数据:
1、静态数据:即某一时间点内的用户位置数据,可类比为用户位置的拍照数据。该数据记录为最原始的用户位置信息。2、动态数据:即从时间轴维度记录的用户位置数据,可类比为用户位置的摄像数据。该数据形成用户的轨迹数据、停留时长数据等,为用户位置数据的动态反应。3、二阶动态数据:即对用户动态数据的二次分析后形成记录数据,包括常态化轨迹、非常态化运动轨迹、运动频次记录、频次变化记录、轨迹速度、区域密度动态变化趋势等。
大数据分析的分析建模以上述三类数据作为基础,建立分应用场景的数据模型。
三、位置信息的安全保障
由于位置数据的高度敏感性,对于基于位置数据的大数据分析的安全保障措施必不可少,具体来说包括以下内容:
1、位置数据与用户信息解耦合:在原始位置信息采集以及记录时对原始号码通过加扰、模糊、数据聚合等技术进行脱敏处理,解除用户精确信息与位置信息的对应关系,实现数据脱敏。2、位置数据与其他数据隔离:为避免通过多重数据分析实现精确定位用户的可能,位置数据的提取、采集及存储需与其余数据严格分离,避免与其他数据的合并分析。3、做聚类数据分析避免个体数据分析:通过数据的聚合来避免个体数据的敏感性,数据的展现以聚类数据的形式展现,避免个体属性的展现。4、建立不同的数据安全域:建立高、中、低三级数据安全域,并严格限制低级别数据域与高级别数据域间的数据流向。5、建立安全数据传输通道:通话数据加扰、信道加密、数据水印等多种措施建立数据域间或域内系统间数据传输的安全通道,避免数据的泄露。
四、基于位置数据的应用模型
鉴于位置数据的敏感性,建立基于位置分析的大数据应用模型应以安全为首要原则,辅以多种技术措施,建立严谨、高价值、高效率的应用模型。
本模型按照数据的产生、分析及应用的流向,将应用模型分为三个区域,高密级数据域主要为原始数据的产生及采集行为。该区域包括产生数据的原始系统、数据采集系统。该区域各子系统完成数据采集及用户信息脱敏工作。
中密级数据域为数据的存储、分析区域,该区域主要完成原始数据的存储、检索、分析处理等工作。
低价值数据为基于分析结果的各类应用。
各数据域间数据流向均为单向,即只建立较高密级的数据域向较低密级数据域的写的权限,剔除较高密级数据域向低密级数据域的读权限以及较低密级数据域向高密级数据域的写权限。
五、结语
基于位置信息的大数据分析及应用是实现运营商存量数据增值及变现的重要途径,应用结果对于社会生产、资源规划以及经济运营等各领域的指导作用也不可忽视。建立具有高安全属性的大数据应用系统,需综合应用互联网、信息安全等各项技术,通过不断的工作实践扩展数据应用的领域、提升数据应用的安全性。