移动用户上网记录安全应用系统
2014-05-18
中国联通研究院 北京 100032
引言
随着运营商移动数据业务的快速发展,各种WAP、互联网应用增长十分迅速,移动数据业务的增值作用日益提高,并且在未来的移动业务竞争中逐渐占据了主导地位。而在数据业务迅猛发展的同时,数据业务上网记录查询也逐渐成为投诉的焦点,用户对上网记录的查询内容不仅仅限于简单的上网流量计费信息,而是要求提供详细的上网记录,如访问的网站地址、访问时长等。
目前,各运营商基本建立了移动用户上网记录查询与分析的大数据平台,通过在移动通信网中进行用户上网数据的采集、信令和业务解析、合成,生成全网移动用户上网流量详单记录(Flow Detail Record,FDR),为一线客户服务人员提供全网移动用户上网记录快速查询服务,解决流量投诉问题。同时,为用户提供准确实时的上网记录自助查询服务。但是,在用户上网记录中也存在着很多安全隐患,例如访问了恶意网站、僵尸网络、DDoS攻击等,这些隐患容易造成信息的泄漏和被窃取,从而造成个人隐私的泄露;也容易造成终端中病毒,给用户带来了大量的异常流量,从而给用户造成经济损失等。这些行为在给用户带来损失的同时,也给运营商带来了大量的投诉[1]。
1 上网记录数据分析
移动用户上网流量详单记录主要包括的字段有手机号码、位置区编码、小区标识、终端类型、流量类型、开始时间、结束时间、持续时长、上行流量、下行流量、总流量、访问的网络类型、终端IP、目的IP、状态码、用户代理(User Agent)、APN、IMSI、SGSN IP、GGSN IP、内容类型、源端口、目的端口、网址/特征信息等[2]。
对这些数据字段进行分析,可以分成以下四类:一是标记类,例如手机号码、IMSI、IMEI;二是位置类,例如位置区号码、小区标识;三是IP类,例如GGSN IP、SGSN IP、终端IP、目的IP、源端口、目的端口、流量类型等;四是其它关键字段,例如内容类型、上行流量、下行流量、总流量等。
对不同类型的数据字段进行组合,可以对FDR建立不同的预期分析目标和结果,如表1所示。其中,通过对数据来源中数据字段组合的分析,预期能得出一定的分析结果,从而发现潜在的安全威胁,达到数据分析的目的。例如,通过对手机号码、时间和流量的统计分析,能以手机号码为索引对用户建立流量基线模型和上下行流量的关系模型,并找到流量排名前几位的用户;根据模型对用户的流量进行监控,从而发现用户的异常流量或潜在的恶意吸费流量。
表1 上网记录安全分析目标
2 上网记录安全应用系统
为了达到流量分析和监控的目的,搭建了移动用户上网记录安全应用系统,系统的部署如图1所示[3]。
图1 上网记录安全应用系统部署图
上网记录安全应用系统部署了5台物理服务器,其中1台作为Oracle数据库服务器,1台作为Windows Server 2008系统分析服务器,3台Hadoop服务器,每台部署6台Vmware工作站虚拟机。物理服务器的配置如下文。1)CPU:2×Quad-Core AMD Opteron(tm)(8核);2)内存:64GB;3)网卡:2个千兆网卡;4)硬盘:2个2TB,上网记录安全应用系统的功能架构如图2所示。
原始数据记录为PB级的大数据,因为计算性能、业务影响等因素,数据分析工作不可能直接在此平台上进行。因此,此平台只能是完成分析模型的数据取样等基本任务。获取的数据通过离线方式(约定的文件格式)交付给上网记录安全应用系统的数据预处理引擎。
图2 上网记录安全应用系统功能架构
数据分析小型分式测试验证平台为整个系统的数据分析的核心,模型数据的存储及各种模型的计算均在此平台上完成。数据预处理引擎完成对数据的去重、数据的合法性验证、数据的补全等工作,使之符合安全分析模型所要求的数据格式。处理完的数据保存于分布式测试验证平台。数据分析引擎完成对安全分析模型的建模、各参数的设定、分式算法的功能实现等,通过对测试验证平台数据的分析,输出分析结果给分析展示模块。分析展示模块完成对原型系统的各参数的设定、分析结果的展示等功能[4]。
3 上网记录安全应用模型与发现
3.1 IMEI号异常发现
对采集到的上网记录进行分析,统计每个IMEI对应的IMSI个数。对IMEI与IMSI的对应关系进行分组去重,对统计结果比较,去除IMEI号与IMSI号对应关系为1的情况,输出每个IMEI与之关联的所有IMSI的个数。
移动用户上网记录安全应用系统对采集到的某一个时间段的数据进行统计和分析,从结果来看,某个IMEI与之关联的所有IMSI的个数最高达到了六千多。
其中,由于焊机的参数众多,为了避免操作人员对名称相近参数产生混淆,在每个参数输入区域的旁边,以小字体形式加注详细的解释。
IMEI与IMSI存在多个对应关系,主要有以下几种可能。1)正常的双卡双待手机,每个IMEI对应2个IMSI;2)SIM卡损坏或手机丢失,补办SIM卡,每个IMEI对应2个IMSI;3)山寨机盗用IMEI号,山寨手机盗用了正常入网的手机的IMEI号;4)垃圾广告发布者,频繁更换手机号。
上述四种情况中,前两种属于正常情况;第三种可能存在安全隐患,由于山寨手机未经过工信部的入网检测,可能存在恶意程序或操作系统存在漏洞等,从而盗用手机流量;第四种情况也属于恶意情况,运营商应该采取措施进行检测并拦截。
3.2 手机位置异常
上网记录中的位置区号码和小区标识可以标识用户所处的大致地理位置,通过分析手机号码某一时间段内在地理位置的变动异常,可以查找安全问题。比如,在1分钟内某手机号码的地理位置变化了100多千米(如图3所示),这是一种现实生活中不可能出现的情形,以此现象为依据,利用大数据分析技术可进一步分析产生这种现象的原因。
图3 手机位置异常结果示意图
3.3 手机号、基站、端口流量异常发现
分别以手机号、物理位置、端口号为统计维度,统计一定时间窗口内的流量,建立流量基线模型;以流量基线模型为基础,设定流量阀值,监测手机号、物理位置和端口是否存在流量异常。
移动用户上网记录安全应用系统根据该模型,对用户进行流量监控,发现异常流量。2013年10月12日,发现某手机用户10~11时,1小时内上行流量超过500M,10~14时内累计上行流量超过2.7G。
如图4所示,除该用户当月使用的正常流量外(聊天工具以及网页),该异常事件中,视频流量约占总异常流量的48.35%、其他手机应用占46.99%、网络电话占3.12%。
图4 某用户异常流量类型
3.4 终端操作系统漏洞的安全威胁
从采集到的移动用户上网记录中的UA字段,提取其中的终端型号和操作系统版本号,发现可能存在的安全漏洞,及时为用户提供安全补丁等服务,防止产生中毒、吸费等安全事件。移动用户上网记录安全应用系统对采集到的某一时间段内的上网记录数据进行统计分析,终端操作系统类型的分布如图5所示。其中,no_data表示系统未能采集到UA字段信息,unknown表示采集到信息,但不能判别是哪种操作系统。
图5 终端操作系统类型统计
各种类型的操作系统漏洞事件频发,给用户带来了大量的损失,因此,有必要为用户提供漏洞提示和补丁升级服务等。从用户上网记录中的终端类型(iPhone4S、三星S4等)、操作系统类型(ISO5、Android4.2等)、软件客户端类型(qqmail、safari等)这三个字段可以对移动用户的上网安全状态进行描述。根据这三类数据,运营商能够自动发现移动用户的安全风险,分析其对应的漏洞,向用户提供解决方案及补丁推送服务,保障用户的移动终端安全,提高用户体验[5]。
4 结束语
通过对移动用户上网记录的数据进行安全分析,搭建安全应用平台,建立安全模型进行试验,我们主要得出以下结论和经验:1)面对复杂的海量数据,简单的算法比复杂的算法更易用,数据模型建立和数据分析经验是至关重要的因素;2)数据之间的因果关系依然存在,传统的挖掘方法对海量数据依然适用;3)数据的价值难以穷尽,可根据业务需求变化和环境变化,不断建立模型进行试验[6]。
本文中的安全模型和安全发现结果还仅仅是半成品,在这个基础上可以推广和演化出新的可能,也可在此基础上进一步丰富和扩展安全分析模型,并融合其他数据源进行关联分析,分析结果可应用于安全服务和安全应用中。
[1]郭三强,郭燕锦.大数据环境下的数据安全研究[J].科技广场,2013(2):28-31
[2]王志军,黄文良.大数据在移动用户上网记录查询中的应用研究[J].信息通信技术,2013,7(12):29-34
[3]余琦,凌捷.基于HDFS的云存储安全技术研究[J].计算机工程与设计,2013,34(8):2700-2705
[4]蔡平.基于Hadoop的NoSQL数据库安全研究[D].上海交通大学,2013
[5]贾哲.分布式环境中信息挖掘与隐私保护相关技术研究[D].北京邮电大学,2012
[6]聂元铭.大数据及其安全研究.信息安全与通信[J].2013(5):15-16