APP下载

基于交换机失败观察的短信诈骗监控系统研究

2018-01-15李普森张喆聂晓宇

科学与财富 2018年35期
关键词:信息提取数据采集数据分析

李普森 张喆 聂晓宇

摘 要:目前利用短信诈骗的行为很多,特别以短信发射机、伪基站的方式实施诈骗的技术手段非常先进,可以利用设备的便携特性在人员密集的商场、休闲场所进行流动性的短信发送,很难做到检测、排查和迅速发现。本项目计划采用交换机上的实时失败观察的手段来检测伪基站的短信发送情况,利用合适的数据库软件对收集的数据进行统计分析,可以及时的发现区域的异常通信行为,确定问题出现区域,缩小监控的范围,进而更容易的找到恶意短信发送的人员,从而减小短信诈骗行为。

关键词:失败观察;数据采集;信息提取;数据分析

中兴WCDMA核心网交换SERVER上所带的失败观察,主要是用来监控在本交换机下的用户正常或非正常的通话释放。这里说所得正常情况可以是用户白发的在拨叫后的挂断的用户自身行为,也可以是异地用户因为欠费停机而造成漫游限制等正常情况,不正常情况包括位置更新失败,MM位置更新本端失败,以及 MSCA局内切换失败等等情况。

因为影响交换的指标就是由这些失败造成的,所以对这些失败的观察和分析有利于发现问题,通过收集失败观察的信息,对各种引起不正常的情况进行分析,发现问题的规律,找到问题的根源,可以为下一步解决问题打下坚实的基础。中兴失败观察里,提供了很多失败观察的选项,包括语音呼叫,短信收发及上网等常用的业务。

短信收发作为失败观察的其中一项,可以单独进行观察和信息的采集。因为这里主要利用失败观察这一手段检测伪基站的短信發送情况,对短信诈骗行为进行监控,所以这里在失败观察里只选择短信收发这一个选项,这样可以提高分析的效率,如果有其他分析指标的需要,可以根据要求来选择相应的失败观察选项。

1.利用失败观察检测伪基站的具体应用

1.1 数据采集与预分析

这里对本文失败观察所进行的数据采集与预分析进行说明,本项目首先通过中兴的4G交换机,设置失败观察为短信(SMS)选项,然后进行相关数据的采集与预分析。为了更好的分析失败观察的数据对检测伪基站的短信发送情况的影响,尽量排除因为短期收集数据,收集数据量不足等问题对本项目所带来的负面影响,收集数据的相关时间段选为上午忙时09:00至11:00(共计2个小时)以及下午忙时17:00至18:00(共计1个小时),连续收集天数设置为1周,其目的是为了分析数据的全面性和可靠性。然后在交换机上点击开始,后台收集数据,因为中兴软交换上,存放失败观察文件的系统文件夹的容量只有200M,当超过这个容量时,就会覆盖掉前期观察所存放的文件,为了避免覆盖,所以每天固定时间导出收集的数据,这样可以有实际的预分析数据模板,为后面的实时数据分析打下基础。

1.2 基于失败观察数据的软件分析系统

在收集到失败观察数据之后,需要利用数据库软件进行数据导出并将对检测伪基站的短信发送情况有用的信息分离出来,然后对这些信息进行统计分析,具体的工作步骤如下:将每天导出的交换机失败观察数据转成txt文本格式,用数据库软件分析导出数据,分离出用户MSISDN,IMSI,基站CellID,失败根源原因等相关数据,并对用户号码和基站等进行匹配,然后对失败根源原因进行统计。

这里对短消息主叫失败根源进行分析,总结出失败的原因主要有以下五种:

(1)mOperatorBarred_M

当用户由于欠费、漫游禁止等原因,导致签约的运营商闭锁置位,产生此类呼损。在“失败观察”中提取“mOperatorBarred_M ”的呼损,并进行信令跟踪。可以看到:MSC侧向无线发送的CP-DATA 消息中,Cause Value为 Operatordetermined barring。

(2)短消息中心拥塞

用户做短消息主叫时,短消息中心发生拥塞导致报此呼损。在 “失败观察”中提取“短消息中心拥塞”的呼损,并进行信令跟踪。可以看到:短消息中心回复了MAP Error,包含内容失败码为sc-Congestion,MSC侧根据此原因报短消息中心拥塞的呼损。

(3)非法的短消息号码格式

由于短消息中心设置错误,造成此类呼损。在“失败观察”中提取“非法的短消息号码格式”的呼损,并进行信令跟踪。可以看到:CP-DATA 消息里短消息中心的号码设置格式不是正确的短消息中心号码格式。

(4)用户为非短消息中心用户

短消息中心没有对应用户的数据,当用户进行短消息主叫时,产生此类呼损。在“失败观察”中提取“用户为非短消息中心用户”的呼损,并进行信令跟踪。可以看到:MSC 侧与短消息中心交互时,短消息中心回复MAP Error,其中包含了subscriberNotSC-Subscriber的failure code。

(5)远端节点不可及

用户做短消息主叫,由于短消息中心设置错误,造成此类呼损。在“失败观察”中提取“远端节点不可及”的呼损,并进行信令跟踪。可以看到:无线向M SC 侧发送CP-DATA,MSC侧回复CP-DATA消息里CAUSEVALUE为Temporary failure。从第一条CP-DATA消息里发现短消息中心的号码设置为8613800,不是正确的短消息中心号码格式。在呼损为“非法的短消息号码格式”中,短消息号码格式为非86开头的错误短消息中心地址,两种呼损的本质是一样的,都是设置错误。

在收集到数据之后主要进行的是数据的提取分析,而要完成数据的提取分析这一步首先需要选择合适的数据库分析软件,通过收集的数据发现,无论使用MySQL,还是使用SQLite都无法实现相关数据提取,即便是添加SQL的编程功能,问题依然无法解决,而且在提取过程中还经常遇到数据库软件假死崩溃的现象,几乎无法正常使用。经分析之后发现问题出现的主要原因在于分析的数据量很大,超过百万条,解决这一问题的关键在于数据的处理速度。

针对这一问题,首先怀疑是内存容量问题,这可以在项目进行时,对主机进行内存升级,添加内存到32G后,进行相关测试,观察是否能提升数据的处理速度,以及避免数据库软件崩溃现象。

另外因为收集的失败观察数据每次到一定大小,就会自动截止,然后又生成新的数据,在忙时生成的数据较多,分割的文件也较多。将这些原始的文件导出后,转化成txt文件时,步骤较多需要人的过程干预,而作为一种自动化的分析软件,应该尽量将所有到的过程都尽可能的避免人的干预,要能做到会自识别文件,完成解压导入处理数据的过程,对出现问题的焦点问题,可以在系统内关联适合人读取的信息,将16进制的机器语言转化成英文或汉语,方便人们读取查询,形成一个完全自动化的系统,所以在分析数据系统设计时,也考虑到能自动的识别txt文件,导入系统中进行数据格式的转换和处理,并有进一步分析的能力,可以提取出有价值的信息,比如相关的基站号、基站对应名称、所在位置及对应手机号用户信息等,提高系统的易用性,并且具备问题直接呈现和处理建议推荐功能。

1.3 汇总、形成模板并实时分析数据

在进行数据的统计分析之后,根据上面的分析结果,可以在前台用户管理系统及后台移动用户管理数据库HSS中查询失败观察用户的情况,包括用户的身份信息、住址、发生问题的基站、失败发生的次数统计等等相关统计信息并针对出现大量失败观察的小区进行排查,对集中出现的失败原因进行分析,查找出相关问题发生原因。

在形成模板的基础上,可以对分析出的问题区域进行持续的监控,这时需要在10几分钟内对百万以上的失败观察数据进行迅速分析,只有这样才可以在分析完成数据后,迅速的追踪问题区域,协助警方进行跟踪查询嫌疑伪基站,本项目研发的系统才有意义。

另外,进行数据分析不是目的,系统最关注的是分析结果,需要在提取数据后,使用效率高的数据库软件在数据提取上体现优势,而且要降低工作量,并支持对要分析的数据进行深入分析,在整个流程环中进行数据采集、提取分类、关联信息查询、情景分析,最终发现问题并提供处理建议,体现整个系统的完整性和智能性。

根据失败观察数据特性(数据量大,达到百万级),本项目计划采用数据库的索引方式,进行数据的迅速匹配查询,然后再删除索引的方式来优化数据查询过程,并保持数据格式范围,完成数据完整性和提高效率的双重提升。

2.实验和验证

在形成模板过程中,短期的数据采集无法发现问题,收集的忙时数据要持续好几天,所以要分析的数据量很大,要优选数据库的分析软件。对比MySQL、Access、SQL Server、SQLite等数据库软件后,要选取符合本项目处理百万以上数据的效率要求,才能作为数据分析的主要软件,计划通过详细对比试验来选择软件。

由于时间原因,这里先利用了数据库效率测试软件对三种候选的数据库软件进行了初步的Insert和Select测试,在之后会进行更加详细的对比试验来进行测试。

测试结果:经过查询相关资料,首先排除了速度最慢的Access数据库,而SQL Server 和 MySql性能相差不大,但是SQL Server是需要付费的,Sqlite由于其属于轻量型数据库,所以数据多大几万条时明显过慢,所以比较之下,Mysql可能是最合适的数据库软件。

通过对比选择的数据库,测试其索引查询速度情况,计算大量数据的在查询提取过程的具体时间,选择索引查询速度最快的数据库分析软件,从项目准备前期的情况看,无论哪种数据库在经过索引查询后,速度都比直接的逐条查询速度快了不止一个等级,所以这种大数据提取加速设想是切实可行的。

3.结语

本文针对目前盛行的短信诈骗现象提出了一种基于交换机失败观察的短信诈骗监控系统的研究思路与设想,并对其技术方案的可行性与有效性进行了论述,其核心思想是利用中兴交换机的失败观察选项,通过对收集的大量数据进行统计分析,对失败根源进行分析,然后找到最有可能的问题区域进行排查,从而减少短信诈骗行为,其主要的分析手段是利用数据库软件進行数据信息的提取和分析,这方面的主要工作是寻找到能处理百万级数据的数据库软件以及合适的大数据处理方案,现阶段是利用数据库的索引查询技术来实现大数据的提取加速。本文为解决短信诈骗提供了一种切实可行的实现方案,而且这对核心网的稳定和优化有一定的借鉴意义。

参考文献:

[1]王岩, 胡承忠. 失败观察在位置更新成功率分析中的应用[J]. 中国新通信, 2014(24):49-50.

[2]胡喜梅.核心网短信业务失败原因分析[J].科技风,2015(10):124.

[3]李志斌. 无线网络核心网优化研究[D].北京邮电大学,2012.

[4]罗淡贞.浅析移动核心网的网络优化要点[J].中国新通信,2017,19(10):15-16.

[5]李锴.移动通信核心网优化探讨[J].中国新通信,2017,19(09):8.

[6]董磊.移动通信核心网优化探讨[J].通讯世界,2017(05):71-72.

[7]吴静源.移动核心网的优化方法研究[J].通讯世界,2016(19):22-23.

[8]胡喜梅.切换业务呼损场景分析[J].电脑与电信,2016(03):52-53.

[9]张晓兰.移动通信核心网优化研究[J].新技术新工艺,2015(12):119-121.

[10]张章炳.移动通信核心网工程的规划设计[J].电信快报,2015(08):38-41.

[11]李兴. 基于MSC POOL的长沙联通核心网设计与实施[D].南京邮电大学,2015.

[12]丁中华.移动核心网交换侧网络优化方案设计[J].通信电源技术,2015,32(01):108-110.

[13]熊伟. 基于核心网数据挖掘的移动通信用户行为分析及应用[D].北京邮电大学,2014.

[14]陈昕. 基于信令分析的移动网络业务质量评估方法的研究[D].北京邮电大学,2015.

[15]庄波,刘博.利用核心化模块优化局间3G切换[J].科技信息,2014(10):137-138+167.

[16]刘晓燕. 山东联通移动核心网网络优化方案设计[D].山东大学,2013.

[17]冯万里.移动核心网优化的要点及方法探讨[J].科技创新导报,2011(27):60.

支持项目:国家级大学生创新创业训练计划项目,项目编号:201710453166.

猜你喜欢

信息提取数据采集数据分析
改正通告检查中若干问题的分析研究
基于广播模式的数据实时采集与处理系统
通用Web表单数据采集系统的设计与实现
新常态下集团公司内部审计工作研究
浅析大数据时代对企业营销模式的影响
基于开源系统的综合业务数据采集系统的开发研究
享游景区服务系统的开发和研究
Excel函数在学生日常管理中的应用
基于遥感数据的雾物理属性信息提取