基于大数据分析的防电信诈骗呼叫建模
2018-02-08
林洁群 中国联合网络通信有限公司广州市分公司网络运行维护部交换工程师
蔡培雄 中国联合网络通信有限公司广州市分公司网络运行维护部交换工程师
1 引言
针对电信诈骗事件频繁发生的情况,中国联通广州市分公司深入分析12321(网络不良与垃圾信息举报受理中心)平台下发的被投诉号码的呼叫行为特征,通过挖掘不良号码的信令记录,从呼叫频次、接通率、通话时长、拨打被叫的类型等多个维度甄别不良号码,并且结合360网络安全平台数据库对号码的标记情况,制定出能准确筛选不良号码的模型规则。
2 研究背景
2.1 电信诈骗频发
电信诈骗是指,诈骗分子通过打电话、网络和短信方式,编造虚假信息,设置骗局,对受害人实施诈骗,诱使受害人给诈骗分子打款或转账。诈骗分子采取漫天撒网的形式,在某一段时间内集中向某一个号段或者地区拨打电话,波及面很宽、社会影响恶劣。
电信诈骗的主要形式有冒充政府部门、金融部门、电信运营商、网购平台客服、亲戚朋友,编造虚假中奖信息等,并且出现了许多新型的诈骗套路,令人防不胜防。
从腾讯安全发布的《2017年第一季度反电信网络诈骗大数据报告》显示,2017年第一季度全国的电话诈骗事件总有33570起,虽然诈骗电话事件次数比第四季度降低50%,但仍然处于较高水平。
2.2 提升技术手段,大力打击通讯信息诈骗
为切实保障正常通信秩序,保护人民群众合法权益,维护社会和谐稳定,进一步防范与打击不法分子利用通信网络实施通讯信息诈骗等违法犯罪活动,工信部开展了“综合治理不良网络信息防范打击通讯信息诈骗”行动。为了响应国家的要求以及工信部的行动,中国联通广州市分公司也着力推进防范打击通讯信息诈骗工作,其中一项重点工作是完善技术手段,提升对诈骗电话发现拦截的能力。
2.3 12321网络不良与垃圾信息举报受理中心
12321网络不良与垃圾信息举报受理中心为中国互联网协会受工业和信息化部委托设立的举报受理机构。负责协助工业和信息化部承担关于互联网、移动电话网、固定电话网等各种形式信息通信网络及电信业务中不良与垃圾信息内容的举报受理、调查分析以及查处工作。
12321平台能通过电话、网页等多个途径举报电信诈骗事件,12321平台受理后会将诈骗号码反馈到其归属的运营商,监督运营商对该号码进行处理。
3 构建防电信诈骗呼叫模型
3.1 信令采集数据库
通信网中任意两个通信终端之间的通信都离不开信令,终端与交换节点之间、各交换节点之间以及不同网络之间的互通,都必须在信令的控制下进行。在呼叫建立和呼叫拆除过程中,用户与交换机之间、交换机与交换机之间都要交互一些控制信息,以协调相互的动作,这些控制信息称为信令。
中国联通广州市分公司在固定语音网各个端局、融合关口局以及长途局上均配置了信令采集系统,经过交换机的信令均被保存到数据库中。通过接入信令数据库,对信令数据进行分析,可以从中获得主叫号码、被叫号码、所经路由、释放方向等一系列数据,这些数据能准确地反映出该通呼叫的详细情况。综合分析某个号码一天内的信令记录,从呼叫频次、呼叫接通率、平均呼叫时长等多个维度着手分析,能准确地总结出该号码的呼叫特征,推断出其呼叫行为。
3.2 360号码标记库
360手机卫士是国人普遍使用的一款免费手机安全软件,其内置了来话提示归属地以及号码标记信息的功能。由于360手机卫士占的市场份额较高,且360手机卫士在比较早的时候就开始收集统计用户对号码的标记情况,故360平台号码标记库的数据具有较高的可参考性。
利用12321平台中被投诉诈骗的号码历史数据,分别在360、百度、搜狗3家网络平台查询号码的标记情况。结果发现,在12321平台中被投诉的恶意号码与360的号码标记库匹配率较高,也就是说,这批恶意号码在360平台号码标记库中标记为非正常号码的比率大于其余两家平台的标记比率。综合考虑,我们决定在防电信诈骗模型当中加入360平台号码标记情况作为筛选条件,利用互联网公信力作为参考,使得模型能更准确地判断疑似号码的类型以及恶意程度。
360平台对号码的标记类型有诈骗电话、广告推销、房产中介、骚扰电话、快递送餐、招聘猎头、响一声电话、保险理财、出租车。其中诈骗电话、骚扰电话以及响一声电话是影响最为恶劣的,故在防电信诈骗模型当中会添加号码被360标记类型的过滤。
3.3 集团客户固话防诈骗呼叫模型
中国联通广州市分公司的集团客户固话业务范围主要包括语音专线、商务总机、简易集线通、集客普通固话等产品。集团客户固话业务的受众面主要是各行业公司大客户,其特征是公司来往的话务较大,也有着很明显的上下班时段特点。
通过获取12321平台中被投诉诈骗的固话号码,搭建本地网呼叫信令数据库,在此基础上挖掘2017年1—4月被投诉的固话号码每日呼叫信令,经过详细核查验证,确定在模型中应用信令记录参数中的“呼叫频次”、“接通率”、“主叫挂线率”3个关键指标,并且从大量的号码行为分析中发现以下规律:被投诉的号码当天呼叫量较大,日呼叫量超过N次的占比80%以上;且接通的次数不高,接通率在M%以下;此外,被投诉号码在正常通话的过程中主动挂线的几率较低,基本上主叫挂机率都在P%以下。
针对以上呼叫特征,可初步建立了集团客户固话防诈骗呼叫模型,具体条件如下:
(1)每天拨打数量大于N次。
(2)接通率在M%以下。
(3)主叫挂线率小于或者等于P%。
(4)被360标记为骚扰电话、响一声电话或诈骗电话。
在中国联通网内信令数据库中使用的集客模型SQL语句如图1所示。
3.4 无线固话模型
无线固话终端内置一个移动SIM卡,号码直接置为固网号码。从使用方式来分析,无线固话与移动电话十分相似。但从呼出的显示主叫的号码以及信令上的主叫号码来看,无线固话又是固话号码。
无线固话的行为与手机无异,使用起来较为方便,却使得难以跟踪到电话固定的位置,后付费的收费模式又减轻了骚扰诈骗的成本,以上的种种原因造成了无线固话号码大量被投诉存在诈骗行为。在12321平台反馈的固话号码当中,无线固话占比较高。
通过分析被投诉的无线固话号码的呼叫行为,发现使用无线固话的诈骗分子一天的呼出量较多,但比不上使用多终端专线呼出的集客客户,无线固话号码每日的呼叫量在N次以上;而接通率、主叫挂线率均与集客模型类似,绝大部分的诈骗号码的接通率都在M%以下,而主叫挂线率都在P%以下。
针对以上呼叫特征,可制定了无线固话防诈骗呼叫模型,具体条件如下:
(1)每天拨打次数大于N次。
图1 集客模型SQL语句
(2)接通率在M%以下。
(3)主叫挂线率小于或者等于P%。
(4)被360标记为非正常号码。
在中国联通网内信令数据库中使用的无线固话模型SQL语句如图2所示。
3.5 闲时模型
此处定义的闲时时段指的是每天的13:00-14:00、23:00-0:00、0:00-1:00、1:00-2:00。每天的13:00-14:00是午休时间,而23:00-0:00、0:00-1:00、1:00-2:00则是晚上休息的时间。正常来说,正常固话号码在以上4个时间段基本上无话务量,即使对于话务量较大的大公司而言,在以上4个时间段的呼叫频次都不会超过N次。
通过分析12321平台反馈的固话号码,其中有10%的号码是在闲时时段呼出而被投诉,造成了极坏的骚扰影响。通过分析这些号码当天的信令记录,发现这些号码在闲时时段内存在呼叫频次大于N次的呼叫行为,而正常号码在闲时时段内基本上不会达到1h拨打N次的条件。
针对以上呼叫特征,我们制定了闲时固话模型,具体条件如下:
(1)在13:00-14:00、23:00-24:00、0:00-1:00、1:00-2:00这4个时间段内拨打次数大于或等于N次。
(2)被360标记为诈骗号码/骚扰号码/响一声号码。
在中国联通网内信令数据库中使用的闲时模型SQL语句如图3所示。
3.6 短频短时呼叫模型
典型的诈骗电话的内容包括冒充领导、虚假中奖信息、冒充政府部门、冒充亲戚朋友等几类,同时诈骗分子会采取广撒网的手段,一天内呼出大量的话务。对于辨识能力较强以及比较警惕的用户,他们往往在听到诈骗分子的前几句话就能分辨出是一通诈骗电话而挂机。因此,在统计12321被投诉的号码当中,只有小部分的诈骗电话的通话时长超过了Lmin。
针对诈骗电话的短频短时呼叫的特点,可制定短频短时呼叫模型,具体条件如下:
(1)每天拨打数量大于N次;
(2)平均呼叫时长≤Lmin;
(3)1min通话率≥P%;
图2 无线固话模型SQL语句
图3 闲时模型SQL语句
(4)15s内通话率≥H%;
(5)被360标记为诈骗号码/骚扰号码/响一声号码。
在中国联通网内信令数据库中使用的短频短时模型SQL语句如图4所示。
4 成果
进入2017年,12321平台的建设愈加完善,而电信诈骗事件也一直持续高发。从图5可以看出,在2017年的前3个月,中国联通广州市分公司在12321平台上被投诉量一路攀升。面对不良态势,经过挖掘分析信令数据,从多个维度甄别诈骗号码,针对不同业务、不同使用场景制定上文提到的防电诈模型,最终在2017年3月底开始实行防电诈模型,每天定时向公司业务部门输出疑似诈骗号码,并根据匹配结果不断更新模型的条件参数。从2017年4月开始,12321平台被投诉量大幅下降,成功地遏制电信诈骗事件的高发态势,取得了丰硕的成果。这也反映出防电信诈骗呼叫模型的确能匹配出具有不良语音呼叫行为的固话号码,具有相当高的参考价值。
5 结束语
中国联通广州市分公司针对频发的电信诈骗事件,利用信令中包含的主叫号码、被叫号码、呼叫时间、呼叫时长、释放方向等信息,结合电信诈骗的典型案例以及在12321平台上被投诉号码的呼叫特征,制定出筛选不良号码的模型。
从业务层面考虑,集客业务与无线固话业务的号码呼叫特征有所差别,因此对应制定了集团客户固话模型以及无线固话模型。而为了防范号码的恶意骚扰,制定了闲时模型以及短频短时呼叫模型。
图4 短频短时模型SQL语句
防电信诈骗模型从2017年3月底开始向业务部门输出疑似诈骗号码,其具有相当高的参考价值。正是因为有了防电信诈骗模型,业务部门能第一时间发现疑似号码的恶意呼叫行为并对其进行限制,防止该号码继续骚扰诈骗其余用户,遏制了电信诈骗事件的发生。从2017年4月起,中国联通广州市分公司被12321平台投诉的固话号码量逐月大幅下降,取得了非常好的成果。
图5 中国联通广州市分公司被举报号码数量趋势图
[1]李易.反电信网络诈骗全民指南[M].上海社会科学院出版社,2016,10,1.
[2]桂海源,张碧玲.信令系统[M].北京邮电大学出版社,2008,5,1.
[3]MICK.SQL基础教程[M].人民邮电出版社,2014,8.
[4]Itzik Ben-Gan.Microsoft SQL Server 2008技术内幕[M].电子工业出版社,2010,9,1.
[5]Rachel Schutt,Cathy O'Neil.数据科学实战[M].人民邮电出版社,2015,3,1.
[6]李航.统计学习方法[M].北京:清华大学出版社,2012.