一种基于信令数据的业务推销类骚扰电话识别方法
2020-08-13全俊斌张士珣刘峥
全俊斌 张士珣 刘峥
【摘 要】为治理网络不良信息,研究了业务推销类骚扰电话的识别方法。通过采集分析通话信令数据,统计异常通话特征,并运用加权综合评分方法,创新实现了业务推销类细分场景下的骚扰电话识别,与现有诈骗电话、高频骚扰电话的识别方法存在区别,有效扩大了骚扰电话识别范围。
【关键词】推销;骚扰电话;识别
doi:10.3969/j.issn.1006-1010.2020.07.016 中图分类号:TN915.08
文献标志码:A 文章编号:1006-1010(2020)07-0093-04
引用格式:全俊斌,张士珣,刘峥. 一種基于信令数据的业务推销类骚扰电话识别方法[J]. 移动通信, 2020,44(7): 93-96.
0 引言
骚扰电话持续泛滥,已严重干扰了人们正常生活。而有效的骚扰电话综合治理措施,有赖于对骚扰电话的精准识别与细化分类,如业务推销类(房产中介、贷款、保险)、违法犯罪类(黄、赌、毒)、恶意骚扰类(“呼死你”)等[1]。现有骚扰电话识别技术中,基于用户标记的号码库[2],极依赖于用户投诉标记数据,时效性差,识别范围有限,且具有主观性,可能存在误报。基于呼叫行为的号码分类[3-6],识别结果为通用类骚扰电话(如高频电话),识别范围有限,更难以区分骚扰电话类型,不利于实施下一步针对性处置措施。基于通话内容的号码分类[7-8],对软硬件要求高,投入成本巨大,且涉及用户敏感信息,存在数据安全风险。在无需采集用户敏感信息前提下,快速准确识别出业务推销类别的骚扰电话,是业界的技术难点。
1 信令数据采集
信令作为用户呼叫数据,包含着海量的端到端信息,是运营商掌控网络的重要手段。在现网中,通过分光、分流、汇聚、负载均衡等步骤,将核心网元的接口数据(一般包括X2、S1-MME、S1-U、S6a等)接入采集服务器,完成信令数据的采集。再经过信令解码、合成、存储、共享等步骤,生成信令话单数据,获取用户号码的通话信息。网络信令数据的采集原理如图1所示。
2 识别技术方法
通过分析用户投诉举报的业务推销类骚扰电话样本号码,发现此类号码具有静默期长、多使用手机号码主叫、被叫多为手机号码、主叫占比高、平均通话时长较短等明显特征。因此基于上述通话特征,建立数据初筛条件,在历史通话话单中筛选出疑似新启用的骚扰号码,减少后续当天话单的号码分析量,提升分析效率。接着统计样本的行为规律,如通话所在地与被叫归属地不一致、被叫先挂机、被叫号码分散等,筛选出统计特征,进一步提升识别准确率。相比于现有技术只能识别出骚扰电话此通用大类别,本方法可识别出骚扰电话中的业务营销细化类别,分析结果、选取分析特征均存在不同。
方法主要分为话单获取、数据初筛、特征统计、综合评分四个环节。
2.1 话单获取
获取当天及历史N天的信令话单数据,包括以下字段信息:主叫号码、被叫号码、通话开始时间、通话时长、主叫号码归属地、被叫号码归属地、通话所在地、通话挂机方向等。
2.2 数据初筛
在每个号码当天及历史N天的通话记录中,筛选出疑似新启用的骚扰号码,条件如下:
(1)号码活跃时间为当天,即仅在当天主叫次数大于0,而历史前N天内主被叫次数为0;
(2)号码为11位长的手机号码。即去除0086、+86、86等国家码前缀后,号码位长为11位,首三位数字符合已知运营商号段规则(如130、131等);
(3)当天未拨打过短号。短号是指号码位长为3位且第一位数字是“5”,或者号码位长为5-6位且第一位数字是“6”的号码;
(4)当天未拨打过固话号码。固话号码是指号码位数为11位且前三或四位为区号,或者号码位数为7至8位且第一位数字非“0”;
(5)当天“主叫占比”大于指定阈值,其中主叫占比等于主叫次数除以总通话次数;
(6)当天“通话次数”在指定次数区间范围内;
(7)当天“平均通话时长”在指定时长区间范围内,其中平均通话时长等于各次通话时长的平均值。
如以上条件均满足,则判断为疑似新启用的骚扰号码。
2.3 特征统计
对于疑似新启用的骚扰号码,提取其当天作为主叫时的通话话单,分析对应被叫的统计特征:
(1)被叫为手机号码的占比=被叫为手机号码的通话次数/总通话次数。其中,判断是否手机号码的条件为:去除0086、+86、86等国家码前缀后,号码位长为11位,首三位数字符合已知运营商号段规则;
(2)主叫号码通话所在地与被叫号码归属地不一致的占比=主叫号码通话所在地与被叫号码归属地不一致的通话次数/总通话次数;
(3)被叫号码归属同一省份的最大占比=被叫号码归属同一省份的通话次数最大值/总通话次数;
(4)被叫挂机占比=挂机方向为被叫号码的通话次数/总通话次数;
(5)被叫号码离散度=去重后被叫号码总个数/总通话次数。
输出每个疑似新启用骚扰号码对应的特征统计结果列表,格式如:[统计特征A,统计特征B,...,统计特征E]。
2.4 综合评分
对每个疑似新启用骚扰号码的特征统计数值进行归一化及加权综合打分,输出得分高于指定阈值的号码,判断为业务推销类的骚扰电话号码,步骤如下:
(1)特征数值归一化:对每个号码的统计特征列表[特征A,特征B,……,特征E],进行归一化处理。归一化公式如下:
归一化结果=(该号码对应的该列特征值-所有号码该列特征的最小值)/(所有号码该列特征的最大值-所有号码该列特征的最小值) (1)
所有号码对应的统计特征如表1所示:
其中某个号码x对应特征A的归一化方法如下:
号码x对应特征A归一化结果=(Ax-min(特征A列))/(max(特征A列)-min(特征A列)) (2)
其中,max(特征A列)表示特征A列当中的最大值,min(特征A列)表示特征A列当中的最小值。
将每个号码对应的所有统计特征进行归一化处理,得到每个号码对应的归一化特征列表[归一化特征a,归一化特征b,……,归一化特征e],每个归一化特征取值在[0, 1]间。
(2)加权综合评分:对于每个号码对应的归一化统计特征,依据预设的权重列表[特征权重a',特征权重b',……,特征权重e'],按如下公式计算每个号码综合得分:
号码综合得分=归一化特征a×特征权重a'+归一化特征b×特征权重b'+……+归一化特征e×特征权重e'
(3)
其中,所有特征权重之和为100,则号码综合得分取值范围是[0, 100]间。
(3)评分结果判断:对于每个号码对应的综合得分,与预设阈值进行比较。若得分高于预设阈值,则判断该号码属于业务推销类骚扰电话。
2.5 实现效果
基于hadoop/spark构建大数据环境,实现信令数据的清洗、转换、过滤、压缩、筛选、存储等功能。同时,基于上述识别方法建立模型分析信令数据,输出号码识别结果。根据实际生产结果,为兼顾识别准确率及覆盖率,选择重要特征变量的取值如下,得到图2结果样例:
(1)历史7天话单(N=7);
(2)主叫占比阈值0.9;
(3)通话次数大于等于20;
(4)平均通话时长为10 s至100 s;
(5)加权特征权重设置为[25, 20, 15, 10, 30];
(6)综合得分阈值80。
对连续多周结果的疑似号码进行回访拨测,验证识别准确率达95%以上。同时,识别结果中有90%以上的号码,未被现有其它骚扰诈骗电话检测技术(如高频电话)识别出,有效扩大了骚扰电话的识别范围。
3 结束语
本文基于信令数据的采集分析,提出了一种业务推销类骚扰电话的识别方法。通过提取当天及历史通话话单,分析活跃时间、非手机号码呼叫行为、主叫占比、通话次数、通话时长等主叫特征,识别疑似新开户骚扰电话号码,接着提取其当天主叫通话话单,分析对应被叫的五类统计特征,并对特征数值进行归一化及加权综合打分,识别出业务推销类骚扰电话。实践表明,方法可准确识别出業务推销类细分场景下的骚扰电话,弥补现时此类电话号码的自动识别技术空白。同时,方法只需提取通话话单的部分字段数据,统计通话号码及行为特征,不涉及用户敏感数据,不存在信息安全风险,可有效支撑不良信息防治工作。
参考文献:
[1] 葛健,周楠. 骚扰电话治理的应对与挑战[J]. 信息通信技术与政策, 2019(1): 32-35.
[2] 李娜,陈福,毛国君,等. 基于区块链的防电话骚扰欺诈模型[J]. 应用科学学报, 2019(2): 235-243.
[3] 韩研. “呼死你”骚扰电话防治方案[J]. 电信科学, 2018(Z1): 269-274.
[4] 赵越,王瑜,葛阳,等. 基于机器学习的大数据防诈骗能力研究与应用[J]. 江苏通信, 2019(4): 64-66.
[5] 王彦青,王瀚辰. 一种识别骚扰电话的组合算法研究[J].
电信科学, 2017(7): 112-119.
[6] 田纪军,夏雪玲,朱尧,等. 基于信令监测系统的骚扰电
话监控分析方法[J]. 信息通信, 2015(11): 244-245.
[7] 杜海涛,张峰,高曼颖,等. 基于话音识别的骚扰电话呼
叫检测技术分析[J]. 电信工程技术与标准化, 2014(12) :
5-9.
[8] 任中岗,周松. 一种基于通话内容的骚扰电话拦截方法[J]. 电子世界, 2014(5): 85.
作者简介
全俊斌(orcid.org/0000-0002-8530-6281):硕士,现任职于中国移动通信集团广东有限公司,主要研究方向为网络信息安全。
张士珣:学士,现任职于中国移动通信集团广东有限公司,主要研究方向为网络信息安全。
刘峥:硕士,现任职于中国移动通信集团广东有限公司,主要研究方向为网络信息安全。
收稿日期:2019-12-03