APP下载

电信运营商电子渠道风控研究*

2018-09-29殷钱安陈一根魏国富梁淑云

通信技术 2018年9期
关键词:决策树号码运营商

殷钱安,陈一根,魏国富,梁淑云

(上海观安信息技术股份有限公司,上海 200333)

0 引 言

电子渠道是以互联网技术和通信技术为基础,将产品销售与服务数字化的运营形式。贾利娟[1]等人提出一种基于运营商大数据的信用风险控制模型,利用运营商的用户基础信息构建信用风险控制模型,提升征信评级的精度,降低业务风险。姚登举[2]等人提出了一种基于随机森林的特征选择算法,以随机森林算法为基本工具,以分类精度作为准则函数,采用序列后向选择和广义序列后向选择方法进行特征选择。朱佳俊[3]等人提出一种基于用户画像的异常行为检测,模型通过对用户行为进行特征提取,运用机器学习的方法对正常用户的行为进行学习,通过马氏距离和孤立森林算法判定受测行为是否异常。徐世海[4]等人提出了电商风险控制对策的初步探讨。章新斌[5]等人在电信运营商安全增值服务创新探讨一文中,结合现有的电信运营商,提出了建立一揽子安全服务体系来控制信任风险,给出了一个在IDC运营市场可以控制技术、信任风险且基本可行的安全增值服务方案。王殊妹[6]等人针对电信运营商电子渠道发展模式和策略进行探讨后,提出一种后期通用的“一级架构”的电子渠道,以及探讨如何选择电子渠道的发展策略。张浩[7]等人提出了一种基于马尔可夫模型的电商平台供应链金融风险控制,有效地为电商平台上的投资企业精准定位了更多优质授信商户,为其制定中短期或者长期投资战略提供了数据支撑,为投资方实现收益多元化的同时有效控制其风险。袁俊[8]等人在浅谈中国联通电子渠道信息安全体系规划中详细提出了电子渠道系统信息安全建设的总目标,其中包括电子渠道的信息安全风险管理。林志强[9]等人在我国电信运营商全面风险管理(ERM)研究文章中,详细研究了中国电信运营商全面风险测评研究。

综上所诉,本文通过关键字“运营商”“电子渠道”“风险控制”进行搜索,发现目前国内外学者对于运营商的安全风险控制检测的研究可以概括为以下两个方面:一是防火墙技术能够对网络通信进行过滤,防止没有经过授权的访问进入没有授权的运营商电子渠道对应的页面,但是无法防范内部用户的攻击;二是通过收集后台用户数据,利用机器学习的方法识别相关异常用户。

风险控制方法主要有两种基本类型:特征检测和风控检测。目前,风控检测也是其中的研究热点。该技术通过对电子渠道中的用户数据建立正常的行为样本特征,将正常的用户样本特征与实际的样本行为进行对比,捕获电子渠道中恶意用户的刻意薅羊毛和恶意操作。该技术对系统本身要求不高,跨平台性能好,能够很好地检测出未知风险。

本文主要是基于运营商电子渠道数据提取用户数据特征,通过学习已标记的正常用户和异常用户特征,训练出正常用户与异常用户行为的识别模型,然后利用已训练完成的随机森林模型对测试数据集中用户行为进行检测,从而识别出异常用户。

1 基于机器学习的用户行为刻画

1.1 机器学习

机器学习是计算机算法的研究,可以通过经验自动改进。实践上,机器学习是利用收集到的数据训练模型,然后通过模型进行预测的一种方法。一个机器学习系统主要由信息环境、学习单元、知识库和执行单元构成。环境作为外部信息来源,为学习单元提供信息。学习单元利用信息对知识库进行建立和改进,是实现学习算法的核心。知识库用来存储系统的原有领域知识和通过学习获得的各种新知识。执行单元利用知识库中的知识求解问题,将求解中的信息反馈给学习单元或者对环境做出响应,并对学习的好坏进行评价。

机器学习常用的方法有决策树、人工神经网络、感知器、支持向量机、贝叶斯分类器、最近邻算法、隐马尔可夫模型和遗传算法等。目前,国内外已经开展了机器学习相关技术在异常检测中的研究,主要方法是把入侵检测事件作为模式识别问题用机器学习处理,根据网络流量和主机审计日志检测异常行为。

1.2 随机森林

随机森林是一种统计学习理论。它使用bootsrap重采样从原始样本中提取多个样本。每个bootsrap样本使用决策树建模,然后结合决策树进行预测,最后通过投票获得选票数最多的类,作为最后的预测结果。随机森林具有较高的预测精度,对样本噪声数据和缺失值数据具有良好的鲁棒性,并且具有较快的学习速度。随机森林的变量重要性可以被用于高维数据的特征选择。当决策树增加时,随机森林不会产生过拟合的类似问题,因为外部预测的平均误差趋向于随着决策树模型的增加而收敛。

1.3 用户行为刻画

用户行为刻画是对用户信息进行标签化,通过对用户数据的收集和分析,总结用户的行为习惯,抽象出用户的整体情况。

以0预缴异常识别场景为例。0预缴业务的目标群体一般是针对新用户或者目标客户的,如果被投机者“薅羊毛”,会给运营商带来损失,同时会让0预缴业务达不到预期的效果。在分析0预缴订单数据后,构造用户办理0预缴业务次数、办理的订单数、剔重后的策划编码数、用户成功办理的次数、用户失败办理次数/办理次数的失败率,按用户分组,获得办理时间排序后两次操作时间间隔次数最多的间隔。如果相同次数的间隔有多个,考虑到之后会用到识别机器行为的模型,选择最小的间隔、相同间隔最多的次数、相同间隔最多的次数占比等特征。根据构造的特征,结合业务逻辑,初步判定哪些用户疑似异常用户。考虑到仅办理1次0预缴业务的用户基本属于正常用户,在训练集中会剔除这部分用户,以提高模型的运行速度和准确性。

实际场景中,运营商希望能够在短时间内检测出异常用户调用非法接口,同时模型应该有较高的准确率。

1.4 特征选择

在用户行为刻画模型上,特征选择是一个非常重要的数据预处理过程,也就是选取哪些电子渠道中的用户行为数据对用户进行刻画。实际工作中,不好的特征或者特征维度过大会导致运算时间过长,有时甚至无法正确识别异常用户。良好的特征选择则可以很好地降低目标函数的收敛难度。

结合特征的相关性、变量变异性、重要程度、数据分布、与目标字段之间的相关关系、变量之间的缺失程度等,对业务特征选择进行筛选。特征分布示例如图1所示。

图1 特征分布

利用不同用户在使用网上营业厅时产生的习惯进行用户行为刻画建模。具体地,通过用户登录次数、用户连续登录时间段、用户登录对应异常用户局域网、用户短时间内登录等信息,刻画用户的操作行为。

2 用户行为识别模型算法

文章基于随机森林算法,对已标记的用户行为数据进行训练学习,检测未标记的用户行为数据,从而识别出异常用户。

决策树是随机森林算法的基本单元。决策树的构造由随机向量确定。随机森林算法的本质是一种结合多个弱分类器减少其误差的分类算法,模型如图2所示。

图2 随机森林

生成随机森林的步骤如下。

步骤1:从原始训练数据集中,使用bootsrap方法随机抽取k个新样本数据集,然后建立k分类回归树。每次没有被抽到的样本组成k个袋外数据(Out-of-bag)。

步骤2:设n个特征,然后随机选择每个树的每个节点的mtry个特征(mtry≤n)。在每个树的每个节点处随机抽取,通过计算每个特征蕴含的信息量,在mtry个特征中选择一个最具有分类能力的特征进行节点分裂。

步骤3:每棵树最大限度地生长,不做任何剪枝。

步骤4:生成的树由随机森林组成,新数据使用随机森林进行分类。分类结果由树分类器的投票决定。

最终的分类决策为:

其中:H(x)表示组合分类模型,I(θ)是示性函数,hi(x)表示单个决策树分类模型,Y表示目标变量。式(1)说明使用多数投票决策的方式来确定最终的分类。

一组分类器h1(X),h2(X),…,hk(K),每个分类器hi(X)的训练集X都是从原始的服从随机分布函数的(Y,X)中随机抽样所得。余量函数(MarginFunction)定义为:

其中:mg(Y,X)表示在正确分类Y之下X得票数目超过其他错误分类的最大得票数目的程度;av(·)表示取平均值,(·)表示取最大值,I(θ)表示示性函数,Y表示目标变量,hk(K)表示某个决策树。

余量函数用于度量平均正确分类数超过平均错误分类数的程度。余量值越大,分类预测越可靠。

泛化误差(外推误差)定义为:

其中X、Y表示概率的定义空间。

当决策树分类模型足够多hk(X)=h(X,θk)。服从于强大数定律,其中θk是独立分布的随机变量。引入随机变量θk,是为了控制每个决策树的生长。

可以证明,随着决策树分类模型的增加,所有序列θ1…PE*几乎处处收敛于式(4)。

这解释了随机森林不会随着决策树的增加而增加。

由此可以看出,随机森林算法的误差更稳定,很好地克服了单个决策树的不足,体现了多个弱分类器组合成强分类器的优势。

3 实验分析

采集某地方运营商电子渠道中的用户数据,包括用户登录时间、用户登录时间间隔、用户登录频次等基础用户信息,以传统的风控业务规则筛选出异常风险用户数据。此方法采集的数据可以使用监督算法——随机森林算法。

为了增强用户的粘性,运营商会定期推出一些优惠活动,如赠送话费券、流量券等,但是有时会被部分投机取巧用户利用,给运营商造成损失。

通过分析某次活动记录表,鉴于没有其他数据将不同的用户联系起来,所以构建号码段将不同用户联系起来。具体做法如下:根据用户id截取前7位作为用户号码段;按照号码段进行分组,按时间升序排序构建序号特征;根据序号计算两次操作的时间间隔,然后根据时间间隔计算具有相同间隔数和相同间隔连续数,从而识别出异常用户群体。

结果显示,识别出某一号段中300多个用户于凌晨1点左右每次间隔33 s领取优惠券。因为时间间隔稳定、连续且操作时间集中在凌晨,号码属于同一号段,且66.14%的号码中含4(运营商中比较差的号码),所以初步判定这些用户为异常用户群体数据,如表1所示。

表1 异常用户数据

号卡预约电信运营商场景。为让用户更便捷轻松入网,提升客户体验感,运营商在电子渠道推出号卡预约业务,即用户可在网上预约号码。预约号码时,需填写用户名、联系号码、证件号码等信息。同时,也存在部分用户恶意占用号码的现象。为了识别出该群体用户,构建用户号码与身份证之间的关系对,利用Neo4j关系数据库,直观呈现号码与证件号码、证件号码与证件号码、号码与号码的关系,得到对应的业务异常数据,如表2所示。

表2 号卡预约业务异常数据示例

将数据划分为三部分——训练数据集、测试数据集和验证数据集。在此数据上,构建机器学习的特征:用户登录占比(F1)、用户调用接口的数量(F2)、用户对业务办理频次(F3)、用户短时间内操作次数(F4)、用户预约号码频次(F5)、用户是否登录异常用户局域网(F6)、用户24小时连续操作(F7)、是否异常标签(L)。结果如表3所示。

表3 特征表

按照时间宽度为1、3、5、9天对数据分别进行测试,结果如表4所示。可以看出,传统的业务风控业务检测的准确率基本一致,不会随着时间的积累提高。但是,随机森林算法对运营商的电子渠道上的风控管理有着稳步的提升。

表4 风控对比

4 结 语

“大众创业,万众创新”是“互联网+”时代国家的号召,激发了全国人民的创新和创业热情。作为互联网渠道的提供者,电信运营商应积极参与创新,电子渠道转型势在必行。要坚持电子渠道移动互联网发展方向,加快传统电子渠道向互联网电子渠道的转移,充分运用大数据分析工具,推动人工智能在电子渠道中的应用。文章中的模型能够很好地处理业务中的风控检测,通过不同天数的实验数据可以发现,不断训练随机森林模型能够稳步提升业务风控检测的准确率,进一步扩展了人工智能中的机器学习算法。而在实际环境中,对更广泛数据的应用和分布式处理和架构值得进一步探索。

猜你喜欢

决策树号码运营商
说号码 知颜色
一个号码,一个故事
猜出新号码
决策树和随机森林方法在管理决策中的应用
决策树多元分类模型预测森林植被覆盖
基于决策树的出租车乘客出行目的识别
取消“漫游费”只能等运营商“良心发现”?
第一章 在腐败火上烤的三大运营商
三大运营商换帅不是一个简单的巧合
三大运营商换帅