APP下载

大数据在电信行业的应用研究

2019-10-14许经伟李公平王文学涂贺元

数字通信世界 2019年9期
关键词:聚类分类算法

许经伟,李公平,王文学,余 娜,涂贺元

(中国电信股份有限公司安徽分公司,合肥 230000)

1 引言

对于电信运营商来讲,大数据时代中充满了机遇。特别是如今,对于电信运营商来讲,从运营商业务模式转向为数据资产运营商已经成为了一种必然的发展趋势。特别是典型运营商所拥有的海量行为数据,使得其拥有者突出的数据优势。在这个优势之上,电信运营商可以通过各种大数据技术来打造电信大数据能力开放平台。这样电信运营商不仅仅是能够实现精准化、个性化的营销服务,还能够为企业的经营管理提供帮助。2018年,安徽电信将大数据风险管理作为企业管理创新的抓手,通过数据汇聚、数据建模、机器学习、风险识别、派单管控建立了一套完成的大数据风险管理系统与流程,发现了企业经营管理过程中大量的风险问题,挽回大量的损失。

2 大数据风控背景

随着移动互联网的快速发展,越来越多的用户和代理商享受到线上业务的便利。然而系统运营在开放式的互联网环境中,所面临的风险来自各方面。薅羊毛、恶意订单、营销欺诈、脚本访问等恶意欺诈行为既对活动推广和业务运行造成恶劣影响,也对公司的资金安全构成巨大风险。

安徽电信很早就已开展内部业务稽核方面的工作,包括业务稽核、审计集市、固化方式、金库系统,但离高水平的业务风险管理还有不小差距。差距主要体现在两方面:一是尚未在公司层面建立起对风险统一管理的流程、框架、策略。二是目前的风险管理不成熟及风险覆盖范围不足,主要依靠传统风控手段靠经验、分段稽核,缺乏全流程全视角的风控管理,对非业务类、流程类风险,识别滞后,未能有效防范风险发生。

通过大数据风控工作逐步实践,建立完善业务风险防护系统,建立健全风控制度,形成完整体系。

3 大数据风控思路及实施过程

大数据风控是通过业务风控风险识别技术算法,对一线人员、外部客户、技术人员的业务行为进行分析建立风险模型,根据风险模型设定风险规则,快速识别业务风险,并且对业务行为的历史数据建立通过机器学习的方法勾勒风险画像,将日常业务行为和风险画像进行比对,通过K-means 算法聚类出异常点并对有差异性的行为进行风险分析,通过持续迭代过程不断发现业务风险。

同时将风险清单,进行派单管控,派单后续反馈跟踪、效果评估,进一步提高对风险原因与风险处理成效等情况的掌控,更加准确地定义和掌握各类风险的危害程度和变化趋势。

逐步建立包含风险额度评估、风险指数评估、派单处理评估和风险处理成效评估及决策支撑体系,实现业务风险现状可视化展现,为领导决策提供数据支撑。

逐步完善风险案例知识库,提炼各类典型风险案例,实现面向省市公司风险知识共享。

大数据风控重点完成风险识别和风险应对,主要是解决风险识别和通过相关系统实现风险派单和反馈,具体完成下列功能模块实施:

(1)完善风险视图,支持按日、按小时的展现,也支持风险的派单和评估。子菜单功能包括风险识别情况、风险派单情况、风险应对情况、风险库情况可视化展现。

图1 风险视图

(2)建立风险库,能够对风险点和风险场景进行定义,目前已完成已有风险库和为安徽电信三种监控对象(代理商、用户、技术人员)特殊定义的风险点案例录入。

(3)大数据平台进行风险数据加工:即风险数据的采集、抽取、清洗、转换和存储。支持采用非监督算法进行数据的分类,采用监督算法进行模型的适配。支持采用统计学算法进行数据指标的采集和计算,支持各种基于规则的数据采集、计算方法,以形成代理商、用户、技术人员的模型。

(4)形成闭环风险管控流程,对识别的风险规则固化,产生风险清单,进行清单级派单,跟踪和优化,对风险的应对处理进行验证、效果评估,提炼各类典型风险案例,共享各类风险知识。实现风险信息管理,风险知识的一点共享,确保风险及时发现、解决。

近年来,武汉商学院就教风的建设采取了多样化的措施。比如采取“新进教师助教制度”,用“以老带新”的方式传承教学技艺和教学方法;开展教学质量月活动,通过微课比赛、教案比赛促进教学质量的提高;在教学环节上,对课堂提出高标准、对教学质量提出严要求;在科研上,加大力度奖励做出了突出贡献的老师等等。

图2 智慧风控流程图

(5)按月输出风险分析报告,对风险管理活动进行记录,描述风险分析的过程,为业务活动和业务安全性评估提供相关依据,同时对风险模型迭代优化、梳理业务场景进行建模分析提供支持。

(6)输出风险模型,持续跟踪:结合特定的业务场景,选择合适的分析方法建设规则模型和机器学习模型,主要分为三类:

第一,面向一线人员:代理商风控模型,基于代理商的缴费、业务办理日志进行聚类分析,输出异常代理商行为;异常用户发展分析模型,对发展的用户的进行收入、活跃度、业务使用等数据进行关联分析,输出异常发展用户。

第二,面向外部客户:增量用户价值模型,对用户业务订购、使用、缴费进行用户价值分类预测,输出用户价值分档;反欺诈模型,根据历史欺诈号码的特征行为,进行建模分析,输出疑似欺诈号码清单。

第三,面向技术人员:基于技术人员的业务风险模型,对技术人员使用本网业务情况、生产系统操作数据进行关联分析,输出异常行为数据。

4 实施方法与核心技术

4.1 建立风险识别与处理的闭环管理

通过项目实施,总结出来“四步法”,建立起风险识别与处理的闭环管理:

(1)数据建模:风险数据的采集、抽取、清洗、转换和存储。采用非监督算法进行数据的分类,采用监督算法进行模型的适配。采用统计学算法进行数据指标的采集和计算,实现各种基于规则的数据采集、计算方法,以形成风险模型。

(2)风险识别:通过感知、判断或归类的方式对现实的和潜在的风险性质进行鉴别的过程。风险识别是风险管理的第一步,也是风险管理的基础。

(4)整改防范:对风险进行定级评级,建立风险视图持续展示、预警各风险点发生情况;通过派单确认后固化风险模型,运营稳定后纳入日常稽核流程进行整改。

4.2 机器学习算法建议

项目实施过程中使用的大量的机器学习算法,针对不同的场景,通过无监督算法做初步筛选,有监督算法进行深度分析的模式建设9个风险分析模型,识别12类风险场景,发现多起业务操作违规问题,挽回直接经济损失近600万,算法使用建议如下:

4.2.1 无监督学习算法

(1)Kmeans 聚类算法:是一种基于样本间相似性度量的间接聚类方法,算法以k 为参数,把n 个对象分为k 个簇,以使簇内具有较高的相似度,而且簇间的相似度较低。是一种较典型的逐点修改迭代的动态聚类算法,其要点是以误差平方和为准则函数。缺点在于不同的划分个数和不同的初始点的选取将导致不同的结果,所以算法结果难以比较。

(2)DBSCAN 聚类算法:核心概念是core samples,指位于高密度区域的样本。算法将聚类视为被低密度区域分隔的高密度区域。DBSCAN 发现的聚类可以是任何形状的,与假设聚类是convex shaped 的K-means 相反。缺点在于DBSCAN 对用户定义的参数很敏感,细微的不同都可能导致差别很大的结果,而参数的选择无规律可循,只能靠经验确定。

(3)孤立森林算法:它是一个基于Ensemble 的快速异常检测方法,具有线性时间复杂度和高精准度,是符合大数据处理要求的state-of-the-art 算法。iForest 是一种适用于连续数据的无监督异常检测方法,即不需要有标记的样本来训练,但特征需要是连续的。对于如何查找哪些点容易被孤立(isolated),iForest 使用了一套非常高效的策略。在孤立森林中,递归地随机分割数据集,直到所有的样本点都是孤立的。在这种随机分割的策略下,异常点通常具有较短的路径。直观上来讲,那些密度很高的簇是需要被切很多次才能被孤立,但是那些密度很低的点很容易就可以被孤立。缺点在于iForest 对于特别高维的数据不适用(因为每一次对数据空间进行切割都是随机选取的一个维度,当建完树之后仍然会有大量的维度信息得不到使用,这就使得算法的可靠性得不到保障。同时高维度空间还有可能存在有大量的噪音维度或者是无关维度,会对树的构建产生影响),此外iForest 仅对全局稀疏点敏感,不擅长处理局部的相对稀疏点。

4.2.2 有监督学习算法

(1)决策树算法(decisiontree):它是一种典型的分类算法,在分类问题中,表示基于特征对实例进行分类的过程。它可以认为是if-then 规则的集合,也可以认为是定义在特征空间与类空间上的条件概率分布,其主要优点是模型具有可读性、分类速度快。学习时,利用训练数据根据损失函数最小化的原则建立决策树模型;预测时,对新的数据利用决策树模型进行分类。

(2)Logistic 回归:它是一种分类方法,用于二分类领域,可以得出概率值,适用于根据分类概率排名的领域,如搜索排名等。Logistic 回归的扩展softmax 可以应用于多分类领域,如手写字识别等。其优点是计算代价不高,易于理解和实现;缺点是容易产生欠拟合且分类精度不高。

猜你喜欢

聚类分类算法
分类算一算
基于K-means聚类的车-地无线通信场强研究
Travellng thg World Full—time for Rree
分类讨论求坐标
进位加法的两种算法
数据分析中的分类讨论
教你一招:数的分类
基于高斯混合聚类的阵列干涉SAR三维成像
一种改进的整周模糊度去相关算法
基于Spark平台的K-means聚类算法改进及并行化实现