基于大数据智能化的客户服务异常行为分析

2018-12-21张明

电信工程技术与标准化 2018年12期

张明

（中移在线服务有限公司，郑州 450001）

随着在线公司信息化系统的逐步建设，信息化系统已经成为其重要的组成部分，并在日常工作中担负着不同的功能，只有保障每个信息系统同时正常运行，才能使公司日常业务稳定开展。然而，在大数据环境下，由于信息化系统复杂性不断增加，操作人员操作不规范、高权限账号滥用引发的高危操作、内部人员违规获取篡改重要信息等因素时刻威胁着信息系统的正常运行。目前，当信息系统安全事件发生后，通过对信息系统保存和记录的日志进行人工筛查，找出异常行为并进行处理，这种采用传统的检测人工检测在执行检测任务时准确率不高，检测效果往往不佳。本文结合分析用户异常行为特征，在大数据环境下采用机器学习的故障识别算法，对信息系统用户异常行为进行识别处理，建立有效的信息系统用户异常模型，最终得到异常行为识别方法，从而建立信息系统用户异常行为自主分析体系模型。

1 目标

本方案是基于大数据分析技术，收集互联网舆情数据、操作行为日志、操作系统日志等多方面数据，通过用户异常模型从多个维度完成异常分析，实现信息系统中客户服务异常行为的识别。

2 相关技术

信息安全初期防护重点是针对信息系统外部的各种攻击进行防护，对于信息系统内部的各种威胁总是有意无意忽略甚至缺乏必要的监测手段。近年来大量信息安全事件告诉我们，对于信息系统内部的威胁和异常往往会造成极其严重的后果，时至今日，信息系统内部威胁和异常行为在业内越来越受到重视。今年来发生的多起敏感信息泄漏事件，主要原因都是信息系统内部出现严重安全隐患，使得内部人员通过内网将信息泄露出去，造成恶劣事件的发生。信息系统内部攻击具有极强的隐蔽性，攻击者会刻意伪装自身行为，通常单点行为不具备威胁性，但多个行为组合在一起后就会产生极大的威胁，若某几个行为组合很少出现，单个行为又没有特殊性，则这组行为很可能属于异常行为。若某些行为已经被列为异常行为，那么与其同时关联出现的行为也是异常的概率也十分巨大，在线服务公司主营业务为10086客户服务，拥有大量的客户服务人员，呈现出分布范围广且可直接接触客户信息，需要对其客服人员的操作行为进行监控、防护及溯源。

对内部行为的分析采用相似性分析，但为了避免重复，本文采用关联分析算法对内部行为进行分析，关联分析的一般步骤是：

（1）以行为主体作为被分析对象（通常为IP地址或身份标识）对内部行为日志进行解析，将描述各种行为的异构日志转换成适合分析比较的行为链。

（2）将行为链数据代入关联分析算法，计算出各种可能的关联关系。

（3）根据一定的判断规则，从计算出的多个关联关系中找出异常行为的组合。

2.1 建立行为链

想要透彻清晰的分析用户行为，首先需要全面用户行为数据，本方案基于在线公司日志统一管理平台收集用户日志，实现行为页面全采集、流程全面覆盖，然后将用户行为日志进行整理分析，形成行为链，如图1所示。

图1 行为链

2.2 关联分析

关联分析是以从众多行为数据里中找出关联关系。关联关系是某种A到B的关系函数式，通过该关系函数可以推出从行为A得到行为B，其中 A和 B分别是关联关系的前因和后果。在满足最小支持度和最小置信度的条件下才能认为“通过行为A可以推导得到行为B”成立。算法涉及到概念解释如下。

项集(T)：包含N个或者多个项的集合称为项集。在安全行为分析中，每个行为就是一个项，每个用户ID或者IP地址都包含了多个项，把其中的项组合起来就构成了项集。

支持度计数：项在项集中出现的次数。例如｛用户信息查询｝这个项在项集中总共出现了5次，即它的支持度计数就是5。

支持度(s)：项集在其包含项的行为链中所占的比重，这里N是所有项集的数量。上面的例子中我们得到了{用户信息查询}这个项集的支持度计数是5，若行为链中一共有10条项集，那么{用户信息查询}这个项集的支持度就是0.5。

频繁项集：如果我们对项目集的支持度设定一个阈值，那么所有支持度大于这个阈值的项集就称为频繁项集。

置信度(c)：这个定义确定的是行为A在包含B的项集中的频繁程度。

有了置信度和支持度两个度量单位，就可以对现有行为规则做限定，找出有价值和有意义的规则。首先对支持度和置信度分别设置最小阈值mins和minc。之后在所有规则中找出支持度大于等于mins和置信度大于等于minc的所有关联规则。

根据上面对于关联规则的定义，找出所有的规则，对每一个规则计算支持度和置信度，然后再从中提取符合条件的规则。为了控制需要计算支持度和置信度的规则数量，目前关联规则的挖掘过程大致可以总结为两步：找出所有频繁项集和由频繁项集产生规则，从中提取置信度高的规则。

但是随着行为增加对导致项数量急剧增加，原始算法的复杂度将成指数级增长。故我们采取FP-tree算法来进行关联分析。FP-tree算法采取紧凑的数据结构组织tree，再直接从这个结构中提取频繁项集。

FP-tree算法的过程如下。

首先对行为链集合中的每个项分别计算其支持度，筛查去除其中非频繁的项，然后对每个行为项的支持度进行倒叙排列。

根据每条事务中事务项的新顺序，依此插入到一棵以Null为根节点的树中。同时记录下每个事务项的支持度。这个过程完成之后，我们就得到了棵FP-tree树结构。

对构建完成的FP-tree，从树结构的上方到下方对每个项，将先前的路径转化为条件FP-tree。

根据每棵条件FP-tree，找出所有频繁项集。

2.3 异常行为分析

通常在一个信息系统中，正常访问行为占比最大，因此异常行为的占比通常不高，故在关联分析的算法设计时，我们对支持度的要求不是高于某个阈值，而是大于零且小于某个特定的阈值。

例如一个普通的客户端主机对其它IP地址的扫描显然是一种异常行为，如果利用关联分析的方法，发现这些有扫描行为的主机都查询过相同或高度相似的域名，那么这个域名查询请求也是一种异常行为，很可能是终端主机感染木马程序后的回联行为。

再例如一个普通的客户端主机存在高频并发域名查询的行为，如果利用关联分析的方法，发现这些终端的主机的系统函数调用行为特征非常接近，或者这些终端主机都有访问本地敏感文件（密码文件、配置文件等）的行为，则这些系统函数调用或本地敏感文件访问也是异常行为。

图2 功能架构

3 功能实现

3.1 系统架构

用户异常行为分析的功能架构如图2所示。主要包括数据层数据加载；分析层基础分析引擎、行为检测分析和安全威胁展示4个基础功能模块，共同支撑上层应用层各个应用模块，各功能模块功能说明具体如下。

（1）数据加载模块。与在线服务公司统一日志管理平台对接，完成对用户行为分析各场景的输入数据的首要工作，同时分析结果也需存储到该模块中。

（2）安全威胁展示。数据加载为各分析场景及系统交互提供统一的管理功能，主要包括统一登录、权限管理、身份认证、数据订阅等功能。

（3）行为监测分析模块。通过对各种安全检测日志、系统日志等基本数据的深度分析，实现用户异常行为的检测功能。

（4）基础分析引擎模块。通过大数据分析方法对安全检测结果和原始日志数据进行深度挖掘，刻画整个平台的用户行为情况，输出支撑上层应用所需的威胁分析与预警数据。威胁分析包括行为画像和趋势分析与预测等。

3.2 数据来源

用户异常行为分析的输入数据是来自于数据采集模块的日志和基础数据。这些数据由采集模块通过在线服务公司统一日志管理平台采集，并经过筛选、清洗、标准化等处理，具体包括网络设备日志、安全设备日志、主机系统/组件日志等。

3.3 数据处理

采集系统模块负责全网的安全数据的集中采集、标准化、存储、全文检索以及数据共享。采集系统主要功能如下。

3.3.1 安全数据集中化

明确安全数据采集对象，列出用于威胁分析的数据来源，集中存储。

3.3.2 安全数据标准化

采集后的原始数据经过清洗过滤、标准化、关联补齐、数据标签化后形成标准化数据。规范数据在各个阶段的数据格式。规范标准化后的安全数据的目标存储。

3.3.2.1 数据的清洗/过滤

（1）清洗：针对数据格式的不一致、数据输入错误、数据不完整等问题，支持对数据进行转换和加工。常用的数据转换组件有字段映射、数据过滤、数据清洗、数据替换、数据计算、数据验证、数据加解密、数据合并、数据拆分等。

（2）修改：错误数据，产生原因是业务系统不够健全，在接收输入后没有进行判断直接写入后台数据库造成的，比如数值数据输成全角数字字符、字符串数据后面有一个回车、日期格式不正确、日期越界等。

（3）删除：重复性数据。

3.3.2.2 数据标准化

对异构原始数据进行统一格式化处理，以满足存储层数据格式定义的要求。对于被标准化的数据应保存原始日志，数据标准化的原则包括如下。

（1）在保证基本扩展能力的基础上，根据每种类型数据的标准库规则，实现相关字段的标准化。

（2）对于常用的字段，保证字段内容的一致性，消除不同事件对于相似问题描述的不一致性，满足依赖于这些字段的规则的可移植性。

（3）未被标准化的数据应保存原始日志。可用于事后为该特定数据再定义标准化规则。

3.3.2.3 数据关联补齐

采集到的数据之间存在关联性，通过关联补齐后形成完整的数据，能够丰富数据本身，以便于后期的统计分析。

3.3.2.4 数据标签化

基于关联补齐后的数据，结合数据所属业务系统、设备类型等信息，在原数据基础上进行标记。

3.3.3 全文检索

支持对原始数据、标准化数据的全文检索。

3.4 客户服务异常行为分析

主要针对在线服务公司日志平台收集的行为日志，进行归并、聚合、过滤和关联分析，以降低无用告警及误告警对于有效告警的噪声影响，产生更有价值的安全事件，便于运维人员使用。同时系统应支持对产生的安全事件进行下钻，查询到该事件对应的原始告警日志，方便安全事件的追溯。

3.4.1 恶意订购行为分析，通知客户增加亲和力

目的：对客户短时间内连续订购的增值业务，分析是否为手机病毒或异常操作所致。第一时间与客户沟通，避免客户投诉。

数据来源：统一日志平台。

数据要求：客户号码、消费日志、每月的统计数据等。

分析过程：根据客户增值业务订购的数据信息，通过大数据分析手段建立行为链和历史行为库，对客户订购信息进行分析，对客户的订购业务突然增长的数据进行汇总分析，第一时间通知客户核实，避免客户拨打10086投诉。如客户每月的流量使用基本都在2G～3G，突然在某个月末的时候连续订购流量套餐，这时需要及时通知客户核实，避免事后客户投诉。

3.4.2 客服电话智能化质检分析，监控违法信息

目的：利用公司现有的智能化语音转写技术，将语音通话转写为文本，对通话内容进行监控。

数据来源：客服质检系统转文本后的信息。

数据要求：来电号码、通话时长、通话频率、通话内容等。

分析过程：根据质检系统转文本后的数据信息，建立客户号码通话行为资源库和行为特征，及时发现不符合行为特征或者行为特征差别较大的来电和通话行为，如某个来电号码总是在特定的时间有较长的通话时间，或者通话内容中包括一些反动言论，则定位为异常通话行为。

3.4.3 利用舆情分析系统，对可能造成客服电话剧增的事件进行分析，合理调配客服资源

目的：利用舆情分析系统，对互联网爆出的与移动相关的数据泄露、恶意造谣等事件进行分析，第一时间调配客服人员。

数据来源：舆情分析系统的舆情数据，客服系统现有资源使用情况。

数据要求：舆情数据、客服人员使用情况等。

分析过程：对全国客户的恶意投诉电话数据量进行分析，包括电话投诉和在线投诉量，通过舆情分析系统对发送的数据泄露、恶意造谣等事件进行分析，第一时间调配相关省份话务力量，应对客户投诉。

3.5 分析结果

用户异常行为分析的输出数据包括行为检测结果和威胁分析结果。行为检测结果为具体异常行为和安全攻击事件的检测日志，支持上层应用的具体事件查询。威胁分析结果为刻画安全行为态势的统计和分析日志，支持上层应用对整体态势的呈现。通过行为检测分析和威胁分析，及时发现客户服务系统中出现的异常违规行为和安全事件，以便及时处理，减少客户投诉。

（1）恶意订购行为分析，通知客户增加亲和力：通过用户消费信息形成网络套餐消费行为链，并根据行为链进行关联分析，最终形成该用户消费行为置信度和支持度区间，当用户消费低于或高于该支持度或置信度，系统将自动发出告警信息，提醒用户合适消费信息。

（2）客服电话智能化质检分析，监控违法信息：通过通话时长、通话频率形成客服电话行为链，并根据行为链进行关联分析，最终形成每一个客服行为置信度和支持度区间，当客服行为低于或高于该支持度或置信度，系统将自动发出告警信息并自动保存通话信息提供给质检部门进行核实。

（3）利用舆情分析系统，对可能造成客服电话剧增的事件进行分析，合理调配客服资源：通过舆情分析系统对发送安全事件，包括数据泄露、恶意造谣等事件进行分析，判断该事件对当地省份的影响，同时对当地省份客服资源进行分析，给出客服人员增加建议量，合理调配客服资源，应对剧增的客服投诉。