基于自相似异常判断模型的数据稽核方法
2016-12-07王峥嵘郑邦峰吴清茂
王峥嵘 郑邦峰 吴清茂
(中国移动通信集团海南有限公司,海南 海口 570125)
基于自相似异常判断模型的数据稽核方法
王峥嵘 郑邦峰 吴清茂
(中国移动通信集团海南有限公司,海南 海口 570125)
通过在数据稽核过程中根据数据自身的相似性来确定正常的数据趋势,并判断数据是否存在异常,满足横向数据稽核的要求,解决通信业务办理数据稽核的问题。
数据稽核;自相似;异常
1 前言
随着各行业对生产数据的完整性、准确性、一致性的要求越来越高,数据稽核的方法和技术应运而生。
目前数据稽核的方法和技术主要有以下两种:
(1)在数据仓库中的数据稽核
在ETL(Extract-Transform-Load)中,对相邻的两个环节中的数据总量进行验证,并在总量正确的情况下将数据进行分量分维度验证。采用在ETL过程中进行稽核的方法,只能对相邻节点的数据进行比对,即只能进行纵向数据稽核,而无法进行横向数据稽核,并且不能得到趋势性的稽核结果。
(2)设定平衡关系式,将全量数据进行关系匹配验证
采用设定平衡关系式,将全量数据进行关系匹配验证,发现数据之间的不平衡。该种方法只能稽核到数据存在不平衡,而无法确认正确的数据形态。
上述两种方法和技术都不能很好地解决通信业务办理数据稽核的问题,而基于自相似模型的数据稽核系统,可通过在数据稽核过程中根据数据自身的相似性来确定正常的数据趋势,并判断数据是否存在异常,满足横向数据稽核的要求。
2 定义一种基于自相似模型的数据稽核方法
基于自相似模型的数据稽核方法包括基于不同的时间周期、地域归属关系、渠道关系、统计规律的自相似方法。
生产运营的特点决定了在业务办理数据中,无法正确判断异常错误来源或者不少细小量的业务异常被淹没在大规模的正常数据中。首先,业务办理数据存在工作时间和非工作时间的差别。其次,各地市之间的用户基数的区别,以及各渠道办理的本身特性,导致其办理的业务量需要一个复杂的函数进行描述或者无法描述。最后,分类规则的不明晰,导致大量的业务办理数据混成一团。但是这些特点并不能掩盖数据真实的关系,数据根据其归属关系,以及时间的周期关系等,存在相关的自相似情况。分析这些自相似情况,根据相似度来判断业务办理是否有异常。在技术上,我们选用自相关函数。
x和y分别表示两个时间序列之间和同一个时间序列在任意两个不同时刻的取值之间的相关程度,即互相关函数是描述随机信号x(t),y(t)在任意两个不同时刻t1,t2的取值之间的相关程度。自相关函数是描述随机信号X(t)在任意两个不同时刻t1,t2的取值之间的相关程度;互相关函数给出了在频域内两个信号是否相关的一个判断指标,把两测点之间信号的互谱与各自的自谱联系了起来。它能用来确定输出信号有多大程度来自输入信号,对修正测量中接入噪声源而产生的误差非常有效。
根据实际的测算,如果相似度>0.9,我们可以认为是相似的。
3 几种自相似情况
3.1 基于时间周期的自相似情况
虽然在一天内,存在工作时间非工作时间的区别,也有忙闲时的区别,但是以天作为单位的时候,却是存在自相似情况。对于业务量较高的日期和业务量较低的日期,之间存在一个差值,但是这种差值分布在每天的各个时间段,在任意时间段是存在一定的比例的。
例:日办理业务量异常
(1)图1所示是某月的平均每日24小时内的标准图像。(系列2:某项业务)
图1 标准图形
(2)从图2中可见,虽然业务量只有平常的3/4,但是从图形上来讲,他们是类似的度,根据上述算法,相似度为0.97148,在可以接受范围内。(系列2:某项业务)
图2 符合相似范围内的示意
(3)从图3中可见,虽然有一些差距,但是在接受范围内。中午有一个较小的批量业务高峰,但不至于有根本差别的图形,其相似度为0.921313。(系列2:某项业务)
图3 存在批量业务高峰示意
(4)图4从数值上看没有问题,但明显图形不一样。从总体业务办理量来看,办理的业务差不多,但是分散在各个时间段,但明显发生了下午6点的业务高峰的情况,这种时候的相似度小于0.9。(系列2:某项业务)
图4 存在高峰点异常示意
(5)如图5(系列2:某项业务),从一个整月的图形看,我们能够清楚地看出每个周期的一致性,以及其中明显的异常点。
图5 月度数据示意
3.2 基于地域归属关系的自相似情况
由于各个地市的用户的基数大小不同,对于一个小的地市而言,其办理的业务量不及大地市的1/10,但是从分布图形形状看,它们是必须一样的,即应该有同样的高峰出现时段,同样的忙闲时段,同样的业务分布。
图6 基于地域归属关系的自相似情况
从图6(各个系列代表不同的业务办理量(取对数,否则图像较大))可以看出,虽然HNHK(海口)的业务量最大,但是从各个业务来看,他们的分布图形是一致的。
3.3 基于不同渠道关系的自相似情况
虽然大部分业务可以通过不同渠道办理,但是同一时段办理业务的用户是固定分布的,分布到各个渠道上的概率也是一定的,因此,虽然各个渠道办理的业务量有差距,但是其图形应该是相似的。
图7 基于不同渠道的关系的自相似情况示意
从图7(图中系列代表不同的渠道)可以明显看出,虽然图像的相似有一些差距,但是基本上按照一定的规律发展,但是系列2明显有不同,经过分析得知,在此过程,系列2对应的相关应用有异常,10点开始急剧下降,在15点恢复后进行业务补足处理,因此有一个高峰。
表1 相似度数据汇总
3.4 基于统计规律的异常业务数据判断
在一个存在大规模用户基数和纯随机发生的业务中(如通话量、短信量等),其数据的分布在统计意义上是满足一定的概率分布的,但是如果需要找出在通话过程中,在短信发送量、数据流量上找出可能的异常或者涉嫌欺诈的行为,则必须要通过经营分析,仔细判别随机业务中可能存在的几十或者上百个变量的关系,费时费力。
为此我们采用了另外一种简单有效的方式来进行判断,由于业务的分布必定满足一个在[0,max]范围内的某一个概率分布,而我们常见的分布一般来讲是“平滑”的(数学意义上的连续可导),如果在真实数据上发现有“毛刺”数据,则发生“毛刺”的地方则就可能是存在业务异常的地方。
在程序计算时,考虑简化算法,采用“斜率连续急剧变化”作为存在“毛刺”的判断。
(1)某一点斜率小于某固定值或者和前一点斜率差别较大,说明此时图形存在一个剧烈的上升和下降的趋势。
(2)下一点的斜率和上一点斜率的乘积<0,说明在此点处发生剧烈变化,从上升趋势直接降低到下降趋势。
根据上述两点,则可以理解为在此点的数据为一个“毛刺”点,可以将此点挑出并预警。
例:垃圾短信量的确定
为了确定用户是否存在发送垃圾短信的行为,单纯找出短信发送量最大的用户可能不准确,因为在随机情况下,可能也有正常存在的发送短信量较多的用户,因此需要确定垃圾短信的范围,从而根据这些范围找出相关的垃圾短信嫌疑用户。可以利用该种方法得到相关的垃圾短信用户,如图8所示。
图8 基于统计规律的异常业务数据判断示例
4 结束语
数据稽核作为一种事后处理的机制在各行业的生产运营工作中得到广泛应用,越来越多的生产活动、管理决策依赖于高质量的生产数据。基于自相似模型的数据稽核方法是对不同客户办理通信业务的行为在不同空间、时间及维度的相似性进行分析,根据分析结果确定业务办理数据是否存在异常,明确数据异常趋势是数据稽核的有效方法。
[1]颜超亚.电信计费数据稽核系统的设计和实现[D].重庆:重庆大学,2009.
[2]QB-Y-033-2012,NGBOSS2-CRM(V4.0)业务规范[S].
[3]QB-Y-034-2012,NGBOSS2-CRM(V4.0)技术规范[S].
[4]QB-Y-029-2012,NGBOSS2-BOSS(V4.0)业务规范[S].
[5]QB-Y-030-2012,NGBOSS2-BOSS(V4.0)技术规范[S].Data Auditing Method Based on Self Similar Anomaly Judgment Model
Wang Zhengrong Zheng Bangfeng Wu Qingmao
(China Mobile Communication Group Hainan Co.,Ltd.,Haikou 570125,Hainan)
In the data auditing process,the trend of the normal data is determined according to the data similarity,and the abnormal data is judged,meeting the requirements of the horizontal data audit,and solving the problem of data audit in the communication business.
data audit;self similar;anomaly
TP3-0
B
1008-6609(2016)07-0105-03
王峥嵘,女,海南人,本科,助力工程师,研究方向:业务支撑系统规划,应用系统开发。