采用大数据技术的移动DPI关联算法探索及实现
2018-01-08刘孝颂马怡安
刘孝颂,马怡安
采用大数据技术的移动DPI关联算法探索及实现
刘孝颂,马怡安
(中国电信股份有限公司上海研究院,上海 200122)
针对近年来4G渗透率不断提高所带来的用户质疑流量使用情况的问题,通过深入的研究提出了一种利用移动DPI的详细话单与计费话单关联的算法,采用大数据平台以及相关处理技术对算法进行了实现,并展示了现网运行评估的效果。
大数据;计费话单;深度分组检测;数据流;LTE;eHRPD
1 引言
近年来,移动通信技术的快速发展,使得运营商对网络的升级速度也大大加快。用户一方面感受到了极速上网带来的便捷,另一方面也开始关心自己的流量、流向。根据艾媒咨询的调查报告,60.6%的iOS用户和53.3%的Android用户怀疑移动运营商存在偷流量行为,且用户认为App恶意偷流量。对于运营商而言,随之而来的是大量的投诉或查询。传统上处理该类型投诉问题,运营商只能依赖计费话单来应对用户投诉,由于计费话单并没有详细的流量使用情况,且时间颗粒度也较大,无法让用户得到满意的答复。
对此,运营商迫切需要通过移动DPI(深度分组解析)用户详细话单应对投诉。图1为运营商4G网络通用架构,从图1可以发现,DPI可以采集到用户使用的流量及对应的详细流向情况,计费网关则能统计颗粒度较粗的DDR(计费话单),若能把每个用户的每条计费话单中包含的详细话单在DPI中找到,并与计费话单关联起来,则可以比较充分地应对用户投诉并告知用户其详细的流量使用情况。
图1 运营商4G网络通用架构
但在实际操作过程中,存在两个关键问题:如何设计出一种合理的关联匹配算法;如何有效地在现网中处理海量的数据。本文将先从DDR和DPI详细话单产生的原理出发,通过数据寻找计费话单和详单关联中的问题,从而最终提出关联匹配算法或提出提升关联准确率的建议或措施。
2 流量匹配关键问题
2.1 关联衡量标准
对于客服或用户而言,最关心的是自己流量使用流向情况,如某一时间段的流量轨迹。故最直接的关联算法就是在一天时间内,针对每条计费话单的时间范围,找与之对应的DPI话单,关联完成后,统计关联后计费话单和DPI话单的流量误差并作为评判标准。若误差较大,则说明系统或关联算法等存在问题;反之则说明计费话单和DPI流量匹配率较高,可以以此应对用户投诉或供用户查询。
衡量标准1:话单级匹配率,即计费话单流量误差满足要求的比例。计算式如下:
衡量标准1的意义在于展示了一天内所有单条DDR的整体匹配情况,颗粒度较细,但无法反映单一用户的情况。
衡量标准2:单日用户级匹配率,即一天时间内用户的DPI总流量和DDR总流量的流量误差。计算式如下:
衡量标准2的意义在于展示了所有用户一天的计费话单的整体匹配情况,能直观地显示用户整体的流量匹配误差,但无法定位到单条话单的匹配情况。
本文的目标之一就是根据现网的情况,设计出一套能合适、合理地应用于现网的计费话单与DPI话单关联的算法,并以上述两个衡量标准作为算法优劣的评估标准。
2.2 问题及解决方案
2.2.1 现有统计颗粒度差异
DPI的生成频度远高于DDR,约为100:1的关系。4G话单按照1 h或50 MB进行分割,由于这种话单切割规则,在进行匹配的时候,会出现DDR统计周期内的流量匹配与DPI的流量正好交错,造成匹配失败。如果将统计周期由目前的DDR颗粒度进行放大,则提高匹配率以进行验证。计费话单与详单时间切片示意如图2所示。
图2 计费话单与详单时间切片示意
2.2.2 小流量话单的权重影响
小流量话单对于匹配率的权重影响较大,DDR/DPI在生成过程中的差异、造成的流量差异,在小流量话单匹配过程中非常敏感,对匹配率的影响权重较大。
情况1
• DDR flow is: 82215
• DPI flow is: 65452 including 6 records
• DDR > DPI, error is: 20.3892233777
情况2
• DDR flow is: 626215
• DPI flow is: 559864 including 113 records
• error is: 10.595562227
观察上述两种情况,情况1中,计费话单流量为82 215 byte,而详单流量为65 452 byte,两者相差16 763 byte,但计费话单流量误差为20.39%,根据之前的评判标准,该条话单是影响匹配率的“问题话单”。但观察情况2可以发现,计费话单流量为626 215 byte,而详单流量为559 864 byte,两者相差66 349 byte,计费话单流量误差为10.60%,根据之前的评判标准,该条话单是满足要求的。不过很明显,情况2对用户更敏感,本文应该更关注情况2的原因,而非情况1。
从图3可以发现,计费话单中小流量话单占比很大。如10 KB以下的小流量话单占比超过26%,但其流量占比却仅有 0.034%。而超过1 MB的计费话单占比不到20%,却拥有85%左右的流量占比。
通过上述分析可以得出一个结论,即应该适当降低对小流量计费话单的匹配率阈值,而较大流量的计费话单匹配率阈值无需放宽,因为无论从用户敏感度还是流量占比都说明了小流量计费话单并非很重要。
图3 计费话单条数及流量占比分布
对此,本文提出了一个新的流量匹配标准,见表1。
表1 新的流量匹配标准
2.2.3 计费话单边界影响
由于统计标准对时间的要求是每天0:00—24:00,所以根据DDR与DPI话单产生规则,必定有部分DPI话单由于时间的切分而无法统计。对此,本文需要根据DDR的时间跨度,对不同的DDR分别进行分析。计费话单边界影响分类如图4所示。
图4 计费话单边界影响分类
表2展示的某天计费话单中各类型话单的总条数和总流量情况。本文选取A类型话单和C类话单进行关联匹配。因为DPI话单的时间范围为0:00—24:00,而B类话单和D类话单可以算作后一天的A类话单,故不应该加入当天的统计。
表2 不同类型计费话单条数及流量
3 采用大数据技术的算法设计与实现
3.1 海量数据处理技术
以300万用户规模一天产生的数据为例。计费话单在合并前大约有9 700万条,合并后大约有7 100万条,290 TB的总流量。详单大约有127亿条,310 TB的总流量。在处理过程中势必要用到大数据处理技术。
本文实验验证环境拥有40个节点,总计3 TB内存,720Vcore,480 TB存储空间的集群。在实现过程中本文使用了MapReduce和Spark两种技术进行处理。其中MapReduce处理一天的数据需要总计19 h,而Spark处理一天的数据仅需45 min(使用1.5 TB内存,300Vcore)。很明显,Spark技术相比于MapReduce技术,在单点数据倾斜、中间结果缓存等方面拥有更大的技术优势。最终体现在对海量数据的处理效率上。
3.2 优化后的匹配算法
针对所有的计费话单,先筛选4G的计费话单,随后对计费话单进行预处理。预处理规则为将同一号码时间存在交叉、包含、连接关系的记录合并。随后进行话单级匹配关联:将DPI与DDR进行记录级关联,关联条件为DPI起始时间在DDR起止时间之间(一条DDR对应多条DPI,一条DPI只对应唯一一条DDR)。最后按DDR汇总:按照DDR的话单ID对关联后的记录进行聚合操作,并进行话单级和用户级的统计操作。
具体的计算规则如下。
(1)统计DPI话单预处理前后总条数、总流量以及DDR预处理前后总条数、总流量。
(2)针对每条DDR的总流量设置分段的匹配度标准,假设该条DDR流量为1,与之关联的多条DPI流量总和为2,(1-2)/1为匹配度。当1≤100 KB,则不考虑匹配度的值,认为这些话单均符合要求并分别记录条数;当1>100 KB &&1≤200 KB,则认为匹配度在[-100%, 100%]内均符合要求,分别记录条数;当1>200 KB &&1≤500 KB,则认为匹配度在[-50%, 50%]内均符合要求,分别记录条数;当1>500 KB,则认为匹配度在[-20%,20%]内均符合要求,分别记录条数。
(3)统计剩余的DDR和DPI话单条数与流量。
(4)统计每个用户当天的DDR总流量与DPI总流量。
(5)统计DDR和DPI话单中用户总数、关联的总用户数,并针对关联的总用户数,进行流量误差分布统计。即对每个用户,假设该用户DDR一天总流量为1,与之关联的多条DPI话单流量总和为2,(1-2)/1为流量误差。输出为流量误差的用户数情况分布。
3.3 优化前后对比
本文选取了直接匹配和使用优化后算法匹配的前后共7天的数据进行评估,评估效果如图5所示。可以发现在对DDR进行预处理、筛选了小流量话单并考虑和边界影响等因素后,无论是话单级匹配率还是用户级匹配率均得到明显提升。话单级匹配率稳定在90%上下,而用户级匹配率接近95%。后者在实际的应用中价值更明显,因为大部分用户一般对某日的总流量表示异议,使用优化后的匹配算法可以解释将近95%用户的实际问题,之前的困境得到了大大的改善。
本算法已应用于某运营商客服系统,当投诉用户对流量使用情况有异议后,客服人员可以使用该用户手机号码进行查询(需用户授权),并将查询结果展示给用户,以此解决用户疑问。
4 结束语
本文针对运营商现网运营中关于流量使用的投诉问题,在深入研究计费话单和DPI话单生成的机制后,通过分析得到了一种新的计费话单和详单的关联匹配算法,并设计开发了相应的稽核验证程序,通过现网数据进行验证,取到良好的效果。
图5 算法优化前后话单级与用户级匹配率
大数据处理结合数据挖掘,可在将来的研究中,了解用户使用流量的规律,并在用户流量异常的时候做到提前提醒和告警,或者针对用户流量的使用情况给用户推荐更合适的套餐等。
[1] POIKSELKA M, MAYER G, KHARTABIL H, 等. IMS:移动领域的IP多媒体概念和服务[M]. 赵鹏, 周胜, 望玉梅, 译. 北京: 机械工业出版社, 2005.
POIKSELKA M, MAYER G, KHARTABIL H, et al. IMS: IP Multimedia Concepts and services in the mobile field[M]. Translated by ZHAO P, ZHOU S, WANG Y M. Beijing: China Machine Press, 2005.
[2] 胡乐明, 曹磊, 陈洁. IMS技术原理及应用[M]. 北京: 电子工业出版社, 2006.
HU L M, CAO L, CHEN J. The principle and application of IMS technology[M]. Beijing: Publishing House of Electronics Industry, 2006.
[3] 3GPP. Telecommunication management; charging management; charging data records (CDR) file format and transfer: TS32.297[S].2012.
[4] 3GPP. Telecommunication management; Charging management; charging data record (CDR) parameter description: TS32.298[S]. 2012.
[5] 3GPP. Telecommunication management; charging management; charging architecture and principles: TS32.240[S]. 2012.
[6] 魏永, 周云峰, 郭利超. OpenDPI报文识别分析[J]. 计算机工程, 2011(S1): 98-100.
WEI Y, ZHOU Y F, GUO L C. Analysis of OpenDPI message recognition[J]. Computer Engineering, 2011(S1): 98-100.
[7] 黄晓武. 基于DPI技术的网络流控策略[J].电脑知识与技术, 2011, 07(2X):1260-1261.
HUANG X W. Network flow control strategy based on DPI technology[J]. Computer Knowledge and Technology, 2011, 07(2X):1260-1261.
[8] 于娟, 袁春蕾. 网络流量实时监控分析系统的设计与实现[J]. 物联网技术,2013(2):71-73.
YU J, YUAN C L. Design and implementation of real-time network traffic monitoring and analysis system[J]. Internet of Things Technologies, 2013(2):71-73.
[9] 邓博. 基于数据挖掘技术构建电信4G客户预测模型的研究[D].兰州: 兰州大学, 2015.
DENG B. Research on the construction of telecom 4G customer prediction model based on data mining technology[D]. Lanzhou: Lanzhou University, 2015.
Research and implementation of mobile DPI association algorithm with big data technology
LIU Xiaosong, MA Yi’an
Shanghai Research Institute of China Telecom Co., Ltd., Shanghai 200122, China
In order to solve the problem of traffic usage caused by the increasing penetration rate of 4G in recent years, an algorithm that uses mobile DPI detailed bill and billing bill was proposed, and big data platform was adopted. The related processing technology implements the algorithm and shows the effect of the current network operation evaluation.
big data, data detail report, deep packet inspection, data flow, LTE, eHRPD
TN915
A
10.11959/j.issn.1000−0801.2017343
2017−10−13;
2017−11−28
刘孝颂(1977−),男,中国电信股份有限公司上海研究院网络数据系统架构师、中级工程师,主要从事网络数据分析/挖掘工作以及基于网络数据的应用方面的工作,主要研究方向为LTE网络数据采集方法以及各接口之间的信令消息关联方法、LTE网络控制面信令消息解读分析等。
马怡安(1987−),男,中国电信股份有限公司上海研究院中级工程师、大数据智慧运营研发,主要从事大数据架构下数据分析及挖掘以及基于网络数据自主开发各类应用和质量检测工具等方面的工作。