APP下载

基于电信运营商固网DPI系统的大数据清洗方案

2016-03-21肖明坤王吉顺江苏省邮电规划设计院有限责任公司南京210006

电信工程技术与标准化 2016年2期
关键词:大数据

肖明坤,王吉顺(江苏省邮电规划设计院有限责任公司,南京 210006)



基于电信运营商固网DPI系统的大数据清洗方案

肖明坤,王吉顺
(江苏省邮电规划设计院有限责任公司,南京 210006)

摘 要本文提出了一种针对电信运营商固网http信息的清洗方案,经过现网试点部署验证可到80%以上的清洗率,大大节省了存储空间和网络传输带宽,对运营商开展固网大数据业务具有重要的借鉴意义。

关键词大数据;数据清洗;DPI系统

大数据热浪的推进,为手握大把数据资源的电信运营商带来了机遇。大数据可以让运营商能够全面洞察客户行为,精确化地识别客户,精准地制订策略,支持经营决策,增强电信核心竞争力;也可以利用大数据资产优势发展大数据对外业务,为合作伙伴提供数据分析开放能力,提升对大数据产业链的服务能力。

DPI(深度数据分组检测技术)是一种基于应用层的流量检测和控制技术,针对数据分组的不同层信息(如IP地址、应用层端口、应用层协议等)进行深度检测和分析,从而得到整个数据流或数据分组的应用层信息,然后按照系统定义的策略对流量进行统计分析和控制。电信运营商大都在固网和移动网侧建设了基于DPI技术的分析系统,用于监控网络的流量流向、分析用户使用行为,为网络提供建设依据、为对内对外增值业务提供数据基础。

运营商使用固网DPI的采集信息可以开展RTB、精准广告等大数据业务,但DPI的采集信息中含有海量的用户非主动行为访问数据,这部分数据的上报传输过程会占用大量的网络带宽资源和存储空间,并且对后续RTB、精准广告等大数据业务的产品开发、运营、销售、服务和经营支撑工作均无实际指导意义。因此,如何对海量垃圾数据进行清洗是运营商开展大数据业务面临的第一个巨大挑战。

1 DPI系统采集数据分析

互联网上的各种应用协议具有不同的数据价值,理想状态是DPI系统对全网全协议全流量进行全覆盖分析,可以得出最全面的分析效果,但是这样的分析范围会使得DPI系统的建设规模和资金花费巨大。通过对互联网上的流量构成进行分析,如表1所示,发现对电信运营商内外业务开展(尤其是大数据业务)最有价值的是http流量,而这部分流量占总流量的比例仅为10%,所以在现网部署中建议对最有价值的http流量进行全覆盖监控,对其它价值较低的流量做局部或抽样分析,提高投资的性价比。

对于http流量的抽取可以由DPI系统本身完成,也可以在清洗系统中进行。由于目前绝大部分DPI厂商均已支持http流量抽取,且执行效率要高于清洗系统,所以文章后续对清洗系统的分析以DPI厂商直接输出http GET流量为前提。

表1 http流量功能分析

2 数据清洗目的及原理

数据清洗的目的主要是检测和发现数据中存在的错误和不一致,剔除或者改正它们,有效提高数据质量;剔除非用户主动访问行为记录等无效垃圾数据,减少网络传输带宽和存储资源;构建高质量数据资产信息库,保证数据的准确性、一致性、完整性和有效性,为大数据应用产品提供有效数据支撑。

数据清洗的原理是利用统计、数据挖掘、模式规则等方法将脏数据转换为满足数据质量要求的数据。通过编制专用脚本结合人工检查,实现诸如文件命名规则、字段个数等基础规则数据清洗;根据概率统计学原理查找数值异常的记录(如姓名、身份证号)等进行清洗;根据访问行为轨迹算法对DPI数据中的用户非主动访问行为记录等进行清洗。

文章中的方案主要对DPI系统采集到的http GET记录进行如下3方面的清洗:将符合白名单特征的记录保留、将符合黑名单特征的记录剔除、将保留的记录中不符合质量规则的剔除,其余的记录进行封装上传供大数据业务开展使用。

3 大数据清洗系统部署架构

电信运营商的DPI系统通常以省为单位进行建设,采集到的数据一方面支撑省内的网络建设和业务运营,另一方面向集团上报,由集团统一收集各省信息进行集中的大数据业务运营及全网监测和建设管控。文章的大数据清洗系统正是基于运营商这种“集团-省”二级架构的模式来部署,系统部署架构如图1所示。

省级大数据清洗系统接收省DPI分析平台送来的http GET流量,根据黑白名单对数据进行清洗后同时传送给集团和省内的大数据业务平台。集团大数据清洗系统负责收集各省大数据清洗系统上传的清洗后数据,统一发送给集团的大数据业务平台用于集团统一开展大数据业务,同时负责黑名单知识的维护/学习、黑白名单规则的下发以及数据清洗质量的验证。

4 系统功能

4.1 省级大数据清洗系统

图1 大数据清洗系统部署架构

省级大数据清洗系统功能架构如图2所示,主要分为数据接入层、数据清洗层和数据管理层。其中数据接入层实现对DPI系统抽取的http GET数据进行接入和调度以及黑白名单的同步;数据清洗层实现数据清洗及数据封装上报功能;数据管理层负责清洗质量验证所需数据的抽取、清洗分析监测。

图2 省级大数据清洗系统功能模块

4.1.1 数据接入层

通过与DPI系统间的接口将http GET流量实时传送到清洗系统,清洗系统通过负载均衡方式将数据分发到数据清洗层,同时与集团清洗系统间同步黑白名单。

4.1.2 数据清洗层

清洗层读取DPI系统上报的数据,并加载到清洗主机内存中,将符合白名单要求的数据封装后旁路上传给集团大数据清洗系统,对剩余的数据根据黑名单进行清洗,符合黑名单特征的记录直接剔除,将其余数据封装并上报。在黑白名单过滤的同时对数据进行质量规则检验,对不符合质量规则(如缺少关键字段、数值异常等)的数据进行剔除。

白名单是根据业务需求提出的一组URL集合,主要由业务名称、URL特征等要素构成,通常由业务使用部门直接提出。黑名单是一组URL或关键字集合,此类知识可以明确标识是非用户主动行为产生的请求URL,符合黑名单特征的记录直接过滤。过滤类型包括图片链接、应用接口、各类插件、广告推送、统计监控、格式文件、脚本文件、错误页面等,关键字特征包括*.mp4、*.m4a、*.jpg等,URL特征包括*qlogo. cn/*、tianqi.2345.com/plugin/widget/index.htm、hm.baidu.com/*等。

4.1.3 数据管理层

实现集团清洗验证模块清洗质量验证模块所需的原始数据抽取、留存,验证数据抽取留存规则可通过配置进行修改;对上报数据中关键指标进行统计分析以及对清洗过程中的指标进行分析监测,并将每天分析结果上报。分析监测的内容包括数据规模,如文件数、文件大小、记录数等;黑名单清洗规模,如各类知识被清洗掉多少(PV值)、占总记录的百分比等。

4.2 集团大数据清洗系统

集团大数据清洗系统功能主要包括清洗质量验证、黑名单知识维护学习、黑白名单知识下发等功能。

4.2.1 清洗质量验证

数据清洗质量验证主要是指定期对黑名单过滤记录进行抽样检测,使用爬虫工具执行URL爬取,根据爬取到的ContentType/title等内容人工确认是否有用户有效访问记录被清洗掉,以检验黑名单过滤特征是否准确。

4.2.2 黑名单知识维护学习

黑名单知识库是数据清洗的基础,知识库的质量直接决定数据清洗质量。知识学习维护是一个动态的过程,每天需要对新增的互联网访问记录进行跟踪分析,同时需要定期清除掉已经失效的知识。

黑名单知识维护学习流程:每日抽取高峰时段未匹配黑名单的URL,对这些URL进行PV排序,使用爬虫工具爬取URL排名前Top n的ContentType/title,对这些进行域名、目录聚合形成新的URL特征,对新特征人工审核,审核通过后加入黑名单知识库。

4.2.3 黑白名单下发

黑白名单规则在由集团大数据清洗系统生成和维护。在管理员审核通过后,向省级大数据清洗系统下发,供数据清洗使用。在现网部署时可根据各省实际网络和业务开展情况制定不同的黑名单规则。

5 数据处理流程

省级大数据清洗系统对省DPI系统上报的httpGET数据按照黑白名单规则进行清洗,具体流程如图3所示。除了上传给集团大数据清洗系统外,同时还需上传一份黑白名单清洗后的数据给省里的大数据业务平台。

图3 省级大数据清洗系统数据处理流程

6 结束语

本文对基于电信运营商DPI系统的大数据清洗方案进行了探讨,从系统部署架构、系统功能、数据处理流程等方面进行了研究。选择某省份电信运营商对清洗方案进行现网试点部署,可在不影响业务的前提下达到80%以上的清洗率。清洗前该省份产生的http GET记录条数约为120亿条每天,记录文件压缩后的存储空间约为3.2 T每天,从省内上传到集团的峰值流量约为745Mbit/s;清洗后上传给集团的记录条数约为20亿条每天,上传文件大小约为630 GB,峰值上传流量约为160 Mbit/s。部署清洗系统节省了大量的数据存储空间和网络上传带宽,并大大提升了大数据业务平台的处理效率,对于计划使用固网DPI采集信息开展大数据业务的运营商具有重要的借鉴意义。

Study of big data cleaning solution based on DPI system of operators

XIAO Ming-kun, WANG Ji-shun
(Jiangsu Posts & Telecommunications Planning and Designing Institute Co., Ltd., Nanjing 210006, China)

AbstractThis paper provides a data clean solution based on DPI raw data provided by operators. The solution is verifi ed that rate of data cleaning can be up to 80% while big data business is not impacted by deploying on real network. The solution is valuable when operators deploy big data business since much bandwith and storage can be saved.

Keywordsbig data; data cleaning; deep packet inspection system

收稿日期:2015-09-13

中图分类号TN915

文献标识码A

文章编号1008-5599(2016)02-0040-04

猜你喜欢

大数据
基于在线教育的大数据研究
“互联网+”农产品物流业的大数据策略研究
基于大数据的小微电商授信评估研究
大数据时代新闻的新变化探究
浅谈大数据在出版业的应用
“互联网+”对传统图书出版的影响和推动作用
大数据环境下基于移动客户端的传统媒体转型思路
基于大数据背景下的智慧城市建设研究
数据+舆情:南方报业创新转型提高服务能力的探索