APP下载

运营商新型大数据感知分析系统研究与应用

2021-01-26班瑞郝宇飞张振超

江苏通信 2020年6期
关键词:日志运营商流量

班瑞 郝宇飞 张振超

中讯邮电咨询设计院有限公司

0 引言

大数据技术作为近年的热点应用技术,日趋成熟,行业应用越来越广泛,用数据说话、用数据决策成为趋势,帮助了众多企业、政府“有的放矢”、提高效率。运营商网络主要承载宽带、专线、移动网、IDC(Internet data center,互联网数据中心)等业务,如何挖掘网络数据、用户和业务数据的价值,提升网络规划、建设和优化的精准性,保障用户体验,对于运营商品牌塑造和提高市场竞争力至关重要。

目前,运营商IP业务支撑系统建设相对完善,网络侧、用户侧和业务侧的数据采集手段丰富,但分析手段较为单一。分析系统通常为少部分省份单独建设,无法以客户视角形成全程全网分析。同时受限于技术手段,大数据感知分析能力较弱,多数据关联挖掘分析能力有待加强。

因此,为满足客户端到端感知分析的需求,支撑运营商网络精准规划和建设,提升网络运营能力,需建设一种具备全国互联网业务和流量实时感知分析能力的新型分析系统。

1 数据采集现状及存在问题

运营商已采集的固网侧数据包括EDPI(Elastic Deep Packet Inspect,灵活包检测技术)日志、AAA(Authentication、Authorization、Accounting,验证账号)日志、DNS(Domain Name System,域 名 系 统)日 志、NAT(Network Address Translation,网 络 地 址 转 换)日 志、NETFLOW日 志、SNMP(Simple Network Management Protocol,简单网络管理协议)数据及DPI(Deep Packet Inspection,深度检测技术)日志,基本覆盖全部IP支撑系统数据。对于这些数据的分析目前仍存在以下问题:

(1)功能单一,手段落后。互联网数据分析总体仍局限于各类系统单独分析,功能支撑面受限,无法满足运营商IP网络规划、建设、运维和业务运营一体化支撑的需要。

(2)各省份建,各自为营。受限于技术手段及投资成本,目前只有少部分省份自建分析系统,分析指标单一,全国分散建设成本较高,且无法实现全程全网实时分析。

(3)DPI推广,成本过高。目前DPI技术可实现业务深度感知分析,但需对网络链路上下行流量全分光采集,采集成本过高,全国推广建设投入较大,投资有效性较低。

为解决上述痛点,本文旨在通过研究,设计一种新型的大数据感知分析系统,实现运营商全国海量互联网日志数据实时整合、关联、分析,赋能网络规划、建设、运维及运营,提升投资有效性。

2 系统设计思路

本系统整体设计主要满足以下几方面要求:

(1)多元数据挖掘分析。系统应具备互联网全量日志的挖掘关联分析能力,数据类型主要包括EDPI日志、AAA日志、DNS日志、NAT日志、NETFLOW日志、SNMP数据及DPI日志。

(2)具备海量数据存储及实时处理能力。现有EDPI日志的XDR话单日均377T、DNS数据日均50T、AAA日志日均10T、NETFLOW日志日均15T、SNMP数据日均50G、DPI日志压缩后日均100T。

(3)满足运营商规划、建设、运维、运营需求。系统设计应满足以上四大块功能需求,同时应具备灵活的分权分域管理能力,满足不同角色用户的使用诉求。

(4)集群资源最大化利用。大数据技术应用于云计算架构之上,提供海量数据存储和实时处理,同时对于客户临时需求能够做到集群数据处理的及时响应。

(5)对外提供丰富、灵活的模块化服务。系统应具备对外提供智能服务中台能力,功能模块解耦,可灵活复用,对外满足各类用户及第三方系统的需求。

(6)全国统一采集、统一建设。通过集约化建设,有效节省投资,并为客户提供端到端全程全网分析,提升客户运营服务能力。

3 系统技术设计

新型大数据感知分析系统技术架构如图1所示。

图1 系统技术架构图

系统技术架构由五部分组成,分别是数据采集层、数据存储层、计算处理层、业务实现层、能力支撑层。

系统主要从城域网、骨干网、IDC网络、国际网络等获取互联网日志数据。数据类型主要包括:EDPI日志、AAA日志、DNS日志、NAT日志、NETFLOW日志、SNMP数据及DPI日志。采集方式主要有两种模式,分别为网元直采模式和集团省份两级架构的采集模式。

存储层分别使用文件存储、列式存储、关系存储三种方式。其中,文件存储运用HDFS分布式存储原始的日志文件。列式存储运用Hbase(分布式的、面向列的开源数据库)与CLICKHOUSE进行存储,HBASE存储由非结构转为结构化数据后,需要二次处理的数据。CLICKHOUSE中存储需要有及时响应的结果信息。关系型数据库MYSQL存储配置信息。

计算处理层包括MAPREDEUCE和SPARK两种通用的计算引擎,基础数据经过数据加载/转化/处理后,通过YARN进行资源调度。基于Hadoop分布式平台,提供海量数据的并行装载、处理、储存和查询能力。同时接收来自业务实现层的任务调度,计算分析相应的统计工作。使用Spark Streaming构建微批式的实时处理框架,对Netflow日志进行实时处理。具有高可靠性、扩展性、高效性、容错性的特点。

业务实现层基于SPRING+MYBATIS架构,由任务调度、WEB展示/能力开放、爬虫引擎三个模块组成。任务调度负责分析统计任务的管理,支持立即执行和周期执行。WEB展示为可视化模块,另外具备将数据通过WEB REST开放的能力,爬虫引擎负责抓取相关域名的标题和摘要信息。

能力支撑层提供平台对外开放的能力,支撑运营商规划、建设、运维、运营需求,支撑对外大客户的定制化需求。通过两种途径供第三方调用,一种为封装模块化功能经过简单适配直接对外提供能力,另外一种为对外直接开放WEB REST接口,两种方式可以灵活使用。

4 系统功能设计

大数据感知分析系统定位于运营商网络全量数据统一分析,系统面向网络规划、建设、运维、运营等生产各环节的支撑需求进行功能设计。总体功能包括支撑精准规划建设类功能、支持运维类功能、支持市场及业务运营类功能、大屏展示功能、公共功能和系统管理功能等。

总体功能框架如图2所示。

图2 系统总体功能框架图

业务特征库包括客户信息、IP信息、公有AS管理、应用管理、应用分类分析五部分。业务特征库常态化更新,保证业务数据关联分析的准确性。

大屏展示功能包括业务质量分析展示(IPV4/IPV6用户数、IPV4/IPV6流量、在线用户数、DNS解析量、解析成功率、解析时延、丢包率、首包时延)、IDC信息分析展示(IDC流量、IDC访问量、IDC独立用户数)、31省骨干网流量流向分析展示(以桑基图形式展示相关流量流向信息)、宽带用户及应用分析展示(网站分类、网站访问量排名、网站质量排名、上网时段分布)四个模块,面向运营商提供直观数据展示。

系统管理功能由服务器管理、性能视图、日志管理、计算资源、角色管理、用户管理、平台接口七个模块组成。平台通过用户、角色管理功能,分权分域,按照省份、功能模块,面向省份相关负责人开放系统权限,省份用户可直接访问平台系统,查看相应权限的分析结果数据。其中,面向运营商网建人员,提供包括全国IDC出口流量流向分析、网络流量趋势及预测分析等功能;面向运营商运维人员,提供包括宽带用户业务质量监控与分析、互联网专线质量分析、网络异常突变流量分析等功能;面向运营商市场及业务运营人员,提供包括CDN业务核查、城域网用户分析等功能。

系统面向运营商规建、运维、运营三大类功能实现,其中流量流向模块针对规建类需求提供:IDC国际城域网出口、移动互联网流量流向、自定义区域流量分析、网络流量趋势及预测分析、基于DPI城域网出口流量分析、基于DPI国际出口及网间互联流量分析、网络布局、业务承载和流量关联分析,支撑精准规划,提高方案的合理性及投资精准性。业务质量模块针对运维类需求提供:宽带用户业务质量监控与分析、网站服务质量监控与分析、互联网专线质量分析、网络异常突变流量分析、基于DPI的城域网业务质量分析、基于DPI的国际出口及网间互联业务质量分析、基于DPI的出省链路优化和规划、169骨干网分析结果及数据,支撑网络优化工作。用户行为模块针对运营类需求提供:云网业务精准营销数据分析、IDC业务稽查分析、白手套分析、自定义业务特征库、基于DPI的热点应用、热点SP分析、基于DPI的城域网用户分析、全国IDC内容流量流向分析、重点客户电路流量分析、BAT流量调度分析。

5 系统实现及应用

大数据感知分析系统目前已建设完成并在全国范围正式上线运行,支撑31省IP专业的规划、建设、运维、运营等生产环节。支撑精准规划建设类功能、支持运维类功能、支持市场及业务运营类功能、大屏展示功能均已开放各省相关人员使用。同时,针对市场前端提出的面向客户的定制化流量、业务分析需求进行深度分析,生成相关分析报告,取得良好反馈效果,为市场拓展提供有力支撑。

系统首页展示如图3所示。

图3 系统首页展示(数据为模拟数据)

6 结束语

大数据感知分析系统已在运营商现网上线应用,并取得较好效果。本系统全国集中建设,通过采集不同种类数据并进行大数据综合关联,实现对网络、业务、用户数据的整合分析。本系统创造性解决了运营商对固网数据分析手段不足的问题,系统流量流向分析、业务质量分析、用户行为分析等功能可有效支撑网络规划、建设、运维和运营,助力宽带及政企市场业务拓展,从而提高运营商网络的管理、建设效率,增强市场竞争力,并将间接带来可观的经济效益和很好的社会效益。

猜你喜欢

日志运营商流量
冰墩墩背后的流量密码
一名老党员的工作日志
张晓明:流量决定胜负!三大流量高地裂变无限可能!
寻找书业新流量
扶贫日志
雅皮的心情日志
游学日志
取消“漫游费”只能等运营商“良心发现”?
第一章 在腐败火上烤的三大运营商
三大运营商换帅不是一个简单的巧合