烟草行业基于业务数据流向的可视化研究
2022-03-02蓝小明郑云彬
蓝小明,郑云彬,刘 沙,张 琦
(中国烟草总公司福建省公司,福建 福州 350001)
0 引言
业务数据的可视化能将无形的业务流量汇总成直观展示的有形的大数据模型,行业能够借助它来分析包括卷烟营销、专卖监管和物流管理等相关业务系统的情况。同时,业务对数据应用也不应局限于传统的统计分析层面,通过网络流量分析技术来探索行业数据流向可视化的应用,在已经搭建的数据统一管理结构基础上,结合烟草行业特点,打通国家局-省局-地市局的业务数据流向的可视化框架,便能实现全行业资源集成和信息共享。
1 研究内容
1.1 点方向-服务质量关键指标模型
对烟草行业网络中承载业务的数据流的采集,以KPI指标的形式展示各类业务信息系统的运行检测、故障发现及预警的情况,包括两级指标,一级指标(First level KPI)为能通过数据包采集手段直接对网络业务流采集检测的基础指标,二级指标(Secondary KPI)为在一级指标的基础上进行统计和学习,综合形成的故障诊断指标(Fault diagnosis KPI)、危险预警指标(Risk warning KPI)、安全检查指标(Safety check KPI)等。
图1 服务质量关键指标模型示例图
First level KPI包括系统的载荷吞吐量、数据传输时间、重传次数、连接请求数、各服务器的交易时间、自定义子网组响应时间、同一IP地址建立连接次数、各主机流量占用、网络响应时间、服务器响应时间、应用响应时间、零窗口、连接建立时间、网络利用率、传输延迟、服务器与主机之间发送的数据包数量、丢包率等多个指标。这些指标包括应用性能指标、网络性能指标、利用率指标、VoIP指标、MAC指标、VLAN指标以及ARP指标,通过定义一级指标能实现流量数据基本信息的可视化。
Fault diagnosis KPI能排查出系统中具体业务出现故障的位置。例如某个业务服务由于载荷过大而停止工作等,针对此类问题通过各类业务服务协议具体分析,建立故障样本表及故障网络模型,形成故障定位规则集指标。该指标相对应的First level KPI大致包括具体业务分类有丢包率、延迟时间、自定义最慢子网组、载荷吞吐量,最慢应用、最慢服务器、流量占用最大主机等。故障诊断指标反映网络故障、应用性能异常、业务中断的基本面,能在故障排查阶段支持系统运行维护工作的开展,规范网络安全故障排查机制,可较大限度上提升运维效率。
Risk warning KPI是可以反应系统某业务中可能存在风险的指标,通过该指标的建立的风险预警模型能够展示行业应用风险级别,并且可以检测出解决风险的策略对系统是否达到行业要求。该指标相对应的First level KPI大致基于某业务分类包括网络响应时间、服务器响应时间、重传率、应用响应时间、数据传输时间、重传次数、网络利用率、传输延迟、丢包率等。对于以上指标都应建立流量排名模型,对于风险指数靠前的资产,特别是核心资产,在指标数据达到可能产生性能波动的阈值之前,将资产信息予以归纳和排查,实现风险可控。风险预警对于研究已知风险和未知风险都有较大意义,将所有风险纳入管控,对于可能影响网络运行的行为进行约束,从安全层面发挥该指标最大的优势。
Safety check KPI是展示行业系统业务的安全情况的指标,结合安全指标能够建立起安全核查模型,可以判断出系统基于具体业务是否受到攻击,包括对于信息系统完整性、保密性以及可用性的监控,例如DDoS攻击、ARP欺骗等,并对部分攻击行为进行预警。该指标项对应的First level KPI大致针对某业务,包括同一IP请求连接系统次数、服务器与主机之间发送的数据包数量、每秒连接失败次数、连接失败率、各主机流量占用、丢包率等[1]。所有的安全检查指标都应结合业务特点进行规划,注重保密性层面的业务应首先多关注通过信息加密、身份认证、访问控制的KPI;关注可用性的业务可将网络连接、授权访问、性能恢复的指标列为首要监测目标;偏重完整性的业务则可选择将传输、交换、存储和处理相关指标作为第一监控对象。消除网络攻击,保证信息系统的安全可用,是该指标最大特征。
1.2 线方向-业务系统服务质量关键指标体系及数据流模型
对于服务质量指标集中的First level KPI,对载荷吞吐量、数据传输时间、重传次数、连接请求数、各个服务器的交易时间、自定义子网组响应时间、各主机流量占用、网络响应时间、服务器响应时间等基本KPI进行高效准确的收集。
图2 业务系统服务质量分析模型示例图
采用基于端口匹配和基于应用层载荷匹配相结合的方法,采集并聚类业务流First level KPI,采用统计学方法,从时间轴线统计流规律,建立正常业务流量模式库,形成正常业务流量各个指标的基线模型;采用机器学习的方法根据采集的数据,自动调整、完善基线模型;运用主成分分析法、时间序列分析法以及统计学中偏差、方差等方法形成指标集计算模型;利用基线模型和计算模型,建立与各服务相关的指标集流分析模型,来对服务质量做出准确及时的判断,形成服务质量鉴定模型。
根据First level KPI,采用混合流量模型来计算分析业务流,建立网络流量的服务特征,以更加全面地描述复杂网络中的流量特性和预测网络流量,得到故障诊断指标、危险预警指标、安全检查指标等Secondary KPI。在传统的流模型基础上,由于网络流量具备多个特征,可通过多模型组合得到综合流量模型达到预测业务流规律的目的,拟合多个模型的优点,实现对网络故障点的有效检测。将传统统计学上的自相关模型和现代人工神经网络预测模型结合起来,既保证计算的有效性又利用神经网络优良的非线性特征,以提高分析的效率和精度。
1.3 面方向-基于数据流向的可视化业务拓扑模型
图3 可视化业务拓扑模型示例图
可视化业务拓扑的服务质量检测分析是业务服务质量指标落地的基础技术保障。服务质量指标体系的落地是通过基于流量分析的可视化业务拓扑将业务系统服务质量呈现出来的。可视化业务拓扑包括数据包捕获、服务质量分析、可视化拓扑等模块的建设工作[2]。
基于服务质量指标、结合实时预警、网络拓扑、故障诊断等场景,构建完整的数据流量的可视化拓扑,结合指标关联分析出资产关联模型,各资产之间予以二级指标或者一级指标进行连接标记,基于服务质量分析出的结果以界面的形式进行展现。通过实时告警、业务网络拓扑、故障诊断,其中实时告警子模块主要对于网络中的异常;业务网络拓扑子模块主要是展示各业务的网络拓扑图,结合网络流量的关联分析直观的观察数据流向情况,同时在拓扑图上标注故障点;故障诊断子模块负责将业务拓扑子模块上所标注故障的原因,将故障源予以呈现。
2 关键技术
(1)对网络通信数据进行采集、分析分类存储需求,Norros提出基于FBM(Frac-tional Brownian Motion)过程的定长服务时间的无穷大缓存的工作负载模型[3],可得出可视化业务拓扑模型的存储需求与平均利用率的关系。
(2)极速混合智能流分析技术:通过对捕获的业务流量数据进行分类存储和分析,结合传统统计模型和大数据神经网络智能分析模型,实现业务梳理、追踪源头、故障排查等能力。
(3)基于统计模型推理的故障定位诊断技术:通过全面深入的性能监测和指标分析,结合自定义的实时告警,用户可迅速发现系统故障。通过业务会话流的异常通信来发现网络故障,以此得到故障诊断的初步结论,最后通过建立贝叶斯网络模型来推理出最终的网络故障原因及故障点[4]。
(4)全面的业务性能指标检测技术:Map-reduce技术并行实时分析数据包,进行网络数据包7层解码分析,对应用协议分析与解码。
(5)多维度业务流拓扑分析可视化技术:多种维度的数据可展示网络中各业务的服务质量及安全态势,在可视化拓扑图中通过过滤、移动、修改属性等交互方式对网络数据流向及服务质量进行分析和监控。
(6)网络安全分析技术:对应用协议解码,依据各种安全威胁的网络行为特性,完成多种安全威胁的分析、确认和告警,包括ARP攻击、蠕虫病毒、DDoS攻击等。
3 烟草行业应用场景展望
3.1 卷烟营销业务
通过对卷烟销售单位的属性(包括采购频率、品牌爱好等方面)进行采集分析,形成适合卷烟销售单位的对口模型,行业将能在此基础上开展精准营销,做到实时营销和生命周期管理,通过对市场和消费类型的信息收集分析,形成营销市场分析模型,便能够在货物智能配送、市场投放、渠道优化等方面提供数据支撑。
3.2 专卖监管业务
以国家局-省局-地市局的垂直管理模式对库存、物流确认、营销策略等开展信息收集和关联分析,形成可视化的真烟流动模型实时掌握货物信息,发现非法流动等情况及时预警,对非法活动动向进行预测;以客户的背景(包括行政处罚等信息)为基础,汇总专卖市场监管模型,对市场数据监管分析,帮助行业有效开展执法监察。
3.3 物流管理业务
收集物流(包括货物存储、分拣、配送等)各个环节的信息,形成物流管理优化模型,能够在卷烟存放、优化物流线路、合理分配库存方面提供优化建议,实时记录物流信息和货运司机状态信息,以可视化的界面展示物流线路、司机状态,有助于行业实现物流管理的低成本和高效率。
4 结束语
随着信息化的建设和发展,烟草行业将通过对业务数据流向可视化的研究,实现烟草行业标准体系的建立;通过对卷烟营销、专卖监管和物流管理等业务流的统计分析,建立并标准化服务质量检测指标体系,为业务系统的日常运维、故障监测及风险预警提供指导依据;利用多级指标对系统可用性的监测,为应用平台提供安全保障,同时可以对各类信息资源的合理分配提供指导依据,有助于提升烟草业务服务质量和客户满意度,进一步增加企业的信誉及行业竞争力。■