基于长尾效应的互联网网络质量模型探究
2023-02-18周益超王科
周益超 王科
江苏工程职业技术学院 江苏南通 226007
1 概述
“宽带中国”战略的提出,带动了互联网业务的飞速发展,一方面4K视频、VR、高清直播等各类高带宽业务的迅速发展和大众化普及,给互联网质量带来了挑战,对网络质量的要求越来越高,另一方面,截止2019年年底宽带用户数已超4.5亿,随着用户基数的增加,用户上网行为的差异也日新月异。宽带互联网的网络质量优化与网络质量提升成为各大运营商关心的热点问题,为优化互联网网络质量,互联网质量指标体系应运而生。互联网质量是一个描述特定时间段某一具体用户访问某业务,例如网页端到端的质量概念,通常互联网网络质量体系包括了业务层指标和网络层指标。例如对网页浏览、视频观看、网银业务、邮箱业务、P2P业务等客户常用业务的指标进行评估,得到直观性的评分来体现互联网网络的健康状态。但根据对某运营商2019年投诉明细调查显示,对于网络质量问题,80%投诉用户的投诉点集中在内容源中的末尾10%。90%以上拥有负面用户体验的客户选择不投诉,且其中一半拥有负面用户体验的客户会直接转网。由此建立一套新的互联网网络质量评价指标愈发重要,凸显网络质量中的短板并提前解决减少用户投诉。本文提出一种基于长尾效应的互联网网络质量评判模型,该模型自适应增大关键质差指标权重,能够更加精准显示网络质量及波动,及时提醒专业技术人员优化网络质量。
2 网络质量体系构成要素
2.1 长尾效应
克里斯·安德森在2004年《长尾》一文中最早提出长尾的概念,是指那些原来不受重视的产品销量小,但种类多的产品或服务由于总量巨大,累积起来的总收益超过主流产品的现象。长尾效应强调的是那些数量占绝大多数的个体的商业价值,它们单个的值虽然极低,但是这个长长的尾巴,总和不可小觑。此效应正好和用户投诉模型相符合,根据某运营商2019年的投诉明细,虽然内容源中末尾的单个投诉量比较少,但是对其末尾的10%汇总投诉量和占全部的80%。这说明绝大部分用户的投诉点集中在少部分内容源之中,这就给我们启示可以把注意力放在“长尾”之上。
2.2 互联网网络质量模型
传统的网络质量模型将所有的业务进行简单的加权综合,由于质优资源总数量远远大于质差资源,这就导致客户投诉的少部分质差内容源往往被淹没在质优资源中,形成与客户真实体验不同的网络质优的假象。而基于长尾效应的互联网网络质量评判模型根据客户使用的业务不同,将直接影响用户体验的业务层指标(应答时延、端到端速率、成功率等)先归一化,然后定义长尾系数加权综合,生成网络质量评分。由于长尾系数加权不同于简单平均的加权,长尾系数与资源质差程度总体呈负相关,极大地突出了质差资源的权重,较之于传统互联网质量模型,更能直观评价网络的质量状况和用户感知情况。
2.2.1 模型指标组成
根据对互联网用户的半年上网统计调查,结果显示互联网用户使用的TOP3业务为:网页浏览、在线视频和网络游戏。网页浏览选取淘宝、京东、百度、微博等TOP2000网页,在线视频类选取如爱奇艺、腾讯、优酷等TOP30视频,网络游戏选取英雄联盟等TOP20游戏。互联网质量模型指标主要由这三部分中的六大指标组成,其中网页指标由端到端打开时长、成功率组成,视频质量由缓冲比(缓冲时长与播放总时长的比值)、成功率组成,游戏质量由丢包率、时延组成。
2.2.2 模型指标计算
长尾效应的网络质量模型指标计算过程如图1所示,分为三大步骤,首先,网络数据包检测设备DPI对用户流量进行分析,它会对网络中用户的每个数据包进行检查,识别出应用层协议,根据识别的协议进行归类,分别对应上述的六个指标中,并进行数据库记录。其次,对DPI统计的指标值进行统计,由于选取的六个指标中,部分指标值呈正相关,其值越大越好,部分指标值呈负相关,其值越小越好,不利于直接加权统计质量,本文引入归一化概念,对所有指标进行归一化,取值区间[0,100]。归一化之后的各个指标之间具有可比性,所有的指标值呈正相关。最后,进行长尾系数加权综合,引入长尾系数算法,改变以前简单质量衡量方式,针对差的指标增加权重值,凸显网络短板。最后得到直观性的评分来体现互联网网络的健康状态。
图1 长尾效应的网络质量模型框图
下面以网页成功率为例,展示模型指标计算过程。模型的各个符号含义如下表所示,为更贴近用户实际体验,通过细致化分档归一化计算。其中Q1为定义的指标优秀值,Q2为定义的指标良好值,Q3为定义的指标及格值,Q为DPI设备中记录的原始数据值。在网页成功率中,Q1等于95%,Q2等于80%,Q3等于70%。
模型指标定义表
内容资源指标归一化值Qg的计算过程如下:
a.当指标取值Q高于优秀值Q1时,该指标的评价值为100。
b.当指标取值Q在优秀Q1和良好Q2之间时,Qg的取值范围为[60—100],区间内线性得分,具体由式(1)计算其得分:
(1)
c.当指标取值Q在良好Q2和及格Q3之间时,Qg的取值范围为[0—60],区间内线性得分,具体由式(2)计算其得分:
(2)
d.当指标取值Q为低于及格值时,该指标的评价值为0。
图2 模型归一化图(以2000网页为例)
接下来对归一化后的网页成功率Qg进行长尾系数加权,其中,常用的方法包含中心化法、极差法、极大法、极小法和均值法等。以往对网络质量进行评估时,采取的均值法,每个指标加权的权重γ都为一样,为简单的求和平均。在本模型中采用中心化法来设计长尾系数,每个指标值的权重值随自身值的变化而变,具体表现为越差的指标,其权重值γ越大,这样在最后评分时更加体现其短板。
加权后的评分Qn计算公式如下(以2000个网页为例):
(3)
其中γn为每个指标的长尾系数,其中γn计算公式如下:
(4)
3 网络质量模型测试及效果
3.1 模型验证环境
为获得海量固定宽带用户相应的应用流量数据,先得部署DPI(流量分析)设备,DPI设备一般由分流设备和应用服务器组成。分流设备负责数据采集,根据五元组和七元组对流量进行过滤复制分发,应用服务器主要完成对数据的下一步分析处理。DPI部署的位置一般在IP城域网出口,以便获得任意用户的访问数据。对于DPI部署的方式,目前的主流方案主要有串接和并接两种,串接是将设备直连中间,对网络性能有一定影响,可能增加数据传输时延,产生抖动或丢包,但是不需要进行网络连接配置,直接通过数据链路层二层透传,串接方式对设备性能和可靠性都有很高的要求。串接方式的优点在于较好的网络控制,能够及时对流量进行阻断和整形。但是该种方式也引入了故障点的缺陷,为增强设备的可靠性,通常在设备前段加入光路保护器,从而减小在设备升级或故障时对现网的影响。并接是采取旁路连接,不影响原有设备,基本不影响原有网络流量和性能。采用并接方式,通常用于业务的识别和统计,上网日志的留存等,在网络控制方面,只能通过干扰的方式进行流量控制,不能对网络流量进行直接的控制和管理。同时,并接方式对TCP和UDP采用不同的控制策略。对于TCP流,并接方式通过发送reset或6n分组,终止连接来进行控制。而对于UDP流而言,主要是发送伪造分组,劣化通信质量来进行网络干扰。并接方式可靠性高,对现网业务无任何影响,对设备性能要求低,可以适度缓存流量进行识别即可,没有转发的需求。基于目前数据需求及方案的成熟度,本次部署采取旁路并接方式。部署完毕后,因原始数据量较大,对获取的用户指标进行抽样保存。DPI部署图如下所示。
图3 DPI部署图
3.2 模型效果
截取7月至9月用户访问的三大项六大指标数据进行模型分析,将所得的原始指标值数据导入模型,计算加权后的评分Qn,同时计算传统模型的评分作为对比。在7月至9月之间,传统模型计算所得评分分别为90.8分、91.2分、89.3分,评分均值为90.4分,方差为0.67,基于长尾效应的模型所得评分分别为81.2分、84.2分、72.2分,评分均值为79.2分,方差为26。为判断模型的优劣程度,截取7月至9月的用户对于网络质量的投诉,分别为2113、1987、2543。可以看出9月用户投诉量明显上升,较之前增加27%,传统模型网络质量波动率较之前仅下降2%,而基于长尾效应的模型较之前仅下降13%,与用户投诉量(用户真实感受)趋势更加贴近。进一步计算两个模型与用户投诉量的相关系数,基于长尾效应的模型与用户投诉量之间的相关系数为0.92,而传统模型的相关系数为0.71,基于长尾效应的模型与用户投诉量之间相关度更高。对模型效果的分析显示了基于长尾效应的模型更能凸显网络质量的抖动变化,而传统模型中无法及时传达网络质量问题,长尾模型能够及时提醒专业技术人员优化网络,从而提升用户体验。
3.3 网络优化
通过DPI设备以网络五元组、智能识别模块等为深度学习训练素材,根据热点判断策略给每个文件计算热点价值评分,访问次数达到热点阈值的文件才会进入云存储池。深度学习模块计算到热点价值满足存储要求时,优化系统会在源站返回内容给用户的同时实时同步该内容到云存储池,从而达到网络优化的目的。通过分析来看影响宽带网络质量的因素根据类型可以划分为以下几类:一是人员因素,宽带安装人员业务技能不熟练、操作不规范会使OLT设备容易发生离线、ONU设备光模块收发异常,导致用户体验不佳。二是设备因素,中继设备容量不足、城域网设备IP地址不足会使通信网络质量发生下降。三是环境因素,机房网络机架运行温度过高、机房湿度不达标会造成的宽带通信网络质量的不稳定。在发现网络质量下降后,专业技术人员可以从上述方面来优化网络,积极运用各种抓包工具、网管工具定位通信网络故障原因,提升互联网网络质量。
结语
近年来我国的互联网技术发展迅速,如何提高宽带用户对网络质量的感知度越来越重要。本文提出一种基于长尾效应的互联网网络质量评判模型,该模型自适应增大关键质差指标权重,能够更加精准显示网络质量及波动,为网络质量提升夯实基础。