基于两层聚类的视频业务的多级内容缓存策略
2018-08-10刘琼赵中灿
刘琼 赵中灿
摘 要:本文通过分析用户的视频使用习惯、视频业务偏好,得到用户在视频大类(腾讯、爱奇艺、优酷等)以及视频小类(王牌对王牌等具体节目)上的业务偏好性,感知对应的视频业务信息:业务类型、种类、流量、激活人数、请求次数等,以此作为基站特征,对基站进行两层聚类,形成视频业务的二级内容虚拟缓存簇。最后通过对现网数据的分析验证了较为明显的实验性能。
1.引言
随着移动互联网以及智能终端的迅猛发展,终端业务越来越多样化,移动用户由原先的浏览网页逐渐向视频业务转变,视频点播、视频会议等应用越来越普及,视频业务逐渐成为蜂窝移动通信中的主流业务。据不完全统计,在4G网络中视频业务产生的流量已经占据50%以上,根据思科预测报告,到2020年为止,视频产生的流量将达到网络流量的75%以上[1]。如此大量的网络流量给接入网和核心网甚至整个网络都带来了巨大的压力,主要体现在核心网络或者空中接口处。因此,如何降低主干网络的压力从而提升用户体验成为当前移动网络亟需解决的问题。
随着视频流量造成的网络带宽危机越来越严重,同时视频的延时、速率、清晰度等各方面要求提升,有关网络缓存的研究开始成为一个热门话题。各大型无线视频提供商,如国外的YouTube、Netfix,国内的优酷、腾讯等,为了提高移动视频用户的用户体验以及无线视频媒体的QoS(Quality of Service,服务质量)并减少网络带宽危机而部署了CDN(内容分发网络)[2],并在移动交换中心上部署了缓存服务器,使得视频内容更靠近终端用户[3][4][5][6]。这样做法节省了大量的网络带宽,并且使用户的体验得到明显提升[7]。
然而上面的所有的研究都是基于互联网络的内容分发网络算法研究,游离在移动网络的核心网与接入网之外。除此之外,大多数是针对单个业务进行的内容缓存,没有考虑到同等业务下不同视频类型的用户使用习惯。文献[8]基于移动网络中的业务特征进行基站存储算法的研究,着重关注的是存储的分配等技术,而忽略了网络中真实业务的分布情况以及用户對于业务的偏好性,而这恰恰是内容缓存技术的核心要求:热点视频、热点内容、场景需求。
随着5G的来临,网络信息感知成为网络维护、优化、规划的重要手段。通过对网络侧用户的log信息,网络侧可以感知用户的位置信息、终端特性、接入方式、移动特征、业务使用与特征等,利用这些特征可以很好地分析出某一场景、某一时段内区域中用户的整体业务使用偏好。5G网络的扁平化,核心网功能的下沉为网络感知提供了有利的条件,在基站层通过感知用户的业务偏好特性,为基站端业务内容缓存提供了必要的数据基础。
内容缓存的首要问题是对什么内容进行缓存,因此本文基于信息感知的框架,通过网络侧用户上网日志信息,提取每个基站用户使用的业务类型、类别、流量大小、激活人数、请求次数等等,对基站在不同的时段、不同区域业务特征分布进行分析。通过对不同等级的视频内容分布以及用户喜好进行分析,我们提取一种多级内容缓存的方式,在不同的等级上对视频内容进行缓存,从而从多层次解决视频缓存的问题。
内容缓存另一个重点问题在于缓存的区域大小或者缓存的位置。在5G系统中,强调网络虚拟化以及资源池的概念,从某种意义上,基站在地理位置上相近,并不代表它们属于一个管理区域。因此利用这样的虚拟化的概念,以上述感知的特征作为基站的特征向量,将具有相似视频业务偏好的基站通过两层聚类的方式形成多级内容缓存虚拟簇,以此控制对应的多个基站内容缓存。
本文第2节简单介绍我们的研究框架以及对应的感知参数说明;第3节针对现网采集的数据进行特征提取,分析以及最终的基站内容缓存聚簇。第4节总结了本文的研究内容。
2.基本框架
图 1给出了本文多级内容缓存的研究框架。整体可分为四大部分:数据来源、信息感知、内容分级以及基站聚簇。由于数据来源于基站,同时应用于基站,从某种意义上来说,整体框架是一个回环。
数据来源:
基站上多用户的业务使用方式、习惯构成整体网络的流量特性。从终端侧可以感知用户的业务使用情况、移动情况、终端信号情况等等,这些信息构成了整体网络-用户信息。然而对于3G、4G网络来说,终端信息采集汇总具有较大的人力成本,而基站本身只具备转发功能,无法进行信息感知。在现网当中,数据业务经过接入网之后会去除无线协议栈,在核心网上进行IP传输,因此核心网网关可以获取用户的控制面和数据面数据包,通过深度包解析(DPI)以及两方面数据的融合,获取其中对应的用户信息,从而使得从核心网进行数据感知具有一定的可行性。在未来5G中,网络架构的扁平化以及上层功能的下沉等使得在基站上感知成为可能。本身研究的着力点在基站,抽取的信息特征也是以基站为单位,则认为数据来源于基站下的用户。
信息感知:
从核心网获取对应的用户控制面和数据面数据包之后,通过协议解析的方法,可以有效地获取用户的位置、业务类型等信息。以基站为单位,统计基站下的用户信息,从而得到关于基站的特征向量:业务类型(优酷、爱奇艺、新浪图片等)、业务小类(具体内容)、业务流量、业务激活人数、业务请求次数、内容请求次数、内容请求人数。这些感知信息描述了单个基站下业务的分布情况、用户的使用情况等,为后续进行基站聚簇,内容缓存提供有效地基础。
内容分级:
无论是视频业务还是网页浏览业务,内容一般都可以分为大类(一级)和小类(二级)。本文将APP的访问种类定义为大类,如优酷、腾讯、新浪微博等等。一般而言,同一个视频内容或者图片会在不同的内容提供商上存在。对移动通信网来说,缓存哪部分视频是首要研究的内容。由于用户的使用习惯存在差异性,不同的场景业务大类的使用偏好不同,首先分析业务大类的用户使用习惯,是进行内容一级大类缓存的前提。很多时候,真正流行的视频通常为某一特定的内容,比如某个娱乐节目,某些热播电视剧等等,此时缓存具体的视频内容或者图片内容,比缓存大类信息更加具有实际意义。这一特定的内容,我们定义为小类(二级)。利用业务的整体分布情况,判别一级缓存内容,通过具体内容的流行程度,判别二级缓存内容是本文对基站进行内容缓存的多级分析方法。
基站聚簇:
基站之间的偏好存在一定的相似性,根据感知的基站信息形成基站的特征向量,以此进行基站的聚类。当基站所属类别中腾讯视频站主导时,对应的缓存为一级内容缓存,进一步地当基站所属类别中腾讯视频中某项内容占主导时,对应的缓存为二级内容缓存。这样的一级、二级内容缓存虚拟簇是以基站特征为相似度量,因此聚簇的基站不一定属于同一个物理区域,而是从逻辑上是一个簇,本文称之为虚拟簇。
从合适的位置进行数据采集,感知不同基站的信息特征,形成基站特征信息库。以基站信息特征为特征向量对基站多级聚类。分析聚类之后的分级内容的分布情况,存在一级内容偏向时,采用一级内容缓存,具有二级内容流行时,采用二级内容缓存策略,从而形成基站多级内容缓存。
3.实验结果
数据集
针对上述提出的研究框架,采集现网移动4G网中的数据进行用户行为分析,进而进行基站的特征聚类,从而形成虚拟簇的多级内容缓存。
图 2给出现网4G数据采集的节点,通过核心网节点S1-MME、S6a、S1-U、S11的数据汇总,得到对应的LTE-xDR话单。其中对应的4G数据详见表 1。XDR数据的格式为一条数据为用户的一条GET请求,包含该请求对应的用户位置、发送数据包总数、流量总数等等统计信息,从一定角度反映了HTTP业务的特征。通过解析GET中的HTTP信息可以分析用户的业务。
图 3给出了多级内容解析的例子,一条XDR中视频业务的http请求为:http://v.youku.com/v_show/id_XMTQ4OTkwMDg4MA==.html?from=s1.8-3-1.1,其中前半部分的“youku.com”表明用户的业务是优酷视频,后半部分的“id_XMTQ4OTkwMDg4MA”为对应视频片段id,且在视频内容提供商内部唯一。因此通过XDR中HTTP请求的解析可以得到对应的一级内容和二级内容。同样的解析方式可以用在朋友圈、微博等业务上进行图片内容的解析。根据这样的解析结果,对基站特征进行统计。
业务特征空间分析
不同场景下,不同时段内,由于用户的移动性以及生活习惯,业务的分布特征也会随之变化。首先统计所有的业务类型,这里主要关注视频业务,因此统计每个基站在腾讯、优酷、爱奇艺、乐视、搜狐几大主要业务中对应的每小时业务流量、每小时激活人数、每小时get次数,以此分析用户的使用习惯。
图 4给出了一级内容空间流量分布情况。将所有的基站按照voronoi图进行划分,每个区域可以代表一种场景。图中横坐标代表以及内容的类别:腾讯视频、优酷视频、爱奇艺视频、乐视视频以及搜狐视频;坐标表示天,上面一行表示一天,下面一行表示另一天;每个版块的颜色代表该基站下的该业务流量,蓝色表示低流量,黄色表示高流量。根据上图不难看出,不同的业务在不同的区域的使用情况不同,有些区域用户偏向于腾讯视频,有些区域用户偏向于搜狐视频,整体上腾讯视频的使用程度偏高,因此业务的使用存在场景差异性。除此之外,可以较为明显看出业务在不同区域上的流量也存在典型差异,这种空间上的不均匀性反映了用户对于视频业务的使用情况。从纵向的角度看,不同的天,由于视频内容热度的差异性,业务的使用情况有所差异。上面一天的视频业务使用较为明显地超过下面一天,因此业务的使用存在时间差异性。
视频业务流量空间不均匀性以及使用偏好的差异性,加上时间上的时变性,导致基站进行多级内容进行聚簇缓存时,存在一定的差异性与动态性,下面针对不同的内容级别进行分析聚类。
多级内容聚类缓存
以基站流量作为视频缓存的依据,即当对应的视频流量偏高时,需要进行内容缓存。将基站按照腾讯、优酷、爱奇艺、乐视以及搜狐视频的流量大小组成对应的向量,按照特征向量对基站采用kmeans聚类[9],得到图 5所示的基站聚类结果。整体可以看出,基站按照流量可以分为7类,每一个类对应一种特征。第一类为腾讯流量在400MB左右,优酷为200MB左右的基站,第二类腾讯流量为400MB,但其它流量很少的基站。按照视频柱状图进行一定的分析,可以分别得到7类基站视频业务使用特征。显然,在不同的基站类别中,缓存的视频业务也存在差异性。第一类基站腾讯视频和优酷视频流量较大,因此缓存为腾讯、优酷的热门视頻;而第5类基站,搜狐视频流量远大于其他基站,则搜狐视频热门视频进行缓存。
分析每个基站所属的类别,则可以得到对应的一级内容缓存基站簇,在同类的基站簇中,一级的缓存视频种类是一致。
如何判定对应的基站所属的类别是进行基站缓存的另一个重要方面。用户的使用习惯问题,视频热点的更新问题,使得用户在不同的时段内对于视频业务的偏好使用存在差异性。图 6表示不同的基站在13天中对应的所属的类别变化。一个7个基站,每个基站基本都有一定的类别波动,从而表明不同的基站偏好情况存在差异性,一级缓存存在差异,同时由于时间上的波动,在不同的时段上也可能存在缓存差异。
由于内容缓存在一定意义上是一种相对静态的表现,当基站波动较大,不存在明显规律时,对应的基站无法缓存。图 7中的左图是基站117号对应的所属基站类别的变化趋势。第一天属于7类,第二天属于1类,根据图 5中的基站类别分类,优酷视频的流量明显上升,搜狐视频下降。第五天属于4类,第六、七天属于2类,腾讯视频上升,而爱奇艺视频降低,由于13天中对应波动性较大,相对无规律,内容基本无法缓存,因此此类用户偏好不明显的基站不进行考虑。图 7中的右图为基站32号的趋势变化图,前面6天有明显抖动趋势,但最后7天都属于3号类别,以腾讯视频为主,此时对应的基站可以进行一级腾讯视频缓存。
当确定了基站的一级缓存之后,则可以进一步考虑基站是否存在二级缓存。针对32号基站,统计其对应的平稳的后7天的TOP二级内容的请求次数,得到图 8所示的结果。通过右侧的统计结果可以看出,7天中统计的”d5039ievs.m701.mp4”的请求次数最多,由此可见这段视频为对应的热门视频,在进行一级腾讯视频缓存之后可以再次对其中的二级内容”d5039ievs.m701.mp4”进行缓存。将具有相同二级缓存内容的基站进行合并,形成二级内容缓存虚拟簇。
4.总结
本文通过信息感知的方式获取网络中业务的使用情况,并以此为依据提出一种基于两层聚类的基站多级内容缓存策略。首先通过不同种业务的分布情况对基站进行一层聚类,得到不同的基站类别,每个类别代表不同的一级内容缓存虚拟簇。根据基站在时间上的波动性将基站划归到对应的虚拟簇。对存在一级内容缓存的基站进行二次聚类,根据其对应的具体内容进行统计分析,得到不同的二级内容缓存虚拟簇。这种方式根据基站下用户的具体使用情况,得到较为合理的基站缓存簇。
值得深思的是,很多热点的缓存是在事件发生之前,对于一级缓存簇由于不涉及具体内容,可以直接缓存对应业务的当前热点内容。对于二级缓存簇,由于涉及到具体的业务内容,因此还需要考虑如何提前预知这一个热点内容,以预测的方式提前进行缓存是下一步需要考虑的具体问题。
参考文献:
[1]Cisco. Cisco visual networking index: Global mobile data traffic forecast update, 2015-2020. 2016.
[2]Cisco C V N I. Global Mobile Data Traffic Forecast Update. 2014–2019 (white paper)[J]. 2015.
[3]Zhang Q, Xiang Z, Zhu W, et al. Cost-based cache replacement and server selection for multimedia proxy across wireless Internet[J]. IEEE Transactions on Multimedia, 2004, 6(4): 587-598.
[4]Chen H, Xiao Y. Cache access and replacement for future wireless Internet[J]. IEEE Communications Magazine, 2006, 44(5): 113-123.
[5]梁彪. 内容分发网络协作缓存算法研究[D]. 北京交通大學, 2016.
[6]姚士佳. 视频分发与缓存协同优化技术研究[D]. 中国科学技术大学, 2014.
[7]“Explanation of Optimization Deployment”, Available:http: //www. verizonwireless. com/vzwoptimization/.
[8]顾竞雄. 无线蜂窝网络中基于业务信息的基站主动存储[D]. 浙江大学, 2014.
[9]Hartigan J A, Wong M A. Algorithm AS 136: A k-means clustering algorithm[J]. Journal of the Royal Statistical Society. Series C (Applied Statistics), 1979, 28(1): 100-108.