APP下载

基于聚类的PaaS平台流量监控的迁移研究*

2017-07-20董琪徐军

电信工程技术与标准化 2017年7期
关键词:识别率聚类流量

董琪,徐军

(中移(苏州)软件技术有限公司/中国移动苏州研发中心,苏州 215163)

基于聚类的PaaS平台流量监控的迁移研究*

董琪,徐军

(中移(苏州)软件技术有限公司/中国移动苏州研发中心,苏州 215163)

为了满足Web应用的快速部署,自动维护和自动扩容的需求,从而产生了PaaS平台。但随之而来的问题是如何实时监控PaaS的流量。为了能够实现流量的实现监控, 研究人员提出了利用聚类算法来实现自动分类,但数据在传送很容易受到外界因素的影响,从而导致采集的流量是失真的,因此根据这样的数据来聚类分析后的结果是不准确的。针对此问题,以模糊C均值算法为基础,借鉴知识利用的思想,提出了一种具有迁移学习能力的聚类算法。并将其应用到PaaS平台的流量实现监控中,从而能够快速识别流量,从而能够从极大的保证系统的稳定安全的运行。

PaaS平台;流量的实现监控;极大熵聚类;迁移学习

1 引言

近几年来,随着移动互联网的迅猛发展,涌现出各式各样的 PaaS (Platform as a Service,平台即服务)平台,随着PaaS系统的出现以及发展,在为Web应用开发提供巨大便利的同时,其系统本身、以及其中部署的应用和服务的监控任务也开始面临巨大的挑战,如何实时监控PaaS平台的流量成为一项很重要的课题。

为了解决流量实时监控的问题,相关研究人员提出利用无监督的聚类算法来实现流量的实时监控,聚类大致可以分为硬划分聚类和软划分聚类。硬划分的代表性算法是C均值算法[1]。软划分聚类是依据模糊集理论[2,3],可以将一个对象按照模糊集理论的不确定性,将同一个对象划分到不同的类簇。传统的聚类算法要想取得较好的识别效果,用于分析的数据必须是大量且未失真传统的。但流量在传送过程中很容易受到外界环境的干扰从而导致数据的丢失或者失真,因此利用传统的聚类算法对此类数据进行分析,不会得到令人满意的效果的,从而也就起不到流量实时识别监控的效果。

针对流量信息容易丢失与失真,传统模糊划分聚类算法无法获取准确的聚类结果,借鉴知识利用的思想,通过有效利用对历史采集的流量信息来解决上述问题,并进一步将这思想融入到极大熵聚类算法中,提出一种SMEC (Self Learning Algorithm Based on MEC Clustering,具有迁移学习能力的聚类算法)[4,5]。本文算法工作在两个相近但又有区别的数据集上,如历史域类中心与当前域数据集,前一个数据集是通过对PaaS平台上已有的大量的数据流量信息进行传统的聚类分析获取得到。当前数据集就是先阶段通过PaaS平台的流量信息。然后利用总结得到的历史类中心来指导当前域聚类任务,这样不仅可以较大的提高聚类效果,而且历史域类中心利用并不暴露历史流量数据,因此本文所提的SMEC算法能在不暴露历史数据的情况下有效解决上述问题,更好地应对流量数据的复杂性与多变性。特别地,在当前信息化高速发展的背景下,该算法具备广泛的实际应用价值。

2 具有迁移学习能力的聚类算法

2.1 SMEC算法的基本思想

虽然传统的MEC算法在面对各具特色的单一数据集时均有良好的聚类效果,但该模糊划分聚类算法良好的鲁棒性是建立在大量待分析数据和丰富信息的基础上。在少量数据或有噪声干扰等场景下,传统的MEC算法往往无法获取较好的聚类效果。为了解决上述问题。本文将历史域类中心知识融入到传统的MEC算法中,最终得到了跨领域模糊划分聚类算法。SMEC总体思想如图1所示。

图1 SFC算法总体思想

2.2 改进的目标函数

2.2.1 传统极大熵聚类算法的目标函数

近年来针对MEC算法的改进有很多,虽然描述各不相同, 但具体思想是一致的。本文参照文献[6]中提到的极大熵聚类算法的目标函数,具体如下:

其中, C表示所需聚类样本的类别总数, N表示样本的总数, γ是平衡参数且γ∈(0, +∞), ‖xi-vi‖2表示第j个样本与第i个类中心之间的距离,这里‖·‖表示欧几里德距离,μij表示第j个样本是第i个类的隶属度,U是由μij构成的隶属度矩阵U∈RN×C,vi为第i类的类中心, v是由vi组成的类中心矩阵。

2.2.2 具有迁移学习能力的聚类算法目标函数

根据2.1节所分析的算法思想,最终构造了具有迁移学习能力的聚类算法算法即SMEC算法,它的目标函数为:

从目标函数中可以看出,当β→0本文算法将退化为经典的MEC算法,从而确保算法的性能永不差于经典的MEC算法。

2.3 SMEC算法的推导及证明

SMEC算法的目标函数J取极小值的必要条件是J对U和V的偏导数全取0。具体的推导过程如下:

2.3.1 类中心vi的迭代公式

即类中心迭代公式为:

2.3.2 隶属度uij的迭代公式

表1 基于历史类中心利用的MEC算法的步骤

将(8)式带入到(6)式,得到隶属度迭代公式为:

根据迭代公式(7)式和(13)式,最终可求得当前数据集的最优类中心V和隶属度U。

基于历史类中心利用的MEC算法可以总结为如表1所示的以下6步骤。

3 PaaS平台流量数据的采集

PaaS系统中的一些关键数据都是持久化到数据库中,这部分数据主要包括应用开发者信息,应用和服务的部分配置信息,如应用和服务的绑定信息、应用和域名的绑定信息等。通过只读的方式访问这些数据表,可以快速直观的得到这些原始数据。通过这些原始数据集我们从中抽取出端口、访问量、CPU使用率、用户IP、访问时间。在对这些数据集进行分类时,需要确定流量识别的类别数,因为任何聚类算法都需要先确定数据集的具体类别数,因此如何确定流量识别的类别数是比较关键的,根据安文娟提出的方法,网络流量类别大致可以分为六类,分别为自然的流量、黑链流量、外链流量、网站关键词流量、友情链接的流量,站群流量。然后对这些数通过传统的MEC算法进行分析得到每个类别的类中心,然后利用此历史知识类辅导当前PaaS平台流量的实时监控。

根据PaaS平台采集的流量,我们在将聚类个数设置为6的情况下,这6个网络流量的识别率如表2(a)、(b)所示。

通过表2可以看出,SMEC从整体上来说,是优于其他两个算法的。其中,SMEC算法在外链流量的识别率是最高的,其识别率明显高于其他两个对比算法。但是,SMEC算法在站群流量的是被上,效果略差于MEC算法。

表2 (a) 算法对各类流量的识别情况对比

表2 (b) 算法对各类流量的识别情况对比

针对网站关键词流量,我们将3种聚类的聚类个数分别取6、12、18、24、30、36,分别查看其3种算法对网站关键词流量的识别率。其结果如图2所示。

图2 算法在不同聚类个数下的网站关键词流量识别率

通过图2可以发现,随着聚类个数的升高,SMEC算法的关键词流量识别率提升明显。说明,在添加了前期的迁移学习的先验知识后,对SMEC算法的提升有着明显的优势。

4 总结

本文通过分析已有的聚类算法在PaaS平台上的流量实时监控的问题后,发现传统聚类算法在流量失真或丢失的情况下获取不到很好的监控作用,即传统MEC算法无法达到理想的聚类效果的问题,通过利用历史域知识来指导当前聚类任务的完成,从而得到具备迁移学习能力的聚类算法。

然而,对于本文算法而言今后还有很多工作值得进一步研究和探讨,例如参数寻优范围的选取。此外,由于过多的人工预设参数的存在,在一定程度上增加了算法的学习负担影响了时间效率。因此,今后我们将考虑更为有效地的参数选择策略。

[1] Pal N R, Pal K, Bezdek J C. A mixed c-means clustering model 1997[C].Fuzzy Systems, 1997., Proceedings of the Sixth IEEE International Conference on. IEEE, 1997,1:11-21.

[2] Miyamoto S. Fuzzy c-means as a regularization and maximum entropy approach[J]. Proc. of IFSA'97, June 25-30, 1997, Prague, Chech, 1997:86-92.

[3] Li R P, Mukaidono M. Gaussian clustering method based on maximum-fuzzy-entropy interpretation[J]. Fuzzy Sets and Systems, 1999,102(2): 253-258.

[4] 张敏, 于剑. 基于划分的模糊聚类算法[J]. 软件学报, 2004,15(06):858-868.

[5] 蒋亦樟, 邓赵红, 王骏, 等. 基于知识利用的迁移学习一般化增强模糊划分聚类算法[J]. 模式识别与人工智能, 2013,26(10):975-984.

[6] Karayiannis N B. MECA: Maximum entropy clustering algorithm[C]// Fuzzy Systems, 1994. IEEE World Congress on Computational Intelligence., Proceedings of the Third IEEE Conference on. IEEE, 1994: 630-635.

News

中国移动、上汽集团、华为签署合作协议发力下一代车联网

6月28日,世界移动大会·上海期间(MWC上海),中国移动通信集团公司、上海汽车集团股份有限公司、华为技术有限公司签署了《共同推进智能出行服务暨下一代车联网合作框架协议》。中国移动总裁李跃、上汽集团董事长陈虹、华为轮值CEO郭平出席签字仪式,中国移动副总裁李正茂、上汽集团总裁陈志鑫、华为副总裁兼中国区总裁彭中阳代表三方签约,中国移动副总裁沙跃家主持签约仪式。

作为世界500强中信息通信行业、汽车行业的领军企业,中国移动、上汽集团、华为积极推进创新转型,充分发挥技术、产业、市场优势,共同构建以C-V2X技术(Cellular based Vehicle to Everything,基于移动蜂窝网络的车与车、车与人以及车与万物互联的技术总称))为核心的下一代车联网智能出行服务系统,深挖大数据服务潜力,丰富人工智能出行服务应用,加速技术成熟,推进应用创新,构建产业生态。C-V2X包含现阶段的LTE-V2X和未来的5G-V2X技术,有望为自动驾驶、出行安全、智能交通带来根本变革,形成万亿级的智能出行服务市场。

作为全球5G汽车联盟(5GAA, 5G Automotive Association)成员,中国移动、上汽集团和华为公司长期以来致力于推动下一代车联网发展。2016年G20期间,三方在杭州云溪小镇合作建成了当时全球最大规模的LTE-V2X技术试验场,进行了智能网联汽车的示范展示。此次签署合作框架协议,将三方在下一代车联网领域的合作大幅向前推进。

本次MWC上海大会期间,三方举办了公众开放日活动,邀请公众体验了近距/超车告警、前车透视、十字路口预警、红绿灯车速引导、行人告警,以及远程遥控自动驾驶等下一代车联网典型应用,让公众更好地感受新技术带来的安全性能提升和驾驶体验变化。

(来源:中国移动通信集团公司)

Transfer learning of PaaS platform traffic monitoring via clustering

DONG Qi, XU Jun
(China Mobile (Suzhou) Software Technology Co., Ltd./China Mobile Suzhou R & D Center, Suzhou 215163, China)

The PaaS platform isstructured to realize the Web’srapid deploymentand to satisfythe need of Web’s maintain and dilatationautomatically. But, there is a urgent problem that how to monitor the flow of PaaS platformat any time.In order to be able to implement traffic monitoring related researchers using the clustering algorithm is presented to realize automatic classification, but the data in transmission is easily affected by external factors, which leads to acquisition of flow is distorted, so according to the data to the results of cluster analysis is not accurate.To solve this problems, a new clusteralgorithm, based on FCM algorithmand transfer learning thought, is introduced. This new cluster algorithm is used to PaaS platform and tomonitor the flow of PaaS platform at any time, so that can recognition flow quickly and can make platform run softly and stably.

PaaS platform; traffic monitoring; maximum entropy clustering; transfer learning

TN929.5

A

1008-5599(2017)07-0005-05

2017-06-21

* 中国移动集团级一类科技创新成果,原成果名称为《大云数据中心操作系统(BC-DCOS)》。

猜你喜欢

识别率聚类流量
冰墩墩背后的流量密码
张晓明:流量决定胜负!三大流量高地裂变无限可能!
寻找书业新流量
基于类图像处理与向量化的大数据脚本攻击智能检测
基于K-means聚类的车-地无线通信场强研究
基于真耳分析的助听器配戴者言语可懂度指数与言语识别率的关系
提升高速公路MTC二次抓拍车牌识别率方案研究
基于高斯混合聚类的阵列干涉SAR三维成像
高速公路机电日常维护中车牌识别率分析系统的应用
一种层次初始的聚类个数自适应的聚类方法研究