大型Web网络数据中心资源高效挖掘技术研究

2018-01-31邓有林

现代电子技术 2018年3期

邓有林

摘要：针对大型Web网络数据中心资源共享存在资源分配失衡和利用率低等问题，提出基于多维资源协调聚合的分组遗传资源挖掘算法。将Web网络数据中心资源共享矛盾看成是多维资源聚合数学模型，通过基于模糊逻辑的多维协同适应度函数对关键算子实施选择和多属性决策优化，提升工作效率和求解质量。最后通过分组遗传虚拟机调度算法得到最佳虚拟机调度结果，实现数据中心资源的均衡分配。实验结果表明，该算法能够提升数据中心资源综合利用率，运行效率较高，可完成资源的均衡分配。

关键词： Web网络；分组遗传；数据挖掘；中心资源；概率排序；运行效率

中图分类号： TN911.1?34； TP308 文献标识码： A 文章编号： 1004?373X（2018）03?0120?04

Abstract： The resource sharing of large Web network data center has imbalance resource allocation and low utilization rate. Therefore， a grouping genetic resources mining algorithm based on multidimensional resource coordination aggregation is put forward. Taking the resource sharing contradiction of Web network data center as the mathematic model of multidimensional resource aggregation， the multidimensional coordination fitness function based on fuzzy logic is used to select the key operator and optimize the multi?attribute decision?making， which can improve the working efficiency and solution quality. The best virtual machine scheduling result is obtained by means of the grouping genetic virtual machine scheduling algorithm to realize the equilibrium allocation of the data center resources. The experimental results indicate that the proposed algorithm can improve the comprehensive utilization of data center resources and realize the equilibrium allocation of resources， and has high running efficiency.

Keywords： Web network； grouping inheritance； data mining； center resource； probabilistic ranking； running efficiency

随着信息技术的快速发展，大型Web网络的应用价值也逐渐提升，其中，数据中心是网络信息服务的关键平台。快速发展的信息导致网络以及业务应用逐渐向具有大量服务器以及大型数据中心转移，导致数据中心规模不断提高，使得其中的异构应用同统一资源池共享间的矛盾不断加深，使得资源使用率降低。因此，寻求有效的方法实现大型Web网络数据中心资源高效挖掘，提升资源综合利用率，具有重要应用价值。本文提出基于多维资源协同聚合的分组遗传资源挖掘算法，实现大型Web网络数据中心资源的高效挖掘。

1 多维资源协调聚合的分组遗传资源挖掘算法

1.1 多维资源聚合数学模型

本文算法将Web网络数据中心的异构应用同统一资源池共享间的矛盾看成是多维资源聚合数学模型。设置用来描述大型Web网络数据中心待调度的应用数量，调度个应用，这些应用通过虚拟机完成资源的分配。因此，可将应用看成虚拟机申请，用描述。数据中心包含台物理服务器，为虚拟机提供资源服务。设置机器集为。因为大型Web网络数据中心中存在的调度资源种类繁多，本文向多维资源聚合数学模型中融入资源维度的概念。

如果对种类资源的需求量是，则其申请向量是。服务器在不同维度中拥有的资源量也存在较高的差异，表示资源提供的服务性能向量，其可描述网络数据中心不同维度中服务器的资源量。服务器在资源种类维度的综合利用率为。调度方案的输出是一个分配矩阵用于描述该方案向服务器中划分该虚拟机

将上述分析的问题看成是组合优化过程中的装箱问题，对其进行多维建模[1]。将大型Web网络中心资源挖掘的多维聚合问题映射成多维协同的可变向量装箱模型。

式（1）的目标是在多维环境下确保最小化启用物理服务器多维资源的均衡分配，确保多维资源综合利用率的最大化。式（2）可确保各物理服务器资源分配低于其最大容量。式（3）确保虚拟机申请实例仅被调度一次。

1.2 多维资源协同聚合的分组遗传虚拟机调度算法

基于1.1节的分析能够看出，大型Web网络数据中心资源的虚拟机调度是一种决策过程，需要分析多维资源间的均衡调度，实现最大化综合利用率、最小化物理机使用数的目标。为了解决上述分析的可变向量装箱模型，提出基于多维资源协同聚合的分組遗传虚拟机调度算法，得到最佳虚拟机调度结果，并基于分组遗传算法框架，通过基于模糊逻辑的多维协同适应度函数，对关键算子实施基于概率选择以及多属性决策的优化，提升调度算法的效率和求解质量[2]。endprint

用于描述服务器内种类的资源利用率，表示服务器中全部资源的平均利用率，则服务器的综合利用率为其表达式为：

为了向优质解内反馈多维协同的均衡调度结果，设置基因评估参量其包括服务器综合利用率和资源利用率的多维方差[3]。

依照对基因评估参数的描述，基因评估值高说明对应的综合资源利用率高、对应的不同维度间的利用率偏差低，进而确保各基因具有多维协同的聚合效应。

1.2.1 基于模糊逻辑的多维协同适应度函数

基于多维间的协同关系确保多维资源的均衡性，使得资源综合利用率最高，确保启用物理机的数量最小化。通常具有最高适应度函数值的个体将基因遗传到后代的概率更高，因此，应确保优质个体基因的性能也是优良的，通过适应度函数综合分析启用物理机数量和多维资源的均衡度[4]。

从式（5）能够获取单个基因位的评估参量，进而得到单个服务器的综合利用率和资源均衡度。由多个基因位组成的个体染色体（虚拟机调度的可行解），应先设置分析个体优劣的两个关键指标，也就是物理机需求量以及多维资源的均衡度，将其当成调度过程的宏观均衡指标。

设置代表的二元真值，虚拟机调度分配方案的矩阵秩为，也就是需要进行调度的服务器量，这时的宏观均衡指标为：

本文通过基于Max?Min原则的加权模糊逻辑决策手段，对双因素评估进行汇总和量化分析。

设置以及是成员变量以及的权重[5]，两个成员变量的隶属度是以及，隶属度的真值同两个变量的隶属函数值一致，能够得到Max?Min加权模糊逻辑的真值公式为：

将上述得到的真值运算结果当成多维分组遗传算法内的适应度函数值，选择算子基于该适应度函数值分析种群内个体优劣，获取新群体。

1.2.2 选择算子机理

遗传算法通过选择算子将父代种群内的优质个体遗传到子代种群中。选择算子基于1.2.1节获取的适应度函数值评估各个体，再基于相应的方式对个体实施排序和选择处理[6]。采集拥有高适应度值的个体，能够确保算法收敛到局部最佳解，无法获取全局最佳解。因此，本文通过轮盘赌选择法基于个体的选择概率运算累积概率，选择最佳个体。

通过式（7）描述的适应度函数运算出单个个体的适应度和种群适应度的总和。通过占总和比例的方法运算获取种群内各个体的相对适应度值，将该适应度值当成相应个体的选择概率，则第个个体的累积概率是。形成0～1间的随机数同进行对比分析[7]，如果有则采用第个个体。如此循环轮获取个子代个体。该种选择方法运行效率高，可确保向后代遗传拥有最高适应度值的个体。

1.2.3 基于概率排序的交叉位选择优化

本文算法采用依据概率排序的交叉位选择优化方法，基于父代染色体的各基因评估值，融入可控产生的概率函数，在确保高评估值基因的前提下，实现全局搜索的随机性[8]。

对染色体中各基因依据评估值进行降序排列获取用于描述处于第位的基因（服务器）的评估值。用于描述该染色体在解区域相关联的驱动服务器量。因此，设置各基因成为交叉位的被选择概率满足的分布函数为：

式中用于描述排序基因的选择概率。

能够看出拥有高评估值的基因被选择运行交叉处理的概率也高，该种选择模式能够确保全局检索稳定地继承父代有效模式，形成优良个体。本文基于经验设置可变参数值为2。

1.3 多维资源协调聚合的分组遗传资源挖掘算法流程

本文资源挖掘算法开始运行时，应对种群实施初始化设置，对Web网络数据中心内的候选虚拟机进行随机排列，采用多维优先适应算法向服务器分配虚拟机，循环种群规模次产生原始种群。当算法停止规范符合设置的迭代次数时输出具有最佳适应度函数值的个体[9]，最终通过解码变换获取最佳虚拟机调度结果，实现Web网络数据中心资源的均衡挖掘。详细流程如图1所示。

2 仿真实验

2.1 实验设置

为了验证本文算法能够提升大型Web网络数据中心的资源利用率，通过实验检测本文算法和服务器聚合算法挖掘网络资源的性能。服务器聚合算法是一种优先适应启發式方法。实验采用的服务器具有8 GHz主频、4核CPU、16 GB内存。虚拟机内各维资源相互独立，设置工作负载规模分别是200，400，600，800和1 200个虚拟机的5种实例。设置本文算法中的原始种群数量是50，算法运行200代，交叉算子概率是20%，变异算子概率是0.5%。

2.2 实验结果分析

实验检测本文算法和服务器聚合算法承载不同数量虚拟机所需要的物理机器数量，结果用图2描述。从中可得，在Web网络数据中心承载不同数量虚拟机的工作负载下，本文算法所需的物理机器数量始终小于服务器聚合算法，主要是因为本文算法具有较高的多维均衡性，可获取最佳的资源投入性能，承载相同虚拟机申请时所需的物理机器更少，降低了建设成本。

多维资源环境中，不同种类资源的利用率均衡化能够实现综合利用率的最大化。综合利用率可描述物理机器使用量高低对多维协同挖掘的依赖性。实验检测本文算法和服务器聚合算法对于多维资源的综合利用率情况，用图3描述。能够得出，本文算法比服务器聚合算法的综合利用率高，其在提升Web网络数据中心资源利用率方面具有较强的促进功能。

实验检测不同挖掘算法的适应度函数值用图4描述。能够得出，本文算法形成的调度方案的适应度函数值最大，可实现资源的均衡分配。

实验检测本文挖掘算法对大规模问题的扩展性能，本文挖掘算法对原始种群的平均运算时间以及获取新种群的平均运算时间的汇总结果，用图5描述。从中可以得出，随着虚拟机数量的不断提升，本文算法获取新种群的平均运算时间不断降低，说明本文算法在支撑大型Web网络数据中心资源调度时具有较显著的时间优势以及较高的运行效率。endprint

3 结论

本文提出基于多维资源协调聚合的分组遗传资源挖掘算法，解决大型Web网络数据中心的异构应用同统一资源池共享间存在的矛盾，通过基于多维资源协调聚合的分组遗传虚拟机调度算法得到最佳虚拟机调度结果，完成数据中心资源的均衡分配，提升数据中心资源综合利用率。

参考文献

[1] 赵蓉英，魏明坤.网络计量学与Web挖掘对比研究[J].情报杂志，2016，35（3）：131?136.

ZHAO Rongying， WEI Mingkun. A comparative study on Webometrics and Web mining [J]. Journal of intelligence， 2016， 35（3）： 131?136.

[2] 张丽晔，彭健，郑小鹏，等.试验数据统一访问技术研究与实现[J].计算机仿真，2014，31（9）：319?322.

ZHANG Liye， PENG Jian， ZHENG Xiaopeng， et al. Research and implementation of test data unified access technology [J]. Computer simulation， 2014， 31（9）： 319?322.

[3] 刘汇丹，诺明花，马龙龙，等.Web藏文文本資源挖掘与利用研究[J].中文信息学报，2015，29（1）：170?177.

LIU Huidan， NUO Minghua， MA Longlong， et al. Mining Tibetan Web text resources and its application [J]. Journal of Chinese information processing， 2015， 29（1）： 170?177.

[4] 赵雪琴，付媛媛.云计算环境下大规模Web服务故障诊断技术研究[J].计算机测量与控制，2014，22（9）：2760?2762.

ZHAO Xueqin， FU Yuanyuan. Research on fault diagnosis for massive Web services in cloud computing [J]. Computer measurement & control， 2014， 22（9）： 2760?2762.

[5] 胡文红，孙欣欣.基于时间序列的数据挖掘技术在城市内涝灾害中的应用研究[J].科技通报，2016，32（6）：229?231.

HU Wenhong， SUN Xinxin. Study of data mining technology in application of city water logging based on time series [J]. Bulletin of science and technology， 2016， 32（6）： 229?231.

[6] 王曙霞，熊曾刚.海量数据干扰下的危险Web数据挖掘技术研究[J].微电子学与计算机，2016（2）：87?91.

WANG Shuxia， XIONG Zenggang. Huge amounts of data under the interference of dangerous Web data mining technology research [J]. Microellectronics and computer， 2016（2）： 87?91.

[7] 赵蓉英，谭洁，陈晨，等.基于社会标签共现分析的Web资源聚合流程研究[J].情报理论与实践，2014，37（7）：111?115.

ZHAO Rongying， TAN Jie， CHEN Chen， et al. Research on Web resource aggregation process based on social tagging co?occurrence analysis [J]. Information theory and practice， 2014， 37（7）： 111?115.

[8] 陆菲菲，郭得科，方兴，等.数据中心网络高效数据汇聚传输算法[J].计算机学报，2016，39（9）：1750?1762.

LU Feifei， GUO Deke， FANG Xing， et al. Efficient data aggregation transfers in data center networks [J]. Chinese journal of computers， 2016， 39（9）： 1750?1762.

[9] 高芹，陈亚.数据挖掘中一种高效的聚类通用框架研究[J].科学技术与工程，2014，14（16）：112?118.

GAO Qin， CHEN Ya. Research on an efficient clustering ge?neral framework in data mining [J]. Science technology and engineering， 2014， 14（16）： 112?118.endprint