云计算环境下大数据分布规律的结构优化设计
2017-06-03陈议
陈议
摘 要当前,随着互联网技术的不断发展,数据的规模扩大、类型增加,走向了前所未有的大数据时代。而云计算作为一种新型的信息模式,以其特有的优势,得到学术界和企业界的广泛关注,为大数据服务的发展奠定了良好的基础。然而,由于目前尚未形成有效的运行机制,云计算环境下大数据分布不完全合理,因此,本文通过简要描述云计算和大数据的概念及特征,提出基于模糊聚类分析的云计算环境下大数据分布规律的结构优化设计。
【关键词】云计算环境 大数据 分布规律 模糊聚类方法
1 引言
云计算服务的兴起为大数据的应用提供了保障,在考虑其性能和成本的前提下,越来越多的企业考虑将大数据处理的相关应用转移到云计算环境下进行。在此背景下,学术界和企业界掀起了对云计算环境下大数据分布规律的结构优化设计方法的研究热潮,并获得了众多研究成果,其中最为常见的方法包括模糊聚类方法、详细度量方法和最小二乘法等。
2 云计算与大数据概述
2.1 云计算
云计算是指以互联网为基础,对所需资源进行随时随地的访问和分享,是当前一种依靠互联网技术的全新计算模式,其主要特征包括IT资源服务化、泛在接入、服务可计费、按需自服务及弹性服务,其本质是通过IT资源服务化的特征在互联网上以泛在接入和服务可计费的方式,向用户提供按需自服务式的弹性服务。由此得知,由于其IT资源服务化特征,在大规模应用计算时,云计算可提供资源保障;由于其所有过程皆是通过互联网手段,用戶在检索数据时,云计算可提供按需自服务式的弹性服务;由于其泛在接入特征,用户可随时随地利用互联网在移动终端上访问或共享数据。
2.2 大数据
简单来说,大数据就是指规模庞大的数据。但由于互联网技术还在进一步更新和发展中,数据的规模和种类也在快速扩大和增加,不同的组织也因各自不同的需求对大数据有着不同的认识和理解,所以学术界尚不能对大数据进行统一定义。目前,由于IBM提出的大数据3V模型定义对大数据特征进行了形象的描述,而最能被人们普遍接受,即大数据具有海量性、多样性、高速性三个特征。其中,海量性是指数据规模巨大,达到TB级及PB级;多样性是指数据种类繁多,按照其结构分大致分为结构化数据和非结构化数据;高速性是指数据的出现速度、处理速度和分析速度都在持续加快。
3 云计算环境下大数据分布规律的结构优化设计
目前,研究云计算环境下大数据分布规律的结构优化设计方法有很多,主要包括模糊聚类方法、详细度量方法和最小二乘法等。其中,模糊聚类法是指通过研究数据分布规律本身属性,从而构建迷糊矩阵来确定聚类关系的一种方法;最小二乘法是指通过匹配最小化误差的平方和寻找数据的最佳函数,使得所求数据与实际数据之间误差平方和最小化的一种方法。
3.1 构建X上的模糊关系
构建待处理数据X上的模糊关系,是采用模糊聚类法的第一步,是大数据分布规律的结构优化设计的基础。在这一过程中,需将属性类似的系数构建成n阶的迷糊矩阵,即相似系数矩阵。根据矩阵确定其在待处理数据X上的模糊关系。其中两个模糊向量间的接近程度称之为贴近度,而相似系数的计算和描述则需利用贴近度法,例如将X中的元素Xi和Xj看作是其各自特征的模糊向量,用贴近度对相似系数rij进行计算,则rij的表达式为:
rij=1-c(dp(Xi,Xj))α (1)
(1)式中:c,α指的是描述常数;p指的是描述不同距离的代码系数,对论域X={x1,x2,…,x5}进行规格化处理,此时,取c值为0.1,计算相似系数,可获取模糊相似矩阵,如式(2):
(2)
结合式(1)、式(2),在获得模糊五阶相似矩阵后,需对其进行划分,才能进行下一步的大数据分布规律结构优化设计。
3.2 大数据分布规律结构优化设计
在进行大数据分布规律结构优化设计前,针对类和类间的距离,需运用最短距离法进行计算,例如用dij(i,j=1,2,…,n)描述样本i与j之间的距离,则有:
(3)
若用G1,G2,…来描述类,则第k类的Gk和第r类的Gr之间的最短距离为:
Dkr=min{dij:i∈Gk,j∈Gr} (4)
利用最短距离法对云计算环境下大数据分布规律结构进行优化设计,可有效分析辨别出需要调整和转移的数据,使得云计算环境下的大数据分布在一个不断调整的动态过程里,随时保持数据的最理想状态。
3.3 仿真实验
为了验证上述优化设计的有效性,现通过仿真实验,对模糊聚类方法、最小二乘法进行对比分析:两种方法分别进行10次实验,取其平均访问代价作为结果。在对两种方法进行评价的过程中,将相对访问成本作为衡量的标准。得出结果如下:
(1)随着代理存储容量的增加,比较采模糊聚类方法和最小二乘法进行大数据分布规律结构优化设计后的相对访问成本,随着存储容量的逐渐升高,模糊聚类方法的相对成本低于最小二乘法,当总预算从全部候选代理费用的10%增长至20%时,模糊聚类方法和最小二乘法的相对成本均在一定程度上有所增加,但模糊聚类方法的增加幅度低于最小二乘法,说明模糊聚类方法的性能优于最小二乘法。
(2)在各代理容量一定的情况下,云计算环境下预算费用逐渐增加时,比较模糊聚类方法和最小二乘方法相对成本的变化趋势,模糊聚类方法的性能明显优于最小二乘方法,在各代理容量或总预算较低时,模糊聚类方法的相对成本均低于最小二乘方法,当代理容量大小从50%到70%时,模糊聚类方法的相对成本基本没有发生改变,说明模糊聚类方法基本不受代理容量的影响。因此,通过仿真实验验证了模糊聚类方法的有效性。
4 结语
综上所述,在云计算概念提出以后,各大企业紧跟时代步伐,通过互联网采用多项云计算服务。因此,越来越多的学者对云计算环境下大数据分布规律的结构优化设计进行研究,本文提出了利用模糊聚类法对云计算环境下大数据分布规律进行优化设计,并经仿真实验分析确定了其有效性。
参考文献
[1]朱亚东,高翠芳.基于PSO的云计算环境中大数据优化聚类算法[J].计算机技术与发展,2016,26(9):178-182.
[2]陈志华,刘晓勇.云计算下大数据非结构的稳定性检索方法[J].现代电子技术,2016,39(6):58-61.
[3]姜明月.云计算平台下的大数据分流系统的设计与优化[J].现代电子技术,2016,39(2):28-32.
作者单位
贵州省信息中心 贵州省贵阳市 550000