APP下载

异构云计算海量多源数据在线共享方法

2023-05-15冯岩星聂开勋应依依

现代计算机 2023年5期
关键词:海量异构客户端

冯岩星,聂开勋,应依依

(浙江浙能数字科技有限公司,杭州 310000)

0 引言

互联网的快速发展带动了云计算数据量的增长,为了保证云计算的效率最大化,需要在数据访问与共享的过程中,平衡并优化云计算资源的分配策略[1]。异构云计算的体系结构能够将有限的资源进行分配,从而不受空间的限制,实现快速的网络部署。在异构云计算的运行过程中,会产生海量的多源数据,这些数据中包含了大量的有效信息,对这些数据进行高效的利用,是目前人们研究的课题[2]。想要高效利用以上的海量数据,首先需要能够实现这些数据的精准访问。因此,针对异构云计算海量多源数据进行精准访问,已经衍生出了多种多样的技术模式。当前最常用的就是将异构云计算中的数据进行在线共享。但是目前异构云计算中的数据多源化严重,在传统的集群模式数据共享过程中,由于难以统一数据的格式,因此其共享方法的学习泛化能力较弱,影响了最终的数据共享结果。为了实现异构云计算海量多源数据的高效利用,本文设计了一种异构云计算海量多源数据在线共享方法。

1 异构云计算海量多源数据在线共享方法研究

1.1 多源数据格式归一

为了使异构云计算中存在的海量多源数据实现精准的在线共享,首先要将多源数据的格式进行归一化转换。在转换多源数据格式的过程中,首先要对异构云计算中个体数据进行三维仿真。以异构云计算中的数据分布情况为例,进行归一化处理[3]。云计算中的数据量大,数据分布密度不均匀,首先对该区域进行网格划分,并计算出某区域内的平均数据密度,计算公式为

上式中,ρaverage表示目标区域范围内的平均数据密度,S表示异构云计算中的网格区域面积,Ni表示网格区域内所有数据的集合。按照上式计算出区域内各个小网格中的实际数据密度[4-5]。首先提取目标区域网格内的数据密度值,并将各个网格内的数据密度进行累加,重复以上操作,此时判断是否完成目标区域内所有网格的遍历,如果完成遍历,那么则求取平均的数据密度值,完成计算[6-7]。经过以上的流程,可以得到异构云计算中的海量多源数据的密度情况。在完成密度的计算之后,需要利用得到的数据进行三维分布仿真,在此过程中将不同源数据进行格式转换。针对纹理数据格式转换来说,本文所选择的是频谱法。首先提取数据的特征矩阵,获取其中某数据点的坡度值,并进行坡度归一化。归一化的公式如式(2)所示:

式(2)中,(K,L)表示数据点的坐标,g(K,L)代表该点的坡度值,gmax表示多源数据中的数据最大坡度值,Ng为归一化常数,根据实际情况确定常数的值。根据上述的流程,可以得到以后云计算中的多源数据密度变化情况,并将其转换到一个归一化的单位,以便于和多源数据中其他类型的数据实现同步共享。

1.2 设计数据在线共享接口

完成多源数据的格式归一化处理之后,在共享过程中,本文将基于Hadoop 开发的访问接口进行重新定义,使其适用于多个异构云计算环境,并实现每个云服务节点之间实时交互,保证数据的良好共享与传输。基于Hadoop 的访问接口对整个数据流提供分布式存取控制引擎技术。可支持实时数据请求和在线数据请求。Hadoop 接口在存储业务中提供存储管理技术、数据存储分析技术、动态数据存储技术、网络通信业务技术等。该访问接口还支持异构云计算环境下本地存储服务器访问。

从图1可以看出,接口中另外还有一个访问接口提供给异构云计算环境下访问本地存储服务器访问接口,即图1中的这种访问接口也可支持异构云计算环境下对本地存储服务器的访问接口。该访问接口提供了多个访问接口,它们通过互连协议,互相传递数据给对方。这些访问接口还可提供本地和异构云服务节点之间的网络通信接口,并在这两个接口中进行数据校验。

图1 访问接口示意图

1.3 实现异构云计算中海量多源数据的在线共享

对于多源数据共享,最基本的就是必须要有完善的基础设施来支撑。企业如果没有完善的基础设施和管理系统,不可能实现多源数据在线共享。在异构云计算中海量多源数据的在线共享实现过程中,所需要使用到的设备功能需要满足总体的要求。数据的在线共享过程主要由服务器、存储单元、通信单元和应用单元组成。其中数据共享管理系统主要是指系统中服务器端部分。服务器端将收集的数据从存储单元中分拆出来,然后通过Hadoop 算法自动更新。在使用过程中,只需执行特定流程即可。比如:系统中每个存储单元生成一个请求数据,需要完成该请求数据后,从存储单元中提取该请求信息并返回给客户端,这样就完成了数据共享处理。为了减少服务器开销,也可以采用共享访问接口模式进行数据共享处理。使用Hadoop 技术将处理结果从网络发送到客户端节点。客户端利用异构云计算中大量资源将数据发送给客户端节点进行处理以提高处理速度,同时为用户提供数据交换服务,为服务器提供安全、可靠、高速通道。

本文提出基于Hadoop 技术和用户接口技术两种方式,以实现数据在线共享和Hadoop 网络安全保障等。下面以Hadoop 浏览器为例介绍该方案实施过程。首先,根据系统需求部署Hadoop服务器集群,在集群中部署客户端。客户端首先通过客户端与数据共享服务的Hadoop 客户端(home person service)建立连接,用户访问资源时需验证身份信息。验证成功后,从客户端中获取相应访问权限并使用访问接口向异构云平台获取资源。用户在访问平台时使用访问应用内不同接口。当平台访问数据库时,访问接口请求访问服务接口并返回请求结果。数据共享服务平台提供实时数据传输和网络连接。

2 方法性能验证

2.1 数据集和实验参数选择

为了验证本文所设计的异构云计算海量所有数据的在线共享方法在实际应用中的有效性,进行了共享方法对象性能验证。实验中选择人造数据集Hyperp 和真实数据集,共同作为方法性能验证的共享数据集,真实数据集共三组,分 别 为Heterogeneity activity(Activity)、Forest cover type(Covertype)和KDDCUP1999(Kdd),人造数据集主要是由数据生成器随机构建的数据集,并在其中添加多源异构数据,因此存在一定的渐进式概念漂移等现象。在真实数据集中,也同样存在明显的异构漂移特征。数据集的详细信息如表1所示。

表1 实验数据集信息

在以上数据集中,分别使用不同的数据共享方法对其进行在线共享,并分析不同方法下的泛化学习能力。选择的传统在线共享方法为MCEL 方法和RDEL 方法,所测试的分布式环境共有4个局部的节点,在每个节点上都可以配置一个本地的学习器,并同时适配一个标记过的训练数据集,以及一个测试资料集。在实验的过程中,将验证资料集进行分割,得到无重叠数据的四个子集,并使子集和四个部分的节点一一对应。节点上的初始练习数据集都是由子集随机分成采样得到的,因此本文中建立的训练集数据源都是1000。而设置的节点之间的实时共享资料则包括所有原始数据、协方差矩阵均值的向量集合以及微簇集合。为了在实验中更好地描述数据共享过程中随机到达的情况,局部节点的数据共享速度会在不同的时间有不同的体现。

为了对不同数据共享方法的泛化能力进行量化,本文选择度量指标为错误率(ER)和查准率查全率的调和平均数(F1),其中F1的计算公式为

上式中,P表示查准率,R表示查全率。在实验的开始阶段,各个节点的学习器是依靠初始的训练集进行构建的。实验结果记录的过程中,对第一个到达节点的数据块开始记录,依次使用不同的数据块对学习器进行测试,记录实验结果,并对不同共享方法下的结果进行记录。

2.2 实验结果对比与分析

三种不同的在线共享方法在不同数据集中结果如表2~表4所示。

表2 不同方法的ER测试结果 单位:GB

表3 不同方法的F1测试结果 单位:GB

表4 不同方法的共享数据量测试结果 单位:GB

从上表的数据可以看出,在本文所设计的数据在线共享方法中,共享数据量最高,ER与F1 的平均值在三种方法中最低,这说明本文所设计的异构云计算海量多源数据的在线共享方法相对于两种传统方法来说,在数据共享的过程中泛化能力最好。综合上述实验结果来分析,本文方法的泛化能力较好,也就是说,当不同共享方法下的假设空间相似时,不同方法学到的假设空间不存在交集,此时本文设计的共享方法能够在一定的误差范围内,最大程度上还原共享数据。

3 结语

本文针对异构云计算数据的共享与访问过程中存在的多种问题,提出了一种分布式节点访问技术和异构云计算数据共享方式。共享过程中采用分布式共享技术提供了多种数据访问接口以及网络安全保障等多项技术方案,为不同规模的异构云计算平台实现了资源共享、资源调度等一系列技术方案。并在此基础上提出了一个针对异构云平台,海量多源数据在线共享与管理需求的先进技术方案,实现系统平台具有可移植性强、功能完善、维护简单、使用成本低等优点。本文所设计的共享方法可广泛用于政府部门、科研机构、高校、数据中心等用户在线数据共享管理与使用之中,同时也为异构云计算技术提供丰富的应用场景,具有较强的推广应用价值。

猜你喜欢

海量异构客户端
一种傅里叶域海量数据高速谱聚类方法
试论同课异构之“同”与“异”
海量快递垃圾正在“围城”——“绿色快递”势在必行
县级台在突发事件报道中如何应用手机客户端
孵化垂直频道:新闻客户端新策略
基于Vanconnect的智能家居瘦客户端的设计与实现
异构醇醚在超浓缩洗衣液中的应用探索
overlay SDN实现异构兼容的关键技术
一个图形所蕴含的“海量”巧题
LTE异构网技术与组网研究