云环境下多核仿真平台虚拟任务数据索引

2021-12-10陶建平

计算机仿真 2021年11期

陶建平，曹霞

(华中科技大学网络与计算中心，湖北武汉430074)

1 引言

多核处理器也属于片上多处理器，也被称为单芯片多处理器，多核结构思想与原型出自于1996年美国斯坦福大学，首个商用多核处理器源于2001年IBM，目前在云环境下，多核处理器的使用十分常见，其使用范围触及到多媒体运算、嵌入式设备、个人计算机、高性能计算机、仿真平台等多个领域[1]。多个处理器可把多个完全功能的核心集成在一个芯片之中，在云环境中仿真平台中引入多核处理器后，实验平台的运行速度将大大提升，且应用成本较小，可让仿真平台服务器并行处理任务。但云环境中多核仿真平台中，多核处理器在执行虚拟任务时，虚拟任务数据的数据量具有爆炸式、海量式[2]。高效率管理虚拟任务数据的必备条件即为虚拟任务数据索引设计，一个合适的索引方法，可对虚拟任务数据实施合理的组织与管理，为云端用户提供便捷的操作服务，数据索引的使用可让云环境下多核仿真平台虚拟任务数据管理时，不必遍历全部数据节点，优化了平台虚拟任务数据的管理效果。在研究关于数据索引设计问题之时，对文献[3]、文献[4]两个文献进行了深入研究，其分别提出了面向DEM构建的点云四叉树和R树混合索引方法、基于HBase的多维索引查询机制的优化方法，这两种方法应用后，可提升数据管理效率，本文也以优化数据管理效率为目标，提出云环境下多核仿真平台虚拟任务数据索引设计方法，以期为云环境下多核仿真平台虚拟任务数据管理问题提供可参考资料。

2 多核仿真平台虚拟任务数据索引

2.1 基于分形维数的选择性聚类融合算法

基于分形维数的选择性聚类融合算法核心思想是：使用改进的基于分形维数的聚类算法确定聚类成员，使用基于互信息的选择策略，选取部分聚类成员进行融合后采用基于加权共协矩阵的单链接算法，完成部分聚类成员的融合，以此获取多核仿真平台中，各类虚拟任务数据的聚类结果[5]。

算法的应用流程是：

1)将云环境下多核仿真平台各类虚拟任务数据集F实施循环随机抽样，获取多核仿真平台虚拟任务数据子集{Yj}，然后对各个子集Yj通过k-means聚类建立k个簇，记载k个聚类中心，再通过k个聚类中心将数据集F里的数据实施重新分配，得到整个数据集中初始聚类集αj，将数据集F实施M次聚类，获取存在M次聚类结果的集合α={α1，α2，…，αM}。

2)此步骤是把没有聚类的多核仿真平台虚拟任务数据点导进已经聚类的簇集里，完成整个数据集聚类[6-8]。先运算初始聚类里各个簇的分形维数Fj，把没有分配的数据点依次导进各个簇里，之后运算加入数据点后的分形维数F′j，运算分形影响度oj=|Fj-F′j|，在其中获取最小分形影响度oj相应的簇Bj，设置阈值β，如果oj不大于阈值β，把此数据点导进Bj里，反之，此数据点是离群点。

(1)

其中，o-10，j、o2，j、o10，j依次是数据点在不同簇中的分形影响度。

4)如果某个聚类成员的权值ϖj小于权重阈值ε，那么此聚类成员可删除；反之便可加入对应的簇中。

5)运算加权共协矩阵设置，设置相似度阈值是r，数据点对加权共协矩阵Da(i，j)大于相似度阈值r，那么这两个数据点属于一簇，如果两个数据点的簇存在差异，便对其合并；如果数据点对的加权共协矩阵Da(i，j)不大于相似度阈值r，代表两个数据点不可以划成一簇，孤立的数据点将独自一簇。对比全部数据点和阈值的关系，得到最后的聚类结果。

2.2 云环境下多核仿真平台虚拟任务数据索引机制构建方法

先设计多核仿真平台虚拟任务各类型数据聚类中心的覆盖网络拓扑，再使用前缀二叉树PBT与金字塔技术建立数据索引。

2.2.1 覆盖网络拓扑设计

覆盖网络拓扑结构见图1。

图1 覆盖网络拓扑结构

把虚拟任务各类型数据节点Mj在逻辑功能中看做两种节点：存储节点RMj、索引节点LMj，存储节点RMj可保存分配至节点Mj的虚拟任务数据，索引节点LMj可管理存储节点RMj中各类型数据的元数据信息。云环境下，多核仿真平台虚拟任务数据中心使用Chord协议把索引节点LMj构建成环状覆盖网络，且在各个索引节点LMj中建立多核仿真平台虚拟任务数据索引(简称多维数据索引M-Index)、仿真平台本地数据索引L-Index。多维数据索引属于全局索引，可把虚拟任务各类型数据信息索引为主键，然后按照一致性机制把数据均匀的引入每个存储节点中[9]。本地数据索引属于数据在节点Mj内部的本地索引，可在索引节点LMj中建立索引结构，以此管理保存在存储节点RMj中的数据。因为当下关于本地数据索引方面的研究较多，所以本文以多核仿真平台虚拟任务数据索引为研究核心。在所构建拓扑里，多维数据索引只需维护数据在覆盖网络里转发的路由信息，但与元数据信息存在关联的数据需要转交至本地数据索引管理，此方法可提升多核仿真平台的存储空间[10，11]。

在覆盖网络拓扑结构里，虚拟任务数据的传输步骤是：多核仿真平台先通过多维数据索引把虚拟任务数据的多维数据变换为一维主键，然后按照一维主键判断虚拟任务数据在覆盖网络拓扑里的所在位置。

2.2.2 索引机制

云端用户上传的数据在多核仿真平台里存在多维元数据的特征，本文把数据统一抽象为一组二元键值对E，详情是

E=〈bi，ui〉

(2)

其中，bi、ui依次是各类虚拟任务数据属性类型、属性值。

在一致性处理时，各类虚拟任务数据的主键仅存在一维元数据，此时多核仿真平台便不支持多维虚拟任务数据查询。本文处理的方法是使用金字塔技术建立多维数据索引，把描述元数据的e维向量N变成一维索引jeu。多维数据索引在降维时，可保证各类虚拟任务数据查询结果不存在缺失情况。

多维数据索引把e维向量N设成e维空间中的数据点U，把e维向量降维后所获取的一维索引设成数据点U和点Q的距离。因为在降维时或许会存在多个数据点和中心点一维距离一致的状态。此状态影响下，各类虚拟任务数据后续应用中会存在不良结果，所以，多维数据索引在不一样的金字塔中使用不一样的距离函数[12]。详细流程如规则1：

规则1：多维数据索引把多维数据N降维成一维索引jeu的步骤是：

1)归一化

(3)

2)判断数据点U所在的金字塔编码

因为多维数据索引在具有差异的金字塔中距离函数也存在差异，所以在运算一维距离之前必须先判断数据点U所在的金字塔编码j

(4)

式中，imax是数据点U坐标差值中最显著的一维向量；e是维度数值。

3)运算点U和点Q在第j或第j-e维的坐标差值

ku=|0.5-ujor(j-e)mod e|

(5)

其中，ujor(j-e)mod e是点U和点Q在第j-e维的坐标。

多维数据索引在规则1里把各类虚拟任务索引为一维索引jeu后，能够在云环境下，支持多核仿真平台虚拟任务数据多维管理。在此基础之上，为了实现数据的区间管理，多维数据索引把jeu索引为主键h，h可表示数据在仿真平台中覆盖网络结构中的位置。

3 实验分析

实验使用仿真测试本文所提方法的应用效果。仿真工具是Planet Sim，此工具使用Chord协议，以此模拟数据中心索引节点建立的覆盖网络。本文把虚拟任务数据节点规模设成2000，数据总量设成105×M，M是虚拟任务数据节点数量，数据集的元数据维数最大值是6，元数据值范围是[0，2]。

3.1 正常环境下虚拟任务数据查询效率测试

路由长度是判断数据查询效率的核心指标，在覆盖网络里路由长度是查询请求传输的路由节点跳数。实验主要在不同查询请求、不同数据中心规模、不同查询请求维数、不同查询区间条件下，分析本文方法的应用效果。平均路由长度值较小，表示查询效率较高。

3.1.1 不同查询请求条件下应用效果测试

设置虚拟任务数据不同查询请求为A1、A2、A3、A4，A3、A4的维数设成4，A1、A2的虚拟任务数据节点选择率设成0.06%。测试本文方法使用后，虚拟任务数据的查询效率，结果如图2所示。

图2 复杂查询模式中虚拟任务数据查询效率

分析图2可知，A3、A1的查询效率具有高度一致性，A3、A1的查询效率高于A2、A4，但此次测试结果中，不同查询请求条件下，本文方法应用后，虚拟任务数据查询效率还是较为显著的，后文将对本文方法的应用效果进行对比测试。

3.1.2 不同数据中心规模条件中应用效果测试

以文献[3]、文献[4]所提方法为对比方法，在不同数据中心规模条件中，测试本文方法、面向DEM构建的点云四叉树和R树混合索引方法、基于HBase的多维索引查询机制的优化方法应用后，虚拟任务数据查询效率，结果如图3所示。

图3 三种方法应用效果测试

分析图3可知，本文方法使用后，多核仿真平台虚拟任务数据查询的平均路径长度值最小，虚拟任务数据查询效率显著优于面向DEM构建的点云四叉树和R树混合索引方法、基于HBase的多维索引查询机制的优化方法。当虚拟任务数据节点规模出现变化时，本文方法应用下，平均路径长度变化幅度最慢，但另外两种方法应用下，平均路径长度变化幅度不存在规律性，本文方法使用效果最佳。

3.1.1与3.1.2实验说明，在差异的数据中心规模条件中，本文方法都有较好的应用效果，多核仿真平台虚拟任务数据数模逐渐变大时，本文方法应用下，虚拟任务数据查询的平均路径长度增长速度最慢，平均路径长度最小，所以本文方法存在显著的扩展性，适用于云环境下多核仿真平台虚拟任务数据管理之中。

3.1.3 不同维数条件应用效果测试

虚拟任务数据节点维数依次设成1000、2000，在不同数据维数条件中，测试本文方法、面向DEM构建的点云四叉树和R树混合索引方法、基于HBase的多维索引查询机制的优化方法应用效果。测试结果如图4所示。

图4 不同维数条件应用效果测试结果

分析图4可知，当维数变化时，本文方法应用下，多核仿真平台虚拟任务数据查询的平均路径长度值最小，虚拟任务数据查询效率变化最不显著，原因是本文方法在使用金字塔技术处理多维数据时，对维数变化不存在敏感性。但另外两种方法应用下，虚拟任务数据查询效率变化幅度显著，多核仿真平台虚拟任务数据查询的平均路径长度值较大，查询效率较低。由此可知，本文方法应用效果最佳。

3.1.4 不同查询区间条件中应用效果测试

将虚拟任务数据查询请求维数设成4，虚拟任务数据节点数设成1500，在不同查询区间条件中，测试本文方法、面向DEM构建的点云四叉树和R树混合索引方法、基于HBase的多维索引查询机制的优化方法应用效果，结果如图5所示。

图5 不同查询区间条件中应用效果测试结果

分析图5可知，当查询区间变大，本文方法应用后，虚拟任务数据查询的平均路径长度值最小，虚拟任务数据查询效率变大。原因是区间变大时，虚拟任务数据查询请求将覆盖多个有效数据节点，此时将会出现多个查询键值，键值的同时运行，将增加查询时间。但相比之下，本文方法应用后，虚拟任务数据查询效率最显著，另外两种方法所受到的负面影响更为显著。

综上所述，当数据中心规模、查询请求维数、查询区间出现变化时，本文方法应用效果最佳，最适用于云环境下多核仿真平台虚拟任务数据的查询应用之中。