基于皮尔森相关算法的云存储层次化去冗优化
2022-01-14杨晖
杨 晖
(凯里学院 大数据工程学院,贵州 凯里556000)
0 引 言
云存储是从云计算技术上衍生发展的一个新概念[1]。云存储原理是通过应用软件、网格技术系统等功能对数据进行存储和处理,使用户在任何时间及地点,都可以使用网络设备访问云平台进行数据存取。云储存是透过互联网将庞大的计算机处理程序分解成多个应用子程序,再利用应用软件按类型不同组成新的云计算处理结果,最终用户能在海量的数据中直接访问到自己需要的业务数据[2]。关于数据层次化去冗处理,是利用布隆过滤器对云储存服务器每个节点进行层次化去冗,达到全局数据消冗的目的。布隆过滤器虽然能对数据进行去冗优化,但在过程中容易出现误判问题。因此,研究基于皮尔森相关算法的云存储层次化去冗优化方法对数据消冗有着重要意义[3]。
付鋆等[4]提出一种云存储层次化去冗优化方法,其能有效地提高数据的分析检索时间,构建云存储分层处理数据的索引模型,按云存储层次划分对数据进行逐个去重,再利用数据库智能化程序对去重后的云存储数据进行性能优化,实现云存储数据的层次化去冗优化,但往往忽略云存储网络冗余信息的编码等问题。李燕梅[5]提出通过设定网络云存储冗余信息的阈值,采用维数计算出样本权重函数,最后对云存储冗余信息特征进行重新排列处理,利用计算机软件计算完成对云存储冗余信息的消除,但对维数判定不足导致存在结果误判的问题。为此,笔者提出了基于皮尔森相关算法的云存储层次化去冗优化方法。
1 云存储层次化去冗优化方法设计
1.1 分类云存储层次化冗余信息
通过去除云存储终端数据的冗余,将云存储层次化结构中的冗余信息进行层次分类,从而能彻底去除云存储层次化结构中的冗余信息数据[6]。
假设d′(xi,xj)为云存储层次化结构中冗余信息的同比相近数值,可得出以下计算公式
其中L为云存储层次化结构中冗余信息的系数,tx为冗余信息在云存储层次化结构中的具体属性。冗余信息的同比相近数值随d′(xi,xj)的值变大而变大。相对属性列阵计算公式为
基于皮尔森距离函数[7],构建冗余信息的距离矩阵
利用除法运算公式[8]对相对属性列阵D与距离矩阵D′进行冗余信息计算,得到
设最大相对属性元素为K,则最近邻表是云存储终端冗余信息数据的中心,得到dn,1为相对属性列阵距离矩阵[di,j]n×n,则相对属性值最高元素为K
在云存储层次化结构中,根据各信息元素在最近邻表中的属性,计算出冗余信息数据的相近数值sim(xi,xj)。
但在实际操作过程中,很难根据云存储层次化结构中冗余信息元素在最近邻表中的属性准确地推算出冗余信息的相近数值[9]。因为冗余信息的同比相近数值随d′(xi,xj)值变大而变大,最近邻表的元素位置无法与数量形成鲜明的对比。为很好地解决上述问题,利用皮尔森相关算法对云存储层次化结构中的冗余信息进行层次化分类,再根据分类结果得到云存储层次化结构中冗余信息
其中PxnT(xi)为冗余信息元素xn在最近邻表T(xi)中的位置。
根据云存储层次化结构中冗余信息的属性分布相似性度量值,构建了冗余信息的距离矩阵,通过计算冗余信息之间的相似度,对云存储层次化冗余信息进行分类。
1.2 提取云存储层次化冗余信息特征
在提取云存储层次化结构中的冗余信息特征前,在相空间中提取冗余信息的高维度特征,具体过程如下。
令云存储层次化结构中第i′个冗余数据包为ith,采用高维空间投影的方式[10]处理冗余信息,t0为冗余信息的初始时间向量,则在云存储层次化结构中得到冗余信息的相空间重构结果,即
通过分析云存储层次化结构中冗余信息特征的结构,利用数据降维约束条件和中心极限原理,在云存储层次化结构中,构建冗余信息特征空间压缩的目标函数,提取出云存储层次化冗余信息特征。
1.3 设计云存储层次化去冗优化程序
对云存储层次化结构中冗余信息样本点xi,模糊因子ui能体现xi在分布上的不确定性,令O+和O-分别为正、负样本点均值点,φT为法向量,得到云存储层次化结构中冗余信息在去冗优化中的超平面为
若云存储层次化结构中冗余信息特征的有效度越小,说明冗余信息样本的第i个特征对有效度函数的计算影响越小,有效避免了云存储层次化结构被冗余信息特征所支配,从而完成了云存储层次化的去冗优化。
基于去冗优化超平面,计算了冗余信息样本点到正负类超平面的距离,利用皮尔森相关算法定义了模糊因子,通过定义云存储层次化结构中特征有效度,构建了云存储层次化结构中冗余信息特征的有效度函数,实现了云存储层次化的去冗优化。
2 实验对比分析
为验证基于皮尔森相关算法的云存储层次化去冗优化方法在去冗效率和召回率上的性能,选择Windows操作系统,分别采用文献[4]和文献[5]的云存储层次化去冗优化方法与笔者方法进行对比,测试了3种方法的去冗效率和召回率。
3种云存储层次化去冗优化方法的去冗效率测试结果如图1所示。从图1可以看出,基于皮尔森相关算法的云存储层次化去冗优化方法在去冗中所用的时间少于其他两种方法,原因是该方法采用皮尔森相关算法对云存储层次化结构中的冗余信息进行了降维处理,降低了冗余信息的维数,减少了去冗所用时间,从而大大提高了基于皮尔森相关算法的云存储层次化去冗优化方法的去冗效率。
图1 云存储层次化去冗效率测试结果Fig.1 Test results of hierarchical redundancy removal efficiency in cloud storage
3种方法的召回率测试结果如图2所示。从图2可以看出,设计方法的召回率明显高于其他两种方法,原因是该去冗优化方法根据云存储层次化结构中冗余信息的相似性,对冗余信息进行了分类处理,采用皮尔森相关算法对冗余信息进行了处理,实现了云存储层次化的去冗,从而提高了该方法的召回率。
图2 召回率测试结果Fig.2 Test results of recall rate
3 结 语
笔者提出了基于皮尔森相关算法的云存储层次化去冗优化,通过分类云存储层次化冗余信息,提取出云存储层次化冗余信息特征,采用皮尔森相关算法设计了云存储层次化去冗优化程序,实现了云存储层次化的去冗。结果显示,该方法在去冗效率和召回率方面的性能有一定提升。