能耗均衡约束下的多源异质传感器数据动态汇聚算法*
2024-01-09陈坤定林木辉
陈坤定,林木辉
(1.闽西职业技术学院信息工程学院,福建 龙岩 364000;2.福建师范大学教育学院,福建 福州 350007)
多源异质传感器数据[1]是一种通过传感器采集的不同来源、不同介质的数据。因数据的来源广、数量庞大,在对数据进行分析时,采集难度较大[2]。而数据汇聚可将多源异质数据进行统一收集和管理,提高数据的传输效率。但数据在汇聚过程中易受不同类型节点的干扰,导致数据在传输过程中的保密性较差、汇聚精度低、能耗大、增大了数据汇聚的难度。为此,研究多源异质传感器数据动态汇聚算法具有重要意义。
孙泽宇等[3]首先采用数据汇聚增益算法得到数据的极大值与极小值,进而获得两者之间的比例关系;然后通过数据压缩技术处理相关比例得到所有数据的能量消耗;最后将能量消耗输入到能量转换模型中,完成数据的动态汇聚。但是在汇聚数据过程中,受算法自身计算量的影响,导致其通信开销大。郭庆等[4]首先利用半同步式分级架构采集数据信息,然后将分布式处理技术和属性划分技术融入到数据中,得到数据的实时传输状态,最后在抽象驱动的基础上对数据传输状态集中管理,完成动态汇聚。但是该算法没有对采集到的数据做降维处理,导致算法汇聚的数据正确率较低。Jin 等[5]首先将时间序列数据划分成不同场景,并使用集成聚类方法对划分的场景进行聚类。然后采用Davies-Bouldin 指数选择最佳簇数。最后,基于马尔可夫链,构建各种组合典型的状态转移概率矩阵,生成聚合状态序列,完成数据的动态汇聚。但是该算法在数据汇聚过程中容易泄露隐私。
为了更好地传输多源异质数据,保证无线传感网络通信质量。此次提出能耗均衡约束下的多源异质传感器数据动态汇聚算法。在构建能耗均衡约束模型的基础上,利用监督判别投影算法对数据进行预处理。通过检测节点距离与构建汇聚链路,完成多源异质传感器数据的动态汇聚。
1 构建模型与数据降维
根据边赋权图构建能耗均衡约束模型,采用监督判别投影算法构建局部分散函数,利用线性约束和正交分解输出高维度数据在低维度空间上的投影,实现多源异质数据的降维。
1.1 构建能耗均衡约束模型
构建能耗均衡约束模型,可以保证多源异质数据节点在汇聚过程中所消耗的能量趋于平均值,具体步骤如下:
①多源异质传感器中主要包含多源异质数据节点、节点之间的相连链路,可以采用边赋权图[6-7]表示多源异质传感器数据的数学模型,如式(1)所示:
式中:U表示传感器中的所有多源异质数据节点集合;H表示边赋权图;D表示节点之间的链路;n表示多源异质数据节点的个数;D1表示路径择优时的数据节点集合;D2表示数据节点下一步的可选择项。
②传感器中的多源异质数据节点之间是否可以完全用于数据间的通信,如式(2)所示:
式中:i、j均表示多源异质数据节点;↔表示完全连接;≠表示不完全连接。
③当多源异质传感器数据节点之间完全用于通信时,能量消耗主要由多源异质数据的传输与接收引起。数据传输和接收的能耗均衡约束模型如式(3)所示:
式中:e1、e2分别表示多源异质数据的传输与接收所耗能量;l表示一般参数;c表示多源异质数据之间的距离;αfs、αmp均表示通信能量参数;c'表示距离阈值。
④在能耗均衡约束模型中设立一个距离阈值[8],如式(4)所示:
当多源异质数据节点之间的距离小于式(4)得到的阈值时,模型使用空闲空间完成数据节点的传播;当多源异质数据节点之间的距离大于等于式(4)得到的阈值时,模型使用多路径衰减信道实现数据之间的传播,完成能耗均衡约束。
1.2 多源异质数据降维
在能耗均衡约束模型中采用监督判别投影算法[9]对多源异质传感器数据实行降维处理,可以有效地降低数据的冗余度,为数据的汇聚打下基础,具体步骤如下:
步骤1 在多源异质数据中构建局部近邻图,利用监督判别投影算法在局部近邻图中构建局部分散函数,如式(5)所示:
式中:K表示引入的拉普拉斯函数;R表示局部分散函数;z表示函数中的近邻点;C表示局部模型;I表示近邻函数。
步骤2 根据局部分散函数推算出全局散化函数,如式(6)所示:
步骤3 在多源异质传感器数据中引入变换函数[10],变换函数的函数模型用如下公式表示。
式中:E表示引入的变换函数。
步骤4 将线性约束[11]投入到变换函数的函数模型中,然后通过正交基向量获取多源异质传感器数据的最小向量值,并利用正交分解[12]获得线性约束的解,输出高维度数据在低维度空间上的投影,完成多源异质传感器数据的降维。如式(8)所示:
式中:β表示线性约束条件;min(i,j)表示多源异质数据的最小值;Y表示广义特征方程式。
通过上述内容,在构建能耗均衡约束模型的基础上,建立局部分散函数,采用线性约束和正交分解方法获取数据在低维度空间上的投影,得到降维后的数据,为多源异质数据的动态汇聚奠定基础。
2 多源异质数据的动态汇聚
基于上述获取降维后的多源异质传感器数据,采用基于模糊分簇阈值筛选机制对数据做汇聚处理,具体步骤如下:
步骤1 传感器中所有多源异质数据的数量是固定的,并且随机分布在矩形区域[13]中,所对应的模糊数据集最佳中心节点的数量可用下式表示:
式中:χ表示最佳中心数据节点;P表示节点传输数据的功率;N表示传感器中多源异质数据的总数量;O表示矩形区域的边长;s表示数据节点之间的通信半径。
步骤2 随机从多源异质传感器数据集中抽取i个节点作为初始化的中心点集合,如式(10)所示:
式中:T表示初始化中心点集合;g表示集合中的点。
步骤3 从模糊数据集中任意选取一个不同于初始化中心点的节点,设其为y,然后计算出节点y与中心点集合中其余节点的相似度[14],如式(11)所示:
式中:x表示节点i、j之间的物理距离;u表示相似度。
步骤4 根据相似度更新中心点集合中所有节点坐标,然后计算y与模糊数据集中所有节点的相似度,若相似度处于区间[0,1]中,则将其划分到中心点集合中,进而得到簇区域。流程如图1所示。
图1 簇区域获取流程
簇区域更新过程如式(12)所示:
步骤5 在得到的簇区域中选取出承担区域内数据汇聚任务的节点a,其余节点则负责数据信息的采集,并通过节点a汇聚上传。假设簇区域中节点的数量为B,计算出该区域的簇头阈值,如式(13)所示:
式中:Q表示簇头阈值;δ表示融合系数;ε表示修正系数。
步骤6 根据式(13)得到簇头阈值后,多源异质传感器数据节点通过节点a将阈值上传,根据能耗均衡约束模型可知,节点a与其余节点之间的距离处于最佳通信半径[15]中时,节点a会直接将簇区域内的所有节点采集的数据汇聚到传感器中。
步骤7 当节点a与其余节点之间的距离不处于最佳通信半径中时,计算其余节点与节点a之间的距离,反复执行步骤6 可以建立汇聚链路[16],完成多源异质传感器数据的动态汇聚。流程如图2所示。
图2 数据汇聚流程
根据式(9)得到最佳中心数据节点的数量,计算节点与中心点集合中其余节点的相似度,获取所有节点坐标,将相似度处于[0,1]区间中的节点划分到中心点集合中,计算该区域的簇头阈值,将簇区域内数据汇聚到传感器中,实现能耗均衡约束下的多源异质传感器数据动态汇聚。
3 仿真与分析
为了验证能耗均衡约束下的多源异质传感器数据动态汇聚算法的整体有效性,以隐私保护效果、通信开销和汇聚数据正确率为评价指标,将自适应汇聚路由判定算法(文献[3]算法)、网络流量数据实时汇聚算法(文献[4]算法)和基于集合聚类与ECMC 的数据汇聚方法(文献[5]算法)作为对比算法,进行仿真。
3.1 仿真设置
在无线传感网络中完成此次无线传感网络的分簇及汇聚情况,如图3 所示。
图3 分簇网及汇聚情况
由图3 可知,无线传感网络为250 m×250 m 的平面区域,内部随机分布5 万个节点。中继节点分布密度<0.005 个/m,节点信号接收精度低于1 dB。
3.2 结果分析
根据上述环境和参数设置进行仿真,具体仿真结果如下:
3.2.1 隐私保护效果
数据在汇聚过程中需具备一定的保密性,采用所提算法、自适应汇聚路由判定算法、网络流量数据实时汇聚算法和基于集合聚类与ECMC 的数据汇聚方法汇聚10 组多源异质传感器数据,10 组多源异质传感器数据队列转换时间和服务时间分别为1个和2 个时隙,每组簇内数据包发送量为20 个,仿真不同算法在汇聚过程中数据节点的隐私泄露率。隐私泄露率越高,表明数据在汇聚过程中的隐私保护效果越差;隐私泄露率越低,表明数据在汇聚过程中的隐私保护效果越强。其计算如式(14)所示:
式中:k表示节点之间的链接;V表示多源异质数据的隐私泄露率;r表示节点被破解的概率。
不同算法的隐私保护效果如图4 所示。
图4 不同算法的隐私泄露率
分析图4 中的数据可知,针对多源异质传感器数据的动态汇聚,自适应汇聚路由判定算法、网络流量数据实时汇聚算法和基于集合聚类与ECMC 的数据汇聚方法的隐私泄露率分别在31%、38%和27%附近波动,而所提算法的隐私泄露率在25%附近波动,通过对比发现,在不同组中所提算法的隐私泄露率均小于对比算法的隐私泄露率,表明针对多源异质传感器数据的动态汇聚,所提算法的隐私保护效果好于对比算法。因为所提算法构建了能耗均衡约束模型,使用多路径衰减信道实现数据之间的传播,有效提高所提算法的隐私保护效果。
3.2.2 通信开销
为了仿真三种算法的多源异质传感器数据汇聚性能,将通信开销作为仿真指标,进行仿真分析。通信开销是指各个算法在多源异质传感器数据的动态汇聚过程中所消耗的能量。通信开销数值越大,表明算法的性能越差;通信开销数值越小,表明算法的性能越好。通信开销的计算公式如下:
本文采用802.15.4 标准对多源异质数据进行封装,该标准数据包有效载荷为100 byte,允许数据总长度最大为128 byte。仿真5 万个节点在所提算法、自适应汇聚路由判定算法、网络流量数据实时汇聚算法和基于集合聚类与ECMC 的数据汇聚方法中的通信开销,结果如图5 所示。
图5 不同算法的通信开销
分析图5 可知,随着节点数量的增多,三种算法的通信开销也有所增加。自适应汇聚路由判定算法、网络流量数据实时汇聚算法和基于集合聚类与ECMC 的数据汇聚方法的通信开销范围分别为16 MB~57 MB、18 MB~66 MB 和19 MB~61 MB,而所提算法的通信开销在9 MB~46 MB 之间,低于对比算法。因为所提算法采用监督判别投影算法对多源异质传感器数据实行降维处理,降低了数据的冗余度,减少了通信开销,提高了数据汇聚性能。
3.2.3 汇聚数据正确率
汇聚数据正确率是指各个算法对多源异质传感器数据动态汇聚的结果中,最终汇聚正确数据占原始数据的比例。汇聚数据正确率越高,表明算法的汇聚精度越高;汇聚数据正确率越低,表明算法的汇聚精度越低,结果如图6 所示。
图6 不同算法的汇聚数据正确率
由图6 可知,在所有的汇聚结果中,所提算法的汇聚数据正确率始终在90%以上,均高于自适应汇聚路由判定算法、网络流量数据实时汇聚算法和基于集合聚类与ECMC 的数据汇聚方法,表明所提算法的汇聚精度高。因为所提算法通过模糊分簇阈值筛选机制,获取汇聚区域的簇头阈值,使节点处于最佳通信半径中,有效提高了多源异质传感器数据汇聚精度。
4 结束语
此次提出能耗均衡约束下的多源异质传感器数据动态汇聚算法。该算法首先构建能耗均衡约束模型,其次采用监督判别投影算法对多源异质数据进行降维处理,最后采用模糊分簇阈值筛选算法对数据实行汇聚处理,完成多源异质传感器数据的动态汇聚。仿真结果表明,所提算法的隐私泄露率在25%左右,通信开销始终低于46 MB,汇聚数据正确率在90%以上,该算法在提高多源异质传感器数据隐私保护效果与数据正确率的同时,一定程度上也降低了算法的通信开销,为数据汇聚技术研究提供了参考。