基于数据分片的WSN安全数据融合方案优化

2020-08-24赵子君

沈阳化工大学学报 2020年2期

王军，陈羽，田鹍，赵子君

(沈阳化工大学计算机科学与技术学院，辽宁沈阳 110142)

随着物联网技术在各行各业的应用与发展，无线传感器网络作为物联网的重要组成部分也在飞速发展，其由大量廉价的微型无线传感器节点组成，通过无线通信方式形成多跳自组织网络系统.大量传感器节点通过飞机投放、人工播撒等方式随机地布置在各种各样的野外环境中(如一些人类无法长时间停留的恶劣环境)收集目标信息，并进行分析和处理.如今，无线传感器网络已广泛应用于环境监测、军事、智能交通、物流跟踪和智能医疗等众多领域，并取得了巨大成就[1-2].然而，在实际应用中传感器节点自身还有很多弊端，暂时无法解决.如计算能力弱、存储容量低和能源供给不足等缺点，且节点之间都是通过无线信道相互通信，攻击者可以很轻易地通过无线信道窃听或者攻击节点之间的无线通信，修改传输的原始数据，从而导致最终的结果出现偏差.此外，由于传感器节点是被放置在无人值守的环境中，容易被攻击者捕获，攻击者甚至可以在捕获节点后窃取密钥或者伪造传感器节点继而破坏整个无线传感器网络，严重威胁到数据的隐私保护性能[3-4].因此，对现有的WSN安全数据融合方案的优化变得十分重要.

数据融合技术是无线传感器网络的关键技术之一，它能够去除在采集数据过程产生的冗余信息，有效地减少数据传输量，从而提高整个无线传感器网络的能量使用率和带宽利用率[5-7].为了提高数据融合的安全性，研究者们提出了一系列安全数据融合方案[8-12].例如：通过密钥分配的方法提高数据融合的隐私保护性；Castelluccia等提出的同态加密算法[13]在不同程度上保证了数据融合的安全性；He等提出了SMART(slice-mix-aggregate)算法[14]，该方案采用了数据分割技术，将采集的原始数据分片后发送到BS(base station)节点，有效地增强了数据的隐私保护性，但由于采用了分片发送策略，导致数据在传输途中发生碰撞的概率大大上升，节点消耗的能量也过高，不仅降低了网络生命周期，还使SMART算法的数据融合精确度大大下降.

研究发现，SMART算法隐私保护性虽然高效可靠，但是其存在数据融合精度低、能耗高等缺点.本文针对以上情况进行探讨研究，提出了一种基于预测模型的安全数据融合算法P-SMART，通过在基站处设置预测模型预测感知节点的未来数值，并用这些数值来替代在传输过程中丢失的数据分片.同时采用随机密钥分配对数据融合进行加密和解密，通过从密钥池中随机提取出少量密钥构成密钥环，当密钥池足够大时，该机制安全性越强.所以与SMART相比，P-SMART算法提高了数据融合精度并且减少数据通信量，降低能耗，延长网络生命周期，还降低了节点间数据传输的延迟.

1 SMART安全数据融合算法

SMART安全数据融合算法与传统的加密技术有很大区别，通过采用数据分割混合技术将采集到的数据进行分片分散发送，最终在BS节点汇聚重组.该算法数据隐私保护机制的安全性能和实用性均在仿真实验中得到了有效验证，起到很好的隐私安全保护作用.算法主要分为3个阶段:分割(Slice)阶段、混合(Mix)阶段和融合(Aggregate)阶段.

(1) 在Slice阶段：每个节点将采集的数据分割为J(J≥3)个分片，J为系统预设值.节点保留其中一个分片，将其余J-1个分片加密之后从邻居节点集Si中随机选取节点发送.

(2) 在Mix阶段：邻居节点将接收到的分片解密之后与其保留的分片混合成一个新的数据包.由于节点对原始采集数据进行的是基于数值的分割，因此，通过加法性融合函数运算生成的融合数据不会受到分片混合因素的干扰.

(3) 在Aggregate阶段：节点将混合而成的数据包加密之后发送给上级融合节点.上级融合节点将对其存储的采集数据与接收到的各个子节点所发送的混合数据解密之后进行融合运算，生成融合数据，加密之后继续向其上级节点传送，直至所有融合数据到达基站，最终在基站对所有数据解密整合，得到真实数据[15-16].

SMART算法的数据隐私保护性能固然极佳，但在其他方面还是存在着一些弊端，影响了其实际性能.首先，在Slice阶段产生的大量分片分发行为将导致节点间的数据通信量大大上升，使节点的能量消耗很大，进而使得节点过早地死亡.同时，由于数据通信量过大导致数据传输过程中产生的碰撞、延迟、错包等情况，将会随着数据通信量的增大而增大，并最终会影响到汇聚至BS节点数据的准确性和数据融合效率.

2 SMART算法的改进

2.1 P-SMART算法基本思想

由于感知节点在Slice阶段产生大量分片分散发送，使得数据传输过程中产生碰撞的概率大大增加，数据分片丢失严重，导致数据融合精度低；当分片由于碰撞导致丢失后，会重传丢失分片，将导致节点能耗和延迟增加.本文将预测模型的思想融入到SMART算法中，提出了P-SMART安全数据融合算法，在BS节点处加入预测模型，预测模型使用一阶自回归算法结合历史采集数据来预测感知节点的未来数值(详细过程见3.2章节)，并将预测的未来数值按照感知节点分片规则进行分片，并保留在本地.当BS节点对接收到的融合数据进行解密整合时，若发现有数据分片丢失，就使用预测数值分片来代替传输过程中丢失的分片，从而提高数据融合精度；由于通过预测数值替代丢失的分片，所以减少Slice阶段丢失分片的重传次数并不会影响数据的融合精度，并且可以减少节点能耗，降低网络中数据传输的延迟，将减少Slice阶段丢失分片的重传次数设置为1和2次(原SMART算法丢失分片的重传次数为3次、4次、5次).

2.2 预测模型介绍

在BS节点中设置预测模型[17-19]，通过该预测模型预测感知节点的未来数值，并对未来数值按规则进行分片，用其代替丢失的分片.

(1)

2.3 算法的实施步骤

文中无线传感器网络被抽象为连通图G(V，E)，其中：V表示传感器节点集，|V|=N表示传感器节点数量；E代表传感器节点的通信链路.

定义数据融合函数为

y(t)=f[d1(t)+d2(t)+…+dN(t)].

(2)

其中：di(t)(i=1,2,…,N)表示节点i在t时刻采集的数据(如图1所示).有很多典型数据融合函数，如count、average、max、min等都可以化简为sum函数，因此本文以sum函数为研究对象[20]，记

图1 数据融合sum函数

(3)

2.3.1 密钥分配阶段

采用与SMART算法相同的随机密钥分配方法对融合的数据进行加密与解密.该密钥分配机制分为3步：

(1) 产生一个有K个密钥的密钥池，并从密钥池中随机选取k个密钥.

(2) 各个节点通过互发信息确定哪些邻居节点和自己拥有相同的密钥.拥有相同密钥(记为ki)的两个节点间共享一条安全链路.

(3) 对于没有相同密钥的两个邻居节点，可以建立一条通过多跳链接形成的安全链路.

2.3.2 建立数据融合树阶段

根据TAG[16]算法建立数据融合树.在构建融合树过程中，基站往周围节点发送“Hello”数据包来招募没有父节点的节点成为基站的子节点.若该节点是孤立节点，则其收到“Hello”数据包后向基站发送“Join_Request”数据包来表示同意成为基站子节点；若该节点不是孤立节点已有父节点，则不用回复；若一个孤立节点在同一时间收到很多“Hello”数据包，则它将在大量招募者中遴选出一个招募者发送“Join_Request”来表示愿意成为其子节点，招募者在收到“Join_Request”数据包后回复“Join_Accept”数据包来确认其成为招募者的子节点.已有父节点的子节点继续重复上述招募操作，直至所有节点都加入融合树.构建完成的融合树如图2所示.

图2 数据融合树

2.3.3 分片数据串通阶段

(1) Slice阶段：感知节点采集数据后，将数据分割成J片(J≥3)，一份分片保留本地，其余J-1分片使用密钥加密后发送至邻居节点.并且当数据发生碰撞后，严格控制其重传次数.

由于分片的大量发送使数据碰撞的概率大大上升，节点的实际分片接收率只有30 %左右，若发送分片的节点没有接收到对应邻居节点的ACK信息，会向该邻居节点重传数据分片，直至接收到ACK信息为止或者直至Mix阶段等待时间结束.然而，考虑到Mix阶段等待时间较短，若时间过长，则会影响整个网络的延时，所以重传次数较少(本文设置为1次和2次，观察其仿真结果).

(2) Mix阶段：邻居节点等待一段时间，将接收到的数据分片与本地保留的分片进行混合运算，将生成的数据包加密之后上传至父节点.

(3) Aggregation阶段：所有节点上传并且融合数据.

2.3.4 预测模型运行阶段

使用一阶自回归预测算法预测故宫博物院的温度(见图3)，以故宫博物院环境监测网络采集的3个月温度数据作为样本，模拟传感器节点的工作流程，并采用阈值误差为0.50 ℃(预测成功率达81 %)的数据作为仿真实验中的温度数据.

图3 一阶自回归预测算法

(1) 在预测模型运行的初始阶段，由于BS节点没有历史数据，无法进行预测运算，感知节点需要采集周围环境信息，并将这些数据发送给BS节点，作为BS节点预测模型的历史数据.

(2) 当BS节点的预测模型采集足够的历史数据后，开始进行预测.从感知节点传送回BS节点的数据包被解密之后，将数据分片进行组合，复原出原始的感知数据.当BS节点发现复原的感知数据有分片丢失，即使用预测模型所预测的数据分片替代在传输过程中丢失的数据分片，弥补碰撞造成的损失.

(4)

(3) 将感知节点传送给BS节点的数据分片复原后，与预测模型的预测值进行比较：若其误差超出阈值，则使用真实值更新历史数据，确保预测模型的精准性；若其误差低于阈值，则不更新历史数据.

P-SMART算法具体流程如图4所示.

图4 P-SMART算法流程

3 仿真结果与分析

使用TinyOS中内嵌的Simulator(TOSSIM)作为仿真工具，分别对P-SMART算法、SMART[14]算法以及ESPART[21]算法进行仿真实验.网络环境部署如下：400 m×400 m的矩形区域，区域内随机分布600个传感器节点，背景噪音为-105 dBm，高斯白噪音4 dB.仿真实验包括数据融合精度、数据通信量和传输延迟[21].

3.1 数据融合精度

数据融合精度是体现安全数据融合算法性能的重要指标之一，其定义为实际融合结果与理论融合结果之比：

(5)

图5 数据融合精确度对比

由图5可知：随着时间的不断变化，3种算法的融合精度都在不断提高.ESPART算法融合精度上升最快，在10 s时就达到78.5 %，15 s之后数据融合精度趋于平缓，最终保持在89.8 %左右.SMART算法由于在Slice阶段生成了大量的数据切片，在传输过程中产生碰撞、延迟、无码等情况的概率大大上升，使其融合精度上升速度最低，在10 s时才达到约36.8 %的数据融合精度，同时其融合精度也是最低的，只达到42.5 %.在P-SMART算法中，当数据只传输1次(P-SMART=1)时，在10 s时数据融合精度达到66.2 %，15 s之后数据融合精度趋于稳定，最终的数据融合精度达到80 %左右，远高于SMART算法；当数据分片传输2次(P-SMART=2)时，即发生碰撞的分片重新传输1次，其数据融合精度在15 s时就超过了TAG算法，最终数据融合精度达到91.6 %，高于ESPART算法的89.8 %.由此可以看出P-SMART算法的融合精度要远高于SMART算法，并且在数据分片传输2次时，数据融合精度超过ESPART算法的数据融合精度.

3.2 数据通信量

传感器节点消耗的能量主要用于节点之间发送数据，节点的网络通信开销越低，节点消耗的能量越少，其工作寿命越长久，能够延长整个网络的生命周期.减少数据通信量是延长网络生命周期的关键因素之一.通过仿真对SMART算法、ESPART算法和P-SMART算法的数据通信量进行对比.

SMART算法中，分片发送占主要数据通信量.在Slice阶段，分片的大量发送使数据碰撞的概率大大上升，发生碰撞时则重传分片直至传输成功或者Mix阶段等待时间结束.考虑到Mix阶段等待时间较短，若等待时间过长，则会影响整个网络的延时，故本文只考虑分片传输最大次数为2次，即分片重传最大次数为1次.

从图6中可以看到：P-SMART=1(数据分片只传输1次)的数据通信量仅多于ESPART，在1200个标准单位，这是因为数据分片只需要发送1次，不需考虑分片是否发送成功，预测模型会弥补碰撞造成的分片损失；P-SMART=2的分片开销在2000个标准单位上下浮动，其原因是在Slice阶段分片传输过程中的碰撞率过高(达到70 %)，导致传输失败的分片重新传输，从而产生很高的分片通信开销；而SMART算法的通信数据量在2500个标准单位上下浮动，其原因是发送失败的数据分片会不断发送，直至发送成功或者等待时间结束.P-SMART算法采用预测模型弥补丢失数据分片，可以减少分片重传次数而不影响数据融合精度，从而减少网络数据通信量，降低节点能耗.

图6 分片通信开销对比

3.3 时间延迟

时间延迟是衡量数据聚集性能的一个重要指标.低延迟的数据聚集方案能够提高整个传感器网络的实时性能.P-SMART算法通过减少发生碰撞后的分片重传次数从而降低时间延迟，提高数据聚集性能，从而提高整个传感器网络的实时性.

从图7中可以看到：在数据聚集过程中，P-SMART=1算法的数据聚集耗时最低，大约在100个时间片左右波动；P-SMART=2的数据聚集时间约在105个时间片左右波动；SMART算法的数据聚集时间最长，需要大概120个时间片的时间才能完成数据聚集过程；ESPART的数据聚集时间约在110个时间片左右波动.可以看出P-SMART算法能够大大减少数据聚集的时间，使观察者能够及时地获得监测区域所采集的数据.

图7 时间延迟对比

4 结束语

WSN的安全问题日益严重，层出不穷的攻击手段使无线传感器网络面临着日益严重的危害.本文在基于数据分片的WSN安全数据融合方案上进行优化，提出了一种基于预测模型的安全数据融合算法P-SMART.此方案通过建立预测模型来预测感知节点的未来数值来替代在传输过程中丢失的数据分片，从而弥补数据在传输过程中造成的碰撞损失.通过仿真的比较与分析，相比较于SMART方案，P-SMART方案通过用预测值替代丢失的分片，从而提高数据融合的精度，减少网络的通信开销，节省大量能耗，同时在一定程度上降低节点间数据传输的延迟，提高数据聚集时间，使网络的实时性更好.在未来的研究中，将进一步考虑建立预测准确度更高的预测模型，从而使数据融合精度更高，使网络通信开销更低.