基于信源编码的数据融合隐私保护技术
2016-02-26胡涛李峤周宇
胡涛 李峤 周宇
【摘 要】针对数据融合过程的隐私保护应用需求,基于信源编码理论将数据模值编码与数据融合的过程相结合,设计了一种具有隐私保护能力的融合方法。该方法根据信源编码思想,从数据编码的角度实现深层次数据融合。理论分析和实验结果表明,该算法能够在较低开销的前提下实现数据融合隐私保护。
【关键词】无线传感器网络;数据融合;隐私保护;信源编码
0 引言
无线传感器网络中数据融合过程的隐私保护技术按照其实现数据隐藏的原理,主要可以分为两大类:即通过数据形式变换实现隐私保护和和通过加密技术实现的隐私保护。为了实现精确感知的需求和对单个节点失效的鲁棒性,WSN往往需要进行密集部署,这使得感知数据间存在丰富的空间相关性和冗余性。由于无线传感器网络的能耗主要集中在数据传输上且与数据发送量成正比,所以这些冗余信息将会造成巨大的能量浪费。分布式信源编码为消除这种相关性提供了很好的思路,它可以使得各相关信源在不用相互通信的情况下进行独立编码,并获得与相互通信同样的数据压缩性能,目前在WSN领域中得到了广泛的研究。由于分布式信源编码的特征,该技术可以很好的和数据融合结合起来,从数据编码的角度实现深层次数据融合。
1 理论基础与研究现状
1973年提出的Slepian-Wolf理论是分布式信源编码的理论基础,本文首先对该理论进行简要介绍,然后对基于该理论的模值编码进行阐述,为本文所提的基于信源编码的隐私保护方法提供理论依据。
根据Slepian-Wolf编码理论,对两个互相关的信号源X,Y进行编码,如果X和Y知道彼此的互相关信息,那么X就可以在不需要事先知道Y的情况下获得与事先知道Y一样的编码效率,即图1所示的两种编码方案的效果是一样的。但是独立编解码方案不需要与Y进行通信,因此可以减少通信能耗,这一点对于能量受限的无线传感器网络来说是十分有利的。
在Slepian-Wolf编码理论中将Y称作边信息。对X和Y进行独立编码,并在译码端进行无失真地联合译码,需要满足以下条件:对两个互相关的信号源X,Y进行编码,如果X和Y知道彼此的互相关信息,比如联合概率分布p(x,y),那么X就可以在不需要事先知道Y的情况下获得与事先知道Y一样的编码效率。但是独立编解码方案不需要与Y进行通信,不但具有更大的灵活性,同时还可以减少通信能耗,保护数据的隐私性。在Slepian-Wolf编码理论中将Y称作边信息。对X和Y进行独立编码,并在译码端进行无失真地联合译码,需要满足:
其中Rx,Ry表示X和Y的编码速率,H(XY),H(YX)分别表示对应的条件熵,H(X,Y)表示两者的联合熵。
Slepian-Wolf编码理论针对两个相关信源,主要方法包括伴随式的分布式信源编码,Turbo码,LDPC码方法,模值方法等。
2 基于信源编码的数据融合技术
考虑到无线传感器网络的应用场景,其数据相关性往往表现为其差值在一定范围内且监测值连续,因此,本文中采用模值编码方式实现数据融合过程的数据表示。在模式编码中,首先作如下约定:设网络节点监测的数据范围为[mins,maxs],数据精度表示为Δ(这一数值将由实际应用来确定),数据编码的比特数为n,则可以得到监测的数据样本集合如下:
算法流程如下:
Step1:构建簇型结构
首先需要构建一个分簇结构,由于该类型算法较多,其中LEACH算法应用最为广泛,本文也采用该算法进行簇结构的建立,簇头节点表示为CH,簇内成员节点表示为Cn。
Step2:编码
簇头节点根据当前测量结果向簇内节点广播边信息Y。根据模值编码技术,若信源X与边信息Y之间的差值小于2k-1Δ(0≤k≤n),则X 可以以k bit 进行编码以实现数据压缩的目的,即:
f(X)=index(X)mod2k (1)
其中f(X)表示X编码后的信息比特,index(X)=(X-min s)/Δ。由此可知,由于节点在传输数据前首先将其进行编码表示,因此可以实现对数据真实数值的隐藏,对于恶意节点来说,由于并不知道其编码过程和边信息的数值,因此即使恶意节点获得了该编码结果也无法得到隐私数据。
Step3:融合
首先,需要在簇头节点进行译码操作:
i=‖Y-ri‖(2)
其中i表示译码后的结果,S表示由f(X)给出的陪集,ri表示陪集内的元素。
根据译码结果,簇头节点进行融合操作,本文以加法融合为例,融合过程可表示如下:
y=i(3)
簇头节点在获得中间的融合结果后,再将其按照基站节点发给其的边信息进行编码,编码过程如公式(1),并在编码后将数据上传至基站节点,基站节点按照公式(2)解码后即可获得最终的融合结果。
3 算法性能分析
首先,在算法的复杂度方面,模值编码的编码过程较为简单,仅仅为数值计算,文献对其算法复杂度进行了测算,编码过程的计算复杂度较低仅为0(1)。译码过程的复杂度则与与陪集的元素个数成正比,这是因为需要在陪集中进行搜索对应的数值。
其次,数据通信量分析。现有的数据融合隐私保护算法大多基本可以分为三种类型,加密,分片或者安全多方计算,我们分别选择其中的代表性方案SA算法[1],SMART算法[2]和iPDA算法进行性能的比较。
对于SA算法,由于该算法中需要传输节点的ID用以检验数据的完整性,总的通信量为4n+ID,其中n为网络中传感器节点的个数,为了方便比较本文忽略ID所需要通信开销;SMART算法主要依靠对隐私数据进行分片传输来达到保护隐私的目的,因此数据传输量主要取决于其数据的分片情况,假设分片个数为s,则总共需要传输的数据量应该为s*n。iPDA算法中,由于通过采用安全多方计算的方式来对信息的隐私性进行保护,网络中的通信量为3(1-pc)n+6pc*n,其中pc为成为簇头的概率。而本文算法的数据通信量由于进行了信源编码的压缩,仅为pd*n,其中pd为压缩的比例。比较结果如图2所示。
4 总结与展望
借助于网络数据的相关性,本文将信源相关编码技术引入数据融合隐私保护方案,重点研究了如何在数据融合场景下实现基于模值的编码和译码。在数据传递过程中不需要参考信息数值的情况下,节点对采集到的隐私数据进行独立编码并传输,从而实现了数据融合过程的隐私保护。
【参考文献】
[1]HU Lingxuan, EVANS D. Secure aggregation for wireless networks[C].Proceeding of the 2003 Symposium on Applications and the Internet Workshops, Washington, 2011:384-391.
[2]Wenbo He, Xue Liu, Nguyen H, and Nahrstedt K. A Cluster-based Protocol to Enforce Integrity and Preserve Privacy in Data Aggregation[C].Proceedings of the 29th IEEE International Conference on Distributed Computing Systems Workshops, 2009:14-19.
[责任编辑:王楠]