雾辅助的隐私保护分层多维数据聚合研究

2022-07-06李雅兰陈思光

小型微型计算机系统 2022年7期

李雅兰，王倩，袁可，陈思光，2

1 (南京邮电大学江苏省通信与网络技术工程研究中心，南京 210003) 2(南京邮电大学江苏省宽带无线通信和物联网重点实验室，南京 210003)

1 引言

工业物联网(Industrial Internet of Thing，IIoT)，通常指将智能控制器和传感器等其他智能终端合理嵌入至传统的工业系统中，用于实现工业系统的智慧化[1]，可有效减少人工错误并提高工业制造的效率和安全性.感知设备在工业环境收集有关设备运行状态、操作和环境等信息，以实现实时监控和交互[2].由于IIoT设备本身的能源和存储空间受到严格限制，为实现对系统状态的实时评估和设备故障的预判等功能，传统IIoT会以一种集中的方式存储和分析感知数据，例如，将数据传输到云中心处理.但由于收集数据较为频繁，容易泄露隐私性相关信息，因此，IIoT隐私数据的安全问题亟待解决.解决以上问题的方案主要有两种方式：1)隐藏身份信息，例如，使用匿名技术隐藏设备真实身份[3，4]；2)数据聚合技术与加密技术，通过将所有设备的数据聚合成统计值(数据的和、乘积等)[5，6]的方式发送给数据接收者，使其无法获知详细的原始数据.

在以往的隐私数据聚合方案中，网关负责加密数据的解密以及聚合，并将聚合后的一维数据转发给数据中心.显然，在这种传统模式下，攻击者可能会通过入侵本地网关中的数据库来获取数据，隐私数据将会更轻易地被泄露出去.针对此类攻击，目前一些一维数据聚合方案利用同态加密技术来实现隐私保护[7]，例如，文献[8-11]，主要是对密文执行加和乘操作，但是该类方案因其消耗计算资源量巨大而不适用于实际应用场景.

实际上，设备需要收集并上传多维数据信息(即多种类型的数据，例如：温度、湿度、位置信息等)，以满足不同应用的细粒度分析需求，通过对资源进行更合理分配和更精准的控制，实现能耗和维护费用的降低.然而，以上方案并不适用于多维数据，因为单独处理各维度的数据既效率低又成本高.为实现高效的多维数据聚合，近期一些方案被相继提出，例如文献[12-16]针对二维至多维数据聚合提出了相应的解决措施，在一定程度上实现了数据的隐私保护.

然而，网关作为上述文献的数据聚合承担者，无法满足当前数据量巨大的IIoT系统的资源需求，为有效地解决资源受限问题，雾计算应运而生，它能够在网络边缘高效处理或预处理大规模数据[17].因此，若通过雾设备来收集数据并聚合后发送给数据中心，形成雾辅助的新型IIoT架构，则会更加适应于大数据背景下的IIoT系统.近年来，利用雾计算提升隐私保护数据聚合效率的方案广受关注，如文献[18-21]，但它们也只支持一维(即单一类型)数据聚合，而无法对多种类型数据执行聚合操作.

为解决上述问题，本文提出了一种雾辅助的隐私保护分层多维数据聚合机制，通过融合霍纳法则、同态加密算法、椭圆曲线签名加密算法以及批量验证技术，进一步提高数据处理效率并减少传输资源的消耗.具体地，构建了一个雾辅助分层聚合架构，本地雾计算资源得到了充分利用，且隐私数据泄露的风险也大大降低.同时，同态加密技术与霍纳法则进行有机结合，实现了多区域多维异构数据的隐私保护聚合，以较低成本满足不同粒度数据的分析需求.此外，基于轻量级的椭圆曲线算法(Elliptic Curve Cryptography，ECC)的签名认证机制，其数字签名过程耗时较短，避免了执行双线性配对等耗时操作，且安全性较高，再融合高效率的批量验证技术，形成了一个安全高效的认证机制，保障了数据完整性和真实性.

2 网络模型

2.1 系统模型

本文设计了一个分层的多维数据聚合系统模型，如图1所示.在多维数据收集层中有v个工业区(Industrial Area，IA)，每个具备有效身份的收集设备(Device)负责对r维(r种不同类型)数据进行实时记录，并周期性的依据霍纳法则对r维数据执行聚合操作并对聚合数据进行加密和签名，之后，所有Device同时将加密数据通过无线信道上传给相应的雾设备(Fog Device，FD).雾层包含v个FD，主要负责数据的认证和聚合，并将聚合报告上传给云数据中心(Cloud Data Center，CDC).云层中仅存在一个CDC，其主要功能有：系统参数的初始设置、身份注册、多区域数据聚合与解析.最终，不同IIoT应用根据各自需求获取不同粒度的结果.

图1 系统模型Fig.1 System model

2.2 安全模型

通常，CDC和FD被认为是“诚实而好奇”的系统角色，即使它们会按照已有的安全协议诚实地执行任务，但并不代表它们对某些隐私信息没有好奇心.另外，由于各层实体之间的传输信道存在安全隐患，来自系统外部的恶意攻击者通常会发起窃听、身份伪装、延迟攻击和数据篡改等攻击.由以上分析可知，恶意攻击者主要包括：在通信链路中发起攻击的外部攻击者、在雾或云层发起未授权操作的内部攻击者.则安全的系统应满足5点要求：机密性、可验证性、完整性、隐私保护、可抗攻击性.

3 雾辅助的隐私保护分层多维数据聚合机制

如图2所示，本文所提出的雾辅助的隐私保护多维数据分层聚合机制包括5个阶段：系统初始设置、身份注册、加密报告的生成、单区域多维数据聚合、多区域多维数据聚合和解析.假设多维数据收集层由v(v≥2) 个工业区IAi，i=1，2，…，v组成.第i个工业区域可容纳ni个设备，且容纳上限为n(n>>v且为一个大整数)，即ni≤n.同时，设备dik收集r(r≥2)维数据(mik，1，mik，2，…，mik，j)，j=1，2，…，r且每个维度的数据值小于一个常数D，其中，dik表示第i个工业区的第k(k=1，2，…，ni)个设备.

图2 方案的5个阶段Fig.2 Five phases of the scheme

3.1 系统参数初始化

3.2 身份注册

所有Device和FD在加入系统前将在CDC中进行身份注册，具体流程：

CDC对接收到的身份信息的真实性进行验证，即：

Rik=sikP-h(IDik，Rik，Xik)Xik

(1)

若成立，则此身份真实有效，CDC发布该注册成功信息.

2)雾设备注册：与收集设备注册过程类似，雾设备FDi，i=1，2，…，v的知识签名定义为(Ri，si)，FDi将身份信息通过秘密信道发送给CDC，CDC验证身份有效性：

Ri=siP-h(IDi，Ri，Xi)Xi

(2)

若上式正确，则此身份信息真实有效，CDC在系统中发布该身份信息.

3.3 加密报告的生成

每个收集设备dik实时收集r维数据，在一定收集周期结束之后在再对收集数据执行加密和签名，形成一个加密报告通过无线信道传送给相应的FD，具体步骤如下：

Step1.收集设备dik对其收集的r维数据进行整合，即构造以下多项式：

(3)

(4)

Sik=sikP

(5)

Vik=sik+xikh(cik，IDik，Sik，Xik，Ts)

(6)

其中Ts表示当前的时间戳.

Step4.最后，dik生成加密报告REik=(cik，IDik，Sik，Vik，Ts)传送给相应的雾设备FDi.

3.4 多维数据的聚合(单区域)

在Ts时刻，雾设备FDi接收到相应工业区IAi的ni个报告REik，k=1，2，…，ni，FDi，首先，设定接收报告的有效响应时隙，并检验时间戳Ts的时效性，即检验Ts是否在该有效时隙内，以防止攻击者发起延迟攻击，然后，对ni个报告的签名进行验证：

VikP=Sik+h(cik，IDik，Sik，Xik，Ts)Xik

(7)

为缩短验证时间，需要提高FD的处理效率，本文在FDi采用小指数验证技术[22]，对ni个报告同时进行批量验证，即，FDi随机选取一组小数β1，β2，…，βni∈[1，2ni]，通过计算公式 (8)，即可实现同时对ni个报告的签名验证.

(8)

若上式成立，则证明报告来自合法的Device，FDi接收报告，否则拒绝接收.

ni个报告上的签名验证成功后，若报告数量ni=n，FDi直接聚合ni个密文.若ni

(9)

(10)

Si=siP

(11)

Vi=si+xih(ci，IDi，Si，Xi，Ts)

(12)

最后，FDi生成区域聚合报告SigREi=(ci，IDi，Sik，Vi，Ts)并发送给CDC.

3.5 多维数据的聚合与解析(多区域)

1)多区域聚合：接收到v个区域聚合报告后，CDC先检查Ts是否在有效时隙内，再随机选取一组小数α1，α2，…，αv∈[1，2v]，根据公式(13)批量验证v个区域聚合报告签名的有效性

(13)

若上式成立，则证明这些报告均合法.接下来，CDC聚合v个有效的聚合密文sig_ci，i=1，2，…，v，获得多区域聚合密文：

(14)

2)多维数据解析：基于Pailler解密算法和霍纳法则CDC执行解密和解析操作，得到数据不同粒度的总消耗值，具体步骤如下：

Step1.multi_c的分析和解密：

(15)

M=l(multi_cλmodN2)υ·modN

(16)

Step2.数据解析：

算法1.霍纳法则解析多项式.

输入：P和R；

输出：多项式系数(∂1，∂2，…，∂r).

2.forj=1 tordo

3.∂j=Yj-1modR；

5.end for

6.return(∂1，∂2，…，∂r).

若在算法1中输入M和r2，则CDC可得到各个工业区的多维聚合明文M1，M2，…，Mv.若再输入Mi，i=1，2，…，v和r1，CDC即可得到第i个工业区第j个维度的数据总和Mi1，Mi2，…，Mir.完整的解析过程将执行v+1次该算法，则总计算复杂度为O(v)+O(r).本文方案中的区域数v和维度r均不是很大的数，因此可将计算复杂度记为O(1).

4 安全和性能分析

4.1 安全特性分析

1)隐私保护和机密性.经证实，基于Diffie-Hellman 难题，Paillier算法能够有效抵抗选择明文攻击[23].此外，加密时所选用的φik是一个不确定的随机生成数，可有效地防御字典攻击.由此可知，本方案中数据的安全性与机密性得到了保障.不仅如此，本文方案中，FD在无需为其分配解密秘钥的情况下，基于密文的同态性使用聚合操作，防止隐私数据被“好奇的”FD获取.在云层，CDC仍无法获知某个设备的原始隐私信息，而仅能解析出每个工业区中单一维度的数据和.

2)可验证性和完整性.本文采用基于ECC的加密算法，攻击者就很难在解决了哈希函数以及椭圆曲线离散对数这两大难题之后再伪造签名.此外，依据公式(8)和公式(13)，攻击者对密文cik和ci的任何篡改均可被FD和CDC验证.因此，本方案有效保证了密文完整性和可验证性.

3)可抵抗延迟攻击.在收集设备dik的加密报告和雾设备FDi的区域聚合报告内都设置了一个时间戳Ts，并用作生成签名的一部分，CDC和FDi能够通过检查Ts抵抗延迟攻击.

4.2 性能分析

本节将从以下两个角度对所提出方案进行性能分析：系统中各实体(Device，FD和CDC)处的计算开销和通信开销，并与文献[24]中的多子集多维数据聚合隐私保护(Multi-subset Multidimensional Data Aggregation Privacy Protection，MMDAPP)和文献[25]中的高效隐私保护需求响应(Efficient Privacy-Preserving Demand Response，EPPDR)方案进行对比.MMDAPP方案是利用超递增序列实现多子集多维数据聚合，而EPPDR方案是一种一维数据多区域聚合方案.假设有r维数据，MMDAPP和EPPDR方案中每个住户区包含n个用户，本方案第i个工业区包含ni(ni≤n)个收集设备，共有v个工业区域.

4.2.1 计算开销

1)Device的计算开销比较：如表1所示，本方案中Device是我们在加密前先将r(r≥1)维的数据首先转换成为一维形式，生成加密报告的时间不受数据维度影响.而与本方案相似的MMDAPP方案的计算量远高于本方案，且随维度增长.另外，EPPDR方案需要因为r维数据而生成多个密文，其开销远高于其他方案.图3描绘了3个方案的计算开销随数据维度的变化曲线，明显地，本文所提方案在Device处的计算开销最低且不受维数的影响.

表1 计算复杂度Table 1 Computational complexity

图3 Device计算开销比较Fig.3 Computation cost comparison of Device

2)FD的计算开销比较：在本文所提方案中，FDi处的计算开销中(2n+1)Tsm用于对ni个加密报告的批量验证，而(n-ni)Te用于构造n-ni个密文.当n=ni时，本方案中FDi的计算开销为(2n+1)Tsm，由上述实验结果可知，Tsm远小于Tp，因此，本文所提方案的计算时间远小于MMDAPP和EPPDR.当ni

A=((n-ni)Te+(2n+1)Tsm)-((n+1)TP+Tm)

(17)

将时间带入上式得A<0，即本文方案仍优于其他两个方案.

图4 CDC计算开销比较Fig.4 Computation cost comparison of CDC

3)CDC的计算开销比较：从表1可以看出，本文提出方案在CDC的计算开销中(2v+1)Tsm表示批量验证v个区域聚合报告的计算开销，Te用于解密多区域聚合密文.然而，在其他两方案中，尽管同样采用批量验证来加快验证的效率，但两者的计算量远高于本机制.由图4可知，相较于其余两种方案，本方案在CDC处的计算开销显著降低.

4.2.2 通信开销

为保证对比过程的公平性，假设这3个方案包括的区域数量均为v个，且每个区域所能容纳设备/用户数量为n.

在本文方案中，通信开销包括两部分，即Device与FD之间的通信开销和FD与CDC之间的通信开销.在加密数据时，3个方案均采用Paillier算法，设置参数|N|=1024bits，则Paillier密文的长度为2048bits.本方案中采用了基于ECC的加密签名，令|G|=160bits，则签名长度为160+160=320bits，MMDAPP中Boneh-Lynn-Shacham (BLS)短签名长度为160bits，EPPDR种基于身份的签名长度同样为320bits.此外，身份和时间戳等信息的长度假设均为32bits.

在Device和FD通信过程中，本方案Device发送单个报告大小是LRE=2432bits，FD接收来自数据收集层n个设备的报告，则Device与FD之间的总通信量为n·2432bits.在EPPDR方案中，User加密一维数据后形成报告，其大小为LEPP=2464bits，若为r维数据，则报告大小将增加至LEPP=(2048·r+416)bits，相应的Device与FD之间的通信开销增加至n·(2048·r+416)bits，远远高于本文方案.在MMDAPP方案中，User生成的报告大小为LMMD=2304bits，Device与FD之间的总通信开销为n·2304bits.图5包括3种方案通信开销随设备数量和数据维度的变化图，从通信开销的增长幅度来看，本文所提方案明显低于EPPDR方案，与MMDAPP方案近似.

图5 Device与FD之间的通信开销比较Fig.5 Comparison of communication cost between Device & FD

从3种方案在通信和计算开销两方面的比较可知，相比于其他两种方案，本文所提方案显著降低了计算成本.尽管通信资源的消耗并不比MMDAPP少，但在对时延敏感的IIoT系统中，时延才是影响实时性的决定因素.因此，本文所提方案在计算开销上的优势更为显著.

5 结论

为了实现IIoT系统的隐私数据保护，本文基于雾计算提出了一个分层的高效多维数据聚合方案.该方案通过融合霍纳法则、同态加密技术、基于轻量级的ECC签名认证算法以及批量认证技术有效提升了系统的隐私性和解析的灵活性，以较低计算开销提升了系统的隐私性和解析的灵活性.最后，通过安全分析证明本文方案可以较好地满足安全需求，仿真实验进一步证明了本文方案在计算成本上的优势.