区块链群智感知中基于隐私数据真值估计的激励机制
2022-10-14应臣浩夏福源斯雪明
应臣浩 夏福源 李 颉,2,3 斯雪明,2,3 骆 源,2,3
1(上海交通大学计算机科学与工程系 上海 200240) 2(上海交通大学区块链研究中心 上海 200240) 3(无锡市区块链高等研究中心 江苏无锡 214000)
随着大数据、人工智能技术、5G通信技术的高速发展,人们开始进入一个万物互联的物联网时代.根据华为《华为全球产业展望 GIV 2025》所述,到2025年,全球将有1 000亿台可以智能互联的设备,同时个人智能移动终端数量将达到400亿,智能家居及其他可穿戴设备数量将达到210亿,其中智能手机数量将达到80亿,平板和个人电脑数量将达到30亿,各类可穿戴设备数量将达到80亿.90%的人群将拥有个人智能助理,12%的家庭将享有智能服务机器人,20%的人将拥有10个以上的智能终端,平均每个人将拥有5个智能终端.各类数据利用率将剧增至80%,全球每年产生的数据将从2015年的8 ZB增长到1 800 ZB,而且全球人均日通信流量将达到4 GB,同时,人均日移动通信流量将达到1 GB.面对如此庞大的数据量,利用可持续和成本低廉的数据感知和收集方案变得越来越重要.群智感知系统[1-4]在此需求下应运而生,该系统利用人们拥有的无处不在的智能移动设备(如智能手机、可穿戴设备、智能车辆等)中嵌入的传感器(如照相机、陀螺仪等)来获取各种各样的数据[5-8],并将收集到的数据传给远程数据中心进行处理[9-11].
目前,群智感知系统已经成为了一种极具吸引力的大规模数据收集与分析的模式,为面积广袤、人流拥挤地区的信息收集提供了有效的解决方案[12-14].该系统强大而有效的数据收集能力使其成为现代智慧城市不可或缺的组成部分[15].此外,当前嵌入在可穿戴设备和智能手机中的各种传感器,使群智感知系统在学术界和工业界获得了相当大的关注,并被应用于环境监控[16]、智能交通[17]、智能车辆网络[18]、社交应用[19]、健康监测[20]以及其他许多方面[21-23].目前主流的群智感知系统有Mechanical Turk,Upwork,BikeNet和Uber等.
Fig.1 Blockchain-based mobile crowd sensing systems
尽管最近移动设备的普及推动了群智感知系统的大范围普及,但由于集中式平台和移动用户之间的大量数据处理操作和频繁的通信,此类系统会导致网络拥塞和严重延迟[24].不仅如此,由于移动用户参与群智感知系统会产生花费,所以需要设计激励机制来激励移动用户加入到该系统中[25],但是在该群智感知系统中,激励机制的实施依赖于一个可信的第三方,然而在实际应用中,这样一个可信第三方会带来许多新的问题:1)平台的功能可能会受到参与的移动用户或外部攻击者的损害[26];2)该平台可能不稳定[27];3)增加了大规模隐私泄露的风险[28].
最近,区块链作为一种分布式账本[29-31],以其去中心化、安全、透明、不可篡改等优越功能,被广泛应用于各种领域.同时,区块链中设置的智能合约[32]可以高效、准确、快捷地实现各种复杂的交易和功能[33-34].因此,本文利用区块链的智能合约,建立一类如图1所示的区块链群智感知系统中基于隐私保护数据真值估计的用户激励机制.该机制由数据真值估计模块和移动用户激励模块共同组成,该机制能够有效提高数据真值估计的准确度,并能够激励更多的移动用户参与到该系统中.
本文的主要贡献有3个方面:
1)机制设计.本文的第1个贡献是利用全同态加密算法构建了一类区块链群智感知系统中基于隐私保护数据真值估计的用户激励机制.该机制由数据真值估计模块(PATD)和参与者激励模块(PFPI)组成,能够实现高准确度的数据真值估计和参与者激励.据调研所知,本文尝试在全同态加密状态下实现具有数据真值估计功能的用户激励机制.与传统的机制不同,本文所提机制需要克服移动用户自私属性,提高数据真值估计的准确性,同时要保证全同态加密状态下机制运行的速率.从实验中可以看到,PATD的数据真值估计准确度相较于已有的方法提高了至少33%,而PFPI达到的社会福利相较于已有的方法提高了至少21%.同时,当系统具有128个数据感知任务时,整个系统的运行时间约为300 s,且通过不同的参数选择,还可以进一步加快机制运行速度,这表明该机制可被应用于实际的场景.
2)真值估计.本文的第2个贡献是实现了全同态加密状态下的数据真值估计,在保证真值估计的准确度和机制运行速度的同时,保护了用户的数据隐私.由于数据采集设备精确度不够等原因,用户收集的数据往往具有噪声,因此PATD对用户提交的含有噪声的数据的加密结果进行计算,并将解密后的计算结果作为相应数据真值的估计.因为所用的数据均是加密的,因此可以保护用户数据隐私,该性质在定理3中给出.同时,该机制还可以保证解密后的估计值具有较高的估计精度,可以从定理1中看到,估计误差呈指数衰减.就本文作者所知,CKKS是目前性能最好、计算速度最快的同态加密方案[35],且该方案被ZAMA所应用并进行了适当的改进[36].
3)用户激励.本文的第3个贡献是在全同态状态下保证数据真值估计准确性的同时实现了移动用户的激励.PFPI同样利用CKKS方案实现了竞价加密状态下用户激励,同时还从理论上证明了其满足真实性和个体合理性,并可以达到较高的社会福利,可以从定理2看到,PFPI在社会福利上达到了2的近似度,同时可以从定理4得到,PFPI可以保护用户竞价的隐私.
1 相关工作
目前,已有基于区块链的群智感知系统,它们利用区块链去中心化、安全、透明的性能构建了数据真值估计机制和移动用户激励机制,分别实现了高效的性能表现,但是这些机制都是分开来建立的,即只建立了数据真值估计机制或者只建立了移动用户激励机制.由这些机制组成的数据收集机制往往很难在实际的系统中实现较好的表现.接下来,我们将分别介绍基于区块链的数据真值估计机制和用户激励机制.
1.1 基于区块链的数据真值估计机制
Tian等人[37]提出了一个分布式数据真值估计机制,该机制可以有效地保护用户数据的隐私.该机制将数据融合和处理任务委托给分布式的参与者,通过利用区块链中的智能合约技术来执行和验证其行为.同时,由于区块链缺乏对链上数据保密性的支持,它们利用隐私保护解决方案防止数据泄露.此外,鉴于它们框架的去中心化性质,使得该框架还克服了单点故障的限制,增加了系统的稳定性.但是,该机制对数据隐私的保护是通过对原始数据加入高斯噪声实现的,由于无法消除高斯噪声对真值估计的影响,虽然在理论上可以证明其具有一定的真值估计准确度,但是在实际操作时往往无法达到很好的效果.
Wu等人[38]提出了一个基于区块链的数据真值估计机制,该机制可以提供可靠的数据真值.为了减轻恶意参与者的影响,该机制集成了一种具有隐私保护的感知验证协议.通过该协议,一些数据参与者可以在不知道任何数据的情况下协作验证真值估计结果.同时,该机制还可以通过经济激励,促使移动用户诚实地参与到群智感知系统中.但是该系统使用的是加法同态加密方案,由于该方案的局限性,使其无法保证数据真值估计的准确度.不仅如此,该机制在移动用户激励中,无法保护用户的隐私信息.
1.2 基于区块链的移动用户激励机制
Huang等人[39]通过区块链中的智能合约提出了一个基于完整信息动态博弈的激励机制,该机制利用完全信息的Stackelberg博弈来对用户数据进行选择,平台和移动用户都是根据对方可能的策略来选择自己的策略以保证自己在对方策略下的利益最大化,从而达到纳什均衡.该博弈具有唯一纳什平衡点,并应用基于区块链的同态水印技术来保护数据版权.但是该机制无法在用户激励过程中保护它们的隐私,所以无法在实际系统中取得很好的效果.
Zhang等人[40]提出了一种新颖的隐私保护和可靠的车辆移动群智感知系统.该机制包含一种具有隐私保护的车辆数据聚合方案,以保护参与车辆与感知数据之间的数据隐私和不可链接性.此外,还包括2个协议来保护数据隐私并为移动用户提供公平的回报.该系统实现了隐私保护、可靠性和公平性,且具有较高的计算和通信效率.但是该系统依据的同样是加法同态加密方案,所以无法实现在用户激励阶段的隐私保护.
Xie等人[41]提出了一种新颖的基于名誉激励的无人机辅助移动群智感知框架.该框架利用名誉激励方案来选择具有高名誉的无人机来执行数据感知任务,从而保护无人机和任务发布者之间的数据共享免受内部资源不足的无人机攻击.同时,该框架利用一种基于区块链的数据安全传输方案安全地记录无人机的数据交易.此外,由于资源有限的无人机难以执行计算密集型挖矿任务,因此结合边缘计算以增加区块创建的成功概率.无人机与边缘计算提供者之间的交互被建模为Stackelberg 博弈,以激励无人机参与区块创建过程,同时提供高质量的服务,在该博弈中,无人机和平台根据对方可能的策略来选择策略以保证自己在对方策略下的利益最大化,从而达到纳什均衡.但是与之前的机制类似,该框架只保护了无人机传输数据的隐私安全,但是并没有考虑用户激励过程中的隐私保护.
2 预备知识
本节分别介绍系统概述、数据真值估计、激励模型、同态加密方案和攻击模型.
2.1 系统概述
本文考虑一个基于区块链的群智感知系统,系统组成部分包括:智能合约、一个加密服务中心、一个数据收集者集合W={w1,w2,…,wm}、一个数据需求者集合R={r1,r2,…,rn}和感知任务需求集合T={τ1,τ2,…,τn},其中每个需求者ri的任务需求为τi.这些感知任务需要一些数据收集者在本地利用智能设备进行数据收集,然后将感知数据通过区块链发送给相应的需求者,其中,用户wj对于任务τi的感知数据表示为mi,j.为了消除每个移动用户设备差异带来的数据误差,对于每一个任务τi,智能合约会聚合相关收集者的数据以计算一个数据融合结果mi,该结果被视为任务τi的真值m*i的估计,其中m*i对参与者和数据收集者而言是未知的.因为智能合约是公开可见的,所以为了防止隐私信息在智能合约进行一些相关操作时泄露,每个数据需求者和数据收集者借助加密服务中心加密他们的信息(包括收集到的数据、上报的竞价),其中加密服务服务中心也是不可信任的,因此也需要防止中心对信息的窃取.图2所示为本文所提的基于区块链的群智感知系统中数据收集框架的工作流程.为了方便,表1列了一些重要的符号解释.
Fig.2 Workflow of data collection mechanism for blockchain-based mobile crowd sensing systems
Table 1 Description of Some Important Symbols
5)报酬收集.最后,智能合约向获胜的需求者ri收取费用pri(步骤)),并向被获胜的收集者wj支付报酬pwj(步骤)).
2.2 数据真值估计
为了消除由于数据收集者设备差异带来的数据误差,对于每个任务,智能合约利用数据收集者的数据估计数据真值.因此,与已有的工作类似,本文也采用了Jin等人在文献[42]中提出的数据真值估计机制.为简便起见,在算法1中描述了相应的算法.需要注意的是,本文主要关注的是连续任务,而离散任务的真值估计则省略了,但是它可以用类似的方法获得.
算法1.数据真值估计算法.
输入:获胜需求者选择集合SR和对应的获胜收集者集合SWi,其中i:ri∈SR,每个任务τi的阈值参数αi,每个获胜收集者wj对于任务τi的置信度θi,j和收集的数据mi,j;
输出:每个获胜数据需求者ri的任务τi的数据真值的估计值mi.
/*智能合约的操作*/
for 获胜需求者ri∈SR的任务τi∈Γdo
① 计算:
end for
如算法1所示,智能合约利用如下公式计算需求者ri的连续任务τi真值的估计值:
(1)
定义1.收集者wj对于一个连续任务τi∈Γ的置信水平θi,j为
θi,j=E[|Mi,j-m*i|]∈[0,1],
(2)
其中数学期望是由于Mi,j的随机性.
此外,作为一个数据真值的估计需要具有较高的准确度.因此,定义2给出了连续任务(α,γ)-准确度的概念.
定义2.对于范围[0,1]内的2个随机变量Y1和Y2,当Pr[|Y1-Y2|≥α]≤γ时,我们称Y1对Y2是(α,γ)-准确的,其中α,γ∈(0,1).
这意味着一旦数据估计值和真值满足定义2,则它们有很高概率是相当接近的.
2.3 激励模型
数据收集者和数据请求者都是自私的,因此都希望最大化她们各自的收益.为了激励更多参与者加入到系统中,本文采用了类似于Jin等人在文献[43]中的双边激励模型,其定义如下.
对于任务τi,当需求者ri∈R能够获得的价值为vi,需求者wj∈W的实际开销为ci,j时,需求者ri的对应收益为
(3)
收集者wj的对应收益为
(4)
此外,智能合约的收益可以表示为
(5)
除了真实性,为了激励更多的参与者,设计的激励模块还需要满足个体合理性,具体定义如下.
定义5.如果需求者ri和收集者wj的收益分别满足uri>0和uwj>0,激励模型满足双边个体合理性.
定义6.基于区块链的群智感知系统的社会福利定义为
(6)
2.4 同态加密方案
每个数据收集者和数据需求者的信息(例如,收集的数据和提交的竞价)可能会被其他参与者窃听.因此,本文采用Cheon等人在文献[44]中提出的同态加密方案CKKS来保护它们的隐私.作为同态加密方案,CKKS支持实数和复数的近似计算.算法如下,其中为实数域,为复数域.
1)密钥生成操作KeyGen(L,1λ)
① 给定一个深度参数L和一个安全参数λ,算法选择一个2的幂整数N并设置密文的模值q=q0×p,其中1≤≤L,q0>0,p>0.q0是一个基本模数,p是一个底数,二者都是整数.
② 密钥分布χkey、误差分布χerr和加密分布χenc都在R[X]/(XN-1)多项式环上设置,其中是整数环.
③ 算法选取一个密钥参数s←χkey并设置密钥为sk←(1,s).
2)加密操作Enc(pk,m)
①H={z∈其中N为z∈N的共轭.在通过简单地复制明文m获取后,算法的加密操作利用同构映射π:H→N/2计算在这之后,该算法进一步计算一个消息多项式
注意,CKKS的加密过程引入了一个误差,因此它的解密值与输入值不完全相同.下面将介绍相应的同态运算,包括加法、乘法、标量乘法和缩放.
2.5 攻击模型
与之前在具有隐私保护的数据真值估计方面的工作类似,我们的安全目标是确保在整个数据真值估计过程中,数据收集者和数据需求者的竞价以及获胜收集者提交的数据受到保护,隐私信息不会被其他参与者获取.事实上,智能合约对于所有参与者是公开透明的,因此其他参与者可能通过窃听智能合约得到需求者和收集者的隐私信息,同时加密服务中心也是诚实但是好奇的,这意味着,加密服务中心能够诚实地遵循预先设计的通信协议,但也试图通过机制执行过程中收到的智能合约发送的信息推断参与者提交的竞价和感知数据.此外,所有其他数据收集者和数据需求者也诚实地遵循预先设计的通信协议,但是,他们也都对其他参与者提交的竞价和数据感到好奇.遵循现有工作中的类似假设,我们假设加密服务中心和其他参与者之间不存在共谋.特别注意,在机制执行过程中,加密服务中心不会主动对智能合约进行窃听并对加密数据进行解密,只会从智能合约发来的信息中推断参与者隐私信息.
需要注意的是,检测那些提交无效数据和竞价来故意破坏系统的恶意数据收集者和数据需求者并不是本文研究的内容.请注意,在本文提出的数据收集框架中,可以使用安全传输协议,例如SSL来验证不同参与方之间的通信.
3 具有隐私保护的数据真值估计模块
基于区块链的群智感知系统中数据收集框架由2部分组成,本节将详细介绍具有隐私保护的数据真值估计模块.
3.1 设计合理性
由于数据采集设备内部的各个器件本身尺寸具有误差,以及不同数据采集应用之间存在差异,移动用户利用不同设备不同应用对同一个任务采集到的数据往往带有噪声,即彼此数据并不相同.因此,为了能够准确得到数据的真值,需要利用收集到的大量用户数据进行真值估计.实际上,真值估计机制的设计是移动群智感知系统中一个重要的研究方向[1,8,12].
移动用户提交的数据往往含有用户的隐私信息,虽然因为设备和应用自身的差异使得采集到的数据具有噪声,但是这些噪声较为微小,因此这些数据虽然各不相同,但却都在一个较小的范围波动.得到这些数据后,仍然可以推测用户的隐私信息.例如测量移动用户所在地中午12点的气温,虽然测得的数据含有噪声,但是温度数据仅在很小的范围波动,因此可以利用这些数据推测用户所在地的一些信息.甚至有时候因为用户设备所带来的噪声,也会导致用户隐私泄露.例如用不同的手机拍摄同一个物品,因为设备的不同,照片的色温等参数可能不同.在得到这些照片后,可以从这些差别中分析用户使用的设备品牌.因此在利用用户采集的数据进行真值估计的同时,还需要保护用户的隐私信息,防止隐私泄露.为此本文利用全同态加密算法设计了数据真值估计机制,该机制在保护用户隐私的同时,具有较高的估计准确度.
3.2 设计细节
为防止隐私泄露,数据真值估计模块利用了CKKS同态加密方案对每个数据收集者和数据需求者提交的信息(包括竞价和感知数据)进行加密.利用式(1)对加密数据的真值进行估计,具有隐私保护的数据真值估计模块(PATD)的工作方式如下:
算法2.具有隐私保护的数据真值估计算法.
输出:每个获胜数据需求者ri的任务τi数据的真值的估计值mi.
/*智能合约的操作*/
for 获胜需求者ri∈SR的任务τi∈Tdo
for 获胜收集者wj∈SWido
end for
④ 利用缩放操作Res(·,·)计算
(modq);
for 获胜收集者wj∈SWido
⑤ 利用加法操作Add(·,·)计算
end for
end for
3.3 理论分析
与其他已有的数据真值估计的工作类似,本节也分析了PATD模块的估计准确性.因为所用的CKKS同态加密方案是一个近似计算方案,所以需要设计参数来消除近似误差,为此有下面的引理.
(7)
证毕.
虽然如引理1所示,乘法操作、缩放操作和加法操作引入了一些噪声,但一些工作证明了解密后的值仍然确保较高的精度.为此,下面的定理分析PATD模块的准确性.
Pr[|Mi-εi-m*i|≥αi]≤
此外,当
(8)
时,所提模块是(αi,γi)-准确的,也就是说对于误差满足Pr[|Mi-εi-m*i|≥αi]≤γi,其中εi是由CKKS加密方案引起的误差,m*i是任务τi的数据真值,Mi是随机变量,表示数据的估计值.
证明.为方便起见,需求者ri的任务τi的融合结果可以表示为
(9)
由于收集者wj关于每个任务τi的数据在该任务被执行之前可以被认作是随机变量Mi,j,这些数据的融合结果也能够被认作是随机变量.因此,有
(10)
其中,εi,j为加解密过程中CKKS引入的误差,因为CKKS的计算为近似结果.
该证明首先分析|εi|,由定理1可得
(11)
其中
(12)
p(2|SWi|·Bscale+N)≤p2.
(13)
(14)
(15)
(16)
因此,利用霍夫丁不等式,有
Pr[|Mi-m*i|≥αi]≤
(17)
为了最小化式(17)最后一个等号后的式子,我们等价地最大化函数φ(λi),该函数定义为
(18)
根据柯西-施瓦茨不等式,可得
(19)
(20)
因此,当λi,j满足式(20),有
Pr[|Mi-εi-m*i|≥αi]≤
根据相应的定义,PATD模块是(αi,γi)-准确的,如果
(21)
即结论成立.
证毕.
4 具有隐私保护的用户激励模块
在介绍了PATD模块后,本节将接着介绍具有隐私保护的参与者激励(PFPI)模块,将分别介绍激励模块的数学优化模型、提出算法,并进行理论分析.
4.1 数学优化模型
数据真值的估计准确度与所收集的数据量有关,同时,所提框架希望能够最大化系统的社会福利,为此将建立式(22)数学优化模型.
优化问题.社会福利最大化:
(22)
1)优化常数.社会福利最大化时,每一个任务τi所对应的数据收集者集合Wi,数据需求者ri的竞价ai,数据收集者wj的竞价bi,j,任务集合T,每个数据收集者wj的信任水平θi,j,准度参数αi和γ是常数,且γ=min{γi|i:ri∈SR}.
2)目标函数.为了能够保证PATD模块的准确度,对于任意一个任务τi,算法将该任务的所有数据都收集上来,并在此前提下最大化社会福利.
3)优化约束.根据式(8)和参数γ的选中,可知当约束不等式成立时,对于每一个任务τi,其数据真值估计都满足(αi,γi)-准确度.
4)优化变量.该优化问题中的优化变量为xi,当xi=1表示任务τi被智能合约选中并执行,当xi=0表示该任务没有被选中.
通过上述数学模型,可以得到该优化问题是NP难问题.
引理2.上述优化问题是NP难的.
证明.为了简化问题,令
(23)
上述问题可简化为
(24)
可以知道这是一个0-1背包问题,已知0-1背包问题为一个NP完全问题,所以可知,上述优化问题是一个NP难问题.
证毕.
由于该问题的NP困难属性,因此,4.2节将提出一个近似算法,高效地解决该问题.
4.2 算法设计
为了解决该问题,本节提出一个近似算法.该算法的伪代码如算法3所示,其具体流程如下.
具有隐私保护的用户激励算法由2部分组成,即参与者选择部分和报酬确定部分.
4.2.1 参与者选择部分
算法主体:对于每一个任务τi,智能合约计算权重
(25)
(26)
(27)
算法输出:获胜需求者集合SR和每个获胜需求者ri对应的获胜收集者集合SWi,其中i:ri∈SR.
算法3.参与者选择部分.
输出:获胜需求者集合SR和对应的获胜收集者集合SWi,其中i:ri∈SR.
/*智能合约的操作*/
① 定义需求者选择集合SR=∅和对应的收集者选择集合SWi=∅,其中i:ri∈SR,并定义常数C=0;
for 每一个τi∈Tdo
end for
for 每一个τi∈Tdo
⑤ 选择一个随机数Rj;
end for
end for
while ϖi+C≤βdo
⑩AR=AR∪{ri},AWi=Wi;
end while
其中i:ri∈SR;
else
end if
/*加密服务中心的操作*/
for 每一个τi∈Tdo
ifζi,j<ηdo
end if
end for
end for
在进行完参与者选择部分后,智能合约进入报酬确定部分.
4.2.2 报酬确定部分
算法主体:对于每一个获胜需求者ri∈SR,智能合约计算
(28)
对于相应的获胜收集者wj∈SWi,智能合约计算
(29)
算法输出:每一个获胜需求者ri∈SR需要支付的费用pi和对应的获胜收集者wj∈SWi能够收到的报酬pi,j,其中i:ri∈SR.
算法4.报酬确定部分.
输出:获胜需求者ri∈SR的支付费用pi和对应获胜收集者wj∈SWi收到的报酬pi,j,其中i:ri∈SR.
/*智能合约的操作*/
for 每一个ri∈SRdo
③ 计算式(28);
for 每一个wj∈SWido
⑥ 计算式(29);
⑨ returnpi,j;
end for
⑩ returnpi;
end for
/*加密服务中心的操作*/
end for
end for
在结束本节之前,我们给出一个例子来具体说明该算法的工作流程.
4.3 激励属性
本节将证明所提出的PFPI模块满足双边真实性、双边个体合理性,同时在社会福利最大化中达到了2 的近似比.
引理3.PFPI对于每个需求者和收集者都满足真实性,这意味着每个需求者和收集者都诚实的报告竞价.
证明.我们通过证明PFPI满足单调性和临界报酬2个性质来说明参与的需求者具有真实性,而对于参与的收集者,可以用相似的方法得到结论,因此将省略相关的证明过程.注意,算法使用的CKKS是近似算法,但是由于算法的设计,使其在密文状态下的各种计算并没有改变相应的数值,因此在证明过程中所有变量均为明文.
证毕.
除了真实性,还需要保证PFPI模块具有个体合理性.
引理4.PFPI模块满足每个需求者和收集者的个体合理性,这意味着每个需求者和收集者都可以得到非负的收益.
证明.这里只证明对于每个需求者,PFPI模块满足个体合理性,对于收集者的情况可以利用相同的方法得到结论.证明中所有变量都是明文.
证毕.
接下来将证明PFPI模块在系统的社会福利上达到了2的近似度.为了证明该结论,将利用分数背包问题,其定义如下.
问题.分数背包问题:
(30)
证毕.
利用引理5,可以得到如下定理.
定理2.PFPI模块在系统的社会福利上达到了2的近似比.
(31)
其中OPT是原始优化问题的最大值.由此可知
(32)
由算法3可知,选中需求者集合为SR=AR或SR={ri*},其中i*=arg max{δi|i:ri∈R},因此δi*≥δ.由此可知该算法满足
(33)
所以结论成立.
证毕.
5 安全分析
如第3节和第4节所示,所提出的基于区块链的群智感知系统中数据收集框架利用 CKKS 保护数据需求者和数据收集者的数据以及竞价隐私.本节将详细分析所提框架的安全性.
定理3.PATD模块保证了收集者提交的数据对诚实但是好奇的窃听者的安全性,这意味着在执行算法过程中,加密服务中心和其他参与者除了最后的数据真值的估计值外无法获得其他关于数据的任何信息.
证明.如PATD模块所示,在提交数据之前,每个收集者使用加密服务中心生成的密钥对各自数据进行加密,然后智能合约根据加密数据估计数据真值.最后,加密状态的数据估计值由加密服务中心进行解密.在此过程中,CKKS的安全性保证了数据隐私.与现有的工作类似,假设加密服务中心和其他参与者(数据需求者和数据收集者)之间没有勾结,且加密服务中心不会在模块执行过程中主动解密收集者提交的加密数据,因此,除了最后公开的数据真值的估计值,没有人可以获得数据的任何信息.综上分析,PATD模块可以保证数据的安全性.
证毕.
值得注意的是,现有的许多具有隐私保护的数据真值估计算法为了得到最终的估计值需要在计算的过程中解密一些中间结果,而这些解密操作会导致数据隐私泄露,与这些工作不同,PATD模块不需要解密中间结果来得到最终的数据真值估计值,因此进一步保证了数据的安全性.此外,现在的一些已有工作在保护数据隐私的同时,还保护用户权重的隐私,因为研究者认为在估计真值过程中使用的用户权重也是隐私信息.与这些工作不同,在本文所提算法中,用户权重是他们的置信度,而这些置信度在区块链中是公开可见的,实际上,在区块链中,往往要根据每个参与者的置信度来决定谁有资格当矿工.
定理4.具有隐私保护的激励模块在面对半诚实但是好奇的攻击者时,可以保护数据需求者和数据收集者竞价的隐私安全,这意味着在执行算法过程中,智能合约、加密服务提供方和其他参与者除了最后的报酬外无法获得其他关于竞价的任何信息.
证明.根据算法3和算法4,数据需求者和数据收集者提交的是加密竞价,这意味着智能合约无法直接获取他们的竞价.该激励模块由2个子模块组成,参与者选择模块和报酬确定模块,因此下面的证明将分别从对2个子模块的安全性进行分析.
证毕.
6 实验仿真
本节将从实验仿真的角度验证所提机制的性能,该节首先介绍比较基线,之后将说明实验仿真中的参数设置,最后将给出实验结果.
6.1 比较基线
本文所提的区块链群智感知系统中基于隐私保护数据的用户激励机制包含PATD模块和PFPI模块2部分,因此本节将验证这2个机制的性能.
1)具有隐私保护的数据真值估计机制.实验仿真考虑3种比较基线:第1种是均值估计基线(MEAN),该基线将数据的均值作为最后的数据真值的估计值输出;第2种是中位数估计基线(MEDIAN),该基线将数据的中位数作为最后的数据真值估计的输出;第3种是迭代估计基线(IBTD),该基线由Zhang等人在文献[46]中提出,在每次迭代时,更新每个数据的权重,并利用更新后的权重计算数据真值估计,在达到迭代次数后,机制输出估计结果.注意,实验仿真过程中,均使用CKKS同态加密方案对数据进行加密.
2)具有隐私保护的参与者激励机制.因为目前没有基于同态加密方案的激励机制,因此实验仿真考虑2种基线:第1种基于收益的激励机制(BFI),该机制将每个任务τi的δi从大到小进行排序,然后从最大的开始选择获胜的数据需求者和收集者;第2种基于权重的激励机制(WFI),该机制将每个任务τi的权重ϖi按照从小到大排序,然后每次选择权重最小的任务确定相应的获胜数据需求者和收集者.
6.2 参数设置
为了方便,本节将实验的参数设置列在了表2中.与Jin等人的文献[43]类似,一些参数都是在某个区间均匀随机选择.具体而言,对于每一个任务τi,阈值参数αi和精度参数γi在[0.2,0.3]均匀随机选取,每个数据需求者ri能够获得的价值vi在[20,25]上均匀随机选取.同时,每个数据收集者wj的数据xi,j都是从均值为μi,j、方差为σi,j的截断高斯分布中采样得到的,即xi,j∈[0,1],且μi,j取值为[0,1],而σi,j取值为[1,2],数据置信度θi,j在[0,0.1]均匀选取,花费ci,j取值为[0,1],同时愿意执行的任务集合Γj中任务的数量|Γj|取值区间为[1,5].在仿真集合Ⅰ中,数据收集者的数量M从2变到512,而数据需求者的数量N保持100不变;在仿真集合Ⅱ中,数据需求者的数量N从2变到512,而数据收集者的数量M保持100不变.
Table 2 The Simulation Parameter Settings
此外,本文采用CKKS作为同态加密方案,因此,相关参数设置为:
维度参数N=213,缩放因子Δ=240,密文模数qL=21 503.同时,如Cheon等人在参考文献[47]中采用的多项式组合方法,本文也利用相同的方法,其中多项式fd和gd分别选取d=3,而相应的表达式为
f3(x)=(35x-35x3+21x5-5x7)/24,
g3(x)=(4 589x-16 577x3+25 614x5-
12 860x7)/210.
相应的组合参数分别为df和dg,其中fdf表示f∘f∘…∘f做df次组合,同样gdg表示g∘g∘…∘g做dg次组合.
本实验环境为Ubuntu 18.04.2 LTS,AMD Ryzen 7 5800H CPU,16 GB 内存,16线程.
6.3 仿真结果
本文仿真实验中的考察指标——社会福利,为整个机制运行完后对PFPI的性能评价指标,另一个考察指标——真值估计准确度,为整个机制运行完后对PATD的性能评价指标.最后一个评价指标——运行时间,为整个机制运行完成后所需的时间,但是因为PATD模块只涉及同态加法操作,运行时间较短,而PFPI涉及到排序操作和大量乘法操作,运行时间较长.
Fig.3 MAE under different number of data collectors
图3、图4所示为PATD的仿真结果.图3为数据收集者数量不同时,各数据真值估计机制的MAE;而图4为数据需求者数量不同时,各数据真值估计机制的MAE.其中,MAE表示各数据的估计值与真值之间的平均距离,计算公式为
(34)
Fig.4 MAE under different number of data requesters
从式(34)可以知道,MAE的值越小,表示算法的准确性越高.从图3和图4中可以看出,本文所提的PATD算法具有最小的MAE,因此,在所有比较的数据真值估计机制中具有最好的性能表现.在对IBTD机制进行仿真时,其迭代次数被设置为1 000次.
Fig.5 Social welfare under different number of data collectors
本文所提的区块链群智感知系统中基于隐私保护数据的用户激励机制包括2部分,即PATD和PFPI,在验证了PATD的性能后,接着对PFPI的性能进行验证.
图5、图6所示为PFPI的仿真结果.图5为数据收集者数量不同时,各具有隐私保护的激励机制达到的社会福利;而图6为数据需求者数量不同时,各具有隐私保护的激励机制达到的社会福利.需要指出的是,其中BFI机制可以满足真实性和个体合理性,而WFI机制只满足个体合理性但不满足真实性,在进行仿真的过程中,BFI和WFI中数据需求者和收集者提交的竞价都利用CKKS同态加密方案进行加密.从仿真结果可以看出PFPI达到的社会福利最高,这说明PFPI与其他基准激励机制相比具有更好的性能.同时,在图5和图6中可以看到,BFI的性能相较于WFI的性能更好.
Fig.6 Social welfare under different number of data requesters
由于区块链每时每刻发生大量的交易,因此对于各种基于区块链的应用的运行速度有较高的要求,在性能仿真的最后,本节验证了利用本文所提区块链群智感知系统中基于隐私保护数据的用户激励机制的运行时间,并将仿真结果列于表3中.在表3中分别让(df,dg)取不同的组合,并统计任务数从2增加到512时,不同任务数所需的运行时间.从表3中可以看出,随着任务数的增加,所需要的运行时间在增加,这是因为需要的乘法操作在增加.同时可以看出不同的(df,dg)组合所需的时间不同,这是因为不同的组合需要计算的乘法操作次数是不同的,而且可以看出df的影响要比dg的影响大.
Table 3 Running Time of Different Parameters
表3为PFPI的运行速度,为了整个实验的完整性,本文最后对所提机制整体进行运行时间的仿真,以此来论证机制的合理性与连续性.
从表4可以看出,PFPI的运行时间相较于PATD要长得多,这是因为PATD模块仅涉及同态加法操作以及少量的明文与密文的乘法操作,这些操作所需时间较短.与之相反,PFPI在用户选择阶段和报酬确定阶段均涉及到排序操作,而排序操作需要大量的密文之间的同态乘法计算来完成,而乘法操作需要时间较长.从表4中可以看到,所提机制对时间敏感度不高的在线系统或者是完全线下的系统操作性较强.
Table 4 Running Time of the Whole Scheme
7 总结与展望
本文针对现有基于区块链群智感知系统的数据收集框架总是独立分离设计数据真值估计机制和参与者激励机制而导致其无法达到最佳性能的问题,提出一类新的具有隐私保护的数据收集机制.该机制由数据真值模块PATD和参与者激励模块PFPI共同构成.相较于分离设计的框架,该机制具有更好的性能.为了保护参与者的隐私信息,该机制利用CKKS同态加密方案.本文在提出数据收集机制后,从理论角度证明了PATD具有较高的真值估计准确度,同时证明了PFPI不仅满足真实性和个体合理性,而且具有较高的社会福利;从实验仿真的角度验证了PATD和PFPI的安全性能.从仿真结果可知,它们与各自的基准方案相比具有更好的安全性能.
作者贡献声明:应臣浩提出了算法思路和实验方案;夏福源负责完成实验仿真;李颉提出理论分析指导意见;斯雪明提出实验仿真指导意见;骆源提供论文修改意见.