面向云计算的隐私保护图像特征提取方法研究
2019-03-11张晓璐
张晓璐
摘要:本文提出一种有效、实用的隐私保护方法,用于计算环境中大规模加密图像数据的特征提取。为了保证运算的安全性,设计了安全乘法协议(SMP)和安全比较协议(SCP)。该方法对原始图像数据进行随机分割,并将特征提取操作分配到两个不同的云服务器上,以保持其关键特性,同时实现效率和安全性要求。实验结果表明,与现有的方法相比,该方法具有较高的召回率和精确度,并具有较低的计算和通信开销。
关键词:云计算:特征提取:隐私保护
0引言
机器学习技术可以从大规模多媒体数据中发掘有价值的知识和隐藏的信息,但在本地处理大量多媒体数据是一项耗时的工作。由于云计算的快速发展和云计算服务的普及,数据所有者利用丰富的云计算资源,将大量的图像数据和图像处理任务迁移到远程的云服务器上,以节省成本和增加服务的灵活性。然而,由于数据所有者和云所属的信任域不同,云计算环境中的数据存储和计算也引发了很大的安全性和隐私问题。作为机器学习中的关键预处理步骤,研究者在保护隐私的云计算框架中对特征提取进行了广泛的研究,以便有效地去除不相关和冗余的数据,并提高学习准确性。在现有文献中,研究者提出了各种隐私保护计算,包括模幂运算、线性方程和kNN搜索。这些工作主要关注数值数据或文本数据的工程计算问题。近几年,密文域中的隐私保护数据搜索已经扩展到基于内容的多媒体检索、人脸识别和指纹识别,以及如何在云计算环境中实现安全图像搜索。然而,现有的研究均假设图像已经由特征提取算法预处理以获得图像的矢量表示。由于图像特征提取在多媒体数据处理中的重要性及其对海量数据的繁重操作,特别是对于其巨大尺寸和大量特征点的卫星数据,从密文域提取或检测图像特征已开始吸引越来越多研究人员的研究兴趣。
Hsu等人采用同态加密、探讨加密域中隐私保护尺度不变特征变换(SIFT);然而该解决方案具有很高的计算开销。Qin等人借助于保持加密和随机排列,提出了一种改进的方案。Wang等人考虑基于形状特征提取的安全和私有外包问题,并分别通过使用同态加密和乱码电路协议提出了两种具有不同安全级别的方法。虽然在隐私或效率方面付出了巨大努力,但是先前解决方案的一个共同限制是都缺乏关于保留原始图像特征提取算法的关键特性的全面分析和评估。Hu等人借助于乱码电路来解决这个问题,尽管该解决方案很好地保留了SIFT的关键特性,但仍有进一步降低其计算和通信成本的空间。更重要的是,其仍然无法消除边缘响应,使得检测到的关键点对于少量噪声不稳定。因此,如何在海量图像数据上实现隐私保护图像特征提取,同时减轻计算和通信负担是一个具有挑战性的问题,
1 问题描述
考虑一个基于云的多方图像特征提取计算模型:数据所有者O、云服务器S1以及云服务器S2。假设数据拥有者O持有大量敏感图像文件,而数据所有者缺少图像处理所需的资源。因此,O会将图像处理任务分配到具有丰富存储和计算资源的云。假设S1和S2分别属于两个不同的云服务提供商。为了保护自身的隐私,O首先对每个图像集进行加密处理,然后将密文(即加密后的图像数据)分发到S1和S2。通过一系列安全交互协议在密文域中运行SIFT算法之后,S1和S2将加密的特征描述符返回给数据所有者,数据所有者可以从其加密版本中恢复真实特征描述符。
现有研究指出,将图像特征提取任务分配给一个云实体容易导致隐私的泄漏。因此,有必要使用至少两个云实体来实现隐私保护。与此同时,假设云实体是半可信的。
本文的目标是实现具有隐私保护的图像特征提取,同时尽可能保留图像的关键特征。为此,该方法需要实现以下的设计目标:
(1)安全约束。原始图像内容的隐私不能被泄露;
(2)有效性约束。由该方法提取的特征向量应尽可能接近原始SIFT算法的结果:
(3)效率约束。与单独执行SIFT算法相比,数据所有者仅需要进行少量的计算。
2 安全运算协议
2.1 安全乘法协议SMP
假设两个服务器S1和是2分别拥有私有的k比特长度的整数x1和y1的。在执行协议之后,S1能够接收到一个服从均匀分布的随机值s1而S2接收到另一个服从均匀分布的随机值r1,使得s1+r1=x1×y1(mod p)。
本文的安全乘法协议(SMP)能使双方安全地计算多对私有整数的乘积,使计算和通信成本大大降低。由于仅考虑8位长度的输入和16位的p值,乘积中间结果的长度会远小于p的长度。因此,为了便于说明,在下文中将取模操作省略。在SMP开始时,S1将首先使用SIMD以打包方式加密x.然后将加密后的x发送给S2。S2将利用同态属性将其与y相乘。最后,S2將使用随机生成的数字加密乘法操作的结果,并将其发送到S1进行解密。
2.2 安全比较协议
安全比较协议(SCP),能够在隐私得到保护的条件下将两个整数进行比较。SCP协议通过结合SHE与SIMD来优化安全标量积协议(SPP),以实现在对多对整数进行比较的同时保护隐私,并使通信和计算开销减少。
如果a1(b1)等于1.则认为x比y大(小)。S1将首先对x进行逐位加密并将密文发送到S2。然后S2将基于同态性质在密文上采用公式(1)进行计算。在k次循环后,S2会获得最终的加密结果,并将其发送到S1进行解密。
3系统详细设计
3.1 图像加密
使用矩阵In.n表示像素為n×n的原始图像i.矩阵的元素是一个8位的整数。数据所有者从O到255中随机选择n×n个整数以生成随机矩阵I2(x.y),然后通过计算I1(x.y)来对I(x.y)进行加密:I1(x.y)=I(x.y)+I2(x.y)。密文I1和I2被发送到S1和S2。
3.2 关键点定位
服务器Si接收到密文Ii后,通过对Ii进行卷积和下采样操作创建高斯空间Li(x.y.σ),即
在极值检测过程中,每一个样本点将会与其26个邻居进行比较,也会与高斯差空间D(x.y.σ)中的相邻尺度进行比较。如果样本点均大于或者小于邻居和相邻尺度,则该样本点会被选择作为候选关键点。为了判断D(x.y.σ)和D(x.y+1.σ)的大小,云服务器S1和S2分别计算△D1=D1(x.y.σ)-D1(x.y+1.σ)和△D2=D2(x.y.σ)-D2(x.y+1.σ),然后采用SCP算法比较△D1和△D2的大小。当△D1≥AD2,则认为D(x.y.σ)≥D(x.y+1.σ);否则,D(x.y.σ)
在确定了候选的关键点后,将进行边缘响应移除操作,以去除不稳定的关键点。对于云服务器S1的关键点D1(x.y.σ),其在x方向、y方向和xy方向的偏导数如下所示:
同理可以计算云服务器S2的关键点D(x.y.σ)的三个方向上的偏导数R2xx、R2yy和R2xy。S1和S2分别使用SMP协议计算R1xx和R2yy竹的乘积M1(R1xxR2yy)和M2(R1xxR2yy),并有M1(R1xxR2yy)+M2(R1xxR2yy)=R1xxR2yy。同理,S1可以通过计算得到M1(R1xxR2yy)和M1(R1xyR2xy),S2可以通过计算得到M2(R1yyR2xx)和M2(R1xyR2xy)。云服务器S1中的海塞矩阵的迹和行列式如下所示:
3.3 方向指定
一旦确定了关键点的位置,就应根据像素差异计算梯度幅度和方向,以便建立方向直方图。与参数σ相关联的关键点D(x.y.σ)用于选择具有最接近尺度的高斯平滑图像l.所有以下计算以尺度不变的方式执行。为了便于表达,将在以下讨论中省略参数σ。
对于关键点L(x.y)上的方向计算,S1和S2将首先确定L(x.y+1)与L(x.y-1)之间,以及L(x+1.y)和L(x-1.y)之间的大小。当L(x.y+1)>L(x.y-1)时,a=1;否则a=-1。当L(x+1.y)≥L(x-1.y)β=1;否则β=-1。通过对L1(x.y+1)-L(x.y-1)和L2(x.y+1)-L2(x.y-1)使用SCP协议,可以实现安全比较。为了获得更精细的方向范围,S1进行以下的计算:
同理,S2也会计算△Diffi=Diff2y-kDiff2x,其中,常数k用来确定方向的间隔。然后S1和S2会使用SCP协议比较△Diff1和△Diff2的大小。如果△Diff1≥△Diff2,则方向大于aretank。重复上述步骤,可以得到一个粒度更小的方向度数范围。
将梯度的幅度定义为m(x.y)=|Diffx|+|Diffy|,其中,Diffx=L(x+1.y)-L(x-1.y),Diffy=L(x.y+1)-L(x.y-1)。S1和S2分别计算其梯度幅度m、(x.y)和m.(x.y),然后在被相同的高斯窗口加权后,根据其方向分别累加m1和m2,以构建加密方向直方图H1和H2。
3.4 图像描述符生成
S1和S2檢测到关键点上的主导方向后,将生成各自的描述符。首先,坐标和梯度方向相对于关键点方向旋转。在旋转过程中需要确定梯度方向的值,因此使用其方向所在区间的中值来替换实际的方向值。例如,如果一个点的方向位于10°-20°的区间内,使用15°作为其梯度方向值来执行旋转操作。这种近似的取向替代对最终结果的影响可以忽略不计。其次,在关键点周围的4×4子区域中,采样点的梯度大小(即m(x.y))由高斯窗口加权并累积成4x4方向直方图。接下来,每个直方图由8个方向区间组成,每个区间的跨度为45°。为了提高系统效率,在方向分配阶段预先计算所有梯度。最后,采用具有128个维度的特征向量表示关键点的16个直方图。设V1和V2分别表示由S1和S2生成的特征向量,并会被发送到数据所有者O。数据所有者通过计算y=V1-V2来恢复实际特征向量,其将被归一化为单位长度,以便实现仿射的变化的仿射变化的不变性。
4 实验评估
本节采用图像数据集INRIA Graffiti来评估安全SIFT外包方案的有效性和效率。实验环境配置如下:操作系统为Linux Ubuntu.算法实现采用C+/高级编程语言,处理器为Intel酷睿3.1GHz.内存为8GB。
将本文算法与ED-SIFT进行比较。为了更好地评估特征向量的独特性和鲁棒性,选择测量关键点匹配的性能,即给定一个点,将在数据集中找到该点的所有匹配。将计算特征向量之间的欧几里德距离,以找到数据集中的最近点和第二个最近的点。如果这两个点之间的距离比率低于阈值t.则该点与其最近点匹配。使用召回率和匹配准确度作为评估指标。图1是召回率和匹配准确度之间的关系。匹配准确度是准确匹配数量与总匹配数量的比。图2和图3分别是计算和通信开销的对比结果。结合三个实验结果图,可观察到本文的方法无论是在召回率、精确度及开销方面都要优于现有的方法。
5 结束语
本文提出了一种新颖的隐私保护图像特征提取方法,该方法由安全交互协议SMP和安全比较协议SCP组成。通过实验,分析评估了该方法的有效性,实验结果表明该方法优于现有技术。未来的工作集中于在真实的云计算集群中部署该方法,进一步评估该方法在真实云计算流量下的性能。