高光谱遥感影像完整性认证感知哈希算法
2021-07-15王昊张黎明张鑫港刘明轩
王昊,张黎明,张鑫港,刘明轩
(1.兰州交通大学 测绘与地理信息学院,兰州 730070;2.兰州交通大学 地理国情监测技术应用国家地方联合工程研究中心,兰州 730070;3.甘肃省地理国情监测工程实验室,兰州 730070)
0 引言
高光谱遥感技术因其独特的光谱特征,被广泛地应用于林业及农业精细化管理[1]、军事探测[2]、土地覆盖分类[3]、现代化城市规划与建设[4]等诸多领域,成为对地观测的重要技术之一。计算机网络的发展使得信息共享与传播变得更加便捷高效,因此高光谱遥感影像势必迎来更大规模的传播与应用。然而,随着遥感影像处理技术日渐成熟,增加了影像在传播过程中面临非法篡改的风险。因此,高效可靠的高光谱遥感影像内容完整性认证是保证影像应用的重要基础。
基于感知哈希的数据内容完整性认证技术是近几年国内外学者的研究热点。感知哈希技术是实现原始多媒体数据到与数据相对应的感知摘要集的过程,可以将具有相同感知内容的数据唯一地映射成一段数字摘要[5]。与数字签名和数字水印相比[6-7],感知哈希具有较高的鲁棒性和安全性,并且为数据内容的识别、检索以及认证提供了可靠的技术支撑[8-11]。由于感知哈希在多媒体图像内容完整性认证和图像检索等方面具有良好的性能,基于感知哈希的地理空间数据完整性的认证逐渐成为近些年学者们研究的重点内容。Zhang等[12]首次提出一种基于感知哈希的矢量地理数据认证方法,该方法对常见的矢量数据攻击都具有较好的鲁棒性。另外,张鑫港等[13]结合DEM数据特点,提出了一种适用于DEM数据认证与篡改定位的感知哈希算法,采用DCT提取DEM数据的特征信息,并结合DEM数据的高程相对中误差,实现了对DEM数据中局部数据恶意篡改的检测与定位。此外,基于感知哈希的遥感影像内容完整性认证算法也受到广泛关注。丁凯孟等[14-16]提出了一系列遥感影像内容完整性认证算法,其中,基于改进的U-Net模型的高分辨率遥感影像完整性认证感知哈希算法创新性地实现了基于影像边缘特征的感知哈希技术与深度学习的结合[17],从而更加精确地检测影像内容是否遭遇篡改,并且对高分辨率遥感影像常见的内容保持操作具有极高的鲁棒性,但该算法对局部篡改定位能力不足。Zhang等[18]提出了顾及影像全局特征与局部特征的高分辨率遥感影像内容完整性算法,结合SURF特征提取方法和Zernike矩提取影像的局部特征和全局特征,实现了对影像不同类型攻击方式的识别,以及对影像局部篡改的检测与定位。然而,这两种算法都是在影像的灰度图像上提取用于完整性认证的空间特征,未能顾及影像的光谱特征信息。此外,Ding等[19]提出了一种用于多光谱影像认证的感知哈希算法,通过波段聚类以及融合波段的边缘特征实现了对多光谱遥感影像的内容完整性认证,在影像完整性认证的过程中考虑到了波段信息的重要性,具有良好的鲁棒性。
综上所述,现有的遥感影像内容完整性算法可以为高光谱遥感影像的内容完整性认证提供重要的参考,但其直接用于高光谱遥感影像存在以下问题:将影像转换为灰度图像进而提取影像空间特征信息的方式,对高光谱影像的光谱信息利用不足,不能充分结合高光谱影像的数据特征;高光谱影像包含众多的子波段,以波段聚类处理及特征融合的方式提取影像特征的处理过程相对比较复杂,计算量大。鉴于此,本文提出一种顾及光谱信息的高光谱影像内容认证感知哈希算法,实现对高光谱影像内容完整性的认证;在对影像中局部地物修改保持敏感的同时,能够容忍部分常见的内容保持操作,具有较好的鲁棒性。
1 算法原理
本文提出一种顾及光谱信息的高光谱遥感影像内容认证感知哈希算法。特征提取是感知哈希当中的关键步骤。首先,在格网划分的基础上,基于K-均值聚类,从地物分类的直方图统计结果中提取影像的光谱信息特征描述符fspectral;然后,通过计算影像的Zernike矩生成格网单元高光谱影像的空间特征描述符fspatial;最后,将二者结合,作为每个格网单元影像最终的特征描述,用以生成影像的感知哈希序列。对于高光谱数据而言,本文提出的影像感知哈希序列生成的流程如图1(a)所示,其中上行部分是原影像空间特征提取的计算过程,下行部分是光谱特征提取过程,具体计算将在后续逐一展开阐述。按照上述感知哈希序列生成的方式,提取每一个格网影像的感知哈希序列。影像认证过程中,采用上述同样的方式生成待认证每一个格网单元影像的感知哈希序列,通过计算原始影像与待认证影像之间的哈希序列的差异性,实现对影像完整性的认证。图1(b)为影像完整性认证的过程。
图1 算法基本框架
1.1 高光谱遥感影像数据特点
遥感影像的发展与进步主要体现在两个方面:一是通过改进遥感器视场角来提高影像空间分辨率;二是增加影像的波段数量并降低各个子波段的带宽,从而提高影像的光谱分辨率[20]。高光谱遥感影像正是遥感影像光谱分辨率取得突破性提高的重要产物。与其他类型的遥感影像不同,高光谱遥感影像通常包含了几十个、几百个甚至几千个子波段,不同波段所对应的光谱信息可应用于不同的应用场景,因此,高光谱影像中包含极其丰富的光谱信息。虽然高光谱遥感影像的空间分辨率不及高分辨率遥感影像,但是作为一种基本的遥感影像,同样包含丰富的地物信息,加之数量较多的子波段,高光谱遥感影像往往有着较大的数据量。
因此,研究适用于高光谱遥感影像内容完整性认证的感知哈希算法需考虑以下因素。
1)与高分辨率遥感影像不同,仅考虑影像的空间特征信息会造成影像当中光谱信息的遗漏,因此,最佳的方式是能够兼顾光谱特征信息和空间特征信息,并将二者用于生成影像的特征描述。
2)考虑到高光谱遥感影像较大数据量带来的算法效率问题,逐波段的特征提取方式势必会增加算法的复杂度和算法的计算效率。
1.2 影像处理
现有影像中局部恶意篡改定位方法的基本思路是:对影像进行相应的格网划分,通过对每一个格网里的内容进行认证,进而确定篡改的位置。参考该方法,本文算法中因为涉及到基于K-均值算法的影像地物分类,因此,为了消除分类过程中影像边缘部分对分类精度的影响,采用滑动窗口的形式对图2所示的原始影像I进行格网划分。其中,每一个格网的大小为200×200,滑动步长为100。实际当中,若影像边界的格网不足200,则用0对该格网进行补全,其中,每一个格网单元的影像为Iij(i=1,2,3…;j=1,2,3…),i和j分别为格网划分后的行格网数索引和列格网数索引。
图2 影像格网划分方式
1.3 特征提取
格网划分后的每一个格网单元影像Iij通过两个并行的方式分别进行空间特征和光谱特征的提取(图1(a)),主要包括基于地物分类的光谱特征提取和基于Zernike矩的影像空间特征提取。
1)光谱特征。光谱信息是遥感影像解译的重要信息之一,高光谱遥感影像可以明显地提高土地覆盖和土地利用分类的能力[21]。因此,本文在影像光谱信息提取的第一个阶段对影像进行地物分类处理。
非监督的影像分类方法,是高光谱遥感影像分类常用的分类方法之一。K-均值算法是非监督分类方法当中一种典型的动态聚类方法,也是一种较为普遍的方法[22]。本文采用K-均值算法对原影像进行分类处理。
(1)
式中:k是格网影像地物分类的类别数;n1,n2,…,nk是每一类地物所对应的像元直方图统计的结果。本文定义k的值为10,即将每一个格网影像中地物以同样的计算方式分为固定的10类,基于K-均值算法的地物分类过程中,类别k往往都是通过人为设定的方式确定的,这是K-均值算法在影像分类过程中固有的缺陷。但是,本文只研究通过K-均值算法提取影像的光谱特征,关于k值与分类精度之间的关系本文不做进一步的研究。
2)空间特征。Zernike矩于1934年被提出,极坐标下单位圆上n阶m次的Zernike核函数定义如式(2)所示。
Vn,m(ρ,θ)=Rn,m(ρ)ejmθ,ρ≤1
(2)
式中:j表示虚数单位;极坐标下的单位圆上的核函数集{Vn,m(ρ,θ)}满足正交性;{Rn,m(ρ)}是一个径向多项式。
二维图像f(x,y)的Zernike矩在直角坐标系和极坐标系下的定义如式(3)至式(4)所示。
(3)
(4)
Zernike矩作为一个正交矩具有以下特性:复数矩、完备性、正交性、旋转不变性[23]。对于图像而言,低阶Zernike特征向量描述的是图像的整体特征,其高阶特征向量可以很好地描述图像的细节特征。本文采用Zernike矩提取高光谱影像中的空间特征信息,从而生成影像的空间特征描述符。利用影像的Zernike矩进行高光谱影像的空间特征提取,其中3阶至12阶Zernike矩的数量如表1所示。
表1 不同阶Zernike矩统计结果
(5)
1.4 感知哈希序列生成
为了生成格网影像的感知哈希序列,需要对上述过程中所生成的空间特征描述符和光谱特征描述符展开进一步处理。实际计算过程中可以发现,通过Zernike矩提取到的影像空间特征描述符数量级较小,而光谱特征描述的计算结果会是一个数量级比较大的结果。因此,本文通过调节因子N使得每个格网影像的空间特征描述符和光谱特征描述尽可能保持在统一数量级上。同时,本文算法在影像特征提取的过程中,显而易见地,通过直方图统计结果生成的影像光谱特征描述对噪声等相关类型攻击的鲁棒性较差。因此,在格网影像感知哈希序列过程中,通过权重因子α协调空间特征描述符和光谱特征描述符在鲁棒性方面的优劣。通过以上方式,确保影像完整性认证结果的准确性和算法整体的鲁棒性,具体计算过程如式(6)所示。
(6)
通过这种方式,最终格网影像的中间感知哈希序列是长度为39的十进制序列。
为进一步增加感知哈希序列的安全性,需要对该感知哈希序列进行加密处理。由于混沌系统对初始值变化敏感,而且计算速度快,因此,采用混沌系统生成加密密钥。采用Logistic映射生成混沌序列。Logistic映射的表达如式(7)所示。
(7)
假设K∈(0,1)是数据发行方和用户共享的加密密钥,通过式(8)可以生成串行密钥对感知哈希序列进行加密。
(8)
L=(L1,L1,…,L39)
(9)
(10)
1.5 影像完整性认证
在影像的感知哈希序列生成的基础上,影像完整性认证是比较数据发行方原始影像与用户方待认证影像的感知哈希序列之间的差异性实现的,若二者之间的差异性度量结果小于某一阈值T,则判定该影像的内容未发生改变,否则判定为已篡改影像。
本算法在影像完整性认证过程中,用户对生成的感知哈希序列进行对应的解密,提取原始影像和待认证影像的中间哈希,并逐次计算原始影像与待认证影像的每一个格网影像的感知哈希序列的欧氏距离,表达如式(11)所示。
(11)
通过对比计算的结果dis与阈值T的关系实现对影像完整性的认证:若dis≤T,判定该影像内容无篡改;若dis>T,判定该影像为篡改影像。通过以上方法,影像完整性认证的最终结果可以将整幅影像的局部篡改定位到具体的格网当中。同时,由于影像在预处理过程中采用滑动的思想进行可重叠的格网划分,因此,定位到的篡改格网之间的相互重叠部分便是影像中局部篡改的区域。这种方式对篡改的区域实现了更加精细的定位,阈值的计算方式在实验部分进行阐述。
2 实验分析
本文选用2018 IEEE GRSS Data Fusion比赛所提供的高光谱数据[25],该数据共包含48个波段,空间分辨率为1 m,光谱范围为380~1 050 nm。从原始影像中裁取三幅大小为1 200像素×1 200像素的影像作为本算法的实验数据,用以验证该算法的有效性。
2.1 阈值分析
合理的阈值T是影像在完整性认证过程中的关键所在。一般来说,随着阈值的增加,所生成的影像感知哈希序列能够容忍更多的失真操作,但同时也会增加影像中局部篡改定位的准确率。因此,选取合理的篡改认证阈值T是提高算法性能关键所在。该阈值要保证能够精确识别影像当中的局部恶意篡改的同时,增加算法对常见的内容保持操作的可容忍性(即鲁棒性)。阈值确定的过程如下。
定义2个集合:W0为未遭遇篡改的格网影像的集合(dis≤T);W1为篡改的格网影像的集合(dis>T)。定义真正率和真假率分别如式(12)、式(13)所示。
Pd=P{dis≤T|W0}
(12)
Pf=P{dis>T|W1}
(13)
对图3中的原始数据,采用部分替换的方式,对原图中的地物进行不同规模的篡改,生成对应的篡改数据集。对于所有格网影像,如图3所示,通过调整欧氏距离,绘制Pd和Pf的变化趋势曲线。从图中可以清楚地观察到,随着阈值T的增大,Pd呈不断增长的趋势,同时当T<2.5时,Pf可以忽略不计。
图3 Pd、Pf、Pm的变化趋势
为进一步确定篡改格网影像和原始格网影像之间的判别阈值,需另外定义假负率Pm,表达如式(14)所示。
Pm=P{dis>T|W0}
(14)
式中:Pm和Pd是两种相对立的情况,即Pm=1-Pd。通常情况下,选择等误差率点(equal error rate point,EERP)作为工作点,即Pf=Pm。本算法中,当T=2.68时,为原始格网影像与篡改格网影像判别的最佳阈值,即上述过程中提到的工作点。
2.2 篡改定位
为验证算法在影像局部篡改定位能力方面的性能,应用上述方式对图3所示的测试数据当中的篡改影像进行局部篡改定位的测试。如图4所示,算法可以在格网的基础上通过格网之间的重叠部分,对影像的局部恶意篡改区域进行更加精细的定位,其中,篡改规模最小的区域只占原始影像的3.31%,这说明,本算法能够识别并定位影像中较为细微的篡改。
图4 影像局部篡改定位结果
另外,本算法可以检测出高光谱影像中的波段删减操作。影像中部分波段被删减后,全体格网影像认证的平均欧氏距离与局部篡改后的全体格网影像的平均欧氏距离的统计结果如表2所示。从表2可以直观地看出,即使影像中仅一个波段的数据被删除,计算得到的平均欧氏距离也远大于篡改影像,这说明该算法可以在实现局部篡改定位的同时,识别出影像的波段删除以及常见的波段重组操作。
表2 影像篡改的平均欧氏距离统计结果
2.3 可分性分析
本文算法主要通过基于影像格网划分的思想完成对影像中局部篡改的定位,而基于影像块的认证算法需要对算法的可分性做进一步的研究[26]。换言之,从同一影像中随机选取一对子块影像,并比较二者之间的感知哈希距离,其目的在于检验算法所生成的感知哈希序列能否正确区别感知上不同的子块影像,这一过程可以体现出算法在块级别上的恶意篡改检测能力。本文对约60 000对子块进行感知哈希序列的度量,最后得到的感知哈希序列度量距离的平均值为4.32,该结果大于设定的篡改判定阈值,说明算法在块级别的影像上具有较好的可分性。
2.4 鲁棒性分析
结合感知哈希的数据完整性认证方法的鲁棒性是指,由于原始数据经过相关内容保持操作之后,数据本身的内容并没有发生改变,或者改变极小且不影响数据的进一步应用,故而最终的认证结果不会将这类数据判定为已篡改数据。通常情况下,遥感影像在实际使用过程中,会出现不同格式以及存储形式的影像数据。与原始影像相比,这类影像本身内容并未遭遇篡改。因此,要保证算法对这类影像的鲁棒性。本算法对影像的DAT格式转换、BIL格式转换、BIP格式转换、BSQ格式转换以及LSB水印嵌入进行了鲁棒性测试。本文采用认证率验证算法的鲁棒性。认证率是影像认证过程中,判定为内容完整的格网影像的数量与总的格网影像数量的比值。鲁棒性测试结果如表3所示。
表3 鲁棒性测试结果 %
2.5 安全性分析
用于影像内容完整性认证的感知哈希算法的安全性是指算法所生成的感知哈希序列的抗伪造能力,具体来说包括:其他不可信任的用户不能仅通过原影像伪造授权用户得到的原始感知哈希序列;感知哈希序列的生成过程应当是不可逆的,即不能通过感知哈希序列还原或伪造原始数据。本文通过Logistic算法对生成的中间感知哈希序列进行加密与置乱,通过这种方式消除了感知哈希序列与对应影像之间的相关性,同时提高了随机性,保证生成的感知哈希序列的抗碰撞性。
3 结束语
本文提出了一种顾及光谱信息的高光谱遥感影像内容完整性认证感知哈希算法,整体上实现了对影像中局部地物恶意篡改的定位,并且对部分常见的内容保持操作具有较好的鲁棒性。本文主要研究了以下内容:研究高光谱遥感影像与其他类型遥感影像之间数据本身的区别,并通过K-均值聚类算法,构建高光谱遥感影像的光谱信息特征描述符;研究Zernike矩在影像空间特征提取过程中的特性,构建高光谱遥感影像的空间特征描述符;影像完整性认证过程中,在格网划分思想的基础上,通过真正率、假正率以及假负率之间的关系确定判定阈值,从而将影像中的局部恶意篡改定位到具体的子块当中。但该算法在地物分类的精度以及其他类型的失真操作的鲁棒性方面需要进一步的提升,从而实现更加精确的影像局部篡改定位。因此,更加精细的高光谱影像光谱特征提取,以及更为鲁棒的影像内容完整性认证算法是下一步研究的重点内容。