JPEG压缩对相机型号来源取证的影响分析
2016-11-03王波殷建峰李亚宾
王波,殷建峰,李亚宾
(大连理工大学信息与通信工程学院,辽宁 大连 116024)
JPEG压缩对相机型号来源取证的影响分析
王波,殷建峰,李亚宾
(大连理工大学信息与通信工程学院,辽宁 大连 116024)
针对实际取证场景中经网络传输的JPEG压缩图像,分析了基于彩色滤波阵列(CFA)插值系数特征、局部二进制模式(LBP)以及图像质量(IQM)和高阶小波统计特征这3种典型的相机型号来源取证方法的性能,评估了社交平台和网络媒体情况下已有来源取证算法的性能。实验结果表明,随着图像压缩质量的下降,相机型号来源鉴别准确率迅速下降,已有方法在实际应用中的性能仍然有待提高。
相机型号来源取证;JPEG压缩;彩色滤波阵列;局部二进制模式;图像质量测量;小波变换
在现实生活中,随着社交平台不断发展,微信、QQ、微博几乎成为多数人日常生活的重要组成部分。与此同时,网络数字媒体蓬勃壮大,无论是使用范围、生成数量还是影响力,都大大超越了传统媒体,甚至有将传统纸媒取而代之的趋势,人们所获得的信息大多来自于网络,真相和流言也往往始于网络。数字图像在网络中传播的过程中,出于传输速率、网络存储能力以及数据流量限制等方面的考虑,可能经历了尺寸变换、压缩、润色等图像处理过程,JPEG便是常用的一种压缩标准。但由于用户终端屏幕分辨率等因素的限制,这些经过压缩的图像并不会产生明显的视觉差异,依然保持了良好的显示效果。鉴于实际需要进行相机来源鉴别的数字图像往往是这些从网络获得的经过压缩的数字图像,它们的数据特性和统计分布与原始图像存在一定差异,因此目前性能优秀的各种实现相机来源鉴别方法的有效性和可靠性有必要进行重新评估,增强相关算法对于JPEG压缩图像的顽健性,真正地实现对普遍的JPEG压缩图像也能获得良好的性能才更具有实用价值。
2 相机型号来源鉴别算法
为了测试JPEG压缩图像对相机型号来源鉴别的影响,本文使用典型的3种方法:基于彩色滤波阵列插值系数特征、基于局部二进制模式特征、基于图像质量测量(IQM)结合高阶小波统计特征,利用SVM分类器进行训练和测试,评估3种方法对于压缩图像的顽健性。下面对这3种方法的核心特征进行介绍。
2.1 彩色滤波阵列插值
目前,市场上的数码相机往往在感光器件前端放置一个彩色滤波阵列,以便在一个像素点获得RGB中的某一个颜色分量,随后通过CFA插值算法估计出该像素点另外2个颜色分量。CFA的排列、对应的滤波模式及插值算法决定了获取图像数据的统计特征。王波等[8]在2009年针对CFA插值系数的估计和插值算法的盲检测问题,提出了一种基于协方差矩阵的CFA插值盲检测方法,其核心思想是将协方差矩阵引入插值系数方程的建立和求解当中。对于不含噪声、未压缩的CFA插值图像,该算法的检测准确率高达99%。
利用文献[8]中的思路,采用线性插值模型对插值系数进行估计。以G通道为例,设选择邻域为(2k+1)(2k+1)大小,待插值点为(m,n)点,则CFA插值的一般模型如下。其中,ag、ar、ab分别表示插值的权值系数,
i,j i,j i,j r、g、b分别代表红色、绿色、蓝色通道像素值。对于给定的数字图像,利用文献[4]给出的方法,将240维CFA插值系数的均值和240维插值系数的方差构成480维特征向量,从而鉴别相机来源。
2.2 局部二进制模式
文献[5]中提出了一种基于LBP的相机来源鉴别算法。该算法考虑每个点与8个邻域数据点之间关系,构成包含相机成像过程中遗留痕迹的模型,该模型可以被定义为
其中,R代表邻域半径,P代表圆上的样本点数,设置P=8,R=1。gc和gp分别代表中心像素点的灰度阶和邻域像素点的灰度阶,LBP特征的星座图分布如图1(a)所示。
图1 LBP特征星座图
定义函数S为
计算中心像素点与周围点的差值,并根据函数S进行二值量化和编码,就可以获得如图1(b)所示的LBP模型。理论上共可获得256(256=28)种可能的LBP分布模型,将其中出现频率较高的部分记为“uniform”的LBP,其余为“non-uniform”的LBP。对其中出现频率较高的59个模型进行统计,构成59维的特征。在红色和绿色2个颜色通道,分别从空域图像、经过预测误差处理的图像、经过一阶小波变换的图像中提取该特征获得354(354=59×3×2)维特征[9]。
2.3 图像质量特征与高阶小波特征
孙雪辉[10]指出,数码相机几乎全部采用了12位模数转换器(ADC, analog to digital converter),会引入颜色丢失和噪声增强,因此图像质量评价也可作为相机来源鉴别的特征。图像质量特征是评价图像质量客观性的方法和手段,通过量化描述这些不可察觉的差异,不仅可以对图像的感知变化进行评价,还可以分析不可感知的变化。本)文也采用文献[11,12]中13维的图像质量特征,如表1所示。
表1 13维图像质量特征的构成
Lyu等[13]认为不同的图像采集设备成像过程中会引入不同的设备特征,并可以在频域的不同方向和尺度得到反映,基于此,他们使用多尺度小波变换提取了高维统计特征来描述设备差异。Wang等[14]认为数码相机成像过程的内在缺陷和图像处理可以用于实现相机来源鉴别,于是提取了高阶小波特征和小波系数特征作为特征向量。本文对图像进行4阶小波变换,选择RGB三色通道的第4层低频系数、水平高频系数、垂直高频系数、对角高频系数的均值、标准差、斜度、峰度作为特征,共形成48(48=3×4×4)维高阶小波统计特征。均值、标准差、斜度、峰度的计算方法如下式(4)~式(7)中,Hk(i, j)表示水平分量,c和r分别表示其行数和列数。
本文实验结合以上2种特征,共获得61(61=13+48)维图像特征。
3 实验模型与结果
3.1 实验设置与参数
本文采用来自“Dresden Image Dataset”[15]图像库的5个相机型号的图像,每个型号选取350幅JPEG图像构成实验数据库,如表2所示。
表2 实验数据库
实验中采用的SVM分类器为LIBSVM-3.21。在实验中,随机选取每种相机的250幅JPEG图像作为分类器的训练样本,剩余100幅图像作为原始测试样本。
在仿真实验中,以待测试原图相机来源鉴别准确率为基础,设置8个对照组。每个实验组共500(500=100×5)幅测试图像,共进行27组实验。表3为仿真实验测试图像的相关信息。
表3 仿真实验测试图像
在实际社交平台的图像实验中,每类相机随机选择20幅图像,选择最常用的社交媒体微信、QQ和微博,在Wi-Fi环境下对测试图像进行上传/下载或传送,获得经过社交平台处理的JPEG图像。每个测试组为100(100=20×5)幅图像,共进行9组实验,与待测试原图相机来源鉴别准确率做对照。其中,微信平台为安卓客户端,QQ平台为电脑客户端,微博平台为电脑浏览器网页端。同时,为了避免社交媒体传送时图像分辨率的变化对实验结果的影响,测试图像统一从原始图像左上区域选取1 024×1 024像素大小的子图像,然后进行社交媒体的传送压缩。表4为经过社交媒体压缩后的实验测试图像的相关信息。
表4 实际实验测试数据
3.2 实验结果与分析
如上所述,为了完成基于CFA插值特征、LBP特征、IQM结合高阶小波特征的相机来源鉴别方法在面对JPEG压缩图像时的性能比较和评估,本文按照第2节给出的实验设置,分别基于3类特征完成了36组测试实验。实验结果如表5、图2和图3所示。
表5 各测试组平均相机来源鉴别准确率
仿真实验结果表明,对于原始图像测试,3类算法均可达到比较好的性能:基于CFA插值特征鉴别准确率达到99.4%;基于LBP特征鉴别准确率达98.0%;基于IQM结合高阶小波特征略逊一筹,也达到了84.8%。
图2 相机型号来源取证准确率随JPEG图像压缩质量变化的关系
整体来看,随着JPEG图像质量因子的下降,3类算法的鉴别准确率也迅速下降,尤其在图像质量因子由95下降至90时,3类算法的鉴别准确率从80%左右快速降至50%左右,图像质量因子下降至65时,3类算法的鉴别准确率基本已经稳定在20%左右,几乎相当于对测试样本随机分类。
相对而言,基于IQM结合高阶小波特征的鉴别准确率随JPEG图像质量因子的下降变化更为缓和,但也明显不能满足现实需要。基于CFA特征的鉴别尽管在原始图像测试条件下获得了最高的准确率,但当JEPG图像质量因子下降时,其准确率下降也最为剧烈,难以在现实中实现应用。这表明单纯依赖相机参数的特征在面对JPEG压缩图像时的顽健性更差。
3类算法的相机来源鉴别准确率随JPEG图像质量因子的变化趋势和3类算法性能的横向比较如图2所示。
实际实验结果显示,对于从普通社交平台微信、QQ、微博获取的图像,相机来源鉴别结果的准确率与其压缩算法有很大关系,不同社交媒体下的实验结果差异很大。对于通过微博压缩的图像进行相机来源鉴别,基于CFA特征的鉴别准确率较高,为95.0%。此时基于IQM结合高阶小波特征的准确率明显下降,仅有58.0%,基于LBP特征的鉴别准确率为84.3%,与质量因子为95的标准JPEG压缩试验结果相近。读取压缩图像的量化表并与标准量化表对比,发现微博对原图进行了质量因子为95的压缩,此时的鉴别准确率也与测试实验相符。同样地微信对话对图像进行压缩的质量因子为90,此时3类特征的鉴别准确率都略高于50%,但并不具有实际应用的意义。而经过QQ对话压缩的图像,鉴别准确率已降至25.0%左右,接近于统计学上随机分类的概率。现有算法对社交媒体压缩图像的来源鉴别准确率仍有待提高。
从社交平台获取的图像与原始图像相机来源鉴别准确率对比如图3所示。
图3 社交平台压缩图像与原始图像相机型号来源取证准确率对比
图4~图6的混淆矩阵清晰地展现了每一类图像的相机来源鉴别的结果。其中,对角线代表测试图像被正确分类的百分比,其他则代表错误分类的百分比。
图4 CFA特征检测混淆矩阵
图5 LBP特征检测混淆矩阵
图6 IQM+高阶小波特征检测混淆矩阵
4 结束语
本文针对JPEG图像压缩质量对相机来源鉴别的影响,对基于CFA插值系数特征、基于LBP特征、基于IQM结合高阶小波特征在不同JPEG图像压缩质量下进行相机来源鉴别3种算法的性能进行了比较和评估。随着JPEG图像压缩质量的下降,3种算法性能迅速下降,在质量因子约为85时性能已经非常不理想,而在面对实际网络社交平台的测试图像时,算法性能与社交媒体压缩算法有很大关系,但基本与实验中相同质量因子的准确率相符,当社交媒体对图像的压缩因子小于90后,已难以在现实情境中满足相机来源鉴别的需求。因此,目前使用的相机来源鉴别的相关算法亟待改进。
[1] PIVA A. An overview on image forensics[J]. ISRN Signal Processing, 2013, (1): 1-22.
[2] 王波. 利用成像引入特征的数字图像被动盲取证研究[D]. 大连:大连理工大学, 2010. WANG B. Study on passive and blind digital image forensics using characteristics introduced by image formation[D]. Dalian: Dalian University of Technology, 2010.
[3] KOT A C, CAO H. Image and video source class identification[M]// Digital Image Forensics. New York:Springer Press, 2013: 157-178.
[4] SWAMINATHAN A, WU M, LIU K J R. Nonintrusive component forensics of visual sensors using output images[J]. IEEE Transac-tions on Information Forensics and Security, 2007, 2(1): 91-105.
[5] XU G, SHI Y Q. Camera model identification using local binary patterns[C]//IEEE International Conference on Multimedia and Expo(ICME). 2012: 392-397.
[6] KHARRAZI M, SENCAR H T, MEMON N. Blind source camera identification[C]//IEEE International Conference on Image Processing (ICIP). 2004: 709-712.
[7] SAN C K, LAM E Y, WONG K K Y. Automatic source cameraidentification using the intrinsic lens radial distortion[J]. Optics Express, 2006, 14(24): 11551-11565.
[8] 王波, 孔祥维, 尤新钢, 等. 基于协方差矩阵的CFA插值盲检测方法[J]. 电子与信息学报,2009,31(5):1175-1179. WANG B, KONG X W, YOU X G, et al. Blind CFA interpolation detection based on covariance matrix[J]. Journal of Electronics and Information Technology, 2009, 31(5):1175-1179
[9] TAN Y, WANG B, LI M, et al. Camera source identification with limited labeled training set[C]//The 14th International Workshop on Digital-forensics and Watermarking, Tokyo. 2015.
[10] 孙雪辉. 利用多特征和软件成像的手机图像盲取证技术[D]. 大连: 大连理工大学,2010. SUN X H. Blind cell-phone image forensics based on multi- features and soft-imaging[D]. Dalian: Dalian University of Technology,2010.
[11] ISMAIL A. Steganalysis using image quality metrics[J]. IEEE Transactions on Image Processing, 2003, 12(2):221-229.
[12] ESKICOIGLU AM, FISHER P S. Image quality measures and their performance[J]. IEEE Transactions on Communication, 1995,43(12): 2959-2965.
[13] LYU S, FARID H. How realistic is photorealistic[J]. IEEE Transactions on Signal Processing, 2005, 53(2): 845-850.
[14] WANG B, GUO Y Q, KONG X W, et al. Source camera identification forensics based on wavelet features[C]//International Conference on Intelligent Information Hiding and Multimedia Signal Processing, Kyoto. 2009:702-705.
[15] GLOE T, BOHME R. The dresden image database' for benchmarking digital image forensics[J]. Journal of Digital Forensic Practice,2010, 3(2-4):150-159.
王波(1981-),男,四川自贡人,大连理工大学副教授,主要研究方向为数字图像取证、信息隐藏与信息隐藏分析。
殷建峰(1994-),女,山西太原人,大连理工大学本科生,主要研究方向为数字图像取证。
李亚宾(1994-),男,河南漯河人,大连理工大学硕士生,主要研究方向为数字图像取证。
Performance evaluation for JPEG compression on model-based source camera identification
WANG Bo, YIN Jian-feng, LI Ya-bin
(School of Information and Communication Engineering, Dalian University of Technology, Dalian 116024, China)
Focusing on JPEG images transferred by social platform and network media from actual forensic cases,quantities of simulation experiments were carried out to evaluate the performance of three typical methods of model-based source camera identification. The methods are based on the feature of interpolation coefficients of color filter array (CFA), local binary pattern (LBP), and image quality measurement (IQM) with high-order wavelet statistic features. The experiments demonstrate that the accuracy decreases rapidly with the compression quality of images decreasing. As a result, methods of model-based source camera identification currently used are demanded better performance in practical scenes.
model-based source camera identification, JPEG compression, color filter array, local binary pattern,image quality measures, wavelet transform
1 引言
网络信息时代给人们的生活带来了极大的便利,数字图像已经成为了信息的重要载体。同时,各种图像处理编辑软件和应用迅速普及,图像的篡改和伪造变得非常容易和便捷。近年来,在新闻、政治、司法以及科学等领域层出不穷的篡改伪造数字媒体所引发的各类事件,冲击着人们对新闻、司法乃至社会诚信体系的信心。也正因为数字媒体完整性和真实性分析的急切需求,催生了数字内容取证技术的迅速发展[1]。相机型号来源鉴别是其中一个重要方面,并且应运而生了各种实现相机来源鉴别的方法。现有的相机来源鉴别主要划分为[2]:设备类型鉴别、设备型号鉴别、设备个体鉴别。本文仅讨论设备型号的鉴别。相机来源鉴别通常被建模为机器学习中的分类问题[3]。Swaminathan等[4]通过建立线性模型来对彩色滤波阵列(CFA,color filter array)插值系数进行准确估计,获得了在19个相机型号下90%的平均鉴别准确率。Xu等[5]提出利用局部二进制模式(LBP,local binary pattern)作为来源鉴别的统计特征,在18个相机型号样本的情况下,获得了高达98%的平均鉴别准确率。Kharrazi等[6]提取了数字图像中的颜色特征、图像质量特征以及高阶小波特征共34维,获得了88.0%的平均鉴别准确率。Choi等[7]将不同型号数码相机的镜头失真作为来源鉴别的核心特征,提取数字图像中直线信息的失真来量化描述镜头的失真,进而区分和鉴别不同型号数码相机拍摄的图像,测试结果准确率达到96%。尽管这些方法在十几个相机类别的情况下,都取得了较优的性能,但这样的结果大多都是基于实验样本来自拍摄设备的原始图像。
s: The National Natural Science Foundation of China (No.61502076), Scientific Research Foundation of the Education Department of Liaoning Province (No.L2015114)
TN911.73
A
10.11959/j.issn.2096-109x.2016.00100
2016-07-12;
2016-08-19。通信作者:王波,bowang@dlut.edu.cn
国家自然科学基金资助项目(No.61502076);辽宁省教育厅科学研究基金资助项目(No.L2015114)