复制粘贴音频信号的篡改检测技术研究

2016-08-13何朝霞

中国测试 2016年7期

何朝霞，潘　平，罗　辉

（1.长江大学工程技术学院，湖北荆州 434023；2.贵州大学计算机科学与信息学院，贵州贵阳 550025；3.哈尔滨工业大学计算机科学与技术学院，黑龙江哈尔滨 150001）

复制粘贴音频信号的篡改检测技术研究

何朝霞1，潘平2，罗辉3

根据数字录音设备在录音过程中不仅记录语音内容本身，还携带微弱的电网信号的特点，提出一种基于电网频率的特征提取和复制粘贴篡改检测方法。方法利用Duffing带通滤波器获取携带电网信号的语音信号，然后提取该语音信号的Mel频标倒谱系数（MFCC），最后将特征参数运用于基于量子模距离的判决模型，对音频信号进行复制粘贴篡改检测。通过实验分析，该方法在数字语音删除、复制粘贴篡改检测方面，具有较高的正确率；音频信号越长，检测的正确率越高；MFCC参数提取过程中，帧长和帧移越小，检测的正确率越高。该方法可为音频信号篡改检测提供一个新的研究方向。

篡改检测；特征提取；MFCC；Duffing带通滤波器；量子模距离

0　引　言

随着数字媒体技术的发展，人们已经可以很方便地获取数字音频信号，并利用音频编辑软件对其进行编辑或修改。复制粘贴篡改是对音频信号进行篡改最为简单和直接的方式，可以完全改变原音频信号的内容。这种恶意的篡改行为不仅对语音数据的安全构成威胁，也给司法取证带来了极大困难；所以，语音篡改检测成为学者研究的热点问题。

针对复制粘贴篡改，KRACTZER等［1］分析了语音信号的梅尔倒谱系数（MFCC）和其他几个时域特征，然后根据特征对背景环境进行分类，来判断音频信号是否经过篡改；邵松年等［2］通过分析音频信号中残留的录音设备的本底噪声检测音频信号是否经过篡改。BUCHHOLZ等［3］以傅里叶系数的直方图作为特征对录制音频信号的设备进行分类，从而判断音频信号是否是在同一设备上录制的。MALIK等［4］通过对房间回响的分析，检测音频信号是否拼接而成。近年来，基于电网频率的音频信号篡改检测方法颇受关注，该方法首先由Grigoras［5］提出。Grigoras认为，录音设备由电网供电，携带微弱的当地电力系统频率为50Hz或60Hz的交流电压信号即电网信号，这个频率即称为电网频率，所以数字录音设备在录音过程中不仅记录语音内容本身，而且还携带电网信号；因此，可以通过比对从音频信号中提取的电网频率轨迹和电网频率数据库中该音频信号录制时间段内电网频率轨迹，来判断音频信号是否经过篡改。文献［6-7］认为，可采用将语音信号通过带通滤波器的方法提取微弱的电网信号。刘育民等［8］改进短时傅里叶变换，采用窗函数法设计带通滤波器，利用两阶段电网频率估计，减少了运算量的同时能获得满意的频率估计效果。李金凤等［9］提出了一种基于MFCC系数相关性的语音感知哈希内容认证算法，其中的相似性度量函数对语音篡改检测定位具有较高的灵敏性。

本文作者前期将Duffing共振理论运用到提取MFCC参数的过程中，得到改进的MFCC特征参数，运用到说话人识别系统中，验证得到了良好的识别性能［10］。其中的Duffing共振系统就是一带通滤波器［11-12］，通过参数的设置，本文试图将语音信号通过Duffing带通滤波器，获取携带电网信号的语音信号，然后再提取该语音信号的MFCC参数，最后将特征参数运用于基于量子模距离的判决模型［13］，对音频信号进行复制粘贴篡改检测，与文献［8］的方法进行对比，验证和分析本文方法的有效性和实用性。

1　基于Duffing共振的电网信号检测

式中：γ——阻尼系数；

κ，ζ——常数；

Fcos（Ωt）——系统的外力项；

Ω——外力项频率。

式（1）中正、负号分别表示硬弹簧和软弹簧两种情况。理论上，在线性系统中当强迫力的频率与系统本身的频率相同时，系统会出现共振现象，在非线性系统中也会出现类似的情况。

无阻尼Duffing方程的通解为

式中：α——振幅；

ω——角频率；θ0——初始相位。

考虑有外力驱动的情况（式（1）），即当式（2）中ω=Ω时系统发生共振，中国的电网频率值f=50 Hz，所以Ω=2πf。

以式（2）中x（t）作为Duffing共振系统的单位脉冲响应h（t），对h（t）进行采样，得到离散Duffing共振系统的单位脉冲响应h（n），然后对h（n）傅里叶变换。图1为频率为50Hz的Duffing共振系统幅频特性曲线。

Duffing方程的一般形式［14］为

图1　Duffing共振系统的幅频特性曲线

由图可知，Duffing共振系统就是一带通滤波器，通带内的衰减较大，具有较好的频率选择性。

文献［8］基于电网频率的数字录音真伪鉴别研究中，采用窗函数法设计带通滤波器，考察了4种常见的窗函数，即矩形窗、汉宁窗、汉明窗和布莱克曼窗。其中布莱克曼窗在提取微弱的电网信号方面，具有最小的相对误差。本文算例分析采用随机生成的正弦信号，补零系数在0～10变化，步长为0.2。给定某一补零系数，算法循环100次，然后用布莱克曼窗和Duffing带通滤波器提取正弦信号的频率，取相对误差的最大值以检验算法的准确性，通过该值反映频率估计的结果。两种带通滤波器的最大相对误差比较如图2所示。

由图可知，基于Duffing共振系统的微弱电网信号提取方法具有可行性。

图2　两种带通滤波器的最大相对误差的比较

2　音频信号的特征提取

本文的音频信号特征提取方法如图3所示。

具体实现步骤如下：

1）语音信号经过抗混叠、预加重等预处理后，重采样，经过Duffing带通滤波器，获取包含微弱电网信号的语音信号。

2）将获取的语音信号加窗分帧变为短时信号，进行快速傅里叶变换（FFT）转化为频域信号，求出频谱平方，即能量谱，并通过Mel频率滤波器组得到Mel频谱，并通过对数能量的处理得到对数频谱。

图3　基于Duffing共振的MFCC参数提取流程

3）将上述对数频谱经过离散余弦变换（DCT）得到L个Mel频率倒谱系数。MFCC系数为

4）将这种直接得到的MFCC特征作为静态特征，再将这种静态特征做一阶差分，得到相应的动态特征。

5）对提取出的MFCC静态特征、一阶差分，合并作为复制粘贴篡改检测的特征参数。

3　实验和分析

3.1实验可行性分析

有5段待检测录音音频，都为同一人的录音，编号为1，2，3，4，5。所采用的语音编辑软件为Cool Edit Pro V2.1简体中文版。其中，录音1为未经过篡改的原始录音，内容为“一二三四零”。其余4段录音都是以录音1为基础，在Cool Edit Pro V2.1简体中文版上进行了编辑，录音2是对录音1进行复制粘贴操作，内容为“一二一三四零”；录音3是对录音1进行复制粘贴操作，内容为“一二二三四零”；录音4是对录音1进行删除操作，内容为“一三四零”；录音5是对录音1进行了删除操作，内容为“二三四零”。

图4为音频信号按照图3提取的特征参数。特征参数提取过程中，将经过Duffing带通滤波器的语音信号加汉明窗，256点作为1帧，帧移80点，Mel滤波器组的阶数为24。

观察图4，比较原始录音信号与复制粘贴篡改音频信号的特征参数，特征参数的部分区域的幅度发生了明显的变化，见图中标注处，而其他区域的特征参数的幅度相差不大。

图5为音频信号经过Duffing带通滤波器后加汉明窗，128点作为1帧，帧移40点，Mel滤波器组的阶数为24获得的特征参数。

观察图5，对比原音频信号和篡改音频信号的特征参数，大部分帧的特征参数幅度接近，仅有部分区域的幅度发生了明显变化。综合图4和图5，该特征参数提取方法能检测出语音信号是否被篡改，从而确定信号的真实性；同时，帧长和帧移较小时，获取的特征参数细节更丰富。

3.2实验比较和分析

本文进行了大量实测，测试的基础是语料库，语料库包括100段10min的长语音，100段1min的短语音和100段5s的短句。这些语音信号部分是原始语音，部分是在原始语音基础上利用Cool Edit Pro V2.1软件进行了删除、复制粘贴等操作。利用基于量子模距离的判决模型对音频信号进行检测，具体的模型如图6所示。

图4　256点作为1帧，帧移80点的特征参数

图5　128点作为1帧，帧移40点的特征参数

利用本文的方法和文献［8］方法，对所用的语音信号进行篡改检测，检测正确率如表1所示。

文献［8］中，语音文件采用Free Sound Recorder录制，16位PCM WAV格式，采样频率为44，100Hz。

图6　音频信号量子模距离篡改检测模型

表1　篡改检测正确率

由表可知，本文方法具有以下特点：1）在数字语音删除、复制粘贴篡改检测方面，具有较高的正确率；2）针对不同长度的音频信号，检测正确率有所区别，音频信号越长，检测的正确率越高；3）MFCC参数提取过程中，帧长和帧移越小，检测的正确率越高。但同时也存在着问题：MFCC参数提取过程中，帧长和帧移较大的情况下，复制粘贴篡改检测的正确率低于文献［8］检测方法的正确率，只有当帧长和帧移足够小的情况下，复制粘贴篡改检测的正确率才高于于文献［8］检测方法的正确率。

4　结束语

本文提出将基于Duffing共振的MFCC特征参数运用于量子模距离的判决模型，通过判决结果检测音频信号是否经过篡改操作，并且具有较高的检测正确率。在以后的实验和仿真过程中，将不断改进特征参数提取算法和检测算法，探讨其他的数字录音篡改检测。

［1］KRACTZERC，OERMANNA，DITTMANN J，et al. Digital audio forensics：a first practical evaluation on microphone and environment classification［C］∥Procedings of the 9th Workshop on Multimedia&Security.New York：ACM，2007：63-74.

［2］邵松年，黄征，徐彻，等.数字音频与录制设各的相关性研究［J］.计算机工程，2009，35（19）：224-226.

［3］BUCHHOLZR，KRAETZERC，DITTMAN J.Microphone classification using Fourier coefficients［M］.InformationHiding：LectureNotesinComputerScience. Berlin：Springer Berlin Heidlberg，2009：235-246.

［4］MALIK H，FARID H.Audio forensics from acoustic reverberation［C］∥InternationalConferenceonAcoustic，Speech，and Signal Processing.IEEE，2010：1710-1713.

［5］GRIGORAS C.Applications of ENF analysis in forensic authentication of digital audio and video recordings［J］. The Journal of Audio Engineering Society，2009，57（9）：643-661.

［6］HUIJBKEGTSE M，GERADTS Z.Using the ENF criterion for determining the time of short digital audio recordings［M］.Compwtational Forersics.Berlin：Sprirger Berlin Heidelberg，2009：116-124.

［7］RODRIGUEZ D P N，APOLINARIO J，BISCAINHO L. AudioAuthenticity：DetectingENFdiscontinuitywith high precisionphaseanalysis［J］.IEEE Transaction on Information Forensics and Security，2010，5（3）：534-543.

［8］刘育明，姚陈果，孙才新，等.基于电网频率的数字录音真伪鉴别研究［J］.仪器仪表学报，2013（6）：1434-1439.

［9］李金凤，吴涛，王宏霞.基于MFCC相关系数的语音感知哈希认证算法［J］.北京邮电大学学报，2015（2）：89-93.

［10］何朝霞，潘平.说话人识别中改进的MFCC参数提取方法［J］.科学技术与工程，2011（18）：4215-4217.

［11］潘平，何朝霞.基于Duffing随机共振的说话人特征提取方法［J］.计算机工程与应用，2012（35）.

［12］张贺，沈天飞，滕秋霞.小词汇量孤立词语音识别系统多种特征组合参数的选择方法研究［J］.电子测量技术，2015 （3）：48-53.

［13］罗辉，潘平，王洋.基于量子模距离的说话人识别方法［J］.计算机工程与科学，2014，36（1）：39-43.

［14］王海波.Duffing方程非线性振动特性的计算与分析［D］.西安：西安建筑科技大学，2009.

（编辑：莫婕）

Study on tamper detection technology for audio signal copying and pasting

HE Zhaoxia1，PAN Ping2，LUO Hui3
（1.College of Technology&Engineering，Yangtze University，Jingzhou 434023，China；2.Computer Science and Information Institute，Guizhou University，Guiyang 550025，China；3.School of Computer Science and Technology，Harbin Institute of Technology，Harbin 150001，China）

Aiming at the condition that the digital recording equipment not only records the contents of the voice during the recording process but also carries weak power network signals，a feature extraction and copying and pasting tamper detection method based on power frequency is put forward.The method obtains the audio signal carrying power network signal through the Duffing band-pass filter and then extracts the Mel frequency cepstrum coefficient（MFCC）of the audio signal and applies the characteristic parameters to judgment model based on quantum module distance，and finally conducts copying and pasting tamper detection for the audio signal. Through experimental analysis，it was found the method has high accuracy in the aspect of digital voice deletion，copying and pasting tamper detection，longer the audio signal is，higher the detection accuracy will be，smaller the frame size and frame shift during MFCC parameter extraction process are，higher the detection accuracy will be.The method provides a new research direction for the audio signal tamper detection.

tamper detection；feature extraction；MFCC；Duffing band-pass filter；quantum module distance

1674-5124（2016）07-0107-05

10.11857/j.issn.1674-5124.2016.07.022

2015-12-12；

2016-01-20

贵州省科学技术基金项目（黔科合J字［2012］2132）；贵阳市科技计划项目（筑科合同［2011101］1-2号）；长江大学工程技术学院科学研究发展基金（15j0401）

何朝霞（1984-），女，湖北黄冈市人，讲师，硕士，研究方向为语音信号处理。