数字录音真实性司法鉴定研究现状
2014-10-26曾锦华施少培杨旭奚建华卞新伟卢启萌
曾锦华,施少培,杨旭,奚建华,卞新伟,李 岩,卢启萌
(司法部司法鉴定科学技术研究所,上海200063)
1 数字录音真实性研究现状
数字录音可分为目标语音要素、设备要素、环境要素以及数字信号要素等部分组成。数字录音真实性检验主要依据录音中各要素的真实性分析实现篡改检测和定位。目标语音要素中的说话人语音真实性分析可以通过声纹鉴定技术实现;设备要素中的本底噪声以及特征信号的真实性问题可以通过录音设备鉴定技术进行分析;录音环境和数字信号要素的真实性分析技术目前主要通过信号提取和统计计算实现。在此仅对录音中的设备要素、环境要素和数字信号要素的真实性检验和分析技术进行简要的论述。
1.1 录音设备鉴定技术
录音设备通常包含信号采集和量化部件即麦克风、信号编码和信号存储等基本组件。采用特定设备录制的录音必然会携带设备相关的附属信息,包括信号量化、编码和存储等设备软硬件特征。基于录音设备分析的检验技术为录音真实性鉴定提供了重要的检验角度。信号编码特征中,每个录音设备均具有特定的编码格式,如无损音频编码格式和MP3格式等;在信号存储部分,录音设备的操作系统赋予录音文件特定的属性,如文件名命名方式、创建和修改时间等文件属性信息。
在录音设备识别研究方面,目前领域内更多的关注于麦克风的分类。Kraetzer等[1]利用数字录音信号中的7个时域特征和56个梅尔倒谱域特征进行麦克风和录制环境分类,实验中使用4个麦克风在10个不同的场景进行实验样本录音录制,实现贝叶斯分类器进行麦克风分类的准确性在61.37%~75.99%范围。Buchholz等[2]通过分析录音的背景噪声片段中的傅里叶因子特征研究麦克风的分类问题,实验中使用2 048个频率因子统计特征并利用logistic回归模型对7个不同厂商的麦克风实现了93.5%的分类准确性。文献[3]通过线性和梅尔尺度倒谱因子使用支持向量机方法分别实现8个固定电话听筒和8个麦克风的准确分类,分类准确性均达到90%以上。Malik和Miller[4]利用多谱分析技术并使用基于距离和相关性的相似性度量方法,实现对8个麦克风的100%的分类。王志锋等[5]通过谱减法分析录音中静音段的设备相关特征实现了9个录音设备的平均识别率为87.42%的分类。
1.2 录音环境的真实性分析技术
录音环境信息包括背景声音和录音环境的客观特性信息,如时间、空间和电磁场等。传统的录音真实性鉴定技术中,环境相关的背景声音的连续性和一致性为基于听觉检验的真实性鉴定提供重要线索。录音环境的客观特性作为数字录音的无形“水印”,通过特定技术分析还原的录音环境客观特性,为数字录音真实性鉴定提供了可行的判断指标,成为当前该领域的研究热点。环境相关的空间信息特性研究中,目前主要利用声音的反射特性[6],通过建模计算声音信息的衰减系数,以此来还原录音环境的不同空间配置信息,该技术目前还停留于理想条件下的音频信息处理,对现实场景的应用缺乏更准确的计算模型。环境相关的电磁场信息提取研究中,鉴于电磁场分布的普及程度和一致性,目前研究对象主要集中于电网频率(ENF)的提取[7-10],主要计算步骤包括音频信号下采样、电网频率范围带通滤波、信号分帧、帧内短时傅里叶变换以及帧内峰值频率估计等。通过一定时间范围内的电力网络频率估计值与对照值的比对,实现录音时间的估计。基于ENF技术的音频真实性鉴定,主要是验证检材录音的完整性和录音时间与检材描述的一致性问题。该技术存在的缺陷包括检材录音的时长要求和电力网络频率数据库的维护等,且特定的压缩算法会破坏该特征的信号提取。
1.3 录音数字信号的真实性分析技术
录音数字信号要素的真实性分析技术目前主要研究录音信号的相似性检测、压缩特征以及其它的信号统计特性等,具体包括重压缩特征识别[11-14]、录音文件初始比特率计算[15]、针对特定压缩算法的帧偏移检测[16],以及信号高阶统计特性分析等。压缩格式的数字录音篡改通常伴随着信号压缩、解压和重压缩的处理过程[17]。重压缩特征识别主要是分析基于信号量化操作引起的、区别于单次压缩操作的特定指标的增减,实现音频文件压缩特征的判断。针对特定压缩算法的帧偏移检测技术,目前主要针对MP3等基于分帧操作的压缩处理算法的音频信号分析,可以实现删减、插入、替换和拼接等伪造手段的检测。另一方面,自然的、未经过篡改的音频信号被认为是只具有微弱的高阶关联特性,对音频信号的人为篡改会引入其它的高阶关联特征[18],通过分析数字音频信号的高阶统计特性可以检测录音是否经过人为篡改。
2 数字录音真实性司法鉴定实践技术
2.1 专家经验检验技术
人耳与大脑组合被认为是世界上最精密的声音感知“设备”,听觉检验是录音真实性分析的基本且重要的方法。通过听觉检验,可以对检材录音的总体情况、目标语音、背景声音以及特殊信号等要素进行感知理解;对录音中的底层信息如录音质量、背景噪音、声音连贯性以及特殊信号等进行评估。同时,对录音中的高层信息如对话内容、语义连贯性和情感感知等进行分析。其不足之处在于性能的不稳定性和处理效率问题上:一方面,个体的听觉信息处理能力的差异性以及大脑的警觉程度都会影响听觉检验的效果;另一方面,在处理长时录音的听觉检验上,检验者耗时较长且任务繁重。
波形和频谱图检验是数字录音真实性分析的又一重要手段,通过数字信号处理软硬件支持,检验者可以直观的对数字录音信号的波形随时间变化关系,以及信号的能量、频率以及时间相互间的关联进行视觉检验(见图1~2)。该方法可以对目标声音和背景噪声的连续性和一致性进行很好的视觉评估,同时,对底层的录音信息,如录音质量、频率响应特性以及特殊信号等进行直观把握。同听觉检验一样,该方法需要较多的人为参与和经验分析。
图1 数字录音波形图
图2 数字录音频谱图
随着录音设备的电子化趋势,大部分录音设备均具有文件操作系统管理录音设备,电子数据检验技术可以对送检的录音设备进行检验,主要包括电子数据恢复、提取以及录音文件的属性检验。删除数据的恢复可以发现潜在的初始录音文件,同时,对录音文件的属性检验可以观察到录音文件的重命名、拷贝和文件修改等操作。相对于上述提及的听觉检验以及波形和频谱检验,电子数据检验是录音真实性检验技术中的重要手段和强有力支撑。
2.2 统计量化检验技术
随着数字信号编辑软件和技术的平民化趋势,现有的专家经验检验技术在当前录音真实性司法鉴定实践中面临着新问题的挑战。模式识别和人工智能等领域的前沿发展为数字录音真实性鉴定提供了可行的检验方案,具体包括:
2.2.1 相似性检验技术
相似性检验技术可以自动检测录音中感兴趣语音信息的所有具有一定相似性的声音片段,并给出具体量化的相似性值。简单的处理策略可以实现为:感兴趣语音片段检测,比如对话录音中通过静音段即对话间隙的过滤实现语音片段的提取。
在感兴趣语音片段中,选取预处理录音片段与所有录音数据进行相似性度量,相似性度量可以在录音信号的时间或频率域进行比较,度量方式可以选择相关性度量或其他的相似性度量方法。
笔者所在的声像资料鉴定实验室通过数字录音信号自相关度计算,并用卷积运算加快算法处理效率,实现数字录音的相似性检验,检验效果如图3所示。该方法可以有效的检测录音信号的“拷贝-粘贴”操作,且对平滑和消隐等后处理操作具有一定的鲁棒性。
图3 录音信号相似性检验工具
2.2.2 录音设备检验技术
录音设备检验技术主要是通过设备相关的特征提取并结合机器学习和分类方法实现录音设备识别,典型的特征包括时域特征、频域特征和梅尔倒谱域特征。
时域特征可以进一步分为信号能量、过零率、信号采样直方图以及采样分布中心等特征。特定的录音设备通常具有各自的数字信号分布特征。通过采样直方图和采样分布中心的统计计算可以对检材录音是否来源于声称的录音设备进行初步判断,某段录音的采样直方图和采样分布中心见图4~5。
图4 录音的采样直方图
图5 采样分布中心即DC偏移检测,用红线标示
频域特征包含平均频谱统计特征、频率谱熵特征以及频率变化特征等,设备相关的频率特征主要是通过背景噪声片段的离散傅里叶变换进行计算。某录音段的平均频谱统计特征、频率谱熵特征以及频率变化特征见图 6~8。
图6 平均频谱统计特征
图7 频率谱熵特征
图8 频率变化特征
笔者所在的声像资料鉴定实验室通过录音中背景噪声片段的平均频谱统计特征和频率变化特征的提取,并使用支持向量机方法实现了最高准确性分类达96.72%的21种录音笔的分类,并在相关的录音设备可分性研究成果基础上,提出了录音设备鉴定的技术实施方案。
梅尔倒谱域特征主要是通过录音中的目标语音段的梅尔倒谱系数计算实现,相关的工作可以借鉴文献[3]。
2.2.3 其他统计检验技术
基于录音环境和数字信号分析的录音真实性检验技术,如录音环境分类、基于电网频分析的录音时间估计、数字录音的重压缩特征检测,以及信号高阶统计特性分析等方法在数字录音的真实性检验中均具有很好的理论应用前景,但尚未在实际鉴定案例中得到广泛应用,有待进一步的研究和商业化产品的开发。
3 数字录音真实性鉴定领域问题和挑战
传统的听觉检验、波形和频谱图检验,以及近年来的电子数据检验技术在当前的数字录音真实性鉴定中得到了广泛的应用,这些检验技术更偏重于专家经验型的分析和判断,鉴定实施过程任务繁重。
数字信号的统计量化技术为录音真实性鉴定提供了很好的检验角度和自动化分析工具,然而,针对基于数字录音信号统计分析的录音设备自动识别问题,理论和实验室研究虽然取得了丰硕的研究成果,如何进一步提升新技术的可靠性和准确性,并结合录音真实性司法鉴定实际,成为当前录音真实性鉴定领域技术攻关的重要研究内容。另一方面,针对翻录录音检测技术目前研究工作还处于空白。录音经过剪辑处理并进行翻录情况下的数字录音真实性鉴定,由于信号篡改痕迹不明显,检测技术难度大,其检测技术的研究具有重要的意义。
此外,录音剪辑检测和定位研究虽然取得了一定的探索性研究成果,重压缩检测以及信号的高阶统计特征分析理论发展亦相对成熟,如何在司法鉴定应用中进行技术转化成为当前领域研究工作重点。电网频率进行录音时间验证技术,以及声音反射建模还原录音空间环境方法,具有广泛的应用前景,如何进一步提高技术的可用性和准确性成为未来的研究热点和难点。
4 数字录音真实性司法鉴定探讨
随着数字信号编辑方法和软件的普及,以及数字录音剪辑反取证技术的兴起,传统的听觉检验和频谱检验技术,以及新兴的电子数据检验方法等专家经验型检验技术在当前数字录音真实性鉴定中面临着极大的挑战,鉴定人和研究学者们开始探索利用数字信号的统计计算方法结合机器学习技术实现录音真实性检验的自动化量化计算分析。统计量化检验技术为数字录音的真实性鉴定提供重要的检验角度和实现途径,可以有效克服现有的检验技术无法有效处理的鉴定新难题,统计量化检验技术的研制将提升数字录音真实性鉴定技能水平,其研究成果将成为数字录音真实性鉴定的关键核心技术。
另一方面,新技术的发展必然面临着其技术有效性和适用范围的限制,传统的专家经验型检验技术在分析录音中的高层语义信息比如对话内容、语义连贯性和情感感知等方面具有无可替代的关键作用。专家经验型检验技术和统计量化检验方法的长期并存和相互协作将是数字录音真实性鉴定的必然趋势和高效解决方案。
[1]Kraetzer C, Oermann A, Dittmann J, etal.Digital audio forensics:A first practical evaluation on microphone and environment classification[C].In:9th Workshop on Multimedia&Security, New York, 2007:63-74.
[2]Buchholz R,Kraetzer C,Dittman J.Microphone Classification Using Fourier Coefficients[J].Information Hiding, 2009:235-246.
[3]Romero D G,Wilson CY E.Automatic acquisition device identification from speech recordings[C].2010 IEEE International Conference on Acoustics Speech and Signal Processing(ICASSP), 2010:1806-1809.
[4]Malik H,Miller J W.Microphone identification using higher-order statistics[C].AES 46th international conference,Denver, USA,2012.
[5]王志锋,贺前华,李艳雄.录音设备的建模和识别算法[J].信号处理, 2013, 29(4):419-428.
[6]Malik H,Farid H.Audio forensics from acoustic reverberation[C].Proc.IEEE Int.Conf.Acoustics, Speech, and Signal Processing,2010.
[7]Grigoras C.Digital audio recording analysis:The electric network frequency criterion[J].Speech,Language and the law, 2005, 12(1):63-76.
[8]Huijbregtse M,Geradts Z.Using the ENF criterion for determining the timing of recording of short digital audio recordings[C].Proc.3rd International Workshop Computational Forensics, Springer-Verlag, 2009:116-124.
[9]Rodriguez D P N,Apolinrio J A,Biscainho L W P.Audio Authenticity:Detecting ENF discontinuity with high precision phase analysis[J].IEEE Trans.Information Forensics and Security, 2010, 5(3):534-543.
[10]Cooper A J.The electric network frequency as an aid to authenticating forensic digital audio recordings:An automated approach[C].Proc.AES 33rd Int.Conf.Audio Forensic:Theory, and Practice, 2008.
[11]Yang R,Shi Q Y,Huang J.Detecting double compression of audio signal[C].Proc.SPIE 7541,2010.
[12]Liu Q,Sung A H,Qiao M.Detection of double MP3 compression[J].J.Cognitive Computing, 2010, 2(4):291-296.
[13]Qiao M,Sung A H,Liu Q.Revealing real quality of double compressed MP3 audio[C].Proc.International Conf.Multimedia, ACM Press, 2010:1011-1014.
[14]Yang R,Shi Q Y,Huang J.Defeating fake-quality MP3[C].Proc.11th ACM Workshop Multimedia and Security,ACM Press, 2009:117-124.
[15]Alessandro B D,Shi Y Q.MP3 bit rate quality detection through frequency spectrum analysis[C].Proc.11th Workshop Multimedia and Security, ACM Press, 2009:57-61.
[16]Yang R,Qu Z,Huang J.Detecting digital audio forgeries by checking frame offsets[C].Proc.10th ACM Workshop Multimedia and Security, ACM Press, 2008:21-26.
[17]Gupta S, Cho S, Kuo CCJ.Current developments and future trends in audio authentication[J].Multimedia in Forensics, Security and Intelligent, 2012,(12):50-59.
[18]Farid H.Detecting digital forgeries using bispectral analysis[R].Tech.report AIM-1657,Massachusetts Inst.Technology,1999.