APP下载

数字音频来源被动取证研究综述

2020-03-11王志锋曾春艳叶俊民闵秋莎左明章

计算机工程与应用 2020年5期
关键词:数字音频被动来源

王志锋,湛 健,曾春艳,叶俊民,田 元,闵秋莎,左明章

1.华中师范大学 数字媒体技术系, 武汉430079

2.湖北工业大学 太阳能高效利用及储能运行控制湖北省重点实验室, 武汉430068

3.华中师范大学 计算机学院, 武汉430079

1 引言

随着数字媒体技术的飞速发展,各类电子产品如计算机、数码相机、手机、打印机、扫描仪等也逐渐成为人们日常生活中不可或缺的数字媒体生成设备。与此同时,各种专业的数字媒体编辑软件在人们的诉求下也逐步走向便捷化,由此也产生了大量被编辑过的媒体文件。这些编辑软件在给人们的生活带来便捷与欢乐的同时,也引入了诸多严峻的安全问题[1]。例如,一些不法分子借助各类编辑软件制作出形式多样、种类各异的伪造数字媒体文件。这类数字媒体文件很难直观地被辨别出真伪性,严重地扰乱了社会秩序、妨碍了司法公正、误导了新闻舆论,造成了非常恶劣的影响。因此对数字媒体文件的真实性、完整性、来源性做出判断显得尤为重要。数字媒体取证包含数字音频取证[2-3]、数字图像取证[4-6]和数字视频取证[7-9]。

在过去的几十年里,数字音频取证是数字媒体取证中一个备受关注的热点研究领域。在新闻、司法、军事等领域,数字音频取证方法可以有效地规避风险[10]。例如:数字音频取证领域的研究在一定程度上有效地避免了不法分子将伪造、偷录、篡改的音频上传到网络,混淆视听而给人们生活所带来的负面影响;同时也避免了因伪证而妨碍司法的公正的情况。数字音频取证的研究可以有效地辨别出音频的真实性、完整性和来源性,对司法系统的判决和社会秩序的稳固有着很重要的实际意义。因此数字音频取证是迫切且具有挑战性的研究课题。

数字音频取证可分为主动取证和被动取证,主动取证是通过在数字音频中嵌入冗余信息来判断数字音频的完整性、真实性[11],例如数字音频签名技术[12-13]、数字音频水印技术[14-15]。与数字音频主动取证相比,数字音频被动取证不依赖于水印、签名和散列等其他辅助信息,而仅依赖于音频本身的特征来识别和获取音频的来源[16]。数字音频来源识别是数字音频被动取证领域的一个重要的分支,数字音频来源被动取证旨在通过分析研究数字音频信号本身,从中寻找到隐含的录音设备信息。数字音频来源被动取证的研究最早由Kraetzer C等[2]在2007年提出,在近十年的研究中已经取得了一些研究成果。但目前针对数字音频来源识别的研究综述相对较少,其中文献[17]是针对移动设备的射频前端、相机、微电子机械系统、麦克风等组件的不同特性对移动设备的相关研究展开综述,而较少叙述数字音频对移动设备源识别的作用。基于此,本文将聚焦于数字音频来源识别的特征数据和决策模型两个层面,涵盖了近十年来数字音频来源识别领域大部分的研究报道,更加广泛、详细地从特征和模型两个方面详细总结叙述了近十年数字音频来源识别领域研究的进展,并分析指出了当前研究所面临的一些问题,以期推动数字音频来源识别领域研究工作的进一步发展。

2 数字音频来源被动取证基本框架

数字音频来源识别被动取证所要解决的问题是明确数字音频数据的来源,根据现有的研究进行分析,目前领域内的研究思路如图1所示,任何设备在生成数字音频时都会附带产生噪声信号,由于设备软硬件的不同在数字音频中留下了独有的噪声信号,因此该类噪声也被称作为机器指纹。由于设备噪声和数字音频信号、外部噪声信号混合到了一起,因此通过一系列信号处理的方法提取出能够表征机器指纹的特征,并使用该特征建立能够表征设备机器指纹的模型。最后,通过该模型对未知的数字音频信号做出鉴别。

针对数字音频来源被动取证现有的研究分析,现有的研究大致分为三个方向,数字音频来源识别、数字音频来源验证和数字音频来源聚类。如图2(a)所示为数字音频来源识别模型,指从目标设备集里找出录制带验证数字音频的设备。数字音频来源验证模型则分为两种:(1)验证待测数字音频是否产生于嫌疑设备;(2)验证待测数字音频信号和嫌疑音频信号是否来源于同一设备,如图2(b)所示为设备源验证模型。两种验证模型在实际操作过程中虽然都是对数字音频进行处理,但是在后面一种验证模型中,可用于对比的信息少,操作难度大。数字音频来源聚类如图2(c)所示,指从一堆的数字音频信号中分离出来自同一设备的音频信号。为了达到实际的效果,在判决过程可以采用单步判决和多步判决。单步判决采用一种算法进行研究,最终的判决结果只会有一个。而多步判决则会采用多种算法模型分别进行研究,最后将各种算法模型的判决结果进行融合决策,得到最终的判决结果。

图2 数字音频来源被动取证三种模型

虽然数字音频来源被动取证三个研究方向中的取证对象有所不同,但是所用的基本算法和特征提取的方法基本相同,且数字音频来源识别的研究最为基础,所研究的热度最大。数字音频来源识别的研究可分为两个方面,针对特征表达的研究和针对表征模型的研究。针对特征表达的研究旨从理论分析的角度提取出最具有代表性的特征数据,特征数据的好坏将直接影响到后续模型的构建,进而影响到算法的识别效果。在特征提取过程,为了达到更好的效果,同时会涉及到对不同种类的特征进行融合或者使用不同的数学手段对特征数据进行处理,比如归一化、特征降维等。针对表征模型建立的研究旨配合所提取到的特征数据,寻找出最适合的数学模型,提高模型的判决效果。因此,本文将从基于特征表达的研究和基于表征模型的研究两个层面对数字音频来源被动取证领域的研究进行归纳分析。

3 数字音频来源被动取证数据库

在数字音频来源被动取证研究领域中,数据集的发展占据着很重要的地位。首先,良好的数据集将有助于该领域算法模型的构建,一方面数据集的多样性能够为数字音频来源被动取证模型的泛化性和鲁棒性研究提供支撑,另一方面数据集规模将有助于提高数字音频来源被动取证模型的表征能力。其次,数据集也充当着验证评估模型的角色,良好的数据集可以更加准确地评估出数字音频来源被动取证模型的性能,进而对所研究的算法做出更加准确的评估,同时也为算法进一步的优化提供了更加可靠的数据。目前,领域内所用数据集的录制时间可以分为两个时期,固话时期和智能移动设备时期。在固话时期,受社会条件限制,数据集构建所使用的设备以固定电话和麦克风为主。在智能移动设备时期,移动设备相对普及,因实际的需求,数据集构建所使用的设备以移动电话、智能手机和移动终端为主。表1列举了数字音频来源被动取证领域中几种常用的数据集,并对其做了简要的分析。

通常,评估数字音频来源被动取证领域的数据集主要有以下三个标准:(1)数据集的规模。大规模的数据集意味着涉及更多类型的设备,单个设备产生的音频数据时间也更长。由此可以降低数据的偶然性,实验所得出的结论也更具说服力。(2)数据集的多样性。数据集的多样性越高,意味着数据集包含更多诸如设备规模、录音环境、录音时长的变化因子,由此能够进行更加细致的研究,挖掘出更深层次的结论。(3)更加接近实用需求。数字音频来源被动取证领域算法的研究要满足数字音频来源被动取证实际应用的需求,由于实验条件的限制,实验场景下所构建的数据集无法涵盖真实应用场景下的各种情况,进而无法对算法的实际性能做出全面的评估,因此越接近实际应用场景的数据集就越有可能正向推动数字音频来源被动取证领域研究工作的进展,对该领域算法的优化和评估也会更有意义。

在现有数据集基础之上,鉴于以上标准,数字音频来源被动取证领域的数据集的构建仍需优化。首先,数字音频来源被动取证领域现有数据集所涉及的设备类别有待进一步扩充;而且,数据集中单个设备所录制的音频时长相对较短,所分割的样本数量不够多,用于训练大规模的神经网络不足以达到最优的效果;其次,现有的数据集大多是基于设备规模、录制环境和单个设备录制时长这三个变化因子考虑,后期可以将不同语种、不同音量大小等更多的变化因子引入到数据集的构建中;最后,数字音频来源被动取证领域现有的数据集对于环境噪声这个重要因素的重视度还不够,在数字音频来源被动取证领域环境噪声极大地增加了研究的难度,因此后期可以对环境噪声的类型和大小做出更加细致的比较。

表1 数字音频来源被动取证领域常用数据集

4 基于特征表达的数字音频来源被动取证方法

在数字音频来源被动取证领域研究,根据研究所用的特征,大致可分为基于短时傅里叶变换的频域特征、基于倒谱特征的数字音频来源信息表征、基于高斯超矢量的数字音频来源信息表征、基于融合特征的数字音频来源信息表征、基于深度特征的数字音频来源信息表征五类。其中大多数的研究是基于倒谱特征的,表2列举了各文献所使用的特征,同时对五种特征做了简要的对比。下文将针对五种类型特征的研究报告做详细的叙述。

表2 数字音频来源被动取证特征性能比较

4.1 基于频域信息的数字音频来源信息表征方法

数字音频信号具有时域和频域两种特性,虽然时域特征具有简单、计算量小,物理意义明确等优点,但数字音频最重要的感知特性反应在功率谱中,因此相对于时域特征,频域特征包含了更多的感知性能和声学特征,而且具有抗干扰能力和适用能力强等优点[45]。基于此Buchholz R 等[19]首次提出了使用经短时傅里叶变换后的频域特征作为数字音频来源取证的特征,文中使用傅里叶系数直方图作为特征参数对7 个麦克风进行识别;为了优化Buchholz 的特征提取方法,提高频域特征的表征性和泛化性,众多研究者提出了将简单的频域特征进行特征映射的研究思路,由此Panagakis Y 等提出了无监督的RSF(Random Spectral Features)特征[23]和有监督的LSF(Labeled Spectral Features)特征[24],Kotropoulos C等提出了SSF[25-26](Sketches of Spectral Features)特征;虽然经过特征映射后的频域特征表征性更强,也取得了更高的识别效果,但是特征提取过程的复杂度也随着映射函数的复杂度而极大地增加了计算量,为了简化过程、降低时间消耗,Luo D 等[3]提出了更为简单方便的特征提取方式,他将信号分帧后进行傅里叶变换,通过计算相邻两帧之间的基带能量差来表示信道特征,虽然方法相对比较直观但在对一百多个设备类型上进行识别依然取得了很好的效果;受模式识别领域研究的影响,部分研究者提出了使用二维图像的形式表征信道特征的研究思路,由此李璨等[29]将数字音频信号预处理,经过傅里叶变换后提取出语谱图,将完整的语谱图作为特征数据输入到模型中进行判决。该方法借用了模式识别和机器学习等相关领域的技术,为后续的研究提供了一种新的思路。

基于短时傅里叶变换的频域特性是数字音频信号最为本质的特征。在数字音频来源被动取证领域中,研究对象是寻找不同设备源的机器指纹信息即信道特征。在录音信号中,信道特征伴随着设备噪声以卷积信号的形式混合到了被录数字音频信号中。因此通过傅里叶变换可以分离出部分设备噪声进而提取出信道特征。基于单一傅里叶变换的频域特征是最为简单的处理方式,减小了计算量,适用于大数据的处理。但是,该类特征也因为处理方式简单,所以会存在过多的冗余信息增加了特征的维数,进而影响识别的效果。因此如何有效地避免过多冗余信息的出现,将是一个值得思考的问题。

4.2 基于倒谱特征的数字音频来源信息表征方法

倒谱特征在数字音频来源被动取证领域已经得到了广泛的应用,同时大量的研究者也证实了倒谱特征对信道特征识别的有效性,因此在现有的文献报道中,大多数研究者延续了使用倒谱特征对数字音频来源被动取证领域做进一步的研究。Kraetzer C等[2]提出使用梅尔倒谱特征作为机器指纹对数字音频来源进行识别的方法打开了数字音频来源识别的研究领域;在此基础上Hanilci C等[20]提出使用MFCC(Mel Frequency Cepstral Coefficient)作为设备源识别的信道特征。此后Qin Tianyun 等[28]、Eskidere Ö 等[30]、王志锋等[31]、邹领等[27]、Garcia-Romero D等[32]、Zou Ling等[33]、Hanilçi C等[34]分别在实验中验证了MFCC特征的有效性。

通常一段数字音频信号包含语音段和非语音段(即静音段)。在非语言段中,信号只保留了设备噪声信息,因此在非语音段中提取特征信息最具代表性。而在语音段中包含大量的语言信息和环境背景噪声信息,淹没了设备噪声,影响了设备特征的提取。Hanilçi C等[35]使用SAD 提取信号的非语音段,然后在非语音段中提取MFCC 特征,实验结果表明,使用非语音段提取特征可以得到更好的识别效果。但是,在实际应用过程中,待测数字音频可能没有足够时长的非语音段信号,甚至完全没有非语音段信号。因此,Aggarwal R等[22]首先从整段数字音频信号中计算出噪声谱,然后从噪声谱信号提取出MFCC 特征,从实验结果上分析,该方法比从整段数字音频信号提取MFCC特征的效果更好。

MFCC 特征虽然在各个研究者的实验中表现得很出色,但是MFCC 特征在提取过程中也有一些不足之处。普通的MFCC提取过程使用窗函数来减少偏差,但当很多个窗加起来时,方差依然很大,因此Eskidere Ö等[36]采用多维度的光谱估计法来提取MFCC特征,在特征提取过程,使用多种窗函数分别进行,弥补了单一窗函数所产生的累积误差。

MFCC 特征的使用使得其他相关的倒谱特征也被研究者们应用在实验上。Garcia-Romero D[32]在实验中将MFCC 特征与LFCC(Linear Frequency Cepstral Coefficient)特征进行对比分析。Hanilçi C 等[34-35]在实验中将MFCC、LFCC、BFCC(Bark Frequency Cepstral Coefficients)、LPCC(Linear Prediction Cepstral Coefficients)四种特征不同的后处理和融合方式进行对比分析。Zou Ling 等[33]提出使用PNCC(Power-Normalized Cepstral Coefficients)特征对设备源识别进行分析,随后贺前华等[37]提出将PNCC特征进行改进。

倒谱特征是数字音频来源被动取证领域应用最为广泛的一类特征,虽然倒谱特征也是通过基于短时傅里叶变换后的频域特征计算得到的,但是,倒谱特征在计算提取过程会使用不同类型的滤波器将频域特征转换为倒谱特征。在这一系列的变换过程中,对特征数据又进行了一次更深层次的计算,优化了原始的频域特征。为了优化特征的性能,大量的研究者对倒谱特征也进行了深入的研究。从数字音频信号的来源问题、特征的提取过程和特征归一化三个层面进行了深入研究。实验结果显示,非语音段的使用很大程度提高了识别的精度;改善特征提取过程窗函数的使用,可以在一定程度上提高识别精度;在特定情况下,归一化会改善特征数据的表征性。但是,从部分所报道的文献分析可以看出,该类倒谱特征出现了较强的针对性,对于不同的场合和不同的数据集,所表现出来的识别效果不尽相同。比如,在某篇文献中报道出MFCC特征具有最佳识别效果,但另外一篇文献中,MFCC 不是最优的选择的情况。因此对于该类倒谱特征所出现的较强的针对性问题有待在后续的研究过程中做进一步的分析。

4.3 基于高斯超矢量的数字音频来源信息表征方法

高斯超矢量(Gaussian Super Vector,GSV)[46]是从高斯混合模型(Gaussian Mixture Model,GMM)均值矢量中提取到的特征数据。GMM 模型可以通过概率密度模型对事物的属性特征进行精确的表示。在不同的事物中,属性特征的概率密度模型必然不同,因此所构建的GMM 模型也必然不同。在GMM 模型中,均值矢量是最为核心的数据,进而GMM模型的均值矢量也必然具有不同的表现形式。因此对GSV的识别即可达到对用于构建GMM 模型的数据进行识别。在数字音频来源被动取证领域通常将MFCC 特征用于构建GMM模型,将MFCC特征识别问题转换为GSV特征识别问题。

Kotropoulos C 等[21]和Zou Ling 等[38-40]使用MFCC特性训练GMM 模型作为通用背景模型(Universal Background Model,UBM)[47],然后使用MAP 算法对UBM模型进行微调得到相对独立的GMM模型,最后将GMM 模型中具有表征性的GSV 提取出来作为设备源的机器指纹特征。为了使GSV 的特征表征性更好,Li Yanxiong等[41-42]提出了深度GSV特征的提取方式,在训练模型时不再是直接使用MFCC特征,而是将MFCC训练好的DNN(Deep Neural Networks,DNN)[48]模型的中间层输出作为训练GMM模型的数据。

GSV 特征的使用实际上是将原始的倒谱特征问题进行了转换,这种通过概率密度分布函数构建模型转换问题的方式可以增加样本的容错率。但根据现有的算法而言,虽然通过使用UBM 模型在一定程度上可以减少模型构建的计算量,但是UBM 模型的性能也将严重影响到后续单一模型的性能。目前所报道的文献中,大多研究是基于闭集识别的,因此UBM 可以很直观地获取,但是,如何增强UBM 的鲁棒性,在开集识别中如何构建更具有代表性的UBM 模型,也是后续研究中将面临的具有挑战性的问题。

4.4 基于融合特征的数字音频来源信息表征方法

由于特征数据表征性有限,因此单个特征的使用不一定可以带来最佳的识别效果,为了获得更好的性能,通常将多种特征进行融合,起到互补的效果。在数字音频来源被动取证领域,MFCC特征是使用最广泛的倒谱特征,但研究者发现将MFCC特征与其他特征进行融合可以得到更好的识别效果。

通常,MFCC特征在提取过程伴随着三种附带的参数,即一阶动态信号、二阶动态信号和能量谱信号。为了研究三者对MFCC 特征的影响,Garcia-Romero D等[32]对比分析MFCC特征和LFCC特征将一阶动态信号融合后对识别效果的影响;Zou Ling 等[33]对比分析了PNCC 特征和MFCC 特征将能量谱融合后的影响;而Hanilçi C等[34]全面而详细地研究了多种特征、特征融合方式和多处归一化处理的方式对最终效果的影响,文中将MFCC、LFCC、BFCC、LPCC 四种特征分别和一阶动态特征、二阶动态特征进行融合,然后使用三种归一化方式CMN(Cepstral Mean Normalization)、CVN(Cepstral Variance Normalization)、CMVN(Cepstral Mean and Variance Normalization)对最后的特征进行处理,比较验证哪一种组合方式是最优的。结果显示,针对不同的数据集所表现出来的差异性较大,没有明确的好坏之分,但融合后的特征会比原始特征更优。

MFCC 特征的广泛应用证实了其在数字音频来源被动取证方面的重要性,MFCC特征是从低频信号中提取到的特征数据,因此说明了从数字音频的低频信号中可以提取到设备的指纹信息。为了研究高频信号中是否包含机器指纹信息,Verma V 等[43]提出了IMFCC(Inverted Mel Frequency Cepstral Coefficient)[49]特征,文中将MFCC 特征和IMFCC 特征进行融合作为设备的机器指纹特征,实验显示,融合后的特征比单独实验MFCC特征要好。

不仅是对MFCC 特征进行融合,Eskidere Ö[44]根据小波变换和小波包变换,提出使用DWBC(Discrete Wavelet-Based Coefficients)和WPBC(Wavelet Packet-Based Coefficients)特征,但是根据文中对两种特征提取的方式,DWBC 特征是由LPCC 特征和DWT(Discrete Wavelet Transform)特征融合而产生的,而WPBC是通过LPCC 特征和WPT(Wavelet Packet Transform)特征融合而得到的,其中DWT 和WPT 都经过了SM(Statistical Measures)处理。实验结果也表明融合后的特征效果更好。

融合特征有多种表现形式,可以将两种互不相关的两种或多种特征进行融合操作,也可以将原始特征和原始特征的相关特性融合一起组成新的特征数据。不论是哪一种融合手段,只有保证每种单一的特征数据具有较强的表征性才有可能使得最终的融合特征取得更好的效果。但是,即便如此也难以保证新的特征数据比原始的特征具有更强的表征性。因此,研究分析特征融合的实际理论意义,提供一套行之有效的理论依据将有利于融合特征的进一步研究。

4.5 基于深度特征的数字音频来源信息表征方法

深度神经网络在模式识别领域得到了广泛的应用,而且已经取得了很可观的研究成果。深度神经网络的本质是通过网络的隐藏层提取数据内在的深度特征,然后使用分类器进行判决输出。深度特征源于对数据内在数据的分析与提取,深度特征可通过有监督训练方式获得也可以使用无监督训练的方式。在有监督训练的特征提取中,通过对相同类别数据的聚合训练出合适的模型,然后提取出有价值的特征数据。无监督训练提取特征是通过对数据自身的变化,提取出可以反映原始特征数据。相对于有监督的训练,无监督训练的方式可能会损失部分重要信息,导致比原始的特征更差。受此启发,Li Yanxiong 等[41-42]提出了两种深度特征:第一种使用MFCC 特征构建深度神经网络DNN,然后提取DNN网络中间层的输出作为特征;第二种特征,使用MFCC特征训练深度自编码网络,然后将中间层的输出作为最终的输出特征。实验显示,作者使用的深度特征效果要优于一般的特征。

深度特征的使用,不仅给数字音频来源被动取证领域的研究提供了一种新的研究思路,而且使算法的识别效果得到提升,正向推动了整个领域的研究进展。虽然,深度学习的方法在其他很多领域也已经取得了很大的成效,但由于该类算法本身的不成熟、参数设计的局限性等诸多因素,导致很多实验存在一定的偶然性,无法对实验的方法和结果进行系统而全面的理论分析,因此,在数字音频来源被动取证领域所使用的深度特征也缺乏较强的可解释性。另外,数字音频数据存在很强的时序性,从目前所使用的方法来看,严重打乱了原始数据的时序,从而在一定程度上降低了数据的表征能力。为此,在后续的研究过程中,可以考虑将传统的特征提取方法和深度学习方法进行融合,使用深度学习模型训练出传统预处理过程和特征提取过程中难以确定的超参数,以提高特征提取算法的稳定性和可解释性。其次,可以考虑引入类似RNN(Recurrent Neural Networks)[50-51]这样带有较强时序性的深度学习模型用于提取语言信号中的时序特征,并与频域特征进行深度融合得到更加符合数字音频信号本质的特征,以提高特征的表征能力。

5 基于模型表征的数字音频来源被动取证方法

在数字音频来源被动取证领域研究,根据研究所用的模型,大致可分为基于高斯混合模型的数字音频来源被动取证模型、基于支持向量机的数字音频来源决策模型、基于稀疏表达分类器的数字音频来源决策模型、基于其他机器学习方法的数字音频来源决策模型、基于深度模型的数字音频来源决策模型五类。目前大多数研究者在对数字音频来源被动取证领域进行研究时,将支持向量机作为研究的基准模型。表3 列举了各文献所使用的模型,同时对五类模型做了简要的对比分析。下文将从这五种类别对数字音频来源被动取证领域的研究报告做详细的叙述。

表3 数字音频来源被动取证模型性能对比

5.1 基于高斯混合模型的数字音频来源被动取证方法

当数据具有较高的复杂程度时,使用单个高斯模型无法表现出数据的分布情况,因此将多个高斯模型按照一定的权值混合到一起便组成了GMM模型。GMM模型可以通过概率密度模型对事物的属性特征进行精确的表示。在设备源识别领域,鉴于分类的目的,通常会对每个类型的数据建立一个GMM模型,然后将待测数据依次输入到各个GMM中计算,取概率最大的为判决结果。普通的高斯混合模型在训练过程使用最大似然函数描述模型的训练程度,如Hanilçi C等[35]、Eskidere Ö等[36]、Zou Ling等[33]、Garcia-Romero D等[32]、王志锋等[31]在文献中训练GMM 模型时使用最大似然函数来表示。由于训练一个包含很多个高斯模型的高斯混合模型需要的数据量大、覆盖面广泛、耗时久。因此王志锋等[31]提出单独训练两个小型高斯混合模型,然后将高斯模型的三个重要参数按照一定方式叠加在一起形成一个大型的高斯混合模型,不仅降低了计算量,减少了时间,同时使模型的表征性更好,克服了数据的偏倚性。虽然使用最大似然函数表示GMM 模型训练程度取得了很好的实验效果,但是避免不了该方法对训练数据长度的要求,为了使混合高斯模型在短数据情况下也能表现出较好的决策能力,Hanilçi C等[35]提出使用最大互信息量的方式来衡量高斯混合模型,对比实验结果显示,在数据较短的情况下,使用最大互信息量训练混合高斯模型的效果比传统的训练方式更好。

GMM模型在数字音频来源被动取证领域是最为传统的一种分类算法。由于GMM 模型本身具有概率属性,所以通过GMM 模型可以很直观地反映出判决结果,从而引得很多的研究者使用GMM模型对设备源的属性建模。但是GMM 模型在取得优良的识别效果的同时,也带来了一系列棘手的问题。GMM 模型是由多个高斯模型组合而成的,从理论上而言,在一定范围内高斯数量越多,GMM模型的精确度越高,但也会引得计算量成倍增长。因此如何选择合适的GMM模型,如何降低模型的计算量是研究者所面对的严峻的挑战。

5.2 基于支持向量机的数字音频来源决策方法

SVM 是机器学习中应用最广泛的模型,SVM 分类器中使用不同核函数将特征映射到高维的空间中,常用的核函数有RBF(Radial Basis Function kernel)和GLDS(Generalized Linear Discriminant Sequence kernel)[54],然后在高维的空间找到合适的超平面将设备源进行分类。现有的研究报道中,大多是基于LIBSVM[55]工具包进行SVM实验,相对简便实用。

SVM 分类器在数学上有完美的理论推导,有完美的解释性,因此被广泛地应用在各个领域。SVM 本身是一个二分类器,最初的设计是为了解决二值分类的问题,所以在用于处理多分类问题时,通常需要构建多个分类器。目前常用的有两种做法,“一对多”构建分类器和“一对一”构建分类器。“一对多”构建分类器时,在训练过程依次把某个类别的样本归为一类,其他剩余的样本归为另一类,这样k 个类别的样本就构造出了k 个SVM,判决时将未知样本类别识别为具有最大分类函数值的那一类。“一对一”构建分类器,在训练过程在任意两类样本之间设计一个SVM,因此k 个类别的样本就需要设计k(k-1)/2 个SVM,判决时将未知样本类别识别为具有最多票数的那一类。目前大多数研究者在做SVM 实验时使用的是LIBSVM 工具包,在该工具包中,使用的是“一对多”构建分类器。该方法虽然可以提高识别的准确率,但是,在k 分类问题上,需要设计k(k-1)/2 个SVM。因此随着类别数量的增加,SVM 分类器的个数也会呈指数倍增长,极大地增加了计算成本。在目前大多数研究中,由于设备类别的数量相对较少,所以SVM可以表现出很好的性能,但随着设备类型的增长,SVM也将表现出明显的弊端。

5.3 基于稀疏表达分类器的数字音频来源决策方法

稀疏表达的分类器(Sparse Representation-based Classifier,SRC)[56]通过构建一个完备的函数字典,将字典内部元素作为基函数,把原始特征数据变换为0、1稀疏化的特征数据。这种线性表达的方式在一定程度上降低了冗余信息的出现,精简了特征数据。Zou Ling等[39-40]使用GSV构建数据库字典,然后使用K-SVD[57]算法计算待测数字音频信号和目标设备之间的得分,通过与预先设定的阈值比较得到最终的识别结果。K-SVD的字典是通过无监督学习方式所获得的,该算法旨为训练数据集的稀疏表达构建最好的学习字典,并没有考虑到通用性。有监督的学习字典,既考虑了字典的通用代表性又考虑到了字典的判别力,因此Zou Ling等[38]又提出了使用D-KSVD(Discriminative K-SVD)[58]算法构建有监督的学习字典来提高数字音频来源验证的性能。尽管Zou Ling等在文献[38]中提出的改进算法D-KSVD已经取得了较高的验证结果,但是实验中使用的数据都来源于同一种设备类型——手机。并且,没有研究该算法对来自于同一品牌的数字音频信号的效果。在面对数字音频来源验证问题时,需要考虑的是特征之间的空间距离。基于稀疏表达的分类器[23,25-26]通过码本将原有的样本特征进行稀疏化表达,得到稀疏矩阵,而后对比计算稀疏矩阵之间的距离差,找到合适的样本属性分类。

在训练数据集足够充足完备的情况下,基于稀疏表达的分类器降低了特征数据的冗余度,减小了计算复杂度,在一定程度上可以提高特征数据的识别效率。但是对于小样本分类问题而言,系数的稀疏性对分类准确率并没有实质性帮助。基于稀疏表达的分类器的核心思想是通过构建完备的字典库,然后使用字典库中的元素对样本趋近于非线性的表达。因此,特征数据的表征性极大程度地依赖于字典元素的好坏和字典的完备程度。所以在小样本的问题上,无法提供足够的数据训练完备的字典函数。另外,在开集识别的问题上,要对未知的设备进行稀疏表达也是一个具有挑战性的问题。

5.4 基于其他机器学习方法的数字音频来源决策方法

除了SVM这样经典的机器学习算法被广泛地应用于源识别的决策层,也有另外一些相对传统的机器学习算法被研究者用于对数字音频来源被动取证问题进行研究。其中,部分研究者还提出了融合决策的方式。Kraetzer C等[2]提出使用基于先验信息最小风险概率的贝叶斯分类器作为分类决策模型。随后邹领等[27]不仅验证了贝叶斯分类器的优越性同时提出基于概率决策的随机森林模型。上述的两种机器学习模型对于分类决策问题可以取得很好的效果,但在数字音频来源被动取证问题上,除了数字音频来源识别的任务目标还包含数字音频来源聚类的问题。因此Li Yanxiong 等[41-42]提出使用Agglomerative Hierarchical Clustering 算法和K-Means算法[59-60]对输入样本的属性进行聚类判断。

由于单个模型对特征的表征效果有限,而且也比较容易因为训练数据微小误差引起表征模型的误差,因此部分研究者提出了采用多个模型进行联合判决的研究思路。基于此,Kraetze C 等[53]使用linear logistic regression[61-62]和C4.5 decision tree[63]两种分类器对特征进行融合判决,文中使用了三种融合算法对单个判决结果进行融合。从Kraetze C 的实验结果可以看出,多个模型联合判决的思路确实极大地提高了判决效果,但也随之带来了一个问题。联合判决意味着需要训练多个、多种模型,因此整个模型的计算量也是成倍的增长。

在上述文献中所使用的机器学习算法相对于SVM分类器而言,从报道的结果上分析,并没有比SVM表现得更加优良。但数字音频来源被动取证问题包含三个任务目标,对于数字音频来源聚类问题,SVM便不再适用,所以针对不同的任务目标,上述的决策模型有其可取之处。另外,决策融合的问题是利用各分类器优缺点互补的原理以达到最佳识别效果。虽然融合后可以提高识别精度,而且可以增大置信区间。但并非所有的融合方式都能起到促进的作用,融合判决实质是将单个分类器进行聚合,然后将单个分类器的得分加权融合判决。目前对于得分判决的研究相对较少,缺乏有力的实验数据。其次,Kraetze C等[53]在研究得分判决时,采用的是非加权的融合,即每个分类器的重要性相当,缺乏加权融合的实验结果。

5.5 基于深度神经网络模型的数字音频来源决策方法

随着一系列的算法被提出,深度学习模型也逐渐走向成熟,在各个领域深度模型所展现出来的性能受人瞩目,其不仅可以训练大数据集,而且具有很强的泛化性和迁移性。因此部分研究者着手构建深度模型来表示数字音频来源决策模型。Qin Tianyun 等[28]将数字音频信号的语谱图作为特征构建CNN(Convolutional Neural Networks)[64-65]模型;李璨等[29]使用不同的特征来构建CNN 和RNN 网络模型。从目前所取得的研究成果来看,使用深度学习决策模型在一定程度上可以提高算法的识别效果;其次,在使用包含多种设备类型的数据集验证时,依旧能够表现出较高的鲁棒性。从技术的发展和未来实际需求角度分析,深度学习的决策模型存在着更强的发展潜力。随着数字音频来源被动取证的进一步研究,数字音频来源被动取证领域所使用的样本数量和特征维数将进一步增加,所涉及的设备类别也会逐渐增多。而传统的机器学习算法模型计算量大,训练模型需要消耗大量的时间,实验效率低,所以很难解决大规模数据集的问题。另外,传统机器学习模型的灵活性较差,当表征对象有所变化时,先前所训练好的表征模型不再具有良好的判决性能,因此无法解决增量表达的问题。而深度学习模型可以通过迁移学习的方法去克服该问题。

虽然深度学习模型在决策上存在诸多优势,但现有的研究报道中,对深度学习模型在决策上的使用暂未考虑深度学习模型的迁移能力,而只使用了深度学习模型分析、决策的能力。这不仅需要数据集中单个类别的样本量足够多,也需要数据集具有足够强的多样性,由此才能训练出泛化性和鲁棒性较强的模型。另外,深度学习模型之所以可以克服增量表达的问题是因为大规模、多样性强的数据集可以训练出具有较强泛化性的模型。因此在后续的研究过程中,可以考虑引入VGGNet(Visual Geometry Group Network)[66]、ResNet(Residual Network)[67]等大规模网络模型,拟训练出适合数字音频信号的迁移模型。另外,在引入深度网络模型时,要注意DNN、SAE(Stacked Auto-Encoding Network)[68]、DBN(Depth Belief Networks)[69]等全连接神经网络具有一定的时序性,因此,该类网络模型在做判决模型时适合于具有时序性的特征。

6 存在的问题与展望

6.1 存在的问题

在众多研究者的努力下,数字音频来源被动取证的领域的研究在近些年也已经取得了一些成就,上文针对近年国内外对数字音频来源被动取证的研究进行了归纳总结,但从研究现状可看出,针对该领域的研究,目前尚存在一些不足之处。

(1)数字音频来源被动取证研究领域的理论体系不够完善。在现有的研究报道中,对数字音频来源被动取证领域的研究没有形成完善统一的评价标准和理论体系,导致对于不同的算法理论和特征较难形成明显的好坏对比。

(2)公用数据集的多样性欠缺。从目前的文献中可以看出,每个研究者所使用的数据集不同,虽然大多数研究者的实验结果在个人的数据集上表现出了很好的效果,但是由于缺乏公共的数据集和开放的比较平台,导致实验结果的可比性降低,进而降低了特征和算法模型的比较性,无法衡量出特征、算法模型的好坏。而且,随着设备数量和多样性的增加,实验的难度也会改变,所以实验算法的直观表现也变得模糊。

(3)算法模型和特征数据的针对性较强,泛化性和可移植性较差。大多的研究算法框架是基于特定的特征数据和特定的情况。比如,很多研究试图从数字音频信号中分离出静音段进而提取特征数据,但在实际情况中,静音段数据很少,甚至没有包含静音段,在这类情况中,原有的算法模型将无法使用。而且,目前很多研究过程中所使用的数字音频样本数据是在特定的环境下录制的,而在现实中,数字音频中还包含其他各种噪声信号,会严重干扰对信道特征的提取。因此,现有的研究算法框架的鲁棒性和普适性有待提高。

(4)对开集识别的研究报道相对较少。目前所报道的众多研究中,对开集识别的研究相对较少,大多是基于闭集设备源匹配问题的研究。在开集识别领域,所面临的数据集将会更大,而且对算法的鲁棒性要求也会更高,算法的复杂度也会相对加大。

6.2 研究展望

数字音频来源取证结合了多个领域的知识,也涉及很多的研究领域,是一个多学科交叉型的研究课题,应用范围广泛,所以在未来的发展上,依然是一个值得深入研究的课题。结合现有的技术水平和研究现状,提出了以下几个展望。

(1)完善现有的研究技术和研究方法,形成一套行之有效的理论。数字音频来源被动取证目前尚处于起步阶段,很多的概念尚未得到统一的认可,很多的研究技术和研究理论没有得到有效的验证和实施。今后有待进行整合分析,形成一套完整的理论体系。

(2)建立一个持续完善的公用数据库,以供大多数的研究者使用。目前的研究中,研究者所使用的数据集不统一造成研究算法不确定、无法比较等一系列问题。一个健全的公用数据集可以使得各个研究者对自己所提出的研究理论和模型进行更加全面的评估,从而有针对地对算法模型进行优化。另外,一个健全的公用数据集,可以提高算法的比较性,从而筛选出更加完美的算法模型,提高该领域的研究水平,激发研究者的研究兴趣。

(3)将深度学习模型引入数字音频来源取证领域的研究中。深度学习的应用使得各个领域的研究得到了快速的发展。但在数字音频来源取证领域的研究中深度学习模型只用于深度特征提取和判决模型建立两个方向,缺乏基于深度学习的端到端的研究。端到端的深度模型可以自动学习到预处理阶段和特征提取阶段某些重要参数的最优值,有效地避免由于人为选取参数而造成的泛化性和鲁棒性降低等问题。因此,在后续的研究中,将继续研究设计出适用于数字音频时序性的特征提取网络、适用于数字音频表征建模的深度迁移模型和适用于端到端的深度学习模型。

(4)特征表达能力的强弱和算法模型的好坏在数字音频来源被动取证领域中起决定性因素。因此,需要对数字音频来源被动取证领域展开更加深入和全面的研究,寻找更具有泛化性的特征数据和算法模型,以推动该领域的发展。

7 结束语

数字音频来源被动取证技术的研究通过对设备噪声的识别,并提取出表征机器指纹的信道特征(机器指纹是由各设备电子元器件的差异和电子线路的不同所造成)。本文首先对数字音频来源被动取证领域的两大方向、三个研究目标做了简要的概述,然后根据数字音频来源被动取证的研究对象,将领域内的研究分为特征表达和表征建模两大模块。从现有的研究报告中可以看出,虽然经过广大研究者的不懈努力,在该领域已经取得了可观的成果。但仍存在一些不足之处。一方面,由于公用数据集多样性的欠缺,约束了广大研究者的研究进程。另一方面,由于算法的针对性较强,导致目前的研究成果尚且不能应用在各个领域,和实际要求有一定的距离。数字音频来源被动取证领域在实际的研究过程仍然存在大量的问题和挑战,需要广大研究者继续深入的研究分析。

猜你喜欢

数字音频被动来源
将来吃鱼不用调刺啦
新闻语篇中被动化的认知话语分析
蔓延
第五课 拒绝被动
试论《说文》“丵”字的来源
“赤”的来源与“红”在服装中的应用
基于FPGA的多协议数字音频信号发生方法
数字音频及其嵌入技术在广播电视工程的应用
数字音频广播信号接收系统及其软件架构
数字音频广播的特点