一种基于MDCT量化系数统计特征的AAC音频隐写分析方法

2015-03-11王昱洁蒋薇薇

合肥工业大学学报（自然科学版） 2015年10期

王昱洁，杨萍，蒋薇薇

（合肥工业大学计算机与信息学院，安徽合肥 230009）

0 引言

隐写是将秘密信息以不被察觉的方式隐藏于图像、音频、视频等载体中，可以利用公开的信道实现隐秘通信。隐写分析是隐写术的对抗技术，其目的是检测、提取、阻止甚至破坏载体中的秘密信息。隐写分析具有重要的应用价值和学术意义，一方面可以控制和打击对隐写术的非法滥用，另一方面可以指导相对安全的隐写方法的设计。目前在以音频为载体的隐写与分析方法的研究上，主要利用未压缩格式的音频作为载体，而以压缩格式音频为载体的隐写与分析方法的研究相对较少。在互联网上绝大部分的音频都是以MP3为代表的压缩格式进行存储和传输，先进音频编码（AAC）是在MP3基础上开发出来的一种音频编码标准，AAC比MP3具有更好的音质和压缩率［1］，有望成为互联网上音频压缩格式的主流。因此，对于AAC音频隐写与分析方法的研究同样具有十分重要的意义。

目前仅有少量文献［2－6］给出了以 AAC音频为载体的隐写方法，而对于以AAC音频为载体的隐写分析方法的研究更少。以AAC为载体的隐写方法，根据秘密信息嵌入位置的不同，大体可分为4类：① 基于时域的信息隐藏方法［2］，即在未压缩的时域信号中嵌入秘密信息再压缩成AAC格式的音频；② 基于频域实数信号的隐藏方法，如文献［3］提出的AAC水印就是将信息嵌入到量化前的MDCT系数中；③ 基于频域量化值的隐藏方法，如文献［4］采用扩频调制的方式将秘密信息嵌入到量化后的MDCT系数中；④ 基于比特流的隐藏方法，如文献［7］提出基于AAC溢出序列的隐写方法，采用矩阵编码的方式将秘密信息嵌入到比特流中溢出序列的最低位上。在量化后的MDCT系数中嵌入秘密信息不需要进行反量化和量化的过程，减少了计算复杂度，因此已有的以AAC音频为载体的隐写方法多在频域量化值中嵌入秘密信息。

MP3Stego［8］是一个比较流行的 MP3音频隐写工具，现有的压缩格式音频的隐写分析研究多是针对 MP3Stego开展的［7］，根据 MP3Stego引起的编码块长度的变化来进行隐写检测，而对于编码长度不变的隐写方法失效。文献［9］提出了一种基于MDCT量化系数特征提取和SVM分类的 MP3Stego隐写分析方法，它们根据MP3Stego的隐写操作会对相邻帧MDCT系数统计分布的连续性产生影响，提取MDCT量化系数的统计特征来进行隐写分析。根据这一思路，本文以扩频调制方式在频域量化值中嵌入秘密信息的AAC隐写方法为研究对象，针对AAC频域量化系数的特点，在AAC的MDCT量化系数中提取隐写前、后有区分度的统计特征，采用SVM进行分类，实现了一种基于量化系数统计特征的AAC音频隐写分析方法。实验结果表明，对于频域量化系数上的扩频隐写方法，本文的隐写分析方法对不同比特率的AAC音频的隐写检测率总体上较高。

1 隐写分析方法

本文提出的基于量化系数统计特征的AAC音频隐写分析方法的系统框图如图1所示。

图1 AAC音频隐写分析方法的系统框图

图1的上半部分是训练过程，将用于训练的AAC音频经过部分解码后得到MDCT量化系数，然后对量化系数进行特征提取，将所提取的用于隐写分析的特征送入支持向量机中进行训练，得到训练好的分类器。图1的下半部分是检测过程，将用于测试的AAC音频经过部分解码后得到MDCT量化系数，对量化系数采取同样的方法进行特征提取，将所提取的用于隐写分析的特征送入训练好的分类器进行检测是否存在隐写，从而得到检测结果。

1.1 特征提取

特征提取在隐写分析中是一个关键的环节，特征提取的好坏直接影响着隐写分析的结果，由于本文以频域量化值中嵌入秘密信息的AAC隐写方法为研究对象，因此，通过分析隐写对频域量化值产生的影响，在MDCT量化系数中提取对隐写敏感的统计特征，主要有基于广义高斯分布模型（GGD）的统计特征、基于直方图频域统计矩的特征和基于马尔可夫链的统计特征。

1.1.1 基于广义高斯分布模型的统计特征

文献［10］通过大量实验对AAC的 MDCT量化系数进行广义高斯拟合，指出MDCT量化系数能够较好地符合广义高斯分布模型。本文根据这一特点，通过分析AAC音频隐写前后的MDCT量化系数的广义高斯分布模型的变化，提取用于隐写分析的统计特征。

广义高斯分布的概率密度为：

其中，α为尺度参数；β为形状参数；Γ（·）为标准Euler－Gamma函数，即

以扩频调制的方式在频域量化值中嵌入秘密信息的AAC隐写方法是一种加性噪声隐写方法，即秘密信息引入的噪声与频域量化值之间是相互独立的，两者叠加得到了隐写后的量化系数。因此，隐写后的量化系数的概率密度可表示为隐写前的量化系数的概率密度与隐写引入噪声的概率密度的卷积，即

其中，pc（x；αc，βc）、ps（x；αs，βs）分别为隐写前、后量化系数的概率密度函数；pn（x；σ）为隐写引入噪声的概率密度函数。

可以采用Kullback－Leibler距离（K－L距离）来衡量隐写前、后量化系数的概率密度函数之间的差异，设隐写前、后的概率密度函数分别表示为f（x）和g（x），则f（x）和g（x）之间的 K－L距离为：

将f（x）和g（x）进行广义高斯拟合，可表示为：

将（5）和（6）式代入（4）式，可以得到隐写前、后的概率密度函数的K－L距离为：

从（7）式可以看出，隐写前、后的概率密度函数的K－L距离只与广义高斯分布的参数αc与βc及αs与βs有关，因此，提取的广义高斯分布模型参数α和β可以作为隐写分析的特征。

1.1.2 基于直方图频域统计矩的特征

文献［11］将直方图变换到频域，提取频域统计矩作为隐写分析的特征，比时域统计矩特征具有更高的灵敏度。由于隐写后的量化系数的概率密度可表示为隐写前的量化系数的概率密度与隐写引入噪声的概率密度的卷积，变换到频域上相当于对隐写前的量化系数分布直方图进行了一次低通滤波。采用直接扩频隐写方式将秘密信息嵌入到AAC音频的MDCT量化系数中（嵌入强度Δ＝1，嵌入容量为100%），图2所示为AAC音频隐写前、后量化系数直方图频谱幅度的对比（图中频谱幅度进行了归一化处理，只取－128～128的量化系数）。由图2可知，AAC音频在隐写前、后的量化系数直方图频谱幅度有一定的变化，相当于经过了低通滤波，因此，可以提取量化系数分布直方图的频域统计矩作为隐写分析的特征。

图2 AAC音频隐写前、后量化系数直方图频谱幅度的对比

量化系数分布直方图n阶频域统计矩Mn定义如下：

其中，N为直方图中量化系数的个数；fk为DFT变换的第k次频率；p（fk）为直方图频谱幅度分布，即

其中，｜H（fk）｜为直方图h（xk）DFT变换的第k次频率的幅度，即

根据（8）式计算M1～M4，提取量化系数分布直方图频域的1～4阶统计矩作为隐写分析的特征。

1.1.3 基于马尔可夫链的统计特征

设随机序列Xn取值于状态空间I＝｛i0，i1，i2，…｝，对n∈N，条件概率满足：

则称｛Xn，n∈T｝为马尔可夫链。

文献［12］将马尔可夫链应用于JPEG图像的隐写分析中，将量化DCT系数沿水平、垂直、主对角线和次对角线的方向建立Markov矩阵，并提取矩阵中的部分数据作为特征进行隐写分析。AAC音频中同一帧相邻的MDCT量化系数之间以及相邻帧的MDCT量化系数之间都具有较强的相关性，可以对这些MDCT量化系数建立Markov转移矩阵，表达式分别为：

其中，IN（i，j）为同一帧相邻的 MDCT量化系数的Markov转移矩阵；IM（i，j）为相邻帧的 MDCT量化系数的Markov转移矩阵；QMDCT为量化后的MDCT系数；t为帧的序号，总共有N帧；s为每帧内量化系数的序号，每帧长度为1 024；δ函数为：

由于隐写的不可感知性，秘密信息的嵌入通常对中、高频系数产生的影响较大，而对低频系数的影响相对较少。AAC音频某一帧MDCT量化系数的绝对值分布如图3所示。由图3可以看出，位于低频段的MDCT量化系数绝对值较大，而位于中、高频段的MDCT量化系数绝对值较小；其中有一段量化系数为｛－1，0，1｝的区域称为小值区，在该部分提取特征能够较好地反映出隐写引起的变化，因此，选取IN（i，j）（i，j∈ ｛－1，0，1｝）和IM（i，j）（i，j∈｛－1，0，1｝）共18个数值作为隐写分析的特征。

图3 某一帧MDCT量化系数绝对值分布

1.2 分类器的选择

对于一个未知是否存在隐写的AAC音频，隐写分析的目的是判断该AAC音频是否存在隐写，实际上是采用分类器将AAC音频分为2类问题。假设所提取的特征向量表示为t，而隐写分析的结果为y，则隐写分析的过程可表示为：

其中，函数f为分类器，若y＝－1，表示该AAC音频不存在隐写，若y＝＋1，说明存在隐写。

在分类器的选择上，选择基于径向基核函数的支持向量机（SVM）来对所提取的作为隐写分析的特征向量进行分类。径向基核函数表示为：

Libsvm是一个易于使用和快速有效的SVM分类工具，可以选择径向基核函数，并采用交叉验证的方法来选择最佳参数，因此本文采用Libsvm进行分类器的训练和检测。

2 实验结果

实验音频库来自网络和CD收集的500个音频段，所有音频段格式为 WAV（采样频率44.1kHz，长度10s，编码精度16bit，单声道），包括古典、交响乐、摇滚、爵士和流行乐等多种类型，将500个音频段压缩成不同比特率（128、192、256kb／s）的AAC音频进行实验。

对不同比特率的AAC音频分别进行测试，每次取出400段AAC音频作为训练音频，将训练音频经过部分解码后得到每帧的MDCT量化系数，按照1.1节中的特征提取方法分别提取广义高斯分布模型的参数α和β、量化系数分布直方图频域的1～4阶统计矩、帧内和帧间MDCT量化系数的Markov转移矩阵的部分数据，一共24个特征组成隐写分析的特征向量，都标识为“－1”，表示在未隐写的AAC音频中提取的特征向量。

采用直接扩频隐写方式将秘密信息嵌入到MDCT量化系数中，嵌入长度可变（256、512、1 024），嵌入强度Δ＝1，隐写容量分别为25%、50%、75%和100%。对隐写后的AAC音频按照同样的特征提取方法提取24个特征组成隐写分析的特征向量，都标识为“＋1”。将所提取的AAC音频隐写前、后的特征向量送入支持向量机进行训练，得到训练好的分类器，以用于隐写前、后AAC音频的分类。

另外的100段AAC音频作为测试音频，将测试音频按照上述特征提取的方法提取隐写前、后的特征向量，分别标识为“－1”和“＋1”，共200个特征向量送入训练好的分类器中进行测试，对于不同比特率、不同隐写容量的AAC音频的隐写检测率见表1所列。

表1 不同比特率和隐写容量的AAC音频隐写检测率 %

由表1可以看出，本文的隐写分析方法对AAC音频的隐写检测率总体上较高，对于隐写容量为100%的AAC音频，隐写检测率高于80%。对于比特率为128kb／s的AAC音频，其隐写检测率比192kb／s和256kb／s的要高，这是由于比特率的增加使得量化步长减小了，小值区的MDCT量化系数减小了，所以，比特率高的AAC音频隐写前、后的特征变化不如比特率低的AAC音频明显，隐写检测率随着比特率的增加而降低。但是，为了便于网络传输，通常采用低比特率的AAC音频作为隐写载体，因此，本文的AAC隐写分析方法能够较好地满足实际的需要。

比特率为128kb／s的AAC音频在不同嵌入强度与隐写容量下的检测结果见表2所列。

表2中，虚警率为未隐写音频判别为隐写音频的比率，漏检率为隐写音频判别为未隐写音频的比率。

表2 AAC音频在不同嵌入强度与隐写容量下的检测结果 %

从表2中可以看出，随着嵌入强度的增大，AAC音频的隐写检测率也随之上升，但是嵌入强度的增大容易导致隐写的不可感知性变差。通常情况下嵌入强度取Δ＝1，其检测率在满容量隐写时可达到92%，即使在隐写容量较低的情况下也能取得较高的检测率，因此，本文方法对于低嵌入强度的AAC隐写音频检测也是有效的。

3 结束语

本文提出了一种基于MDCT量化系数统计特征的AAC音频隐写分析方法，根据AAC频域量化系数的特点，分析了隐写对MDCT量化系数的影响，提取广义高斯分布模型的参数、量化系数分布直方图的频域统计矩、帧内和帧间MDCT量化系数的Markov转移矩阵的部分数据作为隐写分析的特征，采用SVM作为分类器。实验结果表明，该隐写分析方法对于不同比特率的AAC音频的隐写检测率总体上较高，对于低比特率的AAC音频其隐写检测率高于高比特率的AAC音频，适用于网络传输中的AAC音频隐写的检测。由于目前以AAC音频为载体的隐写方法较少，且还没有出现如MP3Stego这种较为成熟的软件，而对于AAC音频的隐写分析方法更是罕见，本文方法针对采用扩频调制方式在MDCT量化系数中嵌入秘密信息的AAC音频隐写方法进行了检测，是对AAC音频隐写分析领域的一个尝试，下一步的工作将对本文的方法进行改进，以适用于其他AAC音频隐写方法。

［1］ Brandenburg K.MP3and AAC explained［C］／／AES 17th International Conference on High－Quality Audio Coding.Erlangen：AES，1999：1－12.

［2］ Tachibana R.Two－dimensional audio watermark for MPEG AAC audio［C］／／Electronic Imaging 2004.International Society for Optics and Photonics，2004：139－150.

［3］ Neubauer C，Herre J.Audio watermarking of MPEG－2 AAC bit streams［C］／／108th Audio Engineering Society Convention.Pairs：AES，2000：1－19.

［4］ Cheng S，Yu H，Xiong Z.Enhanced spread spectrum watermarking of MPEG－2AAC audio［C］／／IEEE International Conference on Acoustics，Speech，and Signal Processing.IEEE，2002：3728－3731.

［5］ Zhu J，Wang R D，Li J，et al.A Huffman coding sectionbased steganography for AAC audio［J］.Information Technology Journal，2011，10（10）：1983－1988.

［6］ Xu Shuzheng，Zhang Peng，Wang Pengjun，et al.Performance analysis of data hiding in MPEG－4AAC audio［J］.Tsinghua Science and Technology，2009，14（1）：55－61.

［7］ Wang Y，Guo L，Wei Y，et al.A steganography method for AAC audio based on escape sequences［C］／／IEEE Multimedia Information Networking and Security.IEEE，2010：841－845.

［8］ Petitcolas F.MP3Stego 1.1.18［EB／OL］.［2010－10－02］.http：／／www.petitcolas.net／fabien／steganography／mp3stego／.

［9］ Qiao M，Sung A H，Liu Q.Feature mining and intelligent computing for MP3steganalysis［C］／／IEEE International Joint Conference on Bioinformatics，Systems Biology and Intelligent Computing.IEEE，2009：627－630.

［10］ Yu R，Lin X，Rahardja S，et al.A statistics study of the MDCT coefficient distribution for audio［C］／／IEEE International Conference on Multimedia and Expo.IEEE，2004：1483－1486.

［11］ Xuan G，Shi Y Q，Gao J，et al.Steganalysis based on multiple features formed by statistical moments of Wavelet characteristic function［C］／／Proceedings of Information Hiding Workshop.Barcelona：Springer－Verlag，2005：262－277.

［12］ Shi Y Q，Chen C，Chen W.A Markov process based approach to effective attacking JPEG steganography［M］／／Information Hiding.Berlin：Springer，2007：249－264.