一种基于数据分析的录音文件来源识别方法

2016-12-27卢启萌施少培卞新伟李岩曾锦华奚建华

中国司法鉴定 2016年1期

关键词：音频文件录音笔序数

卢启萌，施少培，卞新伟，李岩，曾锦华，奚建华

（司法部司法鉴定科学技术研究所，上海200063）

鉴定实践
Forensic Practice

一种基于数据分析的录音文件来源识别方法

卢启萌，施少培，卞新伟，李岩，曾锦华，奚建华

（司法部司法鉴定科学技术研究所，上海200063）

目的分析常见的30种录音笔录制的音频，通过考察音频文件自身的数据情况，对音频属于何种设备录制进行识别。方法使用UltraEdit、WinHex等软件对音频的文件头和文件数据结构进行分析和比较，研究不同录音笔录制的音频文件格式、参数和数据结构之间的差异。结果通过录音文件的文件名、文件格式、文件头和文件结构能够较好地区分文件来源，其中，WMA和REC格式文件能达到100%的识别准确率，MP3格式文件的区分率为96．67%，WAV格式文件区分率为88．1%，说明该方法具有较强的区分性能。结论实验结果显示该方法使用常见工具，分析步骤简单，考察点清晰，识别率高，能够广泛应用于录音真实性鉴定实践中。

录音真实性；录音笔；文件格式；分类

随着消费型电子产品的迅速发展，录音笔、MP3、摄像机等录音设备广泛普及，在需要进行录音时，这些便携、录音效果良好的设备往往成为人们固定声音证据的首选。

在目前的录音真实性（完整性）鉴定案件中，录音笔录制的音频文件占有较大比例。在民商事案件的鉴定实践中，依据SF/Z JD0300001-2010《声像资料鉴定通用规范》第二部分《声像资料鉴定通用程序》规定[1]，需要先获得录音证据提交方对于送检音频文件的形成过程陈述，即该音频文件是使用何种录音器材以何种模式录制[2]。若检验发现该音频文件并非提交方声称的录制设备录制，则送检音频的真实性值得怀疑[3]。因此，对音频文件的录制设备进行判断，是录音真实性（完整性）鉴定的重要组成部分。

1 材料与方法

考虑到方法的实际运用，在电商网站京东上以搜索优先级为主要参考标准，准备录音笔共30支，具体型号如表1所示。按照产品说明书中的录音模式说明，每支录音笔的每种模式各录制2次。录制后，使用UltraEdit、WinHex等常见代码读取软件对录制的音频文件进行分析。

表1 实验所用录音笔型号

2 结果

录制得到有效录音共111种。分析录音文件的格式、文件头、属性参数等，进行统计和分类，得到以下结果。

2.1 文件格式

录音共出现了MP3、mp3、WAV、wav、WMA、REC共计6种后缀名，4种格式，具体出现次数如表2所示。统计出现次数可以发现，目前MP3格式占据主流地位，其次是WAV格式，约占四成。由于格式名称不以大小写为区分，因此下文中均以MP3指代后缀名为MP3和mp3的文件格式，WAV指代WAV和wav后缀。

表2 实验录音后缀名和格式情况

2.2 文件名

不同型号的录音笔命名规则不同，命名规则有VOICE+3位序数、ATR_4位序数、LININ+3位序数、rec+4位序数、REC+5位序数、REC+6位序数、4位年.2位月.2位日_2位时.2位分_2位序数、3位序号M_6位年月日_4位时分、3位序号_6位年月日_4位时分 A0、6位年月日_3位序号、8位年月日_3位序号、3位型号_4位序号DVT_B+3位序数、RNC+3位序数、REC+6位时分秒、REC+3位序数、VR+4位序数和V+2位月+2位日+2位序数等。命名规则中较为通用的是REC+3位序数的命名方式，在30支录音笔中有11支采用了此种方式，其他命名方式不具有通用性。

2.3 格式参数

2.3.1 MP3格式

根据MP3格式定义[2]，分析格式中具有区分价值的参数如下：

（1）ID3V2。MP3文件理论上应当分为三部分：TAG_V2（ID3V2），Frame和TAG_V1（ID3V1）ID3V2。其中，位于文件头的ID3V2作为ID3V1的扩充，两者均为包含有曲名、演唱者、专辑、音轨数等信息的metadata容器[4]。60个MP3格式录音中，文件头含ID3V2域的共有10个，来自4支录音笔。

表3 含ID3V2文件情况

10个文件起始处均为4944330300，即版本号ID3V2．3。但不同文件的后续结构不同。如图1所示为Sony-ICDTX50录音笔录制的MP3格式音频文件头，至帧开始前为4096字节，其中第65～2788字节及第2874～4096字节为00，第2788～2874字节记录有音轨、艺术家、编码器（含品牌信息）等。而Sony-ICDFX8所录制的文件中，该部分与Sony-ICDTX50除编码器版本号不同外无其他本质区别。

图2则为Olympus-VN712录音笔录制的MP3文件头，可见至帧开始前为1536字节。其中，第12～14字节为品牌信息，第33～35字节为型号信息，第59～70字节为录制起始时间（年月日时分秒），第71～82字节为录制结束时间，之后为录音时长，第337～1 536字节为FF。Olympus-WS811所录制的文件中，文件头信息除型号标识与Olympus-VN712不同外，文件头结构无其他本质区别。

图1 型号为Sony-ICDTX50录音笔录制的MP3文件头局部

图2 型号为Olympus-VN712录音笔录制的MP3文件头局部

（2）格式版本。由于本次实验中未出现可变位率的文件，因此对于固定位率的MP3文件，根据选用的版本不同，MP3帧头中第12、13位为00、10或者11可以读取为使用的格式版本是2.5、2或1[5]。帧头前11位恒为1，第14、15位为01即layer3，第16位CRC校验则为1即不校验，因此可以简单地通过MP3帧头为 FFFB、FFF3或 FFE3判断版本为MPEG2.5、MPEG2或MPEG1。在实验得到的60个MP3文件中，使用Version2.5、Version2和Version1的分别有9、20和31个。由于格式版本与采样率等参数相关，因此，进一步分类可以参考采样率等参数。

（3）声道模式。帧头的第25、26位为声道模式，00为立体声（Stereo），01为联合立体声（Joint Stereo），10为双路单声道（Dual Mono），11为单声道（Mono）。当声道模式为01（Joint Stereo）时，第27、28位则为联合立体声为IS或M/S编码的扩充模式[6]。在实验音频中，有26个立体声，7个双路单声道，27个单声道，有5个（来自PhilipsDVT1000、Olympus-VN712和Olympus-WS811）音频文件为Joint Stereo模式，其中M/S编码4个。

（4）采样率、码率。采样率是音频的主要特征参数，单位为KHz，在60个MP3格式音频中，共涉及8种采样率。对于未经压缩的pcm音频流而言，码率等于采样率、采样精度和声道数的乘积，对于MP3格式音频而言则不然，在60个实验音频中，共出现9种不同的码率

综合考察采样率和码率数值，实验音频中有11个唯一组合，如表4所示。

除（1）中含ID3V2及上述采样率和码率唯一组合外，结合声道数、声道模式的分类，实验得到的MP3音频中另有7个唯一组合，如表5所示。

表4 采样率和码率唯一组合

表5 采样率、码率、声道、声道模式组合

（5）文件标记分析。在规则的MP3格式外，可能出于品牌标识或者生产上的需要，部分文件具有非常特殊的文件头形态。

①Ann C200录音笔。该款录音笔可调麦克风噪音高、中、低三个档次，码率和采样率仅有192Kbps和44.1KHz一种。录制的文件自第一字节始，填充512字节的0值，内容则后移至第513字节，起始2字节为FFFB。

②Aigo爱国者R5580录音笔。该款录音笔具有线录和麦克风录音两种功能，线录模式的码率和采样率仅有32Kbps和 44.1KHz一种，麦克风录音则有8Kbps64Kbps128Kbps三种码率，采样率均为16KHz。在线录模式录音、麦克风64Kbps和128Kbps码率录制的模式下，文件中多次重复出现“NexiaDevice Skylark3RA 2010 Apr”字样，如图4所示。查询得知，该字样为韩国NEXIA Device公司的录音芯片标识。此外，该录音笔在麦克风模式下录制的码率为8Kbps文件，在距离文件尾6 144字节之前填充了2048字节的1。

③Panasonic松下RR-XS420录音笔和RRUS300录音笔。松下RR-XS420录音笔可以录制6种不同参数的MP3格式音频，RR-US300录音笔可以录制3种不同参数的MP3格式音频。码率和采样率如表6所示。

图3 Ann C200录音笔文件头

图4 Aigo爱国者R5580录音笔芯片标识

表6 实验中松下录音笔录制音频的码率和采样率

序号为1、2、3、4、6、9的录音文件中出现标记。1、2、3、4、9文件头部出现二进制“……001101001000……10010110100110110101010……”字样，“1010”长度不等。其中“10010111101”即“4B4D”可以转为ASCII码“KM”，与6尾部多次出现的“KM1.86.1.8”字样及其后填充AA字节可能具有相关性。此外，3号音频尾部亦出现“4B4DAAAA”字样标识，但未能找到KM字样所表达的含义。

序号为5、7、8的音频文件头部第5至第9字节为“0000000000000000000000000000001101001000”即“0000000348”，其中“348”在前述文件“KM”标示的前后（多为前4字节处）均有出现。

此外，松下RR-XS420录音笔录制的每一文件均生成一INX后缀名的同名文件，336字节，起始16字节为“INDEX_ICRECORDER”字样，其余为0。

（6）小结。在60个MP3格式文件中，综合上述采样率、码率、声道、文件头标识等参数，同时考虑文件名命名方式，能够区分的文件共计58种（有3个文件是同一种类），区分率为96.67%。

2.3.2 WAV格式

WAV格式是一种RIFF文件，因此每个WAV文件的头四个字节是 “RIFF”[7]。根据WAV格式定义，考察格式中具有区分价值的若干要素如下：

（1）调制方式和位深度。实验录音中，文件分为脉冲编码调制（Pulse Code Modulation，PCM）和自适应差分脉冲编码调制（Adaptive Differential Pulse Code Modulation，ADPCM）两种编码形式。位深度即每个声道中各个样本的数据位数。在42个实验音频中，ADPCM4位和PCM16位各出现21次。

（2）编码设置ID。PCM形式的WAV文件编码设置ID为1，ADPCM形式的编码设置ID则有2和11两种，在21个ADPCM形式实验音频中分别出现5次和16次。

（3）组合参数。读取实验录音的码率、采样率和声道数，在总计42个WAV格式的实验录音中，具有唯一组合的录音共17个，其录音笔型号及相关参数如表7所示。

表7 WAV格式码率、采样率和声道数的唯一组合

续表7

（4）文件标记分析。①Sony索尼ICD-TX50录音笔。该型号录音笔录制的WAV格式音频在文件头上具有其他录音笔没有的音轨、导演等信息，虽然较同一录音笔录制的MP3格式音频缺少编码软件标识，也因此没有品牌显示，但以文件名为音轨名、以“My Recording”为导演信息亦能帮助识别录制设备。

②ANN安UV100和Allbar奥巴UB10录音笔。除Sony索尼ICD-TX50录音笔外，ANN安UV100和Allbar奥巴UB10录音笔亦包含音轨信息“Audio1”。此两款录音笔除品牌和型号不同外，包装、机身外型、说明书样式、内容及录制的音频参数等均完全相同，可能出自同一工厂生产。

此外，Shinco新科V-31和Akal雅佳A20亦具有完全相同的参数及结构。

③Hyundai现代C100录音笔。标准WAV文件文件头由RIFF WAVE和fmt两个CHUNK组成，后接data CHUNK[8]，但也有Hyundai现代C100录音笔在 fmt和 data两个 CHUNK之间，另有一个fact CHUNK（如图5所示）。

图5 文件头中的fact CHUNK

④Panasonic松下RR-XS420录音笔。该录音笔录制的WAV格式文件中，data CHUNK出现在第37字节，在“data”ID及4字节的文件大小后，填充了约9700字节的0。除上述WAV文件外，Philips飞利浦DVT1000录音笔和Newsmy纽曼RV21录音笔的data CHUNK起始于第37字节，其他文件则起始于第505字节，之前填0。

（5）小结。在42个WAV格式文件中，综合上述采样率、码率、声道、文件头标识等参数，同时考虑文件名命名方式，能够区分的文件共计37种（其中1组4个相同，2组2个相同），区分率为88.1%。

2.3.3 其他格式

除MP3和WAV外，实验音频中还出现WMA格式8次[9]、REC格式1次。WMA格式音频由Olympus奥林巴斯WS-811和VN-712两款录音笔生成。Olympus奥林巴斯 WS-811和 VN-712录制的WMA格式录音在文件头部分均有品牌、型号和录制时间标识，容易识别，如图6所示。REC格式由Newsmy纽曼RV68录音笔生成。

图6 Olympus奥林巴斯VN-712录制的WMA格式录音文件头

3 讨论

实验证明，根据文件名、文件格式、文件头和文件结构的不同，可以有效地从文件本身区分出该录音是否由某型号录音笔录制形成。在本实验中，WMA和REC格式文件达到100%的识别准确率，MP3格式文件的区分率为96．67%，WAV格式文件区分率为88．1%。

如果不考虑文件名，只通过文件格式、文件头和文件结构进行分析，录音能够限定在2～4种录音笔录制的范围内。因此，分析数据结构的方法在本实验中能得到较高的识别率。

在实验中还发现，采样率和码率是区分音频来源的两个重要特征，尤其是码率，由于其种类较多，具有较高的区分价值。其他参数，如编码格式、参数ID等，虽然无法唯一性区别不同文件，但与采样率、码率、声道数和文件结构等其他类型参数进行组合有助于进一步提高音频文件来源识别率。

4 结论

本文分析了常见录音笔录制的音频，通过考察音频文件自身的数据情况，对音频来源于何种设备录制进行识别。提出了通过对音频文件的文件名、文件格式、文件头和文件结构的差别对音频进行分类的方法，在鉴定实践中能够以较为简单的方法迅速判断检材音频来源情况，有助于录音真实性鉴定工作的进一步展开。

本方法的识别局限于是否同一型号录音笔，对于同一型号的不同录音笔录制的音频文件区分情况则需要通过本底噪声等相关数据的计算进行分析。

[1]SF/Z JD0300001-2010．声像资料鉴定通用规范[S]．2010．

[2]ISO/IEC 11172-3:1993/Cor 1:1996，Information technology— Coding of moving pictures and associated audio for digital storage media at up to about 1，5 Mbit/s— Part 3: Audio TECHNICAL CORRIGENDUM 1[S]．ISO/IEC 1996．

[3]张敬怀，马道钧．WAV语音文件格式的分析与处理[J]．北京电子科技学院学报，2004（02）:47-50．

[4]曾锦华，施少培，杨旭，等．录音设备识别司法鉴定技术研究[J]．中国司法鉴定，2015(06):22-25．

[5]Dongen W S V．Case study:Forensic analysis of a Samsung digital video recorder[J]．Digital Investigation the International Journal of Digital Forensics&Incident Response，2008，5(s 1-2):19-28．

[6]Zhang Z，Liu X，Zhang J．Combinatorial Testing on ID3v2 Tags of MP3 Files[C]//IEEE Fifth International Conference on Software Testing．IEEE Computer Society，2012:587-590．

[5]Taylor S K，Yusof M I E B．Forensic acquisition on MP3 players[C]//Pattern Analysis and Intelligent Robotics(ICPAIR)，2011InternationalConferenceon．IEEE，2011:143-147．

[7]汪勇，熊前兴．MP3文件格式解析[J]．计算机应用与软件，2005，21(12):126-128．

[8]Bhatnagar G，Mehta S，Mitra S．Chapter 7-The WAV File Format[M]//IntroductiontoMultimediaSystems．ElsevierInc．，2004．

[9]王若钧，何杉．WAV文件格式分析与详解[J]．数字技术与应用，2014(3):93-94．

[10]Surhone L M，Tennoe M T，Henssonow S F，et al.Windows Media Audio[M]．Betascript Publishing，2013．

（本文编辑：杨旭）

A Method for Identifying Audio File Sources Based on Data Analysis

LU Qi-meng,SHI Shao-pei,BIAN Xin-wei,LI Yan,ZENG Jin-hua,XI Jian-hua

(Institute of Forensic Science,Ministry of Justice,Shanghai 200063,China)

Objective To establish a method for the identification of audio file sources based on data analysis．Method The audio files recorded by 30 common portable audio recorders were analyzed with decoding software，such as UltraEdit and WinHex．The file head and structure of audio files recorded by different recorders were analyzed comparatively to study the difference in the formats，parameters and structures of these files．Results The audio files can be well classified by the combination of file name，format，file head and structure．The recognition rates were 100%for WMA and REC files，96．67% for MP3 files，and 88．1%for WAV files．Conclusion The established method is simple and efficient，as it acquires high recognition rate using common software．It can be widely used in the forensic practice of audio authentication．

forensic authentication of audio recording;recorder;file format;classification

D918．9

10．3969/j．issn．1671-2072．2016．01．006

1671-2072-（2016）01-0037-08

2015-05-15

中央级科研院所公益研究项目（GY2014Z-3）、（GY2014G-2）、（GY2014Z-5）

卢启萌（1989—），女，研究实习员，硕士，主要从事声像、电子数据鉴定技术研究工作。E-mail:luqm@ssfjd．cn。

施少培（1962—），男，高级工程师（正高级），主要从事刑事技术研究工作。E-mail:shisp@ssfjd．cn。

通信作者：卞新伟（1965—），男，高级工程师，主要从事刑事技术研究工作。E-mail:bianxw@ssfjd．cn。