声纹鉴定实务中语音样本录制问题研究*

2013-03-31汪振林童志雄

重庆邮电大学学报（社会科学版） 2013年4期

关键词：声纹检材录音

汪振林，童志雄

(重庆邮电大学法学院，重庆 400065)

声纹鉴定实务中语音样本录制问题研究*

汪振林，童志雄

(重庆邮电大学法学院，重庆 400065)

说话人同一性鉴定中最常见的问题在于不能获得足够充足的语音样本，从而导致鉴定工作不能顺利展开、鉴定难度增大、工作量增多，甚至无法满足委托人的鉴定请求。如何获得充足的语音样本是声纹鉴定业务发展过程中亟需解决的一个重要问题。将语音录制分为两大阶段——隐性录制阶段与公开录制阶段，在两大阶段的录制过程中充分考虑语音样本采集面临的客观问题，并针对这些问题各个击破提出合理的解决方案，可以获得充足的语音样本。

声纹鉴定；样本录制；隐性录音

一、引言

声纹鉴定实践中，说话人同一性认定所运用的语谱分析是一项成熟的技术，但是在声纹鉴定实务中常常出现无法作出正确的判断、得出科学合理的鉴定意见的情形。其最大原因在于鉴定过程中用于与检材比对的语音样本的质量完全达不到清晰语音的标准。在本文中，笔者针对鉴定实务中出现的这一问题，结合各种途径的现代语音录制方式，提出全程录制的观念，即把语音的录制分为两大阶段——隐性录制阶段与公开录制阶段，在两大阶段的录制过程中充分考虑语音样本采集面临的各种问题，以获得足够充健的样本语音，达到清晰语音的标准。

二、声纹鉴定实务的主要问题

声纹鉴定最早出现在1962年的美国，当时由于美国纽约市连续接到多起爆炸恐怖电话，于是美国联邦调查局委托贝尔实验室对语音图谱技术进行研究，为调查犯罪嫌疑人提供技术支撑。贝尔实验室工程师Lawrence Kersta用两年的时间，收集了5万份个体语音样本进行研究，进而在《Nature》杂志上发表了《声纹鉴定》(Vocieprint Identification)一文，正式提出了“声纹”这一术语[1]。

我国声纹鉴定起步较晚，20世纪80年代以后才开展了此项研究。然而，由于我国经济的飞速发展，不同类型技术型犯罪数量的增长，声纹鉴定在侦查机关破获一些重大案件中发挥了重要的作用，并取得了较大的发展。从早期引进国外KAY公司开发的语音工作站，到目前使用公安部认证的具有自主知识产权的语音分析设备，声纹鉴定在中国有了长足的进步。

现阶段，我国鉴定机构关于声纹鉴定主要开展语音增强与降噪、原始性及真实性检验、录音转写、话者识别(同一性鉴定)等业务，其中，同一性鉴定是实践操作中最核心的业务，它将案发时获得的语音检材与样本语音进行比对，进而分析二者是否来源于同一话者，或者更科学地表述两段语音材料源于同一话者的可能性大小*实践中语音鉴定的结论使用似然率体系进行衡量，LR值大于1则为趋向于同一人；小于1则趋向于不是同一人；等于1或接近1则表明无法判断。。

虽然语音自动识别技术发展飞速，但声纹同一性鉴定主要还停留在人工分析的阶段，语音的听觉分析和声学分析主要依靠有经验的语音专家和技术人员来完成。工作周期长，工作量大，效率低下，出现这一现象主要有以下几点原因：(1)录音的质量较差(存在背景噪音、语音样本长度不够)；(2)电话、手机等设备在传输过程中的损耗；(3)被录音人不配合和语音变异(伪装、压力、情绪)。其中，被录音人的不配合是影响鉴别的最主要因素，因此，如何获得足够全面的个体特征参数用于鉴定人通过语音工作站进行科学鉴定，已经成为鉴定工作发展必须突破的瓶颈问题。

三、如何获得充足的样本语音

要获得充足的样本语音，笔者认为需要做好准备工作、分析检材语音的特征并采取合理的全程录制方式，以下分述之。

(一)录制准备工作

在声纹同一性鉴定实务中，语音的检材通常是鉴定的申请人在普通的环境中录制并提交的，这是作为中立第三方的鉴定机构不能控制的因素。在对样本材料进行初步判断能否进行鉴定之后，便进入到语音比对样本录制的环节中，能否得出贴近送检语音环境、体现真实语音特质的样本直接影响到鉴定结果的科学性。这一环节往往是鉴定机构能够掌握和控制的。正所谓工欲善其事，必先利其器，在录制语音样本之前离不开大量的准备工作，这些准备工作总的来说包括两部分内容：硬件的准备和软件的准备。

硬件的准备主要是指录音设备、录音环境等硬性标准化条件的准备；软件的准备是准备工作最重要的部分，是指录制样本的采集方案，为什么说这一部分最为重要？主要原因在于：第一，涉案的被录音人在进行语音样本录制时，必定有心理防备，他们往往通过压低声音、放慢语速、改变声调等方式对自己的声音进行伪装；第二，即便是涉案被录音人不进行语音的伪装，通常情况下，正常的交流说话与面对麦克风说话所表现出来的声音、声调都会有明显的差异，所以制作一份详实的语音样本采集方案是录制样本语音的必备工作。准备工作具体包括以下内容。

(1)对检材进行检听。主要目的是为了解录音的谈话内容和谈话语境，为设计语音样本采集方案做准备，必要时可以整理出谈话内容的书面材料。

(2)设计语音样本的采集方案。根据案件的基本情况和鉴定要求，在对检材内容进行详细检听的基础上，结合被录音人的具体实际，设计出采集语音样本内容的详细方案。

(3)制作谈话笔录。谈话笔录的主要内容包括原、被告双方的姓名、身份证号码(核对身份证)，双方对彼此身份是否认可，检材提供方录制检材的时间、地点、录音设备、方式、详细过程及是否原件等详细情况。问话笔录应由原、被告双方和法官签名认可。

(4)检查录音设备。对录音设备的检查包括对录音机、磁带或录音笔、连接有专业录音软件的电脑等器材的检查。在录制过程中，最好能够有两台以上的录音设备同时进行(如果有录制检材的录音设备应同时使用该设备录制样本)，以确保录制工作的顺利和录制效果的良好。如果能够使用录制检材的原始录音设备则更好*这一点可以通过对送检的语音文件进行元数据的查询得到录制该文件的设备信息。。

(5)关闭手机等通讯工具。在录制语音样本的过程中，有手机来电或接收到信息，均会产生干扰录音的电磁信号，也会使被录音人的情绪产生波动，影响语音样本采集的质量，因此，录音现场所有人员应关闭手机等通讯工具。

(二)检材语音的特征分析

实践中常见的检材语音材料及其特征如下。

(1)会议录音。这一类型的录音具有这样的特征：第一，往往有多个话者，在对录音进行听辨、确定需要对比的话者方面需要大量的时间；第二，会议录音的场合常常会出现话者语音的交叉重叠；第三，语音的质量方面，由于录音场所的影响，语音的质量往往不是特别高，可能呈现响度不足、声音污染较重的特征。

(2)电话录音。这一类型的录音相比较会议录音来说，话者往往是两人的对话，在听辨上较为容易，但是背景噪音仍然是不可控制的因素。另外，语音质量方面也存在着高低频段的语音信息损失、高低频共振峰的移位等现象。

(3)网络实时录音。网络实时录音常见于双方通过MSN、QQ等即时通讯工具进行对话形成的录音，其质量受到网络通信质量的影响较大。

(4)其他现场录音。其他现场的录音质量，大体上同以上类型的录音相同，取决于话者语音的质量、录音环境、录音设备等因素[2]。

分析不同类型检材录音特征，便于在录制样本语音时尽量还原检材语音的录音现场，包括背景噪声、话者说话的情绪状态等，以获得话者最真实的样本语音。

(三)全程分阶段录音方案的实施

通过参阅大量文献资料同时结合声纹鉴定实践，笔者认为要获得丰富有效、真实自然的样本语音材料，可以采取阶段性录音的方式。这里所说的阶段性录音总的来说指的是隐性录音*谭超英在《浅谈声纹鉴定中语音样本的提取》(载于《广西公安管理干部学院学报》2003年第4期)一文中提出了公安机关在侦查过程中的秘密录音与公开录音，笔者认为，作为具有中立性质的鉴定机构，通过秘密录音的语音样本得出结论是有违操作规范的，所以在此处命名为隐性录音，这一录音所得的样本结果的使用将在下文中阐述。与公开录音。其中，隐性录音又分为两个步骤：第一，在电话通知被录音人进行样本采集时进行电话录音；第二，被录音人到达鉴定机构所在地，接待过程中进行录音、录像。公开录音，则是在公开的场合通过专业的录音设备进行样本语音录制。具体操作如下。

(1)电话录音阶段。这一阶段采用普通的录音设备，如录音笔、录音电话等。首先，在通话过程中将被录音人的通话录制下来，时间要求达到三分钟即可，当然通话时间越长越好。在通话过程中要结合准备阶段中对检材的听辨得出的关键语素，适时引导被录音人说出可能涉及这些语素的对话。同时，鉴定机构工作人员要注意避免在与对方交流过程中过多地涉及被录音人所涉案件的案情，因为这样做会打草惊蛇，加强对方的防御心理，使得被录音人对自己的语音进行伪装。其次，这一阶段的录音在针对电话录音同一性鉴定的案件中有一个十分重要的优势，这一方式很好地模拟了检材语音产生的环境，而且同为电话录音，两者在音强、频率范围上有更多的相似处，这样能为科学分析结论提供更有利的保证。

(2)接待过程中的录音。接待过程中的录音仍然属于隐性录音阶段，但是在这一阶段要求使用专业级别的录音笔进行不短于十分钟的语音录制。之所以选择专业的录音笔，一方面，是由于录音笔体积小便于隐藏，符合隐性录音的要求；另一方面，专业的录音笔能够设置具体的录音参数，如声道、录制格式、采样率、精度等等。实践中采用最多的是44.1 kHz，16 bit，单声道的PCM文件格式进行录制，这一格式既能保证良好的兼容性，又能最大程度地保证采样的精确。因为人声的频率，成年男子在60 Hz到1000 Hz左右，女子在100 Hz到2000 Hz左右。而编码的选择则是考虑到如果选择MP3、WMA这样的感知编码，虽然能够节约存储空间，但是，由于这类编码的转化是不可逆的，即在无损格式转化为感知编码过程中损失的声音信息是不可被还原的，所以，为了获得最原始的语音，采用无损格式的音频录制是必要的*简单地说，感知编码是以人类听觉系统的心理声学原理为基础，只记录那些能被人的听觉所感知的声音信号，从而达到减少数据量而又不降低音质的目的。。

从录制内容上来说，笔者认为在这一阶段的录音并不要求谈话内容与案件的相关性，相反，为了能采集到足够长的语音，需要鉴定机构的工作人员能尽量打开被录音人的话匣子，不怕被录音人说无关紧要的话语，就怕被录音人一声不吭或是掩饰自己的语音。只要有足够长的语音元素即便是不能进行文本相关*是指相同内容的语音元素之间进行的同一性比对，以天耳TR-X声纹鉴定工作站为例需要至少五组以上检材与样本的比对。的自动识别，也可以通过进行文本无关*是指不同内容的语音元素之间进行的同一性比对，以天耳TR-X声纹鉴定工作站为例需要15s以上的一组检材与样本的比对。的自动识别或人工的方式进行语谱分析，找出说话人的发音特质，做出科学的鉴定结论。

有钱人才能叫忧郁，你那叫忧郁吗？你那叫抑郁；有钱人才能叫节能，你那叫节能吗？你那叫抠门；有钱人才能叫丰满，你那叫丰满吗？你那叫粗人；有钱人才能叫旅行，你那叫旅行吗？你那叫流浪；有钱人才能叫单身，你那叫单身吗？你那叫光棍。

(3)正式录音阶段。正式录音阶段详细划分为两个阶段：一是围绕主题的对话录音阶段；二是被录音人自我叙述的录音阶段。总体时间控制在30分钟以内。当然，音频格式上这一阶段的录音同隐性录音阶段中接待过程录音的要求是一致的，这里不再赘述。具体操作如下。

首先，要录制样本文件的开头部分，即篇首语，以便于鉴定机构留存。包括被录音人和证明人的姓名，录制样本的时间、地点、内容，该样本作为何宗案件的语音样本，以及样本内容不直接作为诉讼证据而只作为该案声纹鉴定所需语音样本的声明。例如：现在是2012年1月10日上午，××物证司法鉴定中心受××区人民法院委托由本中心司法鉴定人×××和×××在本中心录音室依法采集××案中被告人×××的语音样本。录音现场证明人有×××等。本录音中被录音者所有讲话内容不作为诉讼证据，只作为本案声纹鉴定所需语音样本。

接下来进行围绕主题对话录音，在这一阶段采用先进的录音棚进行录制，样本语音采集人员通过监听系统同处于录音棚内的被录音人进行对话，采取一问一答或自由交谈的形式，结合在准备阶段中听辨得出的检材语音的文本内容，尽可能让被录音人说出与检材中相关的人名、地名、时间、事件经过等内容。这一过程是公开录音中的重要阶段，因为被录音人在被问及涉案相关事件的时候，极有可能进行言语的伪装，此时需要样本语音采集人员及时反应，使用各种不同的手段打破被录音人的防御，如可以进行节奏比较紧凑的发问，减少其思考时间，甚至可以通过一些敏感的话题刺激被录音人[3]。

最后是进行自我叙述阶段的录音，这一阶段的录音可以将事先设计好的文本材料让被录音人进行口述，也可以随意准备一些与检材语言相当的(方言)材料让被录音人口述，如方言的笑话、故事等。

全部录制完成之后，要审听语音样本，检查语音样本的录制效果，如果发现有模糊不清的语音、回音、噪音等影响鉴定质量的情况，应及时采取措施补救。

总之，这一阶段的录音不但需要鉴定机构完善的配套设备，还需要有具备专业素质、具备实践经验与智慧的专门从事语音样本采集的工作人员。

四、全程录制分阶段样本语音采集方案的可行性分析

语音样本的全程录制要求将鉴定机构在接受法院等机关进行语音同一性鉴定之后所采集的全部语音文件作为一个完整的语音样本。在鉴定以及公安机关侦查的实务中，传统的做法是将以上提到的正式录音样本与检材语音进行比对，并没有全程录制的观念。然而仅仅将公开正式录制的语音样本作为得出鉴定结论或是侦查结论的判断基础是不可靠的，因为仅有公开正式录制的语音样本是不够充足的，很难满足语音分析人员获得完健的说话人语素的要求。

笔者认为，语音样本分阶段采集方案之所以是可行的，主要有以下两点理由。

第一，样本语音分阶段录制是完全合法的。鉴定机构作为中立的第三方，首先，它的公正性是得到鉴定机构设立制度、鉴定人员认定机制的保证的；其次，鉴定机构在进行有关鉴定时，应当是由法院、仲裁委员会、公证处等机构通过委托将查明事实的权利转交到鉴定机构手中，只不过这一查明事实的过程有别于传统的方式而是使用高科技手段。再者，被鉴定人作为涉案人员，当事项提交鉴定时，有提供有关鉴定所需的材料的义务和按时到场的义务等配合鉴定机构实施鉴定的法定义务。

第二，样本语音分阶段录制是合理的，通过前文对检材语音及其特征的论述，我们知道案件中的检材往往是在各种不同的复杂环境下获得的，可能是涉案另一方通过电话录音、会议录音、网络录音制作的，而且录制过程中对方往往是不知情的，这样的语音往往体现对方自然、随意、真实的发音特征。然而，如果不采用全程录制的方法，在正式录音过程中，被鉴定人在面对话稿(检材录音中简单提取的)即便不掩饰声音，也会展现与正常语境不同的发音特质，通俗的例子就如播音员在日常生活中的说话与正式节目录制时是存在明显差异的。全程录制就很好地解决了这一问题，当被鉴定人接到样本语音录制通知时，其实就已经进入了一个向鉴定机构提供语音样本的阶段，他会被告知需要采集用于鉴定的语音，但是他并不具体知道语音采集的开始时间，也就是说在案件提交鉴定之后，鉴定人会尽可能多地采集到完整的语音样本来保证同一性鉴定的客观真实、科学合理。

从各个阶段之间在语音分析中的作用来看，我们假设最理想的情况也就是被鉴定人不存在伪装。此时，在不同阶段录制的同一或相近语音在语谱图中的显示是趋于一致的。相反，如果被鉴定人进行了语音伪装，则可能在公开的正式录制过程中获取的语音就不能真正体现被鉴定人真实的发音特征，也就得不出科学合理的结论，这就需要前一阶段也就是隐性录制阶段的语音来帮助鉴定人员作出正确的判断。

五、结语

攻破被录音人的伪装，获得充足的语音样本，从中提取完健的个体特征参数，帮助鉴定人做出公正合理科学的判断，是声纹鉴定尤其是同一性鉴定中的重中之重。笔者主张的全程分阶段录音方案，是在鉴定实践中得出的切实可行的方案。如果鉴定人能在接受法院或者个人委托进行鉴定之后，认真地对检材进行听辨，按照前文所述流程设计出一套完备的样本采集方案并加以实施，相信一定能获得声纹鉴定所需要的充足样本，突破声纹鉴定的瓶颈。

[1] 张翠玲.法庭语音技术研究[M].北京：中国社会出版社，2009：19.

[2] 郑永红.声纹技术在侦查中的应用[J].广东公安科技,2003(4):5.

[3] 郭慧娟.声纹识别的特征参数提取[J].太原师范学院学报：自然科学版,2008(1):71.

(编辑：刘仲秋)

ResearchonHowtoGetEnoughandHealthyVoiceSamplesinVoiceIdentification

WANG Zhenlin，TONG Zhixiong

(CollegeofLaw,ChongqingUniversityofPostsandTelecommunications,Chongqing400065,China)

In the process of verification of speaker’s identity, the most common problem is the great difficulty in collection plenteous and valid voice samples. As a result, the identification cannot be carried out successfully. It costs greater efforts, produces much more workload and even fails to reach the principal’s request. So it is an urgent issue to find some methods of getting plenteous and valid voice samples during voiceprint identification. According to the author’s research, the plenteous and valid voice samples can be collected by dividing the voice recording into two stages, recessive recording and public recording, and then the problems in each stage will be paid great attention to and reasonable solutions will be put forward to deal with those problems in the two stages of voice recording.

voiceprint identification; sample record; recessive recording

10.3969/j.issn.1673-8268.2013.04.006

2012-11-25

2012-12-23

重庆市教育委员会人文社会科学研究项目：电子数据证据化保管问题研究(2012SKF03)

汪振林(1965-)，男，安徽安庆人，副教授，法学博士，主要从事民事诉讼法学、证据法学研究；童志雄(1987-)，男，江西上饶人，重庆邮电大学2010级诉讼法专业硕士研究生，重庆邮电大学司法鉴定中心助研，主要从事电子证据、手持设备取证、语音鉴定研究。

D918.9

1673-8268(2013)04-0028-05