APP下载

语音检材自动比对样本召回率初探

2017-10-24彭去桀张智勇骆建新

关键词:声纹录音笔检材

彭去桀, 张智勇, 骆建新, 张 帅

(1.中国人民公安大学刑事科学技术学院, 北京 100038; 2. 常德市澧县公安局, 湖南澧县 415500;3.郑州市公安局犯罪侦查局, 河南郑州 450000)

语音检材自动比对样本召回率初探

彭去桀1,2, 张智勇3, 骆建新3, 张 帅3

(1.中国人民公安大学刑事科学技术学院, 北京 100038; 2. 常德市澧县公安局, 湖南澧县 415500;3.郑州市公安局犯罪侦查局, 河南郑州 450000)

使用高质量声纹采集终端采集10名自然人的方言和普通话样本并存入声纹样本库,使用不同的录音方式录制多种方言的检材,在现有声纹库中对每个检材建立自动比对任务,考察声纹检材的目标召回率。通过实验总结出:一般案件中涉及到的手机录制的语音证据,可以使用声纹库综合应用平台服务于案件侦办工作或者作为串并案的依据;文本相同与否对比对结果有些微影响,相同文本的检材和样本之间相似度更大;同一人说的同一种语言能够准确召回。基于违法犯罪人员声纹库进行语音检材自动比对实验是对声纹库应用的积极探索,旨在总结一些应用技巧以服务于实战、并为声纹库的建设和应用提供有益的参考。

声纹库; 目标召回率; 声纹自动检索比对; 电信诈骗

0 引言

近年来,随着电信网络、互联网语音的飞速发展,电信诈骗、绑架、敲诈勒索等涉及语音案件的数量及案件中的语音物证也在不断增加。我国的声纹技术经过20年的发展,在语音同一认定方面已积累了大量专家资源和工作经验。在网络、通信、信息融合技术快速发展的今天,声纹技术必须与信息化技术相融合,必须由个案和局部走向总体和全局才能够适应实战的需求。声纹数据库的建立,能够在有效支撑打击犯罪的同时,拓展我国声纹技术整体水平和应用能力,是我国声纹技术新时期发展的必然选择。声纹库是继指纹、DNA库后又一个生物特征库,将为案件侦破提供一种新的技术手段,为各警种提供一套新的个体识别应用平台。通过预先建立的重点人员声纹库和应用基于智能语音技术的语音监控系统能快速确认说话人身份、语种和方言口音以及检测通话中的敏感内容,在反恐、维稳以及打击刑事犯罪工作中具有非常重要的意义。

(1) 全国声纹库建设和应用现状

近几年,我国逐步启动声纹数据库相关的研究和建设工作,智能语音技术公安部重点实验室针对智能语音技术在公安领域的实战应用,重点在声纹识别、语种识别、语音内容识别、语音信号处理技术4个方向开展研究。2011年5月,智能语音技术公安部重点实验室已经完成了声纹数据库建设的技术储备工作,建立了声纹库标准体系,完成了高质量声纹专用采集工具的研发,提高了声纹检索引擎的性能[1]。

目前,北京市、安徽省、福建省、河南省、山东省、江苏省等地公安机关建立了重点人员或者违法犯罪人员声纹库,工作重心在于扩大样本采集、迅速增加声纹库存量,部分地区将声纹库与传统的声纹鉴定技术结合起来摸索前进,边建设、边应用。

(2) 语音检材自动比对研究现状

语音检材自动比对实质上是在一定声纹库库存的情况下系统对说话人的识别、对可疑目标进行同一认定打分排序的结果。

语音自动比对技术在欧美等西方国家深受重视,如美国国家标准技术署(NIST)举办的说话人识别评测,就是针对实际应用需求设计多样化的测试,这些测试能够准确体现被测系统在接近真实环境中的实际表现,被公认为是国际上水平最高、最严谨、最公平、结果最权威的说话人语音识别系统测试。而受邀参加该评测的都是世界顶级专业研究开发机构,包括美国麻省理工大学、意大利都灵理工大学、法国科学研究中心等等。最近几年,我国清华大学、中国科学院声学研究所、科大讯飞语音实验室也参加了测试。根据2008、2010年美国国家标准技术署(NIST)举办的说话人识别评测结果,以科大讯飞公司为代表的我国声纹自动识别技术已经达到国际领先水平[1]。

然而,语音检材无论是在实验室环境设立的小型声纹库中准确自动比对成功,还是各种模拟实际情况、高水平的国际评测中准确召回,都只能说明我国完全拥有了这项技术。目前,公安实战中语音检材的自动比对研究十分稀少。原因诸多,主要有以下几点:当前语音为关键证据的案件在案件总体中比较少,而这些少数案件依靠传统的专家鉴定就能消化;而大量涉及语音的电信诈骗等案件,犯罪地域遍及全国,公安机关获取到的语音检材比较少、质量差;另外,使得声纹自动比对有用武之地的声纹数据库还在建设,库存量正在累积中,而各地的声纹库建设进度参差不齐。

(3) 郑州市公安局声纹库建设情况和应用

郑州市公安局于2013年底参与了国家公安部金盾二期的声纹库建设,在全市所有执法办案中心及执法办案区安装了99套声纹采集终端,按照“打一建一”的原则采集违法犯罪人员声纹信息,并在声纹采集规范化方面国内首创了阅读样本提示牌。通过近3年的收集,郑州市公安局的声纹采集量已达到44 474条(截止到2016年12月19日,且包括少量检材)。目前,郑州市公安局违法犯罪人员声纹库库存声纹样本数据分别从方言和年龄两个角度进行分类分析。

按方言分类。郑州市是河南省省会,这里的居民大多使用郑州市本地方言,郑州方言和普通话均属北方方言,占样本库总数的67.6%;随着经济发展、交通便利,违法犯罪人员的流动性也随之加大,比如湘方言、吴方言、赣方言、客家话、闽南语和粤语等均有涉及;另外,工作人员在录入样本时忽略或者存在没有对方言种类进行主观判断的情况,系统中“未知”项达到了31%。

图1 按方言分类声纹库样本

按照年龄来分类。样本库里20~50岁之间的人最多,其他年龄段均有涉及,且“未知”年龄的人是极其少量的个别现象。

图2 按年龄分类声纹库样本

1 声纹检索比对原理

1.1 声纹检索比对系统

声纹检索比对系统是在声纹数据存储系统的基础上实现在海量声纹数据库中的声纹排查等功能。声纹检索比对系统是声纹库的一个重要应用,其功能是对于任意给定的一个可疑的录音数据,该系统通过声纹识别技术并结合声纹鉴定,实现从声纹库中检索出与可疑录音声纹最为相近的候选人名单以及各自的声纹相似程度,并将结果展现给用户,缩小人工鉴别的范围。

1.2 声纹检索比对机制介绍

声纹检索比对功能是基于声纹自动识别(也称语音信号处理法),其基本原理是由系统对说话人语音的特征参数进行分离提取,并进行线性或非线性处理,建立语音模型,然后由系统运算进行模式匹配,确定出与其最接近的若干已知说话人录音,得出相似度的结果,其结果是多选的(见图3)。

图3 声纹数据自动化检索比对机制

声纹检索自动比对功能的实现及其可靠性取决于声纹模型的建立和声纹检索引擎技术。本实验声纹库技术是来源于科大讯飞公司基于联合因子分析技术框架[7]开发的,该公司前后研发了基于高阶泰勒展开的噪声估计[8]、基于正反例的敏感区域得分规整算法、基于多通道录音的稳定声纹提取、以及基于语音识别结果的文本相关声纹比对等各项核心技术。该公司设计的最终声纹检索引擎顺利通过了公安部物证鉴定中心2011年5月组织的基于100起真实案例的声纹识别模拟实战测试,达到了实用水平。

2 实验

2.1 实验目的

本实验考察的主要是不同信道、不同方言在当前声纹库中的目标召回率,旨在为声纹库的建设和具体应用提供有益的参考。

2.2 实验设计

2.2.1 声纹检索的目标召回率释义及影响因素

声纹检索的目标召回率是指在自然人声纹的声纹库中30S以上有效语音检材,声纹检索引擎所给出的前100候选中,包含真正目标人的样本出现在候选中的内容几率。声纹检索的目标召回率在实际应用中与文本、声纹相似性、信道和库容4个方面相关。

2.2.2 实验设计

实验所依托的郑州市公安局违法犯罪人员声纹数据库样本量已达到44 474条,且每周以平均1 000条的速度在累积增加。此库容量下使用智能语音技术公安部重点实验室专门研发的高质量声纹采集终端采集违法犯罪人员声纹样本,该声纹采集终端可以同时生成包括电信CDMA、固定电话、手机GSM、联通WCDMA、高保真、录音笔、移动TD-SDMA和其他在内的8个信道的声音样本并上传存储在样本库中。

实验拟使用该终端采集10名自然人(A-J)的声音生成21个声纹样本,并同时注册上传至郑州市公安局违法犯罪人员声纹数据库,具体采样设计如表1。

表1 实验用样本采集计划表

实验1:考察检材和样本是同文本的情况下,同一人同一信道分别使用方言和普通话作为检材入库比对的情况。

实验2:考察检材和样本是同文本的情况下,同一人不同信道分别使用方言和普通话作为检材入库比对的情况。

实验3:考察检材和样本是不同文本的情况下,同一人不同信道分别用方言和普通话作为检材入库比对的情况。

实验4:考察检材和样本是不同文本的情况下,同一人伪装声音后使用方言作为检材入库比对的情况。

实验5:考察检材和样本是不同文本的情况下,同一人在不同环境下记录声音作为检材入库比对的情况。

实验6:考察检材和样本是不同文本的情况下,多人分别用方言和普通话作为检材入库比对的情况。

根据以上实验设计,分别使用录音笔和手机采集10名自然人(A-J)的声纹检材共49个上传至声纹检索比对系统各自执行比对任务,检材采集计划如表2。

表2 实验用检材采集计划表

2.3 实验结果

实验1:同文本手机录音检材召回实验

实验对象检材录音工具是否处理处理手段检材内容实验结果是否排名前100比中样本得分排名A手机否无郑州方言是郑州方言74 051是郑州方言73 622是普通话73 283手机否无普通话是郑州方言77 231是普通话76 292

实验2:同文本手机、录音笔两种信道检材召回实验

实验对象检材录音工具是否处理处理手段检材内容实验结果是否排名前100比中样本得分排名A手机否无郑州方言是郑州方言73 672是郑州方言72 33是普通话71 84手机否无普通话是普通话78 861是郑州方言74 873C手机否无湖南常德方言是湖南常德方言75 271是普通话61 1915A录音笔否无郑州方言否录音笔否无普通话否录音笔是降采样郑州方言否录音笔是降采样普通话否录音笔否降采样、降噪、语音增益郑州方言是郑州方言73 051是郑州方言71 962是普通话70 074录音笔否降采样、降噪、语音增益普通话是普通话72 631是郑州方言71 242

实验3:不同文本、不同信道检材召回实验

实验对象检材录音工具是否处理处理手段检材内容实验结果是否排名前100比中样本得分排名B手机否无河南安阳林州是林州方言63 521是普通话57 735录音笔否无河南安阳林州是普通话61 5916是林州方言61 4518录音笔是降采样、降噪、语音增益河南安阳林州是林州方言63 13是普通话59 7314C手机否无湖南常德方言是常德方言64 099是普通话63 3912手机否无普通话是普通话70 971否常德方言录音笔否无湖南常德方言是常德方言65 919是普通话64 3518录音笔否无普通话是普通话62 6257否常德方言录音笔是降采样、降噪、语音增益湖南常德方言是常德方言65 827是普通话64 5315录音笔是降采样、降噪、语音增益普通话是普通话62 1955否常德方言

现象:此次实验中实验对象C的手机和录音笔录入的同一人普通话检材均未召回C的方言样本,但在未召回的3次比对任务中前100名候选均在60分以上。

分析:考虑库中与实验对象C声纹特征模型相近的人比较多,且实验对象C 所说的湖南常德方言也属于北方方言,并与普通话区别不大。

实验4:不同文本同一人伪装前后检材召回实验

实验对象检材录音工具是否伪装伪装手段检材内容实验结果是否排名前100比中样本得分排名A手机是手捂喉咙郑州方言是普通话71 021是普通话67 816~8是郑州方言64 8726手机是手捏紧喉咙郑州方言否

实验5:不同文本同一人不同环境下检材召回实验

实验对象检材录音工具环境是否处理处理手段检材内容实验结果是否排名前比中样本得分排名A手机,微信语音实验室否无普通话是普通话74 111是普通话72 912~5是郑州方言71 296手机,微信语音实验室否无郑州方言是郑州方言70 771是普通话70 152手机,微信语音办公室否无郑州方言是郑州方言68 143是郑州方言68 054是郑州方言66 288是普通话65 2921~23是普通话65 5317手机,微信语音大街上否无郑州方言是郑州方言65 251是郑州方言62 556是郑州方言61 4411手机,微信语音大街上是降噪50%、语音增益2点郑州方言是郑州方言65 021手机,微信语音大街上是降噪20%、语音增益2点郑州方言是郑州方言66 331是郑州方言61 4412是郑州方言59 8124手机,微信语音大街上是委托科大讯飞公司处理郑州方言是郑州方言65 082是郑州方言63 275是郑州方言61 878

实验6:不同文本多人方言、普通话检材召回实验

实验对象检材录音工具是否处理处理手段检材内容实验结果是否排名前100比中样本得分排名D手机通话录音否无浙江湖州方是湖州方言701普通话69 722手机通话录音否无普通话是普通话78 851湖州方言65 125E手机否无藏语是藏语74 471普通话63 3519手机否无普通话是普通话74 311藏语62 3334F手机否无福建蒲田方言是蒲田方言73 871普通话63 593手机否无普通话是普通话76 341蒲田方言62 5910G手机否无维语是维语74 641否普通话手机否无普通话是普通话75 191否维语H手机否无陕西咸阳方言是咸阳方言76 061是普通话71 712是英语56 7337手机否无普通话是普通话77 071是咸阳方言72 752是英语61 8217手机否无英语是英语79 81是咸阳方言62 272是普通话61 853I手机否无客家话是客家话77 451是普通话75 812手机否无普通话是普通话82 591是客家话80 682J手机否无广东省粤语是粤语83 421是普通话59 762手机否无广东省粤语是粤语83 421是粤语70 052

现象:实验对象G的维语检材未能召回G的普通话样本、G的普通话检材未能召回G的维语样本。

分析:观察不同语种和方言的比对结果,发现方言(语种)与普通话的差异越大,样本库中同一人的两种样本在召回时排名差距越大(维语>英语>藏语>莆田方言>一般方言),说明同一人在说不同语言时整体改变程度不同从而影响模型的生成。考虑比对结果与样本库中某语种(或者某方言)的库存量有关,相似或相同的方言样本越少,检材比对时越容易“脱颖而出”。

3 结论与展望

3.1 结论

(1) 在检材和样本为同一文本的情况下,手机录音作为检材对目标的召回率是100%,且排名均在前50,得分均在60分以上;录音笔录音检材一般情况下直接入库比对效果有待商榷,经过降采样、降噪、语音增益的处理后的检材能够达到100%的召回率,且排名均在前50 ,得分均在60分以上。

(2) 检材和样本文本不同的情况下,普通话检材能准确召回普通话样本、方言检材能准确召回方言样本。手机检材的比对结果要比录音笔检材的比对结果普遍靠前,且经过降采样、降噪、语音增益处理后的录音笔检材要比没有处理过的录音笔检材排名靠前。

(3) 检材和样本是不同文本的情况下,同一人伪装声音后使用方言作为检材入库比对的情况是不可预测的,这与伪装手段有关系,不同的伪装手段对检材生成模型的影响不同。

(4) 检材和样本是不同文本的情况下,手机微信语音检材能够准确召回普通话和方言两种样本,且排名在前50,得分均在60分以上,说明微信语音算法叠加在手机信道上对比对结果的影响不大。噪音比较大的环境下录制的手机微信方言语音检材对同一实验对象的普通话样本难以召回,且比相对安静环境下录制的检材的得分更低,排名也更靠后。对噪音较大的检材使用不同的噪音处理方法处理后入库比对,会得到不同的比对结果(得分和排名均会发生改变)。

(5) 一般来说,方言和语种在检材和样本文本不同的情况下,均能准确召回样本库里的两种或两种以上同一人注册的样本。同一人所说同一种语言的目标召回率是100%,且排名均在第一。

综上所述,本文通过实验得出在当前声纹库规模下可以逐步开展服务于实战的检材声纹自动检索比对,并能较好地缩小侦查范围,极大地减少专家鉴别犯罪嫌疑人的工作量。实验中手机录音的目标召回率达到86.8%,录音笔录音的目标召回率为58.3%,录音笔录入语音文件最好是处理之后再入库检索。这意味着一般案件中涉及到的语音证据均可使用声纹库综合应用平台服务于案件侦办工作或者作为串并案的依据。文本相同与否对比对结果有些微影响,相同文本的检材和样本之间相似度更大。

3.2 存在的问题及建议

目前,郑州市公安局违法犯罪嫌疑人员声纹库的储存量在低于5万时自动检索比对的速度还是比较快的,比对任务通过审核后30秒内出结果。但随着库容上升,比对速度可能会随之下降,建议开设专题子库,办案时选择相应子库做初次比对筛选,缩小比对基数,加速比对工作。另外,自动检索比对速度与后台声纹库存储服务器、电脑配置等硬件以及公安内网网速也有关系。

在库容量不大的情况下,相似的声纹模型较少;库容量上升,相似模型也会随之增多。此次实验中湖南常德人的普通话检材的比对结果中就出现了前100名均在60分以上的情况,仅有该实验对象的普通话样本排名第一,湖南常德方言检材排到了100名以后,无法进入专家鉴定的视野,所以,当比对结果出现前100名均在60分以上的情况时也在提醒民警有可能检材声纹模型的区分度比较小,而相似模型比较多,进行个体鉴别时需要更加谨慎。

本实验中,同一实验对象的方言检材比中样本库里方言样本以及普通话检材比中样本库里普通话样本的概率是100%,且排名均是第一;当方言和普通话之间差别大时,单一检材难以跨过壁垒找到同一人的另一种语言样本,这是存在的问题。考虑到犯罪嫌疑人有可能在不同案件中说不同方言的情况,比对结果中有可能错失,所以,建议在采集样本和检材时尽可能地采集违法犯罪嫌疑人所有会说的语言。

另外,针对电信诈骗案中犯罪团伙“广撒网”的特性,一部分防诈骗意识高的群众能够较快地意识到自己接的电话是诈骗电话,建议郑州市局在官方微信公众号和其他官方公开宣传平台上开设专门端口,用于收集群众举报的诈骗电话录音,在专业民警的鉴别和语音处理之后汇入声纹检材库,加速串并案碰撞,震慑电信诈骗违法犯罪。

3.3 展望

目前,声纹样本的采集工作还停留在室内或者固定的办公场所里,为了加快样本采集工作,郑州市局正在尝试和科大讯飞公司进行声纹采集软件的兼容性和自动化的研发,希望声纹采集终端能够更方便携带、更加简单实用;民警能够携带新的采集终端深入基层,以最快的速度采集海量语音汇入声纹库,实现声纹库由量变到质变,使声纹库应用尽快成为打击刑事犯罪新的增长点,推动打击刑事犯罪工作再上新台阶。

[1] 李敬阳,胡国平,王莉.声纹自动识别技术与声纹库建设应用[J].警察技术,2012(4).

[2] 王英利,李敬阳,曹红林.声纹鉴定技术综述[J].警察技术,2012(4).

[3] 刘勇,刘梦莲.声纹认证在呼叫中心的应用[J].广东通信技术,2009(10).

[4] 王英利.关于声纹鉴定技术的若干问题[C]∥第九届中国语音学学术会议论文集,2010.

[5] 李敬阳,胡国平,刘浩.全国重点人员声纹库建设[C]∥第一届全国声像资料检验鉴定技术交流会论文集,2011.

[6] 付新立,靳业,吴锐,张海东,朱云龙.声纹数据库建设与应用[C]∥第一届全国声像资料检验鉴定技术交流会论文集,2011.

[7] KENNY P, BOULIANNE G, OULLET P, et al. Joint factor analysis versus eigenchannes in speaker recognition[J]. IEEE Transactions on Audio, Speech, and Language Processing,2007,15(4):1435-1447.

[8] HU Y, HUO Q. Irrelevant variability normalization based HMM training using VTS approximation of an explicit model of environmental distortions[C]∥INTERSPEECH 2007. 2007:1042-1045.

[9] 吕亮.基于深度学习的说话人识别方法的研究[D].南京:东南大学,2016.

[10] 熊冰峰.基于听觉特征参数的说话人识别技术[D].湘潭:湘潭大学,2016.

(责任编辑陈小明)

D918.9

彭去桀(1988—),女,湖南澧县人, 硕士研究生,民警。研究方向为文件检验、声纹技术。

猜你喜欢

声纹录音笔检材
一种新型法医病理检材运输存储桶的设计和制作
搜狗AI录音笔:首个科技抗疫见证物
套摹笔迹鉴定案例的分析与体会
录音笔
屏幕即指纹识别
科技对接项目服务展台(七十四)
录音笔告状
接触性生物检材DNA提取方法的比较
接触性DNA及其现场发现
街头数码美女特搜