声纹识别和语音识别技术应用在公安领域的可行性分析

2021-11-24向菲

法制博览 2021年36期

向菲

（湖北省恩施州公安局，湖北恩施 445000）

人类的机体构成十分复杂难以解释，俗话说“世界上没有两片相同的叶子”，无论是人脸分析，还是指纹、DNA等标志性的分析，都是经过了长期发展而产生的技术。人类的发声是一个神奇复杂的生理功能，每个人的声带构成不同，所形成的声线也完全不同，受到神经系统，基因等多个复杂因素的共同控制。同时，每个人的声线，还与成长环境，外界因素等影响息息相关，使得每个人的声音构成都完全不同，且声学上的声谱特征稳定且唯一。从这个角度来看，对个人的声线进行分析并进行身份识别是可行的。此外，近年来，人工智能技术不断地发展，云计算、大数据处理等技术不断涌现，因此，从技术上，声纹识别和语音识别技术应用到公安领域，可行性就大大增加了。

不仅如此，该技术不仅用于政府单位，也被企业家们发掘并商用。在国家的积极投入下，近年来培养出了大批的大数据应用人才，技术在不断提升，声纹识别和语音识别技术正在逐步商业化，经典的应用场景有：公安侦查、智能家电、手机语音识别、金融保密行业等，代替复杂难记的密码，安全高效。

近年来，在公安机关侦办电信诈骗、涉恐涉毒等复杂案件时，语音识别和声纹识别技术起到了相当大的辅助作用，相关技术人员对案件侦破作出了重大贡献。［1］

综上所述，相比现在比较完善发达的语音交互来说，声纹识别的技术需要更高的入行门槛，目前处在稳步发展的阶段。通过该技术，可以精准识别人与人之间的区别。本文将介绍该技术的原理和目前的应用现状，并阐述其在公安领域发挥的重大作用。

一、技术原理

声纹指的是经过相关仪器测试现实的携带语言信息的声波频谱，有波长频率等多种特征组成，受到发声器官（舌头，口腔，牙齿，肺，鼻腔尺寸）、心理、环境干扰等多种因素的影响。尽管如此，每个人的具体构造不同，因此在一般情况下，还是能通过声音特征和声谱来判断是否是同一个人。在这个角度上，声纹识别的意义就是获取一个人具体的发声方式和发生特征。主要体现在人的发声共鸣方式特征、嗓音纯度特征、音高特征以及音域特征等。语音识别略有不同，主要体现的是识别语言中的字符和语言信息，并加以解读，从本质上不是为了识别说话人的身份，关注的是传达的信息内涵。两者相结合，能通过声音对说话的人有一个基本轮廓的了解。目前两个技术应用都各自形成了较为完善的应用流程和方式：

（一）声纹识别

声纹识别的应用主要经过三个步骤：预处理，特征提取以及识别。预处理指的是从一段语音信息中提取出干净便于数字识别的人声信息，将非人声的信息过滤掉，防止后期分析时候造成不必要的干扰，是整个识别过程中最基础的部分。往往最基础的部分是最重要的，可以分为数字信号处理以及机器学习。第二部分就是进行特征提取，通过专业的技术分析人员的操作，识别过程进入到核心部分，进行信息提取，提取后再进行分析。该部分需要的信息包括上文所提到的所有基本特征信息，声音特征的提取一般具有泛化特征，在较长时间跨度下还能表现出一定的稳定性，因此对于公安领域的应用来说是十分有利的。

最后一步就是识别部分，作为压轴流程，所需要的技术就比较关键，要求具有较高的准确性，需要通过模型对提取出的声纹进行分析，目前也已经存在较为成熟的几种模型和技术。

（二）语音识别

综上所述，语音识别与声纹识别的主要区别在于语音识别是提取内容信息，声纹识别是针对特征提取身份信息。语音识别技术的核心是将声音内容变为文本进行输出，以便公安系统在进行案件侦办时作为参考。包括语音合成、识别和理解三个方面的内容。

第一部分要在技术限制内尽可能地提取并保留完整的原始语音，保证清晰度，是整个识别工作的基础；第二部分是要进行语音的识别，基于内容对语音进行处理，将复杂的语境转换为能够理解的文本或命令，作为可识别的参考证据；第三部分工作作为收尾，前两步已经基本将所有的前期基本工作铺垫好，最后的理解部分就是在相应的语境之中，对应逻辑关系，通过不断地变化语境进行语义推理。

（三）结合

两者在单独使用的时候，是针对不同的内容和效果，但是在公安领域内的应用，通常是两者结合应用。在公安领域中，利用两种技术的结合，以及实战时的信息采集技术，几乎可以达到声音找人、声音定人的效果。随着大数据的不断发展，我国的公安系统也形成了庞大的内部数据库，将收集、分析过的声音数据和声音信息作为历史档案储存与数据库，再次利用时可以直接进行匹配对比，节省了大量的翻阅档案的人力物力和时间资源。提升了公安办案的效率、便捷度和可信度。

两者相结合不仅仅是各司其职，一般两项内容会对同一则音频同时进行，两者需要实现同一且真实。与此同时，对公安内部技术人员的要求也更高，需要尽到维护系统安全、保证系统健康运行的职责，并且在进行数据分析的时候，要尽量做到快速准确，减少操作失误，以对案件侦办尽到相应的责任。

二、技术发展及其现状

（一）发展过程

关于声音处理的相关技术最早出现于40年代末的美国贝尔实验室，其最早开发的目的是将其应用于军事情报领域。此后，技术不断成熟发展，不少人发现了其中的潜力，将其应用于商业等其他领域。［2］如，60年代后期应用于美国的法证领域，经过几十年的发展，该项技术的成熟程度已经可以达到公安部的标准，其可信度是可以作为证据进行当庭提供的。目前较为成熟的应用方法是模板匹配法、最近邻方法、神经元网络方法以及聚类法等。

以上提到的几种方法，虽然操作方式上存在差异，但本质上没有什么变化，采用的基本原理都是相似的，目前公安系统采用的就是将声谱图提取出来，并将其与已存在的数据对比进行声纹识别。目前无论是国内还是国外都有不少企业在相关领域进行研究，设备的先进程度得到不断提高，公安部专门为采购相关设备颁布了《安防声纹识别应用系统技术要求》的行业标准，以识别市面上设备是否达到公安部的采购要求。

（二）局限性

声音的识别技术分为动态检测和静态检测两个方式，目前应用的许多静态检测的方法存在很大的弊端，其实时性是无法与动态方法相比较的，很显然动态检测的实际需求更大。

上文提到的识别过程中，十分关键的一步是对声音进行提前处理，目的不是检测声音，而是将音频降噪和排除环境干扰，该步骤对于语音识别来说至关重要，这一步出现问题，将会对识别内容的有效性产生巨大影响。无论是进行声纹识别还是语音识别，都要事先建立数据库，目前最为庞大的就是公安系统下的声纹库。然而，该识别方式存在两个局限性：庞大数据库不易建立和管理和声音处理是否顺利进行存在很多不确定因素。此外，还存在许多不确定的物理和计算等相关问题。

即使声音存在唯一性，音频数据的稳定性也非常好，但是目前的技术局限性下，还是存在很多难以掌握的因素，比如人声的易变性很强，与年龄性别甚至情绪都息息相关；上文也提到，若音频录制所处的环境以及采集数据的设备不利于分析，声音特征的建模和分析也存在局限性。因此，笔者认为这种技术不应单独使用，应结合相关认证手段一并，提高数据的可信度。

三、公安领域的应用

在国家的大力扶持下，公安系统在案件侦破上可以使用的技术手段越来越多，也越来越先进，然而相应的犯罪手段也在不断现代化，存在很多的涉网新型犯罪手段。如语音电信诈骗、恐吓、涉黑涉毒涉恐等案件类型，都涉及声音数据的收集，声音数据都可以用于案件的办理。新型犯罪频发的当代社会，公安系统不断迎来全新的挑战。因此，先进的鉴定技术是以上几类刑事案件侦破的关键一步，也是取证的重要手段：

（一）犯罪分子的个人音频分析

笔者查阅资料，了解到目前该技术应用较多的案件类型有敲诈勒索，绑架勒索，陷害恐吓等性质恶劣的事件。以上提到的案件多以音频和电话录音为关键性证据，不仅仅是通过通信手段对犯罪分子的所在地点进行确定，对未知的犯罪分子身份确定的唯一途径就是声音鉴别，包括电话背景音、环境音。运用声纹和语音识别技术，判断是否是再犯人员，判断人的性别年龄体态等多种特征，进行画像描述，刻画特征，为刑侦人员的判断提供依据。

除了上述的基本信息以外，还可以根据声谱和语言内容的分析，进行说话习惯，口音，受教育级别等特征的分析，是案件进一步侦查的关键道路。

（二）识别声音

随着技术的进步，犯罪手段不断创新，变声器等干扰措施层出不穷，通过上文提到的几个步骤的处理，通过对已经变异过的声音提取出声谱，获取较为稳定不变的声音特征，得到一定的规律，识别声音材料是否有伪造的可能性，以确保证据的真实性。在与犯罪分子斗智斗勇的同时，我国的公安系统也在不断提升和突破。

（三）改善证据质量

根据上文所述，语音识别技术要将语音材料经过精密的处理，鉴于犯罪证据的特殊性，大量的语音材料并不是那么完美，存在很多噪音和录音设备质量问题，导致达不到刑侦工作所需的标准。经过处理之后，将语音内涵从音频之中提取出来，并将关键信息进行声音放大和清晰处理，从而解决上述问题，改善证据的质量，使其成为刑侦过程中的得力助手。

（四）声音辨别

所谓声音辨别，就是同一性的另一种表达方式，先前热播的《人民的名义》真实地反映了识别技术在同一性方面的作用。通过语音材料的分析对比，确定该证据是否对应正确的嫌疑人。［3］该技术的应用在确定嫌疑人身份上起到了很大作用，为刑侦人员下结论提供了多一条道路，在庞大的公安机关数据库中查询是否存在再犯的情况，为判断量刑提供了又一依据。

（五）真实性检验

在一些恐吓陷害的恶性事件中，当事人会将语音材料作为证据提供。为了保证法律的公平公正性，公安机关的职责是分辨该音频的真实性，不仅要进行上述的同一性检测，分析音频是否为人工合成。是否存在增加删减恶行剪辑等情况。利用相关技术进行声谱的识别，检查音频是否为合理存在，从技术上辨别真伪，证明数据的真实性。

以上仅为大致的应用，实际上该技术有更多的益处，如提高应用语音材料的案件侦破速度。可以将语音作为数据材料跨区域进行传输，更高效率地协助跨区域办案，不断丰富公安机关的数据库，作为历史数据，能加强对有案底的相关人员的监控和管理，快速检索嫌疑人身份，减少了大量的人工成本及物资耗费，但同时对于技术人员的培养要求也更高。

四、应用前景

综上，已知本文提到的相关技术已经广泛应用于公安领域，但鉴于技术发展存在局限性，其普及度也有待提高，为了让科技在助力案件侦破、提高公安系统智能化方面继续做贡献，［4］将相关技术在公安领域中广泛普及是十分有必要的：

（一）协助警务工作

警务的主要任务还是为人民服务，为基层人民提供安全健康的区域管理，是区域警务的最基本要求，理应达到“案件量少，秩序好，社会安全，群众安心”等基本目标。将相关技术普及到社区警务，对于区域人口的信息管理方面，有助于警务人员更加全面便捷地了解区域人口的情况，对于安全事故的处理效果也会大幅提高。构建区域该技术数据库，丰富智慧社区警务的建设，方便群众配合警务工作，完善公安系统服务机制。

（二）日常治安防控

该技术数据库的建立，方便警务人员在日常治安巡逻中，发现并确定在逃嫌疑人，消除社区安全隐患，有助于通过设备进行身份确认，及时处理相关事务。

根据涉恐涉毒等数据库的信息，以及随身配备的语音识别设备，集中管理集中查询，助力公安机关有效打击犯罪分子，维持管辖区域的和谐稳定，保证居民人身安全。

总而言之，笔者认为声纹识别和语音识别技术在公安领域中，是传统侦办手段与现代科技融合的成果，是公安领域与高科技犯罪不断斗智斗勇得出来的智慧结晶，是预防犯罪、快速结果犯罪的有效手段之一。语音材料数据库的构建，为公安领域的工作减少了许多错误的发生以及人力物力资源的浪费。本文结合应用场景进行描述，探究了该技术具体如何发挥作用。

综上，虽然该技术上还存在一些缺陷，但是为了进一步实现普及和高效使用，应该不断完善设备和数据库的建设，助力公安领域与科技进步的结合，为广大公民争取幸福平安的生活环境。