认识非语音信息在司法话者识别中的应用

2011-08-15杨俊杰胡耀民

中国司法鉴定 2011年6期

杨俊杰，胡耀民

（山西警官高等专科学校，山西太原030021）

当前，司法话者识别主要依据人耳听辨、言语识别、语音声学特性比对等方法，其依据的主要是录音中说话人的语音信息。其中，语音的共振峰特性是最有区别意义的定量特性[1]。因此，在检案实践中，一般要求待检语音要满足一定条件，否则将难以得出明确性结论。笔者曾运用录音中当事人发出的非语音信息对两起话者识别案件进行过检验，成功进行了对说话人的肯定性认定。

1 案例材料

案例1原告张某及鲁某一直向被告吴某提供货物，截至2009年底吴某共欠张某及鲁某4万元与6万元的货款，后两原告虽多次催要，但吴某皆以各种理由一直未付。2010年1月，两原告到沈阳找被告催要货款时对双方谈话进行了秘密录音，并于2010年12月将吴某告上法庭，其最有力的证据就是双方谈话的录音资料。随后法院对原告提供的录音资料进行送检，要求鉴定录音资料中带有浙江口音语音的说话人与样本中录制的吴某语音的说话人是否系同一人。

案例2 2003年，原告某公司向被告某厂购买一套干燥设备，经安装调试后投入生产。但该设备在使用中存在干燥裂问题，于是原告便扣留被告的设备费3万5千元。2004年4月，被告方工程师李某前往原告方催要欠款并调查干燥裂原因时原告对双方谈话进行了秘密录音。其后原告以该录音作为证据于2004年12月将被告起诉到法院。法院委托司法鉴定部门对送检检材中说 “是不是这样给你说的”、“你拿个意见”、“啊我我给你承认”等语句的男性说话人与样本中的说话人李某是否是同一人进行鉴定。

2 鉴定情况

2.1 案例1鉴定过程

对送检录音检材与样本作初步检验，在检材中，带有明显浙江口音的男性说话人的部分语音在听辨上比较清楚，在语图上特征反映也比较充分，具备检验条件。但由于样本中录制的是自由对话内容，没有完整语句的语音可与检材语音进行比对，只好运用有限的词汇或短语进行比对。经过仔细比对寻找，我们在检材与样本之间找到了发音相同、语图特征反映较好的“反正 ”、“那不可能”、“没有”、“我就”等内容的配对语音进行检验。

检验发现，检材与样本在以上音节的口音、音质、清晰度、语速等听辨特性上高度相似，在宽带语图的共振峰频率、共振峰动态模式等特征上整体符合较好，反映了二者的说话人很可能是同一人；但检材与样本在个别音节的共振峰特性上也存在一些较大差异。因此，根据语音信息只能得出倾向性认定结论。考虑到这些差异会因说话人语气、录音条件等的差异所导致，进一步对检材与样本中的非语音信息进行发掘、比较后发现，二者中待检语音的说话人在笑声的音质、节奏上比较特别，具有很强的特殊性。

最后，综合检验结果得出要求鉴定的录音资料中带有浙江口音的语音的说话人与样本中录制的吴某语音的说话人是同一人的鉴定意见。

2.2 案例2鉴定过程

对送检录音检材与样本的检验条件进行了初步检验，在检材语音中处 “是不是这样给你说的”、“你拿个意见”、“啊我我给你承认”等语句在听觉上比较清楚，在宽带语图中，有价值的语音特征反映得较好，具备检验条件；样本录音语音清晰，可供检验，但检材中待检语音语气激昂，而样本中待检语音的语气低沉，二者在语气上差异较大。

进一步检验发现，检材中待检的男性说话人语音与样本语音在听觉上比较相似，在“是不是这样给你说的”、“你拿个意见”、“啊我我给你承认”等语句的韵律特性、共振峰的动态模式上符合较好，但由于二者语气差异较大，故定量比对差异较大。通过仔细听辨，发现检材中待检男性说话人言语时敲击桌子的方式、笑声等与样本中说话人的对应特征高度一致。

最后，综合检验结果得出送检检材中“是不是这样给你说的”、“你拿个意见”、“啊我我给你承认”等语句的男性说话人与样本中的说话人李某是同一人的鉴定意见。

3 讨论

作为一项较新的个体识别技术，司法话者识别的理论与技术仍然需要不断的发展与完善。目前，在进行说话人专家识别时一般要求检材与样本要有足够数量（10个以上不同音节）、信噪比较高（30dB以上）并且宽带语图的有效频率范围能够达到 300Hz~ 3000Hz的相同音节。但在检案实践中，时常会遇到因录音设备使用不当（如微型采访机用低速录音）、录音方法不当（把录音机装在密闭的手提包内）、录音机麦克风灵敏度较低或录音距离过远等原因，而出现待检人语音有效频率范围过窄（例如只有2000Hz以下共振峰），检材与样本语气、音强等差异较大，检材与样本可比对录音内容较少等情况。在这种情况下，语音信息听辨的有效性、共振峰特性的区别价值将会有所降低，进而影响话者识别结论的肯定性与准确性。如果我们能充分挖掘检材与样本中的非语音信息，则能增加鉴定意见的肯定性与准确性。因此，在录音中语音信息不充分的条件下，充分发掘能反映说话人特定性的非语音信息就成为提高话者识别准确率的重要途径。

所谓非语音信息是指人们在交际过程中，不采用语言作为表达意愿的工具，而运用其他非语言的方式所传递的信息，如尖叫声、哭声、咳嗽声、擤鼻涕、笑声、喝水声、敲击声等非语音类声音。对于非语音信息的个体特殊性，国外曾有人做过这样的实验：当一伙母亲分别从许多婴儿的哭声中听辨自己孩子时，相当准确。同时发现，即使有的婴儿的声音很像，他们的母亲不但能准确地听辨出自己的孩子，还能听辨出别人的孩子[2]。另外，从日常生活中我们也有这样的经验：我们经常能够根据熟人发出的哭声、咳嗽声、擤鼻涕、笑声、脚步声等声音判断出发声人是谁。虽然目前我们还没有看到有人曾对这些非语音信息进行过个体的特定性研究，但有一点可以相信，在一定范围的人群内，非语音信息同样具有个人的特定性，并且这种特定性也肯定会随着非语音信息的增加而增强。因此，在对说话人识别时，我们应该充分利用待检录音中的非语音信息。