语音识别技术在录音录像档案管理中的应用探析

2023-09-07许振哲

北京档案 2023年8期

许振哲

摘要：当前录音录像档案存在著录效率低下、著录质量不高的问题。论文提出，将语音识别技术应用于录音录像档案管理，能够有效提升录音录像文件文本化转换的速度与精度，适应录音录像档案急剧增长的浪潮；将语音识别技术与词云图、时间戳结合，纳入智慧档案馆建设总体进程，可以实现录音录像档案的自动化著录、智能化检索，从而提高录音录像档案的总体利用水平。

关键词：语音识别技术录音录像档案词云图

录音录像档案是国家机构、社会组织或个人在社会活动中直接形成的以声音或影像为主要反映形式的具有保存价值的历史记录。由于录音录像档案的本质是非结构化数据，档案检索依赖于文字著录信息，著录信息的有限性与用户需求的多元性难以协调，极大地限制了录音录像档案价值的发挥。近年来，卷积神经网络迅猛发展，机器深度学习能力不断加强，语音识别技术逐渐走向成熟，语音识别技术的应用有助于实现录音录像档案内容文本化、著录自动化以及检索智能化。语音识别技术将是录音录像档案管理未来发展的新方向。

一、录音录像档案管理现状与问题

随着科技的不断发展、智能化设备的全面普及，录音录像的采集变得愈发便捷。近年来，录音录像档案数量剧增，国家档案局发布的数据显示：2018年，全国各级国家综合档案馆馆藏数字录音、数字录像总量为30.5万GB（≈297.85TB），全年共接收录音磁带、录像磁带、影片档案2.9万盘；到2021年，馆藏数字录音、数字录像总量为690.6TB，全年共接收录音磁带、录像磁带、影片档案6.1万盘。[1]短短3年，录音录像档案的馆藏总量在原有基础上翻了一番，实现了跨越式增长。

录音录像档案总量不断增长的同时，也暴露出一系列问题。一方面，录音录像档案的编目著录仍在沿用传统人工著录的方式，难以满足用户的利用需求。张海剑曾指出：“目前档案部门对音、视频档案的整理还停留在人工视听阶段，一边看一边听一边录，不仅效率低、内容采集不全，还费时费力。”[2]然而单凭人力，想要完成海量录音录像档案的著录工作无异于天方夜谭。另一方面，录音录像档案的著录层次结构较为单一。录音录像档案管理参照的行业标准主要包括《录音录像档案数字化规范》（DA/T 62—2017）、《录音录像类电子档案元数据方案》（DA/T 63—2017）以及《录音录像档案管理规范》（DA/T 78—2019），以上标准普遍存在对著录尤其是必选著录的规定过于笼统，描述不够详尽的问题，缺少对镜头、场景的著录项，不利于准确、高效查找具体内容。[3]不仅如此，在技术发展日新月异的今天，录音录像档案管理面临的新问题层出不穷，行业标准如不能及时推陈出新，必然无法适应时代需求。

由此可见，当前录音录像档案在著录模式、著录规范上存在一定问题，从而导致录音录像档案的著录效率较低、著录质量不高。录音录像档案著录信息的有限性与档案内容的高效检索利用之间，形成了无法避免的矛盾。[4]因此需要引入语音识别技术，通过机器的深度学习、自动编目帮助完成录音录像档案著录工作，全面发挥录音录像档案的价值。

二、语音识别技术的发展与应用

语音识别是以语音为研究对象，通过语音信号处理和模式识别让机器自动识别与理解人类口述的语言。语音识别技术是讓机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术。而语音识别系统本质上是一种模式识别系统，包括特征提取、模式匹配、参考模式库三个基本单元。[5]

语音识别技术产生至今，已有半个多世纪的发展历程。早在20世纪50年代，贝尔实验室的研究者就通过模拟元器件提取语音中元音的共振峰频率变化信息，从而对孤立数字的语音实现了识别。[6]20世纪60年代后期，伦纳德·E.包姆（Leonard E. Baum）和其他一些作者在一系列论文中提出隐马尔可夫模型（Hidden Markov Model，HMM），并于70年代中期开始将其应用于语音识别。2006年，杰弗里·辛顿（Geoffrey Hinton）发表关于计算机深度学习的论文，其中深度神经网络（Deep Neural Networks，DNN）的提出，标志着语音识别技术进入人工智能时代。截至2015年，计算机在深度学习语音识别模型库的语音识别错误率为3.1%，已经超过正常人的识别能力（正常人的语音识别错误率为5%）。[7]

随着深度学习理论的不断发展，语音识别技术已经在图书领域有了广泛而深入的应用：中山大学钟远薪等人将语音识别技术用于徽州文书文本化工作，研究发现语音识别技术的识别率相较OCR有显著提升，而识别时间仅为手工录入的六分之一，语音识别技术可以大幅提高徽州文书的文本提取效率。[8]反观档案领域，目前对语音识别技术开展的相关研究并不多，且侧重于探讨如何实现人机智能语音交互。[9]诚然，人机语音交互可以在一定程度上优化档案利用者的操作体验，然而对于录音录像档案查全率、查准率的提升作用还不够显著。语音识别技术的相关研究更应注重编目和著录环节而非人机交互环节。换句话说，识别录音录像档案中“说话的人是谁”以及“说的是什么”显然比识别“检索利用者是谁”以及“想查询什么”更加重要。将语音识别技术用于录音录像档案的文本转化，能够让技术的优势得到更加全面的发挥。

三、语音识别技术应用于录音录像档案管理的前景与展望

（一）利用深度学习语音识别模型，实现录音录像档案内容文本化

目前我国录音录像档案整体利用水平不高，主要原因在于录音录像档案的本质是声音或画面，属于非结构化数据，无法直接进行检索，需要先将声音和画面转化为文字，再对文字信息进行归纳总结，提取关键字著录后方可供用户检索。然而，我国现阶段录音录像档案仍在沿用传统人工转写的方式，边听边录，一个小时的录音录像文件，往往要花费几倍的时间才能实现文本转换。此外，一些包含噪声或者夹杂方言的片段还需要档案工作者反复收听、仔细确认，效率低下，费时费力，人工转写的速度远不及录音录像档案生成的速度。此外，人工转写后的档案全文，只能笼统对应一个时间区间，难以将文字与录音录像档案中的时间点精准匹配。用户通过全文检索查询到对应内容后，仍需拖动进度条，播放一个片段才能找到文字对应的关键帧。

随着深度学习的不断发展、卷积神经网络的逐步优化，如今语音识别技术的发展应用已日趋成熟，机器可以替代人工，将录音录像档案中的声音快速转化为文字。一个小时的录音录像文件，只需十分钟左右即可完成转写，极大地提升了工作效率、节约了人力成本。随着深度神经网络的优化，机器可以在转写过程中不断训练升级，并根据上下文语义对内容进行智能纠错。[10]相比于人工转写一次只能对单个文件进行加工，机器可以24小时不间断对多个录音录像文件同时进行文本转换，在识别速度、识别精确度等方面均优于人工，完全能够适应近年来录音录像档案急剧增长的势头。不仅如此，通过语音识别技术完成的文本转换，文字与时间线联系更加紧密：转换后的文字可以作为内嵌字幕添加到录音录像档案中，确保文字内容和声音帧数的精准匹配，用户通过全文检索，即可实现对录音录像关键帧的快速定位。

（二）结合词云图与文字流时间戳，实现录音录像档案著录自动化

《录音录像类电子档案元数据方案》（DA/T 63—2017）将档案元数据划分为四大类，并进一步细化为96个著录项，每个元数据的约束性和可重复性又分为必选、条件选、可选、可重复、不可重复五种类型，内容烦琐，形式复杂，给档案著录造成不便；方案未将主题、职能业务、管理活动等涉及录音录像内容信息的元数据列入必选著录项，这就导致录音录像档案著录过程中对于活动主题的描述过于简略或干脆省略，给档案利用带来极大的困难。《录音录像档案管理规范》（DA/T 78—2019）对基本著录项进行了凝练，将工作活动描述纳入必选著录项中，然而囿于篇幅限制，寥寥数语显然难以精准概括录音录像档案的全部内容。因此在实际工作中，录音录像档案常以下面的形式著录：

题名：××年××活动开幕式

内容描述：××部门领导A主持开幕式

内容起始时间：××′××″

内容结束时间：××′××″

内容描述：××部门领导B发表讲话

内容起始时间：××′××″

内容结束时间：××′××″

不难看出，传统模式下录音录像档案的著录主要按照时间顺序，将所涉活动划分为若干流程，再提取各流程中涉及的重要人员作为关键词，通常不提及具体讲话内容。这就导致在利用环节，著录项比较笼统，用户很难通过著录项快速了解活动主题，只能逐帧浏览原文件，从中寻找录音录像档案蕴藏的关键信息。

提升录音录像档案著录质量、帮助用户迅速把握重点信息的关键在于如何自动提取文本中的高频关键词并加强可视化。笔者将词云图、文字流时间戳与语音识别技术有机结合，以求进一步优化用户的检索体验。以中国档案学会成立40周年学术研讨会会议录像为例，[11]会议召开于2021年12月16日，时长2小时55分08秒。按照传统著录模式，想要提取会议中某个发言人发言的重点信息需要耗费大量的时间，而通过语音识别技术，则可以在实现录音录像档案文本化转换的基础上生成词云图，并为关键词添加时间戳，从而解决当前著录与利用环节中存在的问题。会议的一个议程为中国档案学会理事长杨冬权致辞，对应时间段为33′06″～46′43″。想要提取这段发言的重要内容，首先可以通过语音识别技术对发言内容进行识别，将约14分钟的讲话内容转换为2000余字的文本；接着对发言文本进行词频分析，生成词云图，如图1所示；最后为词云图中每个关键词添加文字流时间戳，点击对应关键词即可显示它在视频中每次出现时的上下文信息，选中对应上下文条目则可直接跳转至文本信息对应的视频位置，无须逐帧观看原文件。

按照上述操作方法，通过语音识别软件的识别与加工，就可以将时长接近3小时的会议视频转换成一个添加了文字流时间戳的文本文件及若干个词云图。一方面，这样做省去了传统模式下录音录像档案著录边听边看边记录的烦琐工作，機器可以通过语音文字识别结果自动著录会议的每一项议程，并呈现对应内容，著录信息更为详尽。另一方面，这样做可以有机结合词云图与文字流时间戳，使录音录像档案的可视化更强，主题一目了然，极大地方便用户快速浏览。文字流时间戳的添加可以实现文字内容——视频关键帧的一键跳转，方便用户对重点信息进行精准定位。

（三）纳入智慧档案馆建设总体进程，实现录音录像档案检索智能化

随着科技的不断进步，人工智能技术已逐步发展成熟，将语音识别技术与开放档案信息系统有机结合，纳入智慧档案馆建设总体进程，能使技术的优势得以更加全面的发挥。语音识别技术不仅可以使档案著录更加精准、高效，还可以增强录音录像档案与其他门类档案的内在关联，在检索形式与检索逻辑上更加趋于智能。

传统录音录像档案检索机制相对单一，停留在文字检索阶段，通过对检索词与著录项的关键字进行匹配，进而输出音视频结果。语音识别技术的应用为检索形式的创新奠定了基础，也使“以声搜声”得以实现：在开放档案信息系统中上传一个音频片段，语音识别软件会自动解码文件，进行文字化转换，判定音频片段中“说话的内容是什么”，并将档案库中文字匹配度最高的音视频作为结果输出；不仅如此，语音识别软件还可以对片段进行声纹识别，判定“说话的人是谁”，将人物信息元数据一并呈现，并将该人物的其他音视频档案作为拓展信息与检索结果一并推送给用户。

通过上述功能，用户可以根据音频片段溯源原始文件，详细了解事件或讲话的背景信息及来龙去脉，或是了解哪些场合曾出现过与音频片段内容相关或近似的讲话内容。声纹识别可以关联同一个人在不同场合的录音录像档案，实现人物身份信息元数据的串联，不仅可以对检索结果进行智慧化推送，也可以对年代久远、六要素模糊的录音录像档案进行信息补全。

目前录音录像档案的著录水平难以满足用户的利用需求，因此语音识别技术当前的出发点是提升录音录像档案的查全率。随着技术的深化应用、音视频全文检索功能的逐步完善，提升录音录像档案的查准率将是未来发展的落脚点。今后还可以使用方言档案数据库和多语种语音库对语音识别模型进行训练，进一步提升模型的识别能力。在语音识别模型基本成熟的前提下，将语音识别技术与其他人工智能技术协同纳入智慧档案馆建设总体进程，充分运用大数据和云计算技术，最终将提高录音录像档案的总体利用水平。

注释及参考文献：

[1]中华人民共和国国家档案局.2021年度全国档案主管部门和档案馆基本情况摘要[EB/OL].（2022-08-18）[2022-10-27].https：//www.saac.gov.cn/daj/zhdt/202208/ b9e2f459b5b1452d8ae83d7f78f51769.shtml.

[2][6][10]張海剑.人工智能赋能档案事业创新成果与研究[EB/OL].[2022-10-27].http：//cpfd.cnki.com.cn/Ar？ ticle/CPFDTOTAL-ZGDA201907001009.htm.

[3]刘金月.我国声像档案长期保存相关标准的研究[D].沈阳：辽宁大学，2022：37-38.

[4]刘涛.人工智能技术在录音录像档案管理中的可用性[J].档案管理，2022（3）：71-72.

[5]玩人工智能的你必须知道的语音识别技术原理[EB/OL]. （2022-07-14）[ 2022-10-27 ]. https ： //news. eda365.com/appl/smcp/12008831711504.html.

[7]周宣汝，赵丽亚，赵地，等.人工智能对科研信息化的推动作用[J].科研信息化技术与应用，2016，7（6）：14-26.

[8]钟远薪，王蕾，杨新涯，等.徽州文书文本化语音识别技术应用研究[J].图书馆论坛，2022（1）：1-10.

[9]张倩.生物特征识别技术在“高校档案云”服务平台的应用研究[J].浙江档案，2018（3）：62-64.

[11]中国档案学会.中国档案学会成立40周年学术研讨会[EB/OL].（2021- 12- 16） [2022- 10- 27].https：// marketing.csslcloud.net/video/A7AA77B67BEC691A/ 35DB5A93C0BF2D139C33DC5901307461.

作者单位：上海理工大学档案馆

北京档案

2023年8期