面向媒体融合的智能化多模态检索系统分析

2021-04-07徐莉

电视技术 2021年2期

徐莉

（浙江广播电视集团，浙江杭州 310005）

0 引言

在“媒体融合”的国家战略下，各种业态的新兴媒体迅猛发展，如移动直播、H5 应用、机器人写稿及AI 合成主播等新生事物不断涌现。传统媒体内部和传统媒体与新媒体之间，相互交叉、相互渗透的需求越来越强烈，促使广电行业进入全媒体融合发展的崭新时代。作为广电行业融媒发展的重要战略资源和核心竞争力，媒资日益受到重视。在存储与管理技术已经相对成熟的今天，数据再利用成为媒资管理的核心内容。因此，作为数据再利用基础的媒资检索显得尤为重要。然而，媒资系统依赖编目信息进行检索，而目前的编目方式仍沿用着传统的编目思维［1］，存在难以适应融媒发展新业态的瓶颈问题。一是编目信息由人工标注，随着信息化的不断发展，媒资数据呈几何倍速增长，增加了维护数据的人力成本和时间成本。二是编目标签范围受到制约，难以涵盖媒体数据涉及的所有维度［2］，且不具备通用性和可扩展性，难以在不同系统间实现信息共享。三是在融媒体时代，素材检索、内容制作及分发效率受到人工编目水平高低的制约，难以适应新媒体对“快”的要求。

因此，结合浙江广播电视集团在智能化媒资建设方面的探索与实践，研究如何利用人脸识别、语音识别、OCR 识别、敏感信息识别及NLP 处理等智能处理服务来构建智能化多模态检索系统，以提高媒体资源管理的效率及深度，从而为内容生产方提供更多更好的素材，制作层次丰富的高质量节目，进一步提升浙江广播电视集团在媒体市场中的竞争力。

1 智能化多模态检索的重要性

目前，浙江广播电视集团在互联网和“两微一端”全面拓展业务，逐步进入全媒体化的快车道，使得媒体的管理理念、运营机制及业务流程随之发生变化。媒资除了要为传统广播电视制播提供内容支撑，还需满足新媒体应用、内容分发与营销等更多的新要求。如何最大效率地利用媒资，关键在于如何提供高效检索。传统搜索使用文本方式，即输入关键词等文字信息，检出简单的文本信息。在信息时代，图片、声音及视频等互联网信息已经远超文字所能承载的信息量。AI 技术的快速发展使得用户需求不局限于文字检索，而是希望通过上传人像图片，在媒资中检索出包含此人物图像的全部视频，并且标记出每一段视频中人物出现的时间点，实现相关人物在海量媒资中的快速检索。或者通过输入一段语音或者关键词，利用语音自动识别技术，实现关键词及其他相关编目信息的高效检索等。因此，多模态检索方案应运而生，为开发媒资应用潜力和挖掘媒资生命力提供了多种可能。

2 智能化多模态检索系统的主要功能

以浙江广播电视集团在建的智能化多模态检索系统为例，对智能化多模态检索系统的主要功能进行阐述。系统运用智能化标签检索、全文检索、分级分类检索、二次检索、同音同义词检索以及联想词检索等智能检索技术［3］，从多种维度提高检索效率。例如，支持对检索词分析词义，通过后台算法翻译成更具备搜索语义的检索词，从而提高检索到达率；输入检索词时，直接在搜索框显示与该检索词相关的资源数量，并提示性显示与此相关的关联词资源数量；输入错误时，提示用户重新输入。除关键词和标题等一般检索方式外，系统还可以实现语音检索、人脸检索及视频文件检索等，同时可以根据AI 迭代升级不断提高全媒体资源检索效率和准确度，从而提升用户检索体验。

智能化多模态检索系统的主要功能如下。

（1）语音检索。通过语音收集，对关键词和题名等进行匹配并快速检索，精准定位，同时支持同期声转字幕，支持新媒体端快速发稿及辅助人工编目，支持敏感词汇提示［4］。

（2）人脸检索。在搜索栏上传人脸图像后，后台进行分析处理，提取人脸特征值存放到特征值索引库中，然后与库中已有人脸特征值进行匹配。若匹配到特征值，系统可快速检索出含有该关键信息的人物素材；若匹配不到特征值，系统自动标记人脸为未命名，并在后续人工维护过程中对未命名人脸进行信息补充。

（3）视频检索。分析导入的视频，提取音频文字和关键帧等信息要素，对文字、人名及图像等要素进行关联搜索，检索视频涉及的图文资料和视频内容等信息，并同步自动定位关键词的位置。

（4）图像检索。提取图像文件关键帧，快速检索图片、文稿以及视频等有关联的素材，并同步自动定位关键词在视频中的位置［5］。

（5）自动快速分类。建立人物库、机构库及事件库等多维度数据库，将各库数据进行归一化处理。媒体素材可按照多个维度进行分类，并利用多维库关联实现媒体素材分类维度的扩展。因此，搜索时可通过模糊匹配实现多个维度的关键词匹配。

（6）关键词优化。根据记者和编导的搜索习惯，定期优化关键词库，将互联网热搜词加入关键词库，提高搜索匹配精度，提高素材利用率。

3 智能化多模态检索技术的实现

智能化多模态检索主要通过语音识别技术、声纹识别技术、人脸识别技术以及自然语言处理（Natural Language Processing，NLP）技术等解决现今媒资管理中常见的检索瓶颈问题，满足对媒资内容检索和自动化标签的需求。它的后台技术实现离不开内容识别和内容检索两部分，如图1 所示。

智能化多模态检索系统采用的主要技术如下。

（1）语音识别技术。在媒资系统部署智能语音离线转写引擎并设置转写目标格式。一方面对视频进行预处理，提取音频文件，并只针对音频进行转写。另一方面，自动识别音视频中的语音，将其转化为文本内容并记录时间戳，在每个视频素材的详情页进行展示并与媒资低码流相关联。文本转写结束后可进行人工查对核验，并与原有视频相匹配，以提高查询和检索的效率及精准度。

（2）声纹识别技术。声纹识别技术是一项提取说话人声音特征与说话内容信息并自动核验说话人身份的技术。使用声纹识别需要在系统建立声纹库，将新输入的声纹信息与库中的已知声纹特征值做比对进行分析检索。

（3）人脸识别技术。人脸识别技术是基于人的脸部特征信息进行身份识别的一种生物学识别技术。系统采集含有人脸的图像或视频流，并分析人脸特征，自动在图像中进行检测和跟踪，直观性和后验性好。

（4）自然语言处理技术。自然语言处理（Natural Language Processing，NLP）技术通过语音识别把库中的视音频语音转成文字进行自然语言理解。机器在前期训练阶段会接收大量关键词和主题词并对两者进行匹配，当接收到一段新的音频时会自动提取关键词，根据前面训练将关键词导向主题词，从而完成自动标签过程。按照以上步骤将信息存到底层数据库，支持通过文字、音频、声纹以及多维度标签进行全方位检索。

（5）音视频比对技术。在新的视音频文件进入媒资系统时，系统提示与已有媒资相同声画重复引用的冗余资料片段并提示重复率，由人工或系统判断后删除，减少库存资料冗余。

（6）移动端实现技术。目前，移动终端是人们接入互联网的主要方式，提供了如语音、拍照等大量互动的可能。浙江广播电视集团在系统建设中提出实现移动端多模态检索，充分挖掘移动设备的交互优势。媒资底库支持实时更新，语音和图片的检索速度达到毫秒级，视频检索高达百倍速。移动端实现技术延展了媒资系统在时间和空间上的使用边界，使其能够以更多维度服务突发新闻和重要专题的报道需求，更好地适应融媒发展。