APP下载

人工智能在广播电视声像档案管理中的应用

2022-11-28韩文琳

兰台内外 2022年30期
关键词:声像档案媒资语音识别

韩文琳

摘要:媒体资产管理系统是广播电视声像档案进行数字化存储的载体。当人工智能与数字媒体资产管理系统融合,势必产生新型的智能化媒体资产管理系统。这不仅能大幅度提高生产效率,还会唤醒沉睡在存储深处的档案内容,让媒体数据更加有温度、可感知。本文详细描述图像识别、语音识别等技术在声像档案管理中的应用。

关键词:声像档案,媒资,人工智能,图像识别,语音识别。

广播电视声像档案是各级广播电视台宣传活动的真实记录,是城市记忆的重要组成部分。近年来,伴随着媒体融合发展,广播电视声像档案数量倍增,存储载体也由传统的磁带库发展为现代的媒体资产管理系统(简称媒资系统)。媒资系统主要是对各种类型的视频资料、音频资料、文字、图片等媒体资料的数字化存储、编目管理、检索查询等进行全面管理的系统。2019年5月,国家广电总局颁布了《广播电视人工智能应用白皮书(2018)》,进一步规范引导人工智能在广电行业的应用,推动人工智能与广播电视行业的融合发展走上快车道。

1媒资业务流程

媒资系统是指使用国家相关标准和规范,完成对媒体数字化视音频文件的文字描述和存储。在业务方面主要有两个方向,一是入库保存方向,包含上载、编目、审核、近线归档、发布;二是查找输出方向,包含检索、下载申请、审批、导出。通常在媒资系统中还会加入一些以把控媒体文件质量和提高编目效率为目的功能,例如自动技审、转码等。入库流程如下图所示:

检索下载流程如下图所示:

2人工智能

人工智能(ArtificialIntelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。在当前媒体行业中普遍开始接触和应用的AI技术包含:图像识别、人脸识别、语音识别、声纹识别等技术。

图像识别,是指利用计算机对图像进行处理、分析和理解,以识别各种不同模式的目标和对像的技术。

人脸识别,是基于人的脸部特征信息进行身份识别的一种生物识别技术。用摄像机或摄像头采集含有人脸的图像或视频流,并自动在图像中检测和跟踪人脸,进而对检测到的人脸进行脸部识别的一系列相关技术,通常也叫作人像识别、面部识别。人脸识别是当前媒体行业中应用较多的一种AI技术。

语音识别,是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的一项技术,在当前媒体行业中应用也非常频繁。

声纹识别,是生物识别技术的一种,声纹识别可以把声信号转换成电信号,再用计算机进行识别,在媒体行业中通常应用于检索和对比。

3人工智能在媒资系统的应用

长春广播电视台于2016年开始建立现代媒资系统,拟对建台以来的海量珍贵音像资料进行数字化存储和管理。现有的音视频资料具有种类多、数量大、增长快的特点,目前已完成数字化磁带上载10万本,包含自制文艺、专题、新闻、晚会、台史资料、素材、电视剧等多个品类。不可否认,传统媒体资产管理系统(简称媒资)对数字化视音频内容进行规定格式的文字化描述,尽管便于用户对视音频资料进行检索使用,但不能满足当前融合媒体发展的需要。人工智能应用于广播电视声像档案管理,必将在效率提升、规范管理、提高内容活跃度等方面起到巨大作用。

3.1图像识别的应用

图像识别的应用主要应用于媒资媒体内容的内容识别上,例如视音频文件的字幕识别、暴恐画面等的识别。在媒资系统中,对上载入库的视音频内容都会经过处理描述,在传统的流程方式中,处理手段较少,例如自动技审仅检测该视频中是否有错误画面,这些错误画面如花帧、黑场、彩条等。当图像识别技术引入后,在检测环节将会有更多的内容被处理,包括:

画面中使用到的字幕将转换为文字,作为媒资视音频文件的自动编目数据;

画面中出现的暴恐、黄色镜头,将以时间点的方式为人工复核提供准确的镜头呈现,以提示后续处理将着重考虑画面是否合法可用;

通过图像识别技术与原自动技审技术的叠加,增强审核检测节点对视音频文件的描述,对视音频入库的质量提供了保障。完成图像识别技术的融合后,媒资入库流程将出现的变化如下:

通过图像识别后的流程与传统媒资流程虽然差别不是很大,但对内容入库的质量提供了更好的保证。

3.2人脸识别的应用

人脸识别在媒资系统中的应用主要体现在两个方面:一是视音频素材入库后的人脸信息提取,主要用来做镜头层自动提取后的辅助自动编目;二是对敏感人物识别后的自动标记,以控制内容发布后的可见范围。

加入人脸识别功能后,一方面在编目节点可以填充自动提取的镜头信息,另一方面可以辅助编目人员在编目过程中设置内容的可见范围。例如某些政治敏感人物是否能对其检索开发,或是开发的范围有多大,以及内容在视音频编目规范中的密级设置等都可以提供参考。

通过人脸识别发布后的内容,用户可以有多种检索方式来查询内容,例如文字搜索、以图搜图等形式,同时还可以为今后内容运营提供数据支撑,为运营者提供内容推荐。

3.3语音识别的应用

语音识别最大的应用方面是将视音频内容的语音识别成时间线文字。时间线文字定义为在该视音频文件内的相对时间上出现的语音转化后的文字。通过语音识别后的视音频内容,可以附带所有文件中的语音文字。在现代媒资管理中,有了语音识别的辅助后,将大大地提高新闻类、专题类的编目效率。转换后的时间线文字如下图:

完成语音识别后的视音频素材,在媒资编目中将提高编目效率,能快速将视音频文件中的内容体现到“片段层”编目的内容中去。其入库流程变化为:

3.4声纹识别的应用

声纹识别在媒资中的应用主要体现在检索阶段。对于媒资中的海量素材,除了提供全文检索、高级检索的文字检索方式外,还会提供以图搜图(关键字检索)和声纹检索方式。声纹检索的应用场景将是用户面对检索界面“哼唱”或应用移动设备“播放”片段旋律,从而通过声纹识别,将“合唱”和“播放”的旋律识别到媒资系统中,同时在通过声纹检索将识别后相近的内容呈现给检索用户。声纹检索是媒资检索手段的扩充,是提高用户查询内容的重要手段。

声纹检索下载的流程通常为:

自动技审、图像识别、人脸识别、语音识别保证了内容入库的质量,提高了媒资系统在编目中的效率,不仅缩短了人工编目的时间,同时极大丰富了编目内容,在提高效率的同时还使对视音频文件的描述更加详细。

声纹识别丰富了媒资系统的检索手段,让用户能更快、更便捷地找到自己想要的内容。

在媒资系统,特别是视音频媒资系统中,通过图像识别、人脸识别、语音识别和聲纹识别等AI技术,不仅可以对媒资系统入库的内容进行质量方面的把控,同时还可以极大地提高媒资系统的运转效率,让媒资系统能更好地服务于为节目生产和播出。毫无疑问,在未来的广播电视声像档案管理中,利用人工智能和大数据技术会使其保存的内容更加活跃、更有温度。

长春广播电视台将结合“智慧长春”建设,努力在“存量数字化、增量电子化、利用网络化”方面下功夫,不断提升声像档案工作现代化水平,对内积极服务于采编播生产部门,对外提高与省广电音像资料馆、省图书馆、市图书馆、市城建档案馆、长影集团等单位的数据交互能力,更大限度地展现其独特的历史价值、重要的文艺欣赏和收藏价值,让广播电视台的历史更完整、现实更丰富、未来更辉煌。

参考文献:

[1]广播电视人工智能应用白皮书(2018)

[2]广播电视行业应用大数据技术白皮书(2018)

[3]广播电视音像资料编目规范第1部分电视资料

[4]广播电视音像资料编目规范第2部分音频

[5]倪明昊,单文火.人工智能时代新型媒资管理系统的构建思路及技术实现.广播与电视技术,2019(3).

[6]唐百慧,曹三省.人工智能在广播电视行业中的应用研究.广播电视信息,2018(8).

猜你喜欢

声像档案媒资语音识别
大数据技术的媒资档案管理方法
浅析媒资系统在电视台业务中的应用
通话中的语音识别技术
浅谈企业声像档案管理的现状及建议
浅析水利工程建设中的声像档案管理
企业声像档案数字化管理的实现探讨
信息化环境下企业声像档案文化价值的挖掘
面向移动终端的语音签到系统
MRG9000媒资卫士在市级电视台全台网的应用
农业物联网平台手机秘书功能分析与实现