人工智能在广播电视监测中的应用

2021-08-09羊光张沛泷张琪

卫星电视与宽带多媒体 2021年10期

羊光张沛泷张琪

【摘要】广播电视监测需要对广播电视节目的音视频质量、内容实施监测，确保播出内容和播出质量可控。然而，海量的节目音视频流对监测工作是一个巨大挑战，需耗费大量人力。本文概况了人工智能的概念，总结了人工智能的研究进展特别是在图像识别和语音识别方面的进展，并对其在广播电视监测中的应用进行了深入分析和梳理。人工智能技术将推动广播电视监管监测战略性发展。

【关键词】人工智能;广播电视监测;图像识别;语音识别

中图分类号：G241 文献标识码：A DOI：10.12246/j.issn.1673-0348.2021.10..062

1. 引言

近年来，人工智能技术飞速发展，在经济发展、社会进步等方面已经产生重大而深远的影响。“人工智能”一词反复提及，这表明在当前我国经济从高速增长向高质量发展的重要阶段中，以人工智能为代表的新一代信息技术，将成为我国推动经济高质量发展、建设创新型国家，实现新型工业化、信息化、城镇化和农业现代化的重要技术保障和核心驱动力之一。

广播电视监测行业需要面对海量的媒体资源，对先进的技术有着更高的需求。技术的引入和应用可以显著减轻人工工作量，提高监测监管的效率和实效性。随着融媒体、5G技术、云平台建设等不断推进，广播电视监测监管面对的数据量进一步增长，传输速率进一步提高，监管难度进一步增大，制播平台进一步融合，为人工智能在广播电视监测监管上的应用提供了研究基础。研究人工智能相关技术在广播电视监测监管方面的适应性应用，将进一步丰富监测监管手段，提高监测监管效能，推动广播电视监管监测战略性发展。

2. 人工智能概述及发展现状

2.1. 人工智能概述

人工智能技术起源于1956年，近年发展迅速，部分人工智能技术已经到可以投入应用的阶段。关于人工智能，比较流行的定义是指让机器的行为表现为像是人类的智能行为一样，即人工智能是指通过计算机程序来呈现人类智能的技术。人工智能技术主要可以分为模式识别、机器学习、数据挖掘和智能算法四类，模式识别是指对事物的表征特征进行各种形式的处理以及学习，从而形成一定的规则对事物或者现象进行分析分类的过程;机器学习是指对人类的学习行为进行模拟，经过先验知识获得新的知识或技能，从而达到特定要求的过程;数据挖掘是通过算法挖掘出数据中有用的信息以及知识，应用于市场分析、医学预测等情况;智能算法是指解决某类问题（一般是指最优化问题）的一些特定模式算法，这些智能算法均模拟自然过程，如模拟退火算法、遗传算法等。

2.2. 人工智能的发展现状

人工智能技术最开始应用于图像识别，起源于人工神经网络与支持向量机结合，从此图像识别技术得到快速发展。近些年来，因为机器学习中的深度学习具有强大的特征提取能力，被广泛应用于图像识别当中，并且取得了巨大的发展。基于深度学习的图像识别主要应用在监控视频、门禁系统的人脸识别中，基于深度学习的人脸识别算法中有相当多的代表性算法被提出，其中Taigman等人提出的DeepFace模型和汤晓鸥团队提出的DeepID模型极大地促进了人脸识别的技术发展，Fu等人提出的引导卷积神经网络（Guided-CNN）最高匹配率能够达到97.4%，李倩玉等人提出的深层网络自动提取特征模型在Yale、Yale-B、CMU-PIE数据库上能够获得97.8%、95%和96.17%的识别率。另外图像识别还应用于医学图像识别和遥感图像识别当中，利用图像识别来对人体的患病部位进行诊断是当下最前沿的医学诊断之一，但是由于缺乏足够的医学数据，因此仍旧有许多的病症无法通过这一技术进行识别，利用遥感图像识别能够对土地、水利、环境污染等进行分类，Lv等人提出一种叠加自编码（SAE）的遥感图像分类算法，该算法不仅在低、中、高分辨率和高光谱遥感图像中均具有较高的分类精确度，而且对UCI数据具有较强的稳定性和泛化性。

人工智能另一方面常用于语音识别的场景当中，语音识别是指将语音信息转换成文本信息。传统的语音识别技术主要基于统计的方法，目前的语音识别技术主要基于深度学习的方法。最新的进展当中主要研究在注意力机制中，2018年阿里巴巴采用开源框架Kaldi构建了语音识别模型DFSMN，在Fisher（FSH）数据集上测试词错率仅为9.4%;百度的模型在其自建的中文数据集上训练并测试，WER低至7.93%，也取得良好的效果。现有技术均能在一定条件下达到跟人类专业速记员一样的翻译速度。语音情感识别也是语音识别的一个重要研究内容，语音情感识别指设计合适的模型算法对语音信息进行情感特征的提取，从而建立特征与情感之间的映射关系，从而对语音中的情感进行分类，Zhang等人使用循环神经网络提取了语音信息的深度学习特征进行情感识别，在SEED和CK+数据库上分别获得了89.50%和95.40%的识别性能，Gao等人利用深度受限玻尔兹曼机将韵律特征、谱特征进行融合，并在EMODB数据库上验证模型性能，研究結果表明，与传统识别模型相比，DBM-LSTM模型更适用于多特征语音情感识别任务，最优识别结果提升11.00%。

3. 人工智能在广播电视监测中的应用

前述研究表明，人工智能技术在图像识别、语音识别、情感识别等方面均已获得良好的效果。在现有广播电视监测系统上，只能提供报警前端、报警节目、报警现象和报警时长等信息，无法提供进一步的报警信息、事故原因，且误报率较高。将人工智能技术应用于广播电视监测中，实现广播电视监测的自动化、智能化、实时化，极大减轻值班员的人工负担，提高监测质量，提高反应速度。

3.1.音视频识别

可广泛应用人工智能中的语音识别、语义识别、图像识别等技术，实现对音频、视频的自动化处理。在智能标签生成和管理方面，通过语音识别、语义识别、图像识别、场景识别等技术，结合自然语言处理，对音视频内容自动生成内容标签和查询索引，便于后续查找和管理。在多媒体内容管控方面，基于敏感内容样本学习建模，借助语义识别、图像识别技术，在海量的音视频多媒体节目内容中智能鉴别、筛选出敏感内容、淫秽色情内容等，实现辅助人工乃至自动化的播前内容审核。在节目质量监测方面，立足正常节目训练，应用深度学习算法，智能识别音频、视频质量劣化、内容篡改、音视频不同步、黑屏等非正常情况。

音视频的基于人工智能技术的自动化识别可极大地降低值班员工作量，相对于人工检出，自动识别可大大提高识别率和检出速度。

3.2. 自动决策

引入人工智能中的智能决策系统和算法，在感知到前文所述的各种异常情况后，根据异常严重级别，智能切换线路或信号源，并适时上报异常信息，并根据异常事件的严重程度和影响范围，实现基于异常程度的分级处理。低级别异常无感自动化处理，自动识别，自动修复;高级别异常实时及时化处理，实时发现，即时上报人工处理。当感知到音视频内容中的淫秽、反动等敏感内容后，根据威胁级别，选择人工核查处理或自动决策处理。

自动决策不仅包括对音频、视频内容的识别、报警等处理，还包括对可修复问题的自动修复、在出现严重问题时的音视频实时截断、切换等处理，以进一步减轻值班员的工作量，并提高严重问题的处理速度，降低不良影响。

3.3.舆情监测

随着广播电视节目传播方式不断丰富，用户互动不断增加，从用户对不同节目的收视率、点击情况，到用户对节目的评论、转发传播情况，都可以反映出用户的情感、立场等信息。在收集汇总节目播出及用户互动情况的基础上，借助人工智能的语义识别等技术，智能分析用户点击行为中隐含的好恶情绪，对用户评论进行情感分析和语义分析，为用户及节目标记情感和行为标签，进而综合分析研判舆情信息，可完成对舆情的感知和监测。

基于人工智能技术的用户舆情监测拓展了广播电视监测的工作范围，在传统的针对节目源监测的基础上实现了反向用户行为监测，与传统节目源监测相辅相成。针对节目源的监测数据与针对用户舆情的监测数据可相互印证、相互补充，最终获得从发送端到接收端及从接收端到发送端的双向监测数据，形成全面的立体监测体系。

4. 结语

将人工智能技术应用于广播电视节目监测监管中，不但可以大幅提升监测监管的效率，提高异常处理的反应速度，而且可以大大扩展监测监管的范围，从传统的音视频监测到自动决策、舆情监控。监测系统将更加智能化、便捷化、实时化，将宝贵的人力从低效重复的劳动中解放出来。人工智能将在广播电视监测中扮演越来越重要的角色。

参考文献：

[1]Fu T C， Chiu W C， Wang Y C F.Learning guided convolutional neural networks for cross-resolution face recognition[C]//2017 IEEE 27th International Workshop on Machine Learning for Signal Processing （MLSP）.IEEE，2017：1-5.

[2]Taigman Y， Yang M， Ranzato M A， et al. Deepface： Closing the gap to human-level performance in face verification[C]//Proceedings of the IEEE conference on computer vision and pattern recognition.2014：1701-1708.

[3]李倩玉.基于改進深层网络的视频人脸识别研究[D].合肥工业大学，2016.