广播电视节目新广告自动发现技术研究
2015-12-29吴晓璐华申峰
□饶 军 吴晓璐 华申峰
为了加强对广播电视广告的监管,国家广电总局相继颁布了61 号令、66 号令、71 号文和79 号文,对广告内容和广告播出做出了明确规定。近年来,随着计算机技术的发展,通过对广告制作样本并利用样本匹配技术监播已知广告,从搜索精度和效率上都已取得较好的效果。但是对于广播电视广告监管部门工作人员来说,仅仅对已知广告的监播并不能满足实际工作中的所有需求,因为在广播电视节目中,不断会有新的广告出现,针对未在样本库中的新广告,样本匹配技术显然是不能胜任的。如果只是通过人工浏览标注新广告,无疑是一件费时耗力的工作,并且由于人的记忆能力限制,人工的方式会带来较大的误报漏报的误差,为此必须寻找一种可行的智能技术解决这一难题。
利用音频重复性检测新广告的可行性分析
一、广告商投放重复广告意愿调查。由于广告商投放广告的目的是为了宣传产品,让尽可能多的人记住并有意愿购买其产品。广告商在媒体中投放广告宣传所欲达到的目标,特别是为了达到用户的广告回忆率、广告内容理解率等认知方面的目标,和一般学习过程的目标类似。从消费者对广告内容的认知过程来说,广告重复投放对于生产厂家有着积极的意义。在最显见的层面上,由于无法保证受众在广告播放时集中注意力,广告重复可以增加受众注意到产品广告的概率,这是重复广告最基本的功能。其次,艾宾浩斯(Hermann Ebbinghaus)遗忘曲线的研究表明了重复对增强记忆的作用,重复的信息刺激是防止广告遗忘的基本手段。因此,广告商投放广告必定不是只播出一次,而是在一定时间段内大量重复播出。
基于重复性对广告认知加强效果,我们假设广告商投放的广告播放次数会多于一次,这是利用重复片段检测来检测新广告的基础。
二、广播电视广告重复性播放统计。为了验证在一定时间段内广播电视的广告会重复投放的这一假设,我们对江西一套2015年4月14日、4月15日、4月16日三天的广告播出数目以及其中的重复广告数目做了详细统计,如图1 所示:
2015年4月14日共播放广告652 条,其中只播放一次的广告为112 条,占总体广告播放条目数的17.2%。当天出现有重复的广告为540 条,分别属于135 个不同版本的广告。
2015年4月15日共播放广告660 条,其中只播放一次的广告为118 条,占总体广告播放条目数的17.9%。当天出现有重复的广告为542 条,分别属于146 个不同版本的广告。
2015年4月16日共播放广告643 条,其中只播放一次的广告为110 条,占总体广告播放条目数的17.1%。当天出现有重复的广告为533 条,分别属于131 个不同版本的广告。
综合这三天的广告播出情况统计,只有43 条在这三天内出现过一次,也就是说以三天为统计单位,约有98%的广告是可以通过重复性检测被发现,这个数据充分证明了利用重复性发现新广告技术的可行性。
图1 2015年4月14日至16日江西一套广告播放统计图
音频特征提取与矢量量化
特征提取的主要任务是将音频波形信号转换成统计特性更好的特征向量,便于进一步的匹配和检索。和语音信号一样,音频信号也具有短时平稳特性,本文采用基于短时子带能量的特征,描述了某一时刻的频带能量分布。建立音频向量空间模型的流程图如图2 所示。
一、音频信息从视频文件中分离出来,并将原始音频转化成8kHz 采样16bit 量化精度、单声道PCM 格式。
二、分帧。分别对每一帧音频提取归一化能量特征,对其矢量量化,将每一帧的特征映射到{1,2,……,k},这样可以用量化出的码字代表一帧音频信息。
三、每五秒将音频分为一个音频片段,每一片段即为重复性查找时的基本单元,统计每一音频片段数据的音频字频率。
四、最后根据音频TF-IDF 算法给直方图的每一维赋予权重值,即可得到音频向量空间模型的表示。
直接利用大量数据统计出的各音频字的频率倒数的对数值计算音频IDF。
图3 基于重复性检测的新广告发现系统图
表1 利用音频信息的重复性检测结果
利用重复性检测获得疑似广告算法流程
基于重复性检测的新广告自动发现系统目的是在待监测的数据中检测出未在模板库中收集的重复节目片段,因此为了减轻重复性检测的计算量,可以首先利用音频模板检索系统,将已知广告和片花模板出现的数据段从待处理的数据集中过滤掉;然后在过滤剩下的数据上经过重复性片段的检测,得到一系列重复片段候选,在这些候选中包括新出现的广告,某些重播的电视节目以及误识片段;再经过利用音频指纹技术对重复候选确认过滤去误识片段、利用图像帧的变化率、静音率、音频变化率等特征,过滤掉重播电视剧等非广告片段,最后经过人工审核将新检测出的广告标注并入模板库。系统框架如图3 所示。通过以上步骤,可以去除重播的电视剧以及其他非广告类节目。
实验结果与实际应用效果
为统计新广告发现系统的性能,本文的测试数据集选择了江西一套三天(2015年4月14日至16日)的数据,其中音频数据采样率为8KHz,采样精度为16bit。
我们通过召回率和误报率来衡量新广告发现算法的性能,计算公式分别如下:
表1 是测试结果,其中误报主要是由于重播的节目片花或节目预告造成。
使用上述方法所开发的广告智能监管系统已经成功在江西省广电监管中心进行实施应用,系统投入运行以来,运行稳定,大大减轻了值班人员的工作负担,提高了工作效率,实现了广告监测的智能化。