新媒体背景下的视频广告分类系统设计
2022-05-11吴韵怡
吴韵怡
(广州华立科技职业学院, 艺术与传媒学院, 广东, 广州 511325)
0 引言
新媒体是指以网络通信为基础,以数字技术和移动通信等技术为支撑,向受众提供信息服务的一种数字化复合媒体形态,不仅继承传统媒体的优点,而且将传统媒体所存在的区域与信息交互局限性现象有效解决,达到信息传播与交互的高效率与广泛性[1-3]。
面对新媒体背景下视频广告数量的不断增长,视频广告的类型也随之增多,对于各类型视频广告的有效分类便成为当下的重要研究课题,且应用前景非常广阔[4]。正确的视频广告分类能够帮助用户提升视频类型搜索的效率,且辅助各企业对用户实行对应搜索产品的视频广告推荐等。但是在面对海量的视频广告数据时,仅依靠人工分类标识无法实现分类的有效性与效率,且对于时间、物力及人力成本等均消耗较大,故采用合理有效的分类技术实现新媒体背景下的视频广告分类尤为关键[5-6]。
基于此,本文设计一种新媒体背景下的视频广告分类系统,提升视频广告的分类精度与效率。
1 新媒体背景下的视频广告分类系统设计
1.1 系统整体架构设计
设计由基础层、逻辑分析与处理层、存储层构成的系统整体架构。基础层也就是用户界面操作部分,其作用是将简便易操作的检索口提供给使用者,同时向使用者反馈系统分类结果;逻辑分析与处理层的作用为对输入的原始视频广告进行分析,同时通过分割处理得到由数个视频段中选取的中间帧序列,并将此中间帧序列存储于数据库内,提取数据库内所存储中间帧序列的特征并进行分类评分,线性叠加各分类评分后,获取整体视频广告的类型预估结果,实现视频广告分类;存储层的作用为记录日志文件与对模式视频广告的有关信息实施储存[7]。系统的整体架构如图1所示。
1.2 逻辑分析与处理层功能
逻辑分析与处理层的功能为分析输入的原始给定模式视频广告序列,采用镜头长度序列匹配与帧匹配相结合的视频广告匹配算法,以J帧匹配分割所输入的给定视频广告序列,获取到M个视频段,并从中选取出L个中间帧;采用多支流网络(MSN)对此中间帧序列实施编码,提取出视频广告中的有用信息,通过多支流网络的各分类网络输出其三维特征谱E,向多支流网络的各支流中引入预测试的空域注意力预估模型,实现对和视频类型有关区间的定位,融合空域注意力预估模型所预估的注意力谱和各条支流网络所提取到的特征谱,通过2个全连接层之后获取各视频广告的分类评分,线性叠加各分类评分后,得到视频广告类型的整体预估结果。逻辑分析与处理层结构如图2所示。
图1 系统整体架构图
图2 逻辑分析与处理层结构图
1.3 分类方法设计
首先给定某个模式视频广告序列,通过镜头分割方法划分此模式视频广告为一组视频段,将每个视频段看作一个镜头,各个镜头之间拥有单独的语义信息,持续的各视频帧间存在类似或同等内容在同一个镜头中。故当下镜头视频中的全部视频帧可通过镜头中的视频帧呈现[8-9]。其次以时间顺序为依据选择L个镜头,当下镜头采用镜头中的视频帧替换,向多支流网络(MSN)内依次传输L个视频帧。然后为了对同视频类型有关的区间实行定位,将各个预测试的注意力预估模型(APN)引入MSN的各条支流内实现,融合APN预估的注意力谱和各条支流网络所提取到的特征谱,经由全连接层实行分类。最后APN模型通过线性叠加全部支流的分类结果,实现对当下视频广告类型的准确预估,完成系统的分类功能。分类方法过程如图3所示。
1.3.1 镜头分割
由于视频广告的镜头分割关键在于及时性与精度,其中及时性可通过镜头的长度匹配实施保障,而精度则可通过帧匹配实现[10]。所以为确保视频广告分割的及时性与精度,需规避运用镜头长度序列匹配时的长耗时问题与帧匹配的精度微低的问题,通过结合镜头长度序列匹配和帧匹配的视频广告匹配算法实现。
图3 分类方法过程图
视频广告匹配算法理念为先将模式视频广告序列的长度与第一个J帧获取,分析此模式视频广告,得到其镜头序列,再通过第一个J帧匹配模式视频广告。因在全部帧内大概有1/14的占比为J帧,同时J帧通过帧内预估的方式进行解码,这与其他帧需以J帧为依据实行预测或同时向前后2个方向实行预测的帧不同。最终通过镜头分割方法分割由匹配点开始的模式视频广告长度的当下视频,将当下镜头长度序列获取到。如果当下视频镜头的长度序列与模式视频广告镜头长度序列一致,那么可认定完成一次模式视频广告的分割,继续对第一个J帧图像实施匹配;反之即二者不同时,则认定为未完成模式视频广告的分割,则继续对下个J帧图像实施匹配。最终获取到分割后的M个视频段,从M个视频段内依次选择出中间帧替换当下视频段,同时向数据库内输入所选择的L个中间帧。具体过程如图4所示。
图4 镜头分割过程图
1.3.2 多支流网络框架
(1)
1.3.3 空域注意力预估模型
(1)模型引入
为了对网络由产品有关区间提取判断性的特征实施辅助,将各个空域注意力预估模型APN引入到多支流网络的各条支流内[13-14]。向一个注意力预估模块与一条分类支流内共同输入给定的测试视频帧Y,分别产生注意力谱C∈Hr×v与特征谱E∈Hr×v×ar。融合注意力谱C和特征谱E的各个通道,在向全连接层输入前,其式为
(2)
(2)模型测试
输入一个视频帧到注意力预估模型内,可输出一张同等于输入尺寸的注意力谱。注意力预估模型采用分割内经常使用的全连接网络(FCN)为基础网络,故它由两个全连接层、数个Relu层、Max Pooling层与卷积层共同构成。因注意力预估模型内包含数个Max Pooling层,故其输出谱的尺寸比输入图像尺寸小。可通过引入一层转置卷积层到全连接层之后的方式,实现上采样注意力谱,达到输出注意力谱的尺寸同等于输入图像尺寸的目的[15]。转换问题为对各个像素属于注意力区间的置信度实行预估,实现对注意力预估模型的测试。故在此对现实区间x和注意力预估模型的注意力谱q间的损耗通过Softmax with loss实施运算,其式为:
(3)
式中,像素数量与类型数量分别通过S和A表示,一个像素是否属于注意力区间即类型数量,通过xj,i表示,当第j个像素为第i类时,此值是1,反之则是0,第j个像素为第i类的置信度通过qj,i表示,其可通过注意力预估模型获取。
2 仿真实验的结果与分析
为检验本文系统设计的合理性与系统的性能,现以MATLAB对本文系统实施仿真,同时以舞蹈类(A)、服装类(B)、食品类(C)、化妆品类(D)、建筑类(E)和饰品类(F)同一电视频道的6类不同视频广告为实验对象,通过镜头分割结果、空域注意力预估结果、准确率和实时性4项指标,验证本文系统的分类性能。
2.1 镜头分割结果
采用本文系统对实验电视频道的6个不同视频广告实施分类,得到的分类结果如图5所示。
(a) 舞蹈类
(d) 化妆品类
通过图5可得出,本文系统通过图4的镜头分割过程,能够准确将6类不同的视频广告分类,能够满足实验要求,实现视频广告的准确分类,可用于实际不同领域产品的视频广告分类中。
2.2 空域注意力预估结果
基于上述镜头分割结果,采用设计的空域注意力预估模型对视频广告分类效果进行预估和评价,设计空域注意力预估模型的目的在于尽可能有效过滤掉眼睛所获取的大量无用的视觉信息,提高视觉识别能力,也在另一个层面上证明分类结果的有效性。分别对比本文系统、基于SVM的分类系统与基于神经网络的分类系统在12个小时内同一电视频道的随机数量视频广告的空域注意力预估实验,对比3个不同系统的预估效果。对比结果如表1所示。
表1 各系统的预估效果对比
2.3 准确率
为了更清晰地对比各系统的分类效果,测试各系统的准确率,得到准确率结果如图6所示。由图6可知,本文系统的准确率高于其他2种系统,且误判率较其他2种系统有很大程度的降低。
图6 准确率对比
2.4 实时性
在上述实验的基础上,为进一步验证本文系统分类的应用前景,对比本文系统、基于SVM的分类系统与基于神经网络的分类系统3种系统,测试在6个小时内同一电视频道的随机数量视频广告中准确分类出舞蹈类的时间,得到时间对比结果如图7所示。
图7 各系统的实时性对比结果
结合图6、图7可知,在保证分类准确率的基础上,本文系统的分类时长明显低于其他2种系统。由此可见,本文系统的分类效果非常优越,分类结果精准度高,系统性能较好。
3 总结
本文设计一种新媒体背景下的视频广告分类系统,针对当下新媒体背景下产生的海量视频广告实施合理有效的分类,提升用户体验与搜索效率,为实现有效分类,采用了空域注意力预估模型与多支流网络相结合的方式,提升视频中相关区间的显著性,并有效降低无关区间的干扰性,达到准确的视频广告分类目的。仿真实验分析得出本文系统的分类效果显著,精度高且性能较好,具有很高的实际应用价值。在以后的研究中会继续应用本文系统对其他视频实施分类分析,扩大本文系统的应用前景。