APP下载

基于图稀疏GroupLasso算法的农业科教视频多语义标注方法

2018-10-31孙佳明吴李康邓兆利段驰飞蔡骋

数字技术与应用 2018年6期

孙佳明 吴李康 邓兆利 段驰飞 蔡骋

摘要:针对农业领域的视频标签,多以人工方式标注不利于大量视频准确快速标注、检索的问题,提出了一种基于图稀疏Group Lasso模型的农业科教视频多语义标注方法:通过添加待测镜头与视频组间组内的稀疏约束,得到待测镜头在视频集内的稀疏编码,结合视频集内人工标注的标签,进行多语义的标注。农业科教视频多语义标注的试验表明,该方法能够实现语义的快速标注,并使得农业视频多语义标注的F综合指标达到64%。农业视频多语义标注效果,不仅可满足用户个性化的信息需求,同时也为农业知识视频检索等相关领域,提供了参考方案。

关键词:农业科教视频;镜头检测;多语义标注;稀疏编码

中图分类号:TP391.41 文献标识码:A 文章编号:1007-9416(2018)06-0133-03

近年来,农业科教视频的大量涌现,为农业技术的推广提供了坚实的基础。随着手机、电脑、因特网等传播媒体的普及,农户可以很容易地接触到农业科教視频,从而进行农业知识的获取。但由于农业视频大多是整体录制,而农户可能只需要对其中一部分的内容进行了解,很难满足用户个性化的检索需求。研究农业科教视频语义标注的方法,在海量的视频中给农业科教视频镜头自动、准确的打上语义标签,为农户能够快速检索到需求的农业镜头片段及农业视频数据库索引的建立,都有着重要的意义。

常用的视频语义标注方法大致可分为三类:基于手工标注的方法,基于规则的标注方法以及基于机器学习的方法[1]。其中基于机器学习的语义标注方法研究已经较为成熟。本文以农业科教视频为例,使用了机器学习中的图稀疏Group Lasso(Graph Sparse Group Lasso,GSGL)模型对待测镜头进行稀疏编码重建[2],根据得到的权重系数,结合视频集原有的标签,进行镜头标签的扩散,以达到视频语义标注的目的。

1 基于图稀疏Group Lasso的视频多语义标注方法

本文使用了基于图稀疏的Group Lasso(GSGL)模型对农业科教视频进行多语义标注。首先对视频库进行镜头分割和关键帧提取,并人工打上标签,然后使用GSGL模型对需要标注的镜头进行重构,最后根据较大权重系数对应的视频标签进行语义标注。

1.1 数据准备

本文首先对视频进行镜头分割,对每一个镜头运用K-Means算法聚类出关键帧。农业科教视频关键帧中的内容多数以农作物或林木为主,含有较为丰富的纹理信息,为了较为准确的表示这些信息,本文使用LBP(Local Binary Pattern)特征向量来表示关键帧[3-5]。对农业视频库中的关键帧进行手工标注,作为语义扩散的来源。接下来使用GSGL算法求得需要标注的视频关键帧与已标注视频库的联系。

1.2 图稀疏Group Lasso模型

GSGL是一种较为理想的语义标注算法,该算法通过求解关键帧之间的稀疏编码来判断它们相关性的强弱。相比较于传统的 Sparse Group Lasso(SGL)模型,GSGL增加了视频集自身的局部结构约束[6-7],该约束使待测镜头能够被视频集中与其有类似局部结构的镜头近似表示,从而更好地利用数据集的先验信息。给定包含G个视频的视频集V=(V1,…,VG),对第g个视频Vg的ng个镜头分别提取m维特征向量得到Vg=(vg1,…,vgni),Vg∈Rm×ng,g=1,…,G。

公式(1)中,N= ng表示视频集V中镜头的总数目。公式的前三个部分为三个约束项,第一个正则化项约束了所有的视频关键帧重构待测镜头时的误差,第二个正则化项实现了组内的稀疏,第三个正则化项实现了组间的稀疏,这三个部分即传统的SGL模型公式。

在流形学的理论中[6-7],保留视频集的自身局部结构是对实验结果影响很大的因素之一,也就是说需要让待测镜头能够被视频集中其他相似的镜头或视频近似代替。GSGL模型的设计考虑了这一因素,因而能得到更好的实验效果。

1.3 语义标注

其表示测试镜头与视频集中镜头的相关性。第i组视频对于镜头语义标注的重要性用si来评估,若si=0,即第i组视频对测试镜头语义标记的权值为0,若si≠0,则si向量中不为0的值即为第i组视频中某一镜头对测试镜头语义标记的权值。由于每个测试镜头根据权重得到了若干个标签,因此需要对每个测试镜头的标签根据该标签的累计权重系数来进行从大到小排序,取前k个(k=2,3,5)标签标记该测试镜头[8]。

2 结果与分析

2.1 实验数据

本文使用的农业视频数据来自于陕西省宝鸡市电视台《农事直通车》栏目,共19个视频。这些视频具有一定的权威性且较好的涵盖了农业科教视频内容的各个方面,经过镜头检测并提取关键帧后产生19组共1534帧图像,该数据集存在组间联系和组内联系。

其中,t表示测试镜头的个数,Nci表示第i个测试镜头通过语义标注被标记上的正确标签,Npi表示第i个测试镜头在当前k值情况下检测到的人工标注的正确标签,Nli表示第i个测试镜头被人工标记上的正确标签。

2.2 实验结果分析

将视频集按1:4的比例随机分为测试镜头和训练镜头,实验前对训练集和测试集进行人工语义标记,便于对实验结果进行评估。

3种方法所得的实验结果如表1所示,所得的部分镜头标记如图1所示。

由表1可以看出平均标全率AR和平均查准率AP呈反比关系,当k的取值较小时,由于选择权值系数较大的标签促使平均查准率AP较高,同时因为选择的标签较少导致平均标全率AR较低。随着k逐渐增大,被选择的标签数量逐渐增多,标签的平均标全率AR随之提高,但其平均查准率AP也随之不断下降。同时,通过横向比较能看出GSGL模型对语义的标注效果要明显高于GL模型和SGL模型,表明GSGL算法在处理农业科教视频语义标注方面上要优于SGL算法和GL算法,证明了GSGL算法在提高农业科教视频语义标注的标全率和查准率上是有益的。权衡平均标全率AP和平均查准率AR的F综合指标,在一定程度上可以体现镜头标注峰值,在k=2时GSGL算法的F综合指标达到了0.64,达到了最优的视频镜头标注效果。

3 結语

本文针对于农业科教视频多语义标注问题,提出了一种基于GSGL算法的农业视频语义标注模型。该模型在Lasso的基础上增加了农业视频的组间稀疏约束和组内稀疏约束,并保留了视频集自身的结构关联性,能够较好的将训练集的标签标注到测试镜头上。实验结果表明,该方法的F综合指标峰值能够达到0.64,且整体上比本文验证的其他算法优秀。在F综合指标达到峰值的时候,语义标注的平均标全率和平均查准率为0.64,相对于其他方法有了较大进步,可以应用于农业科教视频的标注和信息检索等领域,但是也能看到其提升空间依旧很大,需要在以后的工作中进一步的探索来提出改进的地方。

参考文献

[1]王敏,王斌,沈钧戈,等.教学视频的文本语义镜头分割和标注[J].数据采集与处理,2016,140(06):1171-1177.

[2]Olshausen B A, Field D J. Emergence of simple-cell receptive field properties by learning a sparse code for natural images [J].Nature, 1996, 381(6583):607-609.

[3]Boccignone G, Chianese A, Moscato V, et al. Foveated shot detection for video segmentation[J]. Circuits & Systems for Video Technology IEEE Transactions on, 2005, 15(3):365-377.

[4]肖霄.图像LBP特征提取的研究与应用[D].吉林大学,2011.

[5]戴金波.基于视觉信息的图像特征提取算法研究[D].吉林大学,2013.

[6]Belkin M, Niyogi P, Sindhwani V. Manifold Regularization: A Geometric Framework for Learning from Labeled and Unlabeled Examples[M]. JMLR.org, 2006.

[7]Yang Y, Zhuang Y T, Wu F, et al. Harmonizing Hierarchical Manifolds for Multimedia Document Semantics Understanding and Cross-Media Retrieval[J]. IEEE Transactions on Multimedia, 2008, 10(3):437-446.

[8]王煜,周立柱,邢春晓.视频语义模型及评价准则[J].计算机学报,2007,30(3):337-351.

Abstract:In agriculture education video analysis research area, manually semantic annotation requires tremendous human power. In order to provide an efficient and effective solution for semantic agriculture education video indexing and fast retrieval, in this paper, we propose a new video semantic video annotation scheme using graph sparse group lasso. With inter-group and intra-frame sparse constraints between the testing video shot and the annotated video group, a set of sparse reconstruction coefficients are estimated by solving a lasso optimization problem. And then multiple-semantic tags are annotated with the same coefficient. The experiment results on agriculture education video show that our proposed algorithm can achieve F-Measure to 64%. This new agriculture education video annotation algorithm can provide semantic information for retrieval.

Key words:semantic annotation;video analysis;sparse representation;graph representation;group lasso