基于语义的视频检索综述

2017-09-07洪涛

数字技术与应用 2017年5期

洪涛

摘要：国内IPTV业务发展迅速，运营商掌握了巨量的视频数据，对视频数据的高效分析、利用，可以提高用户体验，为广大用户以及社会各界提供更优质服务。基于语义的视频检索技术，可以使视频数据结构化，实现高层语义与低层视觉特征映射，应用前景广阔，或将成为运营商高效管理视频数据的必要手段。

关键词：智能管道；高层语义；视频检索；特征提取；深度学习；大数据

中图分类号：TN914 文献标识码：A 文章编号：1007-9416（2017）05-0113-04

A Survey of Semantic-based Video Retrieval

Hong Tao

（Fuzhou Rockchip Electronics Co.， Ltd， Fuzhou China，Fuzhou Fujian 350003）

Abstract：Operators own a huge amount of video data because of the rapid development of IPTV. By analyzing and utilizing the video data efficiently， operators can provide high-quality service for the majority of users and the community with better user experience. The semantic-based video retrieval technology can structure video content data efficiently， implement the high-level semantics and low-level vision features mapping. It has prospect applications and may become a necessary means of video data to the management of operators.

Key Words：intelligence pipeline；High-level Semantics；Video Retrieval；Feature Extraction；Deep Learning；Big Data

1 概述

工信部官網发布的统计公报显示，我国IPTV全网用户已达8673万户[1]。运营商在进行管网升级改造的同时，也在积极的拓展大视频服务，基于视频的增值服务业务逐步获得终端客户的青睐。但前行之路仍有挑战，海量的多媒体资源如何更高效，更经济的存储、检索，如何提升用户体验，如何发展行业视频应用，如何完成管道智能化转型，都亟待运营商去解锁。

基于语义的视频检索融合了图像处理、计算机视觉、图像理解等技术，根据视频内容的上下文关系，引入新的媒体数据表示和数据模型描述非结构化的视频内容，建立低层视觉特征与高层语义的映射，从而填补低层视觉特征与高层语义之间的“鸿沟”[2]，具备高效分类，系统结构可靠以及人机界面友好等技术特点[3]。基于语义的视频检索系统，可以接受自然语言指令，提供更精确的检索结果，运用该项技术可以帮助运营商加速管道智能化转型，快速提升用户体验。

2 基于语义的视频检索技术应用

基于语义的视频检索技术具有广阔的应用前景，列举若干领域的应用。

2.1 智能化搜索应用

目前的搜索引擎多是反馈通过标签匹配到的结果，人工标注后的视频信息，才有可能匹配。用户体验差，对用户的操作水平要求也较高，不适合老人、儿童使用。基于语义的视频检索系统，人们可以使用自然语言发出检索命令，通过视频的语义信息检索具有相同语义的视频，检索视频结果更接近用户期望，人机互动更人性化，搜索动作更简便，提升用户体验。例如用户语音发出指令，搜索“葡萄酒”，基于语义的检索系统不但可以为用户搜索到以“葡萄酒”命名的视频，还能搜索到电影中人们饮用“葡萄酒”的视频片段，甚至可以根据“葡萄”种类对检索结果进行分类。

2.2 智慧化城市应用

智慧化城市作为一个生态系统，感知是重要的部分[4]，以视频监控为基础搭建的感知物联网是数据收集的重要节点，而如何对海量的监控数据进行存储、检索、分析成为当前技术研究的热点。基于语义的视频检索技术，可以从海量视频信息中，获取人、车、物的非结构化信息，通过对信息的特征提取，自动化标注，实现对特定对象的快速、准确的检索、跟踪，结合百万物联网传感器数据，真正的实现“万物皆互联”[5]。在城市的治安、交通、医疗、教育等众多领域发挥重要作用。

2.3 广告智能投送应用

基于视频的广告投放存在两个问题：一个在影视作品拍摄过程中，广告需要前期投入，而影视作品是否能够成功不得而知，投资有很大风险；另外，投放的广告一般在视频正片的开头结尾加，或者在视频播放过程中打断视频正片强制加广告。终端用户整体抱怨广告多，广告投放收益很低，甚至起到反作用。爱奇艺公司使用基于语义的视频检索系统实现了广告智能投放，如图1所示。广告商可以根据影视作品的受欢迎程度以及作品的受众，精准的把握消费者定位，实时地选择合适的影视作品进行广告投放。视频检索系统，将视频场景中物品与广告商品进行匹配，相似度高的物品，可以替换成产品或者打上品牌商标，广告与视频场景完全融合，不影响用户的观影体验。同时，如果用户希望搜索相关产品时，只要将交互焦点移动到物体上，检索系统迅速提供购买链接[6]。既降低了广告投放成本，又方便了终端用户选择，提高了用户体验。

2.4 体育教学智能应用

体育视频分析对于运动员训练是非常重要的，传统的体育教学过程中，需要以人工标注的方式，对视频中的场景特征、场地特征、人物特征、特定动作、姿态分析等进行整理，相关数据的存储、检索存在较大困难，数据的分析也因教练员、运动员理解水平层次不齐。使用基于内容的视频检索系统，可以对训练录像进行镜头分割、特征提取，特征聚类计算，视频叠加对比，从而实现场景分类、人物分类、精彩提取、特定动作智能化标注，并形成特征数据库，对变化的特征数据进行自动跟踪和计算，大大节省了人力资源，提高了学习效率。如图2所示，RockChip与某体育卫视合作，以深度学习技术为基础，提取场地、球员底层视觉特征以及镜头运动特征信息，并结合篮球常规战术，实现录像视频自动标注篮球战术功能，节省了球员的学习成本，提高了效率。endprint

2.5 智能化农业信息管理

现代化农业的目标就是尽一切降低生产成本，提高经济效益[7]。视频检索技术也广泛应用在现代化农业耕作各个环节。例如：深圳大疆创新科技有限公司基于ROCKCHIP-RK3288 开发了无人机精准喷洒解决方案，如图3所示。无人机携带彩色成像仪以及GPS、风向、温度、湿度等众多传感器，对水稻田进行视频扫描。多媒体处理单元对视频进行镜头分割、目标背景分离、特征提取（颜色、纹理、株高、叶片形状），并融合各个传感器数据，通过4G网络上传至云端分析系统分析系统针对视频特征对稗草、莎草、雨久花、水稻病株等常见杂草进行识别归类，结合GPS信息进行面积计算，绘制出杂草分布图和无人机根据分布图，并针对杂草分布面积、杂草种类进行精确的农药喷洒，可以有效降低农药使用量和减少生态环境污染。

3 视频搜索关键技术简述

3.1 视频检索系统的基本原理

非结构化视频数据按语义概念可以抽象表示成 4 层，自上而下分别是视频层、场景层、镜头以及关键帧[8]，如图4所示。场景是相邻的连续镜头序列，是语义分析的最小单位。场景中的镜头在语义、时间上是相关联的，比如人们可以理解的高层语义“灌篮”，“飞机降落”等；镜头由连续视频帧组成，视频帧之间在时间、空间上很强的相关性；关键帧是能够反映一个镜头主要内容的视频帧。

基于语义的视频检索，即对视频关键内容进行特征提取，并结构化描述的过程。图5所示，描述了特征提取的主要过程。首先利用镜头自动检测技术将视频分割成各个镜头，并在镜头中提取最具内容代表性的关键帧。特征提取则是在关键帧中提取视觉特征和镜头的运动特征。视觉特征主要包括颜色、纹理、形状等低层视觉特征。运动特性主要包括镜头的运动变化、观察目标的大小变化，观察目标运动轨迹等动态特征。特征的结构化描述是对特征进行聚类、标注、排序以实现低层特征与高层语义的映射[9]。最终，用户可以通过更自然的方式检索视频。检索系统的整体模块图如图6所示。下面将就其一些关键技术进行分析介绍。

3.2 镜头分割

镜头分割是在连续镜头中找到相邻两个镜头边界的过程。镜头边界分类主要有突变和渐变两种方式。镜头分割技术经过十几年的发展，检测方法较为成熟。因为目前视频多为压缩的，所以常用的方法多是以压缩域视频DCT系数检测为基础，通过比较相邻视频帧的DC系数，并采用优化预测模型判断镜头边界[10]，该类方法具有检测计算量少、识别率高特点，适用于嵌入式平台。

3.3 关键帧提取

关键帧提取依据镜头内容的复杂程度选择一个或多个关键帧代表镜头。关键帧提取方法也较成熟。常用的方法有：把镜头的首尾帧选作关键帧的方法[11]；利用帧的直方图进行比较，选择变化最大的或者选择最接近直方图均值的方法[12]；通过图像关键对象进行提取的方法[13]等。

3.4 视频特征提取

特征提取可分为提取关键帧视觉特征和提取镜头的运动特征。关键帧视觉特征，主要包括颜色、纹理、形状等较底层的视觉特征。在视频的底层视觉特征中颜色是最稳定、最显著的特征，颜色特征定义明确，分析算法较多，抽取最容易，应用广泛。常用的颜色特征有颜色直方图、颜色矩、颜色集等。

运动特征是视频数据有别于其他媒体数据的重要特征。早期采用块匹配的方式提取运动矢量[14]，随后采用光流法做运动估计[15]，后续主流的特征提取方法是由法国国家信息与自动化研究所提出的密集轨迹方法[16-17]。最近幾年利用深度学习技术提取运动特征成为研究的主流方向，当前的难点是视频中长段运动信息识别不足的问题。

3.5 基于语义特征的匹配

常用的语义特征有：描述颜色、纹理、结构、形状、运动等感知信息的底层视觉特征语义；描述视频中人物、动物、物体等信息的对象语义；描述视频中具体事物间空间关系的空间关系语义；描述人物情感变化的情感语义；描述事物周边环境的场景语义；描述具体对象行为表现的行为语义等。目前，主流的匹配方法是基于机器学习的方法提取底层特征，并完成底层特征与语义的映射。应用于图像语义映射的技术已有很多，主要包括：贝叶斯、卷积神经网络、遗传算法、聚类、支持向量机等[18]。

4 结语

运营商发展大数据业务具有天然优势，电信领域中数以亿计的用户基数保证了数据的海量和多元性；基础网络的不断扩容，视频业务及支付业务等快速发展，又保证了数据的持续性以及增长速度。随着多媒体和网络技术的迅速发展，多媒体信息与日俱增，运营商对多媒体数据如何有效的分析，有效利用，更精确、高效的把握用户需求，必将成为主要的发展方向。基于语义的视频搜索，将视频非结构化的数据，转换成结构化特征信息，并对视频特征聚类、标注、排序，填补了视觉特征与自然语言间的“鸿沟”，有着广泛的应用前景，或将成为运营商实现管道智能化的必要技术手段，最终为广大用户以及社会各界提供高品质的服务。

参考文献

[1]中国产业调研网.中国IPTV市场调研与发展前景预测报告[R].中国产业调研网，2016.

[2]张治国，刘怀亮，马志辉等.基于高层语义的视频检索研究[J].计算机工程与应用，2007，43（18）：168-170.

[3]徐梅.基于内容的图像数据库检索技术分析[J].通讯世界，2016（6）：277-278.

[4]顾冬明.物联网、云计算构建智慧城市信息系统[J].信息系统工程，2016（11）：27.

[5]赵丽.多语义非线性农业咨询视频检索系统的研究和实现[D].西北农林科技大学，2015.

[6]王婷.大数据时代的精准网络广告投放——以爱奇艺“一搜百映”为例[J].现代视听，2014（2）：19-23.

[7]国务院.中华人民共和国国民经济和社会发展第十一个五年规划纲要第二篇简述社会主义新农村[Z].2006.endprint

[8]彭宇新，NgoChong-Wah，郭宗明等.基于内容的视频检索关键技术[J].计算机工程，2004，30（1）：14-16.

[9]吴飞，朱文武，于俊清.多媒体技术研究：2014——深度学习与媒体计算[J].中国图象图形学报，2015，20（11）：1423-1433.

[10]蔡骋，王萍，林健文，等.基于时域局部线性预测的视频镜头变换检测[J].西安交通大学学报，2006，40（10）：1060-1064.

[11]朱映映，周洞汝.一种从压缩视频流中提取关键帧的方法[J].计算机工程与应用，2003，39（18）：13-14.

[12]Zhang H J，Wu J， Zhong D，et al.An integrated system for content-based video retrieval and browsing[J].Pattern Recognition，1997，30（4）：643-658.

[13]Zhuang Y，Yong R，Huang T S，et al.Adaptive key frame extraction using unsupervised clustering[C].International Conference on Image Processing，1998.ICIP98.Proceedings.IEEE Xplore，1998：866-870vol.1.

[14]钟玉琢，等.MPEG-2运动图像压缩编码国际标准及MPEG的新标准[M]，北京：清华大学出版社，2002.

[15]Horn BKP and Schunck BG.Determining optical flow，Artificial Intelligence[J].1981，17，185-204.

[16]Wang H，Klaser A，Schmid C，et al.Action recognition by dense trajectories[C].IEEE Conference on Computer Vision and Pattern Recognition.IEEE Computer Society， 2011：3169-3176.

[17]Wang H，Schmid C.Action Recognition with Improved Trajectories[C].IEEE International Conference on Computer Vision. IEEE，2013：3551-3558.

[18]陳秀新.基于内容的视频检索技术浅析[J].信息技术与信息化，2011（2）：56-58.endprint

猜你喜欢

特征提取深度学习大数据

基于Daubechies(dbN)的飞行器音频特征提取

Walsh变换在滚动轴承早期故障特征提取中的应用

数字技术与应用

2017年5期

基于语义的视频检索综述

猜你喜欢

杂志排行

数字技术与应用的其它文章