大数据时代的视频检索
2015-09-29芦伟
芦伟
现在已经进入到大数据时代,每天产生的信息量已经无法用G和T来描述,而是以P(1千T),E(1百万T)或Z(10亿T)作为计量单位。如今两天就能创造出自文明诞生以来到2003年所产生的数据总量,预计到2020年各种数据量还将会比现在还要增加50倍。
我们常用的百度,其首页导航每天要从超过1.5PB的庞大数据中进行挖掘,这些数据如果打印出来将超过5千亿张A4纸,摞起来会超过4万公里高,接近地球同步卫星轨道长度,平铺可以铺满海南岛。在如此庞大的数据中,占据比例最大的是视频图像数据。
2012年的统计结果显示,视频和图像数据已经占到整个大数据的80%,而且随着视频高清化、超高清化的发展,这个比例还在不断增大。数据量的急剧增加,给人们工作生活带来了很多好处,同时也给数据处理带来很大的麻烦,面对超乎人们想象的海量视频数据如何进行快速检索,找到有用的信息,成为近年来国内外很多机构公司研究的重点。
视频检索的必要性
在专业视听方面,视频数据最多的地方,那应该是监控了。为了保障人民生活安全,改善社会治安和交通状况,国家和各级政府投入巨资进行了“天网工程”、“平安城市”的建设,成千上万路监控摄像头遍布大街小巷,昼夜不停地监视和录像,以备需要时能够随时调取采用。不过如此多的数据,在发生情况时,却发现要找到真正有价值的那部分视频是一件很困难的事情。
如2012年江苏南京市曾发生一起持枪抢劫案,一个男子光天化日下持枪抢劫银行取款人,击中取款人头部并抢钱之后逃窜。案发后,南京警方通过调取持枪劫匪作案后逃离现场的视频资料,最终将劫匪捉拿归案。不过事后得知,这部分视频的获取是相当不易的,是500多个民警经过24小时对上万小时的视频图像逐一进行甄别取得的。
另一个真实案例是,前不久广州一骑电动车女子被一辆违章货车刮倒致死,经过长达20多天对事故地点附近学校、商场、网吧等单位的数千个小时的监控录像进行分析,并调取附近街175万多张监控照片比对后,警方才锁定了肇事车辆。由此可以看出,传统视频检索模式工作量极大、获取到有效信息耗时很长,往往为了一分钟甚至几十秒的有效视频需要审看几十个甚至上百个摄像头、前后数天的视频。为了不漏掉重要信息,需要将视频从头到尾顺序播放。由于人眼长时间观看视频录像会产生视觉疲劳,因此一段视频往往需要花费更多的时间进行重复审看,大大增加了工作量。此外为了降低遗漏和误差,还不得不加大人力,采用人海战术,综合投入成本高但成效却一般。因此市场急需高效视频检索技术来提高工作效率。
当传统思维遇到大数据
虽然已经进入大数据时代,但现在相当多的地方视频监控检索仍没有充分考虑海量数据带来的影响,还在从传统思维入手改良。如根据日期、时间、时段查询的时间检索法,这种方式对于时间、地点明确的事件查询还是可行的,但往往很多事件各种因素不太确定或涉及多地不同时段,那检索起来的难度和工作量可想而知,因此这种太过粗略和简单的检索法正在被逐渐淘汰。
后来又出现了视频标注法,通过人工的方式将某一段视频进行主观的属性标注,然后以文本的方法进行检索。这种方式比时间检索发又进了一步,但依然不能完全满足对视频数据检索的需要。原因是首先依靠人工手动完成添加注释工作量很大,而且效率很低:其次,某些视频和感知特征很难用文字来描述,而且特定的标签只适合特定的查询:再次,文字标签是靠观察者加上去的,因此受主观因素的影响,不同的观察者可能有不同的描述,必然导致不同的标注结果。
此外在传统思维的基础上,后来还引申出其他检索方法,但均不同程度存在工作量太大、时间太长、检索效果不好的弊端。面对大数据,传统思维陷入了瓶颈,框在其中不能自拔。事实上,当今的大数据视频检索已不再是一个简单的系统,它涉及多项学科,使用到了视频分割、自动数字化、语音识别、镜头检测、关键帧抽取、内容自动关联、视频结构化等各种技术,并融合了图像处理、模式识别、计算机视觉、数据库管理等领域的知识。因此只有主动跳出来,占在更高更广的角度来考虑,从对海量视频数据进行结构化分析的思维出发,有效地提取视频内容的特征,在此基础上才能实现更高效视频数据的检索。
分析与检索
大数据时代的视频检索是建立在视频分析基础之上的,如果没有智能视频分析技术为依托,高效的视频检索是不可能实现的。智能视频分析源自计算机视觉技术,它能够在图像及图像内容描述之间建立映射关系,从而使计算机能够通过数字图像处理和分析来有限理解视频画面中的内容。在大数据时代,人们对智能视频分析技术越来越看重。智能视频分析依赖于视频算法对视频内容进行分析,通过提取视频中关键信息,进行标记或者相关处理,并形成相应事件和告警的监控方式,人们可以通过各种属性描述进行快速检索。
智能视频分析的核心是算法。视频不同于文字、图片、语音等,它是一种更接近于现实的、动态的呈现方式,在不同环境中即使拥有相同场景,其算法也有很大差别,因此开发这类算法需要在经验和实践中不断地总结,进行大量的背景建模,同时开发的算法还需要有一定的自动适应能力。如此在各种不同场景、不同环境下的视频才能够被读懂并精准分析出来,而这也正是显示不同厂商技术水平高低的地方。
当前常用的视频分析算法有目标检测、目标跟踪、目标识别、行为分析、数据融合等。其中目标检测智能化分析的基础,它是按一定时间间隔从视频图像中抽取像素,采用软件技术来分析数字化的像素,将运动物体从视频序列中分离出来,常用的算法有背景减除法、时间差分法和光流法;目标识别是利用物体颜色、速度、形状、尺寸等信息进行判别,区分人、交通工具和其他对象,我们熟悉的车牌识别和人脸识别就是属于此类。
车牌照识别是目前应用最广泛和技术最成熟的,而人脸识别应用潜力巨大,但目前还存在不少困难。它的难点在于比较复杂,首先要在动态的场景与复杂的背景中判断是否存在面像,并分离出这种面像,之后对人脸特征进行提取,并与面像库中的特征进行比对,找出最佳的匹配对象,然后对被检测到的面貌进行动态目标跟踪。此中涉及的数据量相当大,可选择的算法具有多样性,很容易由于算法的局限、特征提取的不准确、过多或太少造成误报、不报。行为分析是指在目标检测、跟踪和识别的基础上,对其行为进行更高层次的语义分析,可以进行更为复杂的分析,但难度相应也更高。
如今视频分析技术已经衍生出许多不同的运用模式,主要体现在两个方向。其一是以车牌识别、人脸识别为核心代表的智能识别技术,主要应用于电子警察、机杨、海关。另一个是以周界防范、人数统计、自动追踪、逆行、禁停等规则为代表的行为分析技术,主要应用于围墙周界警戒区、商场、交通、景点流量统计,道路禁停禁放、违章逆行、场景跟踪等方面。
在市场上,受欢迎的视频分析产品一般既可以在发现异常情况或者突发事件能及时的发出警报,也可以方便地进行事后检索。这种检索当然不是传统的以时间、日期为条件的视频搜索,而是一种智能检索,能够通过设定的特征条件进行快速的视频搜索,比如以特定场景、嫌疑人、车或物体的出现,或以颜色、形状等为搜索条件,进行特定视频条件的智能搜索,如此再结合其他智能视频功能,可以使大量的无序信息在短时间内形成有价值的证据链。
另外随着视频清晰度提高、检索数量的增多,整体视频数据量仍显得太大,检索起来很耗时间,于是人们又研发出了视频摘要来实现快速检索视频的方式。视频摘要,又叫视频浓缩摘要、视频压缩或者视频浓缩。它是指从原视频中提取有意义的部分,和背景视频合成剪辑而成的较短视频片断,此可以将一天的视频被压缩成一个简短到几十分钟的事件摘要视频,其中包含了原视频中所有重要的目标活动详情和快照。视频浓缩摘要可以采用原始视频分辨率,也可以根据存储要求降低分辨率。管理人员通过点击浓缩视频中的目标或者视频左侧快照,播放目标出现前后的原始视频。如果希望更加快捷检索,还可以采用分割前景和背景,提取活动目标,用快照列表这种更加直观便捷的方式展示。视频摘要大大方便了的视频查找和存储,相对于原始的视频资料,视频摘要的长度要短很多,极大地节省了查找时间,降低了检索成本。
拥抱大数据未来更可待
与以往相比,近几年视频检索技术得到了快速发展,准确率及效率有了大幅度的提高,虽然应用还不够普遍,仍有不少不足的地方,但市场的快速增长说明客户对此的接受和满意程度在不断提升。未来视频检索必然会与大数据、云计算、物联网等实现更紧密的结合,从海量的监控数据中,作出更深度的分析和挖掘,拓展出更广泛的应用。