场景理解在实时监视中的应用研究
2016-01-15李梦萦宋海玉王泽宇
李梦萦 宋海玉 王泽宇
摘要:随着成像技术和存储技术的发展,电子图像数据呈现爆炸式增长。为了方便快捷地利用这些图像资源,自动图像标注技术应运而生。场景理解的核心任务是通过根据给定一组固定的场景词汇来对场景图像数据集进行自动标注,是计算机视觉的主要研究方向之一。
关键词:场景理解;图像标注;主题模型;实时监视;成像技术;存储技术 文献标识码:A
中图分类号:TP391 文章编号:1009-2374(2016)02-0045-02 DOI:10.13535/j.cnki.11-4406/n.2016.02.022
1 概述
近年来,中国的大多数城市都安装了城市摄像头,但这些摄像头只能记录信息,由于人力资源的限制,大部分视频都只有在取证时发挥作用,没能物尽其用。视频的本质就是图像的序列。视频信息的监视实质上就是图片内容的监视。本项目通过计算机对图像进行分析与解析,得到可以准确描述和解释相应事件、场景的词汇,进而对图像进行标注,即事件识别。
视频相当于人的眼睛捕捉到的画面,而事件识别是在模拟人类大脑的图像分析。图像理解、事件理解、场景理解是图像分析的三部曲,图像标注是基础,事件理解是目的,场景理解是关键。图像标注是针对“who”,即有谁;场景理解是针对“where”,即环境;对象理解则是“what”,即干什么。也就是说对象标注是具体的、直观的视觉信息,比如对象的纹理特征,但场景理解和事件理解是抽象的。所以用底层视觉特征来表示图像特征的时候很难完成场景理解和事件理解,因此我们引入了基于主题特征的场景理解系统。
2 基于主题特征的场景理解系统
本文借鉴了在文本检索领域中非常成熟的Bag of Words(BOW)思想,在文本检索中一篇文章会被描述成很多语义词汇的集合,只考虑词汇的出现次数,而不考虑出现位置,这样的一篇文本文章就好比是一个装满了单词的袋子,所以顾名思义为BOW。主题模型已经被应用于文本检索多年,而且大大提高了文本检索的准确性。近几年越来越多的计算机视觉研究者将主题模型引入图像标注检索技术中。一般都是将每幅图像看作一个文档,图像中对象对应的词就是文档词汇,这样就自然而然地将文本主题模型应用到图像上。主题特征标注模型的最大特征就是借助了主题词汇这个中间键,缩短了高层语义与底层图像特征之间存在的语义鸿沟,如图1所示:
很多研究者已经将文本PLSA主题模型成功应用到了图像的标注检索系统中,本文综合前人的模型结构,对各种图像主题模型进行了实验分析,最终得到了一个较为理想的基于PLSA主题特征的场景理解系统。模型系统主要分为两个过程,即训练模型过程和测试标注图像过程,主题模型的核心任务是找到图像中隐藏的主题词汇,并且通过主题词汇这个桥梁找到待标注图像中的主题词汇概率分布,最后通过语义词汇在主题中的概率分布计算出测试图像语义词汇的概率分布。我们发现这与人类认知图像的过程非常相似,当我们看到一幅图像时,可能先会确定这个图像是哪种主题的图像,比如山水画,确定了山水画之后我们接着会开始联想山水中一般会含有什么对象景物,再结合图像本身,人类便很容易理解一幅图像。我们的训练过程其实就是人类的学习过程,目的在于让计算机学会图像中都有什么样的主题特征,并且让计算机记住每种主题包含的词汇分布。
基于PLSA主题模型的图像标注系统的整体结构是将图像集分为训练集图像(被手工标注的图像)和测试图像(待系统标注图像)。将训练图像通过Bag of Wrd处理得到训练图像的视觉词汇BOW特征,这样训练图像集就成了两种词汇的集合,即语义词汇和视觉词汇。接着对图像集进行两次LDA建模:第一次得到P(w|z)和P(z|d)两个关于主题词汇的概率分布;第二次针对视觉词汇建模,结合上次得到的P(z|d)可以得到P(v|z)——视觉词汇在主题词汇中的分布规律。测试图像只有视觉词汇BOW特征,结合训练得到的P(v|z)可以计算出P(z|d)——测试图像中隐藏的主题词汇,最后可以由P(z|d)和P(w|z)计算出测试图像的P(w|d),即我们的标注结果,语义词汇的概率分布。
3 实验及结论
实验数据采用事件识别领域参考文献[2]提供的训练数据集和测试数据集,本文所采用算法所完成的效果见图2所示,取得了预期效果。
为了更加准确、客观地评价本文所采用的算法,我们在计算机视觉、图像标注于分类领域影响非常大的Corel5k数据集上完成了模型训练与测试,并与影响较大的同类算法比较性能,性能比较如表1所示。其中CMRM是图像标注领域影响最大的算法,SML是被PAMI等国际顶级期刊认为最优的标注算法,PLSA_MIXED、PLSA_WORDS是主题模型用于计算机视觉领域的成果模型。
国内外已经有越来越多的研究人员将主题模型应用在图像标注检索领域,并且都取得了一定的研究成果,本文结合前人工作,将PLSA主题模型结果应用在场景理解中,并以此为核心模块完成了场景理解算法和事件识别应用,实践结果表明主题模型可以应用于场景理解和事件识别中。
参考文献
[1]俞伟峰.基于BoW-SIFT模型和层次网络特征的三维检索系统[D].北京理工大学,2001.
[2]Li-Jia Li,Li Fei-Fei.What,where and who?Classifying events by scene and object recognition.CVPR,2009.
[3]J.Jeon,V.Lavrenko and R.Manmatha..Automatic Image Annotation and Retrieval using CrossMedia Relevance Models[A].In Proceedings of ACM SIGIR Confence Research and Development in Information Retrieval[C].2003.
[4]Gustavo Carneiro,Antoni B.Chan,Pedro J.Moreno,and Nuno Vasconcelos.Supervised Learning of Semantic Classes for Image Annotation and Retrieval
[J].IEEE Transactions On Pattern Analysis and Machine Intelligence,2007,29(3).
[5]Jonathon S.Hare,Sina Samangooei,Paul H.Lewis,Mark S.Nixon.Semantic Spaces Revisited Investigating the Performance of Auto-Annotation and Semantic Retrieval using Semantic Spaces[A].Proceedings of the 2008 international conference on Content-based image and video retrieval[C].2008.
(責任编辑:陈 洁)