基于颜色特征的电视图像检索
2012-06-25龙清
龙 清
(重庆广播电视集团(总台),重庆 401147)
目前,广电系统所建的媒资系统大多采用基于文本方式的检索,由于文本检索是精确检索,也是最原始的检索,只要文本不重复或发生错误,都能一一对应检索出来,这对于播出来说是非常必要的,但对于节目制作来说,这种检索就有些不太适应,因为媒资系统中所存资料的文本信息并不能完全准确地表示所存资料的全部内容,有些素材很可能存在于某些节目中,而这些节目在媒资库中的文本信息很可能与该素材的内容不一致,若再采用文本方式的检索就可能无法找到所需要的素材,再者,对于已播节目的监播查询,特别是广告和新闻节目的监播查询,基于文本方式的检索就更不能满足要求,这时就需要采用其他方式的检索。目前,可用于电视图像检索的方式很多,本文将介绍基于颜色特征的电视图像检索。
1 颜色特征及其提取
颜色特征是图像三大低层视觉特征之一。图像的颜色与图像中的景物密切相关。与其他视觉特征相比,颜色特征具有较强的稳定性和可靠性,是人眼最敏感、最易识别的特征之一。颜色特征的提取有颜色直方图、颜色集、颜色矩[1]和颜色聚合向量[2]等多种方法,其中最简单易行的方法是颜色直方图法。颜色直方图法首先要确定颜色空间,常用的颜色空间有RGB颜色空间和HSV色彩空间[3],这两种颜色空间可以相互转换。本文研究采用RGB颜色空间。在确定了颜色空间后,根据统计得到图像每种颜色分量的像素数以及各种颜色分量相对出现的数值,将颜色分量作为横坐标,相对出现的数值作为纵坐标,就得到颜色直方图。其函数表达式如下
式中:k表示图像颜色分量的取值;L表示图像颜色分量总的取值数;nk表示图像中颜色分量为k的颜色相对出现的数值;N表示图像总的像素个数。颜色直方图体现了该图像的基本色调,也反映了图像在一个方向上颜色元素的统计分布情况。不相交的颜色直方图满足叠加性,即全图直方图就是所有子区域的直方图之和。
2 检索原理
2.1 关键帧提取
关键帧的提取是电视图像检索中的几个关键技术之一,在电视图像检索中起到重要作用。电视图像是连续的,构成电视图像最基本的单位是帧,一帧画面就是一幅静止图像,一段连续的电视图像是由许多帧组成,即一段连续的电视画面是由许多幅静止图像按照一定的时间顺序串联组成。利用抽取关键帧的方法,可将连续动态的电视图像检索转化为静态的图像检索,将静态图像检索的方法用于动态的电视图像检索。关键帧的选取原则是关键帧尽可能完全准确地表达一个镜头的关键图像画面,反映一个镜头的主要内容,同时,为了便于储存和计算,应尽量减小关键帧的数据量。由于同一个镜头中的各帧图像之间的内容有相当程度的冗余,所以,关键帧的数量不宜多。
2.2 相似性匹配
图像检索中的匹配方式可分为完全匹配和相似性匹配两种。当两个被检测的图像样本的特征值完全相同时,图像匹配成功,称为完全匹配。当两个样本图像的特征值不相同,但其差值距离小于某一阈值时,图像匹配成功,称为相似性匹配。基于低层特征的图像检索大多采用相似性匹配检索。图像在提取其颜色特征后,采用颜色直方图来进行相似性匹配,匹配程度由特征向量空间中点与点之间的距离差值来确定。比较常用和简单的差值距离算法是直方图相交距离法。设s为样本示例例图,hs表示该样本图像直方图;p为图库中任一图像,hp表示该图像直方图,则两图像之间的匹配值Dsp(s,p)可借助直方图相交距来计算,其数学表达式为
理想的相似性匹配方法应该满足主观视觉的要求,即主观视觉看上去相似的图像在相似性匹配上应该具有较小的距离,在视觉上不相似的图像应该具有较大的距离,即Dsp(s,p)值越小,说明图像越相似。
2.3 检索原理
检索原理框图如图1所示。在媒资系统中,电视节目素材(视频)通过录入进入电视节目库,然后对电视节目库中的电视节目进行关键帧提取,建立关键帧数据库,再对数据库中的关键帧进行颜色特征提取,并将特征值存入颜色特征数据库。图片素材经过录入进入图片库,然后提取其颜色特征,并将特征值存入颜色特征数据库。在用户端,对于连续的样本电视片段,首先提取其关键帧,然后再提取关键帧的颜色特征值,并将特征值与媒资系统中颜色特征数据库中的数据进行相似性匹配,匹配结果送给媒资系统中的图片库和电视节目库,并将图片库和电视节目库中相应的图片和节目以及对应的文本信息返给用户端。对于静止的样本图像,其原理过程与连续的样本电视片段一样,只是用户不用提取关键帧,而是直接提取其颜色特征值后进行相似性匹配。
图1 检索原理框图
3 图像检索性能评价
图像检索性能评价的方法有很多,如查准率与查全率法、排序值评法、ANMRR法[4]等,但比较常用的还是查准率与查全率法。查准率与查全率是较为直观且具有通用性的检索性能客观评价指标。查全率是指一次检索后,返回用户的检索结果中有效结果的数目和数据库中存储的与该分类图像总数之比。查准率是在该次检索后,返回用户的检索结果中有效结果的数目同返回用户的图片数目之比。查准率的数学定义为
查全率的数学定义为
式中:a代表正确检索出的相关图像数目;b代表检索出的无关图像;c代表漏检的相关图像数目;A代表某分类所有相关图像的集合;B代表检索出的所有图像的集合。查准率体现检索结果的精确性,重点在精;而查全率体现检索结果覆盖的全面性,重点在广。查准率和查全率分别从精度和广度来衡量检索的结果,查准率和查全率越高说明检索系统效果越好,检索算法越有效。但查全率和查准率也是相互矛盾的,对同一类图片而言,要想提高查准率势必要在一定程度上降低查全率作为代价,反之,若要提高查全率就要以降低查准率作为代价。故在评价一个检索系统的检索效率时不能单纯地只看查准率或者查全率,必须综合考虑2个指标,找到一个可以接受的平衡点。
4 Matlab仿真实验
通过关键帧的提取,可将连续动态的电视图像检索转化为静态的图像检索,本文用静态的关键帧和图片做Matlab[5]实验。首先,建立一个由关键帧和静止图像组成的图库,图库中有广告、建筑、人物、山景等4个类型的图像,每个类型包含90幅图像,共计360幅图像。从每类图像中抽出1幅图像作为样本图像进行相似性匹配检索,并返回在相似性匹配中距离最小的前9幅图像。表1列出了图像类别、编号范围和样本图像号。
表1 图像类别、编号范围、样本图像号以及查准率和查全率
4.1 Matlab颜色特征提取
用Matlab提取样本图像的颜色特征(64×3维),其程序如下:
批量处理360幅图像的程序如下:
4.2 Matlab相似性匹配
用Matlab计算直方图相交距匹配值,其计算程序如下:
检索后返回与样本图像相似性匹配值最小的前9幅图像,其排序程序如下:
图2为广告监播检索后返回的前9幅图像,图3为建筑类样本图像检索后返回的前9幅图像,图4为人物类样本图像检索后返回的前9幅图像,图5为山景类样本图像检索后返回的前9幅图像。图下标为该图的图号,括弧内为与样本图像的匹配值。实验维数均为64×3维。通过相似性匹配后,返回用户前9幅图像中与样本图像相关的图像数量(即有效结果数量)和据此计算出的查准率及查全率如表1所示。
从上述仿真实验中可以看出,建筑和山景类图像检索的查准率和查全率都较高,而人物类图像检索的查准率和查全率都较低,说明基于颜色特征的图像检索对于建筑和山景类图像的检索较为准确,检索也更为全面,相比之下,人物类图像的检索效果不如广告和山景类的好,但4种类型的样本图像都能从实验图库中准确无误地检索出来。
5 小结
通过对颜色特征电视图像检索原理、算法和仿真实验结果的分析,可以得出,基于颜色特征的电视图像检索能从图片库中准确地检索出所需要的目标图像,其原理和算法都较为简单,所需资源较少,实现起来比较容易,能够满足电视图像检索升级的要求。
[1]杨红菊,张艳,曹付元.一种基于颜色矩和多尺度纹理特征的彩色图像检索方法[J].计算机科学,2009,36(9):274-277.
[2]黄诚,王国营.一种基于颜色聚合向量的图像检索方法[J].计算机工程,2006,32(2):194-196.
[3]周明全,狄国华,韦娜.基于内容图像检索技术[M].北京:清华大学出版社,2007.
[4]孙君顶,赵珊.图像低层特征提取与检索技术[M].北京:电子工业出版社,2009.
[5]CHAPMAN S J.Matlab编程[M].2版.邢树军,郑碧波,译.北京:科学出版社,2010.