使用频谱词包的接力跟踪目标交接方法

2016-12-06张小骏刘志镜薛鸿民

西安电子科技大学学报 2016年4期

关键词：傅里叶摄像机频谱

张小骏,刘志镜,薛鸿民

(西安电子科技大学计算机学院,陕西西安 710071)

使用频谱词包的接力跟踪目标交接方法

张小骏,刘志镜,薛鸿民

(西安电子科技大学计算机学院,陕西西安 710071)

针对接力跟踪中目标跨摄像机交接困难问题,提出了使用频谱词包的目标交接方法.首先对第1摄像机的两幅或多幅目标图像分块提取傅里叶特征;再对特征集进行K均值聚类,选择其中紧密类的质心特征作为正常单词,另引入一个异常单词,与正常单词一起共同构成词包;最后用词包分别描述两摄像机的目标,以欧氏距离度量相似性.实验表明,该方法的目标识别性能和鲁棒性比目前几种常见的基于纹理的方法有一定的提高.

多摄像机;接力跟踪;目标交接;傅里叶频谱;频谱词包

智能视频监控网络中目标的接力跟踪具有很强的应用需求,其中目标在摄像机之间的交接是一项关键的技术,即在第2摄像机中识别出来自第1摄像机的目标并启动继续跟踪的过程.目标的跨摄像机交接分为两种情况:一种情况是相邻摄像机之间存在视场重叠,此时可以通过视场的重叠部分得出摄像机之间的三维几何关系,进而通过坐标匹配来识别目标并完成交接[1].但这往往对摄像机的布局和标定有一定要求,在实际应用中局限较大.另一种情况是相邻摄像机之间不存在视场重叠,此时目标的交接主要依靠特征匹配.这种交接方法灵活方便,特别切合监控应用的实际需要,但难点是目标跨摄像机时,其特征往往变化很大,难以用于匹配.比如人体跟踪最常用的颜色特征,跨机时的鲁棒性就不好,而现有的跨机颜色校正方法都还不够成熟[2].运动特征虽不受跨机颜色变化的影响,但目标识别能力还不够强,无法快速识别目标,如步态特征[3].相对而言,目标图像的频谱特征在目标识别和鲁棒性两方面均有较大潜力可挖,因为频谱不仅信息量大,而且可分别反映对亮度、颜色变化具有较高鲁棒性的表面结构性信息(交流信息).比如用Gabor或小波变换结果构造的特征[4-6],在图像识别与检索方面就取得了很好的效果,但这往往需要使用多尺度、多方向的模板进行多次滤波,用时过长.相比之下,傅里叶变换则简单快速得多,比如用于描述形状特征的傅里叶描述子[7-8].但由于傅里叶频谱不能提取空间结构信息,并且现有的傅里叶特征往往过度降维,因此目标识别能力一般不强.有鉴于此,笔者提出一种频谱词包法来实现目标的跨摄像机识别.该方法借助词包模型的思想,以一种新的傅里叶特征构造对来自第1摄像机中的两张(或多张)目标图像进行分块特征提取,融合块位置特征后对两图共同的特征集进行K均值聚类,以紧密聚类(类内平均距离小)的质心特征作为词包,对第1、第2摄像机中的目标进行描述及相似性比较.由于该方法重点考查目标的相对稳定部位的特征,并且考查大量块图像特征匹配的宏观统计效果,弥补了傅里叶特征本身识别能力的不足,因此收到了较好的目标识别效果.

1　傅里叶特征构造

图像的傅里叶变换离散形式如下:

其中,M、N为图像f(x,y)的宽与高;F(u,v)为图像的傅里叶频谱,其图像化显示即频谱图.笔者使用直流点移至中心后的频谱幅值图提取特征.

1.1频谱预处理

频谱预处理包括两步:第1步,对频谱图的宽度进行适当缩放,且其与高度一致,使频谱横纵坐标统一;第2步,对频谱图进行适当的均值滤波,使非刚性目标频谱稳定.

下面对第2步的原理进行分析.非刚性目标可视为由多个相对刚性的子部分组成的变形体,以两个子部分为例.设全图频谱为F,子部分的频谱为F1、F2,则有

其中,θ1-θ2为子部分频谱间的相位差.由于非刚性体子部分间极易发生相对位移、旋转或其他仿射变化,相位差会剧烈变动,故频谱幅值极不稳定.

为消除相位的影响,在频谱图各点对式(2)进行小范围平均.由于自然图像频谱的相位随频点变化很快,可视为是随机分布的,相位差θ1-θ2也呈随机分布,故有

其中,σ为标准差;模板高度和宽度为Δu和Δv,Δu∈[-3σ,+3σ],Δv∈[-3σ,+3σ].

1.2傅里叶频谱特征构造

如图1所示,使用预处理后的频谱图的直流点1及其4个邻域点2、3、4、5的幅值以及此外的多个方形环内(单点宽度)点的幅值和组成归一化p维傅里叶特征向量.

图1　频谱特征构造

该特征反映了图像大致的粗细纹理信号(即交直流信号强度)的分布,因此对于图像的亮度及色彩变化有一定的鲁棒性.另外,由于图像或其各子部分发生仿射变化时,其对应的频谱图会发生类似的仿射变化或不变(平移),而预处理后的频谱在幅值上近似为各子部分频谱的简单求和,故该特征具有如下不变性:当目标图像整体缩放或部分发生相对位移时,特征不变;当目标图像整体或部分发生旋转时,特征基本不变(除2、3、4、5维外);当整体或部分发生少量错切、横纵不等比缩放时,特征基本不变.

2　使用频谱词包的目标识别

词包模型最初应用于文本识别,其核心思想是:忽略单词之间的顺序关系,通过文本中各个单词出现的频率分布来描述文本特征.近年来,该思想引入计算视觉和模式识别领域,用于图像分类和检索[9-12],收到了较好的效果.频谱词包法的主要步骤为:

步骤1 使用第1摄像机的目标图像2张(或多张,下面以2张为例),分块提取特征并合并特征集后,通过K均值聚类找到目标上特征相对稳定的K-2个部位,使用这些部位各自的平均特征作为正常单词;另引入一个异常特征(各维均为1)作为异常单词,建立频谱词包.

步骤2 使用频谱词包分别描述来自第1和第2摄像机的目标,即将目标图像分块提取的特征向词包单词归类计算分布,归一化后形成各自的词包描述子.

步骤3 使用第2与第1摄像机目标的词包描述子之间的最小欧氏距离判断目标相似度.

图2　频谱词包法工作流程

频谱词包法的详细工作流程如图2所示,有关说明如下:

(1)目标图像均使用目标去除阴影后的最窄外接矩形区域图像,以减小目标变化.

(2)块取样窗扫描目标全图取得块图像集.取样窗与目标图像同宽,窗高为目标图像高的1/h,扫描间隔为窗高的1/s,h、s均为统一整数,因此相邻块间有重叠.

(3)一维的坐标维组合到傅里叶特征向量左端构成特征向量,其作用是保证各块只和类似位置的其他块聚类,避免混乱.z取值应尽量小,以免聚类退化为坐标聚类.

(4)第1摄像机2张目标图像的特征集是合并在一起聚类的.由于目标的稳定部位在2图上变化相对较小,聚类时类内平均距离也会小,因此可通过类内平均距离判断对应部位的特征稳定性.另外,由于类内平均距离不同,特征稳定程度不同,故用其t倍作为相应单词的阈值.

(5)待识别特征集来自第2摄像机的1张待识别目标图像,产生方法与第1摄像机的相同.

(6)异常单词的作用:一是容纳所有不能良好匹配的特征向量,使不同目标的区别鲜明化;二是避免相同目标的不稳定部位的特征向量被强制分配给正常单词,使描述子产生混乱.

(7)第1摄像机的2个词包描述子可直接利用聚类结果计算.

(8)使用第1摄像机的2个词包描述子之间的欧氏距离的T倍作为相似性距离阈值.

1.4 统计学方法采用SPSS 13.0统计学软件进行数据分析，计量资料以表示，治疗前后自身对照均数比较采用配对t检验，2组间均数比较采用独立样本t检验，检验水平α=0.05。

3　实验与结论

首先通过大量的实验,包括大量的单元实验确定上述方法的参数;然后再使用不变场景下的视频验证原理,使用多场景下的视频考查实际效果,并与多种现有方法进行比较.在实验中,视频拍摄时摄像机的增益、曝光和白平衡均处于自动状态.

3.1参数的选定

通过单元实验结合统调实测效果选定参数,如表1所示.表中,σ为高斯滤波的标准差,p为傅里叶特征维数,h为块窗高参数,s为块扫描间隔参数,z为块坐标折算系数,K为聚类个数,t为单词的阈值倍数,T为描述子的相似性阈值倍数.

表1　参数的选定与方法

3.2原理验证

在同一场景下的连续视频中为两个目标各获得5个目标图像,分为2组,如图3所示.各组以前2幅图为基础建立频谱词包A、B,再按词包模型计算各幅图分别与A1或B1的相似性距离,考查距离差异,结果如表2.表中,@A或@B表示按照词包A或B对图像进行描述.由表2可见,目标相同与不同时距离差异普遍明显.

表2　基于词包模型的图像间相似性距离

图3　两组目标图像

图4　块窗口和聚类范围

图4为用于建立词包的目标图像B2的块窗口和B词包的各正常单词对应的聚类范围.由图4可见,这些范围恰是目标变化相对较小的中上部,即目标的稳定部位.

图5　目标按B词包的描述子

图5为相同与不同目标按照B词包的描述子.第5维为异常单词的出现频次,由图5可见,目标不同时(A1),大量的待识别特征被归入词包描述子的第5维,目标的区别明显.

3.3不同解析尺度下的目标识别能力

在图6场景C中,目标1(左)与目标2身高类似,调节其至摄像机的距离,为两目标在3个解析尺度下各获得5张最窄目标图像,计算各尺度下目标之间的相似性距离,结果列于表3.表3中目标1(2)与2(1)的距离按目标2(1)的图像形成的词包计算.

可以看到,解析尺度对笔者提出的方法有一定影响.当尺度下降时,相同与不同目标之间的平均距离差异有较明显缩短,但在200像素以上的图像高度下,仍可识别目标.

图6　6种不同光照场景

表3　不同解析尺度下相同与不同目标之间的平均距离

3.4跨场景下的目标识别

在图6的场景C中,使用3.3节中为目标1、2在200像素和300像素尺度下建立的词包及相应词包描述子,作为来自第1摄像机的目标信息.另外使用6个不同目标(包含目标1、2)各自分别在场景D、E、F、G、H中获得最窄目标图像1张,尺度均约为300像素.6个目标共30张目标图像(图中未全部列出),作为第2摄像机的待识别目标.

按笔者提出的方法分别计算第1与第2摄像机目标图像的相似性距离,共有120个结果.将结果按第1摄像机目标的2个尺度分组计算均值,分列于表4,其中后1组(尺度为200像素)为跨尺度比较.另外,为考查笔者提出方法的有效性,使用目前纹理描述常用的特征进行同样的相似性距离计算,结果列于表4中供比较.

表4　各方法在不同解析度下的目标识别性能对比

表4中,经典傅里叶分区方法[13]将频谱幅值图分成6个扇形区(0°～180°),使用各区内的幅度均值及标准差组成归一化特征向量;Gabor方法[4-6]使用4个波长尺度(以目标窗高为统一折算单位)和6个方向(0°～180°)的Gabor模板对目标图像进行滤波,使用各次滤波的幅度均值及标准差组成归一化特征向量;LBP方法[14]使用具有旋转不变性的等价LBP值组成归一化特征向量.傅里叶和Gabor特征使用Canberra距离, LBP特征使用欧氏距离.Q值用于评价各种方法的性能:

Q值越高,区分目标的能力越强.

从表4可以看到,在跨场景的情况下,笔者提出的方法能较好地识别目标,对光照亮度、色温及摄像机变化有较强的鲁棒性,比使用Gabor特征的效果略强.笔者构造的傅里叶特征与经典傅里叶分区方法类似,但由于使用聚类找到了特征稳定点,并通过词包模型使目标之间的差异鲜明化,提高了目标识别性能.从跨尺度比较的结果看,上述各种方法的目标识别效果均受限于小目标的尺度,但笔者提出的方法受到的影响相对较小.

3.5笔者提出的方法的运行速度

笔者提出的方法使用Matlab2010b编程,在32位Windows XP下运行,硬件环境为:64位双核AMD AthlonⅡCPU,主频3.1 GHz,一级缓存128 kB×2,二级缓存2 MB,内存3.25 GB.完成两幅300×100尺寸图像的频谱词包建立及词包描述子计算的时间为0.281 9 s(第1摄像机),完成一幅300×100尺寸图像的识别仅需0.062 6 s(第2摄像机),这对于跟踪目标的跨摄像机交接已经足够了.而识别效果相对较好的Gabor方法在第2摄像机的识别时间则长达3.632 1 s,这一速度是不够的.

4　结束语

笔者提出的方法的特点在于不过度依赖某种特征单次使用的目标识别性能,而是通过聚类发现该特征相对于目标的稳定点,再以稳定点处的特征为参照,使用词包模型,考查大量使用该特征时表现出来的整体统计特点,提高了目标识别性能.作为一种基于表面结构性信息的方法,笔者提出的方法对目标尺度有一定要求,这是下一步需要进一步研究的方面.同时,如何根据目标的尺度和表面信息的丰富程度选择最合适的模型参数也值得深入研究.

[1]FEI Y,MAKRIS D,VELASTIN S A,et al.Calibration and Object Correspondence in Camera Networks with Widely Separated Overlapping Views[J].IET Computer Vision,2015,9(3):354-367.

[2]WANG X G.Intelligent Multi-camera Video Surveillance:a View[J].Pattern Recognition Letters,2013,34:3-19.

[3]LÜZ,XING X,WANG K,et al.Class Energy Image Analysis for Video Sensor-based Gait Recognition:a Review[J]. Sensors,2015,15(1):932-964.

[4]闫允一,姜帅,郭宝龙.结合稳定兴趣点和Gabor小波的图像检索[J].西安电子科技大学学报,2014,41(5): 118-123. YAN Yunyi,JIANG Shuai,GUO Baolong.Image Retrieval Using Stable Interest Points and Gabor Wavelet[J].Journal of Xidian University,2014,41(5):118-123.

[5]ARIVAZHAGAN S,NIRMALA S.Rotation and Scale Invariant Texture Classification Using Gabor and Curvelet Transforms[J].International Journal of Tomography and Simulation,2015,28(2):94-105.

[6]刘丽,匡纲要.图像纹理特征提取方法综述[J].中国图象图形学报,2009,14(4):622-635. LIU Li,KUANG Gangyao.Overview of Image Textural Feature Extraction Methods[J].Journal of Image and Graphics,2009,14(4):622-635.

[7]MENNESSONA J,JEANB C S,MASCARILLA L.Color Fourier-Mellin Descriptors for Image Recognition[J].Pattern Recognition Letters,2014,40:27-35.

[8]ALTANTSETSEG E,KATSUTSUGU M,KOUICHI K.Pairwise matching of 3D Fragments Using Fast Fourier Transform[J].The Visual Computer,2014,30(6/8):929-938.

[9]赵理君,唐娉,霍连志,等.图像场景分类中视觉词包模型方法综述[J].中国图象图形学报,2014,19(3):333-343. ZHAO Lijun,TANG Ping,HUO Lianzhi,et al.Review of the Bag of Visual Words Models in Image Scene Classification[J].Journal of Image and Graphics,2014,19(3):333-343.

[10]KHAN R,BARAT C,MUSELET D,et al.Spatial Histograms of Soft Pairwise Similar Patches to Improve the Bag of Words Model[J].Computer Vision and Image Understanding,2015,132:102-112.

[11]FARAJI M,SHANBEHZADEH J.Bag of Visual Words,its Detectors and Descriptors:a Survey in Detail[J].Advances in Computer Science an International Journal,2015,4(2):8-12.

[12]IONESCU R T,POPESCU M,KERNEL P Q.A Rank Correlation Kernel for Visual Word Histograms[J].Pattern Recognition Letters,2015,55:51-57.

[13]闫晶莹,王成儒.一种新的纹理特征提取算法[J].西安邮电学院学报,2011,16(1):49-53. YAN Jingying,WANG Chengru.A New Method for Texture Feature Extraction[J].Journal o Xi’an University of Posts and Telecommunications,2011,16(1):49-53.

[14]刘丽,谢毓湘,魏迎梅,等.局部二进制模式方法综述[J].中国图象图形学报,2014,19(12):1696-1720. LIU Li,XIE Yuxiang,WEI Yingmei,et al.Survey of Local Binary Pattern Method[J].Journal of Image and Graphics, 2014,19(12):1696-1720.

(编辑:郭华)

Method for relay tracked target handover using the spectrum bag of words

ZH ANG Xiaojun,LIU Zhijing,XUE Hongmin
(School of Computer Science and Technology,Xidian Univ.,Xi’an 710071,China)

Aiming at the difficulty of the relay-tracked target handover across cameras,a method using the spectrum Bag Of Words(BOW)is proposed.Firstly,2 or more target images from the first camera are divided into blocks.The Fourier features of the blocks are extracted and then clustered by Kmeans.The averaged vectors of the compact clusters are used as the normal words of the BOW,while an abnormal vector is used as the abnormal word.The targets from the first and second cameras are described in BOW words.The Euclidean distance between the BOW descriptions is used as the target similarity metrics. Experiments show that the proposed method has some definite improvement in target recognition and robustness compared with several common methods based on the texture.

multiple cameras;relay tracking;target handover;Fourier spectrum;spectrum bag of words

TP391.4

1001-2400(2016)04-0191-06

10.3969/j.issn.1001-2400.2016.04.033

2016-01-19

国家自然科学基金资助项目(61173091)

张小骏(1964-),男,西安电子科技大学博士研究生,E-mail:1479781033@qq.com.