APP下载

刑侦图像检索中的特征提取及相似性度量

2014-07-18高梓铭

西安邮电大学学报 2014年6期
关键词:图库欧氏相似性

刘 颖, 黄 源, 高梓铭

(西安邮电大学 通信与信息工程学院, 陕西 西安 710121)

刑侦图像检索中的特征提取及相似性度量

刘 颖, 黄 源, 高梓铭

(西安邮电大学 通信与信息工程学院, 陕西 西安 710121)

为分析比较基于内容的图像检索(content-based image retrieval, CBIR)系统中各环节算法在应用于刑侦现勘(criminal scenes investigation, CSI)图像数据库时的有效性,在CBIR系统中,使用颜色特征-HSV直方图、纹理特征-三层小波分解统计特征和颜色纹理的融合特征作为特征提取算法,以欧氏距离和街区距离作为相似性度量分别在CSI图库中进行仿真测试。在COREL图库中进行类似测试,并以查准率作为有效性的衡量标准进行对比。结果显示, 在CSI库中,使用颜色特征有相对高的查准率,但CSI库的平均查准率均低于COREL库,此外使用街区距离可获得较高的查准率,这表明,因CSI数据场景复杂及目标多有损毁,现有图像特征提取算法有效性低,而作为相似性度量算法,街区距离相较于欧氏距离能更好地表示CSI图像间的相似性。

现勘图像检索;图像特征提取;图像相似度度量

刑侦图库有两个重要的实际应用:鉴别和识别[1]。识别是为了从有限的几个人物生物数据中找到一个特定的人物。鉴别是指鉴别痕迹、标记人物和目标物体的图片[2]。

目前有海量的刑侦图像资料需要进行识别处理,但使用人工查找相关图片效率低且具有主观性,因此急需找到适用于刑侦图像的检索系统。

基于内容的图像检索CBIR(Content-Based Image Retrieval),是当前多媒体检索中应用最广泛的一种[3]。它利用图像本身的特征作为索引,克服了基于人工标注的检索系统的缺点[4]。近年来发展出的常见的典型的CBIR系统包括IBM公司的QBIC系统,美国哥伦比亚大学开发的图像检索系统VisualSeek和WebSeek,以及Photobook, VIMSYS, CORE等系统。国内目前尚无针对刑侦图像检索的研究,国外针对刑侦图像检索有一些研究[5-6],但多是关于刑侦图像中某一类图像的检索配准,如指纹,鞋印,面部识别等,使用多类别的刑侦图像库进行图像检索系统研究还没有。

本文将针对刑侦图像检索系统,利用不同图像特征算法,或不同相似性度量算法,通过实验进行检索效果的比较研究。

1 算法概述

1.1 图像特征

在CBIR系统中(图1),常用的图像检索特征有颜色特征、纹理特征、形状特征以及空间特征,其中颜色特征是应用最广泛的视觉特征[7]。

图1 基于内容的检索系统

颜色特征是一种全局特征,是基于像素点的特征。由于颜色对图像方向、大小等变化不敏感,不能很好地捕捉局部特征。颜色直方图是最常用的表达颜色特征的方法,优点在于具有旋转、平移及尺度不变的特点,故鲁棒性好,但缺乏空间信息。纹理特征也是一种全局特征,描述了图像或图像区域所对应景物的表面性质。与颜色特征不同,纹理特征不是基于像素点的特征,它需要在包含多个像素点的区域中进行统计计算,且具有旋转不变性,对于噪声有较强的抵抗能力。缺点是当图像的分辨率变化的时候,所计算出来的纹理可能会有较大偏差。由于纹理只是一种物体表面的特性,故仅利用纹理特征无法准确表达图像的高层语义。将颜色特征与纹理特征进行融合作为检索依据,是希望结合这两种特征的诸多优点,取得更好的检索结果。

1.2 相似性度量

在模式识别、计算机视觉等领域,都会涉及到相似性度量的问题,用来衡量不同对象x(x1,x2,…,xn)和y(y1,y2,…,yn)之间的相似性或差异性。关于相似性度量算法有很多,常见的列举如下。

(1)欧氏距离(Euclidean Distance)

这相当于多维空间中的两点距离,优点在于简便,应用广泛,缺点是没有充分考虑分量之间的相关性体现单一分量的多个特征时会干扰结果[8-9]。

(2)街区距离或曼哈顿距离(city block distance or Manhattan distance)

(3)切比雪夫距离(Chebyshev Distance)

(4)标准化欧氏距离(standardized Euclidean distance)

其中sk为样本的标准差。这是对欧氏距离的一种改进方法,由于数据分布不同,这里先标准化到均值方差相等。

(5)夹角余弦

夹角余弦越大表示两个向量的夹角越小,夹角余弦越小表示两向量的夹角越大。当两个向量方向重合时夹角余弦取最大值1,当两个向量的方向完全相反夹角余弦取最小值-1。

还有很多的相似性度量方法,这里就不一一列举了。

虽然现在已经提出了很多图像特征提取算法和检索图像的方法,但是很多算法系统都是在较为标准的图库中进行测试的,如果应用到实际情况或是一些特殊的行业图像检索中会有一些不同的地方,因此需要立足现状,针对刑侦图像这一类特殊的图像进行检索系统研究。

图像检索系统的流程如图2所示。在使用不同特征提取方式的前提下,比较不同相似性度量算法,对检索结果的影响,选出优者。

图2 图像检索系统流程

2 实验方法

2.1 颜色特征

人们获得的图像颜色信息通常都用RGB值表示,但是RGB颜色空间与人类视觉感知的差异很大。HSV颜色空间是一种面向视觉感知的颜色模型,即代表着:色调,饱和度和亮度这3个要点。现利用HSV颜色空间的直方图作为代表图像的颜色特征。

首先,将读取的图像由RGB空间转为HSV空间,即取

M=max{R,G,B},

(1)

m=min{R,G,B},

(2)

C=M-m,

(3)

H=60 ×H′,

(4)

(5)

V=M。

(6)

其次,将得到的H,S,V非等间隔量化,分别量化为16级,4级,4级,得到

最后,根据上面的量化级把各颜色分量合为一维的特征向量

L(i,j)=H(i,j)×16+S(i,j)×4+V(i,j),

(7)

根据L即可得到HSV空间域的颜色直方图。

2.2 纹理特征

在实践中,二维小波分解实际上是给图像添加一个可分离的滤波器组

An=[HX*[Hy*An1]↓2,1]↓1,2,

DH=[HX*[Gy*An1]↓2,1]↓1,2,

DV=[Gy*[Hy*An1]↓2,1]↓1,2,

DD=[GX*[Gy*An1]↓2,1]↓1,2,

(8)

其中“*”代表的是卷积算子,“↓2,1”(或“↓1,2”)代表沿行(或列)下采样,A0=I是原图,H,G分别是低通和高通滤波器。An是根据低通滤波器获得的,在n尺度下的低分辨率图像。DH,DV,DD由通过滤波器组特定的方向所获得,分别为水平方向,垂直方向和对角线方向,由此得到包含方向细节信息的n尺度下的高频信息。这时,就使用一系列的子图来表示原图I。这样的分解被称为金字塔小波变换(Pyramidalwavelettransform,PVT)或离散小波分解(DiscreteWaveletTransform,DWT)。每个子图包含原图中的一个特定尺度和方向的信息。原图中的空间信息也被保存下来了[10-11]。再获得了各层小波分解的An,DH,DV,DD系数以后,分别计算他们均值和方差作为特征量。使用三层小波分解,即可得到一个20维的特征向量。

2.3 相似性度量选择

选用欧氏距离和街区距离或曼哈顿距离分别在图像检索系统中测试比较。

3 实验结果及分析

实验使用的刑侦图像库,是在陕西省公安厅刑侦局的帮助下,于2012年11月获得的真实案件中的现场勘查图像。经过一定的整理分类后构建的刑侦图像库。不同于其他数据库的建立,实验测试所用的图像数据库均为实际案件中的现勘图片。由于有关规定,这些图片不能公开,仅用于研究用。后面所展示的图片均为对原刑侦图像有所改动。使用的刑侦图库目前共分了8个类别,分别为车辆、道路、建筑、门、手印痕迹、血迹、足印、作案工具。每个类别50幅图片,共400幅。对比使用的Corel图集也选用了8个类别,每个类别100幅,共800幅图片,分别为非洲人、建筑、公交车、恐龙、大象、花、马群、美食。各类图片的示例如图3所示。

图3 各类图片示例

通常使用查全率和查准率作为衡量检索系统好坏的标准。按实验方法所得查全率如表1和表2所示,其中表1是使用欧氏距离作为相似性度量的结果,表2是使用街区距离作为相似性度量的结果。

表1 各类平均查全率(欧氏距离)

表2 各类平均查全率(街区距离)

通过比较以上两表的数据可以发现,使用街区距离作为相似性度量使得每类的平均查全率都有所提高,尤其是“道路”和“血迹”这两类,有显著提高。

图4至图9显示了使用不同的特征,相似度度量,分别在刑侦图库和Corel图库中的查准率比较,图中纵轴为查准率,横轴为图片数量。使用街区距离作为相似度度量表现出明显的优势。

图4 在刑侦图库中使用颜色特征

图5 在刑侦图库中使用颜色纹理融合特征

图6 在刑侦图库中使用纹理融合特征

图7 在Corel图库中使用颜色融合特征

图8 在Corel图库中使用纹理融合特征

图4,图5和图6是使用不同的特征与相似性度量方法在刑侦图库中进行检索的平均查准率结果比较。可以发现三种特征中,使用颜色特征进行检索的查准率相对高一些,而是用融合特征的检索正确率反而更低一些,这其中的原因还有待探究,但是,不论使用哪一种特征进行检索,使用街区距离做为相似性度量的查准率都要高于传统的欧氏距离。

图7,图8和图9是使用同样的算法在Corel图集进行图像检索的平均查准率结果比较。可发现,使用街区距离作为相似性度量算法的效果要优于使用传统的欧氏距离,并且,同样的算法在Corel这样的标准图库中的检索效果明显要优于在刑侦图库中的结果。

由实验可知:(1)由于刑侦图库的自身特点,在第一部分中有所描述,那些常见的,适用于标准图库的图像特征在刑侦图库中作为检索特征,效果并不理想。这里刑侦图库需要使用更具有针对性的特征作为检索依据。(2)与常用的欧氏距离相比,街区距离在基于内容的检索系统中显示出更好的表现,不论是在刑侦图库还是Corel图库中。

例如使用145号图片(图10),比较检索结果。在特征提取部分,分别使用的颜色特征,纹理特征和颜色纹理的融合特征。在相似性度量部分分别使用欧氏距离和街区距离作为相似性度量。图11至图14是检索系统返回的十幅相关图片中相关图片数量的结果。与145号图片相关的应为标号是101至150的图片。

图10 145号图片

图11 使用颜色特征,欧氏距离,10幅图中7幅相关

图12 使用颜色特征,街区距离,10幅图中8幅相关

图13 使用纹理特征,欧氏距离,10幅图中3幅相关

图14 使用纹理特征,街区距离,10幅图中5幅相关

5 结论

与标准图库Corel中得到的检索结果相比,常见的图像特征提取算法在刑侦图像检索中效果并不理想。分析发现,刑侦图库图片中目标残损;一些图片背景复杂,存在多目标存在的情况;图像中的目标物体不突出,所占面积过小,这些原因导致了检索结果的不理想。考虑需要设计更有针对性的特征作为检索依据。

在检索结果比较中,使用街区距离作为相似性度量算法显示出优于欧氏距离的特点,并且在使用不同特征提取算法时均是如此,不论是在刑侦图库还是Corel图库中,这说明,使用街区距离在刑侦图库乃至标准图库中的优势是明显的,值得关注。

未来将致力于改进现有算法,设计更加适合刑侦图库的图像特征提取算法,以进一步提高刑侦图像检索系统的准确率。

[1] Sarathy Y P, Mote V R, Lonikar A A. Pattern Recognition and Image Processing in Forensic Science[J]. Soft Computing, 2005,9(1):207-213.

[2] Gonzalez R C, Woods R E, Eddins S L. Digital image processing using MATLAB[M]. India: Pearson Education India, 2004:489-492.

[3] Datta R, Joshi D, Li Jia, et al. Image retrieval: Ideas, influences, and trends of the new age[J]. ACM Computing Surveys (CSUR), 2008, 40(2): 1-60.

[4] Liu Ying, Zhang Dengshen, Lu Guojun, et al. A survey of content-based image retrieval with high-level semantics[J]. Pattern Recognition, 2007, 40(1): 262-282.

[5] Chen Yixin, Roussev V, Richard G, et al. Content-based image retrieval for digital forensics[M]. America: Springer, 2005: 271-282.

[6] Jain A K, Klare B, Park U. Face matching and retrieval in forensics applications[J]. IEEE Multimedia, 2012, 19(1): 20.

[7] Ma Zongfang, Chen Yongmei, Pan Quan. Research on color-based image retrieval and implement of the system[C]//International conference on computer and electrical engineering. Thailand:IEEE, 2008:116-118.

[8] 齐敏,李大健,郝重阳. 模式识别导论[M]. 北京:清华大学出版社, 2009:14-15.

[9] Cha S H. Comprehensive survey on distance/similarity measures between probability density functions[J]. International journal of mathematical models and methods in applied sciences, 2007, 1(2): 299-306.

[10] Hiremath P S, Shivashankar S. Wavelet based features for texture classification[J]. ICGST International Journal on Graphics, Vision and Image Processing (GVIP) ICGST, 2006, 6(3): 55-58.

[11] Hiremath P S, Shivashankar S, Pujari J. Wavelet based features for color texture classification with application to CBIR[J]. International Journal of Computer Science and Network Security, 2006, 6(9A): 124-133.

[责任编辑:瑞金]

Feature extraction and similarity measure for crime scene investigation image retrieval

LIU Ying, HUANG Yuan, GAO Ziming

(School of Communication and Information Engineering, Xi’an University of Posts and Telecommunications, Xi’an 710121, China)

In order to analyze the effectiveness of the existing content-based image retrieval (CBIR) algorithms when applied to crime scene investigation (CSI) image database, different image features are tested including color feature (the histogram of the HSV space), texture feature (the statistic feature of three layer wavelet decomposition), and the fusion of the color feature and texture feature. In addition, Euclidean distance and city block distance are used as the similarity measures. Using precision as the effectiveness evaluation, same methods are also tested on COREL database as comparison. Experimental results show that, in CSI database, color feature can provide higher precision than the other features. However, the average precision on CSI database is lower than that on COREL. Results also show that city block distance leads to higher retrieval precision. It can be concluded that, due to the complex background and often damaged targets in CSI images, the existing CBIR algorithms display low efficiency on CSI image database; and that for CSI image similarity measure, city block distance works better than Euclidean distance.

crime scene investigation image retrieval, image feature extraction, image similarity measure

10.13682/j.issn.2095-6533.2014.06.003

2014-06-03

国家自然科学基金青年基金资助项目(61202183);陕西省国际科技合作计划基金资助项目(2013KW04-05);陕西省教育厅科学研究计划资助项目(12JK0504);西安邮电大学校青年教师科研基金资助项目(ZI2014-09)

刘颖(1972-),女,博士,高级工程师,从事数字图像处理研究。E-mail:ly_yolanda@sina.com 黄源(1988-),女,硕士研究生,研究方向为信号与信息处理。E-mail:421864750@qq.con

TN911.7

A

2095-6533(2014)06-0011-06

猜你喜欢

图库欧氏相似性
渐近欧氏流形上带有阻尼和位势项的波动方程的生命跨度估计
一类上三角算子矩阵的相似性与酉相似性
金山农民画矢量图库的建设与应用
本刊2022年第62卷第2期勘误表
浅析当代中西方绘画的相似性
视图库在AI浪潮里的发展应用
Photoshop CC图库面板的正确打开方法
低渗透黏土中氯离子弥散作用离心模拟相似性
围绕“四个全面”战略布局 谱写伟大复兴宏伟篇章
基于多维欧氏空间相似度的激光点云分割方法