基于支持向量机的长波红外目标分类识别算法
2021-03-06王周春崔文楠
王周春,崔文楠,张 涛
基于支持向量机的长波红外目标分类识别算法
王周春1,2,3,4,崔文楠1,2,4,张 涛1,2,3,4
(1. 中国科学院上海技术物理研究所,上海 200083;2. 中国科学院大学,北京 100049;3. 上海科技大学,上海 201210;4. 中国科学院智能红外感知重点实验室,上海 200083)
红外图像的分辨率低和色彩单一,但由于红外设备的全天候工作特点,因而在某些场景具有重要作用。本文采用一种基于支持向量机(support vector machine, SVM)的长波红外目标图像分类识别的算法,在一幅图像中,将算法提取的边缘特征和纹理特征作为目标的识别特征,输入到支持向量机,最后输出目标的类别。在实验中,设计方向梯度直方图+灰度共生矩阵+支持向量机的组合算法模型,采集8种人物目标场景图像进行训练和测试,实验结果显示:相同或者不相同人物目标,穿着不同服饰,算法模型的分类识别正确率较高。因此,在安防监控、工业检测、军事目标识别等运用领域,此组合算法模型可以满足需要,在红外目标识别领域具有一定的优越性。
长波红外目标;支持向量机;识别特征;目标识别
0 引言
红外线是一种波长范围为760nm~1mm的电磁辐射[1],红外图像的分辨率低、色彩单一,但是,由于红外设备具有全天工作的优点,因而在某些场景具有重大的运用价值,例如军事、交通、安全领域等。红外目标检测与识别是指从一幅红外图像中找出目标位置并识别目标类别[2],任务的目标在于待检测区域的提取与识别[3]。本文的处理图像是长波(7.5~14mm)红外目标图像,其特征相对可见光图像,特征更少,因而目标检测与识别的难度更大。
本文研究主题是解决长波红外目标的分类识别问题。国际上许多研究机构,如微软、谷歌、麻省理工学院、牛津大学等都建立针对目标检测和识别的实验室,取得很大的成果。在国内的研究机构和企业中,中国科学院自动化研究所下属的模式识别国家重点实验室在交通场景视觉监控、人的运动视觉监控和行为模式识别方面进行了深入研究,商汤科技和旷视科技等企业主要从事目标识别,而海康集团则从事智能安防监控。目标检测与识别研究和运用取得很大进展,但是也存在着不少问题[4]:①算法不具有通用性,有些算法在不同运用场景效果不一样;②相关算法性能优越,但是需要强大的计算能力支撑;③数据量不足或较少情况下,有些算法的性能不能满足需要。因此,需要根据实际需求选择相应的算法,才能满足特定需要。
机器学习是人工智能的核心,机器系统通过学习经验,不断改善性能,而支持向量机(support vector machine, SVM)是其中优秀代表[5],主要运用于图像的分类识别。特征提取是图像识别的重要组成部分[6],一般情况下,图像识别特征提取的是全局不变特征,但是当图像畸变很复杂或者目标存在遮挡情况时,全局特征提取有一定困难,因此红外图像一般都是提取局部不变特征,例如边缘、纹理等特征。根据长波红外图像特点以及运用场景需要,本文选择边缘、纹理作为目标识别特征,设计相应的算法模型,用SVM分类器解决长波红外目标的分类识别问题[7]。
1 算法模型分析
长波红外图像具有局部特征稳定的优点,例如边缘和纹理,在室内白天场景下,穿着同一服饰的同一目标的长波红外图像和可见光灰度图像的边缘特征分别如图1所示,由图1可知:长波红外图像的边缘轮廓特征比可见光灰度图像清晰,能很好地描绘图像的形状特征。
根据长波红外图像特点以及算法优点,本文设计以方向梯度直方图(histogram of oriented gradient, HOG)+灰度共生矩阵(gray level co-occurrence matrix, GLCM)+支持向量机(SVM)的组合算法模型,对红外目标图像进行分类。图2是模型的工作流程。
图1 图像边缘特征
图2 算法模型工作流程
在模式识别问题中,图像的梯度信息可以描绘边缘特征,HOG适宜提取目标的梯度信息[8],它主要有2个优点:①对几何和光学因素导致的外形变化能保持良好的一致性;②在满足相关条件下,在人体检测图像处理中,直立姿势的微小改变,对检测结果影响很小[9]。因此,HOG在目标检测中有很大的优势[10]。纹理是描述图像表面灰度变化情况,是图像处理与模式识别问题需要提取的重要特征,本文选择GLCM算法提取图像的纹理特征,GLCM主要有2个优点:①能反应像元之间的空间位置信息;②丰富的纹理特征量。SVM是一种在模式识别问题中得到广泛应用的分类器,它主要有3个优点:①能避免维数灾难;②通过核函数,实现特征空间映射,适用性强;③样本较少情况下,也能取得良好分类效果。
1.1 支持向量机
SVM是一种二分类器,它使用超平面分割样本,主要分为线性模型和非线性模型,本文中,由于提取红外图像的HOG特征和基于GLCM的纹理特征作为图像目标识别特征,维度很高,存在着使用线性模型无法正确分类的情况,因此,本文使用非线性的SVM对长波红外目标图像进行分类[11-12]。
1)线性模型
线性SVM如图3所示,能将样本正确分割,图中的分割超平面分类效果最好,分类器有最强的鲁棒性。
图3 线性SVM
线性可分数据集:Data={(1,1),(2,2), (3,3),(4,4),…,(x,y)},样本的特征向量ÎR,即样本是维空间中的向量,y={1,-1}。对于图3的两类样本,分割样本的超平面有多个,但是最优分割超平面只有一个,设最优分割超平面满足式(1):
(1)
式中:是垂直于分割超平面的向量,分割超平面的方向由确定,超平面方向确定之后,根据样本所在空间位置,就可以确定样本的所属类别;为位移量。正确分割的样本(x,y)满足式(2):
由点到平面距离原理可知道,样本(x,y)到最优分割超平面的距离为:
因此最近样本(x,y)到最优分割超平面的距离为:
两类间的间隔距离为:
间隔距离最大,分割超平面才是最优的,因此,工作目标是求最大值,因此最大化式(5)等价于最小化式(6):
满足约束条件:
通过式(6)和式(7),构造拉格朗日函数,求出()的最优解,函数:
由式(8)可知,函数与、和有关,对和求偏导数,同时偏导数等于0:
式(8)展开得:
由式(12)可知道,与、无关,只与有关,则式(12)为:
根据KKT条件,解必须满足:
求解出*、*、*分别为、、的最优解,则决策函数为:
式中:x(=1,2,…,)为训练样本,为测试样本。
2)非线性模型
对于有些问题,使用线性分类器是无法划分的,或者说存在大量样本被错误分类的问题,在这种情况下,需要使用非线性函数实现特征空间映射,在新的特征空间进行分类,如图4的样本在新空间可以有效分类,使用非线性函数可以构造非线性模型分类器。
图4 非线性模型SVM
函数:R®R可以将空间R映射到R,样本(x)(=1,2,…,)在R可分,分类器在R空间进行训练,最后映射回R特征空间[13],样本可以正确分类,设非线性模型分割超平面方程为:
有些运用项目对于分类正确率没有十分严格的要求,在一定条件下,允许少量样本错误分类,对项目的整体效果影响不大,而且工程实现条件更加容易,引入松弛变量,的值目前还没有具体的理论支持,根据实际情况或者经验设定,非线性可分问题的约束条件则变为:
对于错误的分类要进行惩罚,在此引入惩罚系数,太大,超平面约束太多,则不利于分类器的泛化,太小,分类器的分类性能可能不佳,的取值需要根据具体运用场景选择,最小化目标函数为:
在如下约束条件下:
最小化():
式中:(x)和(x)分别为x、x映射后样本,核函数(x,x)=(x)·(x),:R®R,式(21)可变为:
因此最终的决策(分类)函数为:
1.2 方向梯度直方图(HOG)
在模式识别领域中,HOG基于梯度来计算和统计图像的方向梯度直方图来构建图像边缘特征[14-15]。长波红外图像具有局部边缘特征稳定的优点,而HOG能很好地描述边缘特征,边缘包含物体很多的形状信息,长波红外图像在边缘的方向梯度值很大,HOG提取红外图像边缘特征有很多优势,它的HOG不仅表示简洁,而且具有很强的鲁棒性,同时对噪声不敏感。基本原理:首先将图像划分成多个细胞单元[16],提取每一个细胞单元的HOG描述符,然后将几个细胞单元组成一个区间,最后将全部区间的HOG描述符串联起来则得到该图像的HOG特征[17]。
1.2.1 梯度计算
梯度是一个向量,表示某一函数在该点处的方向导数沿着该方向取得最大值[18],设(,)为某点的灰度值,则该点的水平和垂直方向梯度的幅值分别为D(,)和D(,)[19],计算的D(,)和D(,)为:
梯度的幅值和方向为:
1.2.2 直方图计算
本文将梯度方向0°~360°(考虑正负-180°~180°)平均分成36个块(1~36),用于统计目标图像的方向梯度信息,HOG选择如图5所示。
图5 HOG选择
图6是本文选择的其中一张原始图像以及对应的HOG。
1.3 灰度共生矩阵(GLCM)
由上文可知,长波红外图像的局部纹理特征比较稳定,因而选择它作为目标识别特征。灰度共生矩阵能反映图像灰度的位置分布特性[20-21],适宜提取纹理特征。
GLCM用表示,如果一张图像灰度级为,则为一个×的矩阵,和为灰度值,=(D,D)为位置关系,矩阵元素(,),(,=1,2,…,)为和在=(D,D)下出现的数量或概率[22],空间位置关系如图7所示。
常用的空间位置关系有:
从GLCM导出相关参数[23]{Gratton, 1990 #668},这些参数反应图像的纹理信息,常用的参数有:能量、对比度、相关性、熵、逆差距等。
1.4 混淆矩阵
上文中,通过方向梯度直方图和灰度共生矩阵提取长波红外图像的目标识别特征,然后用支持向量机进行决策分类,特征选择和分类器设计决定分类的正确率。为便于分析每个类别的分类正确率以及类别之间的分类情况,本文采用混淆矩阵统计分类器对样本的分类情况,把分类结果记录在混淆矩阵里面。
混淆矩阵用于表示分类器分类情况[24],矩阵元素值表示样本类别的分类数量,如表1所示,以第一行元素分析为例:它的正确类别为class 1,矩阵元素为分类器对样本的分类数目,第一个元素为正确分类的数目,其余元素为被错误分类的数目。设正确分类数目为,错误分类为,其中T为真实值为类正确分类为类的数目,F(≠)为真实值为类错误分类为类的数目。
图6 原始图像以及对应的HOG
图7 空间位置关系
通过混淆矩阵,可以计算算法模型对某个类别以及整个类别的分类正确率。
单个类别的分类正确率为:
整个模型的分类正确率为:
表1 混淆矩阵
2 实验结果
2.1 算法模型流程分析
在上文中,介绍了算法的基本原理以及运用优势,基本流程如下:对于某一张图像,使用HOG提取图像边缘特征,然后使用GLCM提取图像的纹理特征,最后将两种特征串联起来作为图像总特征,总特征作为SVM的特征向量,SVM决策输出图像的目标类别,实现目标的检测识别工作。在实验中,首先使用设计的分类器对训练集中的长波红外图像样本进行分类训练,然后使用训练好的分类器对测试集长波红外图像样本进行测试,得出分类器对各个类别的分类情况,最后根据测试结果对分类器的分类效果进行评估。
2.2 算法运行结果
在本文中,采集了8种目标场景图像,因此采用多个二分类器组成的多类分类器对样本进行分类。算法模型主要有4个模块:①主函数模块:图像的读取、显示和模型评估;②边缘特征提取模块:HOG提取图像的边缘信息;③纹理特征提取模块:GLCM提取图像的纹理信息;④分类模块:多分类SVM分类器对图像进行分类。算法运行环境:Windows10,I5-6200U,2.4G,MATLAB R2018b。Training set(训练集)和Testing set(测试集)图像数目为950张和410张。
图8为相同场景下,同一目标穿着不同服饰的红外图像,其中Class A为穿着迷彩服图像,Class B为穿着普通衣服图像,两种图像的灰度分布情况用灰度直方图统计,由图8的灰度直方图可知:同一个目标图像的外形特征一样,但是灰度分布确不一样,因此,服饰对长波红外图像的灰度分布有一定影响。本文的工作目标:将穿有不同服饰(迷彩服和普通衣服)的不同人物目标进行分类识别,在实验中设置了8种目标场景图像,8种不同目标场景图像如图9所示,其类别意义如表2所示。
表2 图像场景代表意义
Continued Table 2
模型的部分样本分类结果(Class A和Class B)如图10所示。
模型对测试集8种样本的分类结果如表3所示。
由混淆矩阵可得,分类器对类别Class A、Class B、Class C、Class D以及整体类别的分类正确率为:
图9 八种目标场景图像
图10 模型分类结果
表3 模型分类结果
3 结论
在本文中,设计一种基于支持向量机(SVM)的组合算法模型对长波(7.5~14mm)红外图像目标进行分类识别,通过HOG和GLCM提取图像的目标识别特征,然后把这些特征作为特征向量输入到SVM分类器进行分类,实验结果显示:目标人物U,室内条件下,预测效果最好,同目标人物U,穿迷彩衣服Class A和普通衣服Class B能很好分类识别;室外条件下,在一定情况下,分类正确率可以接受。同时也知道,不同目标由于穿着不同服饰以及外部客观条件的影响,分类效果也不一样。
总体上,由于长波(7.5~14mm)红外图像质量不是很好,可提取的信息比较少或者说比较单一,文中的组合算法模型对8种不同场景目标共计410张图像进行分类识别,设计的算法模型对Class A、Class B类别分类效果最好,而且整体分类正确率也达到90.5%,因此,在安防监控、工业检测、军事目标识别等应用领域,此模型可以满足长波红外目标图像的分类要求。
[1] 曹凤杰. 红外图像人脸识别方法研究[D]. 西安: 西安电子科技大学, 2010.
CAO Fengjie. Research on Infrared Image Face Recognition Method[D]. Xi'an: Xidian University, 2010.
[2] Der S Z, Chellappa R. Probe-based automatic target recognition in infrared imagery[J]., 1997, 6(1): 92-102.
[3] 姜锦锋. 红外图像的目标检测、识别与跟踪技术研究[D]. 西安: 西北工业大学, 2004.
JIANG Jinfeng. Research on Target Detection, Recognition and Tracking Technology of Infrared Image[D]. Xi'an: Northwestern Polytechnical University, 2004.
[4] 郭济民. 基于深度神经网络的物体识别方法研究及实现[D]. 成都:电子科技大学, 2018.
GUO Jimin. Research and Implementation of Object Recognition Method Based on Deep Neural Network[D]. Chengdu: University of Electronic Science and Technology, 2018.
[5] Abdulkadir Eryildirim, Ibrahim Onaran. Pulse Doppler radar target recognition using a two-stage SVM procedure[J]., 2011, 47(2): 1450-1457.
[6] 李小迷. 葡萄糖药液中异物目标视觉检测与识别方法研究[D]. 长沙: 湖南大学, 2010.
LI Xiaomi. Research on Visual Inspection and Recognition Method of Foreign Objects in Glucose Liquid[D]. Changsha: Hunan University, 2010.
[7] 王朔琛, 汪西莉, 马君亮. 基于均值漂移的半监督支持向量机图像分类[J]. 计算机应用, 2014, 34(8): 2399-2403.
WANG Shuochen, WANG Xili, MA Junliang. Semi-supervised support vector machine image classification based on mean shift[J]., 2014, 34(8): 2399-2403.
[8] 丁方静. 室内监控中移动检测与跟踪算法的改进与实现[D]. 南京: 东南大学, 2017.
DING Fangjing. Improvement and Implementation of Moving Detection and Tracking Algorithm in Indoor Monitoring[D]. Nanjing: Southeast University, 2017
[9] 卞海曼. 基于卷积神经网络的行人检测[D]. 合肥: 合肥工业大学, 2017.
BIAN Haiman. Pedestrian Detection Based on Convolutional Neural Network[D]. Hefei: Hefei University of Technology, 2017.
[10] Navneet Dalal, Bill Triggs. Histograms of oriented gradients for human detection[C]//(CVPR), 2005.
[11] Minho J, Y Hee Yong, C Hsiao-Hwa. Intelligent RFID tag detection using support vector machine[J]., 2009, 8(10): 5050-5059.
[12] WANG R P, CHEN J, SHAN S G, et al. Enhancing training set for face detection based on SVM[J]., 2009, 19(11): 2921-2931.
[13] 尤倩. 基于SVM的脱机手写体数字识别的研究与应用[D]. 济南: 山东师范大学, 2014.
YOU Qian. Research and Application of Offline Handwritten Digit Recognition Based on SVM[D]. Jinan: Shandong Normal University, 2014.
[14] 张小琴, 赵池航, 沙月进. 基于HOG特征及支持向量机的车辆品牌识别方法[J]. 东南大学学报: 自然科学版 , 2013, 43(2): 410-413.
ZHANG Xiaoqin, ZHAO Chihang, SHA Yuejin. Vehicle brand recognition method based on HOG features and support vector machine[J].: Natural Science Edition, 2013, 43(2): 410-413.
[15] LI Weixing, SU Haijun, PAN Feng, et al. A fast pedestrian detection via modified HOG feature[C]//e 34t, 2015: 3870-3873.
[16] 曾雪. 基于旋转不变梯度方向直方图的航拍图像目标检测[D]. 南京: 东南大学, 2017.
ZENG Xue. Object Detection Based on Rotation Invariant Histogram of Oriented Gradient in Aerial Image[D]. Nanjing: Southeast University, 2017.
[17] Alex Omid-Zohoor, Christopher Young, David Ta, et al. Toward always-on mobile object detection: energy versus performance tradeoffs for embedded HOG feature extraction[J]., 2018, 28(5): 1102-1115.
[18] 段嘉欣. 基于梯度下降的时变PID算法[J]. 中国新通信, 2019, 21(14): 223-226.
DUAN Jiaxin. Time-varying PID algorithm based on gradient descent[J]., 2019, 21(14): 223-226.
[19] CHEN Pei-Yin, HUANG Chien-Chuan, Lien Chih-Yuan, et al. An efficient hardware implementation of HOG feature extraction for human detection[J]., 2014, 15(2): 656-662.
[20] HE Jiayuan, ZHU Xiangyang. Combining improved gray-level co-occurrence matrix with high density grid for myoelectric control robustness to electrode shift[J]., 2017, 25(9): 1539-1548.
[21] 叶鹏, 王永芳, 夏雨蒙, 等.一种融合深度基于灰度共生矩阵的感知模型[J]. 计算机科学, 2019, 46(3): 92-96.
YE Peng, WANG Yongfang, XIA Yumeng, et al. Perceptual model based on GLCM combined with depth[J]., 2019, 46(3): 92-96.
[22] 王红, 武继刚, 张铮. 基于二维MB_LBP特征的人脸识别[J]. 计算机工程与应用, 2015, 51(10): 191-194.
WANG Hong, WU Jigang, ZHANG Zheng. Face recognition based on 2-dimensional MB-LBP characteristics[J]., 2015, 51(10): 191-194.
[23] Marceau D J, Howarth P J, Dubois J M, et al. Evaluation of the grey -level co-occurrence matrix method for land-cover classification using SPOT imagery[J]., 1990, 28(4): 513-519.
[24] Simon D, Simon D L. Analytic confusion matrix bounds for fault detection and isolation using a sum-of-squared-residuals approach[J]., 2010, 59(2): 287-296.
Classification and Recognition Algorithm for Long-wave Infrared Targets Based on Support Vector Machine
WANG Zhouchun1,2,3,4,CUI Wennan1,2,4,ZHANG Tao1,2,3,4
(1.,,200083,; 2.,100049,; 3.,201210,; 4.,,200083,)
Infrared images have a low resolution and a single color, but they play an important role in some scenes because they can be used under all weather conditions. This study adopts a support vector machine algorithm for long-wave infrared target image classification and recognition. The algorithm extracts edge and texture features, which are used as the recognition features of the target, and forwards them to a support vector machine. Then, the target category is output for infrared target recognition. Several models, such as the histogram of oriented gradient, gray level co-occurrence matrix, and support vector machine, are combined to collect images of eight types of target scenes for training and testing. The experimental results show that the algorithm can classify the same target person wearing different clothes with high accuracy and that it has a good classification effect on different target characters. Therefore, under certain scene conditions, this combined algorithm model can meet the needs and has certain advantages in the field of target recognition.
long-wave infrared target, support vector machine, recognition feature, target recognition
TN219
A
1001-8891(2021)02-0153-09
2020-01-06;
2020-01-31.
王周春(1989-),男,硕士研究生,研究方向:红外图像处理,目标识别,机器学习。E-mail:wangzhch@shanghaitech.edu.cn。
张涛(1966-),男,博士,二级研究员,研究方向:光电技术与系统,空间科学仪器,目标光学探测与数字仿真。E-mail:haozzh@sina.com。