基于Struck跟踪算法的人脸图像识别与截取研究

2018-01-17王楠

科技创新与应用 2018年34期

王楠

摘要：当今大部分地区对天网工程视频数据的追溯仍停留在人力查找阶段，为应对公安部门监控数据处理效率低下的问题，文章提出一种以人脸图像为内容的图像识别与截取方法，使用AdaBoost方法结合Haar-like特征检测人脸后自动地初始化Struck跟踪器，对跟踪器截取的图像帧序列进行预处理，增量PCA方法提取序列的特征后以One-class SVM作为检索分类器，实现输入指定图像后输出视频内容中与之相关的视频片段的目标。

关键词：视频检索；Struck算法；Haar-like；AdaBoost；One-class SVM

中图分类号：TP391.4 文献标志码：A 文章编号：2095-2945（2018）34-0008-03

Abstract： Nowadays， the tracing of video data of skynet project is still at the stage of manpower search in most areas. In order to deal with the problem of low efficiency of video data processing in the public security department， this paper proposes a method of image recognition and interception， which is based on face images. The Struck tracker is initialized automatically after face detection using AdaBoost method combined with Haar-like features， and the image frame sequence intercepted by the tracker is preprocessed. The features of the sequence are extracted by incremental PCA method， and One-class SVM is used as the retrieval classifier. An object associated with a video segment in an output video content after input of a specified image is implemented.

Keywords： video retrieval； Struck algorithm； Haar-like； AdaBoost； One-class SVM

1 概述

由于天網工程的开展，公安部门已经掌握了大部分的监控摄像头。这些摄像头每天产生视频数据的数量级非常大。虽然海量的视频数据是公共安全的一个重要保障，然而想要利用人力在视频信息中找到特定的目标，存在耗时长，主观判断性强，容错率低等问题。因此，需要一种可以准确、快速地找到目标的自动化方法。本文介绍一种基于人脸图像的视频检索方法，能够在指定时间段内判断目标是否出现，并输出检索的相关视频片段。基于图像内容的检索相比基于文字内容的检索，突破之处在于它可以直接作用于多媒体数据。由于视频内容存在场景、镜头等隐含信息，所以在对视频进行检索前需要进行一些结构分析及处理，如镜头分割、关键帧提取以及视频语义标注等等。基于人脸图像的视频检索在公共安全领域具有十分重要的意义，利用人脸检索，可以标记出某一特定目标的行动轨迹，以及预测该目标的活动范围。

2 整体框架

框架的中心工作是为所有需要监控，即作为检索对象的目标建立特征空间。分为检测跟踪、归一化处理以及建立特征空间四步。人脸检测使用AdaBoost基于Haar-like的方法，用Struck跟踪器截取图像序列，对序列中的每一帧图像进行归一化预处理，最后为人脸建立特征空间并用One-class SVM分类。

框架如图1所示。

3 特征空间的建立

3.1 提取人脸序列

可以检测出正脸的监控录像通常具有序列特性，即在短时间的镜头（连续图像序列）内，人脸图像的空间差别很小。要尽可能得到有效的人脸序列，那么就需要使用人脸跟踪方法。

人脸跟踪是指在人脸目标已被自动识别获取的情况下，在一定时间范围内对接下来的每一帧进行目标标识。大多数情况下检测识别算法复杂度比较高，单一图像可以保证效率。但单图片序列由若干相似帧组成，若每帧都进行相同的识别处理，将在一定程度上浪费系统资源。相比之下，跟踪算法更加适合其应用场景。跟踪算法的复杂度低，利用其本身的机制可以进行在线学习和预测，不需要每一帧都操作，在丢失跟踪目标或一定时间间隔后再次初始化跟踪器即可。

3.1.1 人脸检测

人脸跟踪的步骤包括检测和跟踪，本文对视频中的图像帧序列采用级联AdaBoost算法检测人脸。AdaBoost是一种迭代算法，将若干个弱分类器聚合成为一个强分类器，能够有效提高学习方法的准确性。

Haar特征值对应的是图像的灰度变化。脸部的某些特征基本可以被矩形特征简单地描述，例如五官的相对明暗关系：眼睛的颜色与脸颊的颜色对比，鼻梁、嘴巴与周围颜色的对比等等。但Haar-like存在很明显的短处：矩形特征只对一些简单的图形结构，单一特征只能描述能够由小面积矩形标示的特定走向的结构，表示边界、线段、棱角等。

AdaBoost算法按照一定规则聚合多个以Haar-like特征为基准的分类器，这样聚合后的分类器足以判断某一图像区域是否为人脸。级联AdaBoost将判断各种人脸特征的分类器聚合以得到效用更高的分类器，实现从眼睛、鼻子到整张人脸的识别。使用AdaBoost方法对每个序列的第一帧进行处理后，将该帧中检测到的人脸数据用于初始化跟踪器。

3.1.2 Struck方法跟踪

跟踪算法应用较多的有光流法、粒子滤波算法和均值漂移算法。这些算法只是单纯的跟踪，并不能实时学习。即跟踪目标如果因光线、角度等外界因素产生变化，传统的跟踪算法是不能适应的，因此也难以在复杂场景中应用。

Struck全称结构性训练跟踪算法，是由Sam Hare等首先提出的一种全新的跟踪框架，它是一种基于结构输出预测的自适应目标跟踪框架。Struck算法的运作基础是特征和变换，有别于传统的跟踪方法的特征与标签。它用维护支持向量集的方式寻找置信函数的极值点，以推测跟踪目标的可能出现位置的概率。引入输出空间满足跟踪功能，直接输出跟踪结果，而不是对中间的内容重复进行同等工作。为了避免过程中的支持向量过增长，保证实时性，Struck还引入了阈值机制。虽然在遮挡和姿态变化情况下，Struck较为稳定，但尺度变化的情况下即跟踪目标的尺寸大小产生大波动时，Struck仍有不足。

Struck的算法的三个主要步骤：第一给定的目标图片序列中，在第一帧获取到跟踪目标，用这个目标初始化跟踪器的参数；第二利用它自身的预测机制估计出接下来物体可能出现的位置；第三对新出现的跟踪目标样本进行处理，求解最优的分割平面，加入阈值判断防止支持向量过增长，跟踪到目标对象并更新支持向量集。

3.2 序列帧归一化处理

使用直方图均衡化对图像序列中的每一帧作预处理以减少光线对图像特征的影响，再进行归一化。

归一化是将姿态、大小不一的样本图像通过仿射映射，得到一组特征点对齐、大小一致的图像，再使用重心模板找到脸部的中心位置。改善图像质量，统一图像灰度值及尺寸，消除对特征提取无用的噪声。

3.3 增量PCA（Principal Component Analysis）

人脸识别的过程包括提取面部特征及对提取的特征进行分类以找到高维空间中人脸分布的规律。PCA的主要思想是尽可能在最小均方意义下寻找能最大程度表示样本分布的投影方向，即单位向量，它是一种常用的特征提取方法。PCA将原始数据的高维特征线性变换为各维度线性无关的一组向量表示，在数据主要特征分量的提取中应用广泛，是高维数据降维的常用方法。PCA算法的核心思想是将高维特征映射到小于原数据维度的空间维上，这一新构造出来的较低维是全新的正交特征，被称为主成分。

一幅图像X在低维空间中的特征向量Y，由式（1）投影方式得到。

在上式中，可以尽量选取接近1的α，这说明样本在前m个轴上的能量基本可以代表整个能量。

这种算法虽然常用但容错率较小，因为它对训练样本集的要求很高，通常训练人脸和目标人脸的光照、背景等条件尽量一致才能达到最好的匹配效果；而通常视频中的人脸图像变化波动很大，并不受上述外界因素的拘束。那么本文将使用增量PCA学习算法，增量PCA在PCA的基础上可以在增量的过程中逐步减小因背景、光线、角度等外界因素对图像序列不同帧造成的差别，有效降低提取特征的散度。一个训练序列为一个固定人物，识别过程中将结果反馈到子空间和单类支持向量机One-class SVM上进行分类，动态调整子空间的单位向量方向和One-class SVM的分类面，以这种方式减少光照、背景等因素的影响。

One-Class SVM分类器适用于二分类问题，即是或者不是。因为输出结果只有两个，所以训练数据只需要足量的正样本，确保分类器能准确判断其中一种结果即可，符合应用场景。

SVM不同的内积核函数将得到不同的高维空间的映射，本文采用的核函数为径向基函数与多项式内核函数。

多项式内核和RBF核是SVM常用的两种核函数。RBF核函数应用最广，它可以将一个样本映射到一个更高维的空间，RBF网络能够逼近任意的非线性函数，可以处理系统内难以解析的规律，泛化能力良好，收敛速度快。

4 结束语

本文提出了一种基于人脸图像的视频检索方式，采用Struck跟踪算法。Struck算法是一种可在线学习的计算机视觉跟踪算法。结合AdaBoost算法可以自动初始化跟踪器，此外AdaBoost与跟踪器同时运行，可以提高跟踪准确性。若跟踪器丢失当前目标，也能及时检测下一个目标，提高了片段截取的效率。然而公安视频监控系统中每天将产生大量的视频数据，也需要更高性能的检索算法，未来这一问题仍可以进一步进行研究。

参考文献：

[1]Wong C F， Zhu J， Vai M I， et al. Face image retrieval in video sequences using lifting wavelets transform feature extraction[C]// International Symposium on Consumer Electronics. IEEE， 2005：167-171.

[2]肖儿良，韩超.应用于人脸自动实时跟踪的改进Struck算法[J].电子科技，2016，29（3）：42-47.

[3]陈立珍，崔国勤，李卓.电影视频人像检索系统[J].计算机仿真，2008，25（6）：187-190.

[4]陈立珍，崔国勤，李卓.基于子空间增量学习的视频中人脸图像检索[J].计算机辅助设计与图形学学报，2007，19（9）：1119-1125.

[5]魏小莉，楊黎东，种衍文，等.基于视频元数据信息的快速图像检索[J].计算机工程，2010，36（12）：7-9.

[6]汪亚明，黄文清，周海英.动态图像序列中的运动目标检测[J].计算机测量与控制，2003，11（8）：564-565.