基于定向梯度直方图及支持向量机识别篮球裁判信号的研究

2021-06-02王罗景

商丘职业技术学院学报 2021年2期

王罗景

(商丘职业技术学院，河南商丘 476100)

人类通常只要看过例子就能识别新的手势，但这对于计算机来说，即使是识别定义明确的手势，如手语，也具有很大的挑战性，一般需要数千个训练示例才能学会.每个班级给出的单个训练示例的手势识别问题，就是所谓的一次学习.在每个类只有一个训练示例的情况下，统计机器学习的数据很可能会失败，因为它们会受到过度拟合问题的影响.此外，手势可以是静态的，也可以是动态的，更有甚者，有些手势既有静态元素也有动态元素，就像人类的手语一样.静态手势是将单个姿势保持一定持续时间的一种手势，而动态手势由一系列姿势组成，这些姿势可以是重复的，也可以不是重复的，并且其中姿势顺序和序列的定时可能是关键的[1].试图识别典型体育视频中裁判员的动态手势，对图像分割技术提出了巨大的计算要求[2].它需要对图像进行复杂的分析，并提取大量的图像特征，为进一步的分类和决策提供支持[3].

在篮球比赛中，裁判员有责任执行比赛规则并使用手势与得分表进行通信，如图1所示.但是，有时裁判和得分手之间可能存在手动沟通，这有可能会引起误解，从而延误比赛进程.裁判手势的自动识系统别既可以减少篮球比赛中对裁判决策的误解，还可以减少对比赛录像的自动注释，为观看比赛的观众提供实时信息.随着传感器和计算机技术的进步，人机交互(HCI)系统在我们的日常生活中变得越来越流行，而HCI技术可用于促进裁判员与运动员和比赛官员之间的交互[4].

图1 篮球裁判员的官方手语

1 相关工作

通常，有两种检测手势的方法：可穿戴传感器和计算机视觉.可穿戴传感器的方法是将传感器附着在受试者的手臂上或紧贴在手臂的衬衫上. 例如，Chambers等人[2]使用从腕带收集的加速度数据对板球比赛中的10个裁判手势进行了识别，已实现了99%的准确性.Yeh等人[5]使用具有深度置信网络和时域特征的表面肌电(sEMG)和三轴加速计(ACC)传感器来识别官方篮球裁判员的手部信号，准确率达到97.9%.

基于计算机视觉的方法分析是从相机拍摄的裁判员图像或记录的篮球比赛的视频序列中提取的静止图像，然后使用各种图像处理技术进行图像分割，提取出手势识别所需的图像特征.例如，Verma[6]通过使用有限状态机(FSM)来识别手部的运动.这些状态被假定为由模糊c-均值聚类形成的簇，然后在数学上找出每个簇的质心，从而确定有限状态机的状态，最终识别出手势.Guyon[7]描述了使用Kinect摄像机记录的Chalearn手势数据集，包括裁判摔跤信号和裁判排球信号.Trigueiros[8]等人提出了一个基于视觉的系统，该系统能够理解裁判的动态和静态手势，并且进行实时手势跟踪和特征提取，采用支持向量机(SVM)进行静态手势识别，采用隐马尔可夫模型(HMM)进行动态单程手势识别，其对于手势的识别，准确率达到98.2%.Shanjia[9]利用肤色信息和形态过滤器生成用于识别手势含义的特征向量，并将其应用于体育教学.

在这里，我们使用基于计算机视觉的方法进行篮球裁判手势信号的识别，这是科学文献中首次尝试从静止图像中识别篮球裁判手势信号.

2 方法

2.1 图像预处理

图像颜色及其相互关系通常用颜色图案或调色板来描述.我们分析的视频剪辑使用RGB调色板，由三种原色组成：红色(R)、绿色(G)和蓝色(B).在技术上，RGB三原色很容易使用，但它不太适合于图像处理，因为这些颜色的成分高度相关.这是分析图像和实现识别算法的一个问题.出于这些原因，使用式(1)将RGB图像转换成黑白两半：

BW=0.333R+0.333G+0.333B

(1)

如图2所示，图中这些点是以8位来描述的，因此，当查看点的强度时，它的范围从0(黑色)到255(白色).

(a)裁判图像 (b)直方图图2 篮球裁判员图像及其直方图

2.2 边缘检测

下一步是找到边缘，以便更好地区分裁判的形状，这样的点用两个比特来描述.使用边缘检测方法，可以补偿由于不同图像光照或质量引起的误差.在对Kirsch[10]、Sobel[11]、Prewitt[12]、Canny[13]和增强型Canny[14]方法进行实验测试之后，我们决定使用Sobel的方法，通过选择适当的阈值，可以看到裁判的轮廓.Sobel使用运算符计算图像的二维空间梯度，突出与边缘相对应的空间频率区域.通常，它用于确定灰度图像中每个点的近似绝对梯度大小.

Sobel使用的运算符由一个3×3点窗口组成，并在图像中滑动.其内核被设计为最大限度地响应与像素网格相关的垂直和水平边.假设Gx是水平边缘的渐变，而Gy是垂直边缘的渐变，则渐变大小表示为如下式子：

(2)

当3×3窗口在整个图像中移动时，转换每个像素的值(范围从0到1)，选择一定的值(裁判轮廓检测选择的值为0.7)，区分期望图形的轮廓.样本图像的边缘检测结果，如图3所示.

图3 使用Sobel方法进行边缘检测

2.3 特征提取

在图3中，照片中只有一个人(裁判)，因此，最重要的是将裁判从背景中分离出来，然后识别他的手势.即使在不知道这些参数的情况下，也可以根据局部强度或边缘方向来描述对象的外观和形状.实际上，这是通过将窗口划分成小的空间区域(又称单元)来实现的，而在每个单元中有一维梯度方向的局部直方图.通过将利用直方图获得的图像与区分特征相结合，该特征提取方法被称为定向梯度直方图(HOG)方法.

求梯度，需要窗口i的灰度图像(大小取决于单元格的大小)，则梯度Ix和Iy表示如下：

(3)

然后将渐变转换为极坐标，并将它们的角度限制为0度到180度，以便在不同方向显示的渐变具有相同的角度：

(4)

对每条轨迹，在方向B(B=9)上计算定向梯度的直方图.但由于每条轨迹上的方向较少，所以方向比较接近的两条轨迹的像素在分配时可能会相互干扰.为了避免这个问题，每个单元被分配到两个封闭的隐窝，像素梯度大小的一小部分μ值线性减小，这取决于来自两个相近方向的像素灰度.

如图4所示，我们可以看到梯度是如何分配给相邻的70度和90度中心的.该波瓣的渐变方向为77度，第三个方向的渐变指定为0.65μ，第四个方向的渐变指定为0.35μ.两个赋值之和始终等于μ.

图4 当B=9时查找梯度

框架被分组为重叠的2×2块，每个块的大小为2C×2C像素.两个垂直或水平连续的块被两条路径覆盖，这意味着块的步长是C个像素.结果，每个单元格被四个块覆盖.组合四单元直方图，并在每个块中获得一个特征值b，并使用欧几里得形式对其进行归一化：

(5)

这里ε是一个小的正常数，以避免在没有梯度的块中除以零.

最后，通过将归一化块的特征组合成一个向量(在最小搜索前后进行两次归一化)来计算HOG特征：

(6)

这里hn是h的第n个输入，τ是一个正阈值.

裁剪h输入以使其不超过τ(在第一次归一化之后)可确保非常大的渐变不会有太大影响，否则将丢弃其他图片的细节.最终的归一化使得HOG特征独立于整个视频对比度.得到的HOG特征由许多直方图组成，这些直方图比块大四倍.在本文中，所有训练照片都被裁剪到128×64像素.如果使用4×4像素路径，则照片将水平适合16个单元格，垂直适合32个单元格，从而产生垂直31个块和水平15个块，因为块由4个轨道组成，每个直方图有9行，然后按以下方式计算矢量h的结果长度：

h=31×15×4×9=16 740

(7)

使用不同单元格大小的HOG特性的可视化图，如图5所示.

图5 使用不同单元格大小的HOG特性图

由于视觉上很难确定哪个单元的大小最适合用于裁判，为了可以方便将其标志与背景区分开来,因此，具有不同单元格大小的求和向量之间的差值计算如下(差值越大，裁判手势越容易分类)：

ndiff=∑(h1-h2)

(8)

2.4 分类

支持向量机(Support Vector Machine，简称SVM)是一种带有监督器的分类器，其运算的基础是不同类别的点之间的最优分离.支持向量机根据训练数据定义超平面.超平面形成了进行分类的决策的边界.超平面的设计基于核函数将输入数据分成两类.大多数SVM分类器可以将对象分为两类，但如果需要，也可以采用多级分类方案.超平面可以描述为由某一函数表示的直线.这条线是在距所有数据点的最大距离处选择的，因此，减少了数据中噪声的影响.SVM算法的目标是寻找最优边界，超平面是寻找类间的最大数据边界.

3 实验和结果

从Youtube下载的视频资料被用来作为识别篮球裁判的信号.在这些信号中，裁判站在摄像机前，所有的手势都清晰可见.总共有20个图像被裁判员剪下，分为四类数据：站立裁判(无手势)、三分手势、停钟手势和球员替补手势.图6显示了从视频剪辑中剪切出来的样本图像.

图6 数据集中的示例图像

三个手势标志(三分，替补，停止钟)加上一个站立裁判标志(没有显示手势)，总共有四类手势试图被识别.对于每个类，使用20种不同的图像，并显示不同的手势标志.通常，SVM分类只用于两个类(正类和负类)，但是在这种情况下却使用了多级分类.用4×4路径区分HOG方法的特征，将20×16 740向量分配给一个类.

我们使用标准准确率和F-Score度量对分类结果进行评估，获得了0.975 0的准确率和0.949 5的F分数.分类结果的混淆矩阵，如图7所示.停钟和三点信号很容易区分，但由于训练数据量小，单个站立裁判和替换信号混合在一起，它们之间的差异很小.

图7 手势标志类混淆矩阵

4 结论和今后的工作

本研究实现了篮球裁判员手势信号的分类器设计.首先，将来自视频流的图像转换为黑白两半，并将其改为128×64像素，同时使用Sobel边缘检测方法识别边缘.其次，使用HOG特征提取方法，获得由向量描述的大小为4×4的单元图像，长度为h=16 740像素.最后，在应用SVM分类后，我们获得了0.975 0的识别精度，F分数为0.949 5的分类器.在今后的工作中，我们将不采用静止图像，而是在一个更大的篮球裁判员手势信号图像数据集中，去评估我们的方法，并在现场视频资料中测试该方法，旨在将此研究应用于现实的篮球比赛中.