APP下载

一种高精度的体育商标分割算法

2023-01-31岳英杰徐荣青

计算机应用与软件 2022年12期
关键词:像素点标签阈值

岳英杰 刘 盼 徐荣青

(南京邮电大学电子与光学工程学院 江苏 南京 210046)

0 引 言

随着信息服务的蓬勃发展,商标识别的应用越来越广泛,例如在电子商务平台监测用户参与度[1-2],在日常生活中特定领域的标志物识别(例如车辆标志[3]和交通标志识别[4])。在体育领域,赞助商每年在体育营销上花费数百万欧元,俱乐部赞助球队,每年要在球队上投入一大笔金额。因此赞助商和俱乐部希望以更有效的途径让更多的观众直接、方便地获取赞助商和俱乐部的宣传信息,通过运动员商标识别来连接到主页URL是一种新的推介方式,所以从运动员穿着的衣物上进行商标识别是非常有必要的。早些年间,Chattopadhyay等[5]在体育比赛中,实时将场地旁边的广告牌识别,以完成宣传赞助商的目标。Kim等[6]提出了一种基于文字的实时监测与识别运动场地广告牌的算法。

进行商标识别的前提是对商标进行分割。将商标分割的目的是为了分割出无关背景[7],只将商标作为分类器的训练内容,有效地减少了背景等无关项的干扰,有利于训练准确性的提升。但是由于运动员在球场上剧烈运动,这就导致衣服上的商标具有旋转、平移、缩放的特性,并且受环境的影响,例如光照不均匀、图像背景复杂、图片模糊情况的影响,所以传统图像分割算法易造成欠分割或者过分割的情况。本文针对上述复杂情况下的图片,提出一种Graph Cut与Grab Cut相结合的改进算法,为后续商标识别提供了技术支持。

1 相关算法

1.1 Graph Cut

Graph Cut现在已经成为解决一类能量最小化问题(例如计算机视觉中的图像分割)的主要选择方法之一。Graph Cut最初是由Boykov等[8]在解决马尔可夫随机场的能量最小化问题时提出来的,并且他们还得出了如何使用Graph Cut得到近似最优解的方法。

Graph Cut是基于图论的分割,如图1所示,黑色的点代表像素点,整幅图像被重构为图1所示的结构,第一类边为相邻像素之间的边,称为“n-links”,第二类边为每个像素与s和t连成的边,称为“t-links”。图像分割的结果就是将s与t分开,其中与s相连的为前景像素,与t相连的为背景像素。Graph Cut使能量函数E(A)最小完成分割。

E(A)=λR(A)+R(B)

(1)

式中:A={A1,A2,…,AP}为每个像素的标签label,Ai为0(背景)或1(前景);λ是区域项和边界项之间的重要因子,决定它们对能量的影响大小;R(A)为区域项;R(B)为边界项。

(2)

(3)

(4)

r,g,b∈[0,255]

图1 Graph Cut连接图

图片重构的结果如图2所示,可以看出,图片依照轮廓被分为了很多不同的区域,其中分割区域的多少受设为相似区域的像素距离阈值影响。

图2 Graph Cut图片区域重构

1.2 Grab Cut

Rother等[9]在SIGGRAP 2004中通过将Graph Cut算法迭代,提出了一个基于Graph Cut迭代的Grab Cut算法。通过构造前景中和背景中的两个标记的能量函数,将分割问题转化为两个标记问题。该算法最终可以确定每个像素是属于背景还是前景,以便它可以使能量最小化。

Grab Cut算法的步骤如图3所示。首先,用户选择一个感兴趣矩形(ROI)。然后与原始图像具有相同像素的掩膜图像被初始化,用来记录图像分割的结果。掩膜图像的每个像素点只有四种取值,分别为0(表示明确属于背景的像素)、1(表示明确属于前景的像素)、2(表示可能属于背景的像素)、3(表示可能属于前景的像素)。然后,利用式(5)-式(7)计算被称为边界能量项像素的n-links,并根据用户选择的感兴趣区域矩形,建立前景和背景的GMM模型。

图3 Grab Cut算法流程

(5)

(6)

(7)

式中:μ为三通道的高斯分量的均值向量;Σ为3×3的协方差矩阵。

在算法继续往下进行之前,紧接着利用K-means聚类算法[10]将组成GMM模型的所有像素点分为k类。基于此聚类的结果,GMM模型的参数θ和t-links也可以被计算出来。值得注意的是,在使区域能量也就是t-links最小化过程中,应该多次迭代k和θ以满足最小化。因此,s-t网络被建立,并且通过最小割/最大流算法将图像分割。

在图4中,(a)是原始图像,(b)是Grab Cut分割的结果(GMM模型中的参数K=500)。可以看出,Grab Cut的一个缺点是当商标与背景颜色相似时,分割后会出现一些图像碎片噪声,也就是我们所说的欠分割情况。这种情况会导致前景提取的不精确,为接下来的商标识别增加很多干扰和影响。因此,改进此分割算法显得尤为重要。

(a) 原始图像(b) Grab Cut分割结果图4 Grab Cut分割结果

2 改进的商标分割算法

根据前文的分析,Graph Cut算法在分割图像时,算法利用了物体位置和边缘的信息,当一幅图像中存在很多噪声时这种方法是十分有效的。从图4(b)中我们可以看出,Grab Cut算法存在很多不足,当图片的背景与前景颜色相近时,这幅图片很可能被欠分割。并且受到环境因素、光照等情况的影响,尽管某些部分与目标前景明显不同,但是Grab Cut算法不能很好地分开与前景无关的背景干扰像素。

所以在进行图像分割之前,有效地进行预处理是接下来工作的根本。因为Graph Cut利用了图片的边缘信息,所以本文考虑使用锐化处理。锐化处理的目的是为了增强图片的边缘,使得目标物体的边缘鲜明,以便于提取目标的边缘,对图像进行分割。本文采用拉普拉斯算子进行图像锐化,它是根据相邻像素之间的变化程度来计算的。一阶函数微分描述的是函数变化的方向,二阶函数微分描述的是函数变化的速度,用图像来解释就是一阶函数微分能确定图片的边缘是否存在,而二阶函数微分能确定图片边缘的位置。

考虑到锐化是在Graph Cut算法之前进行的,而前文描述的Graph Cut算法在计算相邻像素的连通值时采用的是8连通法。如图5所示,所谓的八连通法就是在计算周围像素到中心像素的影响时,考虑上、下、左、右、左上、右上、左下、右下一共8个像素。

图5 图片中像素的8连通示意图

来计算,得到的锐化图像g(x)为:

(8)

本文考虑了锐化步骤在增强图像边缘的同时,也会将噪音增强,所以在进行锐化处理之前将图片先进行高斯滤波。

另外针对分割不精确,Grab Cut还提供人工修改掩膜的权利,又多了一次交互过程,本文将修改掩膜的步骤提前进行,因为图像分割的实质是迭代使得图像每个部分的能量函数最小化,此时输出的最优结果为最佳分割。而在Graph Cut算法中,仅涉及两类能量,第一类是像素点与图像区域不同的能量,称为点与类的能量;第二类是像素点与像素点之间不同的能量,称为点与点的能量。两个能量之间所占的比例关系使用Potts模型参数K来控制比例,当点与点的能量所占比例高时,像素局部平滑约束就越高,图像就越平滑,图像分割保留的细节就越少。所以利用双阈值首先将图片进行初步过滤,直接将图片的某些部分视为前景或背景的部分,再送入Grab Cut进行迭代。

根据上述情况,本文提出的改进算法步骤如下:

(2) 对高斯滤波之后的图像进行拉普拉斯算子锐化处理,增强图像边缘。

(3) 对整幅图像使用Graph Cut算法,统计出每个像素的标签值。

(4) 用户进行交互,将目标前景用矩形框圈出,并统计矩形框中有多少种标签和属于该标签有多少数量的像素。

(5) 计算矩形框中每种标签的像素占整幅图像属于该种标签的像素比例。

(6) 设置阈值H1和H2,两个阈值的设定根据特定的图片应用场景,根据图片分割的平滑约束度,利用K值来设定阈值H1和H2:

(9)

(10)

式中:K代表Graph Cut算法设定的Potts模型参数;P代表用户交互后得出的矩形框中像素点的总数;Connectsize代表像素点与其相邻8邻域像素点的连通平均值。

即H1为低阈值,H2为高阈值,比例小于H1,则将矩形框中的属于该标签的像素视为背景的一部分,若比例大于H1小于H2视为可能的背景,若比例大于H2视为可能的前景。

(7) 根据判决比例和矩形框中的标签值,生成掩膜图像。

本研究严格按照Delphi专家咨询法,构建了一套科学、合理的康复专科护士核心能力评价指标体系,包括8个一级指标、21个二级指标和66个三级指标。专家对各个指标的意见具有高度的一致性,可信度高,同时具有一定的科学性和权威性,并且各指标的权重设置合理,为康复专科护士培养、资质认证和能力评价提供参考依据。本研究并未对指标内在品质进行研究,因此,对康复专科护士核心能力评价指标的信效度检验,将是下一步研究的重点内容。

(8) 利用生成的掩膜图像去初始化Grab Cut算法,完成图像分割。

假设矩形图像中N个标签,每个标签k=1,2,…,N,每个标签中像素的数量是Sk。用户交互完成后,在矩形框中有i个标签,属于这i个标签的像素为Ri(i=1,2,…,N,i∈K)。通常,用户交互后的矩形中像素所占所有像素标签的比例定义为:

(11)

Lk的含义是矩形框中的一个像素属于背景的可能性。若Lk=1的含义就是属于该标签的所有像素都处于矩形框中。Lk的值越接近于0,越能说明该像素属于背景。所以,当计算出的Lk低于设定的阈值H1和H2,在掩膜中该点的取值由可能的前景变为可能的背景或背景,从而减少背景像素的干扰。

3 实验结果分析

通过实验我们发现,阈值的大小会严重影响分割的结果,不同应用场景下阈值不同。针对此应用场景,通过式(9)和式(10)计算得出H1=0.3、H2=0.8。图6是使用改进后的算法分割的结果。可以看出,改进之后的算法相比较于传统Grab Cut算法在精度上具有明显的提升,有效地满足了欠分割的问题。另外我们从实验得出,当阈值设置过低时,改进的算法不是很有效。若将阈值H1和H2设为0,那么改进后算法的结果将与传统Grab Cut一致,算法改进将变得没有意义。

图6 改进算法分割结果

另外,Graph Cut初始化设置分割区域数量的多少也会对分割结果产生重要的影响。而分割区域的数量与K值的大小有关。K值越大,则两个像素相隔的距离越近,一幅图像被分成的区域越多;反之K值越小,两个像素相隔的距离就远,一幅图像被分成的区域越少。图7(b)展示了设置过多的分割区域数量,算法的精度将会下降。图8展示了不同的K值对分割精度的影响,可以看出,K值在一定范围内不会对分割精度产生很大的影响,但是将图片分割成更细小的区域意味着需要更多的时间,所以在保证大概分割区域数量对精度影响很小的情况下,尽量减小K值,使分割区域尽可能少,这样分割的速度会有一定程度上的提升。

(a) 原始图像

(b) K=800

(c) K=600图7 不同K值对图像的影响

图8 K值对算法精度的影响

4 算法评价

本文从BelgaLogos公开数据集中选择了100幅图片,并用Photoshop图像抓取工具分割它们的背景作为完美分割的参考图像。评价分割算法最重要的指标是精确度,本文使用标准的Jaccard相似度指数对改进算法的精确度进行验证。Jaccard相似性指数是衡量两个集合的相似性的指标,利用式(12)计算出每幅图片的Jaccard相似指数,再取平均,得到算法的精确度结果。

(12)

式中:S1和S2指的是两个集合,在本文中,S1为改进算法的分割结果图像,S2为参考图像。

(13)

式中:i=0,1,…,99代表每幅图片;Ji(S1,S2)代表每幅图片的Jaccard指数。

改进算法的分割结果展示在表1中。可以看出改进后的算法对分割精度有了很高的提升,但是精度的提升受到了特定图片的限制。另外,本文将算法改进结果与Wicaksono等[11]提出的K-means改进算法相比较,在精度方面有相对程度上的提高。

表1 算法结果

同时,从不同的性能指标验证分割方法是非常必要的,本文使用峰值信噪比(PSNR)指标来评判分割的性能,一定程度上验证了改进算法的说服力。利用式(14)计算得出的均方误差MSE,是反映估计量与被估计量之间差异程度的一种度量。

(14)

式中:m代表图像的宽度像素数量;n代表图像的长度像素数量;I代表算法分割之后的图像;K代表完美分割的参考图像。PSNR用来检测图像的质量,利用式(15)计算得出PSNR值。

(15)

式中:MAXI是表示图像点颜色的最大数值。PSNR数值越大,代表图像的质量越好。如图9所示,本文分别求得Graph Cut、Grab Cut、k-means分割算法和改进的Grab Cut算法的PSNR值,并以柱状图的形式展示。

图9 不同算法的PSNR比较

由图9可得,本文的改进Grab Cut算法具有最大的PSNR值,一定程度上验证了本文算法有一定程度上的性能提升,但是当目标物体比背景更大的时候,分割精度更高,因此,不是所有的图片都能体现出改进算法的优点。

5 结 语

本文提出一种基于体育商标的改进图像分割算法。实验结果展示了该算法的精确度,使用改进后的算法能使得商标分割准确率为94%,基本上满足准确分割体育商标的需要。但是,算法的缺点是增加了运行时间。本文的研究意义在于,发现了可以利用像素与像素之间的关系来改进Grab Cut的不足之处。

毫无疑义,当商标图片背景特别复杂时,对分割的精度会造成重大的影响,但是本文通过改进Grab Cut算法,使得在复杂背景下使Grab Cut分割精度有了一定的提升,有效解决欠分割和过分割的问题。

猜你喜欢

像素点标签阈值
基于局部相似性的特征匹配筛选算法
采用红细胞沉降率和C-反应蛋白作为假体周围感染的阈值
小波阈值去噪在深小孔钻削声发射信号处理中的应用
基于5×5邻域像素点相关性的划痕修复算法
无惧标签 Alfa Romeo Giulia 200HP
不害怕撕掉标签的人,都活出了真正的漂亮
基于canvas的前端数据加密
基于逐像素点深度卷积网络分割模型的上皮和间质组织分割
基于迟滞比较器的双阈值稳压供电控制电路
让衣柜摆脱“杂乱无章”的标签