APP下载

基于分割块的图像语义分割方法

2018-04-09董洪伟钱军浩

传感器与微系统 2018年4期
关键词:精确度边缘语义

曹 攀, 董洪伟, 钱军浩

(江南大学 物联网工程学院,江苏 无锡 214122)

0 引 言

在计算机视觉领域,图像语义分割主要的任务是识别图像中每个像素对应的类别,能够有效地表达整幅图像涵盖的全部信息,并联合解决目标检测和多类别标注问题。由于图像经常会受到不同光照强度,物体的遮挡以及物体种类繁多和复杂的场景问题,使得提取的像素特征不能很好地表达像素的语义信息,导致像素标记错误,所以,如何有效地提取图像中对象的整体信息,描述图像中对象的轮廓,一直以来都是值得研究的关键问题。

对于传统的图像分割[1],依据分割原理的标准不同,普遍分为以下分割算法:基于阈值[2]、基于边缘[3]、基于区域、基于小波变换以及基于数学形态的方法。其中,基于数学形态的分水岭算法[4]较为经典。结合分水岭算法,Arbelaez P 等人提出了一种轮廓检测算法[5],运用全局像素边界(global pixel boundary,GPB)算法计算每一个像素作为边缘的概率,再通过超度量轮廓图(ultrametric contour map,UCM)算法生成轮廓图。李昌兴[6]提出了一种谱聚类图像分割算法,引入加速均值算法代替原有的K均值算法,缩短了时间损耗。现有的图像语义分割方法[7~9]直接在像素的基础上训练模型,单纯在像素上训练模型很难描述对象轮廓,从而使得语义分割难以获得理想效果。本文提出了一种基于分割块的图像语义分割(image semantic segmentation method based on the block of image segmentation,BIS-ISS)方法,有效解决了基于像素模型下的对象缺失及不完整的情况,并且算法在精确度、鲁棒性和速率方面均有良好表现。

1 BIS-ISS方法描述

BIS-ISS方法,具体步骤如下:

1)采用结构森林法[10]生成图像各像素的边缘概率;

2)将生成的边缘概率图经由分水岭算法将图像划分为初始区域块;

3)为防止分水岭算法过度分割,通过UCM算法选取阈值,将初始区域块细分为需要的图模型;

4)对图模型中的分割块提取特征,利用随机森林训练分割块得到语义分割结果,实现了一种具有较高精确度、鲁棒性及速率的图像语义分割方法。

2 分割块的生成

2.1 边缘检测

边缘检测能够很好地表达图像中对象的轮廓信息,轮廓形状是目标对象几何形态描述的重要表现内容。传统的水平集模型建模过程不仅耗时,而且可导致计算结果不稳定。对此,考虑到一般的图像块对图像的局部特征有很好的表现效果,例如直线或者是T型交叉点。本文利用图像块对边缘有很强的学习能力,采用结构森林[10]的学习方法建立随机决策森林,学习每个像素的边缘概率,不但解决了耗时问题,更取得了很好的边缘检测效果。效果如图1。图1(a)和图1(c)为输入图像,图1(b)和图1(d)为对应的边缘图像。

图1 边缘图像

2.2 图模型

在边缘检测的基础上,利用分水岭算法将边缘图转换为初始分割块,考虑到过度分割问题,利用UCM算法将初始分割块转换成图模型

G=(Pi,Ki,W(Ki))

(1)

式中Pi为分割块;Ki为弧,W(Ki)为该弧的强度。该图以分割块作为节点,若两个分割块相邻,则其对应的两个节点相连,连接强度为W(Ki)为

(2)

式中Pi为分割块之间相邻像素的边缘概率值;n为相邻分割块间像素个数。以两两节点之间的W(Ki)作为衡量标准,按照W(Ki)升序排列,依次将W(Ki)小的节点合并,直到最后仅余一个节点,在完成遍历的同时生成图模型。

3 提取分割块特征

传统语义分割方法针对像素进行训练,无法准确把握图像中对象的轮廓信息。训练时单纯对像素提取特征忽略了像素间的局部空间信息,不能很好地表达图像中对象像素之间的区域结构信息。本文采用核描述、核匹配方法,通过2×2网格模型提取像素的纹理特征、颜色特征和梯度特征,对应于同一分割块的像素特征加权合并为分割块特征,使得分割块带有局部空间信息。随机提取10块分割块生成特征图,如图2所示。本文利用随机森林算法对图模型中的分割块进行训练,针对图模型中的特征冗余信息较多和特征的重要性不同,对特征进行加权。

图2 分割块特征图

4 条件随机森林

随机森林F={Ti}中的每一棵树Tt都被独立训练。从每个图片,提取一组分割块

{Pi=(Ii,Ci)}

(3)

式中Ii为上文提取的条件特征;Ci为每个分割块的类别。在本文中,Ii被定义为

(4)

式中n为第i个分割块特征的维数。随机森林的学习方法对过度拟合一直有很好的效果,本文设计的随机森林在每个节点会随机产生一个阈值τ,进一步防止训练时出现数据过度拟合。针对每一个节点,都将有一个分割块的集合P通过阈值τ划分到PL和PR,左、右两个子孩子当中

(5)

PR=P-PL

(6)

树的构建关键在于每个节点的分裂φi,在每个节点会重复多次分裂,每次分裂左、右孩子节点之后,通过计算信息增益IG判断每一次分裂φi的优劣性,公式如下

φ*=argmaxIG(φi),1≤i≤n

(7)

(8)

(9)

式中 对于每个节点的分裂过程,采用类别比例计算熵。

本文采用了如下2种条件来确定叶子节点,当节点满足如下任一条件,则视该节点为叶子节点:1)节点达到预设定的深度;2)节点的信息增益值达到预设的阈值。直至所有样本到达叶子节点,训练终止。

5 实验结果与分析

5.1 实验设计

为了验证方法的有效性,本文的图像数据集采用Stanford Background数据库[11],数据库共715幅复杂的户外场景图片,每张图像大小为320像素×240像素,并附有逐像素标注好的正确语义图片。每个像素被划分一类,共8个类别,总计5 491万多像素标记样本。类别分别为:天空、树、马路、草地、水、建筑物、山脉和前景对象。实验效果如图3。图3(a)为输入的测试图像,图3(b)为预标记的像素正确标记的图像,图3(c)为本文算法预测的语义分割图像,图3(d)为本文算法语义标注失准图像,以像素为单位,标记错误的像素为黑色,正确的为白色。图下方8个色块分别代表8个不同的类别。

图3 实验效果

5.2 实验分析

5.2.1 精度分析

随机提取5组训练测试集进行实验,并计算图像像素精确度,对所有测试样本测试的结果得到的精确度与其他方法对比如表1所示。本文通过对边缘检测的方法得到的分割块进行训练,相对其他对像素进行训练的方法[7~9],在把握对象轮廓上有明显优势,使得在精确度上相对其他方法有明显改善。

表1 像素精确度 %

5.2.2 鲁棒性分析

根据上述实验,可以得到每种类别的像素所预测的类别分布,如图4所示。可以看出天空、树、马路、草地、建筑物以及前景对象这6类的像素均对本身的类别有较好的识别性。但是水类的精确度过低,并且大部分被误认为马路类别,这是因为水类受光照等影响很容易近似看成马路类。同时,由于山脉类自身像素个数较少,导致精确度不够,这也是实验的不足之处。

图4 预测类别分布

通过取不同阈值的分割块进行训练,阈值的选取采用公共阈值[0.1 0.2 0.3 0.4 0.5]。计算每个阈值下的平均精度与全局像素边界算法GPB[5]对比如图5所示。实验证明:GPB算法在不同阈值下像素精确度相差较大,这是由于GPB在不同阈值下分割块数量波动较大,导致GPB精确度下滑。本文提出的BIS-ISS方法,能够稳定生成分割块,所以在不同阈值的情况下算法均有良好的表现。

图5 稳定性对比

5.2.3 速率分析

采用BIS-ISS方法生成分割块,保持了良好的分割效果的同时,在速度上相对Arbelaez P[5]提出的GPB/UCM算法也有提升,对比如表2。表2基于斯坦福数据集[11],将现有算法与本文算法分割块的生成速率对比。其中,S为单一尺度,M为多尺度。

表2 分割块速率

5.2.4 细节分析

对于多尺度深度网络方法[7],局限于将图像分为多个固定大小的方框,并对其进行语义预测,使得不能对事物对象的轮廓很好地概括,是其对像素最终语义标注正确率相对较低的重要原因之一。对此,本文利用的结构森林/UCM结构对事物轮廓有很强的概括能力,图6给出了部分语义分割效果,在对人物,车辆等对象的轮廓细节上有较好地描述,从而提升像素精确度。

图6 细节分析

6 结束语

针对像素训练模型容易忽略的图像空间结构信息,无法描述对象轮廓,提出了一种基于分割块的图像语义分割算法。通过结构森林/UCM结构,生成分割块,再构建条件随机森林树模型,训练得到语义分割结果。实验表明:该算法能够减少生成图像分割块的时间损耗,同时拥有较好的鲁棒性,并在最终的结果中获得良好的精确度和对象轮廓信息。由于特征描述采用核描述提取特征,对于部分分割块无法有效地提取特征,导致部分分割块预测出现误差,影响总体精确度。下一步的工作目标将是提高有效特征的提取,以获取更高的精确度及较好的语义分割效果。

参考文献:

[1] 王爱明,沈兰荪.图像分割研究综述[J].测控技术,2000,19(5):1-6.

[2] 宋亚玲,欧聪杰.Tsallis熵的参数在图像阈值分割中的应用[J].传感器与微系统,2015,34(11):150-153.

[3] 钮圣虓,王 盛,杨晶晶,等.完全基于边缘信息的快速图像分割算法[J].计算机辅助设计与图形学学报,2012,24(11):1410-1419.

[4] Vincent L,Soille P.Watersheds in digital spaces:An efficient algorithm based on immersion simulations[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1991,13(6):583-598.

[5] Arbelaez P,Maire M,Fowlkes C,et al.Contour detection and hierarchical image segmentation[J] .IEEE Transactions on Pattern Analysis and Machine Intelligence,2010,33(5):898-916.

[6] 李昌兴,黄艳虎,支晓斌,等.基于加速k均值的谱聚类图像分割算法改进[J].传感器与微系统,2016,35(9):137-140.

[7] 马成虎,董洪伟.一种基于深度学习的多尺度深度网络的场景标注算法[J].计算机工程与科学,2016,38(7):58-63.

[8] 孙丽坤,刘 波.基于分层区域合并的自然场景理解[J].计算机系统应用,2014,23(11):116-121.

[9] Taygun K,Emonet R,Fromont E,et al.Contextually constrained deep networks for scene labeling [C]∥Proc of British Machine Vision Conference,2014:1.

[10] Dollar P,Zitnick C L.Structured forests for fast edge detec-tion[C]∥IEEE International Conference on Computer Vision(ICCV),2013:1841-1848.

[11] Gould S,Fulton R,Koller D.Decomposing a scene into geometric and semantically consistent regions[C]∥IEEE International Conference on Computer Vision(ICCV),2009:1-8.

猜你喜欢

精确度边缘语义
研究核心素养呈现特征提高复习教学精确度
语言与语义
“硬核”定位系统入驻兖矿集团,精确度以厘米计算
一张图看懂边缘计算
“上”与“下”语义的不对称性及其认知阐释
认知范畴模糊与语义模糊
语义分析与汉俄副名组合
近似数1.8和1.80相同吗
在边缘寻找自我
走在边缘