模糊图像语义分割

2018-11-22广东工业大学自动化学院王德培

电子世界 2018年21期

广东工业大学自动化学院王德培谢云

针对语义分割无法较好的处理模糊图像的问题，提出一种双边滤波算法与ENet框架结合的模糊图像语义分割方法。双边滤波算法在去除图像噪声的同时能够保持图像的边缘信息；增强边缘信息的图像借助ENet（efficient neural network）框架进行语义分割。实验表明，提出的方法不仅在视觉效果上优于单纯的ENet，同时也能够更准确的分割图像中的事物。

0.前言

相机抖动、聚焦失败或雨雾天气影响导致拍摄画面模糊，不仅影响用户的正常使用也给图像语义分割后续工作带来巨大的挑战。图像语义分割是计算机视觉中的难点之一，在无人驾驶和增强现实领域具有广泛的应用。常见的图像去噪方法包括小波变换，高斯滤波和中值滤波。双边滤波是一种改进的高斯滤波算法。双边滤波广泛用于图像去干燥，图像强化和图像去雾（芦碧波,王乐蓉.全变分引导的双边滤波图像去噪方法[J].光学技术,2018,44(02):194-200）。图像语义分割是像素级的密集分类问题，其目标是对图像中的每个像素执行语义信息注释。深度学习在图像分类和识别方面取得显著成果。深度学习在图像语义分割方面的应用有2015年Jonathan Long和Evan Shelhamer提出的FCN（Shelhamer E,Long J,Darrell T,Fully Convolutional Networks for Semantic Segmenta tion[J].2017,39:640-651），2015年韩国Hyeonwoo提出的DeconvNet（Noh H,Hong S,Han B,Learning Deconvolution Network for Semantic Segmentation[C].IEEE,2015:1520-1528），2016年He Kaiming等人推出的ResNet（He KM,Zhang XY,Ren SQ et al,Deep Residual Learning for Image Recognition[C].IEEE,2016:770-778），2016年Adam Paszke等人提出的ENet， 2017年ChaoPeng提出的global convolutional network（Peng C,Zhang XY,Yu G,et al,Large Kernel Matters-Improve Semantic Segmentation by Global Convolutional Network[C].IEEE,2017:1743-1751）等。本文采用ENet框架，ENet是一种深层神经网络结构，专门为需要低延迟操作的任务创建。

本文主要讨论模糊图像语义分割问题。提出一种结合双边滤波与ENet框架的模糊图像语义分割方法。在通过双边滤波算法处理之后，图像被去模糊，然后由ENet框架进行语义分割。

1.双边滤波算法

双边滤波算法是用于维持对象边缘信息的图像处理方法。1998年，Tomasi和Maduchi提出双边滤波的定义（JIN LH,XIONG CQ,LIUH.Improved bilateral filter for suppressing mixed noise in color images[J].Digital Signal Processing,2012,22(66):903-912），定义为用作边缘保持的非线性滤波方法，以局部加权作为核心理念，同时能够满足像素点的几何关系和灰度相似性。双边滤波结合像素点的相似度确定权值系数，直接将像素作为处理单元能够在不破坏图像边缘信息的同时提升时效性，是非局部均匀滤波的简化（徐蕾,彭月平,贺科宁.基于改进双边滤波与随机共振的图像去噪算法研究[J].激光杂志,2018,39(08):142-148）。

假设噪声因子为Dh，表达式如下：

式中：

（姚海波,蒋建国,齐美彬,王超.拉普拉斯与双边滤波的图像去运动模糊算法[J].传感器与微系统,2017,36(01):139-142）。

双边滤波去噪时，对于亮度变换平缓的像素区域，邻近像素之间的亮度几乎没有变化，可看作一个低通滤波器；对于亮度发生显著变化的区域，将边缘亮度值相近的像素作为亮度平均值来代替原来亮度（唐智飞,禹晶,肖创柏.基于双边滤波的POCS超分辨率图像序列重建算法[J].中国体视学与图像分析,2011,16(1):84-88）。因此，双边滤波算法可以在去噪声的同时保留图像的边缘特征。

2.ENet框架

ENet框架是Adam Paszke等人2016年提出的，旨在解决大量浮点运算导致深度神经网络运行时间长，时效性低问题。ENet优化了模型参数，保持模型的高精度和快速的前向推理时间。表一给出了ENet框架（Adam P,Abhishek C,Sangpil K et al,ENet:A Deep Neural Network Architecture for Real-Time Semantic Segmentation[J].2016），输出规格是在给定输入图像为512×512时的值。该模型分为六个阶段：初始化阶段的卷积和Maxpolling结果concat到一起，做通道融合；第二阶段encoder，第一个bottleneck做下采样，后接4个重复的bottleneck；第三阶段encoder，其中bottleneck2.0做下采样，后接不同的卷积；第四阶段encoder，重复第三阶段但不包括下采样功能；第五六阶段decoder，包含一个上采样和两个普通的bottleneck。

表1 ENet框架

其中bottleneck block的设计借鉴了Resnet的方式，每个block分为两条路线学习残差。下采样的bottleneck主线包括三个卷积层：先22投影做降采样，然后卷积，再接一个11的做升维；辅线包括最大池化和padding层，最大池化负责提取上下文信息，padding负责填充通道至残差融合，融合后再接PReLU。非下采样的bottleneck主线包括三层卷积：先是11投影，然后卷积，再接一个11升维；辅线直接恒等映射，融合后再接PReLU。

3.实际测试结果

实验采用800600大小的图片进行去模糊与语义分割。图1展示的是双边滤波前后对比照，左图是模糊图像和右图是去模糊后图像。图2显示了语义分割对比照，左图像是模糊图像语义分割，右图像是去模糊图像语义分割。图2左图识别到树并没有识别到道路和车辆，右图识别到树、车和道路。

图1 双边滤波前后对比照

图2 语义分割对比照

4.总结

本文利用双边滤波和ENet框架相结合的方法实现模糊图像语义分割。该方法提高了模糊图像语义分割的正确率。在处理模糊图像时，双边滤波算法增强了图像中物体的边缘，提高了图像质量。图像去摸糊后，ENet语义分割框架能够较为准确的分割画面中物体，实验结果对比明显。今后将尝试不同的方法，继续探索图像去模糊和语义分割内容。