基于形态学重建和边界融合的视频对象分割方法研究*
2018-05-05寇万里严丽娜
寇万里,车 嵘,严丽娜
(国防科技大学信息通信学院试验训练基地,陕西 西安 710106)
0 引 言
随着多媒体技术和互联网的高速发展,基于视频的应用已经越来越受到人们的重视。作为视频处理领域中的重要支撑技术,研究视频对象分割具有深远的现实意义和重大的应用价值。
1 视频对象分割
视频对象分割是进一步进行视频压缩、视频分析、视频检索[1]等高级应用的基础,是指在时空域上将视频分割成为一些视频语义对象的组合,这种有语义的实体在数字视频中称为视频对象。
自20世纪90年代初开始,视频对象分割就引起了许多学者的兴趣。近年来,视频对象分割算法已经成为多媒体领域的热点研究课题。在国外,欧美国家的一些研究机构,诸如美国微软亚洲研究院、Sarnoff实验室、Columbia大学等,亚洲的日本索尼和松下、韩国三星等公司,在视频对象分割、压缩、检索方面做了大量研究。在国内,清华大学、中国科学技术大学等也进行了相关研究[2-3]。虽然提出了多种分割算法,每种算法有其优点,但是也都有它们的局限性。分割算法还需进一步的研究。
关于视频对象分割的分类很多,其中根据分割过程所利用的信息不同,视频分割算法可分为时域分割算法、空域分割算法和时空联合的分割算法。时域分割技术主要利用视频序列的运动信息,通过变化检测、光流法[4]或运动矢量场估计等方法进行时域的分割。空域分割技术的实质是传统的图像分割技术,即按照一定的空间信息(包括颜色、灰度、边沿、纹理等)、变换域信息、统计信息和先验知识(对特殊视频序列)等,对图像中的一致性区域进行分割。时空联合分割技术一般通过时间分割标识运动对象,然后与空间分割得到的对象边界融合在一起,以得到更精确的分割结果。时空分割由于同时利用了时间和空间信息,因此可以取得更好的效果,是目前主流的分割算法。当前,视频分割算法的研究趋势之一,是如何更好地将时间分割与空间分割融合。
2 基于形态学重建及边界融合的视频对象分割方法
本文在研究多种算法的基础上,提出了一种基于形态学重建及边界融合的视频对象分割方法,流程如图1所示。该方法很好地融合了时域分割与空域分割结果,提取效果较好,且计算复杂度低。对多个测试序列进行实验,该方法取得了较好的分割结果。
2.1 空域分割
在空间域的分割中,本文采用分水岭变换进行分割,如图1的右上方虚线框。分水岭变换非常容易受到噪声的干扰而出现“过分割”现象。因此,在进行空间分割前,首先对原图像进行形态学重建滤波,强调整体,模糊细节,以使图像简单化,减少噪声的干扰。
图1 视频分割流程
对于图像f,其形态学梯度图像表示为:
其中,g为圆盘形结构元素。
经过形态学梯度处理后,图像中的灰度跃变急剧增强。较一般的梯度算子虽也对噪声敏感,但不会在检测边缘的同时增强或放大噪声。
由于图像本身灰度分布的不规则以及结构元素尺寸的影响,重建滤波后图像的梯度图中仍然存在一些局部的“谷底”和“山峰”,导致对滤波后的图像进行分割得到的结果仍然存在大量的小区域。然后,经过阈值判别后的形态学梯度图像作为分水岭变换的输入,把图像分割成不同的区域。为时空融合的需要,将各个区域及其边界进行标记。此方法很好地避免了“过分割”现象,合理降低了区域数量,避免了区域融合或减小了区域融合的难度和复杂度。
2.2 时域分割
在时间域分割中,采用变化检测的方法,如图1的左上方虚线框所示。它能够检测出视频序列中运动的对象。视频序列的噪声的统计量一般符合高斯特性,而运动对象则有很强的结构性,属于非高斯信号[5]。因此,分离运动目标与背景的问题即可转化为在高斯数据中分离非高斯数据的问题。
设帧差图像为d(s,t),以(x,y)为中心,取移动窗口η(x,y),移动窗口大小Nη=9,窗口内帧差图像的四阶矩为:
其中,窗口内帧差图像的平均值为:
其中,噪声方差定义为:
M属于背景的一块区域,一般在边缘地带选取。本文选取4个角区域作为背景区域估算噪声方差,能得到较好的效果。需要逐像素计算四阶矩,并与阈值相比较,阈值与此帧差图像的噪声方差的平方成正比,可写成c(δ2)2的形式,大于阈值的像素确定为运动像素;否则,确定为背景部分。
2.3 边界融合
边界融合也是本算法的关键步骤,如图1的下方虚线框所示,包括基于边界的四阶矩高斯检验和基于边界比重的运动区域判定。
基于边界的四阶矩高斯检验是将时间的连续性和空间的相似性结合,能较好地获得运动区域和准确的边界。时域分割中,四阶矩方法能够有效滤除高斯噪声,但速度慢;而边界的运动最为显著,边界上包含的运动信息更为可靠。空域分割中已定位准确的边界,所以仅对空域分割中边界像素进行四阶矩高斯检验。
基于边界比重的运动区域判定是,若边界像素的四阶矩大于设定的阈值,则判定当前像素为运动像素,同时累加该区域运动像素的个数,对每个区域边界上的所有像素的运动判定完毕后,根据累加运动像素的个数与该区域边界上的像素总和的比值(本文选取的比值为70%),判定当前区域是否运动。
论文为了提高算法的速度,克服时域中四阶矩滤除噪声慢的缺点,采用基于边界的融合方法,提升运算效率,得到了较好的效果。
3 实验结果及分析
下面以Claire序列为例说明本文视频对象检测的过程。图2(a)为Claire序列的第56帧原图;图2(b)是采用对图2(a)图进行形态学重建后的分水岭效果,很大程度上减少了过分割现象;图2(c)是为了指导时域工作,对图2(b)进行区域及边界的标识图像;图2(d)是在图2(c)的指导下,对帧差图像的边界进行四阶矩高斯检验,滤除背景噪声,仅对边界点进行高斯检验,大大减少了参与运算像素数目;图2(e)是利用边界比重法得到的最终检测模板;图2(f)是图2(a)的最终检测结果。
图2 Claire序列视频对象检测结果
4 结 语
在空间域通过对形态学的研究,实现了一种基于形态学重建及形态学梯度阈值判别的改进分水岭算法,有效抑制了“过分割”现象,取得了较好的效果。时间域采用变化检测的方法初步确定运动区域,采用高阶统计量的方法进行高斯检验,有效去除了视频序列存在的背景噪声。为了避免传统高阶统计量高斯检验速度慢的缺点,利用空域的分割边界作为指导,提出了基于边界的四阶矩,用以滤除噪声。较最初的四阶矩方法,该方法的运算效率提升了65%以上。最后,利用边界比重融合方法进行最后的时空融合获得视频运动对象,取得了良好的效果。
参考文献:
[1] 王美珍.最优视频子集与视频时空检索[J].计算机学报,2017(11):1-21.WANG Mei-zhen.Optimized Video Subset and Video Spatio-temporal Retrieval[J].Chinese Journal of Computers,2017(11):1-21.
[2] 余欣纬.复杂场景下视频目标自动分割算法研究[D].合肥: 中国科学技术大学,2017.YU Xin-wei.Research on Automatic Video Target Segmentation in Complex Scene[D].Hefei:University of Science & Technology China,2017.
[3] WANG Yu-hang,LIU Jing,LI Yong.Hierarchically Supervised Deconvolutional Network for Semantic Video Segmentation[J].Pattern Recognition,2017(04):437-445.
[4] 王大雷.基于LDOF光流算法的视频对象分割方法[J].南昌航空大学学报:自然科学版,2016(12):18-25.WANG Da-lei.Video Object Segmentation Method Based on LDOF Optical Flow Algorithm[J].Journal of Nanchang Aeronautical University(Natural Science Edition),2016(12):18-25.
[5] 张文启.基于特征提取的通信信号识别研究[D].兰州:兰州理工大学,2016.ZHANG Wen-qi.Research on Recognition of Communication Signals Based on Feature Extraction[D].Lanzhou:Lanzhou University of Technology,2016.