基于生物视觉机制的图像感兴趣区域快速获取方法研究

2016-11-09刘尚旺胡剑兰

计算机应用与软件 2016年9期

关键词：感兴趣神经元背景

刘尚旺　胡剑兰

(河南师范大学计算机与信息工程学院　河南新乡 453007)(“智慧商务与物联网技术”河南省工程实验室　河南新乡 453007)

基于生物视觉机制的图像感兴趣区域快速获取方法研究

刘尚旺胡剑兰

(河南师范大学计算机与信息工程学院河南新乡 453007)(“智慧商务与物联网技术”河南省工程实验室河南新乡 453007)

为快速准确地获取图像感兴趣区域，有必要从宏观视觉通道到微观视觉神经细胞全程模拟生物视觉机制。首先，在模拟宏观视觉where通道的超复数傅里叶变换HFT(Hypercomplex Fourier Transform)模型中，为突显图像中的显著目标，增加背景通道，抑制背景信息；其次，用模拟生物视觉神经元的脉冲耦合神经网络PCNN(Pulse Coupled Neural Network)来扩展HFT模型：将改进HFT模型的显著图作为简化PCNN的输入图像，并利用最小交叉熵分割出感兴趣区域。实验结果表明，该感兴趣区域提取算法的准确性达到98.1%，提取时间为5.732 s，能够快速准确地检测出图像的感兴趣区域。

视觉注意模型HFTPCNN感兴趣区域

0　引　言

当面对复杂场景时，人类能够迅速将注意力转移到图像中的感兴趣区域ROI(Region of Interest)，以便对其优先处理，这就是视觉注意机制。也就是说，ROI是指人类面对一幅图像时首先关注和注意的区域。心理学相关研究表明，ROI是能够对观察者的视觉系统产生新奇刺激的区域，这个区域最能够引起观察者的视觉注意。计算机视觉领域内，感兴趣区域检测技术能够区分出各个区域的重要程度，从而可以突出图像所包含的重要内容，消除冗余信息。图像感兴趣区域的检测提取与分析研究对图像压缩与编码、图像检索、目标检测与识别、场景分析和主动视觉等领域有着极高的应用价值。例如，在医学图像处理中，数据量很大同时对关键诊断区域的要求很高，此时提取感兴趣区域能够更加容易地定位该关键区域的位置，减少冗余度；在场景分析中，通过感兴趣区域的分析可快速地筛选出显著对象依次分析，便于进一步理解场景内容，从而避免无意义的图像计算。传统的感兴趣区域检测技术分为两种：一是通过人机交互技术来人为地标记感兴趣区域；另一种是通过提取一些特征点来进行感兴趣区域检测[1]。这两种方法的缺陷在于检测准确性和效率均不高[2]。

最近流行将视觉注意机制引入感兴趣区域检测技术中来，其原因在于加入视觉注意机制的感兴趣区域检测技术更加符合人类的视觉特性，即它从人眼特性出发，其结果更具可信性。文献[3]在相位谱傅里叶变换PFT(Phase spectrum of Fourier Transform)模型上，提出了基于视觉注意的阈值分割方法，通过对像素的属性进行分析提取出感兴趣区域。文献[4]受到生物学的启发，计算每个像素的全局对比值，计算显著图，并且对显著图阈值分割，得到感兴趣区域。文献[5] 根据生物注意机制，提出了一种基于视觉注意模型和进化规划的感兴趣区域提取算法。文献[6]提出利用Itti算法，并结合区域生长方法得到感兴趣区域。文献[7]采用相位谱四元数傅里叶变换PQFT(Phase spectrum of Quaternion Fourier Transform)视觉注意模型找出若干个感兴趣区域，然后利用脉冲耦合神经网络颜色匹配模型得到图像感兴趣区域的位置。

视觉注意模型VAM(Visual Attention Model)是感兴趣区域检测的可计算模型，能依次得到图像中最容易引起人们注意的ROI或显著区域[3]。不同于空间域图像特征提取的串行处理机制，超复数或四元数图像能够对图像视觉特征并行处理，更加符合人类视觉特点[7]。最近，Li等人提出超复数傅里叶变换模型HFT。通过对自然图像的振幅谱进行尺度空间的分析证实幅度谱中包含重要的信息，结合原始相位和振幅谱重建二维信号，从而得到显著图序列，以最小熵值选取最优显著图。实验证实该模型能够检测出不同大小的显著区域，有很好的性能[8]。

总的来说，VAM 是从特征整合的角度，在宏观视觉通道上模拟人类视觉注意机制。而与其有相同理论来源的脉冲耦合神经网络PCNN则在微观视觉细胞层次上，根据生物视觉神经元的线性相加和非线性调制耦合特性进行图像处理，较好地模仿了灵长类动物的视觉机制。由于能够捕获相似神经元同步发放脉冲等特性，PCNN在图像去噪、分割、识别和融合等领域中都展示出了良好的性能[9]。VAM和PCNN模型分别独立地发展到今天，各自的研究成果相当丰富。那么，宏观层次的VAM 有必要结合微观层次的PCNN 来进行图像语义获取，以进一步丰富图像理解与识别理论。

为更好地拟合人类视觉注意机制，本文结合VAM和PCNN，提出一种感兴趣区域检测算法：首先，为抑制背景颜色，在频域视觉注意模型HFT中增加背景通道；其次，将改进HFT模型的显著图作为PCNN的主输入，并利用最小交叉熵自动分割出感兴趣区域。

1　本文的感兴趣区域检测算法

本文的算法框架图，如图1所示。

图1　算法框架图

从图1可以看出，本文提取ROI的算法主要包含以下几个方面：(1)计算各特征图。分别计算颜色R-G特征图、颜色B-Y特征图、亮度I特征图、背景Z特征图。重点通过增加背景通道Z增强背景颜色的抑制能力，提出改进超复数傅里叶变换IHFT(Improved Hypercomplex Fourier Transform)模型。(2)对图像进行频域尺度分析，并计算各尺度的显著图。选择显著图熵值最小的显著图作为最优显著图。(3)确定分割范围。利用IHFT得到最优显著图，作为PCNN的输入图像。(4)PCNN分割出候选区域。通过最小交叉熵原则确定出PCNN最优的分割结果，从而提取出ROI。

2　改进HFT模型

VAM 是从特征整合的角度，在宏观视觉通道上模拟人类视觉注意机制，目前VAM主要有两类:空间域VAM和频域VAM。与空间域VAM相比，频域VAM具有准确性高、计算量小、手工调整参数较少，成为视觉计算领域研究的热点[8]。首个频域视觉注意模型谱残余SR(spectral residual)将自然图像先验信息的幅度谱从图像幅度谱中去除，然后将谱残余与原始图像的相位谱再进行傅里叶逆变换，得到显著图[10]。尽管SR方法计算快速简单，但是其缺乏生理理论基础，并且只能检测小的显著物体[7]。随后，Guo等人在SR的基础上进一步研究，提出PFT和PQFT模型[3,7]。而后文献[8]证实幅度谱中包含重要的信息，PFT和PQFT不应该直接去除幅度谱。SR、PFT、PQFT、HFT模型的显著图，如图2所示。

图2　SR、PFT、PQFT、HFT显著图视觉效果对比

由图2可以看出，SR方法利用去除先验信息的幅度谱和原始相位谱傅里叶变换得到显著图。PFT方法直接放弃幅度谱，只用相位谱进行傅里叶逆变换得到显著图，得到与SR几乎相同的显著图。由于幅度谱信息完全被遗弃了，只有相位信息起着很大的作用。因此，SR和PFT提高对象边界和纹理部分，只能检测到显著物体的边缘。进一步，PQFT在PFT亮度信息上进行拓展，得到RG、BY两个颜色特征图，亮度特征图，运动特征图，然后进行四元数的傅里叶变换，去掉幅度谱，利用四元数反傅里叶变换得到显著图，尽管三种特征通道并行处理，提高了计算速度，但由于同样摒弃幅度谱信息，导致PQFT只能得到显著目标的大致位置形状，仅突出边缘信息。而文献[8]证实振幅谱包含了非常重要的信息，并且充分利用振幅和相位得到显著图，该显著图能均匀地突出整个显著目标，对于背景和目标相似的显著目标也能检测出来。

因此，为检测图像的大大小小的显著性区域，本文利用文献[8]中提出的HFT模型生成显著图。HFT模型对自然图像幅度谱进行尺度空间分析，使用原始相位和振幅谱重建二维信号，从而得到显著图，再以最小化显著图的熵值选中的尺度进行过滤，熵值最小的显著图作为最终显著图。

2.1特征通道的构建

给定一个四元数矩阵：

f(n,m)=a+bi+cj+dk

(1)

可见，式(1)可以用来表示多个特征之间的融合。这样，式(1)也可以写为：

f(n,m)=w1f1+w2f2i+w3f3j+w4f4k

(2)

式(2)中，w1-w4是各特征的权重，f1-f4表示的是每个特征的特征图。在HFT中，f1表示运动通道。只考虑静态图像的情况下，式(2)中权值w1=0。

图像中的亮度、颜色拮抗对特征分别为：

f3=RG=R-G

(3)

f4=BY=B-Y

式(3)中，r、g、b分别为输入图像的红、绿、蓝三个颜色通道，4个广义颜色通道分别为：

R=r-(g+b)/2G=g-(r+b)/2B=b-(r+g)/2

Y=(r+g)/2-|r-g|/2-b

针对图像复杂、待识别目标区域或大或小的场景，特别是对于背景颜色与目标对象颜色差异较小的图像，如自然场景中的沙滩、建筑物，植被等户外图像，为提高感兴趣区域提取的精确性，使ROI中包含尽可能少的背景区域，同时增加感兴趣对象的显著性，本文在HFT模型中增加一个背景颜色通道。本文将原始彩色图像分离为各自独立的RGB三通道图像，将分离后的图像分别与均值进行背景差分。通过计算当前像素的颜色分量与输入图像对应的均值颜色分量的差值均值，将其作为该像素点的背景颜色值。通过增加背景颜色通道，增加背景全局颜色的抑制能力，在一定程度上消除冗余信息，从而得到完整独立的目标对象。这个背景通道如下定义：

(4)

式中，R、G、B分别为原始图像分离出来的第R、G、B通道的图像。E(r)、E(g)、E(b)分别为r、g、b通道的颜色期望值，并作为背景图像的像素灰度值。

通过利用背景、亮度、颜色特征图来建立视觉注意模型，其四元数形式是：q=Z+I+RG+BY。

因此，最终的四元数矩阵为：

f(n,m)=f5+f2i+f3j+f4k

(5)

式(5)中，f2-f5分别是亮度，颜色(2对拮抗色)，背景特征图。本文主要通过亮度、颜色和背景信息来研究静态图。

2.2显著性计算

在图像的频域分析中，幅度谱能够表示原始图像在不同的空间频率中能量的多少，而相位谱能够体现与频率从对应的正弦和余弦分量的位置。为此，需要同时考虑幅度谱和相位谱，得到显著图。

在HFT中，每个尺度的显著图计算公式如下：

(6)

式中，g为高斯滤波器，‖·‖表示超复数矩阵中每个元素的模。Λk(u,v)是尺度参数为k的谱尺度空间，且

Λ(u,v;k)=(g×A)(u,v)，Α是幅度谱。χ(u,v)是欧拉轴谱，P(u,v)是相位谱。

根据式(6)，得到一个显著图序列{sk}，如图3所示。

图3　显著图序列{sk}

图3显著图序列{sk}中，某一特定尺度kp对应最优的显著图。

(7)

式中，λk=∑∑Κ(n,m)·Ν(sk(n,m))，H2D(sk)=H{gn×sk}，∑∑Κ(n,m)=1。

图4　最终显著图

Ν(·)是用于将输入图像归一化。gn是一个低通高斯核。HFT中，当kp最小时，对应的显著图就是最优显著图。最终显著图如图4所示。

算法1IHFT显著性模型

输入：调整彩色图像C的分辨率为m×n

输出：图像C的显著图S

① 根据式(3)-式(4)，计算特征图{Z，RG，BY，I}；

② 根据式(5)，通过结合这些特征图形成超复杂矩阵f(n,m)；

③ 对于f(n,m)执行超复杂的傅里叶变换并且计算振幅谱A、相位谱P和欧拉轴谱X；

④ 使用高斯核来光滑振幅谱，从而获得光谱尺度空间{Λk}；

⑤ 对于每个Λk，根据式(6)获得显著图Sk，从而产生一系列显著地图{Sk}；

⑥ 从{Sk}中找到最好的显著图S，按照式(7)中介绍的标准，选择出最终显著图。

3　感兴趣区域的获取

HFT模型是通过特征整合在宏观视觉通道上模拟人类视觉注意机制。而PCNN则在微观视觉神经细胞层次上，根据生物视觉神经元的线性相加和非线性调制耦合特性模仿灵长类动物的视觉机制。因此，为全程拟合人类视觉注意机制，本文结合HFT和PCNN，将第2节得到最终灰度显著图I(i,j)，作为简化的PCNN模型的输入，同时利用最小交叉熵准则确定最优迭代次数，提取感兴趣区域。

F[n]=I(i,j)[n]

(8)

(9)

U[n]=F[n]×(1+β×L[n])

(10)

threshold(i,j)[n]=exp(-α)×threshold(i,j)[n-1]

(11)

(12)

式(8)表示(i,j)位置神经元的第n次迭代时输入的灰度值；式(9)表示PCNN神经元的连接输入项，N(i,j)为神经元(i,j)的邻域；式(10)表示内部活动项，每个神经元得到输入F和连接域L的反馈，形成内部活动项U；式(11)为动态阈值；式(12)为当前神经元的脉冲输出，为0或1。通过大量实验得到，α=0.1，β=0.1，Weight=[0.707 1 0.707；1 0 1；0.707 1 0.707]。

第一次迭代时，外界刺激I( i,j)等于神经元的内部活动项U，若此时I(i,j)大于threshold(i,j)，神经元输出Y为1，这是自然激活过程。与此同时，动态阈值threshold(i,j)急剧增大，并随每次迭代过程呈指数形式递减形式，在之后的迭代中，被激活的神经元通过与邻域内相似神经元的连接作用激励邻域神经元，形成链接输入L。若邻域某一神经元的内部活动项U大于当前阈值threshold(i,j)，则被PCNN捕获激活。伴随每次迭代，PCNN产生一个脉冲序列Y。

由于PCNN利用邻域神经元的输出Y对神经元输入进行调制，内部活动项既包含了神经元对应的像素灰度信息，而且充分体现像素邻域的信息。因此利用PCNN分割图像不仅能克服由于幅度造成的微小变化的影响，而且能够较为完整地保留图像的区域信息。但是由于该模型运行过程中迭代次数的不确定性，以及在分割过程中不能客观评价最佳的分割效果，为此，本文引入最小交叉熵准则判定迭代次数和最佳分割图像，进而分割出感兴趣区域。

算法2感兴趣区域获取

输入：IHFT得到的最终灰度显著图

输出：感兴趣区域

① 第一次迭代时，按照式(8)外界刺激I(i,j)等于神经元的内部活动项U；

② 若此时外部刺激I(i,j)大于阈值threshold(i,j)，则根据式(12)输出1。否则为0;

③ 与此同时，动态阈值急剧增大，并按照式(11)随每次迭代过程呈指数形式递减；

④ 在之后的迭代中，被激活的神经元通过与邻域内相似神经元的连接作用激励邻域神经元，按照式(9)形成链接输入L；

⑤ 若邻域某一神经元的内部活动项U大于当前阈值threshold(i,j)，则被PCNN捕获激活;

⑥ 伴随每次迭代，PCNN产生一个脉冲序列Y;

⑦ 根据最小交叉熵过程，求取一个PCNN的迭代次数n和最佳阈值，而与其对应输出的脉冲序列构成的二值图像，即最佳分割结果;

⑧ 将最佳分割结果与原始图像点乘，得到感兴趣区域。

4　实验结果与分析

为验证该算法对一般自然图像中感兴趣的目标物提取的有效性，本文算法在Inter(R) Core(TM) 3.2 GHz(内存16 GB)的硬件环境下进行，实验开发环境为Matlab R2012b。本文采用SIMPLIcity(http://wang.ist.psu.edu/docs/related/)图像库进行测试[17]。该图像库包含非洲土著居民、海滩、马、花卉等10个语义类别的自然真实图像，每类各有100幅图像。其中每幅图像均为RGB彩色无噪声图像，且大小为384×256。

为更好地评价本文方法的检测性能，本文分别选取文献[3]和文献[6]中的感兴趣区域提取算法与本文算法效果对比，部分实验结果如图5所示。

图5　感兴趣区域提取结果视觉对比

从图5中可以看出，图5(b)方法通过Itti模型获得显著图，在该显著图上进行区域生长，从而获得感兴趣区域。但是从图5(b)看出，该方法不能得到目标对象的全貌，无法处理大的显著物体。而对于图5(c)，利用PFT得到显著图之后通过阈值分割得到感兴趣区域，图5(c)可以看出这种方法不能得到目标对象的完整区域，只能检测C-S对比强烈的小区域。而对于HFT模型，可以检测大大小小的显著区域，但是在本文实验中发现该方法所提取的感兴趣区域包含了部分背景区域。特别是当图像中存在与背景相似颜色的区域，如图5中第一行“马腿”和第三行“人腿”以及第六行“花中的叶子”，前述方法均不能精确分割。而本文提出IHFT+PCNN不仅能够检测出大大小小的显著区域，而且通过增加背景通道增强了背景颜色的拮抗能力，从而克服上述问题，因此IHFT能够检测出更加完整准确的感兴趣区域。

本文算法提取出的感兴趣区域的正确率计算公式如下：

(13)

式中，Od(x,y)是检测得到的区域，Oa(x,y)是检测得到的感兴趣区域。对图像库中10类图像进行分别测试，提取出的感兴趣区域为目标物的平均正确率及平均消耗时间，如表1所示。

表1　四种不同算法的量化对比

从表1中看出，IHFT+PCNN优于其他模型。文献[6]计算量大，消耗时间较多，得到的显著图只是目标物体的边缘特征，并且不能检测大的显著性目标。而文献[3]中同样存在SR方法中的一些问题，如只能检测到显著物体的边缘和小显著区域，也就是中心-周边对比非常强烈的区域。本文在HFT的基础之上进行改进，加入了背景通道，提高了感兴趣区域的准确度，能均匀地突出整个显著目标，尤其是对于目标中存在与背景颜色较小差异的图像，也取得了较好的结果。

为检测本文算法的有效性和鲁棒性，本文人为地加入了噪声和几何攻击。结果如图6所示。

图6　不同噪声和几何攻击的结果

从图6可以看出，本文算法有较强的鲁棒性。本文算法之所以能够抵抗噪声攻击和几何攻击是因为本文算法整合了IHFT和PCNN的优点。PCNN结合其他去噪算法能达到很好的效果，但是PCNN本身不能抵抗噪声污染。而HFT对于几何攻击没有抵抗能力。PCNN具有几何不变性，IHFT模型能够抵抗噪声污染，因此，本文结合IHFT和PCNN既能够抵抗噪声污染，又能够保持几何攻击不变性，有良好的鲁棒性。

5　结　语

本文通过结合宏观层次的VAM 和微观层次的PCNN，提出了一种结合IHFT和PCNN的感兴趣区域提取方法。首先，为了突显图像中的显著目标，抑制背景信息，在HFT模型中增加背景通道；其次，将改进HFT模型的显著图作为简化PCNN的输入图像，并利用最小交叉熵自动分割出感兴趣区域。实验结果显示，本文感兴趣区域提取算法的准确性达到98.1%，提取时间为5.732 s，证实本文的算法效果较好。

针对感兴趣区域的某些边界不清晰的情况，接下来将研究在本文方法的基础之上融合边缘检测方法，以便取得更为精确的感兴趣区域的提取结果。

[1] 林森,苑玮琪.掌纹感兴趣区域定位与选择方法[J].计算机工程与应用,2011,44(14):21-24.

[2] Zhang L,Yang K.Region-of-Interest Extraction Based on Frequency Domain Analysis and Salient Region Detection for Remote Sensing Image[J].IEEE CEO SCIENCE AND REMOTE SENSING LETTERS,2014,11(5):916-920.

[3] 陈硕,于晓升,吴成东，等.用于场景分类的显著建筑物区域检测[J].上海交通大学学报,2011,45(8):144-149.

[4] 赵倩,胡越黎,曹家麟.自然图像中的感兴趣目标检测技术[J].计算机工程,2011,37(21):173-176.

[5] 张菁,沈兰荪,高静静.基于视觉注意模型和进化规划的感兴趣区检测方法[J].电子与信息学报,2010,31(7):1646-1652.

[6] 魏龙生,罗大鹏.基于视觉注意机制的遥感图像显著性目标检测[J].计算机工程与应用,2014,50(19):11-15.

[7] 郑天宇.基于四元数注意力选择和脉冲耦合神经网络的足球检测[D].上海:复旦大学,2012.

[8] Li J,Levine M D,An X,et al.Visual saliency based on scale-space analysis in the frequency domain[J].Pattern Analysis and Machine Intelligence,IEEE Transactions on,2013,35(4):996-1010.

[9] Ma Y,Zhan K,Wang Z.Pulse-Coupled Neural Networks[M].Applications of Pulse-Coupled Neural Networks.Springer Berlin Heidelberg,2011:1-9.

[10] Hou X,Zhang L.Saliency Detection:A Spectral Residual Approach[C]//IEEE Conference on Computer Vision and Pattern Recognition,2007:1-8.

[11] Zhang Y,Wu L,Wang S,et al.Color image enhancement based on HVS and PCNN[J].Science China Information Sciences,2010,53(10):1963-1976.

[12] 许志涛.基于CCSDS的遥感图像感兴趣区域压缩研究[D].长春:中国科学院研究生院(长春光学精密机械与物理研究所),2014.

[13] Gu X,Fang Y,Wang Y.Attention selection using global topological properties based on pulse coupled neural network[J].Computer Vision and Image Understanding,2013,117(10):1400-1411.

[14] Zhang J,Gu X.Desert Vehicle Detection Based on Adaptive Visual Attention and Neural Network[C]//Neural Information Processing.Springer Berlin Heidelberg,2013:376-383.

[15] 吴志强,吴乐华,袁宝峰.基于分形与小波的图像ROI自动提取算法[J].计算机应用,2010,30(6):1613-1618.

[16] 李策,虎亚玲,曹洁.基于对数Gabor的超复数视觉显著性检测算法[J].计算机工程,2012,38(4):148-151.

[17] Wang N,Ma Y,Wang W.DWT-Based Multisource Image Fusion Using Spatial Frequency and Simplified Pulse Coupled Neural Network[J].Journal of Multimedia,2014,9(1):159-165.

A FAST IMAGE’S REGION OF INTEREST ACQUISITION METHOD BASED ON BIOLOGICAL VISION MECHANISM

Liu ShangwangHu Jianlan

(College of Computer and Information Engineering,Henan Normal University,Xinxiang 453007,Henan,China)(EngineeringLabofIntelligenceBusinessandInternetofThings,HenanProvince,Xinxiang453007,Henan,China)

In order to acquire image’s region of interest quickly and accurately,it is necessary to simulate the whole process of biological vision mechanism from macroscopic visual channel to micro visual nerve cells.First,in hypercomplex Fourier transform (HFT) model which simulates the macroscopic visual “where” channel,in order to highlight the salient objects in images,we add background channel to inhibit the background information; Secondly,we expand HFT model by pulse coupled neural network (PCNN) which simulates the biological visual neurons:taking the salient map obtained by the improved HFT as the input image of simplified PCNN and taking the advantage of minimum cross entropy to segment the region of interest.Experimental results show that the accuracy of the proposed region of interest acquisition algorithm achieves 98.1%,and the extraction time is 5.732 s,so it can acquire the region of interest quickly and accurately.

Visual attention modelHypercomplex Fourier transform(HFT)Pulse coupled neural network (PCNN)Region of interest

2015-04-09。国家自然科学基金项目(U1304607);河南省教育厅高等学校重点科研项目(15A520080);河南师范大学博士科研启动基金项目(qd12138)。刘尚旺，副教授，主研领域：计算机视觉，图像处理。胡剑兰，硕士生。

TP391

10.3969/j.issn.1000-386x.2016.09.041