APP下载

基于X、Y细胞感受野视觉神经机制的轮廓检测模型

2021-03-15王垚潘盛辉林川

广西科技大学学报 2021年1期

王垚 潘盛辉 林川

摘  要:仿生型轮廓检测的研究已逐渐成为计算机视觉的研究热点.生物视觉机制研究中,空间总和特性将视觉细胞分为线性的X型细胞和非线性的Y型细胞.受该机制启发,提出一种仿生型轮廓检测模型,该模型通过模拟计算X、Y型细胞不同的感受野响应,并根据亮度对比度信息有效地融合X、Y通道的轮廓特征.实验结果表明:本文的模型能有效地保留弱轮廓并抑制纹理背景,将为基于视觉机制的图像分析提供一种新的思路.

关键词:轮廓检测;X细胞;Y细胞

中图分类号:TP391.41         DOI:10.16375/j.cnki.cn45-1395/t.2021.01.005

0    引言

轮廓检测是计算机视觉和图像分析领域中的基础工作,准确检测自然图像中目标的轮廓信息,对后续图像分割[1]等高级视觉任务有着重大意义.对复杂的自然图像而言,目标轮廓通常被大量干扰信息所环绕,因此,准确区分目标轮廓和背景纹理信息成为提高轮廓检测效果的关键问题.随着神经科学的发展,基于生物视觉信息处理机制的轮廓检测模型逐渐受到越来越多研究者的关注.2003年,Grigorescu等[2]采用具有方向选择性的Gabor滤波器来模拟初级视皮层(V1区)神经元经典感受野(CRF)的兴奋作用,并利用高斯差(DOG)模拟非经典感受野(NCRF)的抑制作用.基于该模型,学者们在NCRF抑制计算上做了大量工作.Cao等[3]利用归一化的DOG和sigmoid函数提取局部中心环绕对比度信息来计算抑制项,能够更快、更准确地抑制纹理.杜晓凤等[4]提出一种基于复合感受野的轮廓检测仿生模型,通过距离和角度特征来计算易化和抑制的权重,有效地减少抑制对轮廓的破坏.2014年,Yang等[5]根据多尺度信息引导策略整合特征信息(包括方向、亮度和亮度对比度)的抑制权重,再将组合的权重用于调节神经元的周边抑制,使得模型在抑制纹理的同时更好地保留轮廓信息.感受野尺度在图像局部信息表达上有着重要作用,因此,部分学者从感受野尺度信息着手改进轮廓检测模型.潘亦坚等[6]利用改进的sigmoid函数计算局部最优尺度,与DOG函数相结合获得动态的NCRF抑制权重.Lin等[7]通过模拟神经元动态特性优化了经典感受野的滤波过程,并利用Log函数调制高斯函数模拟非经典感受野的抑制过程.Wei等[8]通过Gabor滤波器预处理得到多尺度初级轮廓图,再经过不同空间位置上不同尺度的抑制和去抑制得到轮廓响应,移除了大量无意义的纹理信息,取得了良好的检测结果.Fang等[9]从视觉信息传递通路着手,提出一种基于视觉通路的双侧不对称感受野机制的轮廓检测模型(BAR),引入不对称感受野结构,增强局部区域的对比度差异,并提出基于双侧不对称感受野多尺度抑制的权重信息融合策略,更好地检测显著轮廓.灰度图像包含的信息十分有限,Yang等[10]基于颜色拮抗机制提出双拮抗模型(CO),检测亮度边缘和颜色边缘,随后引入纹理稀疏约束(SCO)[11],提升模型性能.Li等[12]提出了一种受多视觉通道和多层次视觉信息的生物特性启发的前馈轮廓检测模型(MCH),将图像分为颜色信息和亮度信息,然后模拟视网膜-LGN-视皮层这一视觉通路分别对两种信息进行处理,最后根据最优方向计算颜色和亮度通道响应的融合权重,获得更好的检测性能.

目前,大多数仿生轮廓检测研究都是基于X细胞感受野的生理特性来进行的.而生理机制表明[13]:根据空间总和特性的不同,初级视皮层神经元分为X型细胞(X细胞)和Y型细胞(Y细胞).X细胞感受野空间总和性质是线性的,其感受野的兴奋作用和抑制作用可以线性叠加,并且对光栅的反应存在零位置[14],可以由Rodieck模型表达,如图1(a)所示.而Y細胞感受野的空间总和性质是非线性的,由于对光栅的出现和消失有着强烈的短暂反应而不存在零位置[15],其感受野除了存在中心-周边拮抗式的Rodieck模型,还存在许多非线性亚单位,如图1(b)所示.其中,非线性亚单位被用于解释Y细胞空间频率上的二次谐频成分.在感受野上每个亚单位仅覆盖很小的一片区域,但其在空间上的分布从中心的经典感受野区域一直蔓延至周边区,或者更大一些[15].造成X细胞和Y细胞感受野空间总和特性不同的主要原因在于:除了经典同心圆结构的中心兴奋区和外周抑制区外,Y细胞感受野还存在分布范围大于周边区的非线性亚单位.

综上所述,本文提出一种基于X、Y细胞感受野视觉神经机制的轮廓检测模型,以期进一步解决轮廓信息与背景信息的区分问题.其中,本文提出模型的处理过程分为模拟线性X细胞特性的X通道响应以及模拟非线性Y细胞特性的Y通道响应.X通道先计算CRF响应,然后利用NCRF响应进行抑制得到X通道响应;Y通道则是在经典感受野响应经过亚单位调制后,再进行非经典感受野抑制,得到Y通道响应.最后,本文结合对比度增益机制,提出一种通道信息融合策略,模拟视野内图像对比度对X、Y细胞输出的调控,在保护轮廓的同时抑制纹理.

1    检测模型

本文提出的轮廓检测模型如图2所示,输入图像分别经过X通道和Y通道的响应处理,最后模拟视野内图像对比度对X、Y细胞输出的调控,融合X、Y通道响应.其中,X、Y通道均为先模拟视皮层V1区神经元CRF提取图像的局部边缘响应(CRF响应),再利用DOG函数模拟NCRF计算图像局部区域的纹理抑制强度.不同之处在于,Y通道CRF响应经过亚单位抑制去除细小繁多的纹理信息后,再经过NCRF的局部区域环形抑制去除目标物体上多余的边缘信息.

1.1    X通道响应

1.1.1   经典感受野响应

感受野对不同朝向和位置的刺激都十分敏感[2],对于特定的条形刺激,初级视皮层的单个神经元的响应会随着刺激朝向的变化而产生变化,当刺激的朝向和感受野的最优朝向一致时,响应最大.因此,本文采用有方向选择性的二维Gabor滤波器来模拟X细胞的CRF:

1.1.2   非经典感受野响应

神经生理学研究表明[14],在经典感受野的外周存在对其有抑制作用的区域称为非经典感受野,同时刺激CRF区域和NCRF区域,NCRF会对CRF的响应进行抑制.本文利用DOG函数来计算NCRF的抑制权重[wXx, y;σX]:

1.2    Y通道响应

1.2.1   经典感受野响应

造成X细胞和Y细胞感受野空间总和特性不同的主要原因在于:除了经典同心圆结构的中心区和外周抑制区外,Y细胞感受野还存在具有整流特性的非线性亚单位.在电生理实验中,Y细胞反应的二次谐频成分就是非线性亚单位的贡献,基频反应则与Y细胞感受野的中心-周边机制有关[15].综上,非线性亚单位的贡献可从Y细胞反应中分离出来,即非线性亚单位的存在不影响感受野中心-周边机制的模拟方式.Gaudian等[17]提出造成X、Y细胞特性差异的主要因素是感受野大小的不同.用[σY]替换式(1)—式(5)中的[σX]得到Y细胞经典感受野响应[EYx, y;σY],再将[EYx, y;σY]代入式(7)—式(8)得到Y细胞的最优方向角[θYx, y].

1.2.2   非线性亚单位响应

为了符合Y细胞的响应特性(如图1(b)所示),在拟合X细胞中心-周边机制的高斯差感受野模型上加入了非线性亚单位,每一个亚单位的直径与感受野相比都十分微小,其中亚单位的响应强度呈现一种中间朝周边递减的趋势.受此启发,本文采用高斯函数来模拟亚单位生理特性,考虑单个亚单位的响应大小与其到中心点距离的关系,结合图像局部特征信息,计算获得Y细胞亚单位响应.

首先,根据亚单位模板(大小为[m×n])上的高斯函数的大小与其到中心点距离的关系,建立一个大小为[m×n]的模板[Lsx, y]来计算模板上每一个高斯函数的标准差[σs]:

其中:[(x0, y0)]表示模板的中心点.[Lsx, y]上的值即表示为在[Subunit1(x, y;σs)]模板上以对应点为中心的高斯函数的标准差[σs].

在亚单位模板[Subunit1(x, y;σs)] 上一个高斯函数表示一个亚单位,以模板(大小为[m×n])上的每一个像素点为中心创建[m×n]个高斯函数,来模拟整个亚单位模型.

其中:[Dxy]表示感受野上亚单位的分布范围;[(xj, yj)]表示分布范围[Dxy]中的第j个元素;[σs]表示每一点所对应的高斯函数的标准差.

感受野周边抑制区存在轴向不对称,中心区一侧的感受野抑制区大于另一侧,即感受野一侧区域的抑制作用大于另一侧.本文利用sigmoid函数控制权重来模拟这一现象.由于感受野上的两侧无法确定具体的方位,本文构建旋转的二维sigmoid函数对其进行模拟.

其中:[x=xcosθ+ysinθ,  y=-xsinθ+ycosθ], 旋转角度[θ]的计算同式(3).亚单位模板[Subunit1x, y;σs]点乘不同旋转角度的二维sigmoid函数,得到多方位的亚单位模板.

由于高斯函数经过了归一化(式(19))过程,随着标准差的增大,分布范围增加,峰值减小,造成亚单位模板的整体结构不符合中间高周边低的结构.因此,本文建立一个和亚单位模板一样大[(m×n)]的高斯函数来对亚单位模板进行调制:

亚单位模板构建完成后进行亚单位响应的计算,计算过程如图3所示:首先,利用灰度图像调制CRF响应,弱化轮廓、增强纹理;其次,利用调制后的图像与亚单位模板卷积得到多个方位的亚单位响应;然后,对每个像素进行max運算得到[ressmax(x, y)],进行min运算得到[ressmin(x, y)];最后,用两个尺度的CRF响应对最大、最小响应进行信息处理,得到纹理信息显著的亚单位响应.

本文充分考虑Y细胞亚单位的生理特征以及生理特性,得到多方位的Y细胞非线性亚单位响应[ress(x, y)]:

通常,在大尺度下的经典感受野包括显著轮廓,但遗漏了详细的边缘;小尺度下的经典感受野响应则能够更好地提取轮廓细节,同时也涵盖许多纹理边缘信息,造成提取的纹理过多.因此,为了取得更好的纹理抑制效果,本文依据            式(1)—式(5)计算了两个尺度的经典感受野            响应[E(x, y;σlar)]和[E(x, y;σsma)]来对最小响应        [ressmin] [(x, y)]和最大响应[ressmax(x, y)]进行信息处理,得到Y细胞非线性亚单位的响应,其中[σlar=2σsma].

其中:[Ex, y;σlar-Ex, y;σsma≥0]的部分大概率是杂乱的纹理信息,而[E(x, y;][σlar)-E(x, y;σsma)<0]的部分则更有可能是需要的目标轮廓.本文采取这样的策略,在后续的抑制中能够加大对无意义边缘的抑制,减少对目标轮廓的影响.

Y细胞非经典感受野的计算以经典感受野和亚单位响应的差作为输入,再根据式(10)—式(12)得到Y细胞轮廓响应[rYx, y;σY].

1.3   信息融合

研究表明[18],视觉细胞在低空间频率时存在对比增益机制(contrast gain control),且图像对比度更易影响Y细胞的反应.受此启发,本文考虑对比度增益机制,提出一种通道信息融合策略,模拟视野内图像对比度对X、Y细胞输出的调控.其中,对比度增益由图像的局部亮度对比度(luminance contrast)决定.图像局部亮度对比度[Cx, y]计算方式如下:

2.2   提出模型的性能分析

為了验证本文提出的Y细胞响应计算模型的有效性,从BSDS数据集取出5幅图像对单独的X通道响应、Y通道响应和本文模型进行定性地对比,其中X通道响应为式(13)的输出响应进行非极大值抑制处理后的结果.为了简便起见,本文模型表示为YS;其中,X通道响应表示为X-Response;Y通道响应表示为Y-Response.图4展示了X-Response、Y-Response和YS 3种模型部分测试图像的结果对比.如图4所示,X-Response的测试图像上纹理边缘很少,有较好的纹理抑制效果,但不能很好地区分纹理和弱轮廓,使得弱轮廓无法被提取出来.Y-Response的测试图像上轮廓比X-Response更为完整,但在保留轮廓信息的同时也减弱了对纹理的抑制.与X-Response和Y-Response相比,YS模型结合了X、Y两通道的优点,在纹理抑制的同时更好地保留了弱轮廓信息,增加主体轮廓完整性,取得更好的检测性能.由于构成数据集的图片十分复杂,提升算法的性能是一项极其困难的任务,而本文模型的ODS指标比X通道响应提高4%,比Y通道响应提高8%,如图5所示.

2.3   模型对比分析

为了评价本文模型的检测性能,选择了3个经典的仿生型轮廓检测模型在RUG40数据集进行结果对比:ISO模型[2]、BF模型[22]和MCI模型[5].部分实验结果如图6所示.

从图6可以看出,ISO模型虽然考虑了NCRF对CRF的调制作用,但检测结果还存在严重的纹理干扰.BF模型对NCRF进行了分区,在一定程度上解决了对轮廓的抑制问题,但纹理对目标轮廓的干扰仍然严重.MCI模型结合了朝向、亮度、亮度对比度3种特征,对纹理信息有着很好的抑制效果,但对目标轮廓的检测仍存在不足.本文模型尽可能地保证目标轮廓的检测结果与人工检测结果相同,增强对纹理信息的抑制,以取得更好的检测性能.为了保证对比公平性,对比模型均采用最优参数下的实验结果,定量分析结果如表2所示.

实验结果表明,本文模型能够在复杂的自然图像中有效区分轮廓和纹理边缘,减弱纹理信息对轮廓判定的干扰,保护弱轮廓信息,保证主体轮廓的完整性,以取得更优的轮廓检测性能.

3    结论与讨论

近年来,许多学者都重点关注视皮层V1区在视觉系统中的作用,并根据其思路建立轮廓提取的模型,取得了不菲的成绩.但其大多是在符合中心-周边线性机制的前提下进行的,没有考虑到由于空间总和特性的不同,还存在非线性的Y型细胞.针对这一现象,提出基于X、Y细胞感受野视觉神经机制的轮廓检测模型.该模型首先通过提取非线性亚单位响应对多余纹理进行抑制,然后通过X、Y细胞的轮廓信息融合,使得提取到的轮廓线条更为清晰,同时纹理信息的残留更少,有效地提升了检测模型的精确度,取得了较好的轮廓检测效果.

本文所提出的模型只模拟了视皮层V1区X、Y细胞感受野的生理特性,仅仅对V1区神经元在轮廓检测中的应用进行研究,并没有考虑到更高层(视皮层V2区等更高级的区域)的信息处理机制在轮廓检测中的作用.实际上,次级视皮层(V2区)也是生物视觉系统获取轮廓的重要步骤,V1和V2区一旦受到损伤会影响大脑对物体的识别能力.因此,如何整合从视网膜到更高级别皮质中的视觉信息仍有待进一步的研究.

参考文献

[1]     闫夏,谭光兴,林川.基于免疫聚类算法的MRI膝关节图像分割[J].广西科技大学学报,2015,26(1):70-74.

[2]     GRIGORESCU C,PETKOV N,WESTENBERG M A. Contour detection based on nonclassical receptive field inhibition[J]. IEEE Transactions on Image Processing,2003,12(7):729-739.

[3]     CAO Y J,LIN C,PAN Y J,et al. Application of the center-surround mechanism to contour detection[J]. Multimedia Tools and Applications,2019,78(17):25121-25141.

[4]     杜晓凤,李翠华,李晶.基于复合感受野的轮廓检测算法[J].电子与信息学报,2009,31(7):1630-1634.

[5]     YANG K F,LI C Y,LI Y J. Multifeature-based surround inhibition improves contour detection in natural images[J].IEEE Transactions on Image Processing,2014,23(12):5020-5032.

[6]     潘亦坚,林川,郭越,等.基于非经典感受野动态特性的轮廓检测模型[J].广西科技大学学报,2018,29(2):77-83.

[7]     LIN C,LI F Z,CAO Y J,et al. Bio-inspired contour detection model based on multi-bandwidth fusion and logarithmic texture inhibition[J]. IET Image Processing,2019,13(12):2304-2313.

[8]     WEI H,LANG B,ZUO Q S. Contour detection model with multi-scale integration based on non-classical receptive field[J]. Neurocomputing,2013,103:247-262.

[9]     FANG T,FAN Y L,WU W. Salient contour detection on the basis of the mechanism of bilateral asymmetric receptive fields[J]. Signal,Image and Video Processing,2020,14:1461-1469.

[10]   YANG K F,GAO S B,LI C Y,et al. Efficient color boundary detection with color-opponent mechanisms[C]//IEEE Computer Society Conference on Computer Vision & Pattern Recognition(CVPR),IEEE,2013.

[11]   YANG K F,GAO S B,GUO C F,et al. Boundary detection using double-opponency and spatial sparseness constraint[J]. IEEE Transactions on Image Processing,2015,24(8):2565-2578.

[12]   LI F Z,LIN C,ZHANG Q,et al. A biologically inspired contour detection model based on multiple visual channels and multi-hierarchical visual information[J]. IEEE Access,2020,8:15410-15422.

[13]   孫超. 猫外膝体神经元非经典感受野与经典感受野各亚区的空间反应特性及其相互作用[D].上海:复旦大学,2004.

[14]   MAYFORTH G R. An introduction to neural information processing[J]. Computing Reviews,2016,57(8): 481-482.

[15]   寿天德. 视觉信息处理的脑机制[M]. 合肥:中国科学技术大学出版社,2010.

[16]   YANG Y,TONG S,HUANG S Y,et al. Log-gabor energy based multimodal medical image fusion in NSCT domain[J]. Computational and Mathematical Methods in Medicine,2014,2014:1-12.

[17]   GAUDIANO P. Simulations of X and Y retinal ganglion cell behavior with a nonlinear push-pull model of spatiotemporal retinal processing[J]. Vision Research,1994,34(13):1767-1784.

[18]   李国荣.猫外膝体的对比度适应及皮层反馈对其的影响[D].合肥:中国科学技术大学,2010.

[19]   ALPERT S,GALUN M,BRANDT A,et al. Image segmentation by probabilistic bottom-up aggregation and cue integration[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2012,34(2):315–326.

[20]   MARTIN D,FOWLKES C,TAL D,et al. A database of human segmented natural images and its application to evaluating segmentation algorithms and measuring ecological statistics[C]//Proceedings of 8th IEEE International Conference on Computer Vision,2001.

[21]   MARTIN D R,FOWLKES C C,MALIK J. Learning to detect natural image boundaries using local brightness,color,and texture cues[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2004,26(5):530-549.

[22]   ZENG C,LI Y J,YANG K F,et al. Contour detection based on a non-classical receptive field model with butterfly-shaped inhibition subregions[J]. Neurocomputing,2011,74(10):1527-1534.