改进模糊二值模式算法及其在卷积神经网络中的降噪性能*

2023-07-11李芳慧裴腾达

计算机与数字工程 2023年3期

李芳慧裴腾达

（大连大学信息工程学院大连 116622）

1 引言

目前人脸识别技术已经在社会诸多领域上得到了广泛应用，为社会的安全以及经济发展带来了巨大的便利。传统的人脸识别技术主要以浅层结构模型为主，它们在处理图像、视频、语音等高维数据方面表现较差，特征提取难以满足需求，而深度学习技术弥补了这一缺陷［1］。深度学习采用深层神经网络模型，即具有特殊训练方式的包含多个隐藏层的神经网络［2］。1989 年LeCun 提出了真正意义上的适用于深度学习训练的算法——卷积神经网络（Convolutional Neural Networks，CNN）［3］。CNN因其具有独特的结构优势，在图像分类、图像检索、人脸识别等领域得到了广泛应用［4］。目前比较成功的CNN网络模型有AlexNet［5］、GoogleNet［6］、VGGNet［7］、ResNet［8］等。CNN 网络对输入图像进行分类识别，然而在含有噪声干扰的环境下，采集到的图像质量差，使得网络的效果大幅度降低。

在卷积神经网络中，池化层的重要作用是实现特征降维、提取关键信息并丢弃冗余信息。然而，传统的池化操作只是对数据进行简单的粗处理，如最大池化法只极端的保留最大值元素，很容易引进噪声；平均池化法取池化窗口内的均值，弱化了最大值关键元素。对此，国内外许多研究学者提出了较为有效的改进方法。2013 年Rob Fergus 等［9］提出了随机池化（Stochastic pooling）方法，在池化窗口内对特征图数值进行归一化，按照特征图归一化后的概率值大小随机采样选择。2018 年Wei 等［10］提出了局部加权平均池化方法，通过给池化元素添加可学习的权重来实现更有效的特征提取。本文算法考虑了图像像素点的噪声影响，提出了融合改进模糊二值模式的加权池化方法，减少干扰信息逐层累积传递。

2 融合改进模糊二值模式的加权池化算法

2.1 自适应中值的改进模糊二值模式

近年来，局部二值模式（Local Binary Pattern，LBP）［11］的特征提取算法在人脸识别的应用中取得了显著的成果，但仍存在对光照变化较敏感，以及对含噪声纹理图像特征表述能力不足等问题［12］。为增强LBP 算法对图像干扰的稳定性，Iakovidis等［13］引入数学中的模糊逻辑理论，提出了模糊局部二值模式（Fuzzy Local Binary Pattern，FLBP）算法，并在超声图像实验中获得了不错的分类效果。

FLBP的算法过程为：取3×3窗口内的8个邻域像素值依次与中心像素值作差，若差值大于某特定阈值，则编码为0或1，否则将该点编码为不确定位u，其公式表达为

其中tp是一个预定义的阈值，Zp是邻域像素与中心像素的灰度差，u 代表不确定位。对于不确定位，编码为0 或1 的概率可利用隶属度模糊函数来确定，计算公式如下：

p（u=1）表示编码为1 的概率，p（u=1）表示编码为0 的概率。统计编码值即可得出图像的局部特征。FLBP虽然能够在一定程度上提高算法的抗噪性能，但如果中心像素点为噪声点，则以该点为基准的编码计算将失去其意义。因此本文借鉴自适应中值滤波［14］的思想，提出了自适应中值的改进FLBP 算法，根据干扰噪声的灰度值通常常远大于或远小于邻域像素值的特性先判断中心像素点是否为噪声点，若是则用中值替换，然后再进行编码以提高算法抗噪性。过程如图1所示。

图1 自适应中值的改进FLBP算法示意图

左图为原像素分布，右图为改进后的像素分布。从编码结果中可以看出，经改进FLBP 算法计算出的编码更丰富，具有更强的图像特征描述能力，并能有效的剔除突发噪声点，提高算法抗噪性。

2.2 加权池化方法

为降低特征维度，Ojala 等将编码结果简化为等价模式和非等价模式，其中等价模式的数量达到90%以上，能够代表大部分信息，可以视为图像的关键特征［15］。在正常的人脸图像中，等价模式出现的频率远高于非等价模式，且这些小部分出现的非等价模式通常是由噪音导致的。因此本文算法基于等价模式理论，取该像素点属于等价模式的概率和为权重值，该权重反应了像素点信息的重要程度，计算过程如图2所示。

图2 权重计算

在编码的循环二进制值串中，0-1 或1-0 的跳变次数小于2 的编码结果都属于等价模式。如图中11110000 的变化次数为2 次，所以属于等价模式。根据式（2）和式（3），可以计算出编码为11110000 的概率值为p（u1=1，u2=0）= 0.3×0.8 =0.24，即该点的权重为0.24。

池化层是深度学习中一个较为重要的概念。本文提出的加权池化方法依据各像素点信息大小的差异，赋予其不同的权重值，并对输入特征图进行加权池化操作。加权池化过程如图3所示。

图3 加权池化过程

1）取图像的3×3 窗口，利用改进的FLBP 算法进行编码计算，得到中心像素点对应的权值；2）重复步骤1），可生成一张与原图对应的权重图；3）取权重图3×3 窗口内的值，按比例重新分配，确保其值总和为1；4）将原像素值与权值进行加权求和，得出池化输出结果；5）以步长为2 的重叠池化窗口遍历整个输入图像，可最终得出池化输出结果。

3 实验设计与仿真结果分析

本文使用的实验平台为CPU，Windows10 操作系统，平台搭载的测试软件为Matlab R2018a。本文选取ORL 数据库进行人脸图像可视化测试，该数据库包含40人，每人含有10张不同姿态、角度和表情的人脸照片。为防止网络过拟合，增加数据多样性，在实验使用人脸图像前，进行了一定的数据增强以扩充数据集。图4 直观地比较了LBP 算法和本文所提加权FLBP算法的特征提取效果图。

图4 第一行为正常人脸图像，第二行为LBP特征提取图，第三行为加权FLBP特征提取图

从图中可以直观地看出，LBP 算法能够提取出人脸的大致轮廓；而利用改进的加权FLBP 算法可以更为突出的提取出人脸的关键特征，对于越重要的特征，权重分配越大，颜色越亮。为进一步验证改进算法的特征提取能力，本文分别使用两种算法提取特征向量，并结合KNN 分类器［16］，对人脸图像进行分类识别。以2∶8 的比例将人脸图像分为训练集和验证集，取实验10 次的平均结果，其中LBP算法的分类识别率为87%，加权FLBP 算法的分类识别率为91%，所提算法比LBP 算法识别率高出4%，具有更好的特征提取效果。

为验证所提算法在卷积神经网络中的降噪性能，本文设计了CNN-7 和AlexNet 网络模型，并将加权算法融合在池化层中，与最大池化方法对比识别率。CNN-7 参考LeNet 网络结构框架，共包含3层卷积层、2 层池化层、2 层全连接层，重叠池化窗口步长为2，初始学习率为0.01。采用随机梯度下降算法，ReLU 激活函数，Softmax 分类器。实验的训练集、验证集和测试集分别以7∶2∶1 的比例将数据库进行随机划分，测试集中分别添加了不同程度的椒盐噪声和高斯噪声。

从表1 和表2 的实验结果中可以看出，当噪声密度为0 时，即测试集不含噪声的情况，加权池化网络的识别率与最大池化网络相差不大，但随着两种噪声的密度不断增加，加权池化方法优于最大池化方法的效果越来越明显，当椒盐噪声密度为0.3时，最大池化方法识别率已经降到50%以下，基本失去识别能力，而本文提出的加权池化方法识别率比最大池化高11.5%，差距达到最大。

表1 CNN-7网络中所提加权池化法与最大池化法对椒盐噪声的降噪比较（识别率/%）

表2 CNN-7网络中所提加权池化法与最大池化法对高斯噪声的降噪比较（识别率/%）

Alexnet迁移网络移去原有Alexnet预训练网络中最后三层，并添加适合本人脸识别任务的全连接层softmax 层和分类输出层。相比使用随机初始化权重从头训练网络的方式更加方便高效。网络处理数据的最小批尺寸为10，最大训练Epoch设置为10，初始学习率设置为0.01。测试集组分别添加了6种不同程度的椒盐噪声和高斯噪声。

从表3 和表4 中可以明显地看出Alexnet 迁移网络结合最大池化方法的抗噪性能不强，但采用所提算法的网络识别率较为稳定，且总体效果要比最大池化高很多。再次验证了提出算法的优越性。

表3 AlexNet网络中所提加权池化法与最大池化法对椒盐噪声的降噪比较（识别率/%）

表4 AlexNet网络中所提加权池化法与最大池化法对高斯噪声的降噪比较（识别率/%）

4 结语

本文提出了一种改进的模糊二值模式算法，并将其应用在卷积神经网络的池化层中，采用加权池化的方式替代传统的池化方法。实验表明该方法能够有效提升噪声环境下的人脸识别率，具有一定的降噪能力。虽然本文方法能够提升卷积神经网络的抗噪性能，但同时存在计算复杂度较高，时间开销略大的不足。因此设计出更加简单有效的抗噪性卷积神经网络是下一步的研究重点。