超参数设置对图像分类技术的影响
2022-07-26赵佳英
赵佳英
(浙大宁波理工学院图书与信息技术中心,浙江 宁波 315199)
近年来,深度学习作为机器学习领域的一个重要研究方向,在图像分类和视频分析等领域取得了重大的研究成果。1943 年,MCLLOCH 和PITTS 合作提出了最早的神经网络雏形MCP 模型技术,对0 或1 的二值化数据输入进行了简单的线性加权组合。1949 年Hebb 理论提出后,计算科学家开始考虑通过调整神经元之间的权值来进行机器学习[1]。1951 年,ROBBINS和MONRO 提出了随机逼近算法计算梯度进行参数优化,大大降低了计算复杂度[2]。
本文通过全连接神经网络模型和卷积神经网络模型实现图像分类技术,分析模型思想和结构,通过仿真实验训练研究超参数对图像分类技术的影响;最后进行总结,为今后用图像分类技术设置参数提供参考。
1 模型
1.1 全连接神经网络
20 世纪50 年代,ROSENBLATT 提出单层感知机后,在输入层与输出层之间由一到多个隐藏层构成的多层感知机也应运而生。全连接神经网络模型是一种多层感知机技术,对l-1 层和l 层而言,l-1 层的任意一个节点都和第l 层所有节点有连接,但不与同一层内的其他节点连接。假定l-1 层图像特征为al-1,l-1 层和l 层之间的权重为w,偏置值为b,n 为节点个数,m 为单个节点的特征维度,k 为类别数,则有:
1.2 卷积神经网络
1989 年,LECUN 等人首次提出了“卷积”一词,之后卷积神经网络逐渐得到了发展。卷积神经网络一般由卷积层、池化层、全连接层交叉堆叠而成,是一种具有局部连接和权重共享等特性的深度前馈神经网络。
1.2.1 卷积层
卷积需要定义一个二维矩阵的卷积核,再与图像中同样大小的子像素点矩阵进行加权和操作。利用图像像素点存在空间依赖性的特点,卷积计算保留了图像相邻像素点之间的强相关性和相隔较远的像素点之间的弱相关性。在图像边缘像素点填充0 解决图像边缘像素点的特征提取。
1.2.2 池化层
池化是对图像指定窗口大小内的像素点进行最值、平均值或其他操作的步骤。池化层可用于压缩数据和参数的量,在对图像特征进行降维和去除冗余的同时,可以一定程度加快计算速度和降低过拟合的风险。
1.2.3 全连接层
卷积层和池化层对图像特征进行了降维,将原始图像特征映射到隐藏特征空间中。全连接层使用分布式特征表示方式把隐藏空间中的特征映射到具体图像分类空间。
2 技术实验
本文使用的图像集为fashion-mnist,包含60 000张训练图像和10 000 张测试图像。每张图像都是1 个28×28 像素的灰度图像,像素值为0~255 之间的整数。此数据集标签有10,包含T 恤、裤子、运动鞋、包等。
2.1 批处理对图像分类技术的影响
数据量较大时,将所有数据一次性放入网络模型容易引起内存爆炸,引入了批处理的概念。在保证学习率与动量不变的情况下,通过技术实验,观察全连接神经网络和卷积神经网络的批处理大小对图像分类技术的影响[3],如图1、图2 所示。从图中可以看出,批处理值小时收敛较快;批处理值增大,训练过程出现了过拟合现象,对图像分类技术的准确度影响较大。批处理大小对训练时长的影响如图3 所示。图中,批处理与时间复杂度呈现正相关关系,但在批处理大小为256 前后出现了波动。原因可能是当批处理值过大时,批数小,单批节点过多,计算梯度的用时增加;当批处理值小时,批数多,循环次数多,计算用时增加。
图1 批处理大小对分类结果的影响(全连接神经网络)
图2 批处理大小对分类结果的影响(卷积神经网络)
图3 批处理大小对训练时长的影响
2.2 动量对图像分类技术的影响
研究动量时需考虑历史的梯度下降方向,类似物理学中的惯性。即使碰到梯度值为0 的鞍点,由于受到历史梯度的影响,也可能会突破局部最优点。动量对分类结果的影响如图4 所示。0.5 和0.09 的动量值准确率高于0.9 和0.99 的动量值,且动量值为0.5 时训练结果较稳定。
图4 动量对分类结果的影响
2.3 学习率对图像分类技术的影响
学习率决定了梯度下降的速率,学习率越大,损失函数对参数的影响就越大,参数更新得就越快;但学习率过大时,参数更新波动也较大,如图5 所示,学习率为0.1 时,分类效果发散或陷入了局部最优造成震荡。
图5 学习率对分类结果的影响
2.4 图像分类技术的实现结果
由以上技术实验可以得出,超参数设置会对图像分类技术产生影响。现采用批处理为256、动量值为0.5、学习率为0.001 的全连接模型对fashion-mnist 图像集进行分类,图像分类结果如图6 所示,基本实现了图像分类,且结果是正确的。
图6 预测分类结果示意图
3 总结
本文采用全连接神经网络和卷积神经网络训练fashion-mnist 图像集,利用控制变量法,研究批处理大小、动量、学习率等超参数对图像分类技术的影响。通过技术实验发现,批处理大小对分类准确度、时间复杂度等方面都有一些影响,但并不是完全的正相关关系,动量使得图像分类训练过程更加稳定。当学习率过高时参数更新过快,结果波动较大;当学习率低时,收敛速度过慢。