一种修正学习率的梯度下降算法
2024-01-05姜文翰姜志侠孙雪莲
姜文翰,姜志侠,孙雪莲
(长春理工大学 数学与统计学院,长春 130022)
近年来神经网络已成为人工智能的核心框架,广泛应用于语音识别、图像分类、自然语言处理等领域[1]。 其中,卷积神经网络(CNN)在人体活动识别、句子分类、文本识别、人脸识别、目标检测和定位、图像表征等方面有着广泛的应用[2-5]。
神经网络中,梯度下降算法是求解参数最重要、最基础的方法[6]。 然而随着数据规模的不断扩大,传统的梯度下降算法已不能有效解决大规模机器学习问题[7-9]。因此,梯度下降算法成为机器学习研究的焦点。随机梯度下降算法(SGD)是梯度下降类算法中最基础的方法。针对SGD 易陷入鞍点、局部极小值点、学习率不变等问题[10],一方面,动量梯度下降法利用之前下降的梯度方向保持惯性,可以克服SGD 易陷入鞍点、局部极小值点等问题[11]。 另一方面,AdaGrad 利用步长除以历史梯度平方和作为每步的更新步长,引出自适应步长的概念。 但随着迭代次数增加,梯度累加和会越来越大,AdaGrad 学习率会迅速减小,导致参数不再更新。RMSProp 使用梯度平方的滑动指数平均改善这一问题。Adam 在RMSprop 基础上引入一阶动量。 尽管Adam 在多领域的应用中已经取得良好的结果,但在AMSGrad 中已经通过反例公开了其在某些情况下是发散的。 随着Adam 的广泛应用以及大量Adam 变体的出现,关于Adam收敛性的充分条件已经引起深度学习和优化领域的广泛关注[12-13]。
在Adam[14]算法基础上,利用梯度的指数加权平均改进学习率,提出了MonAdam 算法。该算法改善Adam 算法学习率分布较为极端的现象,从而提升神经网络的收敛性。随后对MonAdam算法进行了收敛性分析,给出相应结论。最后,在非凸测试函数和神经网络中进行实验分析。实验结果表明,与其他优化算法相比MonAdam算法具有较好的收敛性。
在界定“整本书阅读”这一概念时,不少学者用结构主义二元对立的方法来阐释,从与“篇章阅读”相对立的角度,认为“整本书阅读”首先在阅读材料上不再是一篇节选文章的含英咀华,而是一本有着独立精神、独特思想价值,能够作为一个连续性整体给读者别样阅读感受的完满集合,阅读材料更长,也更具复杂性,完成这一复杂阅读任务的时间更长,表现出来的阅读行为也更具连续性。其次,不同于“列书单式”阅读时代,仅仅是“读”的粗浅要求,整本书阅读是以“读透”,读出长进为硬性指标的深层次阅读。在整本书阅读课上,教师是引导者、倾听者,更多的时候是调控者、记录者。整本书阅读教学策略是在师生共同阅读中生成的。
1 自适应学习率
Adam 算法[14]作为神经网络最常用的优化算法之一,在保存动量梯度算法的梯度指数衰减平均值(即一阶矩mt)基础上,同时保存RMSprop算法的梯度平方指数衰减平均值(即二阶矩vt)[15],表达式如下:
2.1组间总有效率对比 研究组银屑病患者总有效率经评定为92.5%,对照组经评定为57.5%,组间具统计学差异(P<0.05);研究结果如表1所示。
Adam 算法参数更新公式为:
其中,θt是第t步更新的参数向量;α为学习率;和分别为一阶矩和二阶矩的偏差校正;ε为一个充分小的正值。Adam 算法结合两种算法的优点,具有快速初始化的良好性能,但Luo 等人[16]举出了在某些非凸函数上Adam 算法仍不能收敛到最优解的反例。
采用ResNet-18 神经网络[17]训练CIFAR-10数据集,利用TensorboardX 在图1 中画出训练5个EPOCH 的学习率分布图。图中x轴代表学习率,且学习率经过以e为底的log 缩放,y轴代表迭代次数,高度代表学习率出现的频数[18]。
图1 ResNet-18 网络训练CIFAR-10
AMSGrad 算法[19]提出一种通过对二阶矩取大的方法,即:
此式为气体部分编写程序可用的积分公式, 其中可以看出: 半径方向最大网格节点数为NK, 每两个相邻的网格节点距离为ΔR. 从球坐标最大半径处开始向球心积分, 网格节点数i 依次减小1, 半径依次减小ΔR. 对每一个网格节点数i , 对应一个具体的半径R, 此处根据当地流场值及辐射发射系数计算出它的辐射值, 并且根据此处到球心之间的每一个网格节点的当地流场值及辐射吸收系数, 计算出具体的半径R处对球心的辐射照度值.
由图1(b)可知AMSGrad 算法改善了Adam 算法存在极端学习率的问题。但AMSGrad 算法只考虑了Adam 算法中学习率处于极大值时的情形,未考虑极小值是否对收敛性有影响,所以在实际问题中的表现差强人意[16]。Luo 等人[16]提出Adabound 算法,使用学习率裁剪技术:
本文在Adam 算法中利用梯度信息加权平均的思想修正自适应学习率,即将参数vt更新过程中的替换为,从而得到MonAdam 算法。公式如下:
2 MonAdam 算法及分析
2.1 MonAdam 算法
将Adam 算法与SGD 算法结合。其中,自适应学习率的下界ηl(t)是t的非递减函数,上界ηu(t)是t的非递增函数。在学习率裁剪过程中,会发现学习率在几轮迭代后迅速缩减到一个小的区间,如图1(c)所示。
其中,β3为修正自适应学习率的指数衰减率;是第t步的梯度加权平均;是自适应学习率的梯度。MonAdam 算法描述如下:
(1)初始参数θ0,初始化m0= 0,v0= 0,=0,= 0,超参数β1,β2,β3∈[ 0, 1) ,学习率α,常数ε,损失函数f(θ),最大迭代次数T。
精准扶贫视域下西南边疆民族地区思想和文化扶贫工作存在的问题与对策 ……………………………………… 张志巧(6/35)
(2)t从1 开始进行T次循环迭代。
(3)计算gt= ∇θft(θt- 1)。
(5)计算mt=β1⋅mt-1+ (1 -β1)⋅gt。
肯普夫说:“当然,在美国西海岸、中国都有一些‘怀才不遇’的研究人员,他们愿意来欧洲寻找一个良好的科研位置。”肯普夫认为,现在是快速实施人工智能战略的时候了。他说:“联邦政府已经承诺未来几年将提供30亿欧元的科研经费。”正确使用这笔资金非常重要。他说:“最好将研究资金用于推动工业应用数字化的进一步发展”,“因为在这个领域我们欧洲人,尤其是德国作为工业基地有着明显的优势。”
(8)若满足终止条件,则保存当前解θt。
其中,β1、β2分别是一阶矩和二阶矩的指数衰减率[14];mt- 1、vt- 1分别是第t- 1 步中的一阶矩和二阶矩;gt为第t步的梯度。
2.2 初始化偏差修正
文献[14]中对E[vt]与E[gt2]进行分析,得到vt需进行偏差修正的结论,用以纠正初始化vt为零带来的偏差。E[]与E[gt]之间的关系如下:
采用ResNet-18 神经网络训练CIFAR-10 数据集,利用TensorboardX 在图3 中画出训练5 个EPOCH 的学习率分布图。 从图3(a)中可知Adam 算法学习率分布区间较为广泛。对比图3(b)可知MonAdam 算法一定程度上改善了Adam算法学习率分布较极端情况。
证明:对比文献[14]中定理4.1 的证明过程可知,只需重新证明MonAdam 中的的上界即可。
图2 表示MonAdam 算法在VAE 中训练MNIST数据集对10 个EPOCH 的损失图。图中横轴代表学习率并取以10 为底的对数,纵轴代表VAE 中的损失,VAE 损失是重构误差与KL 散度误差两项之和[20]。其中,超参数选取β3∈{ 0 .001,0.01,0.1} ,log10(α)∈[ -5, - 1 ]。
图2 变分自编码器(VAE)训练MNIST 数据集
由图2 可知在训练初始阶段,算法进行偏差修正时结果较优,可以防止产生较大的初始化偏差。
风影急匆匆地又要走了,红琴也挎着一篮子磨菇要回家了。冷不防她窜上去拦在他的面前,她让他等一等,随即就从细腰上取下一根红色的裤腰带子,闭上眼睛默默地念了一阵子,然后她将它挂在树枝上,打了一个丁香结。他问她什么意思,她笑容满面,说这个结就代表着他们这次见面,下次还在这里见面,再打一个结。她说只要心诚,每次打结许个愿,等到打了七七四十九个结,心里想什么好事,就能如愿以偿了。
2.3 梯度加权平均的自适应学习率
观察两组血液检验结果,包括平均红细胞血红蛋白量、平均红细胞体积、红细胞分布宽度、平均血红蛋白浓度;对比两者诊断符合情况。
1.2.1 透析前细节管理(1)根据不同时间段的心理情况采取不同的心理干预措施,让其负面情绪得到充分的宣泄;(2)根据患者不同的文化背景采用不同的健康宣讲方式为患者进行血液透析对病情治疗和控制的优点、必要性以及透析过程中透析头身体产生的不适反应,让其对血液透析治疗的步骤、优势、不适有一定了解,提前做好心理准备,面对透析治疗中的带来的各种困难;(3)在对患进行血液透析前,必须谨慎估测患者当前的干体重,并预设最佳脱水值,防止在透析时发生大规模的超滤,使血压急速下降。
图3 ResNet-18 网络训练CIFAR-10 数据集
2.4 收敛性分析
由文献[14]中定理4.1 可知,设函数ft的梯度有界,即∀θ∈Rd,则有:
由Adam 算法产生的任意两个参数θt之间的距离有界,即:∀m,n∈{1 ,…,T},有,。 对于参数β1、β2∈[ 0,1) ,满足,令,且β1,t=β1λt-1,λ∈( 0,1) 。对于∀T≥1,可以证明Adam 算法的遗憾界为:
试验选取液固比601,浸取温度55 ℃,测定浸取时间对Ba2+、OH-浓度以及水溶性钡存在形式的影响,试验结果如图6、图7。
如果E[gs]是稳定的,则ζ= 0。否则,可以适当选择指数衰减率β3,以便为较远历史梯度分配较小的权重,故ζ是足够小的值[14]。 而项是由初始化引起的,可在算法中除以此项,即对进行偏差修正:
在MonAdam 算法中引入参数β3∈[ 0,1) ,计算:
为验证管理层能力对企业研发投入的直接影响,对全样本进行回归,表2第1列和第2列分别是对模型 (1)进行普通混合最小二乘法和固定效应模型回归的检验结果。可以看出,管理层能力对企业的研发投入强度的影响均为负。经过F检验和Hausman检验,应选择固定效应模型,根据第2列结果解释更合适。这意味着就全样本而言,面对商业转化不确定的经营环境,高能力管理者制定研发决策更为审慎,倾向于根据其自身专业能力更好地识别创新机会,减少转化无效或低效的研发投入以避免企业陷入经营困境,验证了假设1。
其中:因为λi∈(0,1),i∈[ 1,…,t],所以不等式:
即:
因此:
3 实验分析
利用非凸函数与神经网络对SGDM、AdaGrad、RMSProp、Adam、MonAdam 五种算法进行对比分析。
3.1 非凸函数
计算非凸函数F1(x) 和F2(x)[21]的最小值,应用SGDM、Adam、MonAdam 算法进行优化。 图像分别如图4(a)、图4(c)所示,收敛情况分别如图4(b)、图4(d)所示。
图4 非凸函数图像与收敛结果
参数均设置为β1= 0.95,β2= 0.999,β3= 0.9,α= 0.1,m0= 0,,v0= 0,且均进行300 次迭代。F1(x) 与F2(x) 定义如下:
由图4(b)可知Adam 算法在非凸函数F1(x)中陷入了局部极小点,SGDM 与MonAdam 算法收敛到全局最优点。 由图4(d)可知非凸函数F2(x)中SGDM 与Adam 算法均陷入局部极小点,MonAdam 算法收敛到全局最优点。
3.2 测试函数
选用四个测试函数:
(1)Booth′s 函数:
(2)Matyas 函数:
目前市场上的中药挥发油提取设备型号多样、功能各异,其质量关系到中药挥发油的质量。相关部门应尽快加强提取设备标准化管理,完善《药品生产质量管理规范》(GMP)或建立相关政策法规。由于在提取挥发油的过程中普遍存在提取工艺与提取设备不适宜的问题,因此在研发自动化、智能化挥发油提取设备的同时,必须加强提取工艺与设备的适宜性研究,从而使传统的低效、高耗能挥发油提取设备升级成高效、低耗、绿色的现代中药挥发油提取设备。
(3)McCormick 函数:
(4)Sphere 函数:
社会主义协商民主是中国共产党和中国人民的伟大创造,最初起源于新民主主义时期作为各革命阶级联盟的统一战线,体现为阶级民主,即各革命阶级为争得民主,实施革命阶级间的政治联合与协商,在实践中又通过统一战线的合作形式和组织形式推动社会主义协商民主的发展[11]。
对MonAdam 算法性能进行检验。
实验中该算法参数设置为:β1= 0.9,β2= 0.999,β3= 0.01。前三种测试函数学习率α= 0.001,第四种测试函数学习率α= 0.02。实验结果如图5和表1 所示。
表1 测试函数结果
图5 收敛情况
如表1 所示,在四种测试函数中MonAdam 算法均达到全局最小点。可见,MonAdam 算法收敛情况较优。
3.3 神经网络实验
首先在图像分类任务中,选取常见的数据集进行算法性能测试[22]。CIFAR10 和CIFAR100 数据集均由60 000 张图像组成,其中50 000 张用于训练,10 000 张用于测试。本文使用ResNet-34求解CIFAR-10/100 数据集,比较SGDM、AdaGrad、RMSProp、Adam 以及MonAdam 算法的收敛效果。
实验参数设置:α= 0.001,β1= 0.9,β2= 0.999,β3= 0.01,ε= 10-8,m0= 0,,v0= 0,momentum = 0.9。所有优化算法均进行200 次迭代。其中,对ResNet-34 深度神经网络采用学习率预热技术,在150 轮次后使得学习率衰减10。
如图6(b)、图7(b)所示,MonAdam 算法在实验中均有较快的收敛速度和较好的泛化性能。 如表2 所示,MonAdam 算法在ResNet-34 模型中两个测试集的准确率分别可达93.77%、73.79%。
表2 ResNet-34 的测试集准确率
图6 利用ResNet-34 训练CIFAR-10 数据集
图7 利用ResNet-34 训练CIFAR-100 数据集
为衡量MonAdam 算法的适用性,利用长短时记忆神经网络(LSTM)[23]在PTB 数据集中进行语言建模实验。实验中使用困惑度作为衡量指标,困惑度越小则代表对新文本有较好的预测作用。如表3 所示,MonAdam 的困惑度最小,即具有良好的优化结果。
4.用氯化钠3.5 g、碳酸氢钠2.5 g、氯化钾1.5 g、葡萄糖20 g、氟哌酸散4 g、加水1 000 ml,充分摇匀溶解,每次口服80~100 ml,每日早晚各1次。
表3 PTB 数据集的困惑度
综上所述,在非凸函数与CIFAR10/100 数据集中MonAdam 算法和Adam 算法相比,准确率均有一定程度提升。 而在语言建模任务中,RMSprop 算法、Adam 算法和MonAdam 算法收敛性能相当,在图8 中困惑度在下降过程中出现大量重合,故可知MonAdam 仍然有较出色的表现。
图8 利用LSTM 训练PTB 数据集
4 结论
由于梯度下降算法过程简单、易于实现、具有相对良好的收敛性等特点,成为了神经网络中常用的参数更新算法。但仍具有收敛速度相对较慢、易陷入鞍点、局部极小点、泛化能力差等问题[24]。通过对Adam 算法中学习率的修正,提出MonAdam算法。本文通过改善学习率的分布,完善Adam 算法的收敛性。 未来的工作可以考虑将提出的修正学习率思想应用于AdaNorm[25]、RMSProp、AdamW[26]、AdaBound、Nadam[27]等算法中。