联合注意力算法对人工智能图像识别卷积的优化作用研究
2023-03-27王巍
王巍
【摘 要】 人工智能图像识别系统多采用卷积神经网络作为算法基础,利用注意力算法对卷积神经网络进行优化,能够实现更为精准的特征提取,从而达到降低训练成本、提高识别准确率的根本目的。文章以此为研究目标,对联合注意力算法下的卷积神经网络优化与具体的参数计算方式进行详细阐述,并通过训练实验的方式对联合注意力算法的识别有效性进行评价,发现该算法在图像智能识别中具有较大的应用价值。
【关键词】 注意力算法;人工智能;图像识别
一、联合注意力算法卷积模型优化
卷积神经网络是进行图像识别的核心算法之一。该算法通过构建卷积层与激活层的方式对图像特征进行提取,并在池化后对未知图像进行识别,同时利用识别数据对算法进行迭代。卷积神经网络的计算量相对较大,且特征提取属于“算法黑箱”。在此背景下,引入注意力算法能够降低特征点的识别维度,从而达到降低计算量、提高精准度的有效目的。
(一)卷积神经网络的图像识别
注意力算法主要是指在卷积神经网络中引入特定的参数函数,对卷积层中的特定像素集群进行再次“微池”化,将分散的像素整合为像素集合,进行集体分析,从而实现降低计算量的根本目的。如图1所示,利用“运动”作为构建DL(数据微池)的方式可以将视频图像中的物体运动特征进行整合提取,从而形成可视化热力图。
如图1所示,在视频图像识别中,其目的在于对机场中物体的运动情况及轨迹进行识别。在此要求下,传统卷积神经网络需要对图像中的全部像素进行分析。而引入“运动”的注意力参数,能够将运动的拟合度作为特定特征点进行固定提取,从而形成可视化热力图如图1(b),仅需要对热力集中在“0.75~1”范围内的微池像素进行卷积分析便可以实现相同功能。根据理论推演,在引入注意力算法的情况下,原有图像分析系统的计算量能够下降90%,对提高识别效率、降低系统能耗与软硬件需求具有重大的现实意义。类似的应用可以在多种场景下得到应用,如人脸识别、身份证识别、文字提取等。通过人工限定特定,形成池化数据的图像识别需求均可以通过联合注意力算法的方式对其卷积神经网络进行优化。
(二)联合注意力模块应用
在注意力算法对卷积神经网络的优化过程分析中不难发现,注意力算法的功能机制在图像的特征提取过程中发挥实效。即通过在卷积神经网络中的激活层中以注意力算法替代原有的像素求解,从而实现对计算量降低的根本目的。为此,在利用注意力算法对卷积神经网络进行优化时,应该假设其在输入特征圖到输出特征图之间。通过注意力算法获得的输出特征图作为后续卷积神经网络的分析依据,经过激活层、池化等操作,完成后续的图像识别与分析,具体的联合模式与流程如图2所示。
如图2所示,注意力模块在输入特征图与输出特征图区间,作为传统卷积神经网络像素计算特征提取的替代性工具。按照能够人工设定的注意力算法特征特性,其大致可以分为通道注意力模块和空间注意力模块。两种模块的主要区别在于人工设定特征点的属性差异。前者以运动为基础,如对运动轨迹识别、动作识别、表情识别等;后者则多以物体为单位如对特定几何形状识别、文字识别等。
二、联合注意力算法在图像识别中的应用
(一)联合模型与总体架构设计
注意力模块需要在图像识别的池化过程之间发挥效能,需要整合入卷积神经网络系统内提供额外的特征信息,帮助模型进行更为精准与高效的图像识别。基于这一目标以及具体的应用流程,优化后模型的总体架构如图3所示,主要分为三个部分:
1. 输入部分。包括原始图像和编码器两个部分,该过程的核心任务是将目标图片进行像素分解,为后续的训练与识别提供数据素材;
2. 注意力联合部分。包括通道注意力模块、卷积层、激活层和归一化层等。该部分为注意力模块的优化核心,通过编码器分解的像素数据,在注意力模块的作用下形成池化数据的双通道结构,既当数据类别符合注意力特征阈值后则进入卷积层成为特征确定的标准之一,如不符合则按照传统卷积神经网络进行识别分析;
3. 解码与输出部分。主要包括解码器和损失检测等部分。该部分的主要作用在于将卷积神经网络构建的输出结果进行解码,同时对其可能产生的像素损失和重建损失进行修正回复,最终输出识别结果。
(二)编码器的设计
编码器需要将图像信息转变为可供注意力算法识别的像素信息,在模型设计中至关重要。模型主要通过反射图像混合模型的方式方法对编码器进行构建,并对图像的像素信息进行求解,具体模型公式如下:
I=M×T+(1-M)×(K×R)(公式1)
其中,I表示具有反射混合特征的图像信息;R表示图像反射层;T表示传输层;K表示反射模糊核;M表示反射混合约束矩阵。利用公式1可以对现有图像进行矩阵切割,并提取其中的关键核心像素信息点,将照片的图像信息转变为模型能够识别的数值数据。
(三)损失函数的计算
通过编码器的像素分解,在获得可供分析的数据基础上也必然会带来数据细节的丢失,这就需要引入损失函数对其结果进行修正。损失函数的核心是对像素分析中的偏差丢失进行修正,其中包括像素损失、恢复损失和重建损失等三个主要要素。按照不同要素进行分类,其函数如图3所示:
Lpixel=R∈MN(R,M)Lres=R∈M{(R,M)+N[G(R),G(M)]}Lrecon=I∈MN(R-I) (公式2)
其中,Lpixel表示像素损失修正;Lres表示恢复损失;Lrecon表示重建损失;R为真实图像;M表示反射图层;N表示预期损失系数;G表示图像梯度;I表示重建图像。公式2可以在算法求解过程中对分析前后的像素特征损失系数进行求解,并通过迭代优化的过程将公式2中的求解数字整合到公式1中,形成修正后的像素特征,具体表示为I修正=I+Lpixel表+Lres+Lrecon,当迭代中I修正近视等于I时迭代结束,系统完成自我修正,并可以将损失函数结果带入后续识别中进行直接应用。
三、联合注意力算法模型效果分析
(一)实验条件
利用注意力算法进行优化的图像智能识别系统本质上依然是基于卷积神经网络构建的一套具有迭代功能的智能体系。在实际应用过程中,应该通过具有标记作用的图片进行“喂养”后方可形成有效识别效能。为进一步分析注意力算法的实际应用效能,文章采用对比实验的方式对其进行验证,具体过程与环境设定分为如下几个方面:1. 收集各类型图片按照识别类别分为通道类和空间类,各类别集合内图片为10000张;2. 通过编号后随机挑选的方式分为训练集和测试集,比例为19∶1;3. 以双通道GTX4080Ti为GPU处理核心,在Ubuntu12.0系统上部署智能识别系统,并连通输入设备与结果输出设备;4. 在平台内分别部署两套算法系统,分别为实验模型和对比模型,其中实验模型为注意力算法优化后的卷积神经网络模型,对比模型则为原始卷积神经网络模型。
(二)实验结果分析
为验证注意力算法对卷积神经网络模型优化的有效性,通过开展对比实验的方式对其进行分析。具体指标包括了2個维度的4项指标。其中,训练效率指标包括95%识别度训练集占比(%)、训练时长(h);准确性维度包括了识别准确性(%)、细节丢失率(%),实验结果如表1所示。
由表1可知,通过注意力算法的优化,模型在训练效率以及识别准确性方面均有不同程度提高。在同样以95%训练稳定度的条件下,通道类实验模型训练稳定时需使用训练集图片总量的53.41%,远低于对比模型使用量(62.73%)。同时,实验模型在通道类图片中的训练效率明显低于空间类图片,但两种模型在空间类的训练效率中并无明显差异,这说明两种模型对空间类图片的训练效率均相对较高,但注意力算法优化对通道类图像的识别应用效果更佳。在训练时长上也表现出相同的数据规律,形成了交叉认证。
在准确性方面,通道类图片条件下,二者准确率均超过了97%,符合应用的基本要求,且没有明显差异,说明通过注意力算法优化后的卷积神经网络对传统模型具有较高的替代效果。但在空间类图像的识别中,实验模型的准确率显著高于对比模型,说明注意力算法在空间类图像识别中更具有比较性优势。
除此之外,通过表1数据能够发现,在利用实验模型进行图像识别时会丢失更多的细节数据,这一问题主要是由于系统整合了除雾模块,该模块通过模糊处置图层的前置信息,从而会造成一定的数据细节丢失,但对识别结果不造成显著影响。
参考文献:
[1] 陈杭,张兆江,刘阔,等. 联合注意力机制与多级特征融合的街景全景分割算法研究[J]. 测绘与空间地理信息,2023,46(09):43-47.
[2] 苏明,艾海明,马琳,等. 基于AI的图像识别乘驾安全监测系统研制[J]. 传感器与微系统,2023,42(08):85-87+91.
[3] 王瑶涵,宋泽阳,张利冬. 基于卷积神经网络的安全标识分类算法研究[J]. 中国安全科学学报,2023,33(S1):263-269.