APP下载

基于约束稀疏表达的细粒度图像分类识别方法

2021-12-10龚文辉李沁颖

计算机仿真 2021年11期
关键词:矢量约束样本

王 莉,龚文辉,李沁颖

(1.南昌交通学院,江西 南昌 330100;2.江西农业大学南昌商学院,江西 共青城 332020;3.江西师范大学,江西 南昌 330022)

1 引言

建立有效的自然图像生成模型是计算机视觉中的关键问题之一,其目的是通过根据潜在的自然图像分布来改变一些潜在参数,从而生成各种逼真的图像[1]。因此,需要一个理想的分类识别模型来捕获基础数据分布。但是细粒度图像样本的集合可能位于非常复杂的流形上,分类识别实现过程存在一定困难[2],是现今图像处理领域的研究重点。

关于细粒度图像分类,汪荣贵等[3]提出一种深度迁移学习模型,将大规模有标签细粒度数据集上学习到的图像特征有效地迁移至微型细粒度数据集中。通过衔接域定量计算域间任务的关联度;根据关联度选择适合目标域的迁移特征;使用细粒度数据集视图类标签进行辅助学习,采用联合学习所有属性来获取更多的特征表示。但该方法迁移过程速率缓慢,计算效率有待优化。袁建平等[4]设计一个端到端的分类模型来解决细粒度图像分类问题,使用深度卷积神经网络获取图像视觉特征,并依据提出的端到端文本识别网络,提取图像的文本信息,使用相关性计算模块合并视觉特征与文本特征,传输至分类网络中。但该方法特征提取精度有待完善。

由此文章提出一种基于约束稀疏表达的细粒度图像分类识别方法。通过图像预处理防止无关信息干扰,提升分类效率,代入分布结构约束项构建约束稀疏表达分类模型,采用交替方向乘子法实施模型求解,获得高质量图像分类识别结果。

2 细粒度图像预处理

为节省细粒度图像分类识别时间,利用在线硬示例挖掘(Online Hard Example Mining,OHEM)筛选对识别影响结果较多的信息,并预防无关数据的侵扰。在区域建议网络中输入一张待分类图像,输出置信度序列前N个目标可能存在的范围。OHEM拥有两个不同的感兴趣区域网络。左侧的感兴趣区域网络仅负责前向传播推导误差,右侧的感兴趣区域网络从左侧网络中通过误差排序[5],挑选误差最高的样本当作右侧网络输入。设定区域建议网络输出的矩形目标框是Di,其相对得分的推算过程为

(1)

式(1)中,Si表示重叠框相交的面积,S是重叠框的并集面积。非最大抑制算法是区域建议网络内最关键的构成部分。区域建议网络输出一系列检测框Di的相对的分数fi。非最大抑制算法要设定一个常数阈值τ,若检测框得分高于阈值τ,则把它安放在最终的检测结果集合E中。与此同时,集合E内所有和检测框的重叠部分高于重叠阈值τ的检测框会被强制归零并删除[6-7]。在相近的检测框分数都被强制归零后,假如实际物体在重叠范围出现,会致使对此物体的检测失败,同时会降低图像分类识别精度。

不将高于阈值的相近目标框得分设定成0,而是乘以某个衰减函数,这样就能降低假阴性几率,剔除对图像识别具有干扰性的信息。计算过程为

(2)

3 约束稀疏表达下细粒度图像分类识别模型构建

如果拥有b个类型的训练样本图像,将其描述成如下两种形式

Bi=[bi1,bi2,…,bij]∈Km

(3)

B=[b1,b2,…,bA]∈Km×ni

(4)

式(3)、(4)均为是第i类训练样本图像矢量组成的矩阵,式(3)中bij∈Km代表第i类第j个训练样本图像矢量。m是训练样本图像矢量维数。式(4)中A是训练样本图像类型个数,ni是第i类训练样本数量。

设定矩阵B是字典,将待分类样本图像矢量e使用字典B表示,得到e=Bo。o是待分类样本图像矢量e在字典B下的表达系数矢量。在稀疏表达方法中,检测样本图像矢量e可通过和自身相同类型的训练样本图像矢量进行表述,并在样本图像充足状况下[8],e在B下呈现出稀疏表达形式,稀疏性越高,越有助于图像分类识别处理。

(5)

class(e)=argminiti(e)

(6)

在实际操作中,图像分类识别通常包括光照、姿态与遮挡等偏差,并极有可能被噪声污染。所以稀疏表达在字典内代入单位阵I∈Km×m来阐明图像偏差及噪声。将式(5)的l1-范式最优化问题转变成

(7)

同样利用式(8)算出e的类关联重构偏差,对图像矢量e进行分类识别。

(8)

上述过程为常用的稀疏表达图像分类识别手段,由于分布结构[9]是精准分类图像的先决条件,为此文章将分布结构当作稀疏表达最小优化式中的约束项,并构建细粒度图像分类识别模型。运算流程如图1所示。

图1 分布结构约束稀疏表达下的分类识别流程

采用原始训练样本数据当作码书时,会存在一定数量的噪声信息。为防止该降低图像的噪声,在约束稀疏表达下提取图像的方向梯度图,这样就等同于对图像实施滤波处理,不但能去除噪声,还能明确图像局部内容,将图像表示为直方图特征矢量。

直方图交叉能衡量图像直方图特征相似性。把图像的分布结构利用图像之间的相似矩阵W进行描述,Wi,j是W的i行j列的因子,将其记作

(9)

式(9)中,D表示图像直方图特征维数,Hi表示第i个图像的直方图特征,Hi与Hj是最接近的邻域。挑选各图像的6个最近领域产生图像样本的相似矩阵,此矩阵能呈现出图像样本的分布结构信息,明确相似图像样本之间的耦合关联。对图像进行分类识别就要按照训练样本的分布结构相似程度确立样本类标记的从属性[10],由此证明了分布结构约束项对图像分类识别具有至关重要的现实意义。

在分布结构约束项基础上,组建全新的约束稀疏表达模型,针对待检测样本y,基于约束稀疏表达的图像分类是运用l1-范式约束与编码保持样本分布结构约束下,让编码误差为最低,利用训练样本集X对y编码,得到最优编码系数为

(10)

式(10)中,αi与αj是α内的随机系数,Wi,j是训练样本的分布结构,将分布结构信息储存于稀疏编码系数内。构建式(10)的前提是创建检测样本的训练样本线性系数表征模型y=Xα。按照拉普拉斯矩阵特征,将式(10)等效记作

(11)

式(11)中

L=D-W

(12)

D=∑iWi,j

(13)

将式(11)变换最终式(14),即可获得图像分类识别模型的最终形式

(14)

式(14)中

S(α)=(y-Xα)2+βL

(15)

4 模型求解

交替方向乘子法是一种处理可分离凸规划问题的方法,拥有迭代形式简便、储存量小和高效率等独特优势。交替方向乘子法能把原有问题的目标函数等价分解成多个容易探寻的局部解子问题实施交替分析,迭代获得问题全局最优解,文章利用该算法完成细粒度图像分类识别模型求解任务。构建相似度衡量函数。图像分类识别就是对不同的环境下的图像目标进行关联,匹配相等的内容。设计一种度量学习方法(keep it simple and straightforward metric,KISSME)方法,针对固定图像对(p,q),将其特征记作(up,uq),则图像相似度计算公式为

(16)

式(16)中,Vs(up,uq)代表(p,q)从属相关图像对的几率,Vd(up,uq)代表(p,q)不属于相关图像对的几率。使用全局与局部相融合手段获得最终相似度函数,将局部与全局相似度依次记作

(17)

(18)

局部相似度函数与全局相似度函数的总和即为最终的相似度函数

δ(li,lj)=δlocal(li,lj)+γδglobal(li,lj)

(19)

式(19)中,γ表示调整局部与全局相似度函数的超参。利用式(19)构建正则化测度矩阵,得到

(20)

式(20)中

(21)

将图像分类识别问题等效为排序问题,若两个图像是相同内容能获得更多的分数提高排名,组建三元损失函数

(22)

ltriplet(ln,li,lj)=[δ(ln,li)-δ(ln,lj)+α]

(23)

按照式(20)与式(22)获得图像分类识别目标函数

c=1,…,C;r=1,…,R

(24)

(25)

(26)

(27)

(28)

由此可知,一次迭代共分为四部分:首先计算和U1有关的最小化问题,更新变量U1,再算和U2有关的最小化问题,更新变量U2,计算和U3有关的最小化问题,更新变量U3,最终更新两个对偶变量Λ1、Λ2,完成精准的图像分类识别目标。

5 仿真研究

5.1 仿真环境

以人脸细粒度图像作为分类目标,在FaceScrub人脸数据库上进行实验,证明所提方法可靠性。挑选人脸数据库内的50人,每人拥有5张不同表情、光照等变化的正脸图像。图像大小从初始160×115像素剪裁成60×50像素。.并设定常数阈值τ为127,配置Intel core i7 5960X 型号CPU,32 G内存,及RX5950XT 型号显卡的工作站。

5.2 人脸细粒度图像分类识别对比

为了验证所研究方法的分类识别的效果,随机选取上文数据库中的三幅不同人脸、不同表情的人脸图像。将所研究方法与文献[3](基于深度迁移学习的微型细粒度图像分类)和文献[4](基于文本与视觉信息的细粒度图像分类)进行对比仿真,测试三种方法的分类如图2所示。

图2 人脸细粒度图像分类识别结果

由图2可知,文献[3]方法的分类结果失去了多样性和结构信息,文献[4]方法的分类结果同样丢失了结构信息,而所研究结果,显示了现实,多样化和类别保持的结果。因为所研究方法在约束稀疏表达下提取图像的方向梯度图,从而保证了图像分类识别结构的完整性。

5.3 峰值信噪比与分类时间对比

为了验证在不同光照环境下所研究方法的分类识别性能,将所研究方法与文献[3]和文献[4]进行对比仿真实验,为进一步明确不同实验环境下三种方法的分类识别性能,将图像分为三组,每组50幅图像:正面无表情及光照改变的图像(1组)、只有表情变化的图像(2组)和只有光照改变的图像(3组),测试结果如表1所示。

表1 三种方法的峰值信噪比与分类时间对比

从表1可知,所研究方法分类后的峰值信噪比高于对比的两种文献方法,峰值信噪比越高说明图像质量越好,其平均峰值信噪比为28.9,说明分类的图像质量较高。图像分类时间上所研究方法远低于对比的其他两种方法,平均分类时间为5.71s。这是因为所研究方法在稀疏表达中引入了分布结构约束项,并在图像预处理阶段运用在线硬示例挖掘方法将检测样本中的干扰信息剔除,提高了方法分类识别能力与效率。

6 结论

针对细粒度图像分类识别精度不高、计算繁琐等问题,提出基于约束稀疏表达的细粒度图像分类识别方法。该方法运算简便、有效处理稀疏编码分布结构缺失问题,分类后的图像质量得到显著提升,拥有广阔的应用前景。但在图像预处理过程中,对不同子类差异特征的提取能力有待增强,这也是后续研究的关键内容。

猜你喜欢

矢量约束样本
一种矢量信息重构的最优双矢量定姿算法
一种适用于高轨空间的GNSS矢量跟踪方案设计
矢量三角形法的应用
规划·样本
人大专题询问之“方城样本”
马和骑师
随机微分方程的样本Lyapunov二次型估计
三角形法则在动态平衡问题中的应用
适当放手能让孩子更好地自我约束
CAE软件操作小百科(11)