APP下载

一种基于三支决策SVM 分类的图像识别方法

2019-07-30邵帅

现代计算机 2019年18期
关键词:图像识别分类器语义

邵帅

(重庆市地理信息中心,重庆401147)

0 引言

图像识别(Image Recognition)的定义是利用计算机对原始图像进行处理、分析和理解,达到识别各种不同的目标和对象目的的技术。从70 年代开始基于内容的图像识别技术便成为一个非常活跃的研究领域,其推动力来源于两大研究方向[1]:数据库系统和计算机视觉。基于智能化、多媒体数据挖掘的一个重要分支是关于内容的图像识别技术,而图像识别经历了文字识别、数字识别和物体识别三个阶段,每一个阶段代表了一项新的智能技术的产生。最开始的图像识别研究主要集中在全局特征和相似度度量的方法对图像的全局进行描述,达到图像理解的效果。由于计算机人工智能技术和大数据计算机视觉技术发展的不成熟,所以使得图像识别的发展受到限制。因为图像识别一般采用全局的图像特征,所以这类方法仅对图像信息简单或背景较为单一的图像有效,基于此,图像识别的相关反馈技术成了当前研究的一个热点。图像信息反馈技术会根据用户的需求实时调整需要检索的特征和相应算法,尽可能降低高层语义和低层特征之间差异带来的影响。目前计算机视觉和模式识别技术还不能达到对目标进行高效识别的水准,导致了描述对象层语义和抽象层语义比较困难,因此现在对于图像语义特征的研究集中在语义特征模型的第一层,即特征语义层[2]。因为简单语义特征的提取与分析是利用复杂语义信息的基础,而计算机对图像内容的理解一般指图像的低层视觉特征,如颜色、纹理、形状等;而实际上,人类对图像的理解即图像语义信息表达的内容要远远多于图像的视觉特征。这种从图像低层视觉特征与图像高层语义特征之间存在着的较大差距,即“语义鸿沟”[2-3]。综上所述,现在一般的图像识别方法都是基于图像的低层语义进行研究的,由于计算机自身性能的问题,只能程序化的执行单一的操作指令,导致一般方法对图像的识别率低,而如何提高图像识别率,理解图像深层语义成了现在亟待解决的研究方向。

三支决策理论(Three-Way Decision Method),是姚一豫等人在粗糙集和决策粗糙集基础上提出的新的决策理论。2012 年10 月召开的中国粗糙集与软计算会议上,姚一豫教授系统地介绍了三支决策理论的背景、框架、模型及应用。“三支决策理论与应用”标志着三支决策由粗糙集的三个区间的语义解释逐步发展为一种不确定或不完整信息条件下的决策理论[4]。三支决策具有非常强的普适性,能广泛的应用与不同的学科和领域。之前,对于三支决策的研究主要集中于静态决策问题[5]。然而现实问题中,初始阶段的有效信息往往是不足的,人们对决策对象的认识具有模糊性,无法做出准确判断;随着信息的更新和补充,人们的认识达到更精准,做出更准确的判断;最终,信息充分,人们给出准确判断。目前,三支决策理论应用于解决复杂问题和计算机模拟人类思维的方法中,现在很多学者在研究将三支决策与粒计算相结合。目前大部分学者将图像识别研究的重点集中在图像内容的描述上(低层信息),而对分类器进行融合以提高提高分类性能的方法仍然较少。由于图像自身内容的复杂性(高层语义),图像分类任务十分困难,而三支决策一般用于模糊信息决策问题,能有效地分类出图像中的模糊信息,以期达到提高图像识别率的目的。本文提出了一种基于三支决策的图像识别算法,改进了图像分类器算法,有效地识别了图像的有效信息,提高了图像精度的准确率。

1 相关理论

图像识别技术本质上来讲是对图像特征的提取,首先将处理后的图像进行分类,并对其确定类别名称;然后对需要提取的图像特征进行参数测量,并提取此类特征;最后根据测量结果分类。为了提高图像识别的准确率,还需要对图像结构进行分析,得到图像的主要信息,以便对图像进行解释和理解,在此基础上,通过对图像的多个对象之间的相互连接的结构进行分析,对图像加深理解,使识别率更高。因此,图像识别是通过上述过程将图像特征分割到各个部分中,再找出其中的形状、纹理等特征,即特征抽取,再对图像进行分类,最后将图像的结构做整体上的分析。

现在主流的图像识别流程包含预处理、图像分割、图像特征提取、图像分类这几个部分,如图1 所示。

图1 图像识别流程

像识别技术主要分为图像输入、图像处理、图像识别、识别结果这几个步骤。当前的图像识别技术主要是提取图像的特征信息,然后通过分类、聚类等方法将图像信息进行处理,然后对这些信息进行识别。传统的图像识别总是把目标集中在图像轮廓或轮廓方向改变较大的地方,从理论上讲,这些地方信息量最大且符合人类眼动规律。但是人类识别图像的处理过程往往要通过更多的步骤,想要模拟人类处理图像的模式,需要把图像分割成几个组块:已认知的组块、未认知的组块、待认知的组块。为了提高图像识别的准确率,需要将待认知的组块和已有认知进行匹配,最终得到相似度最高的组块集合。

三支决策是近几年发展起来的一种处理不确定性决策的方法,是一种复合人类认知的“三分而治”(Trisecting and Acting)模型[6]。三支决策是一种基于符合人类认知的决策模式[6,12],三支决策理论提出:人类的决策过程中,会对有充分把握的事物立即做出相应判断(接受或拒绝);而对于那些不能当场做出决定的决策,人们一般会采取保留意见的态度,等条件合适或依据充足之后再做决定,即延迟决策[6]。在更多的实际决策过程中,存在决策环境的复杂性,信息获取的不完备性,群决策中各专家意见不一致性[7],决策者所具备知识的有限性和思维模糊性等不确定情况,决策者在大多数情况下很难准确地给出损失函数的具体取值。一般来说,不确定的含义很广泛,主要包括随机性、模糊性、不完全性、不稳定性和不一致性等方面[8]。通常而言,三支决策分为两种模式:基于双评价函数的三支决策和基于单评价函数的三支决策[12]。

定义1:基于双评价函数的三支决策[6]

第一种模式给定双评价函数νa和νr,其中νa用于接受,νr用于拒绝。在接受和拒绝函数上各引入一个γa和γr称为接受阈值和拒绝阈值,≥表示全序关系,则三支决策的三个域由以下规则给出:

正域:POS(γa,γr)(νa,νr)={x ∈⋃|νa(x)≥γa∧νr(x)≺γr};

负域:NEG(γa,γr)(νa,νr)={x ∈⋃|νa(x)≺γa∧νr(x)≥γr};

边界域:

BND(γa,γr)(νa,νr)=(POS(γa,γr)(νa,νr)⋃NEG(γa,γr)(νa,νr))c。

通过三个域构造三支决策规则[2]:正域对应接受,负域对应拒绝,边界域对应延迟决策,如图2(a)所示。

定义2:基于单评价函数的三支决策[6]

若引入一对阈值(α,β),则将实体集合U 分为一下三个部分:

图2 基于三支决策的评价函数

正域:POS(α,β)={x ∈⋃|v(x)≥α};

负域:NEG(α,β)={x ∈⋃|v(x)≤β};

边界域:BND(α,β)={x ∈⋃|β ≺v(x)≺α}。

同理,这三个域构成三支决策的三个规则,如图2(b)所示。

公理1:知识越多,三支决策越明确[13]。

已知的信息越充分,接受和拒绝决策的可能性越大,不承诺的可能性越小;已知信息越少,接受和拒绝的可能性越小,不承诺的可能性就越大。对集合的特征提取越多,能确定的相同或相反的属性越多,相异属性越少,联系度的量化更精确;特征提取越少,能确定的相同或相反的属性越少,相异属性越多,联系度的量化更粗糙。

2 基于SVM图像识别中的三支决策

提高图像识别的准确率一直是图像信息领域的一个难点,一般来说,图像识别的研究集中于图像的低层视觉特征,这导致了图像识别的算法比较单一,研究者们也会把研究重点集中在低层视觉中的特征点上,容易导致图像中的有用信息量识别不够完全,从而降低了图像识别率。本文提出了一种基于三支决策的图像识别方法,更大程度上利用了图像中的有用信息量,使图像识别更精确。

2.1 存在的主要问题

(1)图像分割时因规则分割导致目标被分配到不同子模块中

目前大部分学者将图像识别的分类研究重点集中在图像内容描述上,重点集中在低层,如颜色、纹理、形状等,而实际上,人类对图像的理解即图像语义信息表达的内容要远多于图像的视觉特征。现有图像分割时因规则分割导致目标被分配到不同子模块中,从而使分类时产生误差,不同的图像子块被分到不同的区域,影响图像识别准确率。现有的图像识别方法通常是分析图像特征信息、改进识别算法等方法来提高图像识别的准确率,很少有方法对分类器进行改进和融合。由于图像信息的负载性,导致了图像分割、分类困难,图像语义的分类现在还是图像识别过程中最重要的问题。

(2)自适应性差

自适应性差是当前图像识别技术存在的重要缺陷,因此,需要识别的图像存在噪声污染、图像缺陷、信息损失等情况,就往往得不到理想的效果。文献[5]提出,现代图像识别技术受限于图像本身的因素,如采集的器械,以及采集时的噪声污染,图像存储、传输过程同样也会导致的图像信息的缺失。因为这些信息的缺失大多是不可避免的,所以导致图像识别过程中产生的误差。

2.2 图像识别中的三支决策

针对以上问题,本文提出了一种基于三支决策SVM 分类的图像识别方法,该方法即利用了SVM 分类器的原理,又采用了三支决策处理模糊信息的机制,对于图像分割中不同子块中不确定部分会进行再次判断,从而降低因为模糊特征信息而未识别的可能性。由于该方法是通过不断增加分类器的判定条件来分割图像,所以不同子块中的图像会在不断的迭代过程中划分到同一子块中,有效避免了传统方法中出现的问题。而三支决策分类器每次增加的判定条件又是来自于对已有条件的筛选后的信息,所以每次增加的信息能根据当前图像的自身属性,不断调整分割区域,进而达到准确识别的目的。

2.3 技术路线

针对图像识别研究重点集中于低层视觉特征这个问题,本文对传统的识别方法进行改进,使用高效的图像分割方法,使图像不会因为同一目标分到不同子块,从而提高识别率。本文融合多特征、分割、检测、多分类器等方法,对样本图像进行深度学习训练,在减少图像损耗的同时,分割出目标区域,并对其进行再训练。本文使用的复合型SVM 识别器是基于SVM 识别的改进版,通过融合分割等多类方法进行最终的检测识别,提高图像识别率。

针对一般方法识别率低的问题,本文提出基于三支决策的图像识别方法。根据人类认知事物的特性,采用三支决策的方法,由于三支决策独特的延迟决策特性,在最初的判定条件中不断地加入新的判定信息进行决策的条件判断,所以分类器每次分类完成后会把已经划分的正、负区域作为新的训练集进行再次训练,形成新的判定条件加入到延迟决策的区域,直到延迟决策的区域不可再分,最后进行图像识别。如公理1所说,每次训练会加入新的决策条件,使三支决策分类器的分类结果越明确,延迟决策的部分越来越小,直到达到某一临界值,最后进行图像识别达到理想的结果。

3 基于三支决策的SVM分类图像识别算法

对应三支决策,我们分别用α、β 和ξ 分别表示接受、拒绝和不承诺。假设评价函数定义为Pr(X|[x]),风险函数为R(Δ|x),其中Δ 表示对x 的决策动作,基于表1 给出的代价矩阵,两状态可以得到以下风险估计:

接受风险:R(α|x)=λαp∙Pβ(X|[x])+(1-Pβ(X|[x]));

拒绝风险:R(β|x)=λβp∙Pβ(X|[x])+(1-Pβ(X|[x]));

不承诺风险:R(ξ|x)=λξp∙Pβ(X|[x])+(1-Pβ(X|[x]))。

在决策问题中,基于风险函数,选择其中风险最小的决策动作:

当满足条件R(α|x)≤R(r|x)∧R(α|x)≤R(n|x)时,选择接受;当满足条件R(r|x)≤R(α|x)∧R(r|x)≤R(n|x)时,选择拒绝;当满足条件R(n|x)≤R(α|x)∧R(n|x)≤R(r|x)时,选择不承诺。

假设风险函数满足下面条件:

将R(α|x),R(r|x),R(n|x)代入上面三个不等式,可以得到以下结果:

如果Pr(X|[x])≥α,选择接受;如果Pr(X|[x])≤β,选择拒绝;如果β

表1 两种状态决策问题代价矩阵

基于以上理论本文提出以下算法,算法1 为基于三支决策的图像分割算法,主要目的是把图像分割为三个部分,为算法2 的识别做前期工作。算法2 为基于三支决策的识别算法,在算法1 的基础上,对图像分割出的部分进行识别操作。

算法1:基于三支决策的图像分割算法

Input:训练数据集ψ

Output:图像正、负、延迟决策区域P、N、B

Start

Step1:输入图像集ψ。

Step3:算出最优值:

Step4:延迟决策部分为β<ξ<α。

Step5:根据α,β,ξ 把图像分为正、负、延迟决策区域(P,N,B)。

Step6:对延迟决策区域重复执行Step2 到Step5 过程,重复ω 次。

End

算法2:基于三支决策的图像识别算法

Input:待识别图像C

Output:识别结果

Start

Step1:输入图像C。

Step2:使用算法1 中所训练好的分类器把图像分为三类。

Step4:对于达到部分使用复合型SVM 进行识别。

Step5:输出识别结果。

End

4 实验与分析

Cifar-10 数据集包含60000 个32×32 的彩色图像,共有10 类。有50000 个训练图像和10000 个测试图像。数据集分为5 个训练块和1 个测试块,每个块有10000 个图像。测试块包含从每类随机选择的1000 个图像。训练块以随机的顺序包含这些图像,但一些训练块可能比其他类包含更多的图像。训练块每类包含5000 个图像。原始数据集都为单目标图像,为了验证三支决策分类器的准确率,本实验中把原始数据集中的4 张图像合成一张,即每个测试项有4 个待识别目标。

实验步骤:

Step1:输入数据集中一张图片。

Step2:用已训练好的三支分类器进行相似度匹配分类,把现有图像分为三个区域,即正样本区域、负样本区域和延迟决策区域。

Step3:判断正样本区域是否已经达到识别的临界值n,如果未达到就把该区域作为新的训练样本和负样本区域一起进行再次训练。

Step4:直到正样本区域达到临界值n,使用复合型SVM 识别器识别改区域。

Step5:输出识别结果。

实验结果如表2 所示,实验效果如图1 所示。

本次实验使用了数据集中所提供的4000 张图片,每类随机选择图片400 张,每次实验为100 张图片,最后结果取平均值。统计数据可得表1,基于三支决策的图像识别是可以实现多目标图像的识别。根据表2 的数据可知,该方法在数据集Cifar-10 中平均的准确率为87.58%,平均F 值为87.06%,由此可得基于三支决策分类器的图像识别能得到较高的识别率和准确率。

5 结语

本文采用了复合型SVM 识别的方法来对图像进行识别,利用三支决策分类器对图像数据进行决策判断。实验结果表明,在相同实验数据集的情况下,基于三支决策的图像识别相对于传统的图像识别方法在准确率上有明显的提升。本文采用的基于三支决策的图像识别方法,相较于传统的图像识别方法,在图像特征上有更高的识别率以及更好的识别效果。本文下一步工作是在三支决策分类器的基础上,对图像识别方法进行改进,以及使用多种识别方法进行图像识别,进一步提高图像识别准确率。

表2 基于三支决策Cifar-10 多目标识别率

猜你喜欢

图像识别分类器语义
真实场景水下语义分割方法及数据集
少样本条件下基于K-最近邻及多分类器协同的样本扩增分类
支持向量机的舰船图像识别与分类技术
基于计算机视觉的图像识别技术研究
学贯中西(6):阐述ML分类器的工作流程
基于朴素Bayes组合的简易集成分类器①
人工智能背景下图像识别技术浅析
基于AdaBoost算法的在线连续极限学习机集成算法
图像识别交互系统
“吃+NP”的语义生成机制研究