基于文本特征及图像实例标注的反馈策略

2018-12-22李净，李桃，富斌

计算机工程与设计 2018年12期

李净，李桃，富斌

(上海健康医学院附属第六人民医院东院计算机中心，上海 201306)

0 引言

相关反馈[1]和融合文本特征[2-4]的图像检索是解决图像检索中“语义鸿沟”最有效的两种方式。传统的反馈模式由于没有明确指出当前查询与特征间的联系使得学习器很难快速、正确调整。因此，相关反馈时通过人工标注的方式获取与当前查询相关的特征信息会极大提高检索精度，这种用户直接标注特征的方法被称为特征标注。

特征标注由Raghavan等[5]提出并成功应用于文本检索中，此后Shama等[6]研究了基于特征标注的主动学习，解决了特征反馈时最佳文本特征的自动推荐问题；Sindhwani等[7]研究了基于特征标注和实例标注的主动的双重学习，Attenberg等[8]研究了基于池的多项式双重学习方法，证明了特征标注、实例标注交替学习的相关反馈模式优于单独标准的反馈模式。

受到文献[5,8]的启发再加上图像文本特征的便捷获取(网页标签的便捷获取和自动文本标注技术的发展)，作者将特征标注的思想引入图像检索的相关反馈，但由于文本特征只是图像的其中一类特征，特征标注相关反馈的成果无法直接应用于该领域，因此，本文主要研究：文本特征与底层视觉特征关联方法；基于文本特征及图像实例的混合反馈模式、标注模式；混合反馈主动学习中文本特征/实例选择策略；反馈模式切换策略以及视觉特征的标注策略。

1 图像检索系统流程

图像检索系统的流程如图1所示：用户首先提供待检索图像或文本，系统可以使用任意排序函数给出Top-n个图像，当用户对返回的结果不满意时，系统给用户提供待标注的文本特征或图像实例，在获取用户标注后，标注为“相关”的特征或图像实例正例点的yi值赋1；负例点赋0，然后系统自动进行启发式视觉特征标注(此过程称为混合反馈)，接着使用高斯场和调和函数半监督学习(式(4))计算其它未标注图像实例的f值并对其排序后返回Top-n个图像实例,然后进行下一轮学习直到用户满意。

图1 图像检索系统流程

2 基于高斯场和调和函数的半监督学习

我们采用了基于高斯场和调和函数的半监督学习法[9]进行混合反馈模式下的学习，该方法是一个基于图的半监督学习方法，其算法描述如下。

2.1 构造特征标注和实例标注的双重监督图

(1)

图2 特征标注和实例标注的双重监督

2.2 构造标记推测函数

在图G上计算一个实数值函数f:V→，并对所有的标识样本都满足约束：f(i)≡fl(i)≡yi。基于图的半监督学习一般建立在假设“相近的点具有相同的标记”，同样的，相近的未标识样本点应该具有相似的标记，基于此原则可以定义二次能量函数(式(2))

(2)

然后通过高斯场为f函数指派了一个概率分布

(3)

2.3 计算推测函数

为计算方便，将W矩阵分成4块

Δf=(D-W)·f

则

-Wulfl+(Duu-Wuu)fu=0且(Dll-Wll)fl-Wlufu=fl
-Wulfl+(Duu-Wuu)fu=0
⟺ (Duu-Wuu)fu=Wulfl
⟺fu=(Duu-Wuu)-1Wulfl

另外，由于f=Pf，则

所以

fu=(Duu-Wuu)-1Wulfl=(I-Puu)-1Pulfu

(4)

式(4)表示双重监督图中未标注结点的标记fu等于(I-Puu)-1Pulfu。

3 混合反馈模式

3.1 标注模式

基于特征标注和实例标注的混合反馈是在传统的基于实例标注的基础上将特征标注引入到系统中的一种新颖的方式，混合反馈模式的学习采用上一节的半监督学习算法。将文献[8]中提出的3种标注模式(先特征后图像实例(modeⅠ)、先图像实例后特征(modeⅡ)和图像特征交叉(modeⅢ))应用于图像检索中。

modeⅠ首先对随机选择的文本关键字提供标记，直到所有的文本关键字标注完成后再对随机抽取的样例进行标记；modeⅡ先对随机选择的图像实例进行标记，然后再切换到随机抽取的文本关键字标记阶段；modeⅢ随机选择标注图像实例或标注文本特征。在modeⅢ中，按照文献[8]的思路某个概率进行取样。图3的对比实验基于Corel5k数据库,我们在50个类别中每个类中随机选择20个图像作为查询然后计算混合反馈模式下的平均精度，反馈过程中采用由系统完全正确的方式对文本特征和图像实例进行标注，每次只标注一个特征或一个实例。这种方式在Corel5k中可以方便的提供，因为：图片的编号整除100就可以得到其所述的分类，Corel5k的文本关键字采用4.2的方法对每个图像进行了文本关键字标注，通过查询图像的文本标注文件可以获得准确的特征标注情况。图3的横坐标表示用户标注特征或实例的数目，纵坐标表示查询的平均精度。3种模式在经过1000个查询后最终的系统性能都不错，3条曲线中，modeⅢ的总体性能比modeⅠ、modeⅡ更好，后续的标注方式采用了modeⅢ。

图3 3种混合标注模式下系统的性能

图4为modeⅢ分别在50、100、150个查询时，不同特征/实例选取概率下的系统精度。图中的横坐标为特征/实例的概率值，纵坐标为系统的平均精度。图中的3条曲线基本都在概率值等于0.1出现了最高点。我们以后的选取概率选择0.1。其概率值可能与实验数据库中图像数以及文本特征点数目有关(Corel5k中共有图像实例5000个，文本特征点374个，其比值近0.1)，因此，在其它数据库中可以以此作为概率值的选取依据。

图4 modeⅢ在不同选择概率下系统的性能

3.2 混合反馈中的主动学习

文本特征或图像实例随机采样的混合反馈方式已经初步展示了其高效性，不过其需要很大的样本量，主动学习是减少标注样本量最有效的手段。在该框架下，高斯场和调和函数半监督学习模型中文本特征的f值可以用于度量文本特征的不确定性。就某次检索而言，将abs(0.5-f)作为文本特征的不确定度量值，该值越小表明此特征越不确定，当f=0.5时，abs(0.5-f)达到最小，不确定性也达到最大，不确定抽象策略选取abs(0.5-f)值小的为标准。确定性策略认为半监督学习中的某结点的f值在一定程度上反映了结点与查询结点的相似程度，f=0.5表明它是最无法确定的结点。f=0.5的特征常常是比较中性的关键字，实际上分类器更需要知道那些具有判别能力的特征，该策略选择f值大的特征。

在我们所使用的半监督框架下，图像和文本特征都是图中的点，它们具有同等意义，自然的，我们可以将基于特征的不确定抽样、确定抽样作为基于图像实例的主动查询策略。

图5是modeⅢ混合反馈模式下，使用不确定抽样、确定抽样以及随机抽样3种主动学习策略下的系统平均准确率。对比实验结果表明，使用基于确定抽样的主动学习优于其它两种策略，大幅度提升了系统的性能。

图5 modeⅢ中3个主动特征学习策略的系统性能

图6是modeⅢ混合反馈模式下，基于确定抽样的主动特征学习与随机实例抽样、确定实例抽样以及不确定实例抽样组合使用时的系统性能。对比实验结果表明，使用基于确定抽样的主动学习+确定抽样的实例学习方式优于其它两种方式。确定抽样是将f值大的图像或文本特征作为查询返回，让用户标注，而系统检索时返回的也是Top-n个f值大的图像。检索结果正是确定策略需要选取的实例，这样检索和主动学习就是一个统一的过程，系统不再需要进行复杂的切换工作，解决了基于主动学习的图像检索系统样例查询过程与图像检索过程不同、切换复杂的难题。

图6 modeⅢ下3个主动图像实例学习策略对比

3.3 混合反馈中的视觉特征标注

上面讨论中，只是将特征/实例双重监督图中的视觉特征的f值简单的设为0，并没有进行进一步的学习。然而对某类图像而言，某个视觉特征可能具有更好的分类效果，比如，Corel5k中海滩类与颜色相关特征应该占有较大的权值；而对于北极熊类别，形状特征是比其它特征更具判别力的特征。下面通过两种伪反馈方式对图像视觉特征进行标注。

3.3.1 基于特征/实例双重监督图的视觉标注

在给定l个(特征-标记)或(图像-标记)反馈后，计算式(4)后可以得到其它未标注特征/实例点的f值，其值就反映了该结点对原始查询的相似程度。在双重监督图上，我们将f>c的视觉点的f值置1，此时将用户标注从文本特征、图像实例拓展到视觉特征中。为尽量保证这种伪反馈方式下选择的视觉结点与查询相关，将参数c设为0.8。为了节省系统的计算时间，我们将反馈调整为：①在双重监督图上学习，对f值排序，将f>c的视觉结点在双重监督图上置1，返回Top-n个图像实例。②如果用户不满意，进行标注，将标注后的文本特征/实例点在双重监督图上置1，返回步骤①。调整后的反馈对系统性能基本没有影响，但它却将原本的两次矩阵运算变为一次，提高了系统实时性。

3.3.2 启发式视觉标注

启发式的权重调整是传统的相关反馈中典型的一种方式，它通过用户标注的图像实例对图像的视觉特征进行学习。这里，我们通过用户标注的文本关键字特征和图像实例进行视觉权重的调整。此方法独立于双重监督图，从另一种方式产生视觉特征标注。

IPi表示视觉特征Fi的重要程度，m为正例数目，s为负例数目，Poi表示在Top-m个图像中正例的数目，Nei表示在末尾s个图像中反例的数目；

计算第j个视觉特征的权值

将Wi>0.8的视觉特征阶段的f值置1。

图7为在无视觉特征标注以及两种视觉特征标注方式下系统的性能，图中的Method 1表示基于特征/实例双重监督图的方式，Method 2表示启发式视觉标注方式。对比实验结果表明，使用视觉标注伪反馈的系统性能比不使用视觉标注的基于确定抽样的特征/实例主动学习总体性能好。基于启发式视觉标注的Method 2也更优于Method 1。Method 2需要进行额外计算，计算量大于Method 1，但Method 2只对反馈正例和反例图像进行相似度计算以及排序，计算量增加不大，计算时间基本可以忽略。

图7 不同视觉标注方式下系统性能

4 实验分析

目前，几乎所有关于特征标注的研究都在最佳条件下对算法进行评估，上面章节已经研究并验证了在最佳特征标注情况下的算法效果，不过这类研究与现实中用户的选择不完全一致。本章节对由真实用户提供特征以及图像实例标注的情况下算法的有效性进行验证。

4.1 实验准备

我们选用了25个真实的学生参与者使用系统并对系统的性能进行评估，评估数据集为在上章节介绍的Corel5k和数据库和NUS-WIDE LITE两个数据库。这些参与者都是本科生，其中有18个男生，17个女生，它们当中19个是计算机专业的学生，6个信息管理与信息系统专业的学生，他们都能够熟练使用检索系统。标注和记录方式参照文献[4]。

4.2 特征提取

虽然Corel5k提供了文本关键字的精确标注，但是为了符合现实情况，本文使用文献[4]的方法进行文本关键字特征的构建。对NUS-WIDE LITE，我们采用TF模型。

4.3 实验分析

4.3.1 各主动学习方法对比

图8为SVMactive、主动特征学习以及无视觉标注下特征/实例双重学习在Corel5k数据库中，每轮返回20张图像时的对比实验。图中的横坐标为用户返回轮次，纵坐标为系统的平均查准率。实验做了如下设置：主动特征学习以及无视觉标注下特征/实例双重学习每轮在返回20个图像时，同时返回2个文本关键字特征(Corel5k中特征，实例比为0.1)；SVMactive方法标注过程和检索过程是两个过程，在标注轮我们选择10个图像，检索轮返回20个图像，将两个过程作为一次反馈。两个数据库上的实验结果表明融入特征标注的方法优于无特征标注的方法；基于实例/特征的双重学习比主动特征学习性能更优。

图8 Corel5k的3种主动学习方法对比

4.3.2 不同视觉标注方法对比

图9，图10为3种算法在Corel5k数据集上返回不同数目图像时的系统查准率，横坐标为返回的图像数目。实验结果表明：实际用户标注的场景下，拓展视觉标注方式在两个数据集上都优于不使用的方式，Method 2(启发式视觉标注)优于Method 1(特征/实例双重监督图的视觉标注)。

图9 两种视觉标注方法的系统查准率(第2轮)

图10 两种视觉标注方法的系统查准率(第4轮)

5 结束语

本文将主动特征学习引入图像检索领域，提出了基于文本关键字特征和图像实例标注的混合学习模式，该模式的实现基于高斯场及调和函数的半监督学习和主动学习。与此同时，对混合标注方式、主动特征学习、主动实例学习等策略进行了详细研究。特别的，本文提出了视觉特征标注拓展伪反馈的方法。通过最佳特征标注和真实用户标注场景下的对比实验，我们发现将主动特征标注学习引入图像检索是非常有效的，它不仅仅提高了系统的效率，还将标注选择和结果返回两个过程有机统一起来。