引导性权重驱动的图表问答重定位关系网络

2023-02-21黎颖吴清锋刘佳桐邹嘉龙

中国图象图形学报 2023年2期

黎颖，吴清锋，刘佳桐，邹嘉龙

厦门大学信息学院,厦门 361005

0 引言

图表问答(figure question answering，FQA)是近年来提出的计算机视觉中的多模态任务，是用于处理图表图像与文本的多模态融合问题。图表问答与视觉问答(Chaudhry等，2020)和视觉推理类似，都是同时输入一个图表图像与一个文本问题，并通过一个算法模型得到最终的输出答案。但是，图表问答与视觉问答和视觉推理任务的区别很大，并不能简单看成同一类问题。具体区别如下：在输入的图像数据方面，3个任务用到的图像内容与结构有很大的不同(Wu和Nakayama，2020)，视觉问答使用自然图像作为输入图像，图像结构非常复杂，没有明显的结构特征，视觉推理任务主要是关于图像中物体的属性信息内容进行推理，具有更明显的结构特性(Antol等，2015)，而图表问答使用各类图表图像作为输入图像，有着显著结构化的特点，重点关注图表内部元素间的对比关系，如大小、比例和折线趋势等(Teney等，2018)；在输入的文本问题方面，在视觉问答与视觉推理任务上问题文本的单词有固定的语义，而图表问答任务中的问题文本的语义会根据图表中的文本信息而变化(Kafle等，2020)。因此，理论上来说，在视觉问答任务或视觉推理任务中加入额外的语料库辅助文本问题的嵌入表示的做法并不适用于图表问答(Brill等，2002)。

在图表问答中，目前已有的方法大致分为两类。一类是为图表问答任务直接进行建模的神经网络算法框架(Andreas等，2016)，算法通过使用卷积神经网络处理图表图像来获得图像特征信息的特征图，再通过使用循环神经网络处理问题文本获得句子级嵌入表示向量，最后使用融合推理模型(Pal等，2012)得到最终的输出答案。其中很多算法工作会引入注意力机制，并将获得的图像特征矩阵作为问题文本编码器的输入，从而捕捉多模态特征信息融合的整体表征(Zhou等，2015)。然而，多模态场景中关系特征之间的交互作用对有效语义特征的提取具有巨大的负影响。

另一类算法是将图表问答任务进行多步骤多模块分解(Miller等，2020)，算法使用不同的模块来获取图像的特征信息，如图像颜色等，再将获取的信息特征作为后续模块的输入，并通过后续的算法模块(Zhang等，2017)处理得到最终的问题答案。然而，这类方法需要额外的标注信息来训练各个独立的模块，而且算法的复杂度往往过高(Gibson，2010)。

本文提出一种解决图表问答问题的新方法。首先在图像处理部分，提出了融合低级图像特征和高级图像特征的方法来提取更丰富的语义信息，在文本问题处理部分，引入注意力机制来获得更好的句子向量表示，并在关系推理部分提出一种基于引导性权重的配对匹配机制，然后通过对于图像内部关系以及图像和文本问题之间的交叉关系进行图像的位置重构，融合推断图像内部的关系以及图像与文本问题的相互关系，最终构建引导性权重驱动的重定位关系网络(leading weight-driven re-position relation network,LWR-RN)模型。

本文贡献如下：

1)提出了融合低层图像特征和高层图像特征的方法来获得更丰富的图表语义信息，从而提高模型在图表问答任务中的能力。

2)在文本编码器中引入注意力机制捕获不同的上下文信息，来获得更好的句子向量表示。

3)提出了基于引导性权重的配对匹配机制和重定位关系网络，通过融合推断图像内部关系以及图像与文本问题间的相互关系，获得更好的关系特征表示。

4)实验结果证明了本文方法在公共数据集上的有效性和鲁棒性。

1 相关工作

1.1 图表问答

图表问答FQA作为新兴的多模态任务，近年来已有许多关于图表问答的开源数据集公开，如FigureQA(an annotated figure dataset for visual reasoning)数据集(Kahou等，2017)和DVQA(understanding data visualization via question answering)数据集(Kafle等，2018)。故本文选择在这两个公开数据集上验证所提网络模型的有效性。

图表问答数据集公开的同时也发布了几个基线模型。IMG+QUES(image+questions)(Pal等，2012)是两个开源数据集的基线模型，也是计算机视觉中视觉问答等多模态任务的经典模型框架。用来获得图像特征的图像编码器使用了多层卷积神经网络，用来获得文本嵌入表示的文本编码器则使用长短期记忆网络(long short-term memory, LSTM)，最后通过多层全连接神经网络进行推理得到最终输出答案。

关系网络RN(relation networks)(Santoro等，2017)是应用于图表问答的另一个基线模型。RN最早是由Google公司的DeepMind团队为了改善视觉推理任务提出的算法模型，并在CLEVR(compositional language and elementary visual reasoning diagnostics)数据集上展示了强大的效果(Johnson等，2017)，随后发现它在图表问答上的效果大大超过了其他基线方法(Zhang等，2017)。其算法的核心思想为将通过卷积神经网络处理得到的特征图上的每个像素点作为一个对象，将每两个像素的特征向量配对在一起，形成一个包含所有像素之间关系的关系对特征(Mertens等，2004)，再使用一个多层感知器来推理每两个像素之间的关系，最后从这些两两关系的整体关系表示来推理最终答案(Echihabi和Marcu，2013)。其简单的两两配对方法可以包含所有像素之间的关系，从而使模型在两个任务上都取得了良好的效果(Miller等，2020)。但两两配对方法不仅包含大量冗余信息，而且关系对的特征数量会进行平方式增长，这给后续的推理网络在计算量和参数量等方面带来了很大的负担。

研究者们也提出了许多新颖的算法来提升图表问答任务的准确率。Kafle等人(2018)提出的SANDY (san with dynamic encoding model)模型采用多次迭代的注意力机制实现对图像关键区域的捕捉，并与提出的结构相配合。FigureNet模型(Reddy等，2019)提出了一个多模块算法框架来解决图表问答问题。这个模块通过大量的标注数据进行预训练，用于提取特征和元素的对应值，例如图像颜色，然后得到特征向量，并拼接问题的嵌入表示。最后，通过多层全连接神经网络进行推理。但受模型设计的限制，FigureNet模型只能应用于柱形图和饼图。ARN模型(Zou等，2020)是关系网络框架算法。它首先通过多个识别模块识别图像的元素、字符和结构等信息，然后通过得到的信息将其构建成表格的形式，最后通过表格问答模型得到答案。LEAF-Net (locate, encode and attend for figure network) 模型(Chaudhry等，2020)使用了许多开源的预训练模型。首先，通过光学字符识别(optical character recognition，OCR)来识别图像中的字符信息，然后将其定位到嵌入问题中，同时通过预训练的ResNet-152得到图像特征图，最后通过空间注意力机制将特征图作为隐藏层信息添加到文本编码器LSTM中，来获得句子级表示。

1.2 U-Net

U-Net是一种基于全卷积网络(fully convolution network，FCN)的语义分割网络，最初用于分割医学图像。U-Net网络结构类似于FCN网络结构，只有卷积层和池化层，没有全连接层。与FCN网络不同的是，U-Net网络模型的上采样和下采样使用了相同数量的卷积运算，并且使用skip connection来连接下采样层和上采样层，使得下采样层的图像特征信息可以直接传输到上采样层，对图像像素的定位更加准确。在效率方面，U-Net只需要进行一次训练，而FCN需要3块进行训练才能实现更准确的FCN-8 s结构(Ronneberger等，2015)，所以U-Net网络的效率也高于FCN网络。

U-Net在计算机视觉领域的各个方向也取得了不错的效果。Ranjan等人(2020)使用MRA(multi-resolution analysis)网络结合U-Net的复合结构对遥感图像进行区域分割。Shopovska等人(2018)在对多光谱图像去除马赛克的任务中使用了U-Net网络，也取得了不错的效果。He等人(2020)结合注意力地图和U-Net网络对低光照度图像实现图像亮度增强、去噪和色彩恢复。Goel等人(2021)在灰度图像转换为彩色图像的任务中设计了U-Net模型框架，进行自动化着色。杨佳林等人(2021)利用U-Net网络提取遥感图像中的道路。在图像特征提取时，本文将使用U-Net网络来获得更加有效的图像特征。

1.3 注意力机制

注意力机制借鉴人类视觉的注意力选择机制，通过一定的计算方法来捕捉需要关注的关键信息，而忽略其他信息。随着计算机领域的发展，注意力机制在各个方向均取得了不错的效果。Google团队Vaswani等人(2017)提出了在循环神经网络(recurrent neural network，RNN)模型中引入注意力机制进行图像分类。Luong等人(2015)提出了使用不同attention架构的集成模型来改进机器翻译任务。而Transformer算法框架中更是提出了各种注意力机制的巧妙应用，可广泛应用于各个领域(Fukui等，2019)。闫茹玉和刘学亮(2020)结合新颖的注意力机制模型增强对图片特征的提取准确率，从而提高视觉问答效果。在图表问答算法中，许多研究者都应用到了注意力机制，如Kafle等人(2018)采用多次迭代的注意力机制实现对图像关键区域的捕捉。

αi=fsoftmax(s(Xi,q))

(1)

式中，q代表Query特征向量,X=[X1,…,XN]表示N个输入信息。通常会令Key=Value=X，则αi为得到的注意力分布。s(Xi,q)为注意力打分机制，表示在给定任务相关的查询向量q时，第i个输入向量Xi受注意的程度。3种常见的注意力打分机制分别为点积模型、双线性模型以及加性模型，计算式为

(2)

式中，W,U,v均为可学习的参数权重。在本文模型中，注意力机制是序列到序列模型的基础，将注意力机制集成到经典的LSTM网络中，以提取问答句中长期相关词之间的关系。

2 方法

本文提出一种用于图表问答的新型关系网络模型，命名为引导性权重驱动的重定位关系网络。首先通过融合卷积层和U-Net网络来进行低层图像特征和高层图像特征的提取，同时基于注意力机制的推理特征表示实现融合语义的特征提取，然后根据多级图像特征对引导性权重进行排序，并进一步重新排列每个图像特征的位置，来建立一个关系网络，完成特征配对。

2.1 融合语义特征提取

传统的卷积神经网络(convolutional neural networks，CNN)模型可以通过多层卷积运算来提取高层图像特征，但随着网络的加深会造成对低层图像特征的遗忘。而在图表问答中，低层和高层的图像特征语义都起着重要的作用。因此，本文尝试通过加深卷积神经网络的层次来获取更高层次的图像特征，同时融合较低层次的图像特征，使提取的图像特征信息更适合场景任务。

本文通过融合CNN和U-Net网络结构，来构建一个能够同时提取低层和高层图像特征语义的网络模型，如图1所示。图1中所有特征图的通道数均为64。首先通过多层卷积和平均池化层来获得高阶图像特征语义，当卷积到1×1特征图时，再通过反卷积操作进行上采样还原大小。同时，将上采样过程中的特征映射(即高级图像特征语义)与卷积过程中相同大小的特征映射(即低级图像特征语义)进行融合，从而融合低层和高层图像特征成为更丰富的图像语义特征图。整个网络结构可分为下采样和上采样两个过程，其中下采样过程包括卷积模块和池化模块，上采样过程包括反卷积模块和融合模块。

图1 融合语义特征提取流水线

假设在下采样过程中经过一次卷积和池化操作之后得到的特征图为Ci,i∈[1,n]，n为下采样的次数，那么下采样过程可以描述为

Ci=AugPool(Conv(Ci-1)),C0=I

(3)

上采样过程中则是通过反卷积模块和融合模块依次反复交替的形式，即先经过一个反卷积模块得到尺寸放大一倍的特征图后，再通过融合模块对得到的特征图与下采样过程中相同尺寸的特征图进行特征融合。融合模块包含两个操作，首先将输入的两个相同尺寸的特征图在特征通道维度上进行拼接操作，然后经过一层卷积层进行融合操作。融合模块能够将两个相同尺寸的特征图通过融合之后得到同输入一样尺寸的特征图。假定反卷积后的特征图为Di，i∈[1,n]。则上采样过程描述为

Di=fDeConv(Fi-1),F0=Cn

(4)

Fi=fConcat(Cn-i,Di)

(5)

式中，fDeConv表示反卷积操作，每个反卷积层包含64个卷积核，尺寸为3×3，步长为2；fConcat表示拼接操作，即将Cn-i和Di拼接起来得到Fi。反卷积模块完成后得到两倍大小的特征图，再将当前层反卷积模块的输出结果和下采样过程中相同尺寸的输出特征图作为当前层融合模块的输入，得到融合特征后的输出结果再传入下一层的反卷积模块。需注意，反卷积模块第1层的输入是下采样过程中的最终输出结果，并且上采样过程中全程特征通道数保持不变。其中，反卷积模块的作用是在进行卷积运算的同时放大特征图的大小来获取高阶的图像特征，而融合模块不仅能融合高层次和低层次的图像特征，而且能降低特征的维数。使用多个反卷积模块和融合模块交替的方式是为了在不同大小的特征图上进行高层和低层图像特征的融合。

2.2 基于注意力机制的文本编码器

在文本编码器算法模块，由于图表问答中的文本问题具有句子篇幅较短且句式相对固定的特点，故大多数算法模型采用长短期记忆模型(LSTM)(Gers等，2000)来获得文本问题的嵌入式表示，但普通的LSTM只能保留现有单词对未知单词的影响。故本文通过引入注意机制，来捕获不同的上下文信息，从而获得更好的句子级向量表示。本文使用AT-LSTM(attention-based LSTM)模型(Wang等，2016)作为文本编码器的算法模型，其隐藏层的神经元数量设置为256。具体来说，可以将问题文本表示为Q=[e1,e2,…,eT]，其中et表示句子中的单词。首先，需要通过嵌入矩阵将所有单词嵌入向量空间。定义向量的长度为64，则单词的向量可以表示为xt=Eet,*∈R64。接着在每一步的操作中，将当前的单词嵌入表示向量输入LSTM神经元来获得隐藏状态的更新。

定义H∈Rd×N为由隐藏向量组成的矩阵。H=[h1,h2,…,hN]是LSTM 生成的隐藏层向量表示，其中d是隐藏层的大小，N是给定句子的长度。进一步地，va代表给定方面信息的嵌入表示，eN则是一个1维向量。注意力权重向量α和一个加权的隐藏表示r的计算式为

(6)

α=fsoftmax(wTM)

(7)

r=HαT

(8)

式中，投影参数M∈R(d+da)×N，α∈RN，r∈Rd，Wh∈Rd×d，Wv∈Rda×da，w∈Rd+da,Wv,Wh和w均为可学习的参数权重。α是一个注意力权重组成的向量，r是具有给定方面的句子的加权表示。最终的文本表示为

h*=tanh(Wpr+WxhN)

(9)

式中，h*∈Rd，Wp、Wx是投影的参数矩阵。

2.3 引导性权重驱动的重定位关系网络

本文网络由图像特征提取模块、基于注意力机制的LSTM模块和用于图表问答的重定位关系网络3个部分组成，如图2所示。

图2 引导性权重驱动的重定位关系网络框架

2.3.1 基于引导性权重的配对匹配机制

在关系网络中，两两配对机制是将每个对象视为等价对象。但特征图中的每个像素与整体之间的关系必然不同，换句话说，如果将特征图上的每个像素点视为一个对象，则每个对象与整个群体之间的关系必然不是等同，整个群体中每个对象的重要性也不一定相等。

为了衡量两个向量之间的关系，提出基于引导性权重的配对匹配机制，用于指导关系网络中关系特征的配对过程。即计算每个像素点的特征向量与所有像素点的特征向量的内积，得到它与所有点之间的相似性度量，然后通过平均得到整个组中的像素。假定F={f1,1,f1,2,…,fn,n}表示特征图上所有行列像素的特征向量，i,j∈[1,n]。那么所有特征向量的引导性权重可以描述为

(10)

式中，i,j,p,q∈[1,n]。将权重从大到小排序，得到权重向量W=[W1,1,…,Wi,j]，Wi,j的索引用符号Ii,j表示。对图像内部元素进行排序，使具有较高引导性权重的像素可以承担更多的配对任务，这不仅可以大大减少生成的关系特征的数量，而且可以使整体元素之间的关系更加紧密。然后，进一步利用引导性权重对图像的语义特征进行配对，每个像素与自身和引导性权重低于其自身的像素配对。通过这样的配对过程，可以丢弃接近原始配对产生的总数的一半的冗余关系特征表达式，同时允许具有较大引导性权重的像素在整体中承担更多对关系表达。最后得到像素点对的集合FF={f1,1f1,2,…,fi,jfp,q}，集合中的每个元素满足Wi,j>Wp,q。

2.3.2 重定位关系网络

尽管通过上述方法获得的关系特征配对序列解决了高复杂性问题，但它不再具有通过原始配对方法获得的整体关系平衡，通过在通道的维度上拼接形成关系特征的配对，具有高引导性权重的像素位于最前面的结果将为模型创建一种无形的学习指导关系。因此，进一步执行重新定位操作，以使整体关系达到平衡。

首先在获得的关系特征对的集合中移除与其自身配对的像素的关系特征，然后在每个像素点的关系特征列表中按照一个不变一个交换以此反复的规则进行交换位置的操作。这个过程描述为

(11)

因此，可以把像素特征向量和像素的关系看成一个节点和一个边，这种关系必须是有方向的。通过方向关系，可以传递不同元素之间的关系，这样就形成了关系图结构。然后，将像素的位置信息和文本的句子级嵌入表示添加到关系特征中。最终的关系特征由3部分组成：两个像素的特征向量、两个像素的坐标值和问题文本的嵌入表示。

让p表示关系特征对,fi,j表示特征图上第i行第j列像素点的特征向量，则关系特征对的组成可以表示为P(i,j),(u,v)=[h*,fi,j,i,j,fu,v,u,v]。在由引导性权重驱动的配对匹配机制生成的关系特征中，每个关系特征包含两个像素的内容和位置信息，以及问题文本的信息。使用共享参数多层感知器(multi-layer perceptron，MLP)对问题知识先验条件下的每两个像素进行关系推理，得到问题知识先验条件下每两个像素的关系特征向量后，使用平均池化方法聚合关系特征向量以获得最终的特征表示。最后，将全局表示特征向量通过一个支持向量机(support vector machine, SVM)，得到该类别对应的每幅图像的最终概率分布J。该过程表示为

J=fSVM(fAvgPool(gθ(P(i,j),(u,v))))

(12)

式中，P(i,j),(u,v)表示从特征图生成的关系特征，gθ表示共享参数θ的MLP，fAvgPool表示平均池化操作，fSVM表示经过SVM分类器得到最终的概率分布。

3 实验

3.1 数据集

3.1.1 FigureQA数据集

FigureQA数据集(Kahou等，2017)是微软公司在2017年提出的用于图表问答任务的大型开源数据集，分为5个独立的包，分别为1个训练集、2个验证集和2个测试集。不同的验证集和测试集会使用两种不同的颜色集来生成图表图像，一个颜色集与训练集相同，另一个颜色集与训练集不同，这样避免了颜色对模型的影响。训练集包含100 000幅图表图像和1 327 368个文本问题，验证集1包含20 000幅图表图像和265 106个文本问题，验证集2包含20 000幅图表图像和265 798个文本问题。然而两个测试集并不开源，评估结果需要发送电子邮件给作者来获得结果。故与其他工作类似，本文直接在验证集上进行算法模型效果的测试。FigureQA数据集中的图表类型包括垂直柱形图、水平柱形图、折线图、散点图和饼图5类，文本问题由15种问题类型组成，包括有关各类图表的结构、细节和推理问题。

3.1.2 DVQA数据集

DVQA数据集(Kafle等，2018)是Kafle等人与Adobe研究实验室合作提出的大型开源图表问答数据集，包含1个训练集和2个测试集(Test-Familiar测试集和Test-Novel测试集)。训练集包括200 000幅图表图像和2 325 316个文本问题，Test-Familiar测试集包括50 000幅图表图像和580 557个文本问题，Test-Novel测试集包括50 000幅图表图像和581 321个文本问题。DVQA数据集的问题类型分为3类：第1类是关于结构理解的问题，即对图表图像整体结构的理解；第2类是关于数据检索的问题；第3类是关于推理的问题，即对图像中元素之间相关关系的推理问题。

3.2 实验设置

本文提出的模型训练主要分为两步：首先是训练重定位关系网络，然后是提取训练好的网络的全局表示的特征向量送到SVM分类器得到最终的分类结果。重定位关系网络训练时，使用的损失函数是二分类交叉熵损失函数，使用Adam优化器，学习率初始化设置为2.5E-4, 动量参数设置为0.9，批次设置为80。当训练SVM分类器时，使用的损失函数就是合页损失函数(hinge loss function)。

3.3 实验结果

为了验证本文提出的引导性权重驱动的重定位关系网络对图表问答任务的效果，与近年来在开源数据集FigureQA和DVQA上的图表问答方面的其他先前工作进行比较。此外，DVQA数据集上的验证模型还包含两个版本：无动态字典的方法(No OCR)和有Oracle版本的方法。表1和表2的准确率分别显示了在FigureQA和DVQA两个数据集上的实验结果的比较。对于FigureQA数据集，本文模型远远超过了基线模型IMG+QUES，整体准确率提高了26.4%；相较于基线模型RN，整体准确率提高了8.1%；相较于性能第2的模型ARN，整体准确率提高了0.46%。在单一验证集上，相较于LEAF-Net、FigureNet，准确率提升了2.3%，2%，且FigureNet受网络结构的限制，只能应用于柱形图和饼图。在DVQA数据集上，对于不使用OCR方法，相较于SANDY、ARN和RN，整体准确率分别提升了8.6%，0.12%，2.13%；对于有Oracle版本，相较于SANDY、LEAF-Net和RN，整体准确率分别提升了23.3%，7.09%，4.8%。

表1 不同算法在FigureQA数据集上的实验结果准确率对比

表2 不同算法在DVQA数据集上的实验结果准确率对比

通过实验结果可以看出，本文模型在图表问答的两个大型开源数据集上都能取得良好的效果，得到的结果的准确率明显优于一些现有算法模型，并远远超过了基线模型。

3.4 消融实验

为了验证本文模型中关系配对机制的每个步骤的重要性，本文设计了一个详细的消融实验，该实验在FigureQA数据集的两个验证集上进行。实验包括5个模型，具体描述如下：

模型1：没有基于引导性权重的配对匹配机制(步骤1))。

模型2：没有重新定位关系网络(步骤2))。

模型3：没有基于引导性权重的配对匹配机制和重新定位关系网络 (没有步骤1)和步骤2))。

模型4：完整的引导性权重驱动的重定位关系网络。

模型5：去除低引导性权重值的像素点的模型。即在完整模型的重定位时，不仅去除冗余的关系特征，还去除了整体数量一半的低引导性权重值的像素点。

表3详细说明了每种图表类型的消融实验在不同模型的实验结果。显然，缺少步骤1)和步骤2)的模型3在每种类型的图表问答中表现不佳，尤其是在直线图和散点图中。举例而言，在散点图类型上与完整模型有较大的差距，准确率相差近10%。分别缺少步骤1)和步骤2)的两个模型，每种图表的准确率也都低于完整模型。可以看出，步骤1)和步骤2)对整体效果都有很大影响。

从表3中模型5与模型4的比较中可以发现，即使直接丢弃一半的低权重值的像素特征，它仍然可以具有相当高的准确率。但是直接抛弃一半图像像素点特征的方式，会在不同的统计图类型上达到两极分化的情况。在饼图这样结构简单且图像信息密集的统计图上，去除一半的低引导性权重值像素点的模型5表现甚至优于完整的模型，这是由于饼状图的大量图像信息聚集于高引导性权重值的像素点上，而直接抛弃低引导性权重值的像素点能够让后续的过程不受其影响。但是在折线图这样图像信息分散的统计图类型上，简单地舍弃低引导性权重值的像素点会让模型丢失一部分有效的图像信息，因此表现得很差。

表3 LWR-RN在FigureQA数据集上的消融测试结果准确率

表4详细列出了消融实验模型在每类问题上的实验结果。通过比较，缺少步骤1)的模型1在前6类问题(即柱形图和饼图)的表现都比缺少步骤2)的模型2差，可以看出，步骤1)和步骤2)对于不同类型的图表问答推理都起着重要作用。同时缺少步骤1)和步骤2)的模型3在几乎所有问题类型中都表现最差，只有在两种问题类型中，“Is X the smoothest?”和“ Is X the roughest?”的最高准确率在误差范围内与完整模型基本相同。这是因为在折线图对于整体趋势提问的问题中，图像信息几乎存在于特征图的每个像素中，信息特征的分布相对均匀，从而降低了缺乏引导性权重值的计算带来的影响。同时，这也是在这两类问题上模型1的准确率很高，而在移除低引导性权重值像素点的模型5中性能较差的原因。虽然移除低引导性权重值的像素点的模型5丢弃了一半的低引导性权重值的像素点，但由于引导性权重驱动的配对匹配机制，它仍然可以很好地利用高引导性权重值的像素点的特征向量。像“ Does X intersect Y?”这样的特征问题仍然可以表现得很好。值得注意的是，模型5在柱状图上的问答有着很高的准确率，在“ Is X the maximum?”和“ Is X the low median?”这两种问题类型中，精确度略高于完整的模型。