多核学习与用户反馈结合的WMS图层检索方法

2019-10-29李牧闲桂志鹏成晓强吴华意

测绘学报 2019年10期

李牧闲，桂志鹏,,成晓强,吴华意,秦昆

1. 武汉大学遥感信息工程学院，湖北武汉 430079； 2. 武汉大学测绘遥感信息工程国家重点实验室，湖北武汉 430079； 3. 地球空间信息技术协同创新中心，湖北武汉 430079； 4. 湖北大学资源环境学院，湖北武汉 430062

WMS是开放式地理信息联盟(open geospatial consortium,OGC)制定的在线动态制图服务标准，是推动地理信息共享与互操作的重要里程碑。自2000年发布1.0版本标准以来得到业界广泛运用，大量源自政府部门、国际组织和研究机构的地理空间数据以网络地图服务(web map service,WMS)形式涌现，目前全球公开在线的WMS数目众多。有研究在互联网中爬取超过4万条可访问WMS，通过分析发现所包含的30多万张图层空间覆盖遍及全球，应用主题囊括气候、地质、资源与生态等地理观测组织(group on earth observations,GEO)定义的九大社会受益领域[1]。面对如此海量丰富的WMS数据资源，亟须一种高效准确的检索方法帮助用户从中发掘和定位兴趣资源。

基于元数据字段的文本匹配和空间关系查询是目前地理信息资源检索的主要方式。Data.gov[2]、ESRI’s Geoportal server[3]、INSPIRE GeoPorta[4]、GEOSS Clearinghouse[5]、NOAA Data Catalog[6]和Spatineo Directory[7]等全球知名地理信息门户通过提取WMS元数据中蕴含的图层标题、关键字、服务提供者、发布时间和空间范围等信息，运用文本匹配查询实现对WMS资源的粗粒度检索。由于资源提供者与不同领域用户对地理资源元数据的表述方式存在差异，文本匹配无法实现精准查询，引入地理本体和粗糙集理论优化图层描述词汇可实现语义层面的演绎推理[8]；建立文本语义搜索规则，使用语义相似性评估来衡量搜索结果与用户需求之间的相似性可提高检索精度[9]。为提高检索的命中率，学者们还提出多种检索辅助策略，如依据图层信息量丰富度生成一组代表不同尺度下典型地图内容的高质量缩略图[10]，并设计图层动态预览功能以增强用户体验[9]；通过连续监测WMS响应时间和主动收集用户评价评估WMS质量作为筛选依据，并进行动态可视化[11-12]。上述策略利用语义优化文本检索策略或引入其他辅助信息扩展检索维度，一定程度上提升了WMS检索的准确率与用户体验。然而大量在线WMS图层元数据缺失、元数据缺乏明确的内容约束机制(如不少图层命名为机构缩写、图层摘要为传感器编号，关键字设定随意)等，使得元数据无法具体表述图层的内容构成、制图方法等信息。地图内容与元数据间的语义鸿沟使得基于文本的WMS检索产生大量误检和漏检结果，用户虽可通过缩略图预览等辅助方式提升选择效率，但仍无法直接基于地图内容进行检索。

针对现有检索方法缺乏“感知”地图内容，无法应对图文描述不符的问题，本文借鉴基于内容的图像检索，将图层间的视觉相似性作为检索依据以提高检索精度。基于内容的图像检索按照特征提取方式可分为人工设定特征和自动学习两类方法。人工设定特征的检索方法通常选用颜色、形状、纹理、光谱特征和SIFT算子等视觉特征作为图像内容描述[13-14]，并依据特征向量间的相似度实现检索。这类方法对样本数量要求较低，但因为特征选取直接影响检索结果，需设计多组对比试验选取合适的特征。自动学习的特征由深度学习框架(如卷积神经网络模型)对大量图像样本训练获得，通过低层特征组合形成抽象且包含一定语义信息的高层表示，极大提升了对图像内容的描述能力[15]。但高维特征加大了海量图像相似性度量的计算量，导致检索速率低下。为此，有研究使用PCA或乘积量化对特征进行压缩和降维加速相似度计算[16-17]；或结合深度学习与哈希思想将高维特征映射为一串二进制编码，通过计算汉明空间距离降低相似性计算复杂度[18]。尽管深度学习在众多图像检索场景下性能优异，但并不适用于WMS检索：①深度学习是数据饥渴型方法，需要大量样本数据训练模型，而目前WMS图层尚未形成统一规范的关键词体系，样本规模较小且标签信息匮乏、质量欠佳，无法支持基于深度学习的高层特征提取；②深度学习模型训练与优化的时间成本较高，而不同用户检索差异化大(如空间范围、专题类型、制图风格等)，难以根据用户需求动态调整模型参数，从而无法满足实时个性化检索的需求。针对WMS图层检索，有研究通过对图层分块提取颜色空间分布特征，并结合SVM分类器对小样本集进行学习实现检索[19]，但仅使用颜色特征，无法全面多角度地概括图层内容，图层检索效果欠佳。因此，需要提取并融合多种特征，使各类特征信息能根据用户差异化的检索需求合理作用于分类模型的生成。

为此本文提出一种基于多特征多核学习的WMS图层检索方法，通过图层的颜色、形状和纹理特征表征图层内容，利用多核学习自适应分配3种特征在分类模型中所占权重，实现WMS检索与相似度排序。同时结合用户对搜索结果的反馈精化分类模型和调整特征权重，并通过迭代检索提高检索精度，以支持基于图层图像内容的WMS个性化检索与推荐。

1 结合多核学习和用户反馈的图层检索算法

本文使用多特征多核学习分类方法，将WMS图层分为匹配与非匹配两类，算法流程如图1所示。用户首先使用文本关键词触发初始检索，文本匹配的WMS图层缩略图分页批量展示于检索结果页面；其次，用户利用鼠标标记兴趣图层构建正样本集，其余为负样本，系统从特征文件中读取上述图层对应特征向量构成训练集(所有WMS图层特征向量通过对GetMap操作获得的最大包围盒地图图像预先提取生成，并以CSV文件格式存储于服务器端)；然后，系统利用多核学习训练样本构建分类模型并计算检索结果；最后，按相似度排序输出并更新检索结果页面。若结果不满意，用户可再次进行正样本标记，并触发分类模型精化训练与二次分类。

图1 结合多核学习与用户反馈的WMS图层检索算法流程Fig.1 WMS layer retrieval workflow combined with multiple kernel learning and user feedback

1.1 WMS图层图像的特征提取

WMS检索需要设计有效的视觉特征来描述图层图像内容。作为反映客观世界的符号模型及空间信息的载体[20]，通过WMS发布的地图在类型与表达形式上丰富多样，既包括由点线面等矢量数据通过符号化渲染得到的矢量地图也包括影像地图，其中矢量地图(包括普通地图与针对某类地理要素的专题地图)的表达形式与自然影像和遥感影像存在显著差异(图2)。自然影像和遥感影像中的场景与对象较为具象，组件构成相对稳定。如自然影像中的街道由道路、行人和建筑等构成，遥感影像中机场包含飞机和航站楼等对象，而飞机有机身、机翼等组件构成，视觉特征显著。因此，可使用物体滤波器响应、词袋模型等方法构建高层语义特征向量，判断影像中对象构成及其分布情况来对图像内容进行描述[21-22]。而矢量地图中对象表达与比例尺、制图风格等因素密切相关，往往较为抽象与多样(如大比例尺下水体表达为面对象，在小比例尺下为点或线对象；等高线和晕渲图均可用于表达地形信息)，无稳定的组合形式，人为设计一种普适的高层语义特征难度大。图像领域常用的视觉特征包括颜色、形状、纹理、空间关系特征、SIFT和HOG等，其中形状、颜色、纹理特征适用性较优而被广泛运用于图像检索，而空间关系特征对旋转、反转、尺度敏感[23]，HOG维度过高[24]，SIFT对低对比度图像检索效率较低[25]，应用范围较前三者小。通过对WMS图层内容的分析，本文认为颜色、形状和纹理3种底层特征为一定程度上描述地图内容提供了可行方案：①WMS图层渲染与地理要素属性的空间分布有关，颜色风格鲜明且表现出显著的空间分布特性；②WMS图层对象形状轮廓清晰，可明显观察到区域轮廓，有效传达区位信息；③随着要素空间分布密集度的变化，WMS图层可能具有多尺度或方向上的纹理。因此，本文选取颜色、形状和纹理作为WMS图层检索的视觉特征。

本文在HSV(hue,saturation,value)空间内统计分块颜色直方图作为颜色特征。常用的颜色特征中，颜色矩由于仅利用低阶矩概括颜色分布，使得图像区分能力较弱[26]；而颜色聚合向量为引入空间分布信息，通过设定阈值划分颜色聚合与不聚合区域，容易出现因阈值选取不当导致的空间信息丢失问题[27]。分块颜色直方图通过图像几何分割提取颜色空间分布信息，并可根据WMS渲染特点量化各分块内的颜色，从而能够更好地刻画地理要素的空间分布与属性变化。为此，本文结合地图利用颜色变化代表不同地理属性及其等级这一特点，对应将色调、饱和度和明度分别划分为3、8和12个等级。同时，考虑到人眼对图层中心区域的重点关注，结合空间金字塔匹配[28]原理，使用椭圆(长短轴等于WMS缩略图长宽的一半)和4条基线将图像分为5部分。最后分别计算各分块的颜色直方图，并组成形成该图层的颜色特征，共(3+8+12)×5=115维。

图2 自然图像、遥感影像与WMS图层图像示例Fig.2 Examples of natural image, remote sensing image and WMS layer image

本文使用Hu矩[29]对地图对象形状进行描述。Hu矩是一种计算量和冗余度较小的形状区域描述符，有效避免了傅里叶描述符和链码等形状轮廓描述符因前后景分割复杂情况导致的轮廓提取问题[30]，如部分WMS图层存在前后景定义不清晰的现象。本文通过计算图层灰度图像的中心矩，并使用零阶矩对其进行归一化，生成一系列可描述区域轮廓旋转半径、图像椭圆、主轴方向角等形状属性的低阶矩。然后，对上述矩进行非线性组合，构造出7个具有旋转、平移和尺寸不变性的Hu矩。

本文使用Gabor纹理特征对WMS图层的纹理分布进行描述。常用纹理特征包括灰度共生矩阵、LBP、Gabor特征等。其中灰度共生矩阵和LBP均基于灰度的空间相关特性，尺度描述较为单一，难以应对WMS图层纹理在尺度和方向上的多样性；Gabor纹理特征通过对基小波的旋转和尺度变换，得到一组自相似但方向和尺度各不相同的滤波器，能够更加有效刻画地图中不同尺度和方向的纹理信息[31]。本文参考文献[32]选取5个尺度和8个方向，得到共40个滤波器，计算滤波结果的均值和标准方差作为纹理特征，特征维度为40×2=80。

1.2 基于多核学习的WMS图层分类模型构建

本文选用的3种图像特征在维度、数量级上存在较大差异，对此使用一种多核学习的方法对特征进行融合并实现WMS分类。核方法通过非线性映射将低维线性不可分问题转化为高维空间中线性可分的问题，并用核函数替换高维空间中复杂的内积问题，降低运算复杂度。传统单核方法将所有向量映射到同一高维空间，对不同维度和数量级特征构成的异构数据分类效果不佳。针对这种现象，文献[33—34]提出多核学习(multiple kernel learning,MKL)，采用多个核函数的凸组合代替单个核函数，将异构数据的不同特征分量分别输入对应的核函数进行映射，使数据在新的特征空间中得到更好的表达。多核学习通过与SVM相结合在多个领域得到了广泛运用，如图像分类、目标检测与识别和模式回归等[35]。多核学习模型如式(1)所示

(1)

式中，km(x,xi)为基核；qm为基核对应的权重；K(x,xi)表示合成核，通过两个向量的内积实现特征隐式的非线性映射。使用SVM分类器，多核学习的核权重计算和优化可通过求解式(2)的凸规划优化来实现

(2)

式中，C为规则化参数；ξi为松弛变量；αi和b为可通过样本学习到的系数。使用Lagrangian函数结合对偶理论等计算得到决策函数(式(3))，其中只有权重非零的核函数在分类中有效

(3)

本文使用SimpleMKL[36]对WMS进行图层分类。由于SimpleMKL引入了L2正则化公式约束权重以促进稀疏核的组合，并使用简化梯度算法实现迭代优化，相比其他多核学习算法具有收敛性好、求解效率高的优点。本文选用局部性强、适用性高且求解参数少的高斯核函数构建多核模型。尺度参数σ是高斯核函数最重要的参数，当σ趋近于0时所有样本都属于同一类；当σ趋于无穷时任意样本都属于不同类。对于各特征，在0至无穷大之间都存在一个最优尺度参数使样本在映射后的高维空间中实现最优区分。针对所选取的颜色、形状、纹理特征，本文为每种特征分别构建一组尺度不同高斯核(如图3)。结合文献[36]和图层参数寻优试验，设置每组高斯核由十个核组成，各核尺度参数σ∈[0.03,1,2,5,7,10,12,15,17,20]。

图3 融合3种图像特征的多核构造方法Fig.3 Multiple kernel construction method for fusing three types of image features

对本文构建的多核模型进行训练求解，可根据WMS图层样本内容自适应地调整特征权重并为每个特征选择恰当的核参数，以满足用户差异化的检索需求。如图4中Blue Marble影像和西班牙气温专题图的颜色空间分布或形状轮廓相似性较高，则训练后分类模型中颜色或形状特征权重较大，有效提高了决策函数的可解释性和预测性能等。

1.3 结合用户Web端反馈的检索优化

由于选取的3种底层特征均不具备高级语义信息，本文引入用户反馈机制。通过用户兴趣样本补充，调整多核模型中各核权重，以期缩小检索中的语义鸿沟，实现分类模型精化，满足用户个性化检索需求。

用户反馈于开发的基于Web的WMS图层检索系统原型实现，用户通过鼠标点击行为标记当前检索结果页面中所有正确检索结果，如图5所示，检索结果中红框标心的图层缩略图为人工标记的正确检索图层，系统将其与前次检索使用的正样本合并去重作为新正样本集。当前页面中未被选中图层为负样本，与前次检索使用的负样本合并后，从中选择与新正样本数量相当的图层作为新负样本集，以保证正负样本数目均衡。对补充后的样本集重新训练得到新的分类模型，再次计算检索结果并排序输出显示。

2 试验结果与分析

本文从检索准确性、检索高效性和用户反馈有效性3个方面开展试验分析，综合验证本文方法的可行性：①结合对比试验验证多特征融合对各类WMS检索准确性的提升；②探讨检索用时的影响因素及实时检索的可能性；③分析反馈机制对检索精度的提升效果，验证其有效性。

2.1 试验数据

本文使用的试验数据来自全球653条WMS，共包含11 689张可访问图层，涵盖全球温度、云量、风速、土壤和土地利用等多种专题类型地图，也包括道路网图、地名地址等基础设施分布地图等。试验中所有图层缩略图统一存储为3通道的JPEG格式。

2.2 多特征多核学习的查准率对比

本文使用查准率作为检索精度衡量指标，分析该方法相比现有基于颜色直方图和SVM的检索方法[19]在检索精度上的优势。考虑到点、线、面要素和遥感影像4类图层视觉差异大，且颜色、形状和纹理特征相似程度不同，本文从4类图层中分别选择多组图层进行人工标签标注开展无反馈检索对比试验，验证多特征融合在WMS检索中的必要性。各组图层中正负样本总数为30个。图4为部分图层训练样本与检索结果示例，图6为对应的查准率。

由图6可知，本文方法融合多种特征能有效地提升查准率，但不同类型图层的查准率仍存在较大差异。①面要素图层的颜色分布和对象轮廓描述了地理要素在特定区域的空间分布。如图4所示的西班牙温度分布图和爱荷华州鱼群分布图，颜色分布细节存在差异，但区域轮廓一致，通过训练可提高形状特征对应权重，达到提高查准率的目的。②尽管Blue Marble风格影像的蓝色系配色风格易与其他同色系图层混淆(如全球卷云反射率等)，但由于类内图层内容在颜色、形状和纹理上相似性高，综合使用3种特征能有效提高查准率。③通常点线要素图层的要素空间排布形态与紧凑度受到多种因素影响。如图4中的全球生物量图和道路网，随着统计目标和道路级别的不同，点线及其颜色分布产生差异，并引起内部纹理和轮廓变化。特别是点要素图层轮廓细碎，类内配色风格差异大，视觉相似度低，仅使用颜色特征无法有效概括类内图层内容的相似性。尽管本文方法综合利用3种特征使得查准率有所提升，但整体精度仍较低。

2.3 多特征多核学习效率分析

为验证本文方法能否支持WMS图层实时检索，本文统计分析不同样本规模下不同有效核数目对应的平均检索用时。为保证图层缩略图的清晰展现，限定每页检索结果页面可容纳的缩略图数量为80张，同时考虑到实际系统交互的用户体验，用户反馈标记操作多集中在第1—2页，样本数目至多160个，本试验设置10、50、100、150和200共5个样本数量级。对各样本数量下5000组不同正负样本构成的训练集进行学习并解算核权重，统计每组权重非零的有效核数目和10次重复试验的平均检索用时。试验环境为单台台式机，硬件配置为intel i5四核处理器(主频3.00 GHz)和16 GB内存，操作系统为Windows 10，算法基于MATLAB实现。

统计各样本数量下有效核数目出现频次，如图7所示有效核数目最大为18，但主要集中于10以内，且最大检索用时未超过2.5 s。为此本文进一步分析有效核数目为1～9时检索用时变化规律(图8)。本文将检索用时划分为训练用时和其余用时(包括样本数据读入、多核模型预设、预测分类和相似性排序用时等)两部分，并以样本数量10为基准分析不同样本数量和有效核数目下训练用时和其余用时的变化率，计算公式如式(4)，tn,k为样本数为n,有效核数目为k时的训练用时或其余用时

时间变化率=(tn,k-t10,k)/t10,k

(4)

图4 部分图层训练样本与检索结果示例(带红框图层为检索错误结果)Fig.4 Examples of training set and results (wrongly retrieved images are marked with red rectangle borders)

图5 WMS图层检索结果展示界面及用户反馈示例(以全球甲烷(CH4)分布图为例)Fig.5 The GUI of WMS layer retrieval result exhibition page and user feedback demonstration (taking global CH4 distribution map for example)

由图8可知，检索用时随样本数量和有效核数目的增加而增加，不同样本数量和有效核数下的平均检索用时为0.1～1.6 s，基本能够满足用户实时检索的需求。其中训练用时随样本数量和有效核数目增加呈增长趋势，有效核数目与检索所需特征类数高度相关。当检索对象为使用单一特征可有效区分的WMS图层，分类模型复杂度低有效核数目较少(多为1～2个)，训练用时较短。其余用时不受核数目变化的影响但随样本数量的增加呈线性增长。其中样本数据读入时间受样本数量影响最大，而多核模型预设、预测分类和相似性排序用时所占比重小，受样本数量影响较小，其变化对其余用时影响有限。同时，对比图8训练用时和其余用时变化率曲线，训练用时随样本数量增长速度略高于其余用时，可从算法优化和数据读取并行等角度进一步加速检索速率。

图6 单颜色直方图SVM与多特征多核检索算法的查准率对比Fig.6 The precision comparison of SVM with blocking color histogram as the single feature and the proposed multiple kernel learning with three selected features

2.4 反馈机制的有效性验证

本文分别选取点、线、面要素地图和遥感影像中的多组代表图层开展反馈有效性验证试验。试验选用查准率和查全率评估反馈对检索精度的提升，使用平均准确率(average precision,AP)评估反馈对正确检索结果位序的影响，综合评判反馈能否辅助用户快速获取有效信息。各指标计算如式(5)，其中Q为检索结果总数，r为位序，P(r)为当前位置的查准率。迭代反馈中各项指标变化情况如图9所示。

(5)

图7 不同样本数量下有效核数目的频次分布Fig.7 The frequency distribution of kernel number in different training sample sizes

图8 多核学习训练用时与其余用时随样本数量及核数目的变化趋势Fig.8 The increasing of training time and other computing time with the increased training sample sizes and kernel numbers

由图9可知反馈对查全率贡献小，但能有效提高查准率和平均准确率。查全率在反馈中保持不变或仅有小幅度提升。其中点、线图层中要素分布模式多样、视觉差异大，检索结果与正样本视觉相似性高，用户在此基础上反馈无法补充其他分布模式的点线要素图层信息，因此不能有效提高该类图层的查全率。随着反馈迭代大量错误检索结果被剔除，查准率提升迅速。多次反馈后仍被误检的图层与正样本在地理要素或属性空间分布、配色风格或区域轮廓上差异有限、视觉相似度高，将这些图层作为负样本补充后会干扰训练，使分类模型向错误方向调整，造成查准率波动。通过反馈检索平均准确率到达了较高水平，说明反馈能够有效剔除错误结果，并有效改善正确结果的相似度排序。同时试验表明，经过1—2次反馈后，样本规模已足够辅助模型捕捉到图层间的相似性，并将各核权重调节至合理区间，此后查全率、查准率和平均准确率等指标基本保持稳定。综上所述，用户通过少数次反馈能有效筛除错误干扰项，提高正确检索结果位序，快速找到匹配的图层。

图9 不同类型图层的用户反馈有效性试验结果Fig.9 Results of user feedback validity experiment for different types of layers

3 总结与展望

本文将基于内容图像检索应用于WMS图层检索，设计了一种基于多特征多核学习的检索策略，并结合用户反馈机制提升检索精度。试验结果表明该算法能够实时准确满足用户多样化的检索需求。相比现有WMS检索方法，本文方法考虑了图层的视觉相似性，融合颜色、形状、纹理3种特征对图层内容进行描述；通过多核学习实现特征的高效组合和核函数参数选择；结合用户反馈，动态调整与优化分类模型，适应了用户检索差异化大的需要。

本文算法对面要素图层和遥感影像效果较好，而点线要素图层需进一步优选特征或结合深度学习框架提取图层高级语义特征，以提高检索精度。目前本文方法假定反馈过程中所有检索正确结果均被用户手动标记，可借鉴半监督学习或弱监督学习的思想，通过少量标记图层筛选检索结果中其他兴趣图层，减轻用户反馈标记负担。同时，为应对检索用时随样本数目快速增长的现象和大量用户并发检索的需求，需设计合理的并行计算方案，提升用户体验。