APP下载

国内可视化搜索引擎研究进展:架构体系与关键技术

2017-11-09孙雨生李沁芸朱礼军

现代情报 2017年10期
关键词:关键技术

孙雨生 李沁芸 朱礼军

〔摘要〕本文介绍了可视化搜索引擎内涵、核心内容和研究框架,并从架构体系、关键技术两方面阐述了国内可视化搜索引擎研究进展。

〔关键词〕可视化搜索引擎;架构体系;关键技术

DOI:10.3969j.issn.1008-0821.2017.10.028

〔中图分类号〕TP399;G202〔文献标识码〕A〔文章编号〕1008-0821(2017)10-0172-06

〔Abstract〕This article described the connotation,core content and research framework of visual search engine,and revealed its research development in China from two aspects ofarchitecture system and key technologies.

〔Key words〕visual search engine;architecture system;key technology

随着网络信息级数倍增、用户检索需求个性化,海量信息与有限用户认知能力间矛盾日益凸显,客观需要新型信息检索技术提升个性化服务效率,在这种形势下,可视化搜索引擎应运而生,其将可视化技术引入信息检索领域[1],通过丰富界面视觉效果、连续[2-6]多维[7]揭示检索词与信息间关系及所隐藏信息关联及规律[1]提升用户检索体验[8](通过整体、局部浏览直观[9]判断信息相关性并明晰用户需求[10])、降低用户认知负担(无需太高信息素养、检索语言知识[8],变检索过程为知识学习[10]过程)。

本文介绍可视化搜索引擎内涵、核心内容和研究框架,并从架构体系、关键技术两方面阐述国内可视化搜索引擎研究进展。

1可视化搜索引擎简介

11定义及内涵

可视化搜索引擎依托可视化环境(含硬件(计算机系统配置图像、视频输入输出、音响设备)、软件、可视化处理过信息资源(配有图符库、词库、资源特征库索引、知识库和全文、音频、视频资源库))[11],将可视化技术[8,12]用于搜索引擎各环节,基于信息可视化、数据挖掘[6,13]、图形图像学、认知科学、人机交互等学科理论、方法[13-14]、技术,将用户需求[8,15]、检索模型、信息资源管理(采集、组织、存储、处理[15])及检索过程中不可见内部语义关系[10]、特征转成图像、图形[9]、动画、视频[13]等视觉形式[12,16-17]显示在可视化空间供检索[2-5,12,15-16,18-20]以实现网络信息可视化索引、检索、浏览[12,16-17,21]与人机交互[1,16-17],提升检索沟通深度[9]及效果(准确分析检索需求、动态调整检索策略[1]、提升检索结果信息量及可读性[18,21](辅助用户理解[12,16-17]、把握检索方向并有效反馈[2,4-5,12,15])以便用户决定浏览次序、找到所需信息)、改善用户检索体验[8](可视化表达信息内容、线性及网状[13]关系[5,8,16-17,22],高效处理信息[9]以提高检索效率性能[3,16,18-20])。

12核心内容及研究框架

分析现有文献,笔者认为可视化搜索引擎核心研究架构体系、关键技术、用户测评、可视化资源组织、可视化机制、可视化表征、领域应用与系统实现等,研究框架见图1。

图1可视化搜索引擎研究框架

2可视化搜索引擎研究进展

为全面掌握国内可视化搜索引擎研究状况,笔者以中国知网、万方数据的学位论文、期刊论文库及维普的期刊论文库为信息源,用关键词组合在题名中检索相关文献(截止2017年4月21日,以“可视化”、“搜索”为关键词组合从知网获硕博论文12篇、期刊论文26篇,从万方获硕博论文13篇(新发现3篇)、期刊论文21篇(新发现0篇),从维普获期刊论文28篇(新发现2篇);以“可视化”、“检索”为关键词组合从知网获硕博论文14篇、期刊论文101篇,从万方获硕博论文15篇(新发现6篇)、期刊论文89篇(新发现5篇),从维普获期刊论文100篇(新发现3篇);合计172篇文献)。

纵观现有成果,国内可视化搜索引擎研究侧重跟踪国外动态(介绍国外先进技术,如可视化检索模型构建、可视化技术、可视化检索系统比较、可视化检索应用意义等,结合国内情形较少且深度不够[16],多为理论探讨,尚未形成成熟理论与方法),应用研究尚处初步阶段(系统设计思想不成熟[18](如数字资源组织、系统体系结构等问题)、开发很缺乏[15]且问题多[23]),相关成果最早是王宁等1997年发表的《可视化信息检索系统的设计与实现》,学术研究集中在基本理论与技术(聚类[12-13,16,24-25]、映射[3,7,12,14-15,18-19,22,26-29]、可视化显示[6,9,18,20,26-27,30-31]、可视化工具[2,5,14-15,17,22,32-33]);应用研究集中在农业[25,32]、学术[7-9,15,23,25]、电子商务[18]、社交平台[9]等领域。

21架构体系

211体系结构

可视化搜索引擎多分为用户检索层、可视化实现层和信息采集層,详见图2。此外,崔洁[34]提出可视化搜索引擎多采用BS架构,由数据服务器(数据定义、更新、格式转换等)、Web服务器(将用户需求转为查询表达式并据匹配算法匹配数据库中数据,检出满足条件文档并通过用户界面返给用户,涉及自动标引、概念空间生成与可视化显示、结果文档集提取等)和Web终端(用户与系统交流媒介,通过用户界面可视化展现检索过程、结果)组成。

图2可视化搜索引擎体系结构endprint

212功能模块

王恬[25]、李睿[35]等认为可视化搜索引擎分信息抽取(用Web信息抽取技术获取有效信息)、数据处理(改进中文分词法对抽取信息清洗、分词,用关联分析、聚类分析技术分析并存储信息及其间关系)、可视化处理[35](将相关信息及其间关系分别映射到可视化结构中[25],通过视图变换转换成可视化图形,还包括用户行为统计[35](聚类结果输出后记录用户选择方向,体系化输出搜索结果知识))、用户检索(提供用户检索接口,返回检索结果)、后台管理(管理员维护系统数据[25])模块。

213运行机理

文燕平[21]、陈颖[23]、王恬[25]、王蓓[36]等认为可视化搜索引擎多从Web资源获取信息并预处理[25],确定数据集及其可视化对象[21,23,36](需显示内容(如文档、数字图书馆、网站和超链接结构等[23]),分析数据集内部特点(语义结构、链接、引用关系等),抽取结构化、上下文信息、元数据、使用及语义信息等(支持可视化隐喻形式选择[21]))并存入关系数据库[25];其次,确定对象间逻辑关系(可视化模型构建基础)、以何种关系(几何图形、自然实物、图标等[21,23])显示可视对象[22-23,36];最后,构造虚拟结构(借助抽取、分析方法抽象产生,辅助用户发现数据中隐藏规律及关联信息(如相似度、含相同关键词文档))[21],定义可视化空间[4,21,36](基于信息可视化方法或文献信息系统结构[3]降维向量空间[3,21]以构建低维可视化空间),确定可视化语义框架,用可视化映射方法将可视化对象及其逻辑关系映射到语义框架[22,36]并与用户动态交互,用视图转换视觉显示可视化结构并通过用户界面将检索结果返给用户[25]。

22关键技术

可视化技术指用计算机数据分析、图形构造、图像处理和人机交互技术将海量数据转成图形或图像显示在屏幕上[8]并允许通过交互[20]控制数据抽取和画面显示,直观化数据中隐含[20]规律的理论、方法和技术[17,36],常按可视化对象、方式、目标分类。可视化搜索引擎基于常用可视化技术[12,20](传统多涉及概念、空间地理、文献、数据库和多媒体等方面可视化技术,当前主要关注网络及大规模信息资源检索可视化、领域可视化、算法改进等[7,15,17-18,37]),其中,关键技术包括聚类、可视化映射、可视化显示、可视化工具等。

221聚类

1)粗糙集理论

武娜[13]基于分类机制,用知识库中知识近似描述不精确(确定)知识,用于机器学习与知识发现、数据挖掘、决策支持与分析等。

2)向量空间模型

又称特征词向量模型,向量化表示文本,最早用于检索系统SMART,目前广泛用于信息检索[13]中文档与提问相关度度量并按相关度降序输出[16]。孙巍[16]认为优点是用部分匹配策略实现算法层基于多值相关性判断,用基于统计学词加权处理模式改善检索效果,用检索结果排序输出策略弹性、自由控制与调整检索结果数量;缺点是标引词彼此独立。

3)遗传算法

从随机产生或特定初始群出发,按规则(如选择、交叉、变异等)迭代并按个体适应度优胜劣汰以最优化搜索过程,广泛用于知识发现、组合优化、机器学习、信号处理、自适应控制等[13,24],武娜[13]认为特点是搜索过程中自动获取优化知识、自适应调整搜索方向,有普适性、易扩充性(简单修改即可用于其它問题或加入领域知识、与已有算法结合)优势。此外,王胜惠[24]提出可视化交互式遗传算法模型(允许用户参与遗传搜索过程并处主动地位,通过在搜索过程加导向信号(添加处高适应度区域个体)引导遗传过程朝用户主观情感方向发展,能有效加快遗传算法收敛速度、减轻用户疲劳、高度实现图像感性搜索)。

4)K-means算法

武娜[13]认为K-means是最经典、最常用基于划分[25]聚类算法,效率很高,其以随机k个对象为簇初始均值或中心,按与各簇均值距离把对象分为k个簇并不断更新各簇均值以使簇内相似度高、簇间相似度低,直到准则函数(常为平方误差准则)收敛。常用于处理大数据集,局限是初始质心难事先确定、选取较敏感(初始质心随机性影响聚类结果稳定性、质量)。王恬[25]提出基于最大距离法选取初始质心K-means聚类算法(结合K-means聚类算法、凝聚层次聚类算法优点最优化聚类效率、效果:用K-means聚类法产生类以约束凝聚层次法凝聚空间,各类用凝聚层次聚类法生成聚类树并合并为完整聚类树)。

222可视化映射

主流且应用广泛搜索引擎可视化映射技术有多参考点模型、欧几里德空间特征模型、自组织图、寻径网络、多维尺度分析[15,22,37]、潜在语义索引。

1)多重参考点模型

冯小琴[19]、张进[22]认为广义参考点代表用户信息需求及其相关信息(如兴趣偏好、检索历史、用户从属关系和教育背景等)、特殊信息(如复杂提问、浏览文档或检索词)。一参考点常对应一(组)检索词,用于辅助修正检索请求以提升结果准确性。多重参考点用两个以上用户需求信息形成低维视觉空间,按文档与参考点联系将其绘制在视觉空间以有效处理用户复杂信息需求并灵活精确操作,按在视觉空间位置分多重固定参考点(Info Crystal(用二维空间可视化检索结果))、多重可移动参考点两类。

2)欧几里德空间特征模型

冯小琴[19]认为欧几里德空间基本元素是点、距离、角度,与基于向量空间信息检索关联特殊(其空间点与基于向量空间中文档或参考点对应时可用两文档(参考点)间欧几里德距离揭示相似性)。其用欧几里德空间特征和信息检索间自然关联为用户浏览、搜索信息构造可视化环境[19],体现在检索方向性(该类算法适用于比例性相似情形,如信息检索Cosine向量模型,向量间夹角越小越相似)、距离性(该类算法适用于完全相似情形,距离越近越相似)[22]。冯小琴[19]、张进[22]提出DARE(基于距离-角度)、TOFIR(基于角度-角度)和GUIDO(基于距离-距离[2-3])模型均在二维空间可视化展示方向、距离或两者结合,多用KVP、AVP参考点构建可视化空间。endprint

3)自组织图

信息可视化领域较早采用算法[26](宏观可视化领域知识效果较好但过程复杂[19]且数据量较大时效果随学习次数增多而降低(学习过度)[27]),又称Kohonen特征映射(SOM),是无监督[27,29]可反馈[19]人工神经网络[14,18,26],由芬兰TKohonen首先提出[29],常用于基于向量信息检索模型[22],通过抽象、组织输入数据或信号特征,归类并揭示拓扑关系将高维输入数据集映射到低维网格上节点[14]以用简单几何关系表示[23]且尽可能保持原有数据关系[26-29],产生有序地图以描述输入数据和其间关系高度有序统计学特征[26],主要包括结构、算法、标识,体系分输入、输出层[14,22],神经元(对应N维加权向量[27,29],存储、记录学习过程所获知识、经验[22])有序结构可自动处理输入数据并生成网状特征图(神经元常显示在矩形或六边形细胞状二维网格结点上并相互作用,神经元间距离决定交互度,数目决定算法结果映像度[29])且有处理模糊数据和复杂计算能力[22]。张学福[27]、孙巍[28]等提出根据出现频率,为输入向量分配节点数[27],强调领域、区域和临近关系,易在图形核心区域增加标签[28]但会损害频率较低样本,频率较高样本降维时会出现畸变(压缩比越大,畸变度越大[27],使图形显现内容与实际脱节[28])。

4)寻径网络

又称探路者网络(Pathfinder,PFNET),由Schvaneveldt和其他认知科学家共同提出。根据经验性数据评估概念或实体间联系相似(异)度,用图论中基本概念和原理生成特殊网状模型(分层、聚类概念、实体以降维,通过节点和连接图描述数据间关系以清楚显示对象间链接关系),可一定程度模拟人脑记忆模型及联想思维方式[7],是检查数据关系、创造标记最有效联接路径,其结构化模式可直接将用户注意力集中到最佳“相关路径”[26],有效消除网络中不清晰链接以降低计算负荷、提升效率[7,18,23,26-27]。多用于词频共现分析、信息搜索分析等[14],如陈超美用于可视化著者同被引分析[7]。

5)多维尺度分析

又称相似度结构分析[14],张学梅[7]认为是用非线性变换降维数据以通过低维空间不同疏密散点近似表示高维数据间关系,旨在明确潜在维度(直接决定事物间距离),用较少变量解释事物间相似性;欧亮[12]、张学福[27]认为多用于处理代表事物间接近性观察数据,包括实际距离及主观评判相似性等,分析各种距离或相似矩阵,评价文献间、基于共频引文对象间相似度等以在一组对象相似测度中找出其间结构。缺点是无快速方法解释降维后结果自然特性(常需局部细节和更多明晰结构表示,影响MDS配置),仅能处理小型数据集[27]。

6)潜在语义索引

韩丽华[18]、周宁[26]、张学福[27]认为是将矩阵奇异值分解用于文档语义特征抽取以将文档关键词向量空间转为语义概念空间,消除词间相关性[12],在降维语义概念空间中计算查询向量与文档向量相似度并排序后返回[18],特点是在输入数据中揭示“潜在”语义结构,常用于海量、高维数据处理[26]。

223可视化显示

可视化显示依赖是否接近用户经验、知识最佳描述[26],需據实合理选择一种或组合多种显示技术[27],目前可视化搜索引擎常用显示技术见表1,郭卫兵等[30]认为还包括文档透镜、透视墙景图等。

224可视化工具

信息检索可视化无内在固有结构可继承,造成可视化方法多样性,因此开发了多种可视化搜索引擎模型和工具[22]供用户选择[33],常用可视化工具见表2。

工具包简介实现语言

Prefuse具有数据建模、可视化和交互等功能,支持层次、网状等数据结构且提供系列可视化编码、算法、组件以支持视图布局、颜色、大小、形状、变形、动画(通过系列活动时序机制完成)等功能[32]Java

Gephi复杂网络分析软件,主要用于网络和复杂系统,动态和分层图的交互可视化与探测开源工具,广泛用于大学、公司和机构,如纽约时报全球连接性分析、Twitter网络负荷分析等Java

OpenGL二维和三维图形底层API,也称计算机图形汇编语言,有建模、变换、颜色模式设置、光照和材质设置、纹理映射、位图显示和图像增强、双缓存动画功能,已成为事实行业标准,基于此还有OpenGL Vizserver、OpenGL Performer、OpenGL Volumizer、OpenGL Multipipe SDK API、Open Inventor等高级图形库,适应不同应用[33]跨编程语言

VTK开源3D计算机图形、图像处理和可视化软件系统,支持多种可视化算法,包括标量、矢量、张量、纹理等及高级模型技术,包括固有模型、多边形变形和剪辑等;三维图形功能强大;用高速缓存、流水线处理大数据集;支持基于网络工具且可移植[33]C++

JGraph交互性较好图形结构可视化组件,支持拖放、缩放、合并等操作,可用于图结构表示,如UML、图机构等[14]Java

GoogleMaps API可免费开发个性化地图并嵌入网站,实现多种地图展现、操作功能,如拖拽、缩放、限制有效活动范围和缩放级别、通过经纬度精确定位并查看定点详细信息[32]JavaScript

Infocrystal可视化表达所有可能二进制及概念中连续关系。可随意设定概念间相关度权重和阈值,允许用布尔逻辑表达式和图形化向量空间查询,创建任意复杂查询表达式且形成块图形(正方形、三角形等晶体状)或组织成层次化结构[17]

WIDAS基于双曲线树理论[2,5]实现信息可视化和检索功能集成,旨在提高用户可视化检索网络信息准确性和效率,被视作实现高效Web浏览辅助工具[5]endprint

23其他研究

231人机交互

信息检索可视化(尤其检索过程可视化)与用户行为密不可分,用户动机是预测其使用搜索引擎目的关键要素,目前研究较缺乏[15]。改善人机交互可实现交互式检索(如调整文献显示方式等)以帮助用户理解文献间语义关系、提高查准率[2]。罗龙艳[3]提出可视化检索提供有效用户反馈机制,提出完善浏览、检索途径方法。

232可视化搜索引擎测评

孙巍[16]、王蓓[36]提出可视化搜索引擎模型评价检查是否满足用户需求[16],可视化环境中确定对象、提取属性、定义坐标系、设计语义框架及开发视觉信息检索方法是否无缝合成,数据是否显示充分、清晰准确,是否全面表达重要属性和原始数据集中突出关系,可视化显示是否有意义、可翻译、可解释,交互式信息检索方法是否较好融入可视化环境[36],信息检索可视化工具和模型是否多样化等;么新英[4]认为可视化搜索引擎评价很少且难推进,主要是由于可视化模型多样性(特有数据结构、特性及数据处理,评价难度较大)、可视化环境复杂性(可视化环境下检索过程较传统复杂)、传统评价不适应性(可视化搜索引擎技术、原理成熟,网上信息量猛增,元数据成熟,商品化增长,需构建统一评价标准);潘庆超[37]认为应参照现有搜索引擎评价方案构建可视化搜索引擎测评体系。

3结束语

综上,本文介绍了可视化搜索引擎内涵、核心内容和研究框架,并从架构体系、关键技术两方面阐述了國内可视化搜索引擎研究进展:架构体系包括体系结构(多用BS结构、引入数据挖掘)、功能模块(多包括信息抽取、数据预处理、可视化处理、用户检索、后台管理)、运行机理(多为信息采集抽取、数据预处理、可视化映射、可视化搜索结果生成及显示);关键技术主要包括聚类、可视化映射、可视化显示、可视化工具等,现有可视化技术尚不成熟(缺乏坚实理论基础、系统研究,未充分考虑用户需求、兴趣等),尤其是高抽象度模型技术,致使很多经典可视化模型无法轻易应用,严重影响检索效率、用户要求满足度,阻碍检索可视化应用发展。接下来,笔者将从可视化资源组织、可视化机制、可视化表征三方面系统分析国内可视化搜索引擎研究进展,以供相关研究及实践参考。

参考文献

[1]孙巍,张学福.基于引文的信息检索可视化系统设计与实现[J].情报杂志,2008,27(6):70-72,76.

[2]秦雪梅,高凡,陈烈英.可视化情报检索[J].图书情报工作,2002,46(4):89-92.

[3]罗龙艳.基于可视化技术的信息检索初探[J].现代图书情报技术,2002,(4):36-38,30.

[4]么新英.传统信息检索与可视化信息检索之比较[J].科技情报开发与经济,2003,13(3):1-2.

[5]曹锦丹,王丽伟,齐艳丽.可视化技术在网络信息检索中的应用[J].情报杂志,2005,24(8):113-116.

[6]孙洁丽,朱智清.基于数据挖掘技术的检索可视化系统的研究[J].现代情报,2008,28(3):106-109.

[7]张学梅,汪伟歆.基于本体的期刊论文可视化检索系统研究[J].电子世界,2012(22):121-123.

[8]饶文星.可视化多语言目录检索平台研究[D].南宁:广西民族大学,2013.

[9]蔚元方.文献检索的信息可视化技术研究[D].郑州:中原工学院,2015.

[10]王蓓.浅议信息检索可视化[J].企业导报,2012,(8):249-249.

[11]周宁,文燕平,严亚兰.信息检索可视化初探[J].情报科学.2004,22(2):138-142.

[12]欧亮.信息检索可视化研究综述[J].情报探索,2011,(3):83-87.

[13]武娜.视频搜索结果分析及其可视化方法研究与应用[D].上海:东华大学,2009.

[14]王孟君.WWW信息检索可视化研究及在信用领域的应用[D].杭州:浙江工业大学,2010.

[15]朱云霞.我国信息检索可视化研究现状与发展趋势分析[J].情报探索,2012,(8):112-115.

[16]孙巍.基于引文的信息检索可视化系统研究[D].哈尔滨:黑龙江大学,2007.

[17]张学梅.期刊论文语义检索与可视化导航系统研究[D].南京:南京农业大学,2010.

[18]韩丽华.信息检索可视化效率若干问题研究[D].哈尔滨:黑龙江大学,2008.

[19]冯小琴.基于技术接受模型的信息检索可视化研究[D].武汉:华中师范大学,2009.

[20]李春旺.信息检索可视化技术[J].现代图书情报技术,2003,(6):44-46,49.

[21]文燕平.WWW信息检索可视化实现原理研究[J].现代图书情报技术,2005,(4):10-13,50.

[22]张进,袁泽林,陆伟.信息检索可视化的主流路径[J].图书情报知识,2008,(5):24-27.

[23]陈颖.基于摘要信息的中文信息检索可视化系统研究与实现[D].哈尔滨:黑龙江大学,2007.

[24]王胜惠,王上飞,王煦法.可视化交互式遗传算法及其在图像感性检索中的应用[J].小型微型计算机系统,2004,25(3):399-403.

[25]王恬.农业文本信息检索可视化平台研究[D].咸阳:西北农林科技大学,2015.

[26]周宁,刘玮.可视化语音信息检索模型研究[J].现代图书情报技术,2006,(2):46-49.

[27]张学福.信息检索可视化基本问题研究[J].中国图书馆学报,2006,32(3):37-40.

[28]孙巍,张学福.基于引文的信息检索可视化相关系统比较分析[J].情报理论与实践,2008,31(4):598-601.

[29]陈勇跃,周宁,夏火松.知识检索中的知识抽取与可视化研究[J].情报科学,2010,28(11):1719-1723.

[30]郭卫兵,朱毅华.基于信息可视化的教学资源检索与导航模型构建与验证[J].现代教育技术,2011,21(2):121-124.

[31]饶文星.国外可视化多语言检索系统的特点与发展趋势[J].科技情报开发与经济,2015,25(11):93-95,99.

[32]张阳.农业搜索可视化平台的研究[D].合肥:中国科学技术大学,2010.

[33]张学福.信息检索可视化开发工具[J].现代情报,2005,25(11):38-41.

[34]崔洁.基于共词分析原理的文档可视化检索系统研究[J].兰台世界,2009(S1):90-90.

[35]李睿,聂晨光,龙文磊,等.信息可视化技术在搜索引擎结果知识体系化输出应用方案设计[J].中国管理信息化,2015,18(13):211-213.

[36]王蓓.信息检索可视化模型[J].成功(教育),2012,(6):229-229.

[37]潘庆超.近几年国内信息检索可视化研究综述[J].图书馆学研究,2010,(12):7-9,14.

(本文责任编辑:孙国雷)endprint

猜你喜欢

关键技术
牛繁育与健康养殖关键技术
小麦春季化控要掌握关键技术
棉花追肥关键技术
成功育雏的关键技术
老苹果园更新改造的关键技术
跨座式单轨与中低速磁浮信号系统的关键技术
杉木萌芽更新关键技术
overlay SDN实现异构兼容的关键技术
NFV关键技术与应用场景
ETCS DMI软件设计方法和关键技术