图书情报领域多媒体信息检索研究态势分析

2023-06-21田沛霖

甘肃科技纵横 2023年1期

摘要：通过揭示图书情报领域多媒体信息检索的研究态势，能帮助确定图书情报领域对多媒体信息检索的关注点与贡献，为研究人员提供智力支持。研究基于主题结构发现研究方法，挖掘研究的主题社区，并梳理其发展演进历程。研究发现，图书情报领域多媒体信息检索研究可分为特征抽取与表示、图像检索、元数据、检索模型与框架、用户体验五个主题社区，图像检索是当前研究的核心，检索模型与框架、用户体验研究正快速发展，内部统一的理论框架有可完善的空间。

关键词：图书情报；多媒体信息检索；主题结构发现；研究态势

中图分类号：G354.2；TP391.3 中图分类号：U24

0引言

多媒体信息检索指根据特定的需求，运用某种检索工具，基于特定的检索策略和方法，从存储信息的集合中对图形、图像、音频、视频等多媒体信息进行检索的过程[1]。自互联网兴起并普及以来，网络上多媒体信息数量激增，这激发了用户对于多媒体信息的需求，使得多媒体信息检索成为包括图书情报领域在内的多个学科领域的研究热点。

信息检索的概念是美国计算机学家Mooers于1950年首次正式提出的[2]。计算机的发明推动了信息检索领域的迅速发展，使以前局限于纸质文献的情报检索技术与计算机相结合，发展成为了现代认知中的信息检索。信息检索的原理是通过计算查询项与信息集合中实例间的相似度，从信息集合中选择相似度最高的实例作为检索结果。文本信息可以通过简单的转换，在不丢失语义信息的前提下存入计算机，因此这种计算对于文本信息而言，是较易实现的；而对于多媒体信息，其存储与检索主要基于文本注释标签与索引、特征信息等实现[3]，因此如何克服信息的非文本型描述与其对外表达的概念的语义差距，对其进行结构化表示，成为多媒体信息检索攻克的主要难题。1965年，Hagen[4]提出了一种录音信息检索系统，开创了多媒体信息检索研究的先河。20世纪90年代，QBIC、WebSeek图像检索系统和 Via Voice 音频检索系统等多媒体信息检索系统出现在互联网上，多媒体信息检索研究开始蓬勃发展。而图书情报领域作为信息檢索研究的起源与发展的摇篮，在推动多媒体信息检索研究上起着不可或缺的作用，在相关的诸学科领域中占据着重要的地位。

在分析多媒体信息检索研究态势的研究中，一方面，大部分学者使用定性分析方法，对多媒体信息检索及其相近领域进行综述，如孙吉红等[5]分析了多媒体信息检索领域的研究成果，总结了研究现状，指出未来研究的发展方向为以用户为中心的多媒体信息检索、基于神经科学的学习模式、多媒体协作和分众分类法等；薛向阳[6]对多媒体信息的检索、推荐和生成技术进行了综述，并指出深度学习技术和神经网络对多媒体信息检索领域的进步有突出贡献。另一方面，少数学者使用文献计量等定量研究方法进行分析，如陈珊[7]对2000年以来国内多媒体信息检索研究进行了文献计量分析，指出研究主要集中在基于文本的、基于内容的、基于 XML 的多媒体信息检索和数字图书馆多媒体信息检索3个方面。

上述研究梳理了多媒体信息检索的研究态势，但仍有两方面不足：（1）缺乏图书情报领域的视角，未能呈现图书情报领域对多媒体信息检索的关注点和贡献；（2）没有揭示各子主题的发展态势，同时缺少对研究发展演进历程的梳理。综上所述，文章以图书情报领域多媒体信息检索研究的科技文献作为研究对象，基于主题结构发现的研究方法，挖掘研究中的主题社区，并梳理研究的发展演进历程，从而揭示图书情报领域多媒体信息检索的研究态势，在确定图书情报领域对多媒体信息检索的关注点与贡献的同时，帮助研究人员加深对领域的理解并提供参考。

1主题结构发现分析方法

1.1数据收集与处理

研究以 Web of Science 核心合集为数据源，具体检索策略如下：

TS=（（non- text* OR nontext* OR multimedia OR multi-media OR imag* OR graph* OR figure* OR video* OR sound* OR audio*） information （search* OR re? triev*））

对于检索得到的文献结果，研究将其“出版年”字段限定为2013～2022年，“Web of Science 类别”限定为 Information Science Library Science，“文献类型”限定为论文、会议录论文、综述论文和在线发表。最终获得690篇文献。

研究将题录数据导入VOSviewer[8]以计算文献关键词的词频和词共现关系，发现词频最高值为66，结合普赖斯公式[9]，选择词频大于等于6的关键词作为图书情报领域多媒体信息检索研究的重点主题。为确保研究的准确性与规范性，研究首先删除与研究主题相重合的关键词（information retrieval、information search 等）和对研究没有实际指导意义的关键词（science、technology 等），并对同义词（如bibliometrics 和bibliometric analysis）和单复数词（如model 和models）进行合并。最终得到由78个高频关键词构成的主题网络，以支撑后续研究。

1.2研究方法

首先，使用 Louvain 算法[10]划分网络的主题社区，使用VOSviewer[8]对主题社区及其关联关系进行可视化；其次，将主题社区映射至二维战略图[11]以分析研究的发展态势；最后，基于题录数据，根据主题社区间相互关系，使用Cortext[12]绘制桑基图，对主题演进历程进行时序可视化，以全面系统地揭示多媒体信息检索的研究态势。

2研究态势分析

2.1时间分布

图1展示了2013～2022年图书情报领域多媒体信息检索研究的历年文献量及总关键词数量。历年文献量总体上相对平稳，2016年文献量最少，为42篇；2020年最多，为101篇；自2017年起文献量呈逐年上升趋势，并于2020年达到顶峰，结合研究实际，文献量增长的可能原因是近年来深度学习技术取得了突破性进展，并在多媒体信息检索领域广泛应用，从文本信息到非文本信息的跨模态检索得以实现，推动了多媒体信息检索研究进一步发展。

2.2主题结构

图2展示了主题网络划分而成的主题社区，通过内容审查，发现研究可以分为5个主题社区。

（1）特征抽取与表示。该主题社区的高频关键词有 knowledge、bibliometrics、network、linked data 等。改进多媒体信息特征的抽取与表示方法，可以优化多媒体信息检索中的语义差距问题[13]，获得更好地检索性能。该主题社区主要关注科技文献、学术会议视频等学术型载体中多媒体信息的特征抽取与表示方法，同时知识组织技术对研究作出了重要贡献，其可以在词汇控制、算法参数调整等方面优化特征抽取与表示过程，从而提高检索的准确率。代表性研究如 Dias 等[14]分析了 NASA 的知识组织系统在图像特征表示中的贡献，发现其能对由分众分类法描述的非受控术语进行有效的控制与规范，从而克服图像特征表示中存在的术语问题。

（2）图像检索。该主题社区的高频关键词有 image retrieval、classification、ontology、system 等。图像检索是多媒体信息检索的重要分支领域，该主题社区主要关注对图像检索的各环节提出优化方案，或提出检索性能更好地检索框架和检索系统。本体论是该社区研究中的主要指导方法，也有许多研究从图像色彩、语义网、关联开放数据、相似度和标签等角度开展。在环节优化方面，代表性研究如 Choi[15]调研了用户在进行图像检索时执行的查询修改模式和语义属性，发现查询修改模式与信息源类型显著相关，与图像格式、对象、位置和类型相关的术语是检索中最常见的语义属性，并基于此提出了改进图像索引的语义注释的意见；在系统设计方面，代表性研究如 Seco 等[16]提出了医学图像检索系统 Shangri-La，其设计重点是与文本相关的视觉信息的集成，通过集成图像模态信息，检索与视觉特征相似度较高的医学图像。

（3）元数据。该主题社区的高频关键词有metada? ta、library、indexing、digitization 等。作为非文本信息的文本化表达，元数据是多媒体信息检索的重要工具。该主题社区主要关注多媒体信息元数据的标准制定、生成与质量评估、描述水平与资源可检索性和可发现性、应用案例介绍等领域，也关注将元数据用于为多媒体信息编制索引。研究依托的背景主要是图书馆信息资源建设和多媒体信息（如历史档案、博物馆藏品）的数字化过程。代表性研究如 Rezende 等[17]介绍了巴西利亚大学医学院解剖博物馆馆藏的图像信息的索引编制过程，分享了元数据的定义，其涉及自然历史类型学、区域形态科学、专业人体解剖学三个领域的知识。

（4）检索模型与框架。该主题社区的高频关键词有 web、model、framework、deep learning 等。该主题社区主要关注多媒体信息检索模型与框架的构建，从建立基础设施的角度出发，将信息特征抽取与表示、数据存储、相关度计算等检索全流程合并到统一的模型或框架中，并验证其在检索性能上的先进性。同时，这些研究提出的模型与框架普遍融合了深度学习和机器学习技术。代表性研究如 Wang 等[18]提出了一个文化遗产图像综合深度语义注释框架，其通过将领域术语、本体、同义词、分类法和自然语言集成到多级结构中来描述图像，验证结果表明该框架可以在细粒度上满足文化遗产图像语义丰富和检索的需求。

（5）用户体验。该主题社区的高频关键词有behav? ior、digital libraries、users、design 等。用户作为检索的需求者与使用者，其检索体验是衡量检索性能的重要标准，其检索行为对检索系统的改进有重要指导意义。该主题社区主要关注以用户为中心，围绕用户开展的多媒体信息检索研究，其目的是提升用户的检索体验。这些研究的研究对象主要包括用户检索行为和檢索系统设计，其中检索系统设计又分为交互设计和用户界面设计两方面。许多研究都以数字图书馆作为背景开展。代表性研究如 Albertson[19]提出了一个以用户为中心的数字图书馆交互与界面设计框架，该框架概括了用户在不同情况下检索数字资源时的交互方式，并能指导和支持数字图书馆的资源设计决策。

2.3发展演进

2.3.1 主题演进历程

图3展示了2013～2022年图书情报领域多媒体信息检索研究的主题演进历程。总体而言，2013～2017年研究主题的持续性较弱，2017～2022年研究主题的持续性较好；在主题演进历程中，新冠疫情、数字人文、主题检索、交互性、深度学习等新兴研究主题不断涌现，这也印证了2.1节中对文献量自2017年起呈逐年上升趋势原因的推断。

演进历程中形成了“FRBRoo&本体论”“搜索引擎&评估”和“深度学习&机器学习”3个持续性较好的主题演进脉络，且演进中发生了主题分化：“搜索引擎&评估”研究于2017年分化为“信息搜寻&社会网络”研究和“文献计量&信息科学”研究，表明了搜索引擎作为研究用户检索行为的重要工具的地位。此外，“深度学习&机器学习”演进脉络于2021年演化为深度学习和大数据相关的研究，在与时兴信息技术接轨的同时，其演进强度为0.4，为各演进脉络中最高，具备持续演进的潜力。

最后，演进历程中也存在若干中断脉络和孤立主题，如2013年出现的“数字图书馆&多媒体信息检索”脉络演进至2015年则终止；“动画&查询分析”主题的规模较大，但之后并未受到关注，这是由于其中包含的主题不再是领域中的热点问题，或该主题的研究点被外界因素干扰而分散。

2.3.2 发展态势

表征主题社区发展态势的二维战略图如图4所示，可以发现图书情报领域多媒体信息检索研究的各主题社区发展态势对比鲜明：C2-图像检索位于第一象限，说明社区内部各主题的研究热度很高，社区研究框架亦发展至一定程度。图像检索作为多媒體信息检索的重要分支，是研究中的核心分支，且发展前景很好。 C3-元数据位于第二象限，且密度最高，发展最为成熟，但在多媒体信息检索研究中受到的关注有限，说明元数据研究具有独立的体系，与总体研究关联较弱。C1-特征抽取与表示位于第三象限，平均中心度和密度都最低，说明研究处于边缘化和体系松散的状态，可能的原因是随着多媒体信息检索理论的发展和技术的进步，其包含的主题已经不再是研究热点。C4-检索模型与框架和 C5-用户体验位于第四象限，说明研究正在快速发展，内涵在不断扩张，但主题社区内统一的理论框架仍有进一步完善的空间。

3结论与讨论

研究基于主题结构发现的研究方法，利用复杂网络计算、文本内容分析、科学知识图谱和时序可视化等研究方法，分析图书情报领域多媒体信息检索的研究态势，得到结论如下：

总体而言，2013～2022年图书情报领域多媒体信息检索的研究内涵逐步扩张，新冠疫情、数字人文、主题检索、交互性、深度学习等新兴的研究主题不断涌现。

在主题结构上，整体研究的向心性较强，主题间具有显著的聚合性与差异性，研究内涵范围较大，体系有待完善。研究可分为五个主题社区：特征抽取与表示、图像检索、元数据、检索模型与框架、用户体验。这些社区中的许多主题都涉及信息组织的原理与方法，表明了信息组织与信息检索间紧密的继承关系，信息的有序、规范化组织是进行高效检索的前提。

在发展演进上，“深度学习&机器学习”演进脉络与时兴信息技术接轨，演进强度在各演进脉络中最高，具备持续演进的潜力。图像检索是当前研究的核心，具有良好的发展前景。检索模型与框架、用户体验研究正快速发展，内部统一的理论框架有可完善的空间。

基于不同领域的视角开展研究，有助于深入分析更复杂的问题和信息流。本研究帮助确定了图书情报领域对多媒体信息检索研究的关注点与贡献，为研究人员理解图书情报领域多媒体信息检索的研究态势，尤其是其主题结构和发展演进，提供了客观且可靠的证据。

参考文献：

[1] 马费成，宋恩梅，赵一鸣.信息管理学基础[M ].武汉：武汉大学出版社，2018：212-256.

[2] Mooers C N. The theory of digital handling of non- numericalinformation and its implications to machine economics [ M ].Boston：Zator Company，1950.

[3] Rusi?ol M，de las Heras L P，Terrades O R. Flowchart recogni?tion for non- textual information retrieval in patent search[J]. Information retrieval，2014，17（5）：545-562.

[4] Hagen C B. A Proposed Information- retrieval System forSound Recordings[J].Special Libraries，1965，56（4）：223-228.

[5] 孙吉红，刘伟成，焦玉英.多媒体信息检索研究与展望[J].计算机应用研究，2008，25（3）：646-649.

[6] 薛向阳.多媒体信息检索研究进展：从检索到推荐再到生成[J].世界科学，2021，44（6）：29-31.

[7] 陈珊.国内多媒体信息检索研究进展[J].清远职业技术学院学报，2013，6（1）：69-73.

[8] Eck N J V，Waltman L. Software Survey：VOSviewer，a Com?puter Program for Bibliometric Mapping[J]. Scientometrics，2010，84（2）：523-538.

[9] Price D J. Citation measures of hard science，soft science，technology，and nonscience[J]. Communication among scien? tists and engineers，1970，1（1）：3-22.

[10] 田沛霖，赵蓉英，常茹茹，等.信息计量学研究的知识结构与发展态势[J].情报科学，2022，40（7）：186-193.

[11] Stegmann J，GrohmannG.Hypothesis generation guided byco-word clustering[J]. Scientometrics，2003，56（1）：111-135.

[12] RosvallM，Bergstrom CT.Mappingchangeinlargenetworks[J].PloS one，2010，5（1）：e8694.

[13] MacFarlane A，Missaoui S，Frankowska-Takhari S. On ma?chine learning and knowledge organisation in Multimedia In? formation Retrieval[C]//Proceedings of ISKO UK Sixth Bi? ennial Conference ：The Human Position in an ArtificialWorld：Creativity，Ethics and AI in Knowledge Organiza? tion. Nomos Verlagsgesellschaft，2020，47（1）：45-55.

[14] Dias D C，Moreira W，Alves R C V. The thematic represen?tation of NASA digital images on Flickr the contributions of knowledge organization systems [J]. Rdbci- revista Digital de Biblioteconomia e Ciencia da Informacao，2020，18（1）： e020011.

[15] Choi Y. Analysis of image search queries on the web：Querymodification patterns and semantic attributes[J]. Journal of the American Society for Information Science and Technolo ? gy，2013，64（7）：1423-1441.

[16] Seco de Herrera A G，Schaer R，Müller H. Shangri –La：Amedical case –based retrieval tool[J]. Journal of the Associa? tion for Information Science and Technology，2017，68（11）：2587-2601.

[17] Rezende L C，Ferreira J R，Manini M P. Index of digital im?ages anatomical：incorporation of a written for imagery[J]. Biblios：Journal of Librarianship and Information Science，2019，24（2）：27-37.

[18] Wang X，Song N，Liu X，et al. Data modeling and evaluationof deep semantic annotation for cultural heritage images[J]. Journal of Documentation，2021，77（4）：906-925.

[19] Albertson D. An interaction and interface design frameworkfor video digital libraries [J]. Journal of documentation，2013，69（5）：667-692.