计算机多媒体中信息检索查询与反馈技术研究
2021-01-16张帆,单艳
张 帆,单 艳
(国家计算机网络与信息安全管理中心新疆分中心,新疆 乌鲁木齐 830017)
0 引言
检索信息过程中,用户输入的检索内容通常是关键词,十分短小,在信息对比方面,其检索结果对用户需求无法进行满足,往往会产生各种问题,如不全面检索、错查等。因此,为促进查询精准度的提高,有必要加强研究多媒体信息检索中查询和反馈技术。
1 计算机多媒体信息检索概念
计算机多媒体信息检索是检索方法之一,各种媒体、语义环境是其重点检索目标,比如,视频中展示的场景、亮度、声响等,图像中色彩、纹理等。传统检索技术的基础是文本,具有一定限制性,而内容基础的检索有效弥补传统检索技术不足,通过对图像、视频、音频的研究和分析,快速筛选出来特征及语义,借助筛选内容建立检索框架,实现检索目的。基础检索技术内容广泛,主要有鉴别模式、处置图像、图像理解等的方式,从而促进多种技术的合成[1]。
2 多媒体信息检索技术
2.1 图像检索技术
2.1.1 分类图像通常情况下,可以划分图像为三个层次,分别是像素层、纹理层、内容层。其中最简单的是像素层,它只负责对比图像的像素;进一步提炼象素之间联系,以像素块表达内涵为依据开展分类工作,称之为纹理层;通过语义描绘图像纹理之间联系,能够促进内容层的产生,借助内容层描绘,可以将指定图像从待查询图片中筛选出来。
2.1.2 分类图像属性
根据LAYNE分类模式,可以将属性划分为四种:第一,历史属性。简单说就是历史记录,如创作图像的人员、创作图像时间等。第二,主体属性。对图像语义主题的描绘。第三,表现属性。主要指图像中展示出的信息内容。第四,关系属性。将图像与图像之间的重要关系展示出来。
2.1.3查询图像
提取图像特点是查询最重要的内容,具体是底层特点与高层特点。以内容为基础的图像检索技术,简称为CBIR,它借助图像特点,将索引构建出来,促进查询语义的形成,进而开展搜索匹配工作。部分CBIR系统以直方图形式来对颜色进行统计进而实施查找操作,最突出的表现是以图像中出现的颜色频率为根据,将图画归纳出来。
2.1.4 评估性能
应用查到率与查准率评估CBIR系统性能。研究人员为此提出两个判别指标,分别是检索优良性、有效性。对于优良性而言,主要指系统能够满足使用者多大程度的期望,以及对系统查询构建出来的主观评价。评估人员认为系统检索信息的精准性影响优良性。
2.2 音频信息检索技术
在音频检索技术上同样可以应用图像定义的标准化、分类属性、系统评估问题等讨论观点。然而,不同于图像的是音频数据还具有自身独特的特点:第一,音频数据以听觉为基础,并不以视觉为基础。第二,音频数据需要依靠时间。接下来主要从以上两个方面探讨音频数据的检索技术。
2.2.1 音频查询
对于音频查询而言,想要实现匹配检索,必须转变听觉查询条件,使其形成数字格式。以Bainbridgeetall系统为例子,它通过对频率分析法的应用,转变听觉输入,形成音乐乐谱形式,之后通过对两个乐符之间距离的比较,获得匹配情况。另有研究人员采取其他方式解决这个问题,借助三个或五个字母表,转变输入,使行距轮廓线得以形成,行距轮廓线能够将各个字符变化的间距表现出来,但是想要将音频信息表达出来,还需要将表示节奏的比较时间轮廓线增加进来。然而,如果出现遗漏错误,还需要全面而深入的分析这些错误,将错误发生率研究清楚,增加匹配算法的容错度。除此之外,通过对容错抽象方法的使用,音频检索系统还能够提高查询效率。
2.2.2 播放音频数据
相关研究主要是在音频数据库中开展浏览与导航工作。从内在特点来看,音频数据是一种依靠时间的听觉数据流,并没有标准化的结构描绘存在于这些流的时间相关点中。其他研究者这样进行描绘:使用者对某个音频文件进行浏览时,需要以音频数据流当前定位为基础,进而实现超链接系统,借助超链接,将有关资源筛选出来,此导航系统以内容为基础,可以将一个有价值的结构提供给无结构的音频文件流。
2.3 视频信息检索技术
对于视频信息而言,从视觉角度看,它与图像检索具有很多相似之处,但是视频信息也必须依靠时间,为此可以对音频数据的处理方法进行借鉴。
2.3.1 查询视频
研究人员利用VISON系统提出镜头分割法,具体是分离视频数据流中镜头,进而结合相邻镜头,促进某个场景的产生,这与图像数据的分割比较相似。此技术的核心与关键是将镜头图形之间的不同点找出来,为此,可以充分利用颜色直方图的显著改变,进而对镜头的改变进行推理。这和以内容为基础的图像检索技术比较相似,另外,分割方法还可以利用抽取镜头运动特点法。
构造一般场景主要有三个程序,分别是探测镜头边界、提取镜头特点、汇聚镜头。这仅仅研究了镜头图像。对于VISION系统而言,借助同步的音频轨道,可将线索找出来,进而划分场景,这样在音频信息辅助作用下,能够将规则提取描绘出来。比如,当改变一个镜头时,说话者也相应发生一定变化,这表明新的场景产生了。借助划分这些相似的规则,VISION可以正确分割很多场景。VISION还有另外一个特点,就是通过对字幕信息的利用,可以划分视频信息。通过对具有较强理解力文本处理技术的使用,可以将重点词句提取出来,这将准确的原数据信息提供出来,对分类十分有利。然而需要注意的是想要连续识别音频流中的信息比较困难,因此,必须对音频流中的重点词语进行选择性的识别。为此提出了关键帧,主要为了解决镜头方法问题,但是其分析也是以内容为基础。关键帧可以将一段流中的语义图像表达出来,与一个场景十分相似。在关键帧判断方面,大部分视频检索系统应用算法,可以判断关键帧的是颜色特点与运动信息,抽取关键帧还可以对图像检索技术的特点描绘进行参考与借鉴。
2.3.2 播放视频
如果关键帧可以将视频文件内容全部反映出来,通过对这些关键帧的充分利用,则可以将一个摘要为这个视频文件作出来。VISION系统通过对这种时间模型的应用,借助提供的关键帧缩略图或者用户选择的缩略图可以将视频信息播放出来。
3 计算机多媒体信息检索查询技术
3.1 跨媒体查询技术
随着网络媒体的不断进步,有机结合多种不同路径的音频、图文、视频等,交错在一起的数据,形成新型媒体展示方式,也就是跨媒体。对于跨媒体而言,使用者查找的信息是其环境媒体对象,检索系统功能强大,一方面能够返回同样种类一致媒体对象,另一方面还可返回不同种类媒体对象,从而将完整多样化信息目标展现出来。以图像的利用为例子,在此过程中,能够将有关语义的音频、视频片段等寻找出来。想要实现跨媒体查询,就要使不同媒体之间差异性不断下降,最大程度挖掘出不同媒体的协同效应和语义关联性,使相似性度量和一致性表达得以建立,最终将跨媒体信息查询和处理模型构建出来[2]。
3.2 交互式查询技术
便捷、高效是交互式查询技术的明显优势,它作为一种有效方法可以使用户将检索需求清晰表达出来。对于传统多媒体检索方式而言,主要进行示例或者结合查询框,但是,新型视频检索系统则有很大差异,可以实现用户关键词重新组合后的查询目标,系统会展开自动化推荐,将一些密切联系查询词的语义概念提供出来。
对于移动设备而言,其查询图像具有的前景十分丰富,其背景极具复杂性,导致搜索系统在寻找信息时缺少针对性。考虑到存在的各种问题,通过对智能设备自身交互便利性的充分利用,研究员将部分查询方法研究出来,用户可以实现对示例的交互查询目标,将检索目标确定下来。例如,部分研究者将交互式查询方式设计出来,运用不同方式如裁剪、画线、套索等,用户可以将图像中感兴趣的目标圈出,为查找目标提供方便。另一方面,一些学者将基于数码相机拍照的食品检索系统研发出来,另外一些研究人员在分析基于手机街拍的服装检索功能等[3]。
3.3 推荐式查询技术
关键字查询是一种使用广泛的查询方法,主要应用视频或者图像开展实施检索操作,检索系统以使用者输入重点词句为依据,开展查询与索引工作,以相关性为依据,排序并展示查询结果。然而,用户输入关键词往往不能将查询意图精准表达出来,究其原因,主要是:第一,关键词数量较少,具有有限的信息表达能力;第二,有歧义、模糊问题存在于查询词中;第三,对于所要检索的目标,用户通常不能将精准查询词构建出来。上述情况导致查询系统对用户意图进行了解时具有较低准确性,因而搜索到的结果不能使用户满意[4]。
针对图像或视频传统检索系统,需要对文本检索推荐查询技术进行参考,充分利用各种数据,将适合的分析模型设计出来,对数据中重点词语的语义联系展开深度开发,进而形成备选查询词语,支持使用者快速筛选到自己需求的信息。首先,以文档推荐为基础的查询技术,借助统计模型对包含查询词的文档数据或人工编辑语料进行挖掘,筛选出来有价值词句,通过这些词句,可以锁定有价值的内容。其次,以日志查询为基础的查询技术,有效运用引擎搜索功能,研究查询日志,将信息之间的关系挖掘出来,从而构建推荐的查询内容,例如关键词查询、搜索结果点击等,查询关联性都包含在查询日志内,借助分析不同查询关系,计算查询间关联程度,对查询推荐发挥指导作用[5]。
4 反馈技术
4.1 相关反馈技术
为了使检索精准度提高,可以在检索程序中增加使用者反馈信息。当输入查询信息之后,如果使用者仍然需要继续检索,可将当前检索内容作为依据,标注出一些与检索目的相关或不相关的样本内容,进一步明确使用者需求,系统根据使用者反馈信息,对检索模型进行改变,最后使检索结果得到更新。这样能够提高系统理解能力,使其对无关样本的出现发挥抑制作用,增加检索结果中相关样本的响应度,对用户检索需求进行很好满足[6]。
近几年,相关工作人员将机器学习理论融入反馈技术中,增加检索功能,实现监督学习目的,同时建设出来机器学习模型,根据使用者样本训练模型,发挥指导作用,产生全新检索结果。一些研究者以支持向量机主动学习模型为依据,研究出来反馈计算方法,但是想要让使用者接收到反馈标志,还需要将与支持向量机分类边界信息选择出来,从而大大减小模型解释空间尺寸,通过对较少数量使用者反馈信息的利用,将最大化信息效益获取到。另一些研究人员提出全新的主动学习算法,它的依据是样本分布结构,能够描绘样本局部几何结构和接近样本语义的相似特点,对样本模型改变与优化作用进行估计,并且对样本相关度、多样性等信息进行充分考虑,将最佳待标注样本提供出来,让用户开展相关标注,这样需要的用户标注很少,促进模型性能大幅度提升[7]。
4.2 属性反馈技术
在反馈技术大力发展的带动下,极大提升多媒体检索水平能力。然而,仍然有很大差距存在于人类高级别认知语义及计算机低层次感知特点中,对多媒体分析数据解能力和检索系统构造准确性产生巨大影响。想要将此方面差异逐渐减少,研究人员在对图像视频内容进行描述时,选择视觉属性中层语义,这样有利于奠定有利条件,实现结合高级别语义和低层次特点目的。视觉属性是指存在于对象自身的一些特征,重点对构成对象的状态、外形等进行描绘。视觉属性比语义含义容易理解,同时利用起来比较简单,通过对低层次特点的运用,就可以将模型构造出来。因此,工作人员可以总结出来一些构造模型方式,并且将属性模型确定下来,也就是基础输出,将图像特点概括出来,进而表示出来中层语义,以便在分析和检索中应用。
4.3 隐蔽式反馈
此反馈技术可以促进系统检索性能的有效提升。用户检索历史和交互行为是反馈的主要数据来源,通常包括停留页面时间、网页点击、查询输入等,通过隐藏的用户喜好,可以将了解用户检索目的的线索提供出来。当前有大量噪声存在于隐式反馈数据中,对比其他反馈数据,精准度较低,然而,实际应用过程中,其对数据的反馈内容更为丰富,有大量隐式反馈数据存在于检索系统中可以应用于多个场景。此外,隐式反馈对于用户反馈检索结果并无需求,这就使用户操作负担大大下降。
5 结束语
总而言之,对于计算机多媒体信息检索而言,通过对检索技术、反馈技术的高效应用,可以实现联系语义目的,这能够对用户检索需求进行更好满足。现阶段,计算机多媒体信息检索中查询技术和反馈技术极为有限,与此同时,很多技术都处于研发初始状态,这就要求必须加大研发力度,使数据查询准确性和可靠性得以提高,从而将更好的信息服务提供给用户。