音视频检索系统的研究与实现
2018-05-24何丽媛
何丽媛
内蒙古新闻出版广电局监管中心 内蒙古 呼和浩特市 010050
引 言
当今,互联网音视频节目正在以前所未有的速度发展着。这些互联网音视频节目中所包含的图片、视频和语音等多种信息也在大量且迅速的传播着。随之而来也产生了许多问题,其中,用户如何迅速准确的在海量信息中获取自己所需的内容是一个可以不容忽视的方面。由此,音视频检索系统应运而生,为用户提供了文本检索、视频检索、音频检索等多形式的检索查询服务。音视频检索系统主要由文本检索模块、视频检索模块、音频检索模块三部分组成。音视频检索系统以舆情信息、音视频节目数据库为基础,建立包含关键字、视频样例、音频片断、说话人、文本说话内容等在内的多模态检索方式,从而实现对各类信息综合检索功能。
1 文本检索模块
文本检索模块的主要功能是,当用户需要查看某些音视频节目时,只需要在检索框中输入想要查询的音视频节目的关键词,即可检索出相关音视频节目。信息检索系统平台是基于文本数据索引之上而建立的。信息检索平台的建立,可以让系统操作维护人员能够针对某些特定的关键词或者某些特定主题,进行实时、高效、智能的检索。进而通过检索出来的信息了解掌握当前互联网音视频节目的发展动向。
文本检索子系统的构架,如图1所示。
图1 文本检索子模块系统结构图
文本信息检索系统的整体结构包括四个部分,分别是:数据预处理与分析模块、索引系统模块、查询系统模块、结果生成模块。这四个模块合作运行,其功能可以满足不同用户的各类检索需求,并可以为用户提供既高效又准确的检索结果。
2 视频检索模块
视频检索模块分为关键字检索和特定片段检索两个独立模态的检索。
关键字检索,要对视频节目抽取例如如网页描述,语音脚本等这样的文字描述。与此同时,系统需要完善文字与时间的对应关系,建立起一个完整的索引结构。并以该索引为基础,在后续的检索过程中,可以快速准确的找到所有包含所查询关键字的视频文件及其所对应的时间。
特定关键帧的检索,是把特定片断转化为一个关键帧。特定关键帧的检索,其实就是特定片断检索的一个特例,如图2所示。
图2 特定片段检索模块结构图
视频解码模块:采用解码器对目前互联网上最为主流的文件格式和各类编码方式处理进行处理。
特征抽取模块:其作用是以帧和镜头为单位,将特定的底层特征抽取出来。
镜头划分模块:通过判断出镜头边界技术,把一个完整的视频划分为若干个零散的镜头。
建立索引模块:建立各个镜头的特征索引,一般采用SR-Tree 等索引结构或者hash 方式来完成。
检索模块:当用户向系统提交了一个视频片断所对应的特征信息时,系统就会运用之前离线生成的索引,精确找到所有包含了此片断的视频节目,并显示其相应的位置。
检索结果以网页形式表现,其中包含结果视频的摘要链接用于显示该节目的摘要,保存链接用于转存该节目。并且在网页中内嵌mplayer 等播放器对象,用户在网页内观看该节目。根据检索结果的URL,可以查看该节目在互联网上的分布情况。
3 音频检索模块
音频检索模块的作用是当用户在系统界面提交了一个关键词、特定音频片段、特定说话人的语音样本时,系统就会对范围内所有的音频节目进行对应的检索。在检索结束之后,向用户返回全部包含了查询内容的音频节目。用户可以通过网页界面,查看播放查询结果,同时可以将查询结果下载转存。
音频检索模块运用网络内容搜索技术,将互联网上的语音节目所包含的音频文件下载到本地计算机上,之后将这些下载下来的音频文件集合起来,建立起一个本地音频库。再借助语音和音频检索系统来响应用户的查询,将所查询的音频信息与音频库里的信息进行对比,最后把检索出的相关信息反馈给用户,如图3所示。
图3 互联网语音/音频信息监测系统示意图
对于图3中的特定内容的语音/音频信息检索系统来说,一般通过预处理阶段和检索阶段两个阶段来实现。
预处理阶段:预处理阶的作用是负责对音频库中的原始音频数据进行预处理,将其结构化成易检索的“音频元数据”的形式。“音频元数据”事实上是一种对原始音频数据内容的紧凑表示,是一种用来描述原始音频数据的数据。预处理阶段最终输出的是一种被称为“元数据”的数据形式。“元数据”由音频特征、识别得到的音素图、说话人的分析结果这三项所组成。在预处理阶段,特定内容的语音/音频信息检索系统是在元数据的基础上建立音频内容索引的。
检索阶段:特定内容的语音/音频信息检索系统的检索阶段,用户输入不同的查询条件,系统只需在预处理阶段生成的“元数据"内容索引中,利用相关的元数据就可以完成对用户所需内容的检索。
结 束 语
音视频检索系统作为一种综合检索模式,可以为上级领导和业务部门提供多模态的查询,以便于监管部门及时掌握舆情信息、视听节目的传播趋势与动态。为互联网音视频节目的监管工作提供了有效的技术支持。