基于内容的视频检索系统设计与实现
2019-04-26杨迪赵艳杰
文/杨迪 赵艳杰
1 引言
随着计算机网络技术与多媒体的不断发展,大量的视频数据随之产生,如何在大量的视频数据中找到自己所需的数据成为急需解决的问题,基于内容的视频检索技术成为研究热点。
2 系统框架
系统主要分为视频处理模块、数据库模块、视频检索模块。如图1所示。
图1:系统框架图
2.1 视频数据处理模块
该模块主要负责将原始视频进行处理后入库。先将原始视频进行镜头分割、关键帧提取,然后提取对应的特征,最后将多特征进行组织、分析及索引后入库。
表1:Video数据表
2.2 数据库模块
数据库主要用以存放视频信息以及特征信息,以SQL SERVER 为开发工具,主要有三张表:视频信息表、镜头片段表、以及关键帧特征表。下面简要介绍一下这三张表:
Video:为基本视频数据表,包含视频ID、文件名、文件路径及视频帧数。见表1。
Segment:为视频片段表,包含它属于的视频ID、自身ID、开始时间及结束时间、镜头特征。见表2。
MainFrame:为关键帧表,包含属于视频片段的ID、自身ID、关键帧存放路径、图像特征。见表3。
表2:Segment数据表
表3:MainFrame数据表
图2:系统初始界面图
2.3 视频检索模块
该模块主要负责提供给用户一个可视的检索界面,用户通过该界面输入待查询的视频或图片,通过提取特征与数据库内容匹配后完成查询并将结果显示给用户,若用户对检索结果不满意,可对显示结果进行反馈,通过用户反馈信息进而动态地调整多特征权值以达到理想的检索结果。
图3:视频入库实例
3 视频检索算法
检索内容可分为单一帧与多帧的视频。采用相关反馈算法。
图4:视频检索实例
3.1 特征提取
用户输入单一帧时,提取图像的HSV特征作为颜色特征,灰度共生矩阵以及tamura特征作为纹理特征,并对数据进行归一化,输入多帧时,在提取颜色、纹理特征的同时提取镜头长度,并进行归一化。
3.2 确定初始权重
3.3 计算视频相似度
mij表示为测度,采用欧式距离。
特征相似度:
总相似度:
S表示查询片段Vq与数据库视频Vs的总体相似性。根据S(Vq, Vs)得到数个与查询视频相似的视频片段RT。然后分别根据相似度FHSV、FGLCM、FTAMURA、Fshot得到四个视频集合RT1、RT2、RT3、RT4。用户反馈为score,值为[-1,1]内任一值,-1表示为不相关,1为相关。若RTi中某一视频片段在RT中,则Wij=Wij+score,否则Wij=Wij。然后对权值进行归一化:
4 系统界面与性能测试
4.1 运行界面
在这个系统中,用户可以存储视频,也可以对视频进行检索。初始运行界面如图2所示,当选择视频入库时,关闭初始界面,弹出入库界面,如图3所示,在此界面上可以进行视频的选择、播放、视频帧的获取以及视频信息的显示,进行操作时需连接数据库,然后进行关键帧提取,系统可直接将相关信息存入数据库内。
当用户选择视频检索时,弹出检索界面,如图4所示。在这个界面中,用户可以通过输入图像或视频进行检索,当返回结果不理想时,用户通过滚动条对查询内容进行评分(相关为1,不相关为-1),系统接收反馈信息后调整权值返回下一轮检索结果,直至检索结果符合用户需求,同时用户能对选中结果进行播放和查看主要信息。
4.2 性能测试
实验中,在数据库存储了40个视频片段,道路监控:17段,自然景色:12段,建筑及其他:11段,以matlab2015a为平台进行测试。用户可以选择查询视频或者单一视频帧,当结果不满意时,可进行反馈。在用户多次反馈之后,检索结果中部分其他类别的视频片段被移除,且顺序在前的若干视频片段与查询片段的相似程度最大,用户可以只关注结果中的前若干个视频片段。对于不同类型的视频,经过三次反馈都可以取得相对理想的结果。由于道路监控画面变换小,颜色相似,纹理单一,对于道路监控进行检索的效果较其他俩种类型的视频片段效果更好。
4 结束语
基于内容的视频检索具有广阔的前景,综合利用了数据库和计算机视觉研究领域中各方面的技术,是当前计算机视觉、视频数据库与数据挖掘等领域研究的热点。文章分别从系统框架、模块分析、运行界面对基于内容的视频检索系统进行了设计,并实现了视频文件的存储、视频检索、视频镜头分割、关键帧提取、系统设计等内容。在检索算法中采用了多特征与基于权值的相关反馈技术的结合,同时将检索内容分为视频片段和视频帧进行检索,测试结果表明:系统可自动提取信息存入数据库,且在进行检索时,经过用户的多次评分式反馈达到理想的结果。