APP下载

一种面向PVR应用的两级元数据存储检索结构*

2010-09-17韩洪波朱小勇

电视技术 2010年1期
关键词:关键帧音视频检索

韩洪波 ,孙 鹏 ,倪 宏 ,朱小勇

(1.中国科学院研究生院,北京 100039;2.中国科学院 声学研究所国家网络新媒体工程技术研究中心,北京 100190)

1 引言

数字电视的逐步普及使电视成为家庭娱乐和信息获取中最主要的方式之一。个人视频录像机(PVR)的出现改变了人们收看电视节目的方式,让用户可以录制、时移收看电视节目,不再受电视台广播计划的约束。随着节目制作、数字化和数字电视广播传输技术的逐渐成熟,数字电视节目内容日益丰富,再加上存储成本的不断下降,使得PVR可以录制存储的节目越来越多。因此,如何对这日益庞大的节目内容进行索引、搜索、过滤和管理成为新的技术要求。MPEG组织制定了致力于媒体内容描述的MPEG-7标准[1],TV-Anytime也定义了互动相关的结构和元数据描述方法[2],这些针对媒体内容描述的信息可用于建立对媒体内容的检索机制。然而如何对现在尚未使用这些标准的数字电视广播内容进行索引、搜索、过滤和管理,已经成为使用中的难题。有研究提出了一种基于XML的元数据方法来实现PVR应用中的存储和检索[3],也有人提出了支持基于片段的时移收看的高级PVR结构[4]。

笔者基于EPG和音视频数据帧显示时间标签(PTS)提出了一种面向PVR应用的两级元数据存储检索结构,并在此基础上,设计了PVR应用中的节目录制、内容检索、时移电视以及对已录制内容的非线性回看的实现方法。

2 两级索引元数据存储结构

目前国内正式运营的数字电视节目内容主要以MPEG-2传输流(TS)的方式广播下发。通常一个频点的TS中会复用多路节目。通过对特定频点的TS进行解复用可以得到复用在该频点中的各路节目的音视频分组原始流(PES)和EPG信息表,通过PES分组头解析可以得到PES中各帧的显示时间标签(PTS)。把要录制的电视节目的音视频PES打包成TS格式存储下来,并基于EPG信息和PTS信息为之建立起两级索引结构。

2.1 两级索引元数据语法结构

EPG是数字电视的重要特性,数字电视接收终端均可利用DVB-SI表信息建立“频道-时间-节目”形式的电子节目单[5]。参照DVB中传递EPG信息的PSI/SI表的内容[6],定义一级索引元数据语法结构如下:

其中shortDescriptor和longDescriptor可以从事件信息表(EIT)中提取。

根据MPEG-2标准,音视频数据解码和显示通过相应的时间戳来控制,以实现唇音同步。而音视频数据帧的PTS是该帧声音或图像呈现给用户的相对时间[7-9]。基于视频关键帧的PTS定义二级索引元数据语法结构如下:

2.2 音视频数据存储结构

音视频数据按照TS格式存储,通过二级索引元数据可以对音视频数据进行分段。如图1所示,IV0,IV1,…,IVN为TS中的视频关键帧;FV0L,FV1L,…,FVNL为相邻视频关键帧间的非关键帧和音频数据的集合;定义SegV0,SegA0,SegV1,SegA1,…,SegVN,SegAN为数据片段,则数据片段是音视频帧的集合,数据片段的第1帧为视频关键帧,其余为非关键帧和音频帧。

图1节目TS数据存储结构图

2.3 两级索引元数据的建立和更新策略

PVR录制节目时,通过解析SDT表和EIT表可得到当前播放节目的节目描述信息以及节目的开始和结束时间,从而为录制的每个节目建立“存储位置+节目描述+二级索引”的一级索引信息;在将音视频PES数据打包成TS之前对PES头进行解析,可以得到视频帧的PTS信息,从中抽取关键帧的PTS以及关键帧存储到TS中的位置为每个节目建立“关键帧位置+关键帧PTS”的二级索引信息,这样就为录制的节目建立了两级索引信息。DVB节目会有切换,即当前节目结束,下一个节目开始。根据EIT中当前节目的开始结束时间可以预测当前节目的开始和结束,从而保证在节目发生切换时及时为新的节目建立新的两级索引项。

3 两级索引元数据存储结构的应用

采用上述的两级索引元数据存储结构可以高效的实现时移电视、节目录制和检索以及节目内容的非线性回看等功能。

3.1 节目录制

PVR录制节目时,使用解复用模块将想要录制的节目的音视频PES数据从复用了多路节目的TS中提取出来,经PES分组头解析可以得到视频数据帧的PTS以及各视频帧的起始位置。把音视频数据打成TS写入本地存储,同时利用过滤得到的PSI/SI信息表以及视频关键帧的PTS和存储位置按照2.3中描述的方法建立和更新两级索引元数据,并将用户想要同时观看的节目的音视频PES数据送给播放器解码播放。

图2为PVR录制与观看节目时的系统结构图。复用了多路节目的TS数据被送入解复用(DEMUX)处理器,DEMUX 通道【1】,【2】和【3】用于提取用户想要观看的节目音视频 PES数据和 PCR 信息;DEMUX 通道【4】,【5】和【6】用于提取要录制的节目音视频PES数据和PCR信息;PES解析器从视频PES数据中解析出各视频帧的PTS,将视频关键帧的PTS送给两级索引引擎;TS打包器将音视频PES数据打包(需要更改音视频数据及PCR的PID,用于时移时使用)成TS后写入到本地存储,并将视频关键帧的存储位置反馈到两级索引引擎;DEMUX通道【7】用于过滤流中的PSI/SI信息表,将得到的SDT和EIT提交给两级索引引擎。

图2 PVR录制结构图

3.2 内容检索

通过录制时建立的一级索引元数据,PVR系统可以建立本地存储中已录制内容的一级节目索引 (“节目描述-二级索引-音视频数据”方式的本地电子节目指南)。通过一级节目索引,PVR系统可快速定位其中的某个节目的存储位置,并得到该节目的二级索引元数据,建立该节目“视频关键帧位置-关键帧PTS”的二级索引结构,从而建立了PVR内容的两级索引结构,如图3所示。根据2.2分析,该索引列表也可以看作是“PTS-数据片段存储位置”的索引表,其中PTS为数据片段第1个视频关键帧的PTS。

图3两级索引结构图

3.3 非线性回看和时移电视

非线性回看是指用户可以随意选择节目内容中某个时间点作为下个要观看的画面,如快进、快退、暂停和跳进等操作是非线性回看的常用方式。当用户回看某个节目时,可以根据二级索引元数据在内存中建立该节目的“PTS-数据片段存储位置”索引表。图4为节目非线性回看示意图,其中ST为节目内容播放进度时间轴,STr0和STr1为两个随机时间点,ST0为回看起始点,STe为回看终点。该节目共有(n+1)个数据片段,第1个和最后1个数据片段的关键帧PTS分别为T0和Tn。

图4 节目非线性回看示意图

式中:αn为最后1个数据片段的播放时长,单位为秒(s);F为显示标签时钟,多为90 000 Hz或45 000 Hz,由节目制作方在内容编码时决定。回看时,假如用户要求下一画面播放节目STr0时刻的数据,可以通过“时间-数据片段”索引快速定位到STr0所在的数据片段m。因为该索引表中的PTS值是递增的,所以可使用二分法进行定位,其时间复杂度为θ(lbn)。片段m满足如下条件

由图4可得如下关系式

因为数据片段的第1帧为视频关键帧,而且每个音频帧都可以独立解码,所以所有数据片段都可以独立解码。数据片段中除第1帧外的其他视频帧都不是关键帧,所以不能被独立解码。如式(3),(4)所示,用户想看到的画面必然包含在数据片段m中。通过二级索引项可快速找到数据片段m,并解码播放,即完成了该非线性回看功能。这里会有一段用户没有要求看到的画面,其持续时间应小于αm,αm为数据片段m的播放时长。

时移观看是指用户在收看DVB实时节目时可以暂停、快退,并可对已过时的节目进行非线性浏览。时移观看是PVR录制和内容回看的有机结合,它是DVB实时节目收看和已录制内容非线性回看的无缝衔接。

如图5所示,用户观看实时节目时,播放器直接播放DEMUX 通道 【4】,【5】,【6】提取的实时节目音视频 PES数据,同时PVR将这些数据写入到本地存储并建立两级索引元数据;当用户选择暂停时,系统记录下正在播放的视频帧PTS,利用两级索引快速定位到该PTS指向的数据片段,在用户选择播放后,从该数据片段开始回看本地存储中录制下来的内容;当用户选择快退操作时,用户从已录制下来的最后1个数据片段开始向前以用户要求的倍率逆序回看本地存储中的各个数据片段;当用户选择向前跳转操作时,系统使用用户选择的时间换算成PVR录制时的PTS,并快速定位到本地存储内容中的相应数据片段,从该片段开始正常播放。时移观看时PVR录制在同时进行,本地存储的节目内容实时增长。当快进操作到达节目的实时进度时,播放器重新开始播放DEMUX通道【4】,【5】和【6】提取出的实时数据。 在播放已录制内容时,DEMUX 通道【1】,【2】和【3】用于对已录制的 TS 的解复用。

4 小结

提出了一种基于EPG和PTS的两级索引元数据存储结构,适用于采用MPEG-2标准的数字电视节目的PVR应用。与文献[3]相比,该架构只需利用当前数字电视广播流中的信息即可建立,适用于目前的数字电视系统。与文献[4]相比,该架构的一级内容检索精度同样可以精确到每个节目,而二级检索则可以精确到每个视频关键帧,可用于提高非线性回看的精度。笔者采用Sigma Design的EM8623高清平台,结合上海高清的HD2812解调芯片,采用上述两级存储检索结构及相关方法,设计实现了一款面向国标地面广播高清数字电视的PVR机顶盒,证明了该结构及相关方法的有效性。

图5 PVR时移播放结构图

[1]CHANG S F,SIKORA T,PURI A.Overview of the MPEG-7 standard.circuits and systems for video technology[J].IEEE Trans.Circuits and Systems for Video Technology,2001,11(6):760-764.

[2]TV-Anytime Forum[EB/OL].[2009-10-12].http://www.tv-anytime.org/.

[3]SHIN H.A storage and retrieval method of XML-based metadata in PVR environment[J].IEEE Trans. Consumer Electronics,2003,49 (4):1136-1140.

[4]LIM S Y,CHOI J H,SEOK J M,et al.Advanced PVR architecture with segment-based time-shift.consumer electronics[C]//Proc.ICCE 2007.Las Vegas,NV:[s.n.],2007:1-2.

[5]GY/Z 230—2008,数字电视广播业务信息规范[S].2008.

[6]EN 300468 v1.6.1,Digital video broadcasting (DVB); specification for service information (SI)in DVB systems[S].2004.

[7]ISO/IEC 13818-1,Information technology-generic coding of moving pictures and associated audio information-part 1:systems[S].2000.

[8]ISO/IEC 13818-2,Information technology-generic coding of moving pictures and associated audio information-part 2:video[S].1995.

[9]ISO/IEC 13818-3,Information technology-generic coding of moving pictures and associated audio information-part 3:audio[S].1998.

猜你喜欢

关键帧音视频检索
Microchip推出首款车载以太网音视频桥接(AVB)全集成解决方案
3KB深圳市一禾音视频科技有限公司
WIFI音视频信号传输的关键问题探究
基于改进关键帧选择的RGB-D SLAM算法
高速公路整合移动音视频系统应用
基于相关系数的道路监控视频关键帧提取算法
专利检索中“语义”的表现
基于聚散熵及运动目标检测的监控视频关键帧提取
一种基于自适应关键帧的视频序列拼接方法
国际标准检索