基于镜头的广播足球视频开场和终场检测

2010-04-17施陈博王贵锦林行刚

电视技术 2010年8期

施陈博，王贵锦，林行刚

（清华大学电子工程系，北京 100084）

1 引言

足球作为第一大球类运动广为世人喜爱，录像机越来越多地用于足球比赛视频录制，以便日后观看和回顾。自动录制比赛时常常要预先设定将近3倍于比赛视频大小的存储空间，以确保所录制比赛的完整性。为节省存储空间，在录制节目的时候自动检测比赛开始和结束的准确时刻，对视频内容的分类、足球比赛视频的标定、回顾等后期处理工作很有意义。

目前，通过对开场和终场哨音等一些特殊音频的分析进行开场和终场检测的算法已被提出[1-2]。但是这种方法在音频噪声较大的情况下很难提取出关键特征，并且不是所有比赛都会有这样的特征。在基于图像分析的基础上，文献[3]利用检测比赛过程中的显示时间Logo来确定比赛实际时刻的算法。这种方法对Logo的检测准确率要求较高，由于不同的Logo形状颜色区别很大，并且有一部分比赛在开始和结束时不显示比赛时间，因此检测结果误差较大，并且检测算法也很难适用于大部分比赛。

由于足球比赛具有相似的场地特征，因此其算法可弥补现有算法的不足。基于足球比赛中镜头的检测和分类，提出用中层特征来检测比赛的继续和中断，并结合多维高斯分布的联合概率模型，高效准确地检测出比赛的开始和结束。本算法基于对比赛场地的分析，对与足球比赛场地相似的体育比赛来说，只要改变相应的镜头定义和分类方法，就可以扩展到其他比赛开始和结束的检测。

2 检测系统框架

广播足球比赛开始的时间常常与节目单预告的时间有较大的差别。例如世界杯决赛由于之前有闭幕式，实际比赛时间会推迟一段时间，而另一些比赛进行转播的时候比赛已经开始了。基于音频特征的算法不能很好地处理这些问题，而且并不是所有比赛开始时都具有特定的场地特征，比如中圈椭圆、运动员站位等，每帧处理的复杂度太大。综上，应选择以镜头为单位的检测算法。

对比赛开始和结束检测的完整框图如图1所示。对输入视频先进行镜头的检测和分类，然后进行特征提取，通过一组弱分类器，分别检测出可能的比赛开始和结束时刻，接着通过对得到的开始和结束时刻集合进行最大似然估计，最终选取最优组合得到准确的比赛开始和结束的检测结果。

图1 足球比赛开始和结束检测框图

将中间检测出可能的比赛开始和结束的时刻称作比赛的继续和中断时刻[4]。为保证检测到的比赛完整性，尽量保证检测的比赛开始时刻稍早于实际比赛开始时刻，而检测的比赛结束时刻适当晚于实际比赛结束时刻。

3 比赛继续和中断时刻的检测

3.1 基于镜头的特征提取

镜头（shot）是视频分析中常用的单位，是指用同一摄像机连续进行拍摄的一段视频。在足球比赛视频中，对视频图像的语义层分析大部分都是基于镜头的检测。在现有的文献中，根据图像中主颜色像素分布的统计[5]，将足球比赛中的镜头分为4类，如图2所示。

长镜头为对足球场地全局的视图，中镜头为对足球场地某特定区域的拍摄，特写镜头为对足球场地内运动员或裁判的特写；场外镜头为对足球场地以外的拍摄。

使用文献[6]中的算法，能够较好地区分长镜头、中镜头和特写镜头，改善镜头检测和分类效果。与一般的广告镜头相比，长镜头是足球比赛中最主要的特征。一般非比赛视频中不会长时间和高频率地出现长镜头。通过对大量足球比赛视频的统计可知，比赛中第1个长镜头的出现和比赛开始的平均时间差在30 s以内，因此将比赛的第1个长镜头作为检测比赛开始的标志是合理的。在检测比赛结束时，将没有长时间或高频率长镜头的出现作为主要特征之一。中镜头和特写镜头的检测能够消除比赛过程中由于球员受伤等引起的比赛短暂中断造成的误检，对提高比赛结束时刻检测的精度也很有帮助。

以每一个长镜头为窗口的开始，在一段相对长且长度固定的时间内统计各类镜头的数目和长度（见图3）。

图 3 中，W1，W2，W3，…为检测窗口，窗口的起始位置为长镜头，每个窗口的长度固定为T（实验中取T=5 min）。分别统计足球比赛和非足球视频中长镜头出现的频率和长度，提取出如下能够较好区分不同窗口的弱分类特征：F1为最后一个长镜头和窗口末端的时间长度，F2为该窗口中的长镜头总数，F3为该窗口中长镜头总的时间长度，F4为相邻两个长镜头之间的时间长度，F5为中镜头和特写镜头的总数。其中，F1是为了准确定位比赛中断的时刻，F2和F3是比赛进行中区别于其他电视节目的分类特征，F4和F5的作用是增加足球比赛进程检测的可靠性。

3.2 分类器

通过不同的分类器将长镜头分为3类比赛镜头：中断镜头、继续镜头和非关键镜头。中断镜头指比赛发生中断时所在的镜头。继续镜头是指比赛从中断到继续进行所在的镜头。其余镜头统称为非关键镜头。非关键镜头短时间内只存在于比赛过程中，因此对比赛起始和终止检测有用的主要为前两种镜头。由于比赛继续和中断在时间轴上必然是依次交错的，因此根据前一个有效镜头的类别，可以确定当前所要检测的镜头是继续镜头还是中断镜头。对这两类镜头的检测，采用上述特征的弱分类器的不同组成来实现对不同比赛镜头的检测。具体的分类器实现如图4所示，其余镜头都作为非关键镜头，不再进行分析和处理。

图4 继续镜头和中断镜头分类器流程

经过不同的比赛镜头分类器分类，可以检测所有可能的比赛继续和中断的长镜头。为了尽量保证检测到的比赛的完整性，根据当前长镜头前后一定范围内的镜头种类和数目进行细微调整：在检测到的继续镜头之前2～3个镜头中，如果出现中镜头和特写，则继续镜头位置适当前移；在检测到的中断镜头之后3～5个镜头中出现中镜头和特写，则中断镜头位置适当后移。这样能得到更合理的比赛开始或者终止的时刻。

4 最大似然估计模型

如图5所示，通过特征提取和对比赛继续中断的检测，得到比赛继续和中断的时刻序列L2。实际足球比赛在时域上存在一定的规律（L1），目的是要在L2中找到与真实比赛L1的最大似然估计，获得最为接近的时刻组合，L3就是最佳匹配结果。

检测到比赛开始的时刻集合为 S=｛s1，s2， …，sn｝，检测到比赛结束的时刻集合为 E=｛e1，e2，…，em｝。为简化问题，这里暂不考虑加时赛的影响。在集合S和E中各取2个点 si，sj和 ek，el，组合成有序序列。每个检测到的时刻可以认为是独立的，而相邻时刻的间隔需要满足实际比赛模型的约束。因此每组抽取的数据，通过联合概率分布来描述对实际比赛模型的估计。对于选取的每一组数据 X=（si，sj，ek，el），对模型的似然估计概率为

式中：pf，ps分别为所在时刻组合在上、下半场的概率，pm为其组合中场休息时间的概率。pm在不同录制的足球比赛视频中差别较大，所以在直播情况下，pm同样是高斯分布，联合概率中需要考虑pm的影响，而在一些剪辑过的比赛录像中，pm在（0，t）之间均匀分布。将所有对模型得到的估计和预先统计的门限概率相比较后取最大值，得到对模型的最大似然估计，来确定视频中是否为完整的比赛，同时也给出完整比赛的开始和结束时刻

式中：pth为统计得到的概率阈值；tfs，tfe，tss，tse为检测结果。

对50场比赛的上下半场的时间进行了统计。经过一次3阶的平滑后，得到对比赛长度的统计结果：前半场的峰值时间在46 min，而后半场的峰值时间在48 min，如图6所示。

利用高斯分布拟合统计结果。由于时间在峰值的两侧是不等同的，足球比赛规则是上下半场的时间为45 min，但一般的比赛要大于45 min，因此采用双边高斯函数来描述上下半场长度分布

式中：σf1，σf2，σs1，σs2分别为各边对应的方差。

5 试验结果与分析

试验中使用9场完整的足球比赛和30段包含部分足球比赛和无比赛的视频作为测试的数据集。为了证明该算法的稳健性，在选取的9场完整比赛中包含多种不同的场地和环境。比赛来源如表1所示。

实现文献[6]中的算法进行的镜头检测和分类，可以得到95%以上的检测率和5%以下的误检率。因为本文算法基于联合概率分布，这样的镜头检测率不影响对比赛关键时刻的检测率。首先对数据集上进行是否包含完整足球比赛的检测，误检率为0%，检测准确率为100%。结果说明了算法能够很好地区分完整的比赛视频。对这9场完整比赛的检测结果误差如图7所示。

由图7可以看到，比赛开始时刻的检测误差基本小于0，比赛结束时刻的检测误差基本大于0。检测误差最大约为2 500帧（约80 s）。误差的绝对均值最大值为749帧（约25 s）。下半场结束检测误差最大，原因是在比赛终场时会有较多的回放和特写等镜头，使准确的比赛结束点检测受到影响。视频数据中还包含转播时比赛已经开始的2场比赛，本文算法的结果令人满意。

6 小结

提出了一种检测足球比赛视频开始和结束的算法。通过对镜头准确的检测和分类，从中提取出比赛继续或是中断的时刻，再利用多维高斯分布检测出比赛的开始和结束。算法在现有的测试集上获得了100%的检测率，并且检测时刻误差均值小于30 s。由于该算法基于视频镜头分析，可扩展应用到对其他类型的体育视频分析中，也容易达到实时效果，特别是在实时比赛的录制和分析中具有实用意义。但是对于一般的足球集锦，本文方法还具有一定的局限性，在以后的工作中可以改进。

致谢：在此感谢Sony（中国）研究院对本研究的支持。

[1]RADHAKRISHNAN R，DIVAKARAN A，OTSUKA I.Sports program boundary detection[C]//Proc.ICME 2006.Toronto： IEEE Press，2006：1621-1624.

[2] TJONDRONEGORO D.The power of play-break for automatic detection and browsing of self-consumable sport video highlights[C]//Proc.MIR′04， 2004.New York：[s.n.]，2004： 267-274.

[3] LI Yiqun， WAN Kongwah， YAN Xin， et.al.Video clock time recognition based on temporal periodic pattern change of the digit characters[C]//Proc.IEEE ICASSP 2006.Toulouse， France： IEEE Press， 2006： 653-656.

[4] AHMT E，MURAT T.Generic play-break event detection for summarization and hierarchical sports video analysis[C]//Proc.Multimedia and Expo， 2003.Baltimore， MD， USA:IEEE Press，2003， 1：169-172.

[5] AHMT E，MURAT T.Robust dominant color region detection and color-based applications for sports video[C]//Proc.ICIP，2003.Barcelona， Spain： IEEE Press， 2003： 21-24.

[6] HAN Bo， HU Yichuan， WANG Guijin， et al.Enhanced sports video shot boundary detection based on middle level features and a unified model[J].IEEE Trans.Consumer Electronics， 2007， 53（3）：1168-1176.

施陈博，博士生，主研模式识别和人工智能；

王贵锦，副教授，主研视频处理与通信；

林行刚，教授，主研图像/视频处理与分析、视觉信息压缩编码及应用和模式识别。