基于聚类算法的视频内容识别研究
2018-01-22陈双全
陈双全
(武汉船舶职业技术学院电气学院,湖北 武汉 430050)
1 引言
面对海量视频上传请求,有限的审核员配备条件,不可能让审核员将视频认真从头看到尾,这就为不良人员提供了在正规视频中插播非正规内容的机会。而机械识别效率和准确率仍然不能满足工程应用的要求。因此本系统提出了针对视频兴趣度排列组合的K-MEANS改进聚类算法识别违规视频,保证互联网视频内容的健康性。
2 视频结构分析
从视频数据形成的角度来看,按照形成过程首先视频内容包含了多个视频的图像帧,由一连串图像帧构成了一个镜头,再由多组镜头构成了一个场景,最后由多个场景片段组成视频。在进行视频结构化处理时,视频流、场景分割、关键帧提取等都可以作为视频内容数据分析的组成部分。由此可见,视频内容识别有别于一般数据结构性的关联关系,视频内容非结构化特征更为明显。
3 视频内容检索技术
3.1 镜头分割
对于一段视频的内容识别要首先对其按照视频拍摄时的镜头进行分割,无论是影片还是短视频,都是由多个镜头组合而成,即使采用长镜头进行拍摄通常也不会大于10分钟。所以,在对镜头进行分割时要从镜头切换点进行分割,将视频划分出若干个镜头的组成。镜头与镜头之间存在滤镜的过渡,在分割时要准确把握滤镜的切入点与切出点,由此进行平均分割以达到镜头分割的准确性。
3.2 关键帧提取
镜头分割完成后,每一个镜头都包含一连串的图像帧,图像帧以图像片段的形式存在,通过帧的滚动实现图像的连贯性播放。图像帧作为视频内容的基本组成单元,进行镜头图像内容的聚类可采用有帧平均法和直方图平均法进行关键帧的提取。有帧平均法是对一组连贯的图像帧以图像内容相似度聚类的平均值所属关键帧图像作为图像内容进行识别,直方图平均法是对镜头中图像坐标像素数的平均值作为图像内容进行识别进而得到关键帧的图像。
3.3 视频内容聚类
对提取出来的关键帧图像按照图像特征数据库进行比对分析和聚类计算,图像特征数据库作为图像内容识别的基础,其包含了大量的非结构化图像特征,可通过对图像特征的累计不断丰富图像特征数据库的内容,由此提高视频内容识别的准确度。
4K-MEANS聚类改进算法
4.1 视频内容识别算法
现有视频内容识别算法主要包括:K均值模糊聚类算法和C均值模糊聚类算法。基于K均值聚类的视频内容识别均值算法模型如下:(1)选取K个聚类中心作为视频内容样本的K均值聚类
(3)计算视频内容样本各聚类中心的新向量值:
式中nj为Sj所包含的样本数。
K均值伪代码如下:
设定聚类数目K,最大执行步骤tmax,一个很小的容忍误差ε>0决定聚类中心起始位置Cj(0),0 实现原理是:设有视频内容像素点X={x1,x2,…,xn} ,将它分为c类,uik为xk对第i类的隶属度,用一个模糊隶属度矩阵U={uik}∈Rcn表示分类结果,必须满足: 通过最小化关于隶属度矩阵U和聚类中心V的目函数Jm(U,V)来实现: 其中,U={uik}为满足条件(1)的隶属度矩阵,为c个聚类中心点集,m∈(1,+∞)为加权指数,当m=1时,模糊聚类就退化为硬C均值聚类。 第k个样本到第i类中心的距离定义为: (1)初始化视频内容样本的聚类中心V={v1,v2,…,vc} ; (2)用随机数的方式初始化视频内容样本的属性度量矩阵; (3)计算C均值聚类算法的视频内容样本的隶属度矩阵: 其中,A为p×p的正定矩阵,当A=I时,即为欧氏距离。 C均值聚类算法的聚类模型描述如下: (5)重复步骤三和四直至公式6的结果处于收敛状态。 C均值聚类伪代码如下: 输入:总数K,尺度tmax,误差ε>0,起始位置Cj(0),0 针对现有的K-MEANS算法在流媒体视频中的聚类结果往往趋于孤立点的问题以及时间复杂度为O(n2)不利于对流媒体系统中大数据量的挖掘的问题,本文采用的是基于排列组合思想的K-MEANS聚类改进算法。 K-MEANS聚类改进算法的设计流程:For i=0;i if(e∈E){//如果待测元素e属于极大聚类集合 本文对现有视频内容识别算法进行分析,包括:K均值模糊聚类算法和C均值模糊聚类算法,提出了基于改进的K-均值聚类算法的视频内容识别设计思想,并通过算法的设计流程完成对K-MEANS聚类改进解决流媒体视频中的聚类结果趋于孤立点的问题以及时间复杂度为O(n2)不利于对流媒体系统中大数据量的挖掘的问题,该方法基于排列组合的K-MEANS聚类算法深层次挖掘策略的内在规则,对于更好地识别视频内容有着较好的实现效果。 [1]徐勇.基于聚类算法的内容识别研究[J].电脑与电信,2016(11):39-41. [2]孟彩霞.大数据环境下不良网络内容识别技术研究[J].软件导刊,2015,14(11):19-21. [3]岳晓峰,龚青池.视频流图像字符识别算法的研究和实现[J].机械工程与自动化,2015(4):73-75.4.2 K-MEANS聚类改进算法设计
5 结语