APP下载

网络视频的弹幕数据结构及应用价值分析

2018-12-24杨乐雨北京信息职业技术学院

数码世界 2018年7期
关键词:哔哩弹幕内容

杨乐雨 北京信息职业技术学院

1 弹幕的由来

随着信息化时代的来临,我国网络视频行业迎来了一个爆炸式的发展期,网络综艺节目与网络电视剧呈现井喷式发展。仅以电视剧为例,2014年全网共发行网络电视剧205部,共2918 集。2015年网络剧全年播放量达274.5亿,较2014年的123亿增长了1.1 倍,总部数达379 部,同比增加85%,总集数达5008集,同比增长72%。2015 年至今网剧发展进入黄金时期,众多传统影视制作人和大量资本涌入网剧市场,各大视频网站纷纷投拍,网剧市场一时间被推向资本的风口浪尖。随着网络视频的高速发展,观众们已不再满足于单纯的观看视频,而是希望获得更多的参与感,对于实时评论的需求直接促生了“弹幕”这一新鲜事物的出现。

弹幕原本是指射击类游戏中密集的子弹如同幕布一样,后被引申为直接显现在视频画面上方流动的由观众发送的简短评论,可以以滚动、停留甚至更多动作特效方式出现在视频上。

2 视频弹幕的技术实现与数据获取

国内各类视频网站使用技术整体上来说大同小异,都是采用在页面布局中放置一个显示视频界面的窗口,然后在视频界面的上方再覆盖一个显示弹幕的窗口的方法来实现的。弹幕的视图框必须要做成完全透明的,这样即使覆盖在视频界面的上方也不会影响到视频的正常观看。当有人发弹幕消息时,后台会记录用户发送弹幕时该视频当前播放的位置以及其他相关信息,其他人播放这个视频时到了这个点就会将弹幕消息绘制到弹幕的窗口中。

在具体技术实现的过程中,各网站实现方法稍有不同,本文将以国内最大的弹幕视频网站哔哩哔哩网为例讲解如何才能获取弹幕数据。具体操作流程如下:

1.打 开 哔 哩 哔 哩 网 站 某 视 频 页 面 https://www.bilibili.com/bangumi/play/ep150705?from=search&se id=2565014256402977714。

2.在对页面数据进行分析后了解到网站所有弹幕信息均保存在一个XML文件中,而要找到对应的XML文件则需要获取该视频的cid码。通过查看“网页源代码”,查询到该视频cid码为27741148。

3. 根 据 cid 码 即 可 访 问 页 面 http://comment.bilibili.com/27741148.xml,获得的该视频的完整弹幕信息数据。

3 弹幕数据结构分析

哔哩哔哩网站的弹幕信息由九个参数组成,以如下一条弹幕信息为例:

<d p="4708.47200,1,25,16777215,1521859641,0,fb2285 7f,4408203362">《史记》</d>

在对数据进行分析后,可将该条数据划分为如下数值:

参数1:4708.47200;参数 2:1;参数 3:25;参数4:16777215;参 数 5:1521859641; 参 数 6:0; 参 数 7:fb22857f; 参 数 8:4408203362;参数 9:《史记》。

每个参数都有其含义,分别为:

第一个参数表示弹幕出现的时间,通常以秒数为单位;

第二个参数表示弹幕模式,有如下几种模式:1至3为滚动弹幕,4为底端弹幕,5为顶端弹幕,6为逆向弹幕,7为精准定位,8为高级弹幕;

第三个参数表示字号;

第四个参数表示字体的颜色,以HTML颜色的十位数为准;

第五个参数是Unix格式的时间戳,基准时间为 1970-1-1 08:00:00。时间戳是一个能够表示一份数据在某个特定时间之前已经存在的、完整的、可验证的数据,通常是一个字符序列,唯一地标识某一刻的时间;

第六个参数表示弹幕池,0为普通池,1为弹幕池,2为特殊池,特殊池是为高级会员用户开放的高级弹幕专用弹幕池;

第七个参数是发送者的ID,用于实现“屏蔽此弹幕的发送者”功能;

第八个参数是弹幕在数据库中rowID,用于实现“历史弹幕”功能。

第九个参数是弹幕的内容信息。

4 弹幕数据应用价值分析

从第三节中的弹幕数据结构分析中可以知道,弹幕在给观众提供参与感与实时评论功能的同时,还为视频网站管理者提供了丰富的数据库,在对弹幕池进行大数据分析可以获得各种丰富和精准的信息。在此,笔者将就弹幕数据的应用价值进行探讨。研究将以视频网站管理者在进行实际用户数据分析的过程中主要的关注点作为依据。

4.1 为视频热度分析提供依据

传统电视媒体对于电视剧或综艺节目的排行通常是依据电视台统计的收视率排行的。网络媒体则通常以点击量为主要依据,然而这一评定方法有一个最根本的问题就是可以依靠网络工作室“刷点击量”,而发送弹幕的过程不同于刷点击量仅需要不断刷新页面的操作就可以完成,还需要对弹幕内容进行编辑,客观上增加了造假难度,因此在很大程度上,视频的弹幕数量可以非常可观的反映该视频的热度。

4.2 为屏蔽恶意数据提供了依据

当然,增加工作难度并不是说工作室没有办法刷弹幕量,但仍有其他方法可以对这种行为进行反制。例如哔哩哔哩网站,它要求用户必须注册会员并完成身份认证才能够发送弹幕,这使得工作室很难大量购买账号,通过频繁更换账号的方式隐藏其操作。而弹幕的数据结构中包含有“发送者ID”这一信息,只要通过对同一ID发送弹幕的数量进行统计,在一定程度上就可以将某些ID列为可疑用户。为了实现更为智能的筛选功能,管理者还可以对嫌疑账号发送的弹幕内容进行比较,观察是否为大量高度相似的内容,从而完成进一步的甄别。当然反过来说,管理者还可以通过对内容进行统计,观察是否有某些关键词出现频率超过了正常值,反向跟踪可疑用户账号。在对可疑账号或可疑内容进行筛选剔除后,很大程度上就可以保证获取到的数据为纯净数据了。

4.3 为研究观众关注点提供了依据

弹幕出现时间表示的是某条弹幕相对于视频时间来说是在何时出现的。通常来说如果视频内容较为平淡,不能引起观众兴致时,弹幕发送数量会较少,而在剧情内容高潮部分或视频内容引起强烈关注时,弹幕数量将会激增,甚至可能出现爆发式增长。依据此原理,研究者可以通过对弹幕出现的时间进行累加统计,了解视频内容在哪些时间点引起了观众的强烈兴趣,再对照该时间点的内容,则可清晰掌握观众的兴趣点在哪里。在对新闻类节目进行分析时,结果将具有更为重要的意义。依据结果,可以及时了解观众,特别是青年观众对于社会时事的关注点在哪里,如果还能对弹幕内容进行大数据分析则能可更为清晰的了解青年的思想动态,为开展意识形态教育提供重要参考。

4.4 为分析用户使用习惯提供了依据

弹幕数据结构中的时间戳信息不同于弹幕发送时间,它表示的是弹幕以服务器后台时间为基准记录的发送时间,与现实中使用的时间是相同的。该数据同样具有非常重要的意义,在对某类型所有视频的弹幕的时间戳信息进行计数统计后,视频网站管理者可以了解该类视频用户在哪个时间段的活跃度是最高的,为帮助决策者确定该类广告的投放时间提供了依据。更有甚者,可以根据用户发送弹幕的时间段分析,制定点对点的定制化信息推送服务。

5 总结

伴随着信息化时代的来临,人们的娱乐形式已经发生了根本上的改变。弹幕这一视频附属娱乐形式的出现正是这场变革的重要产物。作为网络视频网站,如果坐拥弹幕数据信息这一重要的情报宝库,却不会加以分析和利用,则必然会迅速的脱离观众而为时代所抛弃。

猜你喜欢

哔哩弹幕内容
汽车里还能看视频刷弹幕《哔哩哔哩车机版》
内容回顾温故知新
哔哩哔哩商业模式分析——基于商业模式六要素理论
哔哩哔哩2019年全年营收67.8亿元同比增长64%
月活数据激活哔哩哔哩商业模式如何定义仍是难点
搞笑弹幕一箩筐
拜托了,弹幕君
当四大名著遇上弹幕
主要内容