学习类视频弹幕用户的交互行为研究*
2021-10-15陈忆金卓林锴赵一鸣
陈忆金,卓林锴,赵一鸣
0 引言
弹幕是新媒体时代用户之间一种新的交互方式,满足了视频用户的求新心理和娱乐需求。弹幕塑造的“围观”体验可以满足视频用户的自我认同需要和自我表现需要。通过弹幕,视频用户可以匿名并即时发表自己的看法或表达其情感,发表的内容可以是与视频内容有关的,也可以是与他人发布的弹幕内容有关的,还可以是完全无关的内容。学习类视频中的弹幕内容呈现了用户在观看学习类视频时实时交流的问题或与他人讨论的话题。用户在观看学习类视频时发送的弹幕文本及其相关数据是视频用户交互特征的直接体现。本文研究目的是揭示学习类视频用户通过弹幕进行信息交互的过程中存在的普遍特征以及不同用户群体之间存在的差异,研究问题包括:①学习类视频用户弹幕的发布时间是否存在规律;②学习类视频用户发布的弹幕文本体现何种内容特征;③弹幕数量随视频播放进度的变化情况;④学习类视频用户是否存在弹幕跟随行为。
1 文献综述
1.1 弹幕文化与用户
目前国内关于弹幕的研究主要是将弹幕看待为一种文化现象,从传播学的角度对弹幕文化的形成以及弹幕的传播价值等方面进行探讨。弹幕族的存在给青年文化带来了一定程度的影响,主导文化和亚文化可以实现一定的互动,主导文化可以考虑如何形塑、牵引亚文化及建构其传播平台[1]。弹幕具有受众反馈即时性、评论的针对性和碎片化、表达的多样化等特点。弹幕视频无限更新循环的传播模式区别于传统网络视频多中心裂变式的传播模式,给受众的观感体验带来巨大的变化,并实现了人与人之间关于视频的实时互动,但同时也存在着一定的消极影响[2]。
弹幕的优势在于通过互动改变了传统的“作者-编辑-受众”的关系,弹幕用户拥有共通的叙事价值观,但弹幕用户年龄偏低,传播内容的社会认同度不高,主流视频网站缺乏弹幕编辑的共通语境,可能阻碍弹幕的进一步发展[3]。弹幕文化是受众宅文化群体在网络社群交流中所创造的一种具有相对独立结构和使用群体的文化形式传播,是一种以受众主导的文化生产消费模式,因其以受众为核心而具有内驱力[4]。弹幕文化具有主体间性式的文化特质,使视觉文化时代所产生的霸权、压制等病症得以缓解,观众由原本的被动接受内容转变为通过弹幕来表达不满,为受众提供了一个多视角、多层面的观看角度[5]。
已有研究对用户使用弹幕进行互动的动机、需求等方面的关注较多。用户使用弹幕视频网站的原因包括娱乐、被陪伴需求、归属感以及寻求信息[6]。弹幕满足了用户的求新心理,弹幕内容满足了以娱乐为主要动机的视频观看需求的用户的娱乐需求,弹幕塑造的“围观”体验满足了用户的自我认同和自我表现的需要,弹幕增加了视频的信息量,可帮助用户理解视频内容[7]。弹幕视频的隐匿性使用户更加真实地进行自我表达,弹幕视频聚集了具有共同爱好的用户,用户在与他人互动中可以获得自我认同的满足感和成就感,带来归属感,摆脱孤独感[8]。
弹幕视频观看者之间的互动可以通过从弹幕中提取的刺激因素影响观看者的唤醒程度,与弹幕相关的刺激类型包括其他人的存在,社会竞争和情感刺激[9]。朱钰涵基于B站数据,通过聚类分析将弹幕用户分为“理性探讨型”“弹幕引领型”“大众笼统型”3种[10]。弹幕对用户的沉浸感和观看满意度具有显著的积极影响,也对观看节目时用户之间的感知交互具有显著的积极影响[11]。时间增强技术使弹幕具备同步性,空间增强技术使弹幕具备可见性,同步性与可见性对弹幕用户的积极参与起至关重要的作用[12]。
1.2 学习类视频用户的弹幕交互研究
已有研究认为,学习类视频网站提供的弹幕功能对研究用户的学习行为具有一定的参考价值。弹幕在MOOC中具有潜在价值,有助于提高学习者的视频学习参与度,诱发学习动机,保持良好的学习状态,提供有效的临场感效应,促进视频内容的深度理解,实现头脑风暴认知,有利于学习者的学习行为分析和完善学习视频的教学设计,弹幕可能发展成为MOOC等远程在线视频学习平台中的一项主要功能[13]。弹幕评论和视频播放的同步性易让观众产生共鸣,互动快捷及时,弹幕视频有助于为学习者营造临场感,分析学习数据为完善教学视频提供数据支持[14]。李健和张新明认为弹幕应用于在线教育时应注意弹幕质量的把控,弹幕显示应选择合适样式,教师应设法全面及时地对弹幕进行反馈[15]。
同时,研究者发现,基于弹幕的交互有助于提高学习者的参与度以及学习效果。弹幕可以作为增强学习者互动,增加课程参与度和改善学习体验的有效途径[16]。张婧婧等通过对B站中一门PS课程的弹幕数据进行分析和文本挖掘,发现学习者之间交互的语言特点体现了互联网时代的时空转换,学习者之间就此形成了语言认同,弹幕在一定程度上有助于促进老师和学习者、学习者和学习者之间的情感交流,缩小彼此之间的距离,增强学习者的社会临场感,减少网络学习过程中产生的孤独感。相比传统课堂,弹幕中学习者表达情感的方式更为直接,情感交流更加频繁[17]。
大部分学习者愿意使用弹幕且希望视频学习中有弹幕功能,学习者打开弹幕的社会存在感明显高于关闭弹幕的社会存在感。教师发送与视频内容相关的引导性弹幕有助于帮助学习者提高学习满意度、社会存在感、学习成绩,但也会增加学习者的认知负荷,其中场依存型学习风格学习者的认知负荷受到的影响较场独立型学习风格学习者的认知负荷大[18]。弹幕对学习者学习的总效应量和学习结果的影响显著,但是对学习过程的影响并不显著[19]。弹幕对不同类型知识学习的影响不同:弹幕对陈述性知识学习无促进作用而对程序性知识学习有一定促进作用,主要能提高学习者的迁移成绩[20]。
综上可知,当前研究以对弹幕用户的参与动机、参与意愿和弹幕对学习效果影响等为主,而因特网用户信息交互具有从众行为[21],作为一种新的在线实时评论,以弹幕数据为研究对象,剖析用户通过使用弹幕而实现与学习类视频的交互过程的研究较少,用户如何利用弹幕实现交互,这种交互具有哪些显著特征等问题尚不明确。本研究从用户交互角度看待用户之间基于弹幕的互动与信息交流行为,分析弹幕发布的时间特征、文本特征、数量特征以及从众特征。
2 研究方法
本研究探究学习类视频用户的交互行为特征,在Bilibili视频网站(简称B站)以“学习”为关键字搜索后筛选弹幕数量最多的视频,并发现检索结果里以日语课程视频以及Python、Java、C语言等编程技术课程视频为主。因而本文以B站编程类视频和日语类视频的弹幕为研究素材,基于弹幕数据分析用户的交互行为特征。
数据采集使用Java作为爬虫编程语言,基于Java垂直爬虫框架WebMagic与支持HTTP协议的客户端编程工具包HttpClient进行开发,通过B站API与视频aid编号获取视频信息与存储弹幕信息的XML文件,通过对API响应的JSON数据和弹幕XML文件进行解析后写入本地MySQL数据库。为方便数据存储与解析,数据库建立3个表:视频信息系列信息表、视频分集信息表和弹幕信息表,所采集的具体数据字段见表1。
表1 数据采集表
数据爬取的时间为2020年2月1日,利用爬虫分别抓取了编程学习10个系列视频和日语学习10 个系列视频,共1,801 个视频的弹幕数据,爬取的样本视频上传时间最早为2012年7月17日,最晚为2019年7月17日。通过弹幕XML文件解析得到1,064,137条弹幕数据,剔除重复或不合理的24条数据后,用作分析的弹幕数据合计1,064,113条。
数据分析围绕研究问题进行,主要采用描述性统计、分词处理、社交网络分析等3种方法。
(1)学习类视频用户发表弹幕的时间分布特征分析采用“弹幕发送日期和时间”这个数据字段,将一天分为24小时,统计每小时内的弹幕数量。
(2)学习类视频弹幕的文本内容特征分析采用“弹幕内容”“颜色”两个字段,对所有弹幕内容进行分词处理,由于B站的弹幕最大字数限制为100字,本研究将1到100平均分为10个区间,统计样本弹幕的字数在这些区间的分布情况。B站为用户提供了包括红、蓝、绿、黄、白、黑等10种弹幕颜色样式,用户在发送弹幕前可根据需要自由选择,弹幕默认颜色为白色。本研究将除默认的白色以外其他9种颜色归类为彩色对弹幕颜色分布进行统计。
(3)弹幕数量随视频播放的变化情况分析采用“弹幕在视频中出现的位置(以秒为单位)”和“弹幕在视频中出现的位置(以相对视频时长的百分数表示)”两个字段,将弹幕的出现时间除以弹幕所在视频的时长得到弹幕在视频中出现的相对位置,并将视频时长平均分为100个区间,统计弹幕相对位置在各个区间的分布情况。
(4)弹幕跟随行为分析采用“发送弹幕的用户id”“弹幕内容”“弹幕在视频中出现的位置(以秒为单位)”“弹幕发送日期和时间”等字段,采用Gephi对用户间弹幕跟随形成的网络进行分析,将根据弹幕出现时间在视频中的相对位置来判断该弹幕是否为首次出现,遍历视频中所有弹幕,对每条弹幕判断是否已有相同内容的弹幕存在,若存在则将发送弹幕的用户id记录为一次共现,并根据弹幕是否首次出现来判断共现用户间的跟随关系。首先分别对编程学习类视频和日语学习类视频中的共现弹幕进行统计,将统计结果加工成Gephi所需的CSV文件并导入生成网络图。网络中每个节点代表一个用户,每条边代表一次弹幕跟随行为。
3 研究结果与分析
3.1 弹幕发送时间
统计分析结果显示(图1),编程学习类视频中的弹幕数量最高峰出现在下午4点处,日语学习类视频的弹幕数量最高峰出现在晚上9 点。可见,观看编程学习类视频的用户倾向于在下午观看视频并进行弹幕互动,观看日语学习类视频的用户更倾向于在晚上观看视频并发送弹幕进行互动。
图1 日语学习类(左)和编程学习类(右)视频弹幕发送时间分布图
3.2 弹幕文本字数与字体颜色
弹幕文字数量统计分析结果显示,两个群体的弹幕存在明显差异。观看编程学习类视频的用户发送的弹幕在1~10 字的数量比重为66.1%,在11~20字的比重为25%,在21~30字的比重为5.66%,大于30字的比重约3.24%。而观看日语学习类视频的用户发送的弹幕在1~10字的比重达82.4%,11~20 字的比重只有14.3%,21~30字的比重为2.68%,大于30字的比重仅约0.62%。如果将字数大于30的弹幕定义为长文本弹幕,那么编程学习类视频的长文本弹幕占总体比重明显大于日语学习类视频的长文本弹幕比重。
弹幕字体颜色分析结果显示,约9成的弹幕颜色为默认的白色,用户在发送弹幕时大多偏向于选择默认的白色。而将两个群体的弹幕分别进行统计,可以发现日语学习类视频的弹幕中彩色弹幕的比重(12.9%)明显大于编程学习类视频的弹幕中的彩色弹幕比重(8.1%),可以认为观看日语学习类视频并进行弹幕互动的用户群体中有着更多对于弹幕表现力有较高需求的用户。
3.3 弹幕出现时间在视频中的相对位置分布
弹幕出现时间随视频播放进度变化过程如图2 所示。弹幕数量在视频的开头已经达到最大值,随着视频的播放,弹幕数量逐渐减少且趋于平稳,而在视频即将结束时弹幕数量又明显增加。据此推断原因可能是用户通过视频开头初步了解视频内容后决定推出播放或是专注于观看视频因而减少发送弹幕。
图2 弹幕出现时间在视频中的相对位置分布
将相对位置小于0.1和相对位置大于0.9的弹幕即出现在视频开头10%和结尾10%的弹幕提取出来,通过Java开源词云框架KUMO分别进行词频统计(表2)有了两个发现。
表2 视频进度前10%和后10%部分的高频词
(1)出现在编程学习类视频开头10%部分词频最高的词语是“老师”,发表的多为对视频主讲老师的评论或者问候;而出现在日语学习类视频开头10%部分词频最高的词语是“为了”,学习日语的用户以此为跟随弹幕来集体表达各自学习日语的原因以及表达开始观看视频的行为。
(2)出现在编程学习类视频结尾10%部分词频最高的词语仍然是“老师”,且其他高频词与出现在视频前10%的高频词有部分重合;在日语学习类视频结尾10%部分出现频率最高的词语是“存活”,“存活”属于弹幕网站特色词语,用户一般以此表达自己并未中止观看时长较长的视频,在视频结尾用“存活”表示已坚持看完视频或在系列视频最后一集用以表示仍在观看该系列视频。在视频开头和结尾的两处弹幕高峰中,编程学习类视频的用户弹幕互动行为倾向于关注视频内容本身,与视频中的讲师相关的弹幕内容出现频次较高;而日语学习类视频的用户弹幕互动行为中与视频内容相关的相对较少,弹幕氛围相对活跃,较具有趣味性。
3.4 弹幕用户交互的社会网络分析
编程学习类视频的弹幕共现网络共64,215个节点,产生159,547条边;日语学习类视频的弹幕共现网络共16,452个节点,产生149,822条边。编程学习类视频弹幕用户社交网络平均度为2.485,平均加权度为2.69。日语学习类视频弹幕用户社交网络平均度为9.107,平均加权度为16.853。
从共现网络边与节点之比可以看出,两类视频的共现网络的平均度存在较大差距,日语学习类视频共现网络节点间的联系较为紧密。日语学习类视频的网络平均度较高,且经过加权计算的平均度更高。观看日语学习类视频的用户更热衷于通过复制其他用户的评论进行弹幕互动,一条具有趣味性或使得到众多用户赞同的弹幕会带领一波较庞大的弹幕跟随行为,且部分用户存在着多次复制相同用户的相同评论的行为。
结合两类视频的网络图来看,观看日语学习类视频用户的弹幕跟随行为具有较高的集中度,在日语学习类视频规模越大的弹幕跟随行为更易吸引到更多用户的注意与参与,于是这种现象得以进一步传播。相比之下,这种“滚雪球”现象在编程学习类视频中的表现则并不明显,编程学习类视频网络图中划分出多个社群但规模较小,且平均度可以看出观看编程学习类视频的用户并不热衷于通过这种弹幕跟随的方式进行互动。
由弹幕位置分布结果(图2)可知,弹幕数量随着视频播放进度变化,弹幕数量在视频开始时较多集中在视频开头,随着视频播放逐渐减少并趋于稳定,而在视频即将结束时弹幕会再次增多。而当大量用户用弹幕跟随的方式进行互动时也会导致短时间内的弹幕数量增加,本研究尝试根据弹幕位置将其按视频播放进度划分来了解用户的弹幕跟随行为在视频播放的不同阶段的分布情况。
本研究分别对两类视频各按播放进度平均分为前、中、后三阶段,对各阶段的弹幕共现进行统计,整理导入Gephi得到两类视频三阶段的网络图并计算网络平均度,结果如图3 和表3 所示。可见,日语学习类视频三个阶段的网络平均加权度逐步降低,网络平均度在后阶段也出现明显降低,而编程学习类视频的网络在各阶段的变化则不明显。可以推断,观看日语学习类视频的用户通过弹幕跟随进行互动的意愿随着视频播放逐渐减弱。
图3 两类视频三阶段社交网络图
表3 两类视频社交网络三阶段平均度与平均加权度
4 总结与讨论
本文使用网络爬虫抓取B站部分日语学习类视频和编程学习类视频的弹幕数据,基于弹幕数据,基于文本分析、统计分析和可视化分析等手段,从时间分布、弹幕文字数量和颜色、弹幕时间与内容、用户交互网络等方面分析学习类视频用户的交互行为特征。研究结果表明:
(1)学习类视频用户发布弹幕的时间具有一定的规律性。总体上,学习类视频用户在下午4点前后和晚上9 点前后发布的弹幕数量居多,其他时间段较少;而且编程学习视频用户发布弹幕数量最多的时间段是下午,而日语学习视频用户发布弹幕数量最多的时间段是晚上。由于弹幕发布是在用户观看视频时发布的,弹幕的时间分布时间可以视为用户观看视频的时间。由此可见,学习类视频的弹幕用户高峰期存在于下午4点左右和晚上9点左右,不同学科类型的学习视频的弹幕高峰之间存在差异。
(2)学习类视频的弹幕文本文字数量较少,字体颜色以白色为主。总体上,低于10个字的弹幕数量占比最大,编程学习类视频用户发布弹幕的文字数量略多于日语学习类视频用户发布弹幕的文字数量。日语学习类用户发布有色字体弹幕的占比相对编程学习类用户发布有色字体弹幕的占比较高。
(3)学习类视频用户发布弹幕的数量随着视频播放时间有规律变化,发布弹幕的内容在两类用户群体间呈现显著差异。总体上弹幕数量呈现视频播放的前期和后期多、中间少的分布趋势。根据分词统计结果可知,日语学习视频用户发布弹幕的内容与视频内容相关性低,而编程学习视频用户发布弹幕的内容与视频内容相关性高。
(4)学习类视频用户存在弹幕跟随行为,但在不同类型的用户之间存在显著差异。从社会网络分析结果可知,日语学习视频用户基于弹幕体现出强烈的交互意愿并出现较多的跟随行为,而编程学习视频用户的交互意愿相对较低。进一步从视频推进时间短的分析结果可知,日语学习视频用户在视频播放初期的交互行为最密切,交互行为随着中期、末期逐渐变少;编程学习视频用户在视频播放初期、中期和后期的交互行为没有太大的变化。
本文研究结论有助于深入理解弹幕这种新型的用户交互方式,有助于从时间特征、内容特征、数量特征以及从众行为特征等多个维度刻画和理解学习类视频用户的弹幕使用行为,弥补了现有研究在该方面的不足。同时,本研究还有助于学习类视频网站提供商更好地理解用户,针对用户弹幕交互行为特征对学习类视频网站或系统进行优化。
本研究存在一些不足之处包括:(1)由于受爬虫以及B站保留弹幕数据规则所限,用作研究的20个系列视频弹幕仅为网站最新保留的数据而不是全部。(2)仅选择了两类学习视频作为研究素材。后续研究需要扩大研究数据量和视频类型覆盖面,以更全面揭示学习类视频用户基于弹幕的交互行为。