基于网络爬虫和社会网络分析的哔哩哔哩用户关注行为研究
2022-04-29高悦
摘要:文章利用网络爬虫,通过“滚雪球”的方法在哔哩哔哩官网爬取了42位百万粉丝以上的up主的关注列表,经提取和整理,将其绘制成42x42的up主关注矩阵,并利用社会网络分析法和Ucinet软件对其进行了密度和意见领袖分析。
关键词:网络爬虫;社会网络分析;意见领袖;哔哩哔哩
中图法分类号:G25文献标识码:A
Research on user attention behavior of bilibili based onWeb crawler and social network analysis
GAO Yue
(College of Information Management, Nanjing Agricultural University,Nanjing 210095,China)
Abstract:This paper uses the Web crawler to climb the attention list of 42 up masters with more than one million fans on bilibili official website through the “snowball” method. After extraction and sorting, it is drawn into a 42x42 up master attention matrix, and its density and opinion leader are analyzed by using social network analysis method and Ucinet software.
Key words: Web crawler, social network analysis, opinion leaders, bilibili
嗶哩哔哩( bilibili)简称 B 站,创建于2009年6月,是当下最受欢迎的弹幕网站,其主要面向中国年轻一代,并将其核心用户群体定义为 Generation Z ( Z 世代),即1995~2009年出生的一代,也指喜欢玩乐、喜欢学习和喜欢分享生活的年轻一代。起初,哔哩哔哩主打动漫二次元分化和视频分享,近年来,逐渐发展成集动漫、视频、游戏、直播等于一体的综合性网站。2018年末,其被 QuestMobile 研究院评为了“Z 世代偏爱 APP”和“Z 世代偏好泛娱乐 APP ”的首位,可见哔哩哔哩已经成为中国青年一代喜爱的一个高度集中的文化社群和视频平台。哔哩哔哩用户可分为 up 主用户和普通用户,其主要是基于关注、点赞、投币、收藏、评论和分享等关系构建社会网络,用户通过对 up 主投递的视频进行观看、点赞、投币、收藏和分享等行为进行传播,也可以通过评论与 up 主或其他用户进行交流。因此,关注数多的 up 主也会像微博“黄 V “红 V 的用户一样具有名人效应。同时,根据哔哩哔哩于2020年8月27日发布的“2020年第二季度财报(2020Q2财报)显示,其月活跃用户数已上亿,其中移动端占了绝对的比重,日活跃用户数达到五千万以上,平均用户年龄为21.5岁。由此可知,哔哩哔哩用户所产生的信息量是十分巨大的,且对年轻人具有很大的影响力,如何高效、快速的获取有价值的内容以及发现具有名人效应的用户是值得探究的。因此,本文从用户的关注行为出发,利用网络爬虫,通过“滚雪球”的方式爬取了 up 主的关注列表,并选取了42位100万粉丝数以上的 up 主,利用社会网络分析法对他们的互关注情况进行了密度和意见领袖分析。
1相关概念
1.1网络爬虫
网络爬虫,也就是所谓的“网络蜘蛛”或“Web 机器人”,是一种能够根据特定的规律,自动获取网络上的信息的一种程序或脚本,是网络信息收集的基础[1],是目前搜索引擎和大数据分析的技术基础,其爬取内容主要包括网络上的文本、图片、音频等数据。根据网络爬虫的体系结构及实现技术,可以把爬虫划分为一般型、聚焦型、增量型和 Deep Web 型[2]。网络爬虫的基本结构包括:(1)爬虫调度。它启动、执行、停止和监控爬虫的运行;(2)爬虫核心模块。主要包括 URL 管理器、网页下载器、网页分析器3个部分, URL 管理器用于管理正在等待爬行的 URL,网页下载者负责下载与 URL 相关的网页,网页分析器则负责分析网页中有价值的数据,或者将网页中的 URL 解析并添加到 URL 管理器中;(3)有价值的资料存储。本系统不但对网络爬行器进行了详细描述,同时对其工作流程进行了详细阐述。
1.2社会网络分析
社会网络是指社会行动者及他们之间关系的集合,是由多个节点(社会行动者)和各个节点(关系)之间的连线所组成的集合[3]。在本文中,up 主就是节点,up 主之间是否存在关注与被关注就是节点之间的连线,由 up 主和他们之间的关注情况构成本次研究的社会网络。
社会网络分析是一种用图论工具来分析社会关系结构和性质的一系列标准与方法,群体成员之间的关系网络被概念化为代表成员的节点之间的连接网络[4],经常表现为社群图的形式。其分析内容有很多,本文主要对其包含的以下内容进行分析。
密度是衡量个体与社群中其他个体之间联系程度的指标,通过测量社群密度可以确定一个社群是否由相互作用形成。在一个社群分析中,密度可以用来判断一个社群关系是否紧密。
中心性是衡量参与者在自己的社交网络中的核心地位和影响力的一个评价指标,反映的是他们在社交网络中的位置和影响传播能力的不同。在一个社群分析中,中心度可以判断出一个社群中处于核心地位的行动者。
结构洞是一种通过三个行为体的关系而获得“信息利益”与“控制利益”的特定结构,因而在结构洞位置上的行为体比在社交网络中其他地方的行为体更有竞争力。在一个社群的社会网络分析中,结构洞可以和中心度一起分析社群中的意见领袖。
2数据获取与处理
2.1数据获取
本文的数据来源于哔哩哔哩官网,利用网络爬虫,通过“滚雪球”的抽样方法爬取了百万粉丝以上的 up 主关注列表,即随机爬取一位关注人数在100万以上的 up 主所关注的用户及其关注用户的粉丝数和关注列表,观察其关注用户,经筛选保存粉丝数在100万以上 up 主的获取数据,得到第一组数据;然后从该组数据中再随机抽取一位关注人数在100万以上的 up 主重复上述过程。为了便于分析,本文最初拟定爬取够40位百万粉丝以上的 up 主关注情况,经过上述方法,最终爬取了42位百万粉丝以上的 up 主关注列表。其中,爬取数据以“被关注者名称”“关注者名称”“关注者粉丝数”的形式保存至 Excle 文档中,共爬取8631条数据,经去重与筛选后,剩余2581条数据。
2.2数据处理
通过对最终保存的2581条数据进行提取和整理后,将42位 up 主的互关注情况统计为42×42的 Excle 矩阵形式。其中,矩阵的行代表被关注者,列代表关注者,矩阵中的元素代表关注情况,即如果某一位 up 主被另一位 up 主所关注,则对应行列的矩阵元素值取1,否则取0。
3结果分析与讨论
本节主要通过使用社会网络分析软件— Ucinet,对所获取的42×42的二值矩阵进行密度、意见领袖及小团体分析。在进行上述分析之前,首先将42×42的二值矩阵导入进社会网络分析软件 Ucinet 中,然后利用 Ucinet 的可视化绘图软件工具 Netdraw 绘制出该矩阵社群内交流网络的社群图,其中箭头指向的方向是由关注者指向被关注者,双箭头表示两人是互相关注的状态。社群图显示,该社会网络中没有孤立点,所有人都存在关注与被关注关系,即社会网络成员之间关系较为紧密,而且“老番茄”“中国 boy 超级大猩猩”“小潮院长”等人更是处于该图的核心位置,且拥有很多的关注者,有可能为该社会网络的意见领袖,但仍需进行后续研究分析。
3.1密度分析
首先,使用 Ucinet 软件,选择“变换→转换→ Maximum”路径对42×42的二值矩阵进行对称化处理,以便后续研究分析。然后选择“网络→凝聚力→密度→密度”路径对由42位 up 主组成社会网络进行密度分析,得出该社会网络密度为0.3171。在社会网络分析之中,密度的取值范围为[0,1],值越接近1则代表社会网络中的行动者彼此间关系越紧密,但在实际网络中能得出的最大网络密度为0.5[5]。相较之下,本文所研究的社会网络成员之间的关系紧密。
3.2意见领袖分析
在网络环境中,意见领袖是社会网络中传播信息的桥梁,具有一定的影响力。在社交网络中,通常处于中间位置的行为主体为观点领导者,而处于结构空穴状态的行为主体,因其在社会网络中能在信息传递过程中获取信息利益和控制利益,具有成为意见领袖的优势。所以,在社交网络中,对网络中的节点进行中心分析和结构洞分析即可。
3.2.1中心性分析
关于社会网络中节点中心性的度量,共有三个度量指标:点度中心度、中介中心度和接近中心度,在本文中,仅采取点度中心度和中介中心度进行分析。
点度中心度用来衡量社交网络中参与者和其他參与者之间的联系数目,以描述各个参与者在社交网络中的位置中心指标,进而衡量出每个行动者在社会网络中的地位。点度中心度的值越大,行动者就越处于社会网络的核心地位。在 Ucinet 软件中,选择“网络→中心度→度”路径对42×42的对称矩阵进行点度中心度分析可知,本文所研究的社会网络中点度中心度值排在前五位的成员分别为“中国 boy 超级大猩猩”“老番茄”“某幻君”“小潮院长”和“逍遥散人”。其中,“中国 boy 超级大猩猩”的点度中心度值为28.000,是社会网络成员中最高的,排在第一位,“老番茄”以25.000位居第二位,其余三人均以22.000并列第三。所以,通过点度中心度分析可知,“中国 boy 超级大猩猩”处于该社会网络的核心位置,“老番茄”“某幻君”“小潮院长”和“逍遥散人”处于较中心的位置。
中介中心度是通过计算社会网络中一个行动者处在其他两个行动者直接连接之间的数量,用来测量社交网络中参与者是否处于中心位置的测量方法。正如点度中心度,中介中心度值愈大,参与者在社交网路中的地位愈高。在 Ucinet 软件中,选择“网络→中心度→ Freeman 中间度→节点中间度”路径对42×42的对称矩阵进行中介中心度分析可知,本文所研究的社会网络的中介中心度值排在前五位的成员分别为“某幻君”“中国 boy 超级大猩猩”“逍遥散人”“老番茄”和“陈睿”。其中,“某幻君”以75.170的中介中心度值排在第一位,“中国 boy 超级大猩猩”和“逍遥散人”分别以63.727和57.561中介中心度值位居第二和第三。所以,在中介中心度分析中,“某幻君”处于该社会网络的核心位置,“中国 boy 超级大猩猩”“逍遥散人”“老番茄”和“陈睿”则处于较中心的位置。
综合上述中心性分析结果,“中国 boy 超级大猩猩”“某幻君”和“逍遥散人”均处于社会网络的中心位置,但“中国 boy 超级大猩猩”和“某幻君”更靠近核心位置。
3.2.2结构洞分析
对社交网络中的节点结构空洞的度量,主要是通过对网络中参与者的网络限制和有效规模的测算。其中,网络限制系统的大小决定了结构空洞的存在与否,而网络限制系统的越小,则其存在的可能性也就越大。而网络的有效规模愈大,则更有可能存在结构空洞。处在结构洞位置的行动者能影响社会网络中的信息共享,并具有成为意见领袖的优势。
根据结构洞分析结果,按限制度从小到大排序,排名前三的成员为“中国 boy 超级大猩猩”“老番茄”“某幻君”和“逍遥散人”,其限制度值分别为0.134、0.150、0.162和0.162。而按有效规模从大到小排在前三的成员仍为“中国 boy 超级大猩猩”“老番茄”“某幻君”和“逍遥散人”,其有效规模值分别为16.929、14.840、14.818和14.818。其中,“中国 boy 超级大猩猩”的限制度值为0.134,有效规模值为16.929,分别是限制度最小值和有效规模最大值,所以“中国 boy 超级大猩猩”占据该社会网络中大量的结构洞位置。而“老番茄”“某幻君”和“逍遥散人”也占据了较多的结构洞位置。
经过上述中心性分析和结构洞分析可知,“中国 boy 超级大猩猩”不仅在社会网络中更接近核心位置,还占据着大量的结构位置。因此,“中国 boy 超级大猩猩”为本文所研究的社会网络中的一级意见领袖,在该社会网络中影响力很大,具有更多的威望和权利。而“某幻君”和“逍遥散人”也因其在社会网络中处于较为中心的位置和占据较多的结构洞位置,成为该社会网络中的二级领袖,也具有较大的影响力。
4结语
本文利用网络爬虫,爬取了42位哔哩哔哩百万粉丝以上的 up 主的关注列表,经提取和整理,将获取的数据绘制成了42×42的关注矩阵,进而对其进行了社会网络分析,分析了由这42位 up 主所构成的社会网络的密度和其中的意见领袖。结果显示,该社会网络成员间关系紧密,且具有多位意见领袖。但研究仍存在些许局限:一是人数较少,仅分析了42位百万粉丝以上的 up 主,但在哔哩哔哩 up 主中百万粉丝以上的有很多,今后可进一步爬取全面的百万粉丝以上的 up 主的关注列表或爬取哔哩哔哩年度评选的百位最具影响力的 up 主的关注列表进行分析;二是本研究仅对密度和意见领袖进行了分析,而社会网络分析中的小团体分析也具有重要意义,今后可对哔哩哔哩 up 主进行小团体分析,进而综合本次研究提出相应建议。
参考文献:
[1]黄岷昊,丁浪,张雪莲.基于 Python 的网络爬虫及文本可视化[J].电脑编程技巧与维护,2020(7):24?25.
[2]温佐承,侯帅.基于 Python 的网络爬虫设计与实現[ J].电脑编程技巧与维护,2020(7):21?23+42.
[3]姜鑫.社会网络分析方法在图书情报领域的应用研究[M].北京:知识产权出版社,2015.
[4] Pollack J ,Matous P.Testing the impact of targeted team building on project team communication using social network analysis[ J ].International Journal of Project Management,2019,37(3):473?484.
[5]田丽丽,赵颖.基于社会网络分析的学习者在线交互行为研究[J].软件导刊,2018,17(4):222?226.
作者简介:
高悦(1997—),硕士,研究方向:用户信息行为。