基于网络爬虫技术的元宇宙评论文本挖掘分析
2022-05-01潘天岳
潘天岳
摘要:元宇宙是连接虚拟与现实的超级数字媒介,将引领未来世界的互联网变革,也将对个体用户的网络生活产生深刻影响。利用网络爬虫技术对Bilibili视频弹幕网站上的274个元宇宙相关视频页面进行爬取并得到3 070条评论,通过对所得评论进行文本词频分析、构建词云图、共词分析、社会网络和语义网络分析以及情感分析,发现Z世代用户对元宇宙这一概念拥有基本认知;元宇宙在游戏领域的应用备受Z世代用户关注;大量用户认为元宇宙是资本套利的工具,将对个人与社会产生消极影响;部分用户对元宇宙相关技术的实现持怀疑态度。以上结论揭示了Z世代用户对元宇宙这一新技术的感受和评价,对元宇宙的引入、推广与创新具有参考价值。
关键词:元宇宙;网络爬虫;文本挖掘;词频分析;共词分析
中图分类号:TP391文献标志码:A文章编号:1008-1739(2022)05-63-4
0引言
2021年10月28日,Mark Zuckerberg宣布Facebook将正式改名为Meta,由此在全球引发元宇宙的热潮。元宇宙这一概念由美国作家Neal Stephenson在科幻小说《雪崩》中首次提出,其含义是一个与现实世界相平行的虚拟世界,所有生活在现实中的人类都有一个网络化身,从而能与虚拟人在元宇宙中共同生活。伴随技术进步,如今元宇宙被定义为集各种数字技术于一体、连接现实与虚拟世界的超级数字媒介,其本质是对未来社会形态的描繪与建构[1]。
作为年轻的“互联网原住民”,出生于1995—2009年的Z世代,将在未来成为元宇宙用户群体的重要组成部分,其社会生活也将因元宇宙而发生改变。为了解Z世代群体对于元宇宙这一新兴概念的认知与评价,本文利用网络爬虫技术对拥有庞大Z世代用户群体的视频弹幕网站(Bilibili)进行数据挖掘,并对得到的评论文本进行文本词频分析、构建词云图、共词分析、社会网络和语义网络分析以及情感分析,对今后元宇宙相关产业的发展具有一定借鉴意义。
1数据采集
网络爬虫是一种自动下载网络资源的程序[2]。网络爬虫能够从指定的视频网页出发,通过分析网页内的标记结构,获取指向其他页面的超级链接,然后根据既定的搜索策略选择下一个要访问的站点[3]。本文利用后羿采集器对Bilibili视频弹幕网站进行数据爬取,最终得到274个元宇宙相关视频的3 070条评论。
2数据分析
2.1词频分析
使用ROST Content Mining 6软件分析所得评论文本。首先,进行分词处理。由于网络的快速发展以及新技术的大量涌现,ROST Content Mining原有的自定义词表已无法满足本文的分析要求。通过扩充自定义词表,元宇宙、虚拟现实、增强现实等新兴专有名词能够被完整保留,分词结果也因此更加精准、有效。
经过排除单字词、排除“罢了”等停用词、输出排名前50的词语等操作后,得到元宇宙相关评论中高频词的统计结果如表1所示。剔除掉主题词元宇宙后,综合来看,在Bilibili视频网站上的元宇宙相关评论中,与元宇宙概念相关的关键词出现频次最多,如:“现实”(6.8%),“人类”(3.7%),“虚拟世界”(3.5%)等。
2.2词云图
词云由西北大学教授Rich Gordon于2006年首先提出并使用。词云图通过关键词云层或关键词渲染过滤大量文本信息,并对评论文本中出现频率较高的关键词进行视觉突出,使观者简单浏览词云便可明确文本主旨[4]。
本文利用微词云生成了元宇宙相关评论词云图,如图1所示,清晰地显示了“现实”“人类”“技术”“概念”“世界”“资本”等高频词汇,并以文字粗细、深浅、大小对不同关键词的出现频次进行区分。
2.3共词分析
共词分析是通过统计文本中集中出现的词汇,分析某一研究主题或研究方向的专业术语共同出现在一个评论文本中的现象[5]。本文运用ROST Content Mining 6软件对评论文本完成提取高频词、过滤无意义词、提取行特征、构建网络、构建矩阵等操作,统计每2个关键词共同出现在一个评论文本中的次数,进而形成原始共词矩阵(标题行与标题列相同,为便于显示,标题行用序号1~30替代)。原始矩阵中对角线上的数字表示对应关键词出现的总频次,如关键词“元宇宙”出现了1 010次,“现实”出现了306次;非对角线上的数字表示相应的2个关键词同时出现于一个文本的频次,如“元宇宙”与“现实”出现了124次,说明有124条评论文本同时使用了“元宇宙”与“现实”,部分元宇宙相关评论共词矩阵,如表2所示。
在计量化共词分析中,为了真正反映关键词间的相互依赖程度,进而揭示其共现关系,需要对原始矩阵进行包容化处理,构建相关矩阵[6]。利用Microsoft Visual Basic for Applications以及Ochiai系数计算公式可将元宇宙相关评论共词矩阵转换为相关矩阵,部分元宇宙相关评论相关矩阵如表3所示。
相关矩阵中的数值表示元宇宙相关评论中2个关键词之间的距离,取值[0,1],其数值越大,说明2个关键词之间的距离越小、关联度越高;反之则说明关键词之间的距离越大、关联度越低[7]。如“元宇宙”与“现实”的Ochiai系数为0.223,“元宇宙”与“游戏”的Ochiai系数为0.141,说明“元宇宙”与“游戏”较“元宇宙”与“现实”距离更大、关联度更低。此外,相关矩阵中主对角线上的数值皆为1,表示某关键词与自身完全相关。
为了减小误差并且便于分析,用1与元宇宙相关评论相关矩阵中的各个数值相减,得到反映元宇宙相关评论中2个关键词之间差异程度的相异矩阵,如表4所示。相异矩阵中的数值范围亦为[0,1],但不同于相关矩阵,相异矩阵中的数值越大,表示2个关键词距离越大,相似度越低;反之则相似度越高[8]。相异矩阵中主对角线上的数值皆为0,说明关键词自身相同。
2.4社会网络和语义网络分析
语义网络是一种以图的形式呈现的数据结构,各节点即关键词,节点间的连接表示词汇间的共现关系。连接数量反映了词汇间关系的强弱,连接越多说明词汇间关系越紧密[9]。
本文利用数据可视化软件Geghi得到元宇宙相关评论语义网络图如图2所示。该图的平均路径长度为1.978,平均聚类系数为0.823,每个圆圈表示一个元宇宙相关评论的关键词节点,连线表示各节点间的关系,颜色表示关键词的类别。由此,发现其中的主要联系有是“现实”“概念”“人类”“虚拟”“技术”“实现”等为中心的多词汇联系。
2.5情感分析
文本情感分析,又称意见挖掘,是对带有情感色彩的主观性文本如评论文本等进行分析、处理、归纳和推理的过程[10]。本文使用GooSeeker平台及其自带的情感分析词典完成对元宇宙相关评论文本的情感分析。
首先,将文本数据进行分句处理并与情感词典进行匹配,计算并输出语句的正负面情感倾向。情感词典具有类型、词语、权值3个属性,部分具有情感色彩的关键词如表5所示。其中,类型共分为4种,包括正面词、负面词、否定词和程度词。正面词是包含积极情感的词汇,负面词是包含消极情感的词汇,否定词是对语句情感倾向具有反转作用的词汇,程度词能够增强或减弱语句的情感强度。权值则表示词汇所表达情感的强弱程度,正面为正值,负面为负值。根据词汇的权值,可计算得到语句的正面得分与负面得分,进而判断对应语句的情感倾向。
之后,依据正面语句与负面语句的数量及各自的正面得分与负面得分,可计算得到元宇宙相关评论文本的总得分,进而对所得结果进行可视化操作和分析。最终,得到结果为:在全部评论文本中,共651条正面评论,占比21.2%;共1 905条中性评论,占比62.1%;共510条负面评论,占比16.6%。
3结论
3.1 Z世代对元宇宙有基本认知、较客观评价
“现实”(5.35%)、“虚拟世界”(2.71%)、“虚拟”(2.34%)、“宇宙”(2.22%)、“未来”(1.87%)等词汇出现频率高且与元宇宙密切相关,说明Bilibili用户通过观看相关视频已初步了解元宇宙这一概念,并对元宇宙连接虚拟与现实的媒介作用拥有基本认知。
3.2元宇宙于游戏领域应用备受Z世代关注
游戏在评论中共出现279次,同时在语义网络中也与元宇宙存在极为密切的联系,可见Z世代用户更关注元宇宙在游戏领域的应用。其中,部分用户认为元宇宙就是一个虚拟游戏,并提到现有的游戏如《刀剑神域》中已经开始提供元宇宙的相关体验。
3.3大量用户认为元宇宙将产生消极影响
根据语义网络图可见元宇宙与“资本”“问题”“韭菜”等关键词存在较为密切的联系。查看原文本,发现大量评论提到资本将通过元宇宙进一步压榨普通人,普通人将如同“韭菜”一般被利用乃至“收割”,进而人类社会发展也将因此受到威胁。
3.4部分用户对元宇宙技术的实现持怀疑态度
由语义网络图可发现“技术”与“实现”间存在联系。利用Excel对原评论文本进行包含“技术”与“实现”2个关键词的筛选,发现筛选结果中69.23%的用户对元宇宙相关技术的实现持怀疑或否定态度,部分用户认为“现在谈(元宇宙)可能还为时过早,技术突破不一定跟得上。”
4结束语
本文利用网络爬虫对相关评论文本进行挖掘和分析,揭示用户对元宇宙这一新技术的感受与评价,对元宇宙的引入、推广与创新具有参考价值。在本文的基础上,如何改进算法以实现更加精準的分词与语义情感分析,将成为未来研究的改进方向。
参考文献
[1]喻国明,耿晓梦.何以“元宇宙”:媒介化社会的未来生态图景[J/OL].新疆师范大学学报(哲学社会科学版), 2021, 5:1-8[2021-11-20].https://doi.org/10.14100/j.cnki.65-1039/ g4.20211119.002.
[2]周德懋,李舟军.高性能网络爬虫:研究综述[J].计算机科学, 2009,36(8):26-29,53.
[3]孙易冰,赵子东,刘洪波.一种基于网络爬虫技术的价格指数计算模型[J].统计研究,2014,31(10):74-80.
[4]许宏吉,赵文杰,林红,等.基于信息化词云技术的在线教学效果调查与可视化分析[J].中国教育信息化,2021,18:92-96.
[5]潘佳宝,喻国明.新闻传播学视域下中国舆论研究的知识图谱(1986—2015)———基于文献计量学的研究[J].现代传播(中国传媒大学学报),2017,39(9):1-11.
[6]吴进.基于文本分析的我国产业共性技术创新政策研究[D].广州:华南理工大学,2013.
[7]田丽,余雪丽.基于共词分析的我国阅读推广研究热点探析[J].情报科学,2016,34(12):127-132.
[8]王志强,杨庆梅.我国创业教育研究的知识图谱———2000—2016年教育学CSSCI期刊的文献计量学分析[J].教育研究, 2017,38(6):58-64.
[9]周王安,蒋雯静,崔雯绚,等.国内四大城市“双创”政策分析[J].科技管理研究,2021,41(17):47-56.
[10]赵妍妍,秦兵,刘挺.文本情感分析[J].软件学报,2010,21(8): 1834-1848.