APP下载

基于自媒体视频平台的舆情分析

2020-09-02封世龙潘思宇王嘉伟王顺晔

现代计算机 2020年21期
关键词:爬虫舆情词语

封世龙,潘思宇,王嘉伟,王顺晔

(廊坊师范学院计算机系,廊坊065000)

0 引言

随着新媒体技术的不断发展,自媒体正以迅雷不及掩耳之势影响着人们的生活,每个个体既是信息的生产者又是信息的传播者,自媒体既有多媒体、交互性、传播性的特点,又兼具个性化、碎片化、群体性的优势,逐渐成为大众获取知识及娱乐的主体。自媒体时代大众不仅享有生活上的诸多便利,也拥有一个直观便捷表达自身态度和意愿的渠道,大众开始越来越多地利用自媒体行使自己的话语权与监督管理权。

舆情是“舆论情况”的简称,是指围绕社会事件的发生、发展和变化,群众对社会、个人及其他各类组织等方面的取向和社会态度。它是较多群众关于社会中各种现象、问题所表达的信念、态度、意见和情绪等表现的总和[1]。

现代社会对自媒体视频平台的关注度越来越高,政府也在开始通过自媒体平台发布信息,以体现其透明性。但由于网民的受教育水平存在差异,对知识的判断能力有限,生活水平不同,就会产生和传播各类谣言,影响和动摇大众的认知,各级各类的谣言粉碎机也应运而生,可见重视网络舆情刻不容缓。

自媒体视频一个新生的信息传播媒介,对各国政府提出了很高的监管要求。同时自媒体平台的信息密集度高,信息更新速度快,信息聚集度高等特点也决定了研究人们对自媒体平台的关注方向是有意义的,是必要的。由此可见,群众在自媒体平台中发表的内容在网络舆情中的重要地位。

1 自媒体视频平台舆情采集

1.1 概述

现代网络已成为大众生活不可或缺的一部分,而网络短视频、短评等能够快速表达作者意愿的信息传播方式最受大众欢迎。除了信息的原作者,网友也可以在合法的范围内自由发表言论。这些评论文本往往包含着用户自身所表达的情感倾向性,且这些大量的包含用户主观情绪的文本已经成为决策支持的一个有价资源[2]。因此,如何有效地对其进行监管和引导成为重要问题。由于自媒体舆论的随意性、隐匿性和模糊性,传统的监管方法难以对自媒体舆论进行有效的监管和引导。自媒体视频平台舆情分析会将大众关注的信息内容和大众讨论较多的信息内容进行分析,进而实现管理部门对于舆情走向的准确判断。为此,现代网络主流自媒体视频平台舆情分析已成为各单位、各部门预测以及监管的重要部分。

1.2 自媒体视频平台设计用例

从用户数量及用户粘度的角度分析,以下两个自媒体视频平台有足够作为研究对象的意义,本文所选择的视频平台:

(1)Bilibili:日均视频播放量7.25 亿,用户日平均使用时长83 分钟(截止到2019 年11 月19 日)。

(2)抖音:日活跃用户4 亿(数据来自钛媒体,截止到2020 年1 月6 日)。

2 网络爬虫获取数据

2.1 网络爬虫定义

通过数据爬虫的技术抓取用户的评论,分析用户的情感倾向,并利用分析的结果辅助用户决策、为政府及商家提供反馈[3]。网络爬虫技术是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。它可以模拟人类浏览网页和网络上的各种信息,同时还可以对信息进行筛选、统计和保存。其实现过程为:用户指定搜索关键词或URL,网络爬虫开始对指定范围的信息进行爬取和保存,直到将所有信息爬取完毕。网络爬虫不同于人类,可以轻松准确完成这种循环的工作。通过以上过程,网络爬虫可以将所需数据爬取下来。

网络爬虫被广泛应用于搜索引擎、信息平台等地方。开发者利用网络爬虫可以快速准确获取所需信息并进行发布,效率远高于人工检索信息。

2.2 网络爬虫工作原理

网络爬虫的运行过程类似于浏览器,它模拟人类使用浏览器浏览网页,并完成数据响应。以浏览某网站的视频评论为例:网络爬虫首先对该网页发起请求,网站服务器应答请求并将网页文件返回给网络爬虫。网络爬虫对收到的网页文件进行可视化解析,同时提取用户指定的有效信息,最终将数据呈现在屏幕上。网络爬虫运行的具体步骤如下:

(1)第一步:用户指定网络爬虫的范围,以URL 和种子文件居多。

(2)第二步:网络爬虫模拟人类对相应服务器发起请求。

(3)第三步:网络爬虫收到服务器返回数据并解析数据。

(4)第四步:将收集到的数据进行整理并存储。

(5)第五步:爬取下一条URL。循环爬取未爬取的URL。

图1 网络爬虫工作原理

2.3 网络爬虫实现

本案例分析中使用到的数据来自Bilibili 网页端、抖音高热度短视频。其中我们提取了视频的标签、热度(尤其是短时间热度增长快速的视频)、评论、弹幕、视频分类等信息。

爬虫爬取了Bilibili 视频评论和标签的对应代码所在位置,如图2 所示,利用Python 3 的BeautifulSoup 库可以将对应的评论、标签抓取并保存待后续处理及分析[4]。

图2 Bilibili评论信息-网页代码

爬虫从自媒体视频平台排行榜上爬取数据,爬取的排行榜周期性更新,从不同更新周期的排行榜可以获得不同时期的数据,同理不同分区的排行榜也可以得到相应数据。本文采用的数据截止2019 年底。图3是一部分爬虫爬取下来出现较多的词语,利用后续分析程序可以得到分析结果。

图3 爬虫爬取的部分信息

3 用户评论情况数据预分析

3.1 数据分类处理

网络爬虫将所需的信息保存到本地后,由程序进行中文分词。整理“连词介词词库”和“情感词库”,使用jieba 库对爬到的数据进行分词,编写Python 程序比对停用词库,删除停用词,并删除如带广告性质的评论信息和带推广的信息,清除数字英文字符和一些空文本,还需删除必要的表情信息,最终只留下有含义和有情感趋向的词语。

统计结果中的百分比数据仅代表该类型在全部热词中所占的比例。其中包含一个词汇有多种类型或中性词汇含义暂时无法划分入统计结果。

3.2 用户评论情感趋向分析及统计

随后将这些词语与情感类词汇词语库中的词语进行对比,若匹配度达到阈值,则将其统计归类为该类型的感情词语,最终得到了短视频观看用户的情感趋向。不在词汇库中的词语会被计算出现的频次,如果频次高于阈值则单独列出,由人工进行资料收集并整理存入统计计划中。对于有实际含义的词,程序会将其直接进行搜索或经加工后再进行搜索。通过搜索结果中的关键词可以得知该词的实际含义及用法。最终通过人工检查对统计的结果进行验证,检查统计结果中的明显错误,并进行人工规避。

实际上部分词语具有多重含义,如2019 年词语“是个狼人”有惊讶、感叹的含义。在统计时会将这类词语按不同分类的匹配度进行权重划分后再做统计,并总结出占比最高的3 种情感类型比例。

图4 热门词汇情感分析统计

根据图4 可以得出,乐观、消极、中性这三个词语占据了全部自媒体视频平台的信息内容和评论,乐观最高为51%,其次为中性31%,最后为消极18%。

根据乐观占比最高可以得出参与网络交流的群众更倾向于追求更好的生活,更喜欢观看高质量、高水平、高幸福度的自媒体视频。在这四个情感类型中,“家里有矿”、“柠檬精”、“社会”、“妙啊”等词语出现频率最高。如“家里有矿”、“柠檬精”被网友更多地应用于高档餐厅住所、高档旅游、高成本实践类视频中,网友们往往想表达视频作者有钱和自己很羡慕的感情。“社会”这个词往往出现在一些令人震惊的视频中,多用于表达视频主人公见过世面或做事很高调等情感。统计显示,此类视频相对更受欢迎。“妙啊”一词多用于对妇孺皆知的事提出了新的且清奇的看法或处理方式,从而达到让观众耳目一新的视频。

根据消极占比最低可知网民的主力军青年人为追求美好生活而奋斗和生活压力大等主要特征。“996”、“秃”、“冲鸭”、“我太难了”等词语出现频率最高。其原因在于当前青年人工作压力过大,且因工作或生活无法得到充足睡眠和保养。“996”这个词寓指工作时间过长、工作时间计划不合理等信息,该词曾在无数网络平台引起热议。而“秃”已成为网友的口头禅,用以表达自己压力过大,或用于自嘲。“冲鸭”原意为冲呀,该词由谐音变换而来。冲鸭一词不仅体现了激励类视频进入大众的目光,也以可爱的方式鼓励现代人积极进取。同时有关于鸭子的表情包也在网友之间流传,多表达可爱地去做某事。“我太难了”一词源自某视频作者的一个视频。因该视频主人公语气和表情十分到位,该词已快速成为广大网友的口头禅。

其他类型中出现频率最高的词语有“硬核”、“陈独秀”、“垃圾分类”、“AWSL”和“注入灵魂”。“硬核”、“陈独秀”皆表达了做事很强硬、很熟练甚至令人惊讶。“AWSL”是“啊,我死了”的拼音首字母缩写,多用于表达可爱的事物令人着迷。“注入灵魂”一词多用于表达画龙点睛之笔,寓意为一件事添加最重要的部分使其完整。

3.3 用户评论流行语趋向分析及统计

将当下网络热词进行谐音分析,通过使用Python的第三方库xpinyin 将词语转换为拼音,利用搜索引擎可以识别拼音并转换为高频率使用的汉字这一特点,将拼音字符串在网络上拼音字符串的信息进行识别匹配。如果搜索结果中有高频率出现的词,则将该词视为谐音词。对于影视台词、歌词、文章断句类型的词语,将其添加“出处”(一个空格代表隔离关键词)字符串进行搜索,若搜索结果有高频率出现的词,则视之为影视台词、歌词、文章断句类型的词语。

同时存在很多词语有多种来源的情况,如“雨女无瓜”一次来自于影视作品,同时它也是“与你无关”的谐音词,通过人工资料查证后确定其来源类型。

图5 流行语倾向分析统计

由图5 可知,一词多义和谐音词语的比例高达34%,许多热门词汇都被网友作为口头禅使用,其比例达31%,有资料来源的词语占42%。

在网络热词中具有代表性的一词多义和谐音的词语有“陈独秀”、“买橘子”、“正片开始”、“冲鸭”、“雨女无瓜”和“我可以”。从该类型词语使用频率的角度来看,当代网友更喜欢隐含地表达自己的情感,或出于交流简便而使用含义较多的词语。从词语使用场景来看,“陈独秀”一词不仅仅指历史上的人物陈独秀,还寓指这个人的做法很“show-秀”,即令人惊奇的意思。“正片开始”一词可指片头广告结束,正片即将开始,也可指视频内容已结束,但结尾曲或结尾彩蛋令人注目。“雨女无瓜”、“冲鸭”皆取自谐音,原意为“与你无关”、“冲呀”。利用谐音表达可降低语气的强烈度,也可结合场景包含多层含义。

多被用于口头禅的词汇往往与生活密切相关。如“我太难了”、“盘他”、“皮”、“妙啊”等词语就可简单地表达日常生活中的感触。词语“盘他”出自相声段子,意指不用管太多,做就行了。“皮”一词意为很顽皮,可用于生活中被恶作剧后或视频内容非常顽皮搞笑。

出自影视、歌曲或文章的词语也常被用于口头禅中。它在现代使用中更多地体现了一种另类的俏皮。如“凉凉”、“佩奇”、“橘子”等词语被广泛流传和应用。“凉凉”出自歌曲《凉凉》,多被用于表达对象做的事注定失败或已经失败,同时该词还有惋惜、同情之意。“佩奇”一词出自《小猪佩奇》动画片,但该词是经过网友的改编后才流传在网络上。该词全句为:小猪佩奇身上纹,掌声送给社会人。意义同中“社会”一词。“橘子”一词出自朱自清的短篇散文《背影》。原句为:我买几个橘子去。你就在此地,不要走动。该词多被用于伦理中,有贬义。

综上所述,自媒体视频热词的使用往往与其出处有较大差别。但其包含的意义众多,既可以隐含地表达个人的情感也可以用于复杂情感的表达。

4 自媒体视频平台舆情的发展与影响

4.1 自媒体视频平台舆情的网络与社会影响

自媒体视频平台舆情呈现出的感情色彩十分明显[5]。从热门词汇来看,人们更加倾向于观看令人耳目一新或非常有内涵的视频。与此同时,人们对经典动画作品和经典影视文学作品的关注也有所上升。因此当代网民更加关注对美好生活的追求,对休闲类事物的需求以及对高压力工作的不满与无奈。

与此同时,通过调查发现有很多视频作者依靠断章取义、故作声势的行为来吸引观众以牟取利益。正是自媒体视频平台的急速发展与低门槛和高自由度的视频制作滋生了“低创视频”,甚至是误导大众的视频。而群众对于种网络媒体的辨识能力差异较大,误信误传,影响网络传播环境。

近年来版权问题也备受网友关注。字体版权、商标问题、盗版软件、盗版音乐等在大众眼中还未形成正确的理解。2019 年商标抢注事件引起国家关注,也为群众敲响了版权、知识产权保护意识的警钟。作为视频作者或自媒体平台,应对各类权益问题加以重视。

4.2 自媒体视频平台舆情的发展与监管

自媒体视频平台的舆论监管需要自媒体平台和政府机构共同努力,努力创建以正确政治导向为主的舆论环境[6]。

对于自媒体网络视频平台而言,积极响应国家号召,及时向政府文化管理部门汇报网络舆情信息,对网民开通便捷的反馈通道,加强视频的审核力度是有必要的。作为群众与群众,群众与政府交流的桥梁,自媒体视频平台有义务维护群众舆论与国家信息导向相符,净化网络环境。特别要重点关注低创作者、断章取义作者和网络水军的动向,在平时对该类作者和人群加以培训和引导,在舆论关键时期对其加以合理管控。对网络谣言的创造者和传播者,必要时需采取法律手段处理。

政府文化监管部门应加强与群众的交流,紧跟时代潮流以正确合理引导大众舆论走向。一方面可以建立政府及文化监管部门对群众的便捷反馈通道,另一方面也要积极加入社交平台对舆论进行合理的导向,并对监管到的谣言及时用真相调查辟谣。例如“共青团中央”官方账号在Bilibili 已拥有600 万关注量,位列平台前茅。同时政府工作人员也要紧跟民意,合理应对网络舆情突发事件。文化管理部门的公信力也影响到了网络舆情的管理。最后,必要时需要以立法的形式来规范网络舆论行为或网络不当行为。

5 结语

基于自媒体视频平台的舆情分析,以自媒体舆情分析为核心,通过中文分词分析自媒体视频平台的用户评论的情感分析,获取舆论倾向。本文结合网络爬虫、程序设计、大数据分析等机制,使现代网络自媒体舆情的分析过程更加合理、快捷、准确、高效,自媒体视频平台与网络爬虫两方面的有机结合,为现代网络自媒体舆情的分析和政府监控监管提供了一种新的解决方案。

猜你喜欢

爬虫舆情词语
利用网络爬虫技术验证房地产灰犀牛之说
容易混淆的词语
基于Python的网络爬虫和反爬虫技术研究
找词语
基于Scrapy框架的分布式网络爬虫的研究与实现
谁抢走了低价机票
消费舆情
月度最热舆情事件榜11月
一枚词语一门静
月度最热舆情事件榜9月