基于文本挖掘技术微博热搜数据的分析研究
2023-05-23谢金孜杨兰
谢金孜 杨兰
摘要:本文基于文本挖掘技术,根据八爪鱼软件采集到微博热搜话题数据,分析得出网民的话题中心,挖掘网民对中心话题的评论,对评论数据的情感走势以及高频情感热词进行分析判断,并对微博热搜数据分析在实践应用上研究探讨。通过本文的研究,了解到微博热搜对公众的日常生活、心理情绪方面的影响,并从青年价值观引导、分析监测社会舆论两个应用场景进行分析,引导政府、官方平台有效利用微博热搜,实时对评论风向进行监管,宣扬正能量,打破谣言。
关键词:社会舆论;监测
互联网给大众的生活带来了各个方面的显著变化,同时形成了全新的舆论环境,网络舆情已成为网络管理、社会管理的重要内容。[1]微博提供简单的发文方式使用户能够公开、实时地发表内容。快速的传播方式,让用户之间的互动紧密相连,微博已经成为大众获取信息、了解时事、发表看法的主要渠道之一。因此,对微博社交媒体中的热搜评论进行情感分析具有重要意义。[2]目前国内外的情感分析研究主要利用分析模型对数据挖掘技术的理论、技术进行探索,但是对于具体的微博评论内容情感分析以及微博热搜的应用领域还需进一步研究讨论。
一、研究设计
文本挖掘技术是一个新型的研究领域,在近年的信息分析中得到了广泛的研究应用,利用该技术可以从大量无结构的文本信息中挖掘潛在的价值,并且利用这些信息更好地重组信息。本文基于文本挖掘技术,利用微博数据采集内容进行分析,首先对“微博热搜话题” 进行数据提取,根据关键词词频提取出该段时间内网民的重点关注话题;其次针对重点话题的用户评论数据进行ROST情感分析,判断不同情绪比例;最后基于结果对网络舆情管理提出针对性建议。根据上文对微博及微博热搜的研究,选择微博作为本次数据源挖掘平台,将微博热搜作为本次数据来源具有一定的代表性和时效性。
二、数据采集与整理
(一)数据采集
本次研究选择八爪鱼大数据爬虫软件抓取数据。本次研究分为两个步骤:第一,在八爪鱼软件中,使用自定义采集数据;第二,使用微博热搜榜(含评论)模板采集当前热搜榜单的全热搜词,以及每个热搜词对应的最热前50条评论内容。为确保研究的准确性与真实性,采集数据2021年12月—2022年1月时间段内的微博热搜话题数据3850条,用户评论数据23920条。
(二)数据整理
本次研究爬取的初始数据存在以下问题:第一,评论内容漏采问题。删除相关不规范数据后,获得规范数据,微博热搜话题数据3528条、用户评论数据22680条;第二,数据冗余。采集的评论数据包含了发布时间、博主名称、转发数量、点赞数量等,将与本次研究无关的数据直接删除。
三、数据分析
(一)词频统计及词云
将分词后的词语使用ROST-CM-6的中文词频统计功能进行词频统计,并按照词频展示词语(详见表1);本文选择使用“易词云”词云生成器生成词云图,可以更为直观地了解人们的微博热搜话题关注点(详见图1)。
(二)情感分析
情感分析又称意见挖掘,是一种基于用户发表的文本内容的情感分类方法,目的在于研究人们对某一实体、话题的判断态度:支持、反对或无关。根据ROST-CM-6的情感分析算法,支持情感即积极情绪用正数表示,分段区间分别为一般(5,15),中度(25,+∞);反对情感即消极情绪用负数表示,分段区间为一般(-15,-50),中度(-25,-15),高度(-∞,-25);无关情感即中性情绪不作区间分段,情感参数为0。以下分析内容选取所有话题中“北京冬奥会” 话题进行情感分析,分析结果如下(详见表2)。
通过“表2北京冬奥会” 话题评论内容情感分析能直观地感受到,针对“北京冬奥会” 的话题,呈现出的是绝大多数的积极情绪,人们毫不吝啬地使用“最棒”“中国牛”“伟大” 这类词语去表达对为国争光的奥运健儿们的美誉,这是满满的民族荣誉感。本次的北京冬奥会秉持着“更快、更好、更强、更团结” 的奥林匹克格言,充分展现了中国人民对美好未来的殷切期望,带来了一系列新的就业机会,给冰雪产业带来了新的生机与希望,也在人们沉闷的日常生活中增添一抹色彩,“全民滑雪、滑冰热潮”,奥运健儿们的热血、奋斗激励着大家。
通过“表3评论内容情感分析结果统计” 的分析,对于同时间段其他话题和“北京冬奥会” 话题,积极情绪评论数量高达10585条,占总量50.77%。由此可知,在冬奥会的开展下,我国奥运健儿的精彩表现,有着鼓舞人心、引领人们积极对待生活的正面作用。
四、应用探讨
(一)应用场景一:利用微博热搜数据挖掘结果引导当代青年正确的价值观
对微博热搜数据进行文本挖掘,分析微博用户的情感倾向,可以引导社会青年正确的网络行为,树立正确的价值观。结合上文研究结果可见,在数据采集的这段时间内微博热搜呈现出的内容层次比较丰富。但是,热搜榜单具有的一个特点是“娱乐化”。微博的绝大多数用户是生活阅历较浅、容易受到舆论影响的年轻群体,青年作为微博的主要受众群体,在如此泛滥的“热搜文化” 下,对于正处于思想认知成长、启迪阶段的他们而言,对其树立优良的价值观有较大影响。青年作为国家的未来、民族的希望,若长期受此类“热搜文化” 的影响,他们的社会责任感、社会敏锐度、社会感知力都会被潜移默化的降低。[3]
利用文本挖掘技术,对微博热搜进行采集,去糟取精,利用优秀的、有益的热搜内容来引导青年人增强辨别优劣信息的能力,自觉过滤虚假、低俗信息,坚定个人信念,独立思考,不盲从不跟风。除此之外,微博平台要加强信息管制,从源头抵制“糟粕”,提高热搜的质量,宣扬正确价值观;政府要加强网络监管,打击利用网络传播违法违规的行为,也要学会利用微博官方平台,及时发声,破除谣言,把控舆论风向。
(二)应用场景二:利用热搜数据文本挖掘结果分析社会舆论走向
在本次研究爬取的热搜话题中,能明显看出主流舆论占据着更大的比重,3850条热搜话题内容中,娱乐新闻仅占据了一小部分内容,绝大多数内容是与国家时政、社会要点有关。微博应切实履行其社会责任,加强违法违规信息管控,健全完善内部审核处置流程,积极维护网上传播秩序,构建微博社区的良好生态。微博热搜的整改,是规范网络环境、网络秩序的一个开端,今后微博平台更应为社会传递更多具有价值的信息。[4]要为国家大事、社会要闻提供更多的传播渠道,让主流舆论能够及时地为公众及青年接收、讨论。
政府相关部门可利用“微博热搜+文本挖掘” 这一模式,实时分析社会舆论,把控舆论走向,检测网络舆情。任何事件一旦在网上发酵便会引起广泛的讨论,而舆论需要政府部门的监测、管理,只有在政府的正确领导下,会对事件起着正面意义。相反,若是被有心之人利用虚假信息所刻意引导煽动,任何一条言论都会无意之中成为他人的“帮凶”。因此,政府相关部门应利用好文本挖掘技术,分析研究热搜数据,及时分析社会舆论走向,监测网络舆情,对舆论话题进行正向引导。[5]
五、总结
微博热搜能够反映出公众的日常生活、心理情绪等方面,利用文本挖掘技术、词频分析技术和情感分析技术能够较好的分析出微博热搜数据里的隐藏信息。各相关组织应有效利用与挖掘微博热搜数据,重视微博热搜对公众的作用,把控舆论走向,发扬其正能量。
参考文献:
[1] 杨单,程键,姚怡琦,等.基于文本挖掘的高校舆情用户情感分析研[J].武汉纺织大学学报,2020,33(5):74-80.
[2] 李娟.社交媒体中高校舆情用户情感图谱研究:以新浪微博反学术不端话题为例[J].情报科学,2020,(7):100-104.
[3] 王楠,宫钦浩.微博“热搜”与当代青年的共同建设研究[J].山西青年职业学院学报,2021,34(1):1-4.
[4] 李晨曦.微博热搜榜整顿的原因及影响分析[J].传播与版权,2018,(4):90-91.
[5] 曹馨予.浅析微博热搜对公众舆论的影响:以乐清女孩乘滴滴顺风车遇害案为例[J].新闻研究导刊,2018,17(9):62-63.