基于微博舆情事件的主题情感分析
2022-06-04王艺静钱清
王艺静 钱清
摘要:文章针对微博舆情事件,搜集相关讨论并划分不同主题进行分析,结合情感分析与LDA主题模型,把握网民对舆情事件的不同态度,为国货及相关领域提供借鉴意义。文章搜集微博话题“H&M禁用新疆棉”的相关评论,处理数据得到高频词,进一步将话题细化为两个部分,分别绘制词云图并计算TF-IDF值,使用Snow?NLP计算情感分数,制作情感分数图。同时进行LDA主题模型划分主题,深入掌握各主题下的讨论热点。结果表明,网民不仅围绕“H&M禁用新疆棉”本身话题进行讨论,同时对李宁等国货进行讨论,通过情感分析得出网民对“禁用新疆棉”事件的情感态度持负面,对国货产品的情感态度持正面,但针对国货的相关讨论,较多关注明星及相关代言人,未真正触及国货产品本身。
关键词:新疆棉;微博;舆情事件;情感分析;LDA;国货
中图分类号:G206 文献标志码:A 文章编号:1674-8883(2022)05-0037-03
基金项目:本论文为贵州省科技计划项目研究成果,项目编号:黔科合基础-ZK[2021]一般312;贵州省普通高等学校青年科技人才成长项目研究成果,项目编号:黔教合KY字[2021]136
一、引言
随着经济社会的发展和科技的进步,互联网已深入人们的日常生活,截至2021年12月,互联网普及率达73%,较2020年12月提升2.6%[1]。微博集娱乐、社交、营销于一身,以其无门槛、传播快等特点深受大众喜爱,其每天都会产生大量的数据,成为影响力日益增强的网络舆论传播中心[2]。因此,搜集这些信息进行分析,了解网民的立场和情感态度,对把握网络舆情有一定的参考价值。
随着经济的快速发展,人们对生活质量的要求越来越高,主要围绕吃穿住行展开一系列的活动。然而,国际知名服饰品牌H&M在网络上突然宣布禁用新疆棉,此消息一出,网民纷纷在微博相关话题下发表自己的观点。
二、相关研究
(一)情感分析
情感分析是通过分析带有褒贬倾向的主观文本,挖掘其中的观点,以更加直观的形式呈现给大家[3]。
近年来,国内情感分析大都围绕微博热点话题,如安璐等[4]以突发公共卫生事件“寨卡病毒”为例,搜集微博相关话题,分析不同主题下的情感强度。唐晓波等[5]搜集微博中有关魅族手机的评论,进行情感词和特征词的匹配,得出网民对手机的使用感受。现有的舆情情感分析已有了一定的成果,但尚未有针对国货及“禁用新疆棉”事件的情感分析。
(二)主题模型
主题模型是一种通过海量文本挖掘出文字背后隐藏的语义主题信息的统计模型。LDA在主题模型中占有非常重要的地位,目前刘干等[6]提出改进LDA主题模型,研究微博热点中的话题分布。邱均平等[7]指出,基于LDA模型搜集知网中的相关文献,有利于相关研究人员了解该领域的发展。通过LDA进行主题构建,得到词汇对应的主题,可以更好地对数据进行分析。
三、数据处理
(一)数据采集及处理
依托Python自定义编程,有目标地搜集微博话题“H&M禁用新疆棉”的相关评论,爬取2021年3月24日—4月24日之间的评论数据,共计21054条,进行数据清洗,最终得到有效数据17449条。
(二)数据分析
对有效数据进行高频词统计分析,如表1所示,除却新疆棉本身事件的相关讨论,“李宁”“肖战”“代言人”“国货”等词语也是网民讨论的热点。因此将数据细化为两个部分,一部分是关于“H&M禁用新疆棉”事件本身的讨论,另一部分是由舆情事件引发的国货相关讨论,之后的实验也将分别从两个部分入手分析。
四、实验分析
(一)TF-IDF
TF-IDF可以过滤掉常见的词语,保留更为重要的词语。一个词越重要,TF-IDF值就越高[8]。
展示两个部分下排名前十的重要性词语。有关H&M事件(见图1)的重要性排名,前三分别是“新疆棉”“中国”“倒闭”,其中“新疆棉”的重要程度为0.9565,远超其他词语。一方面网民纷纷谴责H&M禁用新疆棉的行为,另一方面网民自发表示“我支持新疆棉”。与国货相关(见图2)的重要性排名,前三分别是“李宁”“肖战”“国货”。李宁率先支持新疆棉,作为国货代表顺利出圈,成为众多网民讨论的目标,紧接着李宁宣布肖战为全球代言人,因此有关肖战的评论也越来越多。
(二)情感分析
情感分数值在0~1之间,当结果大于0.5,情感较为积极,当结果小于0.5,情感较为消极。对两个部分中的每条评论进行情感打分,得到最终平均值,其中关于H&M事件的情感平均值为0.433,有关国货讨论的情感平均值为0.746。绘制情感分数波动图,有关H&M事件(见图3)的评论大都偏负面,而有关国货(见图4)的评论大都偏积极,部分消极分数是针对价格提高及不喜欢代言人的评论。
(三)LDA主題模型
一个词可能对应多个主题,通过LDA细化不同主题,能够更好地对数据进行分析和挖掘。
通过LDA主题划分,H&M事件的评论(见表2)分为三个主题,分别是产品质量、退出市场及对道歉声明的讨论。从中可知,不少网民要求H&M道歉,并纷纷表示之前购买的该品牌的衣服质量差;其次认为H&M做法不尊重中国消费者,要求H&M退出中国市场;随后H&M发表道歉声明,但网民并不满意,情绪较为负面。
有关国货的讨论(见表3)划分为两个主题,分别是对国货本身的讨论及对代言人的讨论。李宁作为国货代表者,成为网民讨论的重点,不少人表示李宁加油,支持国货。随着李宁宣布肖战为全球代言人,讨论从国货产品转移到了明星本身,不少人对代言人发表看法。
五、实验结果及相关建议
针对新疆棉这一事件,搜集网民的微博评论,进行情感分析,把握网民对事件的不同态度,进行主题构建,可以深入挖掘各主题下的讨论热点。
(一)实验结果
结果表明,网民对H&M事件的评论大多持负面态度,要求H&M退出中国市场且不会再购买旗下产品。针对国货的讨论大多持正面态度,希望国货加油,但在李宁的相关评论中,网民讨论的热点更多地放在了代言人身上,本应当以产品及其质量出圈的国货商品,反被明星的热度压了一头。一部分网民表示支持,认为明星效应能提升销量;另一部分网民则认为,明星代言会让品牌方涨价,忽视自身产品的发展。
(二)相关建议
对于舆情事件本身,相关部门应正确把握舆论走向,避免造谣舆论充斥网络环境,引发社会恐慌;网民自身应当理性发表观点,不盲目跟风,合理消费;国货品牌应当提高自身硬实力,加强创新和品牌设计,不应当过多关注明星代言,忽视产品的发展。
六、结语
随着科技的不断进步,网络已深入人们的日常生活,网民可以针对不同事件发表自己的看法。“H&M禁用新疆棉”事件极大地伤害了中国消费者的情感,引爆了网络舆情,同时国民开始对国货进行思考。分析这一舆情事件,一方面可以把握网民对H&M品牌方的消极抵制态度,另一方面可以了解到明星效应为国货带来的熱度。国货应当加强创新设计,增强自身吸引力,实现长久发展。
参考文献:
[1] 中国互联网络信息中心.第49次中国互联网络发展状况统计报告[EB/OL].中国互联网络信息中心,http://www.cnnic.cn/ hlwfzyj/hlwxzbg/hlwtjbg/202202/P020220407403488048001.pdf,2022-02-25.
[2] 纪雪梅.特定事件情境下中文微博用户情感挖掘与传播研究[D].天津:南开大学,2014.
[3] 毛龙龙.基于LDA模型的微博情感分析技术研究[D].兰州:西北师范大学,2015.
[4] 安璐,吴林.融合主题与情感特征的突发事件微博舆情演化分析[J].图书情报工作,2017,61(15):120-129.
[5] 唐晓波,兰玉婷.基于特征本体的微博产品评论情感分析[J].图书情报工作,2016,60(16):121-136.
[6] 刘干,林杰豪,翟雯熠.基于中心词和LDA的微博热点话题发现研究[J].情报杂志,2021,40(5):143-148.
[7] 邱均平,沈超.基于LDA模型的国内大数据研究热点主题分析[J].现代情报,2021,41(9):22-31.
[8] 施聪莺,徐朝军,杨晓江. TFIDF算法研究综述[J].计算机应用,2009,29(6):167-170.
作者简介 王艺静,硕士在读,研究方向:信息资源管理。钱清,博士,副教授,研究方向:数据分析、信息可视化分析。