APP下载

体育赛事网络舆情的传播特征研究
——基于2019年女排世界杯的文本情感分析

2020-11-27王晓晨于文博

成都体育学院学报 2020年5期
关键词:词频中国女排女排

王晓晨,关 硕,于文博,李 芳

网络舆情是在一定的社会空间内,民众围绕社会热点事件的发生、发展和变化在互联网所表达的有较强影响力和倾向性的言论和观点的集合[1]。第45 次《中国互联网络发展状况统计报告》显示,截至2020 年3 月,我国网民规模达9.04 亿,互联网普及率达64.5%,我国手机网民规模达8.97 亿[2]。伴随着当代移动互联网的高速发展和社交媒体的急剧升温,社会舆论场域产生变革。各级各类网络社交媒体为社会热点事件评论、传播和舆论的形成、发酵提供了相对宽松的平台,受众得以通过快速和便捷的渠道表达观点、态度和立场,逐渐打破传统的媒介监督范式。体育作为社会的调节阀,体育赛事作为社会热点往往成为受众关注、热议的话题。一场重要体育赛事的输赢往往快速掀起网络舆论狂潮。在2019 年9 月进行的女排世界杯,中国女排不畏强手豪取11 连胜夺冠,成功卫冕,为祖国70 华诞献礼。习近平主席致电表示祝贺并会见了中国女排,女排精神成为了新时代“不忘初心、持之以恒”的不竭动力。“女排世界杯”这一赛事受众关注度高、持续时间长、影响范围广,特别正值建国70周年,具有特殊意义。现有研究针对司法、民生、医疗等社会问题的网络舆情研究较多,国内体育赛事舆情研究网络舆情的成果不多,国外体育赛事舆情研究散见于体育赛事危机管理文献之中,与本文论题“体育赛事网络舆情传播特征”直接相关的研究成果较少。杨帆的《网络舆论事件中微博评论的情感倾向及程度研究——以“于欢案”为例》和袁婷婷的《微博文本情感分析研究》从网络舆论事件的选取和研究方法的选用给予本文启发。本文以“2019年女排世界杯”这一体育赛事为研究背景,运用实证研究方法分析“中国女排”微博评论的时间序列、文本词频及文本情感,进而得出体育赛事网络舆情的传播特征,有助于了解、顺应并引导网络舆情。

1 研究方法与设计

本文采用文本情感分析的方法对“中国女排”微博评论文本进行情感分析与讨论。文本情感分析这一研究方法是综合计算机科学、自然语言学、数据挖掘和人工智能等多学科的新兴研究方法。目前文本情感分析主要有基于机器学习和词典两种方法,机器学习偏向于数据涵盖范围,词典方法更利于提炼特征。因为本文的研究对象是社交媒体的评论文本,而且微博语言具有显著口语化、网络词语使用频繁化等特征,文本情感多依赖于特殊情境和上下文语境[3]。从研究实际出发,本文将采用词典的方法,应用“瑞信科研情报采集分析系统”对相关数据进行情感分析进而归纳提炼舆情传播特征。

1.1 样本选择

“中国女排”作为中国女子排球队的行政官方微博,拥有400 万粉丝(截至2019 年12 月),日阅读数一直稳定在100 万以上,相关话题讨论热烈,是中国排球迷表达观点、态度、立场的重要舆论场。2019年9 月14 日-29 日在日本举行的女排世界杯是2020 年东京奥运会之前的重要练兵,引起了广泛关注。基于体育赛事报道遵循赛前、赛中和赛后的报道规律,通过对“中国女排”9 月9 日-13 日(赛前)、9 月14 日-29 日(赛中)和9 月30 日-10 月4日(赛后)共计26 天的微博数据进行观察,该微博账号共发布原创微博448 条,共计284 983 条评论。鉴于原始评论数据庞大,本文的数据要求为具有代表性的评论文本,需要进行数据抓取与预处理。

1.2 数据抓取

首先,本文运用Pycharm 对原始评论文本进行初步抓取,Pycharm 是由JetBrains 打造的一款Python开发工具,首先运用Python 语言编写程序,通过Pycharm运行代码并把网页内容以TXT 格式存档,爬取思路如下:

图1 微博评论文本数据爬取思路Figure 1 Mind map of microblog comment text data crawling

依照上图的爬取思路,笔者对2019 年女排世界杯“中国女排”官方微博的用户评论进行数据爬取,收集当天评论量最多的微博共计26 条,对这26 条微博下的一级评论文本进行数据收集,最终共采集有效数据7 910 条。

其次,微博评论文本预处理。利用Python 语言编写程序,将微博ID剔除,只保留评论文本内容,再利用ROSTCM 6 对文本进行预处理,具体包括分词,去除停用词以及删除空行以及重复行,最终整理出6 248 条评论文本。

最后,利用ROSTCM 6 对评论文本进行情感分析。具体包括评论文本的词频分析,情感极性以及情感强烈程度。

2 研究分析与讨论

按照研究思路,本部分将对全部微博评论进行时间序列分析,对有效微博评论文本进行词频和情感分析,进而得出体育赛事网络舆情的传播特征。

2.1 微博时间序列分析

2019年女排世界杯期间,伴随着比赛进程的深入,中国女排接连胜利并最终夺冠、习近平主席会见中国女排、中国女排参加国庆阅兵活动等焦点事件,掀起了网络体育舆情的高潮。通常情况下,网络舆情的演化过程分为开始、扩散、高潮和消退四个阶段,但各个阶段间没有十分鲜明的界限。针对不同类型的社会事件以及事件的严重程度,每个阶段的持续时间和影响力也不尽相同[4]。根据网络舆情的周期演化理论,以天为统计单位对“中国女排”官方微博的微博数据进行时间序列分析,得出日微博发布数量和日微博评论数量随时间变化的曲线图。

2.1.1 微博发布数量时间序列分析

图2 微博发布数量时间序列变化Figure 2 Time sequence variation diagram of microblog publication quantity

由图2 可见,“中国女排”微博发布数量的曲线图高低起伏,在中国女排的比赛日微博发布数量明显高于非比赛日,这符合体育比赛特别是较长的系列赛的媒体关注点变化曲线。其中日微博发布数量35 条以上的有4 天,分别是9 月15 日,9 月19日,9 月22 日和9 月29 日,这分别是中国女排战胜喀麦隆、日本、巴西和阿根廷的比赛当日。特别是9月19 日和9 月29 日发布数量达到43 条和35 条,分别是中国女排战胜宿敌巴西队和“十一连胜”的夺冠日。总体而言,“中国女排”在重要比赛日发布了数量较多的微博进行赛事的连续报道,发文数量曲线符合体育赛事的报道规律,在重要场次达到几次高潮点段。

2.1.2 微博评论数量时间序列分析

图3 微博评论数量时间序列变化Figure 3 Time sequence variation diagram of microblog comment quantity

图3 的曲线图清晰地显示在女排世界杯期间,网络舆情的演化路线。三个重要的时间点即9 月14 日中国女排比赛首日、9 月26 日中国女排完成七连胜进入冲金期、9 月29 日中国女排夺冠,将网络舆情的演化路线分为开始期、扩散期、高潮期和消退期。与其说日微博发文数量体现了社交媒体体育赛事报道的时间轨迹和报道阶段性特征的话,日微博评论数量则充分体现了网络体育舆情的变化曲线,完全是网民情绪的客观表达,其高潮点段则比较单一,与微博发布数量无显著性影响。

从时间序列变化图中可知,从9 月9 日至9 月13 日,微博发布数量为31 条,微博评论数量7 006条,网络舆情开始期,网民情绪低平,主要以“祝福女排”“积极备战”为主要议题。而9 月14 日,中国女排战胜韩国,获得开门红,当日便迎来了7 754 条评论,超过前5 天全部评论数量的总和,女排世界杯进入系列赛,网络舆情从开始期进入扩散期。在扩散期内,伴随着中国女排一次次地占胜对手,网民情绪日益高涨,评论数量与日俱增,在9 月14 日-9月24 日期间,日均微博评论数量为8 116 条。从评论数量来看,高潮期的到来源于中国女排夺冠的重要时刻,从9 月27 日-9 月29 日,微博评论数量为18 595 条、82 088 条、52 032 条。特别是9 月28 日,中国女排胜塞尔维亚,以十连胜的成绩提前一场卫冕世界杯冠军,达到了高潮期的峰值。随即从9 月30 日至10 月4 日,微博评论数量日渐减少,网络舆情进入消散期。

2.2 微博文本词频分析

词频分析法源于情报学。利用词频分析能够描述和预测产业、事物发展趋势,判断事物之间的关联性。词频的某些波动与社会现象、情报现象的波动存在着内在联系[5]。词频分析同样适用于网络舆情研究,通过分析评论文本的高频词汇,能够反映出受众对某一社会热点事件的整体态度、观点和立场。大众传播媒介作为公共话语空间,建构出的网络舆情深深影响着民众对社会及社会关系的认知。微博作为当下最主要的社会化媒体之一,微博的评论文本内容无疑是网民最直观的看法。2019年女排世界杯,“中国女排”发布微博的评论文本内容能够充分反映大型体育赛事的网络舆情热点。在有效的6 248 个评论文本中,共出现了301 个词语,图4 为词频排名前100 的词语可视化分布图。

图4 2019 年女排世界杯“中国女排”微博评论文本词频Top100 的词语可视化Figure 4 The word visual cloud of“Chinese Women's Volleyball Team”microblog comment text word-frequency top 100 in 2019 Women's Volleyball World Cup

如图4 的词语可视化云图显示,微博评论文本中词频Top100 的词语中,出现频次越多,则字体越大。词频达到500 以上的按照次数多少依次为“加油”“女排”“中国女排”“女排”,具体次数为1 570次、1 283 次、1 245 次和515 次。这些出现频率比较高的词语一定程度上构建了中国女排参加世界杯比赛的焦点事件,并且表现为受众为女排加油助威的正向情感。另外,词频出现100 次以上的词语见表1,在全部微博评论文本中,出现最多的是为中国女排加油的词语,与此同时,中国女排的焦点人物主教练“郎导”“朱婷”“婷队”亦分别出现了334 次、209 次和124 次,体现了体育竞赛中教练和核心球员的重要作用。另外,关于此次赛事战绩相关的“世界杯”“比赛”“冠军”“卫冕”亦分别出现了515次、216 次、187 次、100 次,体现了体育竞赛中赛事结果的受关注程度。体育比赛往往掺杂着受众的情感偏向,特别女排夺冠又正值祖国喜迎70 华诞,因此“祖国”“骄傲”“升国旗”“奏国歌”这样的词语也反复出现,亦体现了国庆前后网络舆情的主要议题。

表1 微博评论文本词频100 以上的词语列表Table 1 Theword chart of microblog comment text word-frequency above 100

2.3 微博文本情感分析

2.3.1 微博评论文本的极性统计

运用大连理工情感词汇本体库、沈阳团队ROSTCM分词系统做基础词库的同时,通过笔者的观察和收集,整理出包括有关中国女排的专业用语以及网络流行词语的自定义词库,并将自定义词库导入ROSTCM6 文本分析工具的分词字典[6]。对6 248条评论文本的情感极性进行计算,发现积极情绪(情感倾向值>0)为3 275 条,占52.42%;中性情绪(情感值=0)为2 135 条,占34.17%;消极情绪(情感值<0)为838 条,占13.41%,网民的情绪分布对比详见图5。可以从下图清晰地看出女排世界杯网民情绪以积极情绪和中性情绪为主,消极情绪占比较少。虽然网民的微博评论有一定数量的消极情绪,但是总体都是积极乐观的,这与中国女排取得的较好成绩有密切关系。

图5 网民情绪分布对比(单位:百分比)Figure 5 The comparison diagram of internet users sentiment distribution

2.3.2 微博评论文本的正向情感结果

2019 年中国女排世界杯,中国女排是以11 连胜卫冕夺得冠军,因此网络舆情以网络积极情绪所带动的正向情感占总评论量的52.42%,达到1/2以上。通过对3 275 条带有积极情绪的评论文本的情感倾向值大小进一步分析,其中,积极情绪分段统计结果如下:高度正向[20,+∞)共655 条,占比10.48%;中度正向[10,20)共973 条,占比15.57%;一 般 正 向(1,10)共1647 条,占 比26.36%。通过对情感倾向值进行统计计算,将正向情感结果中高度正向、中度正向、一般正向三个区间段的最高、居中和最低的各3 个文本列表如下。

表2 正向情感各区间代表性微博评论文本Table 2 Representativemicroblog comment text in each range of positive sentiment

续表2

从表2 可以看出,即便是积极情绪的微博评论文本,也通过句式、词性等体现出高度、中度、一般的区间。积极情绪的评论文本中,情感倾向值较高的词语为“胜”“赢”“加油”“喜欢”“骄傲”“震撼”等相信、赞扬、支持、祝愿的情感类型文本。

2.3.3 微博评论文本的中性情感结果

2019 年女排世界杯,“中国女排”的微博评论中,中性情感结果的文本有2 135 条,占比34.17%。这些中性微博评论文本并无褒贬之意,受众只是单纯客观地进行赛事评论,其情感倾向值显示为0。有相当部分的网友是以理智的心态客观评论女排的战绩,无明显使用包括赞扬、相信、怀疑、贬责、悲伤等情感类型的词语。代表性文本如下,“升国旗,奏国歌,迎国庆。”“所有的成功都不是偶然,中国女排辛苦了!”“愿明年东京再度卫冕。”“中国女排世界第一实至名归。”“看中国女排和看中国男足一样,基本无悬念。”“当家花旦——朱袁张”。

2.3.4 微博评论文本的负向情感结果

对全部负向情感结果的838 条微博评论文本进行情感极性的统计计算,得到一般负向(-10,0)共629 条,占10.06%;中度负向(-20,-10)共190条,占3.04%;高度负向(-∞,-20)19 条,占0.30%。可以看出,本身就占比较少的负向微博评论,高度负向又是凤毛麟角,将正面情感结果中一般负向、中度负向、高度负向三个区间段的最高、居中和最低的各3 个文本列表如下。

表3 负向情感各区间代表性微博评论文本Table 3 Representativemicroblog comment text in each range of negative sentiment

从表3 可以看出,负向情感的文本多表达失望、贬责、憎恶、烦闷、担心等的情感类型文本,出现频率较高的词语是“辛苦”“哭”“死”等词语。这些文本虽然表达的惧、哀、怒、恶的负向情感,即便是高度负向,情感倾向值不是很低,很多表达是出于心疼、惋惜等特殊情境和上下文语境。

3 体育赛事网络舆情传播特征的实证分析

3.1 体育赛事网络舆情情感演化特征

3.1.1 体育赛事网络舆情情感演化的阶段属性

根据网络舆情事件周期演化理论,结合上文2019 年女排世界杯“中国女排”官方微博相关数据的时间序列分析,得出体育赛事网络舆情同一般社会热点事件一样,情感演化具有明显的阶段特征,分为开始、扩散、高潮和消退四个阶段,但是其每个阶段的分界点相对于一般社会热点事件要更加清晰。2019 年女排世界杯的网络舆情主要通过体育比赛的焦点时刻即比赛首日、进入冲金期、夺冠日为时间结点分为开始期、扩散期、高潮期和消退期。开始期网民对于体育赛事所持的态度为观望、期待,中性情绪占据主导;扩散期网民对于体育赛事所持的态度很大程度上取决于比赛成绩及教练、队员的表现,中国女排因为成绩较好,所以网民态度逐渐转变为惊喜、相信;以“女排夺冠”为主要议题的高潮期评论数量激增,评论文本中积极情绪占据主导,网民参与度高,这一时期网民评论文本的情感倾向很大程度上决定了体育赛事网络舆情情感演化的总体趋势;消退期网民对舆情事件的最新动态敏感度较高,关于“习近平主席会见中国女排”“中国女排参加国庆阅兵”等动态新闻给予持续关注,但是总体关注度较低[7]。

3.1.2 体育赛事网络舆情情感演化的观点极化

2019 年女排世界杯,“中国女排”发布微博的数量和内容基本遵循体育赛事报道的客观规律,随着比赛进程的深入,在时间序列上呈现了大小高潮的演进路线。与体育赛事报道可以进行议程设置不同的是,在虚拟网络空间内,像体育赛事这样的社会热点事件不会马上形成网络舆情,网络舆情的情感演化依赖于网民之间的交互行为,是信息汇聚互动的过程。由纷呈复杂、观点各异的微博评论内容所构成的网络舆情是零散的、非系统化的东西,是包括积极情绪、中性情绪和消极情绪多种不同意见的集合。多数情况下,体育赛事网络舆情在开始期由于赛情的不明朗,往往呈现不同的态度和观点;伴随比赛进程的深入,经过扩散期的网民交互,某类态度和观点被更多人点赞、评论,越引发网民围观,网络舆情热点慢慢涌现;进入高潮期,许多开始期的“自由观点”在经历了扩散期网络舆情演变的“马太效应”后,会出现“观点极化”现象[8]。进入消退期,比赛尾声,“观点极化”现象逐渐消退。这次女排世界杯,“为祖国70 华诞献礼”就是在情感演化过程中逐渐形成的带有明显积极情感的正向极化观点。

3.2 体育赛事网络舆情信息汇聚特征

3.2.1 体育赛事网络舆情信息汇聚的社会化特征

社会化媒体信息传播的便利性,使得网民的各种态度和观点得以充分表达。网民可以将自己的积极情绪、中性情绪和消极情绪以微博评论的形式进行民意抒发,这就极大地加快了信息汇聚的过程。2019 年9 月28 日,“中国女排”官方微博“中国女排以十连胜的战绩提前一轮夺冠卫冕世界杯冠军”微博转发量3.4 万、评论量1.3 万、点赞量10.1万,体育赛事网络舆情瞬时完成信息汇聚过程。移动互联网的全面普及,庞大的手机用户群体通过互联网进行信息交互和汇聚,在现实社会分散的网络用户通过信息交互和汇聚形成社会化网络,互联网的工具属性逐渐转变成社会属性。体育作为社会的调节阀,体育赛事又是体育迷表情达意、排解心情的重要渠道,部分体育迷将自己内心的情感借助评论文本进行情感表达,以这样的信息汇聚方式演变成网络舆情。网民的评论通常夹带着观点认同、情感认同、价值认同,所以才会衍生成不同情感倾向的网络舆情。体育赛事网络舆情的情感倾向很大程度取决于赛事的结果,就比如女排世界杯的网络舆情的积极情绪占比较高;而于同年9 月举办的男篮世界杯,由于中国男篮的糟糕战绩,网络舆情基本呈现消极情绪一边倒的态势。

3.2.2 体育赛事网络舆情信息汇聚的族群意识

由于体育本身具有全球性,体育赛事是一种跨国家、跨地域,全世界可以共享的媒介文化[9]。倘若在全球范围内分析体育赛事网络舆情,不难发现舆情在信息汇聚的过程中不可避免地具有族群意识。2019 年女排世界,“中国女排”微博评论文本中的高频词汇像“加油”“必胜”“恭喜”“厉害”这种情感倾向值较高的正向词汇占据主导,同时像“中国女排”“中国”“祖国”“中国队”“日本”“巴西”这种带有地域属性的名词也是高频词汇,因此经常出现“中国队加油”“中国女排加油”“女排必胜”这种带有明显自身标签的评论。族群意识是一种民族认同感的表达,体育赛事网络舆情在信息汇聚的过程,网民或出于民族的认同,或出于心理或者地理的接近,形成极强的族群意识。特别是这次女排世界杯比赛,中国女排再次诠释了“女排精神”,适逢祖国70 周年华诞,微博出现大量的将中国女排的胜利跟祖国的繁荣昌盛相关联的评论文本,这不仅源于体育本身的族群意识,更是在信息交互的汇聚过程中将族群意识强化。因此,也可以说,体育赛事网络舆情在特定时间和一定场域内能够起到振奋人心并提高民族凝聚力的作用。

3.3 体育赛事网络舆情文本语言特征

3.3.1 体育赛事网络舆情文本语言的娱乐化表达

在所有媒介致力于为受众提供娱乐的时代,我们的问题不在于媒介展示具有娱乐性的内容,而是在于所有的内容都以娱乐的方式表现出来[10]。在整个网络社会被娱乐思潮席卷和体育新闻自身娱乐化的影响下,体育赛事网络舆情同样呈现出娱乐化的表达方式。观看体育比赛已经成为人们娱乐生活中不可或缺的一部分,以娱乐化的方式进行表达的微博评论文本语言,同时也正在影响体育话语风格。体育迷在表达意见时往往会使用创新词汇,打破语法规则从而达到娱乐化效果,例如空耳谐音现象、网络流行语的使用、夸张化的表达等等,网络平台的包容性让微博评论的文本语言的娱乐性得到完美诠释。例如,女排世界杯的微博评论文本多次使用了“C位”“收下我的膝盖”“最美女团”等或夸张或流行的词汇,文本语言显得轻松活泼。同时娱乐化的文本语言常常包括对某只球队或某位球员的吐槽调侃,例如“中国女排感动到观众哭,中国乒乓球打到对手哭,中国男篮被对手打到哭,中国男足呆在家里哭”在表达了对中国女排的正向情感同时,又含沙射影地抨击了中国男足和男篮的糟糕战绩,个性且幽默的表达吸引更多的人进行信息交互从而形成舆情。

3.3.2 体育赛事网络舆情文本语言的情感化表达

通常情况下,微博用户进行的每一条评论都是一句或一段包含众多词语的文字,即便是去除停用词,剩余的文字都包含不同的情感。通过上文对微博文本进行情感分析,不难发现,体育赛事微博评论构成的网络舆情是充斥着各种情感的综合体。网络空间的体育迷对体育赛事进行的预测、分析和评价,相比于客观、严肃的传统媒体体育评论,能更加准确、具体地反应出用户即时的态度和情感。由于体育赛事本身也是体育迷情绪宣泄的平台,文本语言就呈现出更加强烈的情感倾向。文本语言会呈现“必胜”“厉害”“漂亮”这些代表相信、赞扬、喜爱主要情感类型的正向词汇表达热爱和鼓励的正向情感,也会呈现“垃圾”“真的菜”“傻瓜”这些代表失望、愤怒、贬责主要情感类型的负向词汇表达悲伤和怀疑的负向情感;除此之外,还会出现“我觉得…”“…应该”“感觉…”这种带有心理动词的句式来表达自身观点,虽然没有特别明显的情绪表达,但是从更理性的角度表达自己的态度和观点。因此,无论是饱含正向和负向情绪词汇的使用还是自身观点的表达,都说明体育赛事网络舆情的文本语言是具有明显的情感化表达特征。

4 研究结论与建议

本文以2019 年女排世界杯为例,通过对“中国女排”微博评论文本进行统计与分析,对体育赛事网络舆情的情感演化特征、信息汇聚特征和文本语言特征进行探究,研究发现:(1)体育赛事网络舆情与一般社会热点事件相比,具有更加明显的情感演化阶段特征,并且在信息交互和汇聚过程中逐渐形成极性观点。(2)现实社会分散的网络用户通过互联网进行信息交互和汇聚形成社会化网络,体育赛事的特殊属性在形成网络舆情的过程中将族群意识强化。(3)结合网络社会和体育赛事的特征,体育赛事网络舆情的文本语言兼具娱乐性和情感性的双重表达。

依据研究结果,本文为有关部门进行体育赛事网络舆情监管和引导提出建议:(1)跟踪舆论热点,加强媒体管理。关注体育赛事网络舆情不同时期的情感变化和可能出现的极性观点,针对性地选择内容重点推荐以提高用户的关注度从而有效引导网络舆论。(2)关注意见领袖,引导舆情传播。网络平台管理者可以对引导相关体育话题的意见领袖的传播内容和方式加以监管,形成客观积极的舆论导向。(3)控制负向情绪,避免网络谣言。避免负向情绪汇聚过快导致的群体极化现象,加强新闻发布强度,避免谣言产生和扩散,营造良好的体育赛事网络舆情环境。

猜你喜欢

词频中国女排女排
中国女排《夺冠》之路
女排精神,历久弥新
女排世界杯夺冠电视观后作(外四首)
中国女排:争夺奖牌往上冲
永远拼搏的女排精神
事件
王者归来
词频,一部隐秘的历史
汉语音节累积词频对同音字听觉词汇表征的激活作用*
郎平,永远花季