微博舆情情绪表达差异研究
——以“中美贸易战”为例
2021-07-20王志刚邱长波
王志刚 邱长波 崔 晶
(吉林大学管理学院 长春 130022)
近年来,随着互联网的发展,社会舆情常常借助网络平台迅速传播,舆情的表现形式也发生了变化,包括论坛发帖、微博、电子邮件等[1],这种新形式的舆情被称为网络舆情[2]。
网络舆情一词是我国独创的概念,极具中国特色。目前学术界对网络舆情的概念还没有统一认识。林海霞认为网络舆情是用户对自己关心或与自身利益紧密相关的公共事务所持有的多种态度、意见的总和[3]。蒋知义认为网络舆情是用户通过互联网平台表达自己对社会发生的热点事件所持有的不同看法,是用户态度、认知、行为和情感倾向的集合[4]。宋海龙认为网络舆情是指在网络空间内围绕舆情因变事项的发生、发展和变化,用户对政府管理以及现实社会中各种事件、现象、问题所表达的社会政治态度[5]。学者们对网络舆情这一概念的定义虽有差异,但也有共同之处,即网络舆情是用户发表的观点、态度以及情绪。
网络舆情之所以含有大量的情绪,原因有三点:a.当前我国社会正处于转型期,社会矛盾虽然发生了变化,但仍然存在,容易引起用户的关注和讨论[6]。b.用户参政意识逐渐提高[7],对于接触到的社会事件,都会倾向于表达自己观点和情绪。c.网络平台扩大了信息的传播范围[8],使事件的发展过程透明化,成为了民众获取信息和发表观点的重要窗口。又由于网络平台的匿名性特点,减轻了用户的言论报复。
可见,情绪已经成为了网络舆情的关键要素。本研究针对网络情绪,以“中美贸易战”为研究案例,在了解事件整体情绪分布的基础上,探究用户身份和事件主题在情绪表达上的差异,有助认识网络舆情中的情绪特点,制定有针对性的情绪管控策略。
1 文献回顾
本文的情绪表达指的是微博内容所表现出的情绪类型和情绪强度,情绪表达差异的研究,主要涉及两个问题:一是需要识别出微博内容中的情绪;二是找出引起情绪差异化的因素,下面分别对这两方面的研究现状进行综述和分析。
1.1情绪的测量网络情绪测量的实质是文本分类问题,目前的分类方法主要包括:基于词典的方法、基于监督学习的方法[9]。基于词典的情绪分类方法可以根据需要将情绪分为多种类型进行研究,基于监督学习方法的微博文本情感分析主要研究目标是实现文本的分类,主要将文本分为积极、消极和中立三种类型[10]。敦欣卉等人采用了大连理工大学情感词汇本DUTIR的分类方法对微博进行情感分析,并计算了情感强度,该方法有较高的识别率和可靠性[11。王志涛指出针对微博而言,对比基于情感词典和机器学习方法下的文本情感分类效果,实验发现,随着测试语料数量的增加,基于情感词典的分类性能保持稳定,并优于机器学习方法[12]。Tang等人设计了一种用于情感分析的深度学习系统.该系统通过将特定情感词向量与手工选择的表情符号、语义词典等特征相结合,并利用SVM进行情感分类.该系统在Twitter情感语料库上的准确率可达87.61%[13]。雷龙艳提出了一种基于情感词汇本体的多策略集成分析法,实现对中文微博的细粒度情绪分析,实验表明该算法对情绪的分类效果良好[14]。
本文的分析需要将情绪分为多种类型,因此采用敦欣卉的情绪分类方法最为合适,该方法基于大连理工大学情感词汇本体库[15],将情绪分为7类:高兴、喜好、悲伤、愤怒、恐惧、厌恶、惊讶。并且为了计算出每类情绪的情绪强度,还综合考虑了否定词以及程度副词对情感强度的影响,引用了否定词表和程度词表,并将其赋予不同的权重,以便计算情绪强度。
1.2网络情绪表达的影响因素根据现有研究,用户情绪主要受到社会因素、个体因素和事件因素的影响。社会因素主要包括社会环境和大众传媒,就社会环境而言,我国正处于社会转型期,现有监管机制不完善,因此中国更倾向于抑制情绪表达,特别是消极情绪的表达[16]。就个体因素而言,目前对性别差异的研究比较丰富,很多学者[17-20]的研究都表明女性比男性具有更丰富的情绪并表达的更充分,但个体情绪也受到年龄、教育水平等因素的影响,Levenson和Carstensen采用实验的方法研究了年龄对情绪表达的影响,都证明出了情绪表达行为随年龄下降这一可能性。卢家楣从教育水平的角度出发,证明专科生表现出比本科生更强的情绪表达能力[21]。就事件因素而言,不同特征的事件,会影响到用户的情绪表达,周莉的研究证明事件特征会影响到网络情绪的归因[22],叶勇豪的研究表明包含不同道德基础的事件与不同的道德情绪相关联[23]。
影响情绪表达的因素,除现有研究以外,用户身份和事件主题两个因素也会起到重要的作用。就用户身份而言,网络舆情相比传统舆情,具有匿名性的特点。一些研究证明了匿名性对网络去抑制化效应的影响[24],处于匿名状态下,普通用户在互联网中的表达将更加开放,尤其是负面情绪,这也使网络舆情呈现出全新的特点。就媒体用户而言,新媒体的报道不再仅阐述客观事实,而是越来越具有争议的话题、越来越出格的言论,而这些要素都直接推动了情绪的发酵[25]。与普通用户和媒体用户相比,政府在网络舆情中肩负着社会责任,主要发挥着四种功能:拓展沟通的触角、更新信息、发布和分享信息、与外界建立良好的关系与协作[26],以达到稳定民众情绪的目的。就事件主题而言,微博用户对事件的认知和关注程度是有差异的,因此对事件中的不同主题产生的反应也不一致。赵晓航对主题情感进行研究,结果显示不同的主题内容能够影响舆情负面情绪的升降[27]。姜金贵对主题和情绪之间的相互作用进行了研究,结果显示主题会严重影响到事件中用户的情绪[28]。黄发良的研究也表明微博情感与其讨论主题密切相关[29]。
当前研究已经验证了用户身份和事件主题两个因素对用户情绪的影响,并没有阐述这两个因素的情绪表达差异,在前人的基础上,本研究将情绪表达特点分为是否表达情绪和情绪强度,采用内容分析技术对网络表达文本进行细粒度的情绪分类以及主题提取,并识别出用户的身份,研究以下两个问题:
问题1:不同用户身份和事件主题的相关微博在是否表达情绪上存在哪些差异?
问题2:不同用户身份和事件主题的相关微博在情绪表达强度上存在哪些差异?
2 研究设计
2.1研究数据研究数据来源于新浪微博平台,使用Python爬取“中美贸易战”事件的相关微博内容以及用户身份,共计50 000条,微博文本中含有大量的html字符,并且转发的微博中会存在原微博内容,会对之后的分析产生干扰,因此对数据进行清洗,确保文本的所有内容只表达了该用户自身的观点。经过数据清洗后,微博文本会出现空值以及无意义的值,这样的微博不予保留,最后保留35 331条有效数据。
2.2变量设定研究中涉及的自变量为用户身份和事件主题,用户身份分为政府、媒体和普通用户,在原始数据中可直接得到;事件主题是采用LDA方法从微博文本中提出得到的(主题词表见表1),分为产生原因、争端影响、应对措施和未来展望。
表1 微博主题提取结果
研究的因变量有两个:一是用户发布的微博中是否含有情绪(1为有情绪,0为无情绪);二是用户发布的微博的情绪强度,本文参照大连理工大学情绪词典的分类方法,将情绪分为7类,并可计算出情绪强度,具体计算方式如下:
用p表示一条微博,使用jieba工具对其分词后,识别出每一个情绪词以及情绪词前的否定词和程度词。由于在情绪词典中将情绪分为7类,因此,计算一条微博的情绪时,需要计算每一种情绪的情绪强度,对于第i种情绪,第j个情绪词,其情绪强度为:
pij=(-1)naijeij(1≤i≤7;j>0;n≥0)
(1)
其中,n为第i种情绪第j个情绪词前否定词的个数,aij为第i种情绪第j个情绪词前的程度词对应的程度倍数,eij为第i种情绪第j个情绪词对应的情绪强度。对一种情绪的情绪强度进行综合计算,即将属于该种情绪的所有情绪词的情绪强度进行加和,公式如下:
(2)
其中,m表示第i种情绪的情绪词数量。根据此公式,每条微博都可以得到7种情绪的情绪强度,微博最终情绪强度取其中最大值,情绪值为最大情绪强度对应的情绪,公式如下:
E=maxpi(1≤i≤7)
(3)
3 数据分析
3.1描述性统计分析对用户身份、时间主题和情绪进行统计,结果见表2。
表2 微博变量信息
在发布微博的主体中,媒体有1 632个(占比4.6%),普通用户有3 354个(占比94.4%),政府有345个(占比1.0%)。这也符合网络舆情的主体特点,普通用户是网络舆情的主要力量,媒体和政府的数量较少。
根据微博中是否含有情绪词将微博分为有情绪微博和无情绪微博。据统计,在收集到的35 331条微博中,有情绪微博有26 974条(占比76.3%),无情绪微博有8 357条(占比23.7%),这也符合微博的整体环境,用户倾向于表达自己的观点和态度。微博在情绪类型分布上,喜好的占比最高,为40.5%;厌恶的占比次之,占比17.7%;悲伤、惊讶、恐惧、高兴和愤怒5种情绪的占比较低。在情绪强度分布上,高兴和厌恶的情绪强度较高,均值分别为18.79和16.90,其次是喜好和愤怒,均值分别为10.19和9.30,恐惧、惊讶和悲伤的情绪强度较低,分别为8.76、7.72和6.89。可以看出,喜好和厌恶的情绪占比和情绪强度都较高,成为此事件中的主导情绪。
微博主题的统计结果显示,产生原因有6 615条(占比18.7%),未来展望有1 214条(占比3.45%),应对措施有1 854条(占比5.2%),争端影响有25 648(占比78.3%)。可见网民对事件产生原因和争端影响的讨论较多,对未来展望和应对措施的讨论较少。
3.2情绪表达差异分析
3.2.1 微博情绪表达的概率差异 问题1中,是否表达情绪作为因变量,是二分类变量,自变量即各相关因素均为分类变量,综合考虑采用 Logistic 回归模型最适合分析解释变量对被解释变量的影响。Logistic回归模型的表达形式为:
(4)
其中,Pi为在给定解释变量xi值时的发生概率,βi为回归系数。
本研究分别以用户身份和主题作为自变量,是否表达情绪作为因变量建模,结果显示以用户身份和事件主题作为自变量的模型系数都通过了检验(Sig.=0.000),说明用户身份和事件主题在是否表达情绪上存在显著差异。
不同身份、不同主题的微博在表达情绪概率上的差异情况见表3。
表3 不同用户身份、主题的情绪表达概率差异
对于用户身份,由于参照水平为政府用户,因此媒体用户较政府用户使Logitp平均增长0.369个单位,正向影响情绪表达概率,结合OR值可知,媒体用户的OR值是政府用户的1.447倍,且有95%的把握在1.502~1.990之间,说明媒体用户表达情绪的概率是政府用户的1.447倍。普通用户相比政府用户而言,使Logitp平均增长-0.462个单位,负向影响情绪表达概率,结合OR值可知,普通用户的OR值是政府用户的0.630倍,且有95%的把握在0.475~0.837之间,说明普通用户表达情绪的概率是政府用户的0.630倍。
对于事件主题,由于参照水平为争端影响,从系数来看,产生原因相比争端影响使Logitp平均增长0.133个单位,正向影响情绪表达概率,结合OR值可知,产生原因的OR值是争端影响的1.142倍,且有95%的把握在1.071~1.218之间,这说明产生原因的情绪表达概率是争端影响的1.142倍。未来展望未通过验证,因此不具有统计学意义。应对措施较争端影响使Logitp平均增长0.500个单位,正向影响情绪表达概率,结合OR值可知,应对措施的OR值是争端影响的1.649倍,且有95%的把握在1.372~1.982之间,说明应对措施的情绪表达概率是争端影响的1.649倍。
总之,政府、媒体和普通用户在表达情绪上存在显著差异,媒体表达情绪的概率更高,其次是政府,最后是普通用户;在不同主题中,相关微博含有情绪的可能性存在显著差异,产生原因和应对措施两个主题的相关微博含有情绪的概率更高,争端影响和未来展望两个主题的相关微博含有情绪的概率较低。
3.2.2 微博情绪表达的强度差异 问题2中,由于因变量情绪强度连续变量,自变量即各相关因素均为分类变量,因此采用单因素方差分析的方法,分别分析用户身份在用户情绪强度上的差异以及不同事件主题中用户情绪强度上的差异,见表4。
表4 用户身份与事件主题和情绪强度的单因素方差分析
续表4 用户身份与事件主题和情绪强度的单因素方差分析
由表4可知,用户身份在事件主题在愤怒、惊讶两种情绪的显著性大于0.05,未通过检愤怒、高兴、悲伤、恐惧和惊讶这5种情绪的显著性均大于0.05,未通过检验,因此用户身份在情绪表达强度上不存在显著差异,而在厌恶、喜好这两种情绪的显著性小于0.05,且F值较高,因此在情绪表达强度有着显著影响。验,因此在情绪表达强度上不存在显著差异;而在厌恶、喜好、高兴、悲伤和恐惧五种情绪的显著性均小于0.05,且F值较高,因此事件主题在情绪表达强度上有着显著影响。
单因素方差分析只能检验控制变量对观测变量是否会产生显著影响,并不能检验控制变量在不同水平下对观测变量的影响程度如何。因此需要用事后多重比较的方法来检验控制变量在不同水平对测试变量的影响程度,由于方差齐性检验结果显示观测变量存在显著差异(Sig=0),所以选择未假定方差齐性的方法Tamhane’s T2来进行检验。
用户身份的多重比较检验结果见表5。
表5 用户身份的多重比较检验
由表5中的平均差异可以看出,对于厌恶情绪,政府用户和媒体用户的厌恶情绪表达强度显著高于普通用户。对于喜好情绪,政府用户在表达情绪喜好时的强度最高,媒体用户次之,普通用户的情绪强度最低。
事件主题的多重比较检验结果见表6。
表6 事件主题的多重比较检验
由表中的平均差异可以看出,用户在表达厌恶情绪时,产生原因相关微博的情绪强度低于另外3个主题。用户在表达喜好情绪时,应对措施相关微博的情绪强度最高,争端影响和未来展望次之,产生原因的情绪强度最低。用户在表达高兴情绪时,应对措施相关微博的情绪强度最高,争端影响次之,产生原因和未来展望的情绪强度最低。用户在表达悲伤情绪时,争端影响相关微博的情绪强度最高,产生原因和应对措施的情绪强度较低。用户在表达恐惧情绪时,应对措施相关微博的情绪强度较高,未来展望的情绪强度较低。
4 总结与讨论
本研究以“中美贸易战”事件为例,参照大连理工大学情绪词典的分类方法,将情绪分为7类,根据用户身份和微博主题内容来研究情绪表达特点,得到以下结论:
4.1不同身份类型的用户在表达情绪上存在显著差异其中,情绪表达概率最高的是媒体,其次是政府,普通用户表达情绪的概率最低;并且用户身份在表达厌恶和喜好的情绪强度上存在显著差异,其中,政府用户和媒体用户的厌恶情绪表达强度显著高于普通用户,政府用户在表达情绪喜好时的强度最高,媒体用户次之,普通用户的情绪强度最低。
产生这种差异的原因,与用户身份在事件中作用以及事件的性质有关,与普通网络舆情事件不同,“中美贸易战”的两个涉事主体为两个国家,政府作为国家的代表,成为了事件中的关键要素,面对特朗普政府对华的频频挑衅和限制,中国政府需要谨慎应对,不能随意表达情绪,但需要的时候必须要表明自己的观点和态度,稳定民众的情绪,发挥政府在信息发布和分享方面的功能,引导舆情向好的方向发展,这在本研究中也得到了验证。而普通用户对该事件最直观的感受是股市的动荡、物价的上涨等,对于事件背后的政治阴谋,并没有很清楚的认识,因此在表达情绪的可能性和强度相对较低。媒体相较于普通用户来说,在舆情传播方面具有权威性,同时也兼具一定的社会责任,媒体会对网络事件进行深入挖掘,形成专业性报道,并发表自己的观点态度来引导普通用户,媒体的情绪通常会建立在事实的基础上,因此情绪强度不会偏高。总体来看,普通用户在表达情绪上更保守,媒体用户在表达情绪上更开放,政府用户相对谨慎。
除厌恶和喜好之外,不同身份的用户在愤怒、高兴、悲伤、恐惧、惊讶5种情绪的表达强度上无显著差异,主要原因是,厌恶和高兴是整个事件重点中的主导情绪,占比较高(见表1),而其作5种情绪在事件中的占比较低,代表性弱,导致结果不显著。
4.2不同主题中微博的情绪特征存在差异其中,不同主题中微博是否含有情绪的概率存在显著差异,产生原因和应对措施两个主题的相关微博含有情绪的概率更高,争端影响和未来展望两个主题的相关微博含有情绪的概率较低;并且,不同主题中微博在厌恶、喜好、高兴、悲伤和恐惧5种情绪的表达强度上存在差异,综合来看,事件产生原因和未来展望的相关微博的情绪强度较低,应对措施和争端影响的情绪强度较低。
产生这种差异的原因,与事件主题的特征有关,事件的产生原因属于客观事实,不会引起网友的持续关注和强烈的情绪波动,未来展望的预测需要有专业的知识和判断能力,其重点是描述未来的状况,而不在于情绪,因此事件产生原因和未来展望的相关微博情绪强度低;而争端影响和应对措施,与所有人的生活息息相关,在事件发展的整个过程中,会引起持续的关注和大量的讨论,情绪共鸣较强烈,因此这两个主题的相关微博情绪强度较高。
当然,本研究对网络舆情中的情绪表达研究也存在不足之处。首先以特定的事件为例进行研究,由于事件的特殊性,其结论并不适用于所有的网络舆情,因此在今后的研究中可以根据网络事件的特征,进行分类研究,从而得到普适性更高的结论。其次,变量选择上,本研究在用户特征和内容特征上各选择一个纳入研究,在今后的研究中可以选择更多的变量,对用户和微博内容进行更多维度的刻画,探究其在情绪表达中的作用。