基于微博用户的情绪变化分析
2016-12-19汪静莹甘硕秋刘天俐朱廷劭
汪静莹, 甘硕秋, 赵 楠, 刘天俐, 朱廷劭†
(1 中国科学院心理研究所中国科学院行为科学重点实验室,北京 100101; 2 中国科学院大学,北京 100049; 3 北京大学人口研究所,北京 100871)(2016年1月29日收稿; 2016年4月13日收修改稿)
情绪是一种主观体验,是人们对客观事物的身心反映[1].按照情绪的效价可将情绪分为积极情绪(如高兴、乐观、活泼)和消极情绪(如悲伤、抑郁、焦虑、恐惧).达尔文认为情绪是人类在进化过程中为了适应环境演化而来的一种生存方式[2],如恐惧让人远离危险物,悲伤可以换取他人的同情,倾听烦恼和分享喜悦都能够增进与他人的相互关系.情绪一方面能够帮助人们适应自然环境,另一方面能够帮助人们融入社会环境.无论是趋利的积极情绪还是避害的消极情绪,二者都是有利于个体生存的.
人的情绪变化也会影响人的感情、对事物的敏感性和理解能力、创造性以及相关心理机能.人的情绪变化从表面上看变幻莫测,但是遵从一定的规律.通过研究情绪的变化规律,掌握人们的情绪变化节律,能够帮助我们更好地学习和生活.人们针对情绪的影响因素及其变化节律的研究由来已久.情绪有一部分受到先天因素的影响,如Etain等[3]发现情绪障碍与某些控制生物节律的基因有关.情绪也受日常作息、生活习惯等后天因素的影响.Golder和Macy[4]发现有着“夜猫子”生活模式的人的情绪变化与普通人不同,因为他们的生活作息是黑白颠倒的.Mikolajczak等[5]发现饮食、身体锻炼等生活习惯对情绪是有显著影响的,健康的饮食和合理的身体锻炼有助于保持良好的情绪.性别对情绪也有影响.Kring和Gordon[6]认为女性比男性更善于表达情绪.面临同样的事情时,女性比男性更热衷于与他人分享自己的心情.
社交媒体的出现为情绪变化研究带来了新的机会.人们越来越习惯于将自己的行为和感受展示在网络上,新浪微博每天的微博量多达2.5亿条[注]数字来源于《2013年中国人权事业的进展》白皮书第4部分“言论自由权利”中的统计结果..如果能够利用如此庞大的数据提取有效的情绪信息,就能更生态化实现对个体乃至群体情绪的实时观察与分析,甚至能够展开回溯和追踪研究.目前,已有研究[4]通过Twitter对人们的情绪变化进行分析,收集了包括中国在内的84个国家的数据.该研究的严谨和细致毋庸置疑,但仍有两点值得商榷和改进的地方.第一,对于中国来说,该研究取样不具备代表性.由于中国人使用的社交媒体以新浪微博为主,Twitter的使用者并不具备代表性,所以研究结果可能很难代表国人的真实状况.第二,研究缺少对性别的区分.众多对情绪的差异研究显示,两性之间在情绪上存在不少差异,如女性比男性有更高的情绪识别能力、更情绪化[7]、易感性更高[8]、更热衷于情感表达[6],更擅长掩饰情绪却不善于调节情绪[9]等.
本研究拟通过新浪微博研究国人的情绪变化,并对社交媒体上的情绪变化的性别差异进行检测.研究以新浪微博用户为研究对象,计算微博用户的积极和消极情绪表达,分析用户在不同时间段(季节、周、天)的积极情绪和消极情绪的变化,并尝试解释造成这种变化的原因.再将不同性别的积极情绪和消极情绪的变化进行比较,探究二者之间的差异.
1 方法
1.1 被试选取
本研究的对象是从微博中随机选取的活跃用户,必须满足3个条件:1)2011年9月之前注册;2)用户为私人账户,即排除公众人物账户、公共账号、营运号和僵尸号;3)每周都有公开的微博发布.在设备允许的运行承载范围内,最终选取195万有效微博用户,其中女性951 993人,占48.82%.用户的男女比例为1.048∶1,与2014年国家统计局对中国人口性别比例的调查结果接近[注]根据国家统计局2014发布的信息显示,以女性为100,总人口性别比为100∶105.06..在每个季节的的观察时间段内,这195万微博用户中,凡是发布过微博的用户都会被纳入该周期内的观察样本集中.这意味着每个季节收集到的用户并非完全一致.
1.2 数据收集与处理
从2011年9月至2012年6月,每隔3个月收集一次数据,一次收集持续一周.如秋季数据的收集,从2011年9月17日到2012年9月23日,通过新浪微博API(Application Programming Interface, 应用程序编程接口)下载这一周的数据.其他季节的收集时间为:冬季,从2011年12月3日到2012年12月9日;春季,从2012年3月12日到2012年3月18日;夏季,从2012年6月4日到2012年6月10日.数据记录了每个观察周期的一周7 d每天24 h的数据及其分布情况.每个季节收集到的微博数量如表1所示.
表1 不同季节的微博数量
鉴于转发微博并非用户的自我表达,所以只保留原创内容用于分析.原创内容包括原创微博和转发微博中的原创部分.本研究利用“中文心理分析系统”(TextMind,简称“文心”)处理微博中情绪内容.“文心”系统[10]参照LIWC2007[11]和正體中文C-LIWC词库[12],针对中国大陆地区简体环境下的语言特点修订而成,可以自动对各类文本进行词汇分类和计算词频[注]是由中科院心理所计算网络心理实验室研发的针对中文文本进行语言分析的软件系统.http://ccpl.psych.ac.cn/textmind/..本研究使用“文心”对原创微博中的积极情绪(positive affect,PA)和消极情绪(negative affect,NA)进行分析计算,获得不同时间段的PA和NA数据.积极情绪和消极情绪的计算分别通过统计“文心系统”的字典中的积极情绪词类和消极情绪词类在文本中出现的频率加以实现.积极情绪词类包括信心、满足、祝福等564个体现积极情绪的词汇,消极词类包括担忧、猜疑、报复等924个体现消极情绪的词汇.
2 结果
2.1 情绪在不同时间段内的变化
本研究分别对微博用户的情绪在一天中的变化、一周中的变化和4季的变化进行分析.
2.1.1 情绪在一天中的变化
图1展示积极和消极情绪在一天中随时间变化的情况,具体变化为:在0点到6点之间变化最大,6点之后变化开始减少,直至中午12点左右趋于稳定并在之后的时间里保持相对平稳.可以看出,人们的情绪总体在活动的时间比在休息时更好.
图1 情绪在一天中不同时刻的变化Fig.1 Emotional changes during one day
中国传统上将世间万物归纳为阴阳两类对立的基本单元,并以这种对立辩证的观点看待世界.根据长时间对自然的观察,古人发现人体的变化如代谢、体温、脉搏等与自然界的一些变化如日出日落、自然温度等存在相同的变化趋势,于是将这种变化规律总结为阴气与阳气的此消彼长.根据《黄帝内经·素问·金睡真言论》对一天中阴阳变化的描述[注]原文为“平旦至日中天之阳,阳中之阳也,日中至黄昏,天之阳,阳中之阴也;合夜至鸡鸣,天之阴,阴中之阴也:鸡鸣至平旦,天之阴,阴中之阳也,故人亦应之.”其中,平旦指卯时,为凌晨5—7点;日中指午时,为11—13点;合夜和黄昏是同一时间不同说法,指酉时,为17—19点;鸡鸣指子时,为23—1点.取4个时间点的平均值做曲线.阳气为正值,取1为至阳;阴气为负值,取-1为至阴.,设阳气为正值,取1为至阳;阴气为负值,取-1为至阴,取4个极端值的时间点的平均值做曲线,从而模拟出阴阳变化曲线.
同时,将一天内24小时各个时间段内的积极情绪比率与消极情绪相减,即可得到情绪(emotion,E)的变化:E=(积极情绪词频-消极情绪词频)× 100%.
研究微博用户整体的情绪变化,需要排除极端值的影响.为了最大程度减少极端用户对总样本的影响,需要对原始的词汇比率数据进行修正[4].以用户的积极情绪为例,某用户n在某个小时h的PA词比率记为PAn(h).PAn(h)的修正方法为减去该用户常用的PA平均词频(以用户在这一周的168 h中原始PA词比率的平均值表示)再加上样本总体常用的PA平均词频(用全体用户在这一周内的168 h中所有PA词比率的平均值表示),修正后的PAn(h)记为RPAn(h).
RPAn(h)=PAn(h)-(该用户常用的PA平均词频)+(样本总体常用的PA平均词频).
(1)
在h小时时间段中,U(h)就代表在这一小时内的活跃用户数.RPAn(h)代表总体在h小时的积极情绪修正得分.样本在某个小时h的平均PA词比率取所有用户的RPAn(h)的平均数.计算方法如下:
(2)
同理可得总体消极情绪的修正词频,二者相减即(RPA(h)积极-RPA(h)消极)×100%,即为该时间点的情绪变化.图2展示情绪在一天中随时间变化的情况及其与阴阳变化的直观比较.
图2 情绪变化与阴阳变化的比较Fig.2 Comparison between emotional change and change of Yin-Yang
情绪在一天中的变化情况可拆分为前半天和后半天两部分来观察.前半天:在0点到6点之间变化最大,6点之后开始升高,直至中午13点达到最高点.后半天:13点之后有所下降,17点之后又开始恢复,20点后开始大幅度下降.从图2中可以观察到,从凌晨3点到下午15点这个时间段里,人们的情绪与阴阳变化的趋势相似,但从下午17点开始至凌晨2点则不同.阴阳变化规律的总结出自古人对其所属时代的观察,那时的人们保持“日出而作,日落而息”的生活习惯.而今人们在夜幕降临之后还有很长一段的活动时间,所以旧时的阴阳变化规律(也即生物节律)还可以解释现代人在上半日的情绪变化,而余下的情绪变化则更多受到当代人们的生活节奏和习惯的影响.
2.1.2 情绪在一周内的变化
了解了情绪在一天中的变化,接下来我们还想知道的是在一周的7天之间情绪是否有差异或者工作日和周末之间的情绪是否存在差异.图3展示积极情绪和消极情绪在一周之中的变化情况.可以看到无论是积极情绪还是消极情绪在一周不同日子里的变化趋势是基本同步的,但是它们的曲线也并不完全重合,所以我们通过差异分析以确定7天之间是否存在显著差异.
由于这些情绪值的分布都不符合正态分布,故使用曼-惠特尼(Mann-Whitney)U检验检测工
图3 情绪在一周之中的变化Fig.3 Emotional changes during one week
作日与周末之间是否真的存在显著差异.结果显示(见附表1),工作日与周末在PA上不存在显著差异(P=0.204),但在NA存在显著差异(P=0.000).事后检验的结果(表2)显示周六、周日与周一、周二4者存在显著差异,周一和周二的消极情绪显著高于周末2天(P<0.05).人们将周一上班时的心理不适戏谑为“周一综合征”,表明这种差异可能源自工作压力.因为人们在周末可以暂时放下与工作相关的事宜,相较工作日比较放松,所以消极情绪比较低.而周一周二作为一周的开始,在周末的放松的对比下,心理会有比较大的落差.之后的工作日在适应之后这种心理差距就会消失.此外,周四的PA在早上5—9点显著高于其他日期,这可能是收集数据时某个或某几个周四发生了较大的正面事件造成的,是一种偶然现象.
表2 情绪在一周中不同日期的事后检验
2.1.3 情绪在不同季节里的变化
研究[13]指出不同季节的情绪存在显著不同,多数消极情绪如抑郁、敌意、愤怒等都是夏季时最轻,而冬季最重.季节性情感障碍就是一种在冬季或者寒冷地区更易抑郁发作的疾病.
图4展示春夏秋冬4季里,微博的积极情绪和消极情绪在一天24 h内的变化.可以看到,积极情绪和消极情绪的变化趋势具备跨季节的一致性,并且都在0点到6点之间变化最大.NA在春夏季的6点之后开始趋于稳定,在秋冬季则要在7—8点之后方才稳定下来.
这种差异可能与秋冬季的日出比春夏更晚有关.因为调节人体生物节律的褪黑激素(会使人情绪低落)的分泌具有明显的昼夜节律,白天会因为光照而抑制分泌,晚上则分泌活跃.也就是说由于秋冬季节的日出延迟,NA的降低也随之延迟了.PA在春秋冬3个季节里的变化规律一致:在6点至12点之间会逐渐升高,12点之后趋于稳定.唯独在夏季时7点几乎就已经达到最高值,并在之后的一天里保持相对稳定.这一变化可能也与褪黑激素有关,夏天的白昼是4季中最长的,日出也最早.
不同季节的情绪变化趋势是相似的,但从图4中还是能观察到细微的差别,如积极情绪在秋季比其他季节波动更大(波动从0.040到0.055,而其他季节基本在0.045和0.055之间),而消极情绪在春夏季的曲线看上去要比秋冬季的曲线更陡峭.为求证4个季节的情绪是否存在显著差异,使用单因素方差分析ANOVA检测4者差异.如表3所示,秋季的PA和NA都与其他季节存在显著的差异,两类情绪都是所有季节中最低的.夏天的PA和NA都是4季中最高的,且NA与秋冬两季的有显著差别.夏天的日照最充足、白昼最长,这两类天气因素都有利于提高积极情绪[14-15].与秋冬两季的差异则可能来源于温度的差异,夏天的气温是4季中最高的,已有研究表明高温会增加人们烦躁、焦虑等消极情绪[14,16].
心理学认为积极情绪和消极情绪是独立的2个变量,不存在此消彼长的关系[17].然而观察图1会发现积极情绪和消极情绪总是处于你增我减的对立状态.为确定二者关系,采用相关分析进行检测.由于正态检验显示(见附表2),PA和NA的分布均为非正态(P<0.001),故使用斯皮尔曼相关检测.结果显示,积极情绪(0.050 2 ± 0.003 4)和消极情绪(0.028 2 ± 0.002 0)并不存在显著的相关关系(r=0.084),这一结果证实了心理学中的观点.
图4 微博上的情绪在不同季节随时辰变化的走势Fig.4 Emotional changes in Sina Weibo with time in different seasons
因变量(I) Season(J) Season平均数平均差异 (I-J)P春夏0.050960.05145-0.000490.479秋0.047990.002970.000冬0.050400.000570.416PA夏秋0.051450.047990.003460.000冬0.050400.001060.129秋冬0.047990.05040-0.002400.001春夏0.028420.02918-0.000760.065秋0.027080.001340.001冬0.028160.000260.522NA夏秋0.029180.027080.002100.000冬0.028160.001020.013秋冬0.027080.02816-0.001080.008
2.2 情绪在不同性别上的差异
表1显示在所有的季节里,女性始终比男性发布的微博更多,说明女性更倾向于表达自己的情绪.通过图4也可以发现,无论哪个季节,不同性别的人的积极情绪和消极情绪的变化趋势总是相同的,但女性的情绪词的值都比男性要高.说明女性的情绪易感性要高于男性,这意味着在面临相同的事件时,女性的情绪反应要大于男性.
将4个月的数据取平均计算不同性别在一周的情绪变化,如图5所示.男性在一周的情绪变化显示:积极情绪最高点发生在周六13点(约0.052 0),最低点出现在周五的3点(约0.042 2);消极情绪最高点发生在周一4点(约0.031 5),最低点出现在周日的9点(约0.025 0).女性的情绪变化显示:积极情绪最高点和最低点都发生在周六,分别为20点(约0.056 0)和凌晨4点(约为0.044 7);消极情绪最高点发生在周一4点(约0.035 0),最低点则出现在周六的14点(约0.027 4).
从图4、图5可知,无论男女,其消极情绪在周一最高,在周末则最低;而积极情绪在周六最高.积极情绪的最低点和消极情绪的最高点都发生在凌晨4点左右,一般是人们休息的时间.观察图5,还发现女性的情绪波动比男性更大,负性情绪尤为突出.女性的负性情绪的波动达到0.009,男性则为0.006.这种差异可能是源于男性比女性更善于调节负面情绪所致[7].
不同性别之间究竟是否存在统计学意义上的差异需要检验.曼-惠特尼U检验的结果显示(见附表3),无论是积极情绪(P<0.001)还是消极情绪(P<0.001),男性和女性都存在显著差异.从数值上看,无论是积极情绪还是消极情绪,女性的值都比男性要高.这种差异可能来源于情绪表达的差异,就是说相比男性,女性更倾向于在微博上进行情绪表达.这与以往在线下的调查结果相一致[6].
图5 不同性别的情绪比较Fig.5 Comparison of emotions between the two genders
3 讨论
2011年Golder和Macy[4]研究不同地区84个国家的人在Twitter上的不同时间段(以天、周和季节为单位)的情绪变化.研究发现情绪变化与人的生理节律和日常作息有密切的关系.与此相比,本研究的结果既有相同处,也有不同之处.
相同之处在于:1)都发现情绪变化与生物昼夜节律和日常作息有关系,PA在清晨开始升高夜晚时分急剧下降,NA整夜都处于高水平.2)都发现季节对人的情绪有影响.3)都证实了积极情绪和消极情绪是独立的2个变量.4)情绪在周末与工作日之间存在差异.
不同之处在于:1)情绪的波形不同.积极情绪方面:Twitter的结果显示PA的2个高峰值在早晨7—9点和晚上12点,2个峰值之间有明显的起伏;而微博的结果显示,PA的2个高峰值在中午12—13点和晚上19—20点,2个峰值之间无明显的起伏.消极情绪方面:Twitter的结果显示NA在晚上9点到第二天凌晨6点之间是高峰;而微博的结果显示,NA的高峰在凌晨0—6点之间,比Twitter少3小时.2)季节对情绪的具体影响不同.Twitter的结果显示冬季的情绪变化与其他季节差异最大,冬季的PA显著降低但NA不变.微博的结果显示秋季情绪变化与其他季节差异最大,秋天的PA和NA都最低.3)积极情绪和消极情绪的关系不同.虽然2个研究都证实积极情绪和消极情绪是2个独立的变量,但Twitter的结果显示二者为负相关关系(r=-0.08),而微博的结果显示二者为正相关(r=0.084).4)情绪在周末与工作日之间的具体差异不同.Twitter的研究显示,人们在周末比在工作日时更快乐.而微博的结果显示,人们在周末并没有比工作日时更快乐,只是没有那么消极了.
从结果上看,本研究与Golder等人研究的主要结论基本是一致的,细节上的差异可能源于不同国家的生活习惯和文化差异所致.在情绪的波形变化方面,相比Twitter,微博的PA结果与PA的昼夜变化(中午最高,稳定至晚上9点以后开始锐减)[18]更为一致.微博PA的高峰出现在中午12—13点和晚上19—20点.微博的NA的高峰时间凌晨0—6点.在正常的作息时间还在使用社交网络的人们可能受到睡眠障碍的困扰.研究表明睡眠质量与NA有显著负相关[19].人们在秋天时的PA和NA都最低的结果与中国人自古对秋天的复杂情结颇为一致[20-21].一方面,面对秋天万物逐渐凋零的景象,古人就常常发出“悲哉,秋之为气也.萧瑟兮,草木摇落而变衰”、“万里悲秋常作客”、“逢秋未免悲”这样的感叹,此为悲秋;另一方面,面对秋天的丰收也会赞叹道“喜看稻菽千重浪”、“我言秋日胜春朝”,此为咏秋.跨文化研究表明,积极情绪和消极情绪的关系在集体主义和个体主义文化中是不同的[22].个体主义文化中,积极情绪和消极情绪呈负相关关系;而集体主义文化中,二者的关系则是正相关.周末与工作日的情绪差异,在Twitter上表现为正性表达的增加,而在微博中则是负性表达的减少.这一结果反映了不同文化应对情绪引发事件上表现出的差异,研究[23]表明西方文化倾向于激发积极情绪,而东方文化倾向于减少愤怒情绪.
4 总结
通过对微博跨越4个季节的积极情绪和消极情绪的分析,本研究得到如下结果:1)人们的综合情绪的2个高峰分别是中午和晚8点.前者与古人总结的阴阳变化规律(也即古时的生物节律)相符,后者则与当代的作息习惯有关.2)虽然人们在周末的积极情绪与工作日时无异,但消极情绪在周末明显低于工作日.这种差异可能来自于工作压力.在周末,焦虑、紧张等源于工作的情绪会暂时消失,但这并不意味着你就会变得快乐.3)人们在夏季的积极情绪和消极情绪最高,一方面夏天的日照最充足、白昼最长有利于积极情绪的提升,同时夏天的高温可能导致了烦躁、焦虑等消极情绪.人们在秋季的积极情绪和消极情绪最低,这一现象可能延续了古人对秋天的复杂情结.4)不同性别的情绪走势一致,但女性较男性有更多情绪表达(更多的微博量)、更情绪化(情绪词频波动更大),且更易感(无论是PA值还是NA值女性都比男性要高).
本研究利用大数据的原理揭示了微博中的情绪在不同时间段的变化情况,但研究的结果是否具备普遍性或者能否推广还有待验证.原因之一是本研究的情绪词是从句子中直接提取的,因此筛选出的词汇在原句中的含义与词汇表达的一致性需要进一步验证.另一个原因在于在微博上随机选取的被试仍然可能存在取样偏差,因为使用微博的人中年轻人、城市人更多,且受教育程度偏高,这与真实的人口分布是不一致的.
附录
附表1情绪在工作日和周末的非参数检验结果
AttachedTable1Resultsofnonparametrictestonaffectonweekdaysandinweekend
工作日周末MdIQRMdIQRMann-WhitneyUWilcoxonWZPPA0.04990.00600.05050.00601049839418-1.2710.204NA0.02860.00260.02780.0022818912845-4.1410.000
注: Md即median,中位数;IQR即interquartile range,4分位距,指第3个和第1个4分位数之间的差值;Mann-Whitney U指曼-惠特尼U检验;Wilcoxon W指维克松秩和检验.
附表2积极情绪与消极情绪的相关关系
AttachedTable2Correlationbetweenpositiveandnegativeaffects
MSDSpearman’ rPA0.05020.00340.084NA0.02820.0020
注: M即mean,平均数;SD即standard deviation,标准差;Spearman’r即斯皮尔曼相关系数
附表3 不同性别在情绪上的差异
注: Md即median,中位数;IQR即interquartile range,4分位距,指第3个和第1个4分位数之间的差值;Mann-Whitney U指曼-惠特尼U检验;Wilcoxon W指维克松秩和检验.