基于微博的突发事件针对性信息分享行为分析
2015-09-08钱颖倪君彧范明林
钱颖 倪君彧 范明林
[摘要]文章研究了2012年台风“海葵”这一突发事件的大量微博中@这一针对性分享行为与哪些内容有关。通过对518条关于海葵微博进行内容分析,借助关联分析的apriori算法得到与@相关的内容。本文的创新点在于通过研究针对性信息分享行为,以了解在突发事件中用户与朋友分享的信息,从而揭示了用户的信息需求,发现在“海葵”这一突发事件中用户针对性分享的内容主要是突发事件的基本信息,包括基本情况、地点以及时间,同时还会使用多种表达方式,包括表情符号、图片、详细信息的短链接等。这对提高应对突发事件信息发布的有效性有借鉴作用。
[关键词]微博;内容分析;关联分析法;突发事件;信息行为
[中图分类号]G203
[文献标识码]A
[文章编号]1008-0821(2015)04-0008-04
“突发事件”指突然发生,造成或可能造成严重的危害,并需要采取相应的应急措施来应对的自然灾害事件、事故灾难事件、公共卫生事件及社会安全事件。突发事件具有瞬时性、偶然性、危机性。突发事件中,由于主流媒体报道的不及时、不全面性,不能满足用户的信息需求。而微博以其实时性、便捷性、互动性等特点,使得大量信息能够在短时间内得到扩散和传播,弥补了传统媒体的不足,成为了突发事件信息传播的主要渠道。例如在“7·23甬温动车事件”中,大量用户对事件进行了多角度深层次的报道,促进了信息的公开,为救援提供了很大的帮助。但微博中信息传播也存在着问题,比如“黄玉斌招待费事件”中,由于有关人员未能及时澄清而导致网络谣言不断,产生了严重的负面影响,这些都是因为用户的信息需求没有得到满足,因此,研究突发事件相关微博内容,了解受众的信息需求具有重要的价值。
国内外对微博文本内容进行分析的研究有很多,主要包括3个方面:话题检测、情感分析和信息分析。这三方面研究的对象都是微博文本,研究方法都需要首先从微博文本中提取关键词。针对话题检测,学者们基于提取的关键词使用了数据挖掘的方法进行研究,包括聚类、关联分析等。唐晓波和王洪艳、郑斐然都使用了聚类方法来识别话题。王熙则借助可信关联规则来挖掘用户关注的话题,并将最后得到的关键词的极大团作为频率最高的话题。情感分析主要是对内容的情感极性进行分类,主要分为正面、中性及负面情绪,通常基于提取的关键词采用SVM分类器、素贝叶斯分类器(NB)来进行分析。信息分析主要通过对高频关键词分类,用关联分析等方法来分析微博中包含的主要信息之间的关系。姬浩、苏兵、吕美总结出高校群体性突发事件中信息的关键分类为发生时间、地点、诱发因素、处置有效性及事件影响,并使用关联分析对这些分类进行研究,发现决定事件影响大小的因素主要为诱发因素、应急处置的有效性等,其研究结果能够为突发事件的预警和预测提供指导;庞颖对虚拟社区中用户对商品的评论信息进行了分析,得到评论主要为产品的性能类信息,这些性能主要包括电池、像素、CPU频率等,通过对这些关键信息进行关联分析,有效挖掘出了企业需求的信息。Chew、Eysenbach在“2009H1N1事件”研究中,选取了2009年3月到12月中每月某天的600条微博文本,使用手工编码并结合统计的方法总结出主要内容包括资源链接、个人经历、个人观点,并对不同时刻,各类微博的数量进行统计,并结合实际背景分析了峰值产生的原因,如个人经历的两个峰值的出现是因为世界卫生组织宣布6级流感的盛行及H1N1疫苗到达美国;Terpstra et al.对“Pukkelpop 2011”这一危机事件的微博内容进行了分析,提取出了整个事件中关键的信息,总结出极端的天气情况、破坏、伤亡、救援等方面的信息是广泛分享的信息,据此了解了事件中人们所需要的关键信息。
借鉴以上研究,分析了2012年台风“海葵”登陆上海时的相关微博。不仅总结出哪些信息被广泛地分享,并且应用共现分析,研究了@与哪些信息相关度高。@是针对性的信息分享行为,被@的用户会收到提醒。微博上信息量大,没有提醒时可能会忽视信息,因此包含@的微博相对有效。大多数包含@的微博是分享给亲朋好友的,使得信息能够通过较为密切的人际关系实现快速传播,信任度更高,故研究突发事件中@与哪些内容有关可以了解人们在突发事件中@的主要信息,可供有关信息发布部门和个人借鉴。
1 微博文本分析
1.1数据获取
本文选取的是上海大学学生在2012年8月1~28日期间发表或者转发的有关“海葵”这一突发事件的微博。通过爬虫软件从新浪微博进行数据采集,共收集1127条微博,删除了重复的微博,即转发时没有进行评论的微博,最后得到518条有效微博。表1给出了2条微博实例。
1.2文本处理
笔者对获取的微博文本进行分词处理,关注那些频率较高的词语,并将其他出现频率较低而语义相同的词语与之合并,继而统计出了较高频的关键词(频次大于50),即为28项二级分类,见表2。结合王炎龙、Terpstra etal.对突发灾害中微博内容的几项概括以及本文的微博文本对统计出的高频词进行分类,进一步概括出11项一级分类:基本情况、灾难影响、有关人员、受灾地点、发生时间、政府组织、救援行为、呼吁提醒,以及微博虚拟平台所特有表情符号、图片、短链接和@行为,见表2。
图2中统计了一级分类所涉及关键词在微博中出现的频次,以受灾地点为例,所有微博中有363条微博中包含与受灾地点有关的词。可以看到“海葵”中基本情况(91.31%)、受灾地点(70.08%)、发生时间(57.53%)出现的频率是最高的。表情图片链接(55.98%)、@(43.05%)出现的频率较高,前者频率高是因为微博用户乐于在突发事件中传播详细的事件信息并表达自己的情绪;后者表明事件中微博用户会倾向于将重要的信息传递给周围人,因为灾害与用户的生活息息相关,需要与朋友分享这些信息,避免由于不知情而带来不便甚至意外,但@出现的频率不到50%,说明还是有很多人在发布信息的时候没有@行为,所以需要研究究竟是哪些信息促使用户针对性的分享信息。还有一些频率相对较小的关键信息:有关人员(39.19%)、灾难影响(38.99%)、受灾之物(36.49%)、救援行为(32.05%)、政府组织(30.16%)、呼吁提醒(29.34%),说明微博用户还会关心物品损坏及人员伤亡情况、政府企业等的救灾行为、官方提醒信息。综上所述,“海葵”事件中人们关注的焦点是海葵发展的基本情况和发生的地点。时间也是一个相对重要的信息,可以使用户知道出现某些灾情的准确时间,以做好适当的应对措施。endprint
1.3分享内容共现分析
本文的目的是了解人们在突发事件中,会使用社会化媒体针对性的分享哪些信息,所以主要研究@这一行为会与哪些关键词存在较强的关联关系,以发现隐藏在大量数据信息中、不易被人察觉的关联事件。应用Clementine软件进行数据处理。基于1.2的结果,笔者首先进行了共现分析,统计了哪些关键词会与@较为频繁的同时出现。
1.3.1一级分类与针对性分享的共现分析
表3是@与一级分类的共现分析,可以发现“基本情况+@”、“受灾地点+@”这两组的概率最高,都超过了33%,说明微博用户更倾向于针对性的分享“海葵”的基本情况,其次也关注灾难发生的地点,因为这些是与突发事件直接相关,是大众迫切需要的,能够满足基本需求,避免造成恐慌。“发生时间+@”组合的概率为25.43%,可见人们也会针对性地分享时间信息,以了解事件的阶段性进展,但它与前面相比概率小一些,这是因为微博用户通常是在事件发生当下发布信息的,所以很多用户不会再特意注明时间。“表情图片链接+@”组合的概率为23.51%,表明用户针对性分享信息时图片、短链、表情等出现较频繁。“受灾之物+@”、“有关人员+@”、“灾难影响+@”、“救援行为+@”、“政府组织+@”这些组合的概率依次减小,都低于20%,说明这些信息得到了关注,但关注度不够。而“呼吁提醒+@”的概率更是低于10%,可见用户很少将这些官方的提醒信息@给有密切关系的人,而是通过自己的方式表达关心。
表4中分别列出了两个关键词与@共现的情况。两个关键词与@共现的结果中,“基本情况”、“受灾地点”、“发生时间”中的任意两者与@共现的概率都达到了22%,说明这三者与@的关系都很紧密。其中,“基本情况+受灾地点+@”这一组合的概率最大,为30.83%,与另两种情况相差较大,说明人们最乐于针对性地分享的是某地的基本情况信息,这将会使得用户了解到发生灾难的某地的风力、雨量以及严重情况等。与期望的结果不同,结果中时间相对而言是次要的,是因为微博发布具有实时性,不必特意注明时间信息。“表情图片链接+基本情况+@”这一组合的概率为21.39%,说明人们与指定的人分享的图片链接内容主要与基本情况有关。
1.3.2二级分类与针对性分享的共现分析
进一步研究@与二级分类的共现分析。选取了一级分类下与@关联度高的“基本情况”、“受灾地点”、“发生时间”、“表情图片链接”为对象,同时关注“有关人员”这一分类,因为它包括了典型人物与受灾群众两个截然不同的对象,可进一步研究用户的关注倾向。结果如表5所示。
“基本情况”中,“风+@”这一组合的概率为35.65%,显著大于“雨+@”,说明用户与指定的人分享时更关注风而不是雨,这是因为台风中风力造成的影响会危险人身安全。“加强严重+@”的概率为18%,远大于“雨+@”,说明当出现严重情况时,用户将会@这类信息。
“受灾地点”中,“上海+@”这一组合的概率为27.55%,显著大于“浙江+@”的概率,因为笔者选取的微博是上海地区的,必然更加关注上海的情况。
“发生时间”中,“日+@”以及“时+@”这两个组合的概率分别为19.84%、12.33%,相差较大,说明用户每天都在关注台风的情况,因为受众需要及时地了解这些信息,来应对各种灾难,但当事件更新频率过高时(精确到时、分甚至秒),则不能时刻都关注到。
“表情图片链接”中,“表情符号+@”的概率最高,表明图片、短链、表情这三者中更关注的是表情符号,即用户会通过表情符号来表达自己在突发事件中的情绪并@给朋友,相对而言图片及链接这些包含事件详细内容的信息关注度较低。
“有关人员”的二级分类中,“受灾群众+@”的概率与“典型人物+@”的概率相差较大,说明虽然人们在突发事件中需要正能量,但面对更需要帮助的群众时,仍然更乐于@紧迫的信息。
2 结论
文章研究了在“海葵”这一突发事件的大量微博中@这一针对性分享行为与哪些内容有关。有@行为的微博体现了一种基于强关系传播,传播的双方在现实中存在较为密切的联系,可能是朋友、家人、同事等,传播者希望特定的人了解到这些信息,而接受者也更容易接收并继续转发这类信息,这类研究具有较大的实用价值。
通过分析,笔者发现在“海葵”这一突发事件中人们针对性分享的信息主要是与事件本身密切相关的情况信息,包括基本的情况(风力、雨量、加强、减弱、路径等)、受灾的地点、发生的时间。但比起前两者,微博用户对时间的关注度较少,原本时间在突发事件中是极其重要的信息,但由于微博中发布信息具有实时性,因此很多用户在微博中省略了关注时间的习惯,而将精力放在别的内容上。除了这三者,微博用户@的内容还包括表情图片短链,说明在微博中除了文字,用户习惯于通过多种方式表达情绪和内容,在突发事件中更是如此。
针对更细致的内容,用户更倾向于分享的是风力信息,因为台风中风力造成的影响会危及人身安全。用户会及时@每天的信息,但当事件更新频率过高时,精确到时、分、秒时,则不能时刻都关注到。除文字外的多种表达方式中,用户倾向于通过表情符号表达事件中的情绪并@给朋友。另外,虽然在突发事件中人们需要正能量,但面对需要帮助的群众,还是愿意把更多的精力放在紧迫的事情上。
有关部门可借鉴这些分析结果发布与上面的内容相关的信息来引起用户的@行为,从而更好地满足用户的信息需求。本研究尚存在不足之处,后续研究可以在更大范围内搜集与“海葵”事件相关的微博,以发现受灾地点信息与@之间更有意义更实用的关系。
(本文责任编辑:马卓)endprint