情感与主题建模:自然灾害舆情研究社会计算模型新探*
2018-08-07刘丽群刘丽华
■ 刘丽群 刘丽华
近年来,伴随着信息通信技术、数据存储技术、计算技术的发展,“大数据”的相关话题逐渐进入人们的视野,并成为流行词汇在社会上激发了广泛的讨论。通俗地看,大数据就是把人们在日常生活中创造出来的各种各样的数据收集起来,根据一定的应用目的通过科学的算法进行分析。目前,大数据在底层技术、基础设施和应用形式三个层面已经形成了较为成熟的体系,各行各业都积累了海量的数据,数据也成为当前社会重要的生产资料。不过与此同时,人们也开始意识到,大数据发展的关键不在于拥有多少数据,而在于如何发展出相应的科学模型分析应用这些数据。在对全社会进行大数据理念科普之后,实践中对于大数据愿景的落实却不尽如人意,如何结合实际问题推进大数据应用能力和分析水平成为当前亟须解决的重要问题。
自然灾害微博舆情分析是建立在自然灾害危机应对具体情境下的大数据方法应用问题。当前自然灾害中,来自各个方面的舆情信息流汇聚在以微博为主的社交媒体平台,使得这些平台成为获取和评估舆情的重要渠道。随着社交媒体的持续发展,利用大数据分析社会舆情、社会态势与社会生态系统成为共识①,大数据成为舆情研究关键技术的支撑和核心概念②。当前网络舆情研究的创新来自于社交媒体的发展和大数据的推动,在海量数据面前,传统的舆情研究方法显然已经无能为力,这就需要继续解决如何高效准确地对网络舆情进行分析的问题。
大数据纷繁杂乱,对于自然灾害微博舆情内容的分析多种多样,然而网络舆情分析是应用导向的研究,其目的最终指向都是促进相关机构的科学决策和有效沟通,缺乏统一规范的可操作方案将不利于大数据应用能力和分析水平的提升。
因此,本文在社会计算视角的指导下,以自然语言处理技术为基础,将情感分析和主题建模两个维度结合起来,建构自然灾害微博舆情分析的社会计算模型,并选取“江苏盐城623龙卷风灾害”为案例对该模型进行了应用,为大数据背景下自然灾害微博舆情分析的标准化、操作化提供借鉴。
一、从民意调查到社会计算
舆情研究最初采纳的方法就是民意调查,调查者针对特定事件或议题设计相关的调查问卷,根据人口统计学特征对受访者进行抽样,通过邮寄、面谈、电话、网络等方式收集数据,较为著名的有盖洛普民意测验(Gallup Poll)。这类调查主要有三方面缺陷,一是调查者的问题,问卷设计不够科学,问项可能隐含某种导向性;二是受访者的问题,受访者出于自身主观原因在隐瞒想法,未如实填写问卷;三是大规模民意调查耗资不菲。随着互联网的兴起,人们渐渐习惯于在网络媒体上发表自己的情绪、态度和意见等,特别是在论坛、博客、微博等社交媒体上聚集了大量的舆情信息。传统的网络舆情研究以提供决策支持为目标,遵循确定选题、舆情抽样、统计分析、写作报告等步骤进行运作,在分析方法上以内容分析法为主,这种以人工分析为主的分析模式呈现出片面和静态的特点,难以及时应对变幻莫测、快速发展的网络舆情,而大数据的发展带来的社会计算理念则为解决此类问题提供了一个新的思路。
国内最早关注到社会计算的学者王飞跃认为,社会计算是面向社会活动、社会过程、社会结构、社会组织和社会功能的计算理论和方法③。而孟小峰等则认为,社会计算蕴含着理论和方法论两层,是指使用系统科学、人工智能、数据挖掘等科学计算理论作为研究方法,结合社会科学理论和计算理论,来解决复杂性社会问题④。
社会计算研究视角被引入到网络舆情研究中,最初帮助研究者认识到了新的网络传播现象(如新媒体社会群体特征研究、突发时间的阶段研究、群体复杂互动关系研究⑤),随着研究的深入,研究者深入现象背后的舆情产生及扩散机制,对相关因素关系进行论证,也可以利用大数据进行更为准确和更具普遍性的研究,社会计算方法推动了舆情研究的系统化与科学化。
社会计算对于网络舆情研究的贡献在于,前者为后者提供了新的研究视角,并创新了新的舆情信息搜集和分析方法,社会计算指导下的网络舆情研究模型也更易于在实践中被接受。
二、微博舆情分析的两大维度
不同种类的社交媒体,有着不同的运营逻辑,在具体的研究中笼统地使用社交媒体的概念并不可取,需要根据研究目标个别地筛选特定的社交媒体来研究。就中国自然灾害的实践来看,一方面,微博对于自然灾害中的信息传播有着不可替代的作用,微博已经成为自然灾害事件中的信息汇集地;另一方面,在众多社交媒体的激烈竞争中,微博的媒体属性一直是其最突出的特点。微博在两方面满足了用户对媒体内容的需求,一方面是作为刚需的新闻资讯,另一方面则是提供了比较多元的看待资讯的视角⑥。
突发的自然灾害事件往往因其影响重大而短时间内集聚了全社会的注意力,在微博平台上会呈现出相关内容的大爆发,形成体量庞大、复杂多样的大数据,由此构成了丰富的舆情分析语料,在社会计算研究视角下,就需要通过数据驱动的内容分析技术来发现语料中的情感及主题。以微博为代表的社交平台为用户提供了丰富的表达,特别是在自然灾害这一特殊的情景下,人们发布的微博往往包含了情感和观点,这些是构成微博舆情的主要方面,在文献中的微博舆情分析中主要体现为倾向性分析和聚类分析。
在倾向性分析的研究中,主要研究取向分为两类,一类是从语义即自然语言的意义角度进行研究,另一类则是是从机器学习的角度进行研究。如O’Connor 等采用情感分析技术,从海量微博文本中获取了网民对重大事件的立场,这就是遵循语义方法的研究⑦。机器学习研究实例则会基于情感记号的情感词典构造与情感分析方法来应对微博文本长度短、内容多样性强、表达形式自由、语言较不规范等分析难点⑧。
聚类分析方法可以对微博舆情进行话题识别。利用话题检测技术将微博文本信息按照话题进行归类组织,便于在动态变化的信息环境下高效获取个性信息或热点话题。谢思发等借助Hadoop平台在大数据挖掘方面的优势,挖掘微博中热点词的分布式算法,以提取热点词组织热点事件并以Twitter和新浪微博上的数据集作为测试样本进行试验⑨。马彬等则针对微博文本短、半结构、上下文信息丰富等特点,尝试用基于线索树的双层聚类的话题检测方法,对垃圾微博进行过滤,他们的实验结果表明该方法有助于解决数据稀疏的问题⑩。
结合自然语言处理技术,用于探索微博舆情情感及主题的倾向性分析和聚类分析的主要技术有情感分析和主题建模的方法。
1.微博舆情情感分析
情感分析(Sentiment analysis)是自然语言处理范围下逐渐发展出的一个细分区域,最初产生于20世纪90年代,是在文档分类、语言极性测量的基础上进一步进行内容情绪表达的解析。随着网络尤其是Twitter、微博等社交媒体的出现和日益普及,丰富的交流在线平台为内涵更丰富的语言表达提供了可能,网络上的信息文本包含了大量观点和情感,继续使用传统的针对主题等分析方法是对这类情绪性、倾向性信息的浪费,情感分析的相关研究顺应而生并渐成热门。
情感分析试图对文本中的意见和情绪文本进行识别,主要是完成意见情绪等主观性内容的挖掘、分析,是一个情感计算的过程。理想的情绪分析工具应当能够“为给定项目处理一组搜索结果,生成产品属性(质量、特性等)列表并聚合意见”。通过对文本内容的情感分析,能够确定内容的积极、消极属性以及识别其中有关情绪和评价表达。目前大部分研究对情感分析采取二元(正向和负向)或三元(正面、负面、中性)进行分类。
情感分析的方法依照采取的常用分析手段可以分为两类,一种是基于机器的学习算法,另一种是基于情感辞典的分析方法。
基于机器的学习算法,是涉及到整个文档情感的系统研究。基本思路包括分析对象文本内容,并以此选择合适的情感倾向特征标注集进行训练和测试,是一种自动化情感分析方法,同时可以通过自动收集合适的训练数据进行数据集扩充。随着在线表达形式的多样化,新形式的数据集也开始出现,一些研究员开始收集分析表情符号、标签等来定义相应的训练数据。
基于情感辞典的分析方法则是一种通过语义分析提取关键词的方法,通过对上下文语义倾向性进行分析,对已有标记的文本、句子内容构建分类器,手动创建对应单词带有语义方向、极性、强度注释的情感词典。根据词典选取对象的不同可以将分为不同词典。如Taboada等在研究中提取名词、动词、副词、形容词进行词典构建,进行内容文本的极性二元分类,分析电影评论中的对该电影公司的情感倾向性。
2.微博舆情主题建模
主题建模(Topic model)是概率模型的一种,可用于在大规模文本或语料库中抽取抽象主题信息,其本质是一种快速的非监督机器学习算法,通过对文本或语料库中词的分布规律的观察实现对相似分布规律词集的聚类,发现文本内隐含的主题及主题间的关联变化等。这一方法最早可追溯至潜在语义索引方法,该方法通过奇异值分解得到文本主题,但是由于存在计算耗时、不能解决文本一词多义等问题,之后Thomas Hofmann对其进行了改进并提出了PLSA概率模型,Blei等人则在PLSA的基础上加入Dirichlet先验分布提出了基于“文本-主题-单词”3层贝叶斯模型的LDA模型,这也是“主题建模”这一概念第一次被正式的提出。
曾嘉等人对国内外主题建模的方法进行了综述并指出当前主题建模的方法包括LDA(latent Dirichlet allocation,即隐含狄利克雷分布)主题模型、动态主题模型、二阶和高阶关系主题模型、多通路主题模型、分布式主题模型等多种方法。其中,LDA是主题建模中最为基础的主题模型,且具有较好的模型扩展能力,是主题建模中最为常用的方法之一,被学者用于微博话题特征抽取、网络舆情观点提取。
然而,在微博舆情分析这一主题下,不能将情感分析和主题建模两个维度割裂开来,实际应用中应该综合这两个维度来考察舆情内容,我们不仅希望得到微博舆情中的情感分布,还希望研究出不同情感中的主题分布。因此,本文建构自然灾害微博舆情分析的社会计算模型时,除了分别对微博舆情数据进行情感分析和主题建模之外,还会以情感分类为基础进行主题建模。进一步的,大数据背景下的研究现在更强调操作化,本文建构的模型也将分步骤阐述如何科学有效地对自然灾害微博舆情进行分析。
三、建构自然灾害微博舆情分析的社会计算模型
大数据背景下微博舆情分析都是从数据收集开始,综合情感分析和主题建模两个维度,对自然灾害微博舆情进行分析的步骤又可以分为对所有微博舆情数据的情感分析、对所有微博舆情数据的主题建模、以情感分类为基础的主题建模,总结得到的便是图1中呈现的自然灾害微博舆情分析的社会计算模型,其实施步骤如下。
1.第一步:收集自然灾害微博舆情数据
微博用户公开在微博平台上发布的内容可以通过网络爬虫工具来收集,模型主要借助了Python语言提供的Beautiful Soup库编写网络爬虫程序,在收集微博数据时,首先通过微博搜索功能获得关键词相关的微博数量,搜索结果中选取用户原创微博,在此基础上进行人工抽检,确定相关自然灾害事件的搜索关键词(组),再使用网络爬虫程序爬取数据。
2.第二步:对所有微博舆情数据的情感分析
以收集到的自然灾害微博舆情数据作为完整的语料库,模型以SnowNLP提供的朴素贝叶斯文本倾向性算法为基础,编写程序先对足够的positive和negative文本数据做训练,提取出合适的分类模型,再利用分类模型对文本数据分类,计算出最后的倾向性概率。模型对每一条微博进行处理之后,会得到一个取值为[0,1]的情感值,其中情感值越接近0表示情感越负面,情感值越接近1表示情感越正面,进一步的,模型会将情感值小于0.5的微博归类为负面情绪微博,情感值为0.5的微博归类为中立情绪微博,情感值大于0.5的微博归类为正面情绪微博。
3.第三步:对所有微博舆情数据的主题建模
模型的主题建模使用LDA(latent Dirichlet allocation,即隐含狄利克雷分布)这一非监督式学习算法,使用Python程序设计语言的LDA包,通过吉布斯采样来实现隐含狄利克雷分布,在进行计算训练时不需要耗费人工手段对训练集进行标注,只需要研究者提供文本构成的语料库及指定要得出的主题数量,LDA便可以找出一些词语来描述每一个主题。
4.第四步:以情感分类为基础的主题建模
模型中情感分析的基本工作是从用户生成的带有情感色彩的文本中提取观点和意见并加以分析其情感倾向。在情感分析之后,模型将特定自然灾害事件的微博按照情感的正负关系被分为两组,情感值大于或等于0.5的微博归类至“正面情感组”,情感值小于0.5的微博归类至“负面情感组”,进而按照主题建模方法分别发现“正面情感组”微博和“负面情感组”微博的主题,从而实现对自然灾害微博舆情进行以情感分类为基础的主题建模。在比较思维指导下,进行更为深入的舆情分析。
图1 自然灾害微博舆情的社会计算模型
四、江苏盐城623龙卷风灾害微博舆情分析
江苏盐城623龙卷风灾害名列2016年全国十大自然灾害事件,是当年特别重大的自然灾害,其强度接近于最高级,风力已经“爆表”,超过了最强的17级。江苏盐城623龙卷风灾害也是几十年来同类灾害中造成的伤亡最严重的。在微博平台进行数据收集时,本文根据案例实际,以“2016年6月23日至2016年6月30日”为搜索时间段,以“盐城 龙卷风”“盐城 风灾”“盐城 大风”“盐城 冰雹”为搜索关键词组,共收集到微博11050条。
1.情感分析结果
对微博舆情数据进行预处理后,共剩余7043条微博进入情感分析。具体的统计结果呈现在表1和图2中,图表显示:江苏盐城623龙卷风灾害中呈现极端正面情感的微博超过80%,处于绝大多数,呈现极端负面情感的微博虽然也有980条,约占总数的14%,但整体上江苏盐城623龙卷风灾害中的微博舆情是相当正面的。
江苏盐城623龙卷风灾害每日微博情感平均值(表2)也佐证了该次自然灾害事件中微博舆情情感是相当正面的,每日微博情感平均值自始至终都保持在0.7以上,在收集数据的最后一天2016年6月30日的微博情感平均值甚至逼近于极端正面。因此,从图表可以看出政府对于江苏盐城623龙卷风灾害的治理较为得当,在微博上正面情感始终占了主流。
图2 江苏盐城623龙卷风灾害微博情感值分析统计图
表2江苏盐城623龙卷风灾害每日微博情感平均值统计表
日期情感平均值(保留10位小数)2016-06-230.79794879282016-06-240.75779582802016-06-250.77725898012016-06-260.86798132902016-06-270.88348486322016-06-280.82790028112016-06-290.85591596732016-06-300.9760358280
图3 江苏盐城623龙卷风灾害每日微博情感平均值变化折线图
2.主题建模结果
通过对江苏盐城623龙卷风灾害微博舆情数据的主题建模,语料库中最为核心的12个主题呈现出来,每个主题有7个关键词:
主题1:工作 救灾 人员 受灾 灾害 群众 江苏
主题2:龙卷风 强 级 大风 阜宁 房屋 盐城
主题3:天气 事件 气候 发生 时 强 江苏
主题4:盐城 医院 龙卷风 江苏 冰雹 救援 医生
主题5:龙卷风 盐城 江苏 冰雹 灾害 阜宁 强
主题6:龙卷风 名 中 说 时 孩子 住
主题7:龙卷风 强 预警 人员 中 天气 发生
主题8:龙卷风 级 盐城 天气 强 江苏 气象
主题9:灾区 救援 盐城 救灾 受灾 阜宁 物资
主题10:龙卷风 强 发生 天气 卷 龙 时
主题11:理赔 车 险 服务 元 客户 公司
主题12:说 盐城 天 中 请 新闻 想
以这12大主题为线索,进一步检索微博语料库可以发现这些主题大致可以再组合为5类,这5类主题即是“江苏盐城623龙卷风灾害”微博舆情中民众的主要关切:
其一是介绍此次重大自然灾害的基本情况,还包括此次灾情对于城市正常运转和因为天气灾害导致的次生危害等影响。这一类包括了主题7、主题8和主题12。微博舆情主要关注的是造成的人员伤亡情况和经济社会危害两大指标,国家媒体和当地媒体通过实时更新受灾人数和极端天气的变化情况,让公众从数字上直观感受到此次自然灾害灾情的严重程度。@央视新闻在这次灾害发生后,于6月23日20点18分先发布关于灾情描述的微博“央视快讯:JHJ江苏盐城龙卷风冰雹JHJ已造成51人死亡”10分钟后又再次更新微博,发布预计到来的恶劣天气,提醒市民不要外出,“扩散!盐城未来6小时可能出现雷雨大风!尽量不要外出!”
其二是从公众的角度表达此次重大自然灾害对日常工作和生产的影响,这一类包括了主题2和主题5。如@京华时报在6月23日发布的微博则报道了此次自然灾害对普通人民生命健康、正常生活的重大毁损,“重灾区救援现场:房屋夷为平地,轿车被刮飞”。
其三是展现政府对此次特大灾害的应对情况和救援措施,这一类包括了主题1和主题9。其中,具有官方背景的媒体微博多发布党和国家领导人及地方救援指挥机构对此次灾害的关注指示和抢险救灾举措。如@人民日报在6月23日发布的微博体现了国家领导人层面对此事的关注。普通微博用户也会将亲身所见发布到微博平台,如@圣戈戈转发@新浪江苏讲述救灾官兵累倒在废墟角落休息的微博,并评论“辛苦了”,从侧面表达了人民子弟兵应对灾情时的奋力拼搏与不易。
其四是普通社会公众和组织对这次灾情的应对,既有对灾区人民的祈祷和祝福,又包含灾害中发生的具体感人细节和故事的传达。这一类包括了主题4、主题6和主题11。“志愿者排队献血并送来救灾物品”“幼儿园老师拼死堵门护住120名儿童”这些灾害中的动人细节通过微博得到了更广泛的传播。
其五是部分微博用户对此次灾害成因和破坏力的分析,特别是一些机构微博(如@云南消防)以此次自然灾害为契机在微博平台对龙卷风灾害的相关知识进行了科普。
3.以情感分类为基础的主题建模结果
情感分析中以正负面情感为基础对“江苏盐城623龙卷风灾害”的所有微博进行了分类,形成“正面情感组”和“负面情感组”两个子语料库,分别进行主题建模,各得出了10组包含7个关键词的主题。
其中,“正面情感组”主题建模包括:
主题1:万万 心寒 救治 情绪 佩服 症状 挽救
主题2:生命 睡着 加油 生病 盐城 官兵 好好
主题3:龙卷风 盐城 江苏 武警 爱心 咨询 国家
主题4:盐城 众多 转交 补助 武警 汇集 萤
主题5:盐城 龙卷风 江苏 冰雹 猝死 生命 救
主题6:龙卷风 盐城 江苏 冰雹 缝 成熟 爱心
主题7:大风 龙卷风 盐城 赶紧 专家组 谣言 赶赴
主题8:盐城 龙卷风 冰雹 生命 爱心 江苏 市
主题9:关心 魏 号召 生命 盐城 网 江苏
主题10:爱心 盐城 龙卷风 祈福 生命 值得 明白
从中可以总结出此次自然灾害正面情感组所包括主题的主要有3类。
其一是面对突如其来的龙卷风和冰雹灾害,部分公众感慨人类在灾害面前的无能无力,在微博祈祷亲朋好友或是一线救灾人员的生命安全,体现自然灾害面前人类的渺小和感情的真挚。这一类包括主题2和主题10。如@LING-正品美瞳在感慨人类在灾害面前的无能无力,呼吁大家对大自然的保护“什么时候开始,人们对环境的不爱护,各种糟蹋,造成了今天这个局面。几十年前的天灾又重演,热到人死、洪水、龙卷风,在大自然面前人类是渺小的,生命也很脆弱,尽可能的维护地球吧,不然只会越来越糟糕”。
其二是报道政府的救灾行动,特别是灾难中的救援和抢险工作,政府的有效作为和消防人民子弟兵的辛苦在微博中得到了正面评价。这一类包括主题3、主题4、主题5和主题7。如@那时便是最好的我发布微博“昨天1500个消防员入住我们学校,我们学校有两栋宿舍楼,然后,我们高二的已经放假了,他们有的人就睡在我们的教室还有水房,昨晚他们还冒雨卸下物资,一大早他们离开了我们的学校,也没有早饭吃,就直接走了,刚刚听说有好多好多的消防员的脚都磨破了,他们才是真正的英雄。”这则微博以自身经历讲述了消防官兵在这次救灾行动中的具体作为,不仅给予了极高的评价,还饱含了博主的感恩之情。
其三是在此次龙卷风和冰雹特别重大灾害面前,普通社会民众和机构自发行动起来,奉献爱心,参与到救灾工作中,展现了大灾面前形成抢险救灾共同体的巨大力量。这一类包括主题1、主题6、主题8和主题9。如@静雅520的微博“阜宁的信息 新沟南湾现场!需要一批手电筒,请好心人联系我!!!朱〇东1323****000 再次向社会求助,阜宁吴滩街道急需要:救护车、吊车、救护人员、专业抢救人员!麻烦大家帮忙转发,请求多方救助!! 本人微信174****98”,还有@hey我就是这个姑娘的微博中说“灾区需要:清障机械、帐篷、蜡烛、电筒,心理疏导等,吃喝暂不缺,有资源的跟我联系。另由于灾区树木房屋倒塌严重加上道路狭窄,请志愿者不要开车前往造成拥堵!”展现了部分民众主动参与到救灾中的温暖力量。
而“负面情感组”主题建模包括:
主题1:盐城 救 财产 网民 地理 情况 龙卷风
主题2:龙卷风 盐城 无人机 志哀 救 间 伤员
主题3:盐城 网民 龙卷风 救 气温 条 通道
主题4:盐城 地理 气象局 大风 外出 龙卷风 雷雨
主题5:存有 视频 厂房 危 现场 救 受
主题6:龙卷风 厂房 平方米 地理 命 突发 救
主题7:慈善 全省 盐城 龙卷风 风灾 男子 接
主题8:龙卷风 盐城 救 地理 华南 蛀虫 平安
主题9:龙卷风 保护 与会 地理 志哀 石泰峰 网民
主题10:组 集 前来 盐城 救 地理 龙卷风
这些主题也可以被归纳为3类,但是内容显然与正面情感组有所区别。
其中出现最多的还是普通民众面对突如其来的自然灾害所感受到的无可奈何和无能为力,微博中呈现了此次龙卷风与冰雹特大灾害所导致的重大人员伤亡的数据,并对在此次灾害中不幸遇难的社会公众表示哀悼。这一类包括主题1、主题2、主题5、主题6和主题10,相关微博中多次出现蜡烛表情。
其二是部分微博用户对气象部门的不信任、失望甚至质问,这一类包括主题3、主题4和主题9。如@假扮领导说“我一直怀疑:我们是不是有全世界最多的国家财政供养的气象从业人员?”但也有部分用户直接为气象台发声,强调天灾的不可抗性。如@南海姑娘吖称“大家不要再喷气象单位了,有本事自己去研究,不是气象局天气预报谁报的?你们这些人嘛?预报准确不是你们说说就能做到的,理论上最精确也只能预计达到80%,更何况科学水平现在还不够。人类永远也不可能完全了解自然。有些人上了这么多年学只学会了当键盘侠。光在这喷了,也没见去一线救援。让人心寒。”
其三是对关于此次重大灾害中民众捐款去向的质疑,和对红十字会的不信任,这一类包括主题7和主题8。如@全民情敌天蝎审判者在2016年6月30日发布的微博“外面广场,红十字会又在招摇过市,热死这帮蛀虫。盐城龙卷风才拨款1.6亿好像。世博会,奥运会几千亿,有个屁用!”直接表达了对红十字会的不信任和对本次灾难捐款的不满意,这也是红十字会遭遇“郭美美”等舆情事件冲击之后慈善形象崩塌的具体体现。
五、结语
通过上述研究,本文综合情感分析和主题建模两个维度完成了模型的建构及应用,在自然灾害微博舆情的社会计算模型中所有的步骤均可以通过Python程序语言实现,可以根据不同需求爬取不同的数据进行分析。从中总结出自然灾害微博舆情分析的社会计算模型所具有的4个特点:
其一,该模型具有可操作性,适合于进行微博大数据分析。在应用中,原始微博研究数据超过了一万条,利用这些数据进行情感分析和主题建模之后,得出了体现江苏盐城623龙卷风灾害微博舆情特征的微博情感值分析统计表(图)、每日微博情感平均值统计表(图)、基于事件全体微博的主题建模和区分正负面情感的主题建模,实现了情感分析和主题建模的基本目标,且可以根据不同的研究问题筛选各类语料库进行分别处理。
其二,该模型从微博数据出发,能够得到自然灾害微博舆情的个性化结果。基于传统内容分析法的舆情研究往往先要根据相关主题的文献得出舆情研究的类目建构,再回归到舆情内容进行具体分析,因而这种研究思路是从文献出发而不是从舆情内容出发,所以得到的舆情分析结果常常缺少特定事件的个性化特征,就自然灾害而言,所有的舆情分析都固定在灾情基本情况及影响、政府灾害应对、公众灾害应对、灾民感受、对灾害的评论与思考等方面范畴内。而该模型并不预先对舆情内容进行假设,通过算法直接得出舆情内容的情感分析和主题建模,从结果上看更加贴近舆情本身。
其三,该模型节约成本。传统舆情分析中采用的内容分析法,在数据搜集、内容编码等过程中都需要人工去识别和分类,为了保证信度往往还需要多名研究人员进行重复操作,极为耗时耗力,成本相对较高。而该模型中,数据采集、分析均由相应的程序直接完成,只需要研究人员对相关数值进行配置,减轻了人工负担,也节约了整个研究的成本。
其四,基于社会计算的舆情分析是今后发展的趋势。互联网各色应用的发展给人们带来了各式各样的言论平台,网络舆情信息的大数据特征已经成为其基本特征,人工方法面对大型舆情分析项目时已经无能为力。此外,在媒体形式上,网络舆情已经不限于文本,而呈现广泛应用表情、图片、视频等多媒体表现方式的趋势,使得网络舆情日趋复杂,给网络舆情分析工作带来了巨大的挑战,必须发展基于社会计算的舆情分析方法,通过提升算法技术来提升对网络舆情新形态的分析能力。
然而,我们也必须认识到,自然灾害微博舆情的社会计算模型也有一定的缺陷。首先,在进行主题建模基础上的内容归纳时,自然灾害微博舆情的社会计算模型还是依赖于研究人员的主观因素,不同研究人员对微博内容的理解不同,可能会得出不同的结果;其次,通过网络爬虫技术得到了许多个人微博,用于研究时并未征得个人同意,可能涉及侵犯隐私的问题,需要创新相应的法律法规进行规范。
注释:
① 王飞跃:《从社会计算到社会制造:一场即将来临的产业革命》,《中国科学院院刊》,2012年第6期。
② 谢耘耕、刘锐、乔睿、张旭阳、袁会:《大数据与社会舆情研究综述》,《新媒体与社会》,2014年第4期。
③ 王飞跃:《从社会计算到社会制造:一场即将来临的产业革命》,《中国科学院院刊》,2012年第6期。
④ 孟小峰、李勇、祝建华:《社会计算:大数据时代的机遇与挑战》,《计算机研究与发展》,2013年第12期。
⑤ 徐明华、冯亚凡:《社会计算视域下传播学研究的嬗变与反思》,《现代传播》,2017年第12期。
⑥ 企鹅智酷:《2016微博用户研究:新欢、旧爱、核心价值与迫切之疾》,腾讯科技,http://tech.qq.com/a/20160907/010154.htm,2016年。
⑦ O’Connor B,Balasubramanyan R,Routledge B R,et al.FromTweetstoPolls:LinkingTextSentimenttoPublicOpinionTimeSeries.InternationalConferenceonWeblogsandSocialMedia,ICWSM2010,Washington,DC,USA,2010 May.pp.122-129.
⑧ 崔安颀:《微博热点事件的公众情感分析研究》,清华大学博士学位论文,2013年,第73-79页。
⑨ 谢思发、林琛、苏旋、江弋:《Hadoop平台的微博热点事件挖掘》,《小型微型计算机系统》,2014年第4期。
⑩ 马彬、洪宇、陆剑江、姚建民、朱巧明:《基于线索树双层聚类的微博话题检测》,《中文信息学报》,2012年第6期。