基于数据挖掘的微博舆情采集及研判研究
2017-01-25冉朝霞
冉朝霞
(中共郑州市委党校 公共管理教研部,河南 郑州 450042)
微博成为大数据时代人们获取信息、交流信息的重要渠道,每天有成千上万的话题从微博上产生,能快速地从微博海量信息中完成热点话题的采集,对了解社会发展形势、掌握舆论动态将起到指导性的作用。目前,普遍采用的微博舆情采集技术是通过对特定时间段内特定话题下的微博数量进行对比,通过数量排序找到最热的微博话题,微博数量越多说明话题活跃程度越高。由于微博数量比对技术是仅对单一话题的微博数量进行统计,因此容易将短时间内大规模集中发布的话题误判为热点话题。这种技术没有考虑到微博转发数量和微博评论数量对微博话题的影响因素,从而导致有些评论热烈的微博话题被忽略。此外,数量排序技术也没有考虑微博认证用户(加V用户)的影响因素,认证用户参与程度越多的事件越是热门话题。综上所述,现有的微博舆情大数据采集技术并不能全面、准确地挖掘出微博热点话题。而基于数据挖掘技术的微博舆情大数据采集框架可以规避上述技术缺陷,全面、准确地挖掘出微博舆情热点话题。数据挖掘技术首先对采集到的微博大数据进行分词处理,并抽取出热门关键词组,随后启动计算模块,对涉及热门关键词组的微博数量进行统计,根据微博数量和相应参数进行加权计算,获得热门关键词组的热度值后启动排序模块,对热门微博关键词组热度值进行排序,从而获取微博热点话题排行。
一、运用数据挖掘技术,创新微博舆情大数据采集模式
运用数据挖掘技术和数据分析软件,可以对微博转发和评论数据进行抓取、采集,绘制出时间轴和主题分析,全面揭示微博舆情大数据的采集模式及微博热点话题的挖掘方法。本文以2017年陕西榆林县“产妇跳楼事件”入手,给出大数据挖掘的实例。
第一步,利用大数据技术绘制“产妇跳楼事件微博评论转发”时间轴是在软件自动采集到的微博大数据的基础上运用数据挖掘技术绘制出事件传播时间轴图表。从事件发生的时间节点可以看出舆论传播的基本脉络如下:9月5日大V开始转发榆林产妇跳楼事件,引起广泛讨论;9月6日院方再次发布声明,公布事件监控视频截图,引起了更为广泛的关注,舆论出现一边倒,声讨产妇家属;9月7日跳楼产妇的母亲做出回应,且院方说法出现前后矛盾,声援产妇家属的声音开始出现;9月8日官方公布调查结果,声讨医院之声渐起;9月9日院方产科副主任和助产士的说辞引发的社会质疑声越来越多;9月10日医院与产妇家属达成和解协议;9月11日院方两名工作人员被停职。基于大数据挖掘技术,以4小时为区间绘制的事件时间轴,可以清晰判断舆情演进的脉络和关键的转折点。
第二步,运用大数据挖掘技术,对榆林产妇跳楼事件在微博传播中的词频进行采集和统计。第一阶段(9月5日至9月6日),“怒”“微笑”(贬义)的表情符比例较高,多数民众在表示对产妇家属的愤怒;“嫁”“这家”“老婆”“一家人”“妈”“恐婚”等与“家庭关系”相关的词语比重较大,微博舆论的矛头直接指向产妇家属,民众认为“不该嫁到这样的家庭”,从而又引发了对“女性权利”“婆媳关系”“夫妻关系”等问题的相关讨论。第二阶段(9月7日至9月8日),“责任”“同意”“签字”“拒绝”“真相”等词出现,舆论开始对医院进行质疑和指责,质疑治疗过程中家属拒绝剖腹产这一说法是否属实,质疑医院没有承担相应责任,进而民众呼吁相关部门公布事件真相。
第三步,数据挖掘技术在上述词频统计的基础上,继续对主题词进行挖掘分析,以一些规模较小的网络为传播形式,形成聚合的“主题词话题圈”[1]。
通过主题分析能够看出,从9月5日、6日到9月7日、8日,舆论从完全一边倒的情况到发生舆情反转,从指责产妇家属转向指责医院,由震惊和愤怒等负面垃圾情绪的宣泄转向理性的讨论和反思。
从上述陕西榆林县“产妇跳楼事件”大数据挖掘实例可以看出,基于数据挖掘技术的微博舆情大数据采集包括如下几种模式。
1.分词技术与主题词搜索模式。分词技术与核心词搜索是微博大数据挖掘的基础,分词技术是将微博内容转化为结构化向量,针对提交查询的关键词串进行处理,再根据查询后的关键词串用各种匹配方法进行分词的一种技术。分词技术包括词语切分、词语信息标注、内容核心词和实体词提取及语义依存分析等。核心词搜索功能模块包括内嵌正负面情感极性分析、单点故障容错、语义联想搜索、临近搜索、支持增量索引、自动缓存机制、自动备份与恢复机制、搜索屏蔽与恢复和自动优化机制等等。
2.聚类技术模式。聚类技术主要用于热点话题的挖掘以及为相关内容推荐提供关联资源。根据收集的微博内容采用自动聚类的方法对微博进行分类,获取不同的微博类别。
3.词扩展技术模式。聚类技术的效果取决于内容分析的深度。微博的内容比较短,可提取的关键信息比较少,做相关运算时容易因为数据稀疏而难以平衡推荐召回率和准确率。因此有必要引入词扩展技术,优化核心词扩展效果,以此为基础开展词聚类的工作,实现推荐召回率和准确率的同步提升。
4.结构化分析和相关性运算模式。从采集的各微博类别下的微博内容中提取一个或多个中心词,对从同一微博内容中提取的中心词进行结构化分析,并将分析后的中心词进行组合,获取中心词组,计算各微博类别下每个中心词组所涉及的微博数量,并根据微博数量从中心词组中抽取出各微博类别下的热门关键词组。运算模块进一步对同一微博类别下涉及热门关键词组的微博数量进行统计,并根据微博数量和微博参数进行加权计算,获取各微博类别下热门关键词组的热度值。
二、运用数据挖掘技术,构建微博舆情大数据研判机制
运用数据挖掘技术构建微博舆情大数据研判机制要注重以下几个方面的转变。
1.舆情研判主体:由人工型向智能型转变。舆情收集的智能化、舆情分析的智能化、舆情引导的智能化不仅可以从数据挖掘和分析的层面运用大数据助力舆情研判工作,还可以在舆情处置中整合专家数据库,把大数据的分析结果与舆情研判专家的经验相结合,实现人与机器的良性互动沟通机制,从而达到提升微博舆情大数据的实用效能。此外,在实践中还应注意优化和创新人与机器的互动沟通机制,以便更好地发挥微博舆情大数据在舆情研判中的效用。在大数据的支撑下,舆情研判主体可以建立开放式、可扩展的全息模拟仿真环境,提供自然、社会与人文的标准化建模,以呈现舆情事件全过程的动态建模;可以自动获取微博舆情大数据与其他多源异构数据,实现人工与真实事件系统的交互协同演化;可以提供基于模拟仿真平台的综合集成支持,实现对多种过程与结果的研判。这些都将为舆情研判提供极为有力的辅助作用,也将更有利于微博舆情大数据效用的发挥。
2.舆情研判对象:由模糊型向可视型转变。数据可视化是指将大型数据以图像形式表示,利用数据分析和开发工具发现其中未知信息的处理过程。在大数据时代,作为舆情研判对象,可以通过关联不同领域、不同维度的微博大数据,利用数据交叉复现和链接推送技术还原舆情研判对象多维度的真实信息,实现对舆情研判对象的可视化[2]。针对微博环境下数据体量大、数据生产速度快、数据类型及内容庞杂等特点,在对微博舆情大数据进行实时、全面、准确地进行分布式处理的同时,还应考虑如何优化集群规模,以便能充分利用各节点的性能来实现舆情研判对象的可视化。从微博舆情监管的角度,还应进一步发挥大数据的预测功能,将全部相关舆情大数据信息,如网民评论、情绪波动、社会关系等,以量化的形式转化为可供运算的标准数据,从而实现舆情研判对象由模糊型向可视型的转变。
3.舆情研判机制:由控制型向预测型转变。在舆情研判机制中,需要处理的大多是由人类社会这个复杂开放的巨大系统所产生的超大规模的各种数据。面对超大规模的数据,传统的因果分析方法往往难以奏效,因为整个系统中若干组成部分相互影响,甚至有可能互为因果,故而因果关系隐藏在整个系统之中。传统的因果分析方法可以很容易实现对采集到的微博舆情大数据进行分类和控制。与传统的以逻辑推理为基础的因果分析方法不同的是,基于大数据挖掘技术的舆情研判机制更侧重于对数量巨大的数据实施搜索、比对、聚类、分析和归纳,更多关注的是数据之间通过数据挖掘技术才能洞知的隐含的相关关系,即寻找数据集合里隐藏的相关性[3]。建立在这种相关关系基础之上的预测,正是构建基于大数据挖掘技术微博舆情研判机制的核心议题。
[1]维克托·迈尔-舍恩伯格,肯尼思·库克耶.大数据时代:生活工作与思维的大变革[M].盛杨燕,周涛译.杭州:浙江人民出版社,2013.51-58.
[2]李国杰,程学旗.大数据研究:未来科技及经济社会发展的重大战略领域——大数据的研究现状与科学思考[J].中国科学院院刊,2016,(6).
[3]李磊,刘继,张雄魅.基于共现分析的网络舆情话题发现及态势演化研究[J].情报科学,2016,(1).