微博集群行为舆情感知大数据挖掘机制研究

2016-06-25刘海鸥燕山大学经济管理学院燕山大学互联网与产业发展研究中心河北秦皇岛

合作经济与科技 2016年10期

□文/刘海鸥（1.燕山大学经济管理学院；2.燕山大学互联网+与产业发展研究中心　河北·秦皇岛）

微博集群行为舆情感知大数据挖掘机制研究

□文/刘海鸥1，2
（1.燕山大学经济管理学院；2.燕山大学互联网+与产业发展研究中心河北·秦皇岛）

［提要］海量微博集群行为大数据环境下，如何感知微博用户的情绪变化，如何掌握微博集群行为舆情预警方法，成为维护社会稳定和政府执政安全的重要议题。本文提出基于舆情语义感知的微博集群行为大数据挖掘方法，通过计算微博舆情语义倾向相似程度，基于大数据并行挖掘技术进行舆情分析。

关键词：微博集群行为；大数据挖掘；舆情语义感知

收录日期：2016年3月21日

一、引言

当前，异军突起的新媒体——微博逐步成为最具影响力的信息分享社交平台，由此带来的微博评论与微博转发等行为也衍生出海量的数据信息。国内外学者据此对微博舆情进行研究，如Saki.Knafo强调美国总统竞选中奥巴马对twitter的使用，Mili论证了微博影响危机信息传播的程度，任立肖等提出的舆情预警系统Web数据挖掘技术，朱晓峰等探讨微博舆情监测K-Means聚类算法。上述模型与方法对发现微博热点话题、跟踪事件动态、预警危机事件都具有重大意义。但当前研究多利用文本挖掘来实现网络舆情的预警，而在海量网络数据处理中采用并行计算与分布式处理技术，同时辅以基于大数据态势决策分析对网络突发事件进行跟踪与监督的研究很少。面对微博大数据与日俱增的语义文本，采用传统的机器学习方法难以对上述文本内容的语义关系与舆情倾向进行深度挖掘，该问题也成为当前舆情挖掘研究的热点问题。在舆情的倾向性挖掘方面，基于舆情语义上下文的挖掘方法得到了较为广泛的应用。本文在舆情挖掘过程中引入了微博舆情语义感知方法，充分考虑微博文本舆情语义上下文分析的模式特点，同时借助Hadoop并行算法提升了微博集群行为大数据环境下的并行挖掘性能，取得了较好的实验测试效果。

二、方法描述

本文首先对基于舆情语义感知的微博集群行为大数据挖掘方法进行细致描述。在微博舆情挖掘系统中，假设存在微博用户组M、舆情信息S、微博舆情语义信息Context以及微博用户间的信任关系TU，采用协同挖掘方法计算目标用户ui对舆情信息Sj的倾向，然后按计算结果的高低进行排列，挖掘出倾向得分高的舆情信息，基于舆情语义感知的微博集群行为大数据挖掘主要包括如下几个步骤：

（一）舆情语义表示。假设微博用户的情境信息存在用户发布微博的位置L、发布时间T等n种不同类型的情境信息，本文记为Contexty=（C1，C2，…Cn），向量Ck（k=1，2，…n）则表示微博用户的某种具体情境，则存在：ItemRatingContext=（Item，Context1，Context2，…Contextn）。设某微博用户的两种不同情境向量为Contextx、Contexty，则可将用户上述两种情境的相似程度表示为Sim（Contextx，Contexty），即表示该用户在发表某微博时Contextx和Contexty的情境相似程度，记为：

（二）舆情语义感知。获取微博用户情境信息，建立用户-舆情倾向矩阵RSM×N，该矩阵RSM×N表示微博用户User对舆情Item的倾向，通过向量公式表示为：

根据Pearson法计算微博用户与其他用户的舆情语义相似程度，具体方法为：

式中，sim（ui，uj）表示微博用户ui与微博用户uj的舆情语义相似度。

（三）微博舆情挖掘。按照舆情语义协同挖掘的步骤，采用Pearson相似性度量公式sim（ui，uj）挖掘出舆情语义相似度最大的M条微博舆情信息，然后对用户发布的微博信息与具有相似舆情语义的其他微博信息进行加权，得出最终的舆情语义倾向评分：

根据计算的微博舆情倾向评分的高低对微博舆情信息进行排名，当微博用户的舆情语义与已进行微博舆情倾向评分用户的舆情语义相似度Simi（ItemContext，ItemRatingContext）最为接近时，则说明该舆情倾向为本次挖掘的最佳结果。

（四）Mapreduce化的大数据并行挖掘机制。为提高对微博集群行为大数据的挖掘性能，本文通过在Hadoop云环境来对微博集群行为大数据进行MapReduce化的并行挖掘，具体步骤主要包括：Step1：将输入MapReduce的微博集群行为大数据文件分解为N个任务；Step2：通过主控程序Master将N个微博集群行为大数据处理任务分配到MapReduce空闲的Worker节点；Step3：对每一个Map的微博集群行为大数据处理任务进行数据预处理，通过Map函数接收处理后的关键关键字Key；Step4：通过Map函数存储计算得出的中间结果，使用主机程序Master定时将信息传递到Reduce子任务节点；Step5：得到Master处理任务后，执行Reduce子任务的节点通过远程程序读取Map上的缓冲数据，通过Reduce函数输出关键字Key和相对应的计算结果集合；Step6：为用户输出R个计算完成的Map和Reduce舆情大数据处理结果，并进行信息整合。

三、方法验证

为对本文基于舆情语义感知的微博集群行为大数据挖掘方法进行验证，本文将实验的MapReduce环境搭建在具有9台服务器的Hadoop平台上，其中安装系统软件的服务器为NameNode（Lenovo服务器，4G内存，IT硬盘，2.8G主频，命名为Hadoop），其余8台服务器为DataNode，命名为hadoop1，hadoop2，…hadoop8，采用redhat5.5-x64安装VMware虚拟机的Linux系统，使用Hadoop-0.21.0版本。实验的舆情数据集为中国移动应用商城抓取到的上百种最常被下载和评论的移动服务数据集，同时选取了200多位微博用户进行测试，基于上述用户发表微博的服务评论信息构建一个移动社会化网络，通过对其1个多月时间的评论信息收集，共获得了4，000多条关于中国移动应用商城移动应用服务的评语，如能够体现微博用户对移动应用服务正向舆情倾向值的舆情语义词包括：“服务周到、服务温馨、舒适方便、贴心亲切、摆设整洁、服务热情、设备齐全、网速不错、性价比高”等，而“差评、环境恶劣、脏乱差、网速捉鸡、失望、手续繁琐、不爽、大呼上当”等则为反向的舆情语义倾向词。实验对传统的协同挖掘方法、传统的上下文挖掘方法以及本文挖掘方法的处理性能进行了比较。通过比较可以看出，本文实验条件下，传统的协同挖掘方法很难在较大程度上减小挖掘误差，而传统的上下文挖掘方法与本文提出的基于舆情语义感知的挖掘方法得出的MAE值与传统协同挖掘方法相比有所下降，这表明在微博舆情挖掘过程中引入上下文与舆情语义可以取得更为理想的挖掘效果；而从舆情挖掘的覆盖率指标Coverage来看，本文方法对舆情信息的覆盖范围显著高于传统的协同挖掘与传统的上下文挖掘方法，导致这一结果的原因是因为基于舆情语义感知的舆情挖掘方法通过加权计算用户发表微博信息的情境相似性来进一步强化目标用户舆情倾向与舆情挖掘结果的相似性。由此可见，云环境下基于舆情语义感知的微博集群行为大数据挖掘方法显著提升了并行挖掘速度以及对舆情信息的覆盖率，降低了挖掘误差，在较大程度上提升了对微博大数据舆情倾向挖掘的深度，因此是一种非常有效的应对微博舆情的大数据挖掘方法。

主要参考文献：

［1］Saki Knafo.NDAA Trends On Twi t t er Duri ng The Debat e［N］. The Huffi ngt on Post，2012. 10. 23. 9.

［2］Mil l A，Che，R Lee.Web 2. 0 Emergency Appl i cat i ons：HowUseful Can Twit t er Be for Emergency Response［J］. Journal of Informat i on Pri vacy Securi t y，2009. 3.

［3］任立肖，张亮.食品安全突发事件网络舆情的分析模型［J］.图书馆学研究，2014. 1.

基金项目：河北省社会科学基金项目（编号：HB15GL016、HB15GL009）；河北省教育厅自然科学基金（编号：QN2015248）；燕山大学自主研究项目（编号：14SKB002）

中图分类号：TP393

文献标识码：A

合作经济与科技

2016年10期