大数据环境下微博舆情热点话题挖掘方法研究
2015-02-03马彦
马彦
[摘要]通过分析大数据环境下微博舆情的发展特点和舆情自动监测的具体需求,设计了微博舆情热点挖掘系统结构模型,描述了各层的主要功能和实现方法。然后讨论了热点话题发现的方法,首先运用ICTCLAS和AntCone等工具提取热点词,其次描述规范化的数据表示形式,最后通过Chameleon聚类算法实现热点博文的聚类和话题抽取。该方法将对及时发现敏感信息和掌握舆情热点提供信息支持。
[关键词]微博;舆情;热点话题;挖掘方法
[中图分类号)G250.73 [文献标识码]A [文章编号]1008-0821(2014)11-0029-05
互联网出现后,数据则不断的以前所未有的速度增长。具有大量化(Volume)、多样化(Variety)、快速化(Veloei-ty)和价值(Value)这“四v”特征的“大数据”正影响和改变着人们的生活。随着对大数据分析能力的提高和技术的进步,它必将对拥有良好的教育、医疗和交通的智慧城市的构建产生决定性的推动作用;为更加理性、安全和完善的电子金融和电子商务业务提供技术保障;另外,实现实时的舆情监测、控制和引导,将促进电子政务良性务实发展,从而保障国家的和谐稳定环境。因此,实现对大数据中潜藏价值数据的挖掘和应用成为了学术界、政界和商业界共同探索和关注的焦点问题。
随着政府部门和个人同时开启微博和微信,我国迎来了一个新的“双微时代”。2014年7月人民网舆情监测室与腾讯微博联合发布《2014上半年度腾讯政务微博发展研究报告》,该报告显示,截至2014年6月15日,经过腾讯微博平台认证的政务微博已达到181524个,其中党政机构微博111728个,公务人员微博69796个。政务微信认证数超过5000个。与此同时,人民网舆情监测室也与新浪微博联合发布《2014年上半年新浪政务微博报告》,该报告指出截至2013年底,我国政务微博认证账号超过24万,而在其2013年上半年报告中发布新浪微博注册用户总数已经超过5亿。另据中国互联网络信息中心2014年7月发布的《第34次中国互联网络发展状况统计报告》显示,微博用户使用成熟度和内容偏好度不断加深。微博发展呈现如下几个趋势:第一,微博已经成为个人、机构以及其他媒体的信息交流发布平台;第二,微博用户由早期一二线城市为主逐步向三四线或更低级别地区发展;第三,随着微博用户、博文数量的裂变增长,以及微博中所蕴含的时间、地域、社会关系网络相关数据的积累,微博将在舆情管理、行为预测中体现更大的价值。因此,研究如何利用Web信息挖掘技术,解决微博舆情信息的提取、热点话题及其受众和时空分布特点的发现、态度倾向性分析和网络舆情扩散方式建模等问题,能够为社会管理者及时了解舆情热点并进行反馈、预警和引导提供必要的信息。
目前,我国各界已经深入开展了关于网络舆情相关领域的研究工作。首先,研究基金资助方面,国家大力支持网络舆情分析与监测领域的相关研究,仅2014年批准的国家自然科学基金资助此领域项目有12项,资助力度在21万到84万之间;国家社会科学基金资助此领域项目8项。其次,研究成果文献发表方面,根据中国知网(CNKI)检索数据显示,我国关于微博舆情分析方面的研究文献最早于2011年发表,之后每年倍数增长。研究热点主要集中在以下七个方面:第一,涉及微博舆情监测和预警的具体技术、方法和算法;第二,微博舆情预测模型;第三,微博舆情传播的影响因素、模式、特征和规律;第四,微博舆情管控、引导和微博突发事件应对;第五,政务微博的作用、对突发事件的应对能力和发展方向;第六,涉警微博的热点事件应对和引导;第七,高校微博舆情的特点和影响力及其监管、引导和应对机制。再次,产品研发方面,我国已有18家网络舆情科研机构、包括“拓尔思、谷尼、军犬、乐思”在内的12家网络舆情监测服务机构和包括“天涯舆情”在内的3个有影响力的媒体型网络舆情产品。
微博舆情热点话题发现是实现微博舆情监测、预警、应对和引导最核心的工作和基础。部分研究者将聚类方法的改进及其在热点发现方面的应用作为网络舆情热点话题发现研究的工作重点。张寿华等人首先提取检索页面标题分析热点关键词,然后利用热点关键词进行话题聚类,最后设计热点话题评估模型,从而实现对热点话题的监测。韩晨靖改进特征词提取方法和向量相似度计算公式,并将该结果融入基于密度的聚类算法中发现舆情热点。韩威通过改进Single-Pass聚类算法克服该算法对文本输入顺序敏感的缺陷,将其应用于网络舆情热点发现。也有研究者关注面向大数据环境的微博舆情热点监控。陈彦舟等将Hadoop分布式文件系统和Map-Reduce计算模型应用于微博数据处理,实现对微博热点话题的发现。另有研究者将藏文舆情分析作为研究工作的着眼点。江涛设计藏文语料预处理和分词方法,并将其表示为向量空间模型,通过增量聚类完成藏文热点话题的发现并提出热点舆情分析结果可视化方案。部分热点发现方面的研究成果已被应用于实际的产品中,如李渝勤等提出的面向互联网舆情的热词分析技术已经被应用于拓尔思舆情检测系统中的热点话题发现模块。
纵观已有研究成果,我国微博舆情热点发现与分析还处于探索阶段,热点话题发现的准确率、召回率和时效性问题,将影响整个舆情监测系统的性能。目前,很多研究成果还无法适应实践的需求,在实际应用中,突发事件的早期预警,舆情事件的进展跟踪等仍然依赖人工参与。因此,为了降低舆情监控过程中人工参与的程度,本文将重点研究并提出微博舆情热点话题挖掘模型以及具体的热点话题发现方法。
1、微博舆情热点挖掘方法
1.1 热点挖掘模型构建
根据微博数据的特点和用户实际应用的最终需求,构建了由数据采集层、数据预处理层、数据存储层、数据智能分析层、舆情信息表示层和应用层组成的微博舆情热点挖掘系统模型,如图1所示。
(1)数据采集层用于从国内四大主流微博平台自动采集原始数据。目前新浪、腾讯、搜狐和网易均提供了微博开放平台,将其微博相关功能接口通过Open API(Application Progamming Interface,应用编程接口)的形式开放给用户。Open API即开放平台是服务型网站常见的一种应用,网站的服务商将自己的网站服务封装成一系列API开放出去,供第三方开发者使用,舆情挖掘系统中通过调用这些API可以获取微博内的数据。新浪微博同时还提供了微博开放平台商业数据API,为企业接入者提供便捷的获取微博官方数据的通道,这为接入者提供了更强大的数据支持和稳定性保障。endprint
(2)数据预处理层主要用于对原始数据进行清洗,提取元数据。元数据主要包含两个方面:第一,用户信息元数据。包括认证信息、基本信息(用户ID、昵称、性别、所在地、简介、生日、注册时间)、微博数、粉丝数、关注数、评论数、微数据(被转发数、收到评论数)、微人脉(社交关系网络);第二,微博元数据。包括微博ID、微博内容、发表时间、转发数、被评论数、“赞”数、“@”内容、表情符号、“#…#”关注话题、分享图书、分享音乐、分享短视频、发表时位置信息。
(3)数据存储层实现在分布式数据仓库中存储元数据。
(4)数据智能分析层是微博舆情热点发现最核心的部分。主要是借助大数据技术、数据挖掘技术(分类算法、聚类算法、相似项发现算法、序列模式挖掘算法)和自然语言处理相关技术,实现对微博数据的智能分析。热点话题的发现、情感倾向判断、发展走势分析和预测、时间和地域特征分析以及受众跟踪是这一层主要要实现的功能。
(5)舆情信息表示层主要实现微博舆情热点挖掘结果的可视化。这一层主要包括三个方面的功能:第一,热点话题博文排行榜,帮助快速了解舆情热点;第二,热点话题博文时空分布特征图表展示,直观掌握舆情发生、发展和演变情况;第三,突发舆情预警功能,通过网站强调显示、自动向有关人员发送简报信息(短信、邮件、电话),为及时控制和引导舆情事件提供可靠的技术保障。
1.2 热点词的确定
实现微博舆情热点挖掘的首要任务是在微博文本中发现热点词。在微博博文中出现的高频词中(不包括代词、介词、连词、助词、叹词、拟声词),选择随时间改变词频变化大的作为热点词。词是最小的能够独立运用的语言单位,但是在汉语语句中词语之间没有明显的区分标记,因此在实现对热点词的提取前首先需要将微博文本中的语句分割成正确的词语序列,然后再实现高频词的查找。
(1)这里采用中国科学院计算技术研究所研制的汉语词法分析系统ICTCLAS实现分词处理。该系统主要功能包括中文分词;词性标注;命名实体识别;新词识别;同时支持用户词典;支持繁体中文;支持gb2312、GBK、UTF8等多种编码格式。ICrCLAS分词速度单机500KB/s,分词精度98.45%,是目前世界上最好的汉语词法分析器。图2是取自2014年8月31日新浪微博的一条博文,通过调用ICIELAS分析后效果如图3所示。
计算所汉语词性标记集中的标记共计99个(22个一类,66个二类,11个三类),其中一类标记如表l所示。
(2)基于分词后的结果,可以利用由日本早稻田大学科技学院Laurence Anthony编写的一款绿色、跨平台语料处理软件AntConc(这里使用antconc3.2.4w版本)实现高频词的发现。AntConc具有词语检索、词表生成、主题词计算、搭配和词族提取等多种功能。高频词的检索和高频词在文内呈现示意如图4、图5所示。
比如对2014年8月31日新浪微博中关于“中国新首富马云”部分博文按照上述方法进行分析,得到高频词据频率由高到低分别是马云、首富、王思聪、万达、电商、阿里巴巴。微博博文分析数据恰巧与一条新闻相关并且一致。2014年8月28日,美国彭博新闻社发布的亿万富豪指数显示,阿里巴巴创始人马云超越万达集团王健林成为中国首富。马云是世界最大电商平台的掌门人。因此,舆论关注的焦点也的确表现在马云的财富和他所拥有的产业以及万达王健林的儿子王思聪等方面。
(3)选择随时间改变词频正向变化大的高频词作为热点词。
1.3 热点博文聚类
通过聚类,可以实现热点话题的发现。这里设计热点博文聚类方法主要包含四个步骤:第一,将博文表示成热点词向量组的形式;第二,求解博文的热点词出现矩阵;第三,求解博文的相异度矩阵;第四,利用层次聚类Chamdeon算法实现热点博文聚类。
1.3.1 博文的向量表示
微博博文集合用S表示,S={s1,s1,…,sn},其中si(1≤i≤n)代表一条微博文本,si=(hw1,hw2,…,hwm)(hwi(1≤i≤m)表示si中出现的经过分词过滤后的热点词)。
1.3.2 博文热点词出现矩阵定义
定义一个n×g(n条博文×g个热点词)的矩阵,如公式(1)所示。
1.3.3 博文相异度矩阵定义
定义一个n×n(n条博文)的矩阵,表达n条博文两两之间的近似性,如公式(2)所示。
其中,d(i,j)是毛和si之间的相异性的量化表示,是一个非负值,si和sj越相似,其值越接近于O,否则其值越大。因为d(i,j)=d(j,i)且d(i,i)=0,这里只需要使用一个下三角矩阵。
另外,通过计算Jaceard系数来完成,如公式(3)所示。
其中,a表示在公式(1)中,两条博文si和sj的相同热点词属性具有相同属性值1的属性个数;b表示在公式(1)中,两条博文si和sj的相同热点词属性具xip=1且xjp=0的特征的属性个数;c表示在公式(1)中,两条博文si和sj的相同热点词属性具xip=O且xjp=1的特征的属性个数。
1.3.4 热点话题发现
Chameleon是一种利用动态建模的层次聚类算法,簇间的相似度依据族中对象的互连度和簇的近似度判断,将互连性和近似性都大的簇合并。该算法可以发现高质量的任意形状的簇。借助该算法实现热点话题发现的具体步骤如下:endprint
第一步,构造一个K-最近邻图Gk。图中顶点表示数据项,即si(1≤i≤n);若si到sj的距离值是所有数据项到数据项sj的距离值中K个最小值之一,则在这两个点之间加入一条带权边,边的权重代表它们之间的近似度。即它们之间的距离越大,则它们之间的近似度越小,它们之间的边的权重也越小。
第二步,根据最小化截断边的权重和来分割K-最近邻图Gk。
第三步,合并子簇。访问每个簇,计算它与临近簇的相对近似度(RI)和相对互连度(RC),计算方法如公式(4)和公式(5)所示;合并彤和RC分别超过TRj和TRc的簇对(TRI和TRC为用户指定的阈值),若满足条件的临近簇多于一个,合并具有最高绝对互连性的簇;重复上述操作,直到没有可合并的簇。
其中,EC(Ci,Cj)是连接簇Ci和Cj的所有边的权重之和;EC(Ci)是把簇划分为两个大致相等部分的最小等分线切断的所有边的权重之和。
其中,SEC(Ci,Cj)是连接簇Ci和Cj的边的平均权重;SEC(Ci)是把簇Ci划分为两个大致相等部分的最小等分线切断的所有边的平均权重。
通过上述步骤可以完成热点博文向量的聚类,提取簇心所在向量,将其对应的博文作为热点话题呈现。
2、结论
随着互联网的快速发展,微博作为其重要应用之一已经深入人们的日常网络生活,社会各阶层的参与者通过微博表达其对各种公共事务的意见、态度、观点和情绪。对微博舆情的检测、预警和引导是新形势下创新科学社会管理机制的迫切需要。但微博数据量的迅猛增长和数据形式的多样化使得人工分析舆情信息变得愈发困难。在这种大数据背景下,为保证微博舆情检测的准确性和时效性,并逐步减少人工参与程度,本文研究并提出了由数据的采集、预处理、存储、智能分析和信息表示等六层构成的微博舆情热点挖掘模型;重点讨论了智能分析部分热点话题提取的方法,首先利用分词和词索引实现热点词的发现,然后设计博文的向量表示方法和相异度矩阵从而实现对博文数据的规范化处理,最后运用Chameleon算法进行博文聚类从而发现热点话题。未来关于博文中情感倾向性分析问题以及涉及长微博的舆情分析将成为工作的重点。endprint