基于数据挖掘的国际涉华舆情分析关键技术研究
2019-01-23张聪聪李思彤殷复莲
张聪聪,李思彤,汤 艺,殷复莲
基于数据挖掘的国际涉华舆情分析关键技术研究
张聪聪,李思彤,汤 艺,殷复莲*
(中国传媒大学 信息工程学院,北京 100024)
针对新媒体时代国际涉华舆情广度和强度急剧增强的问题,本文提出了基于数据挖掘的国际涉华舆情分析方案,采用数据挖掘相关技术得出周边与非周边国家在热点事件上的舆情共性与差异。本文对中美贸易战进行Twitter和微博全面数据分析对比,深入探究其微博转发结构,得到了国际涉华舆情的特点以及我国舆情演变机制。
涉华舆情;数据挖掘;数据分析;微博转发结构
0 引言
一直以来,西方媒体在舆论场都处于主导地位。随着互联网技术的发展,大数据时代的来临使得以推特、微博为代表的自媒体取代传统媒体成为舆论的重要产生地。新型媒体领域的出现将改变舆情的整体格局,对我国也是一个不可错失的机遇。准确把握新媒体领域国际舆论场的走向,有利于正确判断我国所处国际舆情的新形态,有利于推进中国国际传播能力建设,有利于向世界展现真实、立体、全面的中国。
数据挖掘(Data Mining),指“通过仔细分析大量数据来揭示有意义的新的关系、趋势和模式的过程”[1]。传统的数据挖掘包括分析用户地域分布,性别分布、情感走向以及词云制作,如今为更好的挖掘潜在价值,舆情转发结构和舆情预警被广泛研究。西方媒体已经通过数据挖掘的方式进行新闻报道,发现其中的新颖点并对此进行深度剖析,不仅在呈现上更加简明而且更加有说服力。彭博新闻社开设的数据挖掘类栏目今日图表将彭博新闻、彭博数据与彭博分析结合起来,全面解读数据挖掘在新闻报道中的应用。国内在此方面开展较晚,架构仍不清晰,但主流媒体都在纷纷跟进[2-3]。
本文主要是基于“Python+Google+Selenium”的平台进行数据的爬取[4],对爬取的数据做清洗、集中;其次利用R语言做出热点事件周边国家和非周边国家整体内容词云,分析得出两者关注点的差异之处;之后以微博平台为例,做出中美贸易战多关键点型转发结构,最终以可视化系统的形式呈现以上全部分析结果。
1 基于数据挖掘的国际涉华舆情分析方案[5]
通过Python工具对国内和国外的社会媒体、新闻网站和政府机构进行数据获取,采集得到有关中国的各类文本以及数值型数据。对国家进行区域分类,因地制宜通过MySQL建立各区域的数据库,为后续各类研究奠定坚实的基础。
图1 国际涉华舆情分析方案
通过使用跨学科研究方法融合应用,进行关注焦点分析、用户标签分析、事件走向趋势分析、地域分布分析、性别比例分析以及意见领袖的挖掘。利用意见领袖进行微博转发结构的绘制,微博转发结构分为单关键点型、链式型以及多关键点型。单关键点型微博信息传播速度快,关键点为强势微博用户节点,但舆情挖掘深度稍低;链式型结构信息传播速度较慢,但针对性强;多关键点型结构舆情传播深度高,影响范围广[6]。
具体而言使用R语言对数据进行可视化处理,显示热点事件内容词云,以进行周边国家和非周边国家的“中国观”分析;以微博和Twitter平台为例,以进行舆情内容、用户画像、情感倾向分析;深入微博进行意见领袖的挖掘,对舆情事件发生过程中的舆情传播特征进行分析。
2 典型案例及结果分析
本文选取“博鳌亚洲论坛”、“中美贸易战”、“全国两会”、“金正恩访华”、“嫦娥四号登月”5个热点事件,基于“Python+Selenium+Google”平台采集周边国家和非周边国家政府、媒体、娱乐网站数据,同时利用R语言进行数据预处理、数据分析以及词云绘制;对于中美贸易战深入解读,利用Python分词然后导入WordArts制作词云以及分析事件的整体内容词云、用户简介词云、情感倾向[7]、地域信息、男女比例等。
实验一 周边与非周边国家内容词云对比
周边国家包含俄罗斯、日本、新加坡以及韩国,非周边国家包含澳大利亚、美国、英国。以下选取两个事件进行整体内容对比展示。
图2 周边国家--中美贸易战
图3 非周边国家--中美贸易战
对于“中美贸易战”,从词云对比图可以看出,周边国家更关注“经济”、“贸易”、“关税”以及如何和平解决,而从非周边国家关注热词“战争、全球、冷战、经济”等可以看出舆论声音强烈,而且态度更加强硬。
图4 周边国家—博鳌亚洲论坛
图5 非周边国家—博鳌亚洲论坛
对于博鳌亚洲论坛,周边国家的词云热词为“亚洲、海南、经济、贸易、发展”,表明周边国家更多是考虑此次会议会如何推动自身发展,而非周边国家词云显示“习近平、特朗普、讲话”为热词,表明他们更倾向于关注领导人之间的对话。
实验二 微博和Twitter舆情分析和对比
本实验以中美贸易战为例。中美贸易战,起源于美国总统唐纳德。特朗普于2018年3月22日签署备忘录,宣布依据1974年贸易法第301条对中国进口的商品征收关税,中国商务部做出反制措施向128种美国进口商品征税。中美双方曾于2018年5月达成和平共识,但2018年7月特朗普政府正式对中国商品加征25%关税,中方报复措施也在之后即行实施。中美贸易战实则是美国霸权主义遏制中国崛起的手段,随着时间推移国际形势对我们将更加有利;同时我们应正确辨认有利因素和不利条件,解决好贸易纠纷[8]。
(1)热度趋势走向图
图6 热度趋势图
从热度图可以看出,国内外整体热度图走向基本是一致的,说明中美贸易战这件事给双方都带来了影响。但是特朗普于2018年3月22日签署备忘录后2018年3月23日在国内立即引起热议,而国外民众则是在2018年4月在美国政府发布加征关税商品清单时热度才达到顶峰。而且相较于第一次的关注度,在2018年7月6日美国对华征税清单第一部分正式生效时,国内关注度不如上次;而国外民众则达到该事件关注顶峰。这种差异说明国内对于中美贸易战的关注是集中在这件事背后对中国发展的深远影响,而国外民众(绝大多数为美国)可能更关注加征关税商品清单,这与他们的生活直接相关。
(2)内容词云图
图7 中美贸易战-微博
图8 中美贸易战-Twitter
微博词云图显示的热词为“经济、市场、贸易、谈判、股市”,可见国内民众还是希望和平解决贸易纠纷,最终实现经济繁荣,双方共赢;Twitter词云图热词为“War、Go、Talk、Fight、Economy、Win”,可以看出国外民众绝大部分还是希望通过谈判以求得和解,但是仍有小部分激进分子企图挑起战争,巩固美国的霸权主义。
(3)用户标签词云图
图9 微博用户标签词云
图10 Twitter用户标签词云
从该事件两个平台的用户关注者的词云图来看,绝大多大数为商人、证券分析师、股民、政治家以及其他涉及到经济的一些行业,说明中美贸易战不仅是中国和美国的贸易冲突,更和国际经济市场密切相关,所以应妥善解决以避免经济市场的动荡。
(4)情感倾向
图11 情感倾向图
从对比可以看出,国内民众对于此事件大多持积极态度,坚持维护国家利益;相比之下,国外民众持中立态度,观望者较多,同时有小部分民众直接表示不支持此种做法,但是仍有民众选择支持政府决定。
(5)微博用户地域分布图、性别分布图
图12 微博用户地域分布图
从上图可以看出(由蓝到黄表示关注用户越来越多),对于中美贸易战比较关注的用户仍集中在北京、上海和广东这些一线大城市,其次是沿海城市如山东、江苏和浙江,而内陆或者偏远的西部地区则关注度较低。
图13 微博用户性别分布图
从上图可以看出,对于中美贸易战,由于涉及政治、经济等领域知识,在所观察人群中男性关注度远远高于女性。
实验三 微博转发结构图
微博是一种基于用户关系的信息分享、传播以及获取的平台,涵盖了从个人导向到群体导向,从简单信息传播到整体舆论网络行为协作的的多元化功能。基于信息传播模型建立网状的微博转发结构模型,有利于预测用户的转发行为,进而可以预测当前事件的传播速度和传播范围[9]。本文以中美贸易战为例,采用多关键点模型,选取大V节点作为中心绘制微博转发结构模型。
图14 微博转发结构图
本文选取转发量最高的三个节点(占豪2106、新浪财经1261、任泽平878)作为意见领袖,并以其为转发中心点做出中美贸易战传播结构,由此我们可以清晰的看见该事件的传播路径。同时这种层级的网状结构能快速找到改变舆论走势的关键性节点,一方面有利于政府在舆情初期控制舆情发展趋势,另一方面有助于识别破坏国家安全的反动分子和维护社会和谐稳定[10]。
3 总结
本文选取2018年度上半年的5个热点涉华事件,整体比较周边国家和非周边国家在热点事件上关注点的不同之处,有利于我国因地制宜,在国际社会中赢得更为友善的舆论空间[11];重点比较了社交平台微博和Twitter,详细分析了对于中国贸易战两平台的关注趋势走向、关注点、关注者基本标签的差异以及情感倾向的不同,有利于新闻工作者的研究工作以及我国媒体对外国家形象的传播;此外本文给出了对于此事件多关键点模型的微博转发结构图,达到了辅助决策的目的。
[1] 王光宏、蒋平: 《数据挖掘综述》[J]. 同济大学学报自然科学版, 2004(2): P246.
[2] 史尤昭. 数据挖掘技术研究与应用[J]. 软件, 2015, 36(11): 38-42.
[3] 卓广平. 数据挖掘开发及应用研究[J]. 软件, 2015, 36(5): 81-83.
[4] 王铁刚. 社交媒体数据的获取分析[J]. 软件, 2015, 36(2): 86-91.
[5] 尹培培. 大数据时代的网络舆情分析系统[J]. 广播电视技术, 2013(15): 44-47.
[6] 刘继、李磊. 基于微博用户转发行为的舆情信息传播模式分析[J]. 情报杂志, 2013-7, 32(7): 75.
[7] 王非. 基于微博的情感新词发现研究[J]. 软件, 2015, 36(11): 06-08.
[8] 姚枝仲. 形势正在发生对我有利的变化[N]. 光明日报, 2018-8-21(15).
[9] 刘玮. 基于用户行为特征的微博转发预测研究[J]. 计算机学报, 2016-10, 39(10): 1994.
[10] 张军芳. 对我国涉华国际舆情研究的解读与反思—以1998-2011年间190篇相关论文危机为基础的分析[J]. 新闻记者, 2012: 58.
[11] 董坚峰. 基于Web挖据的突发事件网络舆情预警研究[J]. 现代情报, 2014-2, 34(2): 51.
Research on Key Technologies of International Public Opinion Analysis Based on Data Mining
ZHANG Cong-cong, LI Si-tong, TANG Yi, YIN Fu-lian*
(Communication University of China, Beijing 100024, China)
Aiming at the problem of the vastness and intensity of international sensationalism in China in the new media era, this paper proposes an international public opinion analysis program based on data mining and uses related techniques to obtain the similarities and differences between the surrounding and non-surrounding countries in hot events.This paper analyzes the comprehensive data of Twitter and Weibo in the China-US trade war , deeply explores its microblog forwarding structure, and obtains the characteristics of international sensationalism in China and the evolution mechanism of China's public opinion.
International sensationalism; Data mining; Data analysis; Microblog forwarding structure
TP391
A
10.3969/j.issn.1003-6970.2018.12.039
张聪聪(1997-),女,本科生,主要研究方向:大数据与数据挖掘;李思彤(1997-),女,本科生,主要研究方向:大数据与数据挖掘;汤艺(1997-),男,本科生,主要研究方向:大数据与数据挖掘。
殷复莲(1982-),女,副教授,主要研究方向:大数据与数据挖掘。
张聪聪,李思彤,汤艺,等. 基于数据挖掘的国际涉华舆情分析关键技术研究[J]. 软件,2018,39(12):172-176