APP下载

“一带一路”倡议下国内外新闻舆情及其演化分析

2018-06-14

统计与信息论坛 2018年6期
关键词:热点话题倡议舆情

刘 伟

(上海立信会计金融学院,统计与数学学院,上海 201209)

一、引 言

2013年9月7日,中国国家主席习近平在哈萨克斯坦演说时首次提出了共建“丝绸之路经济带”;同年10月,习主席在印度尼西亚演说时提出共建“21世纪海上丝绸之路”的倡议,至此,“一带一路”(the Belt and Road)的雏形形成。2015年3月27日,海南博鳌亚洲论坛上中国国家发展改革委、外交部和商务部联合发布了《推动共建丝绸之路经济带和21世纪海上丝绸之路的愿景与行动》,该文件的发布标志着 “一带一路”项目正式进入全面建设阶段。

“一带一路”是一个充分依靠中国与有关国家既有的双多边机制,借助既有的行之有效的区域合作平台,使各国实现合作发展的理念和倡议。“一带一路”倡议全面推动以来,得到世界各个国家和地区的广泛响应,国内外新闻媒体对“一带一路”相关活动进行了大量报道,而关于此类报道的细致量化分析仍不多见。近年来,随着互联网及大数据技术的发展,使得以Latent Dirichlet Allocatio(LDA)模型为基础,从新闻报道中提炼主题并跟踪某一主题的发展成为可能。本文将主要基于LDA模型,对“一带一路”倡议下的国内外新闻舆情演化进行研究。

二、国内外相关研究综述

纵观国内关于“一带一路”的已有文献,主要集中在以下三个方面:

第一,立足经济贸易,分析“一带一路”倡议对中国与沿线各国贸易往来的影响。例如:许和连等利用UNComtrade2012 年的HS6分位贸易数据综合构建“一带一路” 沿线65个国家的高端制造业贸易网络,并通过指数随机图模型探讨贸易网络形成的主要影响因素[1];邹嘉龄等利用投入产出表,分析了中国与“一带一路”沿线国家的贸易互相依赖关系以及中国各省市的出口对其经济增长的贡献[2];张会清等基于贸易强度指数模型,从进口贸易和出口贸易两方面深入分析中国与“一带一路”沿线国家和地区的贸易联系问题,并通过动态对比评估了中国与“一带一路”地区的贸易进展情况[3];李彬彬实证检验了影响中国高新技术产品出口阿拉伯国家的原因,测算了相关出口潜力,并据此提出了政策建议[4]。

第二,立足金融市场,探索“一带一路”倡议下各类经济指标之间的联动关系。例如:曹伟等将邻国效应引入汇率与贸易关系理论框架,研究了汇率变动、邻国效应对中国与“一带一路”国家双边贸易的影响[5];保建云从海外投资的金融影响、市场约束和风险入手,提出了“一带一路”沿线国家金融机构的合作机制[6];赵明亮结合“一带一路”海外投资战略要求及投资实践,就风险因素对中国OFDI的潜在影响机理进行了分析[7]。

第三,立足具体行业,研究各行业在“一带一路”倡议下的机遇与挑战。例如:杨丽花等从博弈论视角分析丝路基金吸引投资者参与“一带一路”PPP项目建设的作用机制[8];龚静等构建异质性随机前沿模型,研究铁路建设对中国“一带一路”倡议的贸易效应[9];蔡中华等基于行业层面相似度指数,分析了国家专利与出口结构之间的关系[10];刘总理等从波特钻石模型入手,对“一带一路”倡议下的中国有色金属产业的合作模型进行了研究[11]。

以上研究主要从经济主体出发,对“一带一路”倡议下的市场活动变化展开探索,但少有文献对“一带一路”倡议下的国内外新闻舆情展开研究。

LDA主题研究属于大数据科学范畴。Blei等提出LDA主题模型,该模型按时间将原始文本进行切片,在每个时间窗口中进行LDA建模,得到话题强度和内容在时间上的演化[12];Griffiths等提出后离散分析方法,该方法忽略时间影响,将LDA模型应用到原始文本集中,重点在于发现热话题和冷话题[13];Blei等之后又提出了ILDA模型,采用Gibbs抽样方法,在每个时间窗口话题数可变的情况下研究话题的演化[14]。在话题关联和演化研究方面,通常利用KL距离来衡量主题间相似性,并基于此得到话题内容的演化结果,王少楠、陈兴蜀、王婷婷等学者也对此进行了相关应用研究[15-16]。

本文利用国内外新闻数据进行LDA主题建模分析,研究国内外“一带一路”沿线国家和地区对该项目的关注重点及强度,同时根据关注点的演化路径,探索“一带一路”建设规律。针对国内新闻舆情展开以上研究,将有利于指导国内企业与组织调整发展战略,优化资源配置;针对国外新闻舆情展开上述研究,将有利于中国针对不同国家的国情以及需求制定相应的合作策略,以达到与世界各国相互合作、共同发展的目标。

三、理论模型

(一)LDA主题模型

LDA模型是近年来提出的一种具有本文主题表示能力的非指导学习模型。作为一种产生式模型,LDA模型已经成功地应用到文本分类、信息检索等诸多文本分析领域。

LDA模型的建模过程是一个文档生成的过程。对于语料库中的每一篇文档,LDA模型定义了如下生成过程:第一步,以一定的概率在若干个主题中选取某个主题;第二步,以一定的概率在选中的主题中选取某个词语,不断地选择N个词语,得到一片长度为N的文档。

(二)基于KL距离的主题演化模型

比较话题的相似度,主要在于衡量其主题在词汇空间的概率分布的相似性,因此可视之为两个主题在词汇空间上分布的距离,又因为两个向量属于相同维度上的分布,本文采用KL距离作为衡量标准:

其中D(t1‖t2)为t1与t2间的KL距离,t1与t2分别为主题1与主题2在词汇空间V上的分布。

对于不同文本集建模所得到的主题,其词汇分布不尽相同,由此造成KL距离计算的限制。为解决该问题,本文引入话题在未出现训练文本集上的平滑技术,通过平滑可构建话题在新词汇空间的分布,然后根据新词汇空间中不同话题的分布来衡量其相似度,采取的数据平滑算法包括拉普拉斯平滑和古德图灵平滑算法。

LDA建模过程中,Gibbs Sampling方法的参数推理结果如下:

其中wi为原词汇空间V上的词,wnew为未在V中出现而在V′中出现的词汇,由此完成主题在词汇分布的平滑,便于分析主题间的关联性。

四、“一带一路”新闻舆情实证分析

(一)“一带一路”新闻舆情数据获取与预处理

本文采用Python3.5爬虫技术收集数据。关于国内新闻舆情,选择中国新闻媒体门户网站“新浪新闻”,以“一带一路”为关键词,爬取自2015年3月至2017年5月有关“一带一路”的所有新闻报道;关于国际新闻舆情数据,选择可获取相关信息的 “一带一路”沿线国家的英文新闻门户网站,以“the Belt and Road Initiatives” 或“ One Belt One Road”为关键词,获得了俄罗斯、印度、巴基斯坦等共计15个国家的新闻数据。

本文对收集数据进行清洗与整理,包括对获取新闻文本数据进行时间、地区分类等,同时为便于开展LDA建模分析,对数据进行分词处理。采用R软件及相关程序包,实现文本数据处理和LDA主题建模过程,具体步骤如下:

第一步,确定分词。本文使用数据包含中文和英文两种:英文处理方式是将单词按空格分割,再提取单词词干(还原各类动词的一般形式);中文文本由于缺乏明显分割界限,需根据不同单词的具体语义概念予以区分。本文采用R软件JiebaR程辑包的Jieba分词引擎,该算法以单词查找树编写为基础,基于Trie树结构对整个词汇空间进行遍历,分词结果高效且准确。

第二步,过滤停用词。本文中文停用词结合“哈工大停用词词库”和“百度停用词表”,提炼出一份较完整的中文停用词表;英文停用词表采用通用英文停用词词库。

基于实证数据,数据预处理的分词结果见图1。

图1 国内新闻舆情分词效果一图

图1是未去除停用词的分词词云展示,从中可看到JiebaR的分词效果准确率较高。若进一步研究新闻舆情对“一带一路”的关注侧重点,还需要加入更具体的内容。进行去除停用词处理后,所得结果见图2。

图2 国内新闻舆情分词效果二图

由图2可看出,改进后的分词结果更加明显地展现了“一带一路”的关注重点,所有新闻均围绕“合作”这个中心词而关注国际间的发展建设。国际新闻舆情的词云效果见图3。

图3 国际新闻舆情分词效果图

从图3可看到,在国际新闻舆情方面,关于“一带一路”的报道均紧紧围绕“China”这个关键词,关注重点在“cooperation(合作)”、“development(发展)”、“trade(贸易)”等方面。

(二)“一带一路”国内舆情分析

基于国内媒体关于“一带一路”的新闻报道,本文尝试探究不同时段内新闻舆情对于“一带一路”的关注重点有何不同,同时探寻“一带一路”建设进程中的相关话题如何沿时间演化。

1.国内“一带一路”舆情热点主题分布。将数据按不同时间划分到不同跨度的时间窗口中,并对各个时间窗口数据分别进行LDA主题建模,按照主题对关键词的覆盖率不低于90%以及主题间关键词出现频率差别最大化的原则,将主题数设置为10,建模结果所得各主题关键词见表1。

表1 2016年第一季度各主题关键词表

根据各主题关键词可推断:热点主题3与中国和中东地区的战略合作有关;热点主题9与两会中讨论地方城市如何加强国际交流与合作以对接“一带一路”的话题有关;热点主题10与长江经济带和“一带一路”倡议对接有关,据此分析各时间窗口中的热点主题排行,得到不同时段新闻舆情对于“一带一路”的关注热点的分布。2016年四季度不同主题概率强度分布见表2。

表2可以看到,一季度新闻舆情热点为主题3、10、9;二季度热点为主题10、1、3;三季度热点为主题3、8、7;四季度热点为主题4、8、3,话题强度具体计算公式为:

其中P(ti|Ωi)为时间窗口Ωi内主题ti的概率,d表示该时间窗口内的各篇文档。

基于上述分析方法,本文对2015年3月至2017年5月新闻文本按季度进行分析,得到“一带一路”新闻中排名前三的热点话题,见图4(1)~(2)。

图4(2) 2015年3月至2017年5月各季度“一带一路”新闻热点话题排名前三位图

从图4(1)~(2)结果可以看出,不同热点话题在时间轴上的分布呈现不同特点,其中有关基础设施建设合作的热点话题贯穿整个时间轴,但每季度的具体特点各不相同:2015年第一季度的关注重点在于亚洲国家之间的基础设施建设合作;2015年第四季度的关注重点则与金融相关,是基础设施建设投资方面的合作;2016年第二季度关于基建的关注重点是企业参与国家间的基础设施建设合作;2017年第一季度关注重点是“一带一路”沿线国家的基础设施的互联互通;2017年4月、5月重点关注的则是中欧班列的开通以及“一带一路”沿线的旅游合作。由此可见,在“一带一路”倡议下国际间基础设施的建设合作在不断深化与推进。

2.国内“一带一路”舆情热点话题演化。在得到每季度热点话题分布之后,本文进一步探究相邻时间周期内热点话题的演化情况,即某一热点话题因人们关注重点随时间如何演化成为其他热点话题,具体方法为:衡量相邻两季度不同主题之间的相似程度,然后以量化相似度为标准,将相似度最高的两个主题建立关联,并认为二者之间存在着演化关系,该研究将有助于更好追踪舆情变化情况,在一定程度上也可帮助预测热点话题的未来演化情况。限于篇幅,此处仅对上述排名前三的热点话题演化过程进行分析。

利用LDA建模结果得出三个主题在词汇空间的分布,见图5。由图5可看出,主题1与主题2在词汇空间上分布相似度较高,主题3则与其相似度较低。

图5 主题相似度图

利用KL距离及数据平滑算法衡量三个主题的相似度,见表3所示。

表3 主题之间KL距离表

KL距离的计算结果与图5所示结果相吻合,说明用KL距离来衡量主题的相似性可行。按时间顺序,对话题强度排名前三的热点话题进行了演化关联分析,得到结果见图6(1)~(2)。

从演化分析结果可以看到,热点话题之间的演化关系存在一定的规律:

第一,基础设施建设相关话题的演化。2015年第三季度中的中国-东盟合作规划是由2015年第一季度亚洲基础设施建设合作的热点话题发酵而成的,其后2015年第四季度的中国-东盟产能合作又是由第三季度中的合作规划话题演化而来,这证明了围绕“一带一路”各方面的合作在不断地向前推进并具体化。

第二,文化交流合作方面的话题演化。从2015年第一季度热点话题中的留学生交流学习演化至丝路沿线文化交流,从中国-中东欧经贸合作演化到重要节点城市间的沟通交流,其间涉及丝路沿线的文化融合;而后热点话题聚焦于科技创新的协同推动与共同发展,该路径有力说明了文化交流一直是新闻舆情中关注的重要面,不论是以经贸合作为主题还是以城市间的沟通交流为主题,或者涉及留学生交流以及人才教育培养等方面,其间均包含着对于文化交流的关注。

图6(2) 话题演化过程图

(三)“一带一路”国际舆情分析

为探究不同国家和地区对于“一带一路”相关新闻报道的关注侧重面有何不同,本文将获取到的不同国家与地区的新闻文本数据进行LDA主题建模,比较各个主题在不同国家和地区的新闻报道中出现的概率,以此确定各个国家对于“一带一路”倡议的新闻舆情关注重点;再根据关注重点将国家进行聚类,并根据分类结果为不同国家制定投资合作策略提供决策参考。

1.“一带一路”国际新闻的LDA主题建模。依据国家官方网站信息量的可获取度,从“一带一路”沿线64个国家中筛选出15个国家,依次为俄罗斯、阿联酋、巴基斯坦、菲律宾、哈萨克斯坦、卡塔尔、马来西亚、沙特阿拉伯、泰国、新加坡、伊朗、以色列、印度、印度尼西亚、越南,为后文论述方便将其分别记为数字1~15。

本文将来自以上15个国家官方网站的“一带一路”主题新闻整理成为15份文档,其中所包含的英文新闻数量不尽相同:沙特阿拉伯、以色列、哈萨克斯坦为200篇左右;菲律宾、巴基斯坦、俄罗斯为100篇左右;新加坡、伊朗为50篇左右;阿联酋、马来西亚、印度、卡塔尔、泰国、印度尼西亚、越南约为20篇左右,对其进行LDA主题建模分析,按照主题对关键词的覆盖率不低于90%以及主题间关键词出现频率差别最大化的原则,将主题数设置为8。对文档进行LDA主题建模后,各主题在不同国家的强度概率分布见图7所示,图7横轴代表国家,纵轴代表各主题分布强度。

各主题中关键词分布见表4。

表4 各主题关键词分布表

主题1中包含billion(十亿)、trade(贸易)、business(商业)等词汇,可推断主题1与“一带一路”框架下国家间的商贸合作有关。由图7可看出,主题1在阿联酋、马来西亚、泰国和新加坡的新闻报道中出现概率最高,因此可推断这些国家的关注重点在国际商贸合作领域;类似可大致推断,主题2与基础设施建设有关,关注这一热点的国家包括俄罗斯、越南、伊朗;主题3与国家间政策沟通有关,主要关注国家有沙特阿拉伯;主题4与国家间交流有关,主要关注国家包括阿联酋、巴基斯坦、卡塔尔、泰国;主题5的关键词基本为城市名称,可推断主题5与城市间沟通交流有关,主要关注国家有印度;主题6与政府间合作有关,主要关注国家包括哈萨克斯坦、马来西亚、印度;主题7出现的关键词均与印度尼西亚有关,主要关注国家也是印度尼西亚;主题8与国家间合作平台或组织有关,主要关注国家包括俄罗斯与哈萨克斯坦。

2.基于“一带一路”国际新闻舆情的聚类分析。本文采用层次聚类的方法,对各个国家和地区的文档依据在不同主题的概率分布将其聚类,结果见表5。

表5 关于各国新闻舆情主题分布的聚类分析结果表

由表5聚类结果可见,同一类的国家和地区存在着一定程度上的相似性。考虑各国的GDP总量(如图8所示),俄罗斯、哈萨克斯坦、伊朗、越南都属于陆上与中国合作较为密切的国家,回顾前述主题分析结论,发现该类国家主要关注主题2和主题6,即基础设施建设和政府间合作;阿联酋、马来西亚、新加坡属于经济发展状况排名中游且较为相似的国家,主要关注主题1,即国家间的商贸合作交流;菲律宾、巴基斯坦、卡塔尔、泰国属于经济发展状况排名相对较为靠后的国家,主要关注主题4,即国家间相互交流合作;沙特阿拉伯、以色列、印度则属于经济发展状况良好且GDP排名靠前的国家和地区,主要关注国家间的政策沟通与城市间交流;印度尼西亚属于经济发展水平较高的群岛国家,对于“一带一路”倡议的合作项目与陆上国家均有所区别,在聚类结果中被单独列为一类。

图8 各国GDP总量图

综上所述,以LDA主题建模结果进行层次聚类,大致将对“一带一路”关注侧面不同的国家和地区进行区分,该结果将为“一带一路”沿线国家采取差异化决策提供数据支持。

五、结 论

本文针对国内“一带一路”建设进程中相关新闻的统计分析,有以下几点发现:第一,尽管不同时段的新闻舆情的关注重点各有不同,但核心主题均围绕“合作”而展开,基础设施建设合作与各国文化交流沟通作为热点话题贯穿始终,这与“一带一路”倡议中平等文化框架下谈合作的精神十分契合;第二,不同时段中,热点话题的演化尤其是新热点话题的出现,在很大程度上受某一热点事件被广泛报道的影响。

本文对于国内新闻舆情的分析,有助于了解“一带一路”倡议的关注重点以及最新热点事件及其影响,对于各类组织和企业及时调整战略方向和目标、优化资源配置、更好配合推动“一带一路”倡议实施、增强与各个国家和地区的交流与沟通,具有较强的指导意义。

本文针对国际社会对“一带一路”倡议的新闻报道进行分析,基于关注主题对沿线国家和地区进行聚类和区分,有助于明确各国家和地区对于“一带一路”倡议的差异化期望与需求,有针对性开展项目合作,真正做到沿线国家间的优势互补、沟通协作和互联互通,为沿线国家提供互利共赢的合作机会和国际合作新平台。

本文采用LDA主题模型建模分析、层次聚类等统计方法,对国内外在“一带一路”建设进程中的新闻舆情进行分析,提炼出各类新闻报道的主题内涵,明晰了相关新闻舆情演化路径。

本文的研究结果,可在一定程度上反映国家或地区对“一带一路”倡议的关注重点和强度,以期对衡量“一带一路”建设项目在该地区的进展速度及建设成效提供评价与借鉴。

参考文献:

[1] 许和连,孙天阳,成丽红.“一带一路” 高端制造业贸易格局及影响因素研究——基于复杂网络的指数随机图分析[J].财贸经济,2015(12).

[2] 邹嘉龄,刘春腊,尹国庆,唐志鹏.中国与“一带一路”沿线国家贸易格局及其经济贡献[J].地理科学进展,2015(5).

[3] 张会清,唐海燕.中国与“一带一路”沿线地区的贸易联系问题研究——基于贸易强度指数模型的分析[J].国际经贸探索,2017(3).

[4] 李彬彬.“一带一路”倡议背景下中国高新技术产品对阿拉伯国家出口流量及潜力分析[J].统计与信息论坛,2017(6).

[5] 曹伟,言方荣,鲍曙明.人民币汇率变动、邻国效应与双边贸易——基于中国与“一带一路”沿线国家空间面板模型的实证研究[J].金融研究,2016(9).

[6] 保建云.论我国“一带一路”海外投资的全球金融影响,市场约束及 “敌意风险” 治理[J].中国软科学,2017(3).

[7] 赵明亮.国际投资风险因素是否影响中国在“一带一路”国家的OFDI——基于扩展投资引力模型的实证检验[J].国际经贸探索,2017(2).

[8] 杨丽花,周丽萍,翁东玲.丝路基金、PPP与“一带一路”建设——基于博弈论的视角[J].亚太经济,2016(2).

[9] 龚静,尹忠明.铁路建设对我国“一带一路”战略的贸易效应研究——基于运输时间和运输距离视角的异质性随机前沿模型分析[J].国际贸易问题,2016(2).

[10] 蔡中华,王一帆,董广巍.中国在“一带一路”国家专利与出口结构关系的研究——基于行业层面相似度指数的分析[J].国际贸易问题,2016(7).

[11] 刘总理,陈璇.我国有色金属产业参与“一带一路”多边经济战略合作模研究[J].西安财经学院学报,2017(3).

[12] Blei D M,Ng A Y,Jordan M I.Latent Dirichlet Allocation[J].Journal of Machine Learning Research,2003,3(1).

[13] Griffiths T L,Steyvers M.Finding Scientific Topics[J].Proceedings of the National Academy of Sciences,2004,(1).

[14] Blei D M,Lafferty J D.A Correlated Topic Model of Science[J].The Annals of Applied Statistics,2007,1(2).

[15] 王少楠,宗成庆.双通道LDA模型的汉语词义表示与归纳方法[J].计算机学报,2016(8).

[16] 陈兴蜀,罗梁,王海洲,王文贤,高悦.基于ICE-LDA模型的中英文跨语言话题发现研究[J].工程科学与技术,2017(3).

猜你喜欢

热点话题倡议舆情
浙江向全行业发起廉洁自律倡议
保护一半倡议:与自然和谐共处的愿景和实践
A Dialogue about Innovation in Global Economy Governance in Chongqing
发起携手共赢合作倡议
2017年高考作文热点话题预测
舆情
基于SVM的热点话题跟踪实现过程研究
舆情
舆情
热点话题排行榜