APP下载

基于EE与改进DBN的国家双边关系预测

2021-07-21彭俊利姜晓夏

计算机工程与设计 2021年7期
关键词:双边关系贡献度时序

彭俊利,姜晓夏,张 震,谷 雨+

(1.杭州电子科技大学 通信信息传输与融合技术国防重点学科实验室,浙江 杭州 310018;2.中国电子科技集团公司第二十八研究所 信息系统工程重点实验室,江苏 南京 210000)

0 引 言

随着时代的发展,各国之间的冲突与摩擦逐渐增多,影响着国家双边关系的变化[1]。为使相关国家能够提前采取应对措施,对国家双边关系的预测刻不容缓。动态贝叶斯网络是知识表达与概率化推理的重要工具,被广泛应用于具有动态性、不确定性等特点的各类问题中,如网络舆情危机预测、突发事件情景推演等[2]。巩前胜[2]选取情景状态、应急活动等为关键要素,分析突发事件情景演化规律与路径,运用动态贝叶斯网络构建突发事件情景网络,推理情景发展趋势。杨静等[3]对网络舆情主体、客体与媒体3个要素进行分析,构建了基于动态贝叶斯网络的网络舆情危机预测模型,以“教科书式老赖”为例验证了模型有效性。

国家双边关系的预测研究是国际关系领域的重点研究内容。就该问题,我国大部分的预测研究都是定性研究[4],直到文献[5]对事件数据分析法进行改进,提出国家双边关系定量衡量方法后,用统计学方法分析国家双边关系的研究才逐渐增多。文献[6]在分析1990年以来与战争相关的新闻数据后,成功应用逻辑回归模型对167个国家的40多万条新闻数据进行分析,通过相关新闻报道的数量变化预测了冲突行为的发展趋势。目前对国家双边关系的研究中,多数未考虑其它国家对某两国双边关系变化是否产生影响,但往往某两国双边关系会受到其他国家的影响。例如在南海争端问题中共有中国、美国、日本、菲律宾等八大参与国,国家双边关系不可能是相互独立的,如中菲双边关系可能会受到中美、中日等双边关系的影响。传统预测方法未考虑这一问题,无法预测多国参与的事件中某两国的双边关系,并且传统预测方法仅预测某两国双边关系的相关数值,从预测出的双边关系数值中无法得出造成这一趋势的影响因素。

针对以上问题,本文考虑国家双边关系具有动态性、不确定性等特点,将DBN引入国家双边关系预测时,提出了融合事件抽取、时序贡献度与动态贝叶斯网络的国家双边关系预测方法。以南海争端问题中我国与其他参与国的双边关系为例,验证了提出方法的可行性。

1 基于EE与TCs-DBN的国家双边关系预测方法

参考文献[5]提出的方法建立事件分值表,构建用于事件抽取的事件模板。当采用DBN进行国家双边关系预测时,本文做了两方面改进:①将事件抽取技术引入事件数据分析法,应用事件抽取技术代替人工提取事件;②由于国家双边关系发展变化的时间相关性,本文提出了时序贡献度(TCs),通过融合TCs与DBN,提高了预测准确率。

1.1 事件数据分析法

事件数据分析法是国际关系领域中进行定量分析的方法[5]。它从新闻报道、历史资料等多源信息中提取出对双边关系有影响力的相关事件,构建事件数据库,再通过一定的统计分析方法,尝试寻找出双边关系的变化规律和趋势[5]。

文献[5]改进的事件数据分析法是相关学界认可度较高的用于定量衡量国家双边关系的方法,其制定了一个衡量中外双边关系的分值表,并根据分值表制定了如图1所示的国家双边关系数值标准。由图1可知,文献[5]将双边关系量化为了对抗、紧张等6种程度。在传统方法中,预测结果多为数值,为了使结果更加直观,本文将这6种程度作为预测结果。针对事件数据分析法中人工提取事件效率低下、自动化程度低等不足,本文采用基于规则匹配的事件抽取方法代替人工筛选有价值的事件,以提高效率。

图1 国家双边关系数值标准

1.2 融合时序贡献度的DBN网络

由于国家双边关系不确定性因素与时序数据中时间片之间关联性的存在,本文提出了一种计算时间片贡献度的方法,并将贡献度与DBN中的节点相融合,通过节点调节减少网络观测变量中的不确定性信息,提高整体性能。

(1)时序贡献度

刘涛等[7]提出了单词贡献度(term contribution,TC),用于筛选数据集中具有表征性的特征词,但单词贡献度仅考虑了其在文本中的重要程度,无法用于时序数据中。针对这一问题,本文提出了时序贡献度(TCs),用于计算时序数据在各时间片中的权值,降低不确定性与噪声数据的干扰,TCs计算步骤如下:

步骤1 对数据库所有数据进行分词、去除停用词等操作,按文献[7]中方法计算所有单词的单词贡献度TC值;

步骤2 将单词按TC值进行降序排列,设定阈值x,提取TC值大于x的单词构建特征集合;

步骤3 将数据库数据按月划分,提取每月数据中的特征词及其频次(特征词是步骤2中特征集合中的单词),并将当月所有特征词相加求取平均值作为当月时序贡献度TCs值。例如,从t月的所有新闻报道中提取了3个特征词w1、w2、w3,出现频率分别为3、2、1,设w1、w2、w3的单词贡献度分别为TC1、TC2、TC3,则t月时序贡献度TCst值为

(1)

(2)改进动态贝叶斯网络

动态贝叶斯网络就是以概率网络为基础,把贝叶斯网络(Bayesian networks,BN)与时间信息相融合,形成的可以处理时序问题的随机模型[3,8]。其包含两个一阶马尔可夫假设与同构性假设,本质就是BN在时间轴上的展开式[9]。假设有T个时间片,有n个隐藏节点和m个观测节点,计算公式如式(2)所示

(2)

在式(2)中,xij表示第i个时间片的第j个隐藏节点的状态;yij为观测值,Pa(yij)为yij的父节点集合[10,11]。

本文将时序贡献度融入式(2),提出融合时序贡献度的动态贝叶斯网络(TCs-DBN),本文将双边关系信息设置为DBN节点,因贝叶斯网络具有条件独立性假设,融合时序贡献度就是将同一时间片的双边关系信息与时序贡献度权值相乘,即把式(2)变为式(3)

(3)

式中:TCsij表示第i时间片下第j个节点的TCs,同一时间片下所有节点的TCs相同,均为通过i时间片内数据计算得到的贡献度。

本文使用基于评分搜索的结构学习法学习网络结构,即给定数据集D,通过学习找出与D最匹配的网络结构S,使用评分函数来表示“匹配”情况,即用S上的概率表示[12],如式(4)所示

(4)

其中,θ表示网络中的参数。

1.3 改进国家双边关系预测模型构建步骤

本文所提方法用于预测多国参与的国际事件中某两国之间的双边关系,在所有参与国中寻找出所指定的某两国双边关系进行预测。根据上述算法的介绍,本文所提方法的整体流程可设计为如下步骤:

步骤1 对数据来源进行选择,并将获取的可靠数据存入数据库。从概率论与统计学的角度来说,无需穷尽所有公开数据来源,只要所选数据来源可靠即可[5]。

步骤2 对新闻数据进行预处理,找出所有参与国,并以文献[5]中的事件分值基准表为基础,由专家构建本研究所需的事件分值表。

步骤3 根据步骤2构建的分值表定义事件模板,采用基于模板匹配的事件抽取技术将数据集中所有匹配的事件抽取出来存入数据库,存放字段包括时间、发起者、承受者、事件句、事件所属类型、事件得分等字段。

步骤4 按月将事件转化为对应分值,即将当月发生的所有事件的分值相加求平均,获得当月的事件总分值(若有多国参与,则分别计算两两国家之间的事件总分值以及双边关系值),然后将事件总分值转换为对双边关系的影响值。

步骤5 将步骤4中得出的影响值与上个月双边关系分值相加,得到当月双边关系值(初始月双边关系值就是事件总分值)。

步骤6 将当月双边关系分值映射到第1.1小节中图1所示的国家双边关系数值标准的各区间内,如两国双边关系分值为-2,则两国处于“不和”关系。

步骤7 按第1.2节中所述方法计算每月的时序贡献度TCs值。

步骤8 首先将步骤6所得的前n个月的各参与国两两之间的双边关系(如无特殊情况,下文所说的“双边关系”均指步骤6所得的结果)按时间序列排序,作为节点输入DBN模型,使用BIC测量机制寻找双边关系之间的因果网,在训练与预测各参与国两两之间的双边关系时,将步骤7所得的TCs值与DBN相融合,以降低双边关系的不确定性,提高准确率。

例如构建中国与美国、日本、菲律宾的双边关系预测模型,使用T月预测T+1月,则模型在训练DBN和预测时输入格式见表1。第一行告诉DBN输入时间片个数,节点个数以及节点信息,如“中美_T”表示在T月的中美双边关系节点。第二行开始为对应节点的数据,用于训练DBN模型。预测时,输入格式与训练DBN时输入格式相同,输出为按表1顺序排列的T+1月中国与其他四国的双边关系。

表1 DBN输入格式

所提方法整体流程如图2所示。

图2 国家双边关系预测流程

2 南海争端中的国家双边关系预测及结果分析

本文以南海争端为例验证提出方法的有效性。南海争端由来已久,是世界上最复杂的岛屿主权与海洋管辖权争夺战。近年来,域外大国为谋求自身利益,插手南海事务,侵犯了我国的主权。研究针对南海争端中我国与其他参与国之间的双边关系,可提前制定相应对策维护我国主权。

2.1 双边关系预测模型构建

南中国海地理位置特殊、资源禀赋,一直是诸多国家间利益博弈的焦点,但在南海争端中,相关事件发生的并不频繁,少则相隔一月,多则相隔数月。因此,根据这一情况和本文所获取的相关数据量,本文选择了“月”作为时间片单位(多数相关研究都是以“月”为时间片单位,例如文献[5])。本文构建T-1、T月数据预测T+1月国家双边关系预测模型。选取以“南海”、“十二海里”、“岛礁”等为关键词,通过网络爬虫技术从新华社、环球网、中新网、人民网等新闻网站采集了2013年至2018年与南海争端相关的新闻16 407条作为实验分析数据进行研究。

根据采集数据,由专家定义针对南海争端的事件分值表,共定义了20大类事件,其中包含了511小类事件。部分事件分值见表2。

表2 南海争端事件分值表部分内容

根据事件分值表中的事件类型构建事件抽取规则模板。因为主客体及触发词在句子中的表达方式存在多样性,本文定义了603个事件抽取匹配规则,对于给定任意包含511小类事件的事件句,均有唯一的事件类型与之对应。将新闻数据按条输入,进行事件抽取后,输出对应事件句、时间、发起者、承受者、事件类型、事件得分等内容,并存入数据库。从16 407条新闻中总共匹配出35 667个事件,匹配模式见表3。其中,source表示事件句中的发起者,target表示事件句中的承受者。

表3 事件匹配模式

根据事件抽取结果,分别将中国与其他七国的双边关系计算出来。例如,计算中日双边关系时,从已经抽取好的35 667个事件句中筛选出发起者和承受者是中国与日本的事件,将筛出的事件按月划分,先按步骤4获取每月事件总分值,再按步骤5获取当月双边关系得分,最后按步骤6获取中日每月双边关系。

按步骤7提取特征单词,经过多次尝试,提取经过降序排列的前130个单词构建特征集效果较好,部分特征单词及其贡献度见表4。

表4 部分特征词及其贡献度

按步骤8以2013年1月至2017年12月数据训练DBN,学习网络结构。为保证学习效率和网络质量,本文限制每个节点在上一时间片中的父节点数目最多为1。将训练数据按表1所示格式输入DBN,采用评分搜索法搜索最佳网络结构图。融合每月的TCs值计算节点间转移概率,获得TCs-DBN模型。最终获得的因果网络结构如图3(a)所示。还原图3(a)中各国之间因果关系如图3(b)所示。从图3可以看出,学习出的因果关系网具有一定的合理性。例如,中日冲突行为除了受到上一时间片中日冲突行为对其影响外,还受到了当前时间片中美冲突的影响,这与实际是相符合的,因为日本在南中国海做出的行为大多数是为了响应美国,但是该因果关系网也具有不足之处,比如中俄冲突行为未学习到上一时间片中俄冲突行为对其的影响。为了进一步说明图3,本文在2.2节中对部分结果进行了详细分析。

图3 DBN所学各国双边关系因果

加载TCs-DBN模型,预测2018年1月至10月的中国与其他七国的双边关系。按表1格式输入T-1、T月中国与其他七国双边关系,输出T+1月中国与其他七国双边关系,最终整体预测准确率为75.7%,详细结果见表5。其中,-3、-2、-1、1、2、3分别表示对抗、紧张、不和、普通、良好、友好。

表5 中国与其他七国双边关系预测结果

为验证TCs-DBN,本文保持所有条件相同,用DBN进行了预测,整体准确率为68.65%,预测结果对比图如图4 所示。由图4可知,本文TCs-DBN比DBN预测准确率高,但在某些节点,如CHN、PHL并没有提升,原因可能是在TCs-DBN中并未对因果网络的学习进行改进,虽然某些节点的不确定性因素得到了调整,但网络中不健全的因果关系导致预测精度在某些节点中无法提高。在概率转移路径中,中美双边关系条件概率表见表6。由表6可知,中美双边关系在上一时间片的双边关系程度值延续到下一时间片的概率值最大,这说明了中美双边关系是较为稳定的,从数据中也可以看出中美双边关系一直处于对抗状态,较为稳定。但由这种较为稳定的数据训练出来的模型也有缺点,当中美关系发生突变时,模型无法预测。由于中国与其它国家双边关系的条件概率表数据较多,这里不再罗列。

表6 中美双边关系条件概率

图4 TCs-DBN与DBN预测对比

考虑到不同时间片的事件可能对预测结果产生不同的影响,本文又分别构建了T月数据预测T+1月和T-2、T-1、T月数据预测T+1月的国家双边关系预测模型,得到预测准确率分别为58.6%、67.1%。由结果可知,采用两个月进行预测时准确率最高,采用一个月预测时准确率最低。造成这一结果的原因可能是T+1月的国家双边关系不光受到T月事件的影响,T-1、T-2甚至T-n(n>2) 月发生的事件都会对其产生影响,但采用T-2、T-1、T月数据进行预测时准确率却没有采用T-1、T月数据进行预测的准确率高,这一结果说明了新闻的时效性,越早的新闻影响因子可能越小,甚至会起到干扰作用。

2.2 结果分析

由图3(b)可知中美双边关系仅受上一时间片中美双边关系的影响,中日双边关系受到了上一时间片中日双边关系和同时间片中美双边关系的影响。同时,中菲双边关系也受到了上一时间片中菲双边关系和当前时间片中美双边关系的影响。针对该结果,本文画出了中美、中日、中菲双边关系对比折线图如图5所示,并进行了分析。

图5 中美、中日、中菲双边关系分值折线

从图5(a)可以看出中美双边关系与中日双边关系的走势十分相似。查阅资料得知,日本对南海争端的介入与美国的态度相关。例如,资料中显示,2015年以来美国把有争议的岛屿纳入其监视侦察的范围,随后,日本将自卫队加入美军在南中国海上空的巡逻[13]。种种类似事件导致了中日双边关系曲线跟中美双边关系曲线十分相似。

从图5(b)可以看出2013年1月至2015年7月中菲双边关系处于对抗状态,资料显示,2012年美菲举行会谈,美国支持菲律宾发起仲裁案;2013年1月,菲律宾提起针对中国的仲裁[14]。这是导致2013年至2015年中菲处于对抗关系的主要原因。2015年下半年中菲双边关系开始回升,并在2016年达到友好状态,这也与相关资料记载的事实相符合。

由以上分析可知,中日、中菲双边关系确实受到了美国的影响。本文又对图3(b)中其他关系进行了分析,所得结论与实际情况大致相符。所以,DBN学习到的因果网络对制定合理的战略决策有一定参考意义。

从表5可知,在10个月的预测中,中美、中日、中菲、中越、中俄双边关系预测效果良好,说明DBN能有效对国家双边关系进行预测。中印、中澳双边关系预测准确率较低,这可能是由于相关事件数据较少,导致学习到的网络不完善。中印、中澳双边关系还可能受到了其他国家的影响,因果网中这一影响的缺失可能是导致中印、中澳双边关系预测准确率较低的原因,并且由图3可以看出,DBN也没有学习到中俄双边关系在不同时间片间的联系。

总体而言,该方法在南海争端中整体预测效果良好,验证了方法的有效性,结合学习出的因果网,可制定合理的战略计划,为引导双边关系的发展提供参考。

3 结束语

本文构建了基于EE与TCs-DBN的国家双边关系预测模型来预测未来一个月的国家双边关系,根据TCs-DBN学习到的因果网与预测结果,可以提前制定合理的战略应对双边关系变化带来的影响以及引导双边关系的变化趋势。以南海争端为例,本模型学习到了合理的中国与其他七国双边关系的因果网,并能够有效预测未来一个月中国与其他7个参与国的双边关系,验证了本模型的有效性。但TCs-DBN学习的因果网未能体现出所有的因果关系,导致部分双边关系的预测准确率偏低。在今后研究中,可以优化DBN网络结构的学习方法,以提高预测准确率。

猜你喜欢

双边关系贡献度时序
基于时序Sentinel-2数据的马铃薯遥感识别研究
基于Sentinel-2时序NDVI的麦冬识别研究
国际关系中的双边关系及其结构特征探析
充分把握教育对经济社会发展的贡献度
基于贡献度排序的肾透明细胞癌串扰通路分析
政治风险、文化距离和双边关系对中国对外直接投资的影响
提高初中政治教学质量之我见
一种毫米波放大器时序直流电源的设计
需求侧资源促进可再生能源消纳贡献度综合评价体系
中亚