APP下载

基于时间序列的人工智能在线翻译网络分析

2021-04-17冯吉芳田德红孙海信

数据采集与处理 2021年2期
关键词:波动社团符号

冯吉芳,田德红,孙海信

(1.三江学院外国语学院,南京210012;2.南京宇天万维信息技术有限公司,南京210019;3.厦门大学信息学院,厦门361005)

引 言

复杂网络科学为研究现实世界中的复杂系统提供了一种有效的方法,例如互联网、万维网和金融系统等[1-6]。而语言作为一种高级符号系统,具有复杂性的本质。语言是一个复杂网络的观点已被广泛接受,来自复杂网络的方法也越来越多地用于语言系统的定量分析[7]。复杂网络可以为人类语言作为一个复杂系统进行适当的建模,并在系统层面上为其复杂性提供强有力的量化指标[8]。

Cancho和Solé[9]发现语言中连接单词的图与其他复杂网络具有相同的统计特征。在Cancho和Solé的研究之后,不同语言单元组成的语言网络及其在不同语言中的关系受到了学者们的关注[10-14]。复杂网络的构成要素主要是网络节点和节点间边,而如何确定语言网络的节点和边呢?学者们提出了不同的构建语言网络的方法[11,15],主要包括:可以根据同义词表确定原始词与其同义词之间的网络连接;可以根据词汇表进行语义连接;根据词在句子中的共现情况,可以构建语言的共现网络;通过标注依存句法的语料库,可以得到语言网络连接。如Steyvers和Tenenbaum[16]研究了3类语义网络的大规模结构,发现它们都具有小世界网络结构特征。Gao等[17]基于语料库构建6个加权定向词共现网络,考察了不同语言之间的共性和差异。

现有关于语言系统的复杂网络研究,主要是通过语言文本数据挖掘语言系统中各种关联性,进而构建复杂网络模型进行分析。随着人工智能技术快速发展与应用,各个领域产生了大量复杂形式的数据。在语言领域亦是如此,特别是人工智能技术在语言翻译领域中应用,导致人工智能在线翻译技术得到广泛开发与应用,而此产生了各种各样数据,如采用人工智能在线翻译的搜索指数时间序列数据。复杂网络为从整体和局部挖掘语言规律提供了一条途径。近年来,学者们发现复杂网络方法也非常适合于复杂时间序列内部重要信息的挖掘[18-22]。通过符号化网络研究时间序列的优势主要有[23-24]:基于复杂网络拓扑结构特征可以有效区分噪声过程与复杂过程;过程复杂性的强弱可以通过复杂网络的统计特征进行测度,而其他一些典型的复杂性测度方法,易受噪声和数据样本量等因素影响;可以部分解决时间序列分析中其他传统方法未能解决的一些问题,如网络分析方法计算分形维数更加便捷。

然而,鲜有关于复杂网络在人工智能在线翻译中的研究。因此,本文基于人工智能在线翻译时间序列数据,构建人工智能在线翻译搜索指数复杂网络模型,对人工智能在线翻译趋势进行网络可视化分析,旨在揭示人工智能在线翻译趋势特征。本文的主要贡献在于以下3个方面:(1)鉴于时间序列符号化网络方法在时间序列分析中的优势,本文将其引入研究人工智能在线翻译指数变化内在规律;(2)相比已有语言系统复杂网络研究不同,本文基于时间序列数据展开分析,扩展了语言系统领域的相关复杂网络研究;(3)本文将时间序列符号化网络分析方法扩展到人工智能在线翻译方面研究,丰富了时间序列符号化网络应用研究。

1 研究方法

基于符号动力学和随机过程的思想,可以将人工智能在线翻译搜索指数时间序列数据转化为符号表示。时间序列的符号化是指将原始连续的时间序列划分为有限个离散区间,并将不同的符号分配给不同的区间[25-26]。人工智能在线翻译搜索指数原始连续时间序列数据分成不同间隔的部分对应于相应的符号。通过符号化,从而将人工智能在线翻译搜索指数时间序列转化为复杂网络。在这个网络中,符号是网络的节点,不同节点间的边为不同符号间的转移,边的方向为符号的转移方向,边的强度为不同符号间转移的次数。因此,构建的人工智能在线翻译网络是有向加权网络。

1.1 人工智能在线翻译网络模型

本文采用符号时间序列构建人工智能在线翻译搜索指数网络模型,网络模型的构建过程如下。

步骤1设定人工智能在线翻译搜索指数时间序列为G=(g1,g2,…,gn),计算其波动序列G1=,其中=gi+1-gi,i=1,2,…,n-1。

步骤2将人工智能在线翻译搜索指数波动序列转换成符号序列S=(S1,S2,…,Sn-1),Si∈{R,r,e,d,D},其中

式中:Si∈{R,r,e,d,D}表示在线翻译搜索指数波动程度;Pα表示指数波动序列的α分位数,α取值为{20,40,60,80}。依据分位数将在线翻译搜索指数波动序列分为5类,分别表示大幅上升(R)、小幅上升(r)、平稳(e)、小幅下降(d)和大幅下降(D)。

步骤3将在线翻译搜索指数波动序列转化为符号化序列后,以每3天作为一个符号。将不同的符号作为网络的节点,前一个符号向后一个符号的转变作为两个网络节点的有向边。两个符号之间的转换数是整个符号序列中两个节点间有向边的相应权重,进而得到在线翻译搜索指数网络。

1.2 网络结构指标

在本文中,主要使用以下结构指标来考察在线翻译搜索指数网络。

(1)度和点强度

节点的度是度量网络节点重要性最基本的指标之一[27]。在无向网络中,节点i的度表示与节点i相连接的边的数量,则节点i的度ki表示为

式中:当节点i和节点j之间存在边时,aij=1,否则,aij=0;N为网络节点数目。在有向网络中,度分为入度和出度。节点i的入度表示由网络中其他节点发出指向节点i的边的数量,节点i的出度表示由节点i发出指向网络中其他节点的边的数量,则节点i的入度kini和出度kouti分别表示为

在加权网络中,节点的重要性程度不仅要考虑节点连接边的数量,同时也要考虑节点连接边的权重,将节点连接边的权重之和定义为点强度,则节点i的点强度表示为

式中wij表示节点i和节点j之间连接边的权重。边的权重为在线翻译指数网络中相邻两个节点间转换的次数。当节点i和节点j之间不存在连接边时wij=0。

(2)平均路径长度和聚类系数

网络的平均路径长度和聚类系数是用来刻画网络紧密程度的指标[28-30]。网络中节点i和节点j之间的最短路径dij为连接这两个节点的边数目最少的路径。网络的平均路径长度L定义为任意两个节点间距离的平均值,即

对于网络中的节点i,节点i的度ki为与节点i相连的节点的数量,这ki个与节点i相连的邻居节点之间存在的边数为Ei,则节点i的聚类系数为

聚类系数表示与某一节点相邻的任意两个节点间存在连接的概率。

(3)社团结构

社团是指复杂网络中连接较为紧密的节点集,社团内部节点间连接紧密,而社团间节点连接较为稀疏。本文采用Blondel等[31]提出的社团划分方法对在线翻译搜索指数网络进行社团划分。模块度被用作度量社团划分结果的指标,如下所示

式中:wij表示节点i和节点j间连接边的权重,并满足和;Di和Dj分别表示节点i和节点j所属的社团。当社团Di和社团Dj拥有共同节点时,δ(Ci,Cj)=1;反之,则δ(Ci,Cj)=0。

2 结果分析

在中国,英语是最为主要的第二语言,因此本文选择英语在线翻译搜索指数时间序列为研究对象。而研究对象的数据来源于百度,分析的样本时间为2011年1月1日至2020年10月26日,共有3 587个观测值。样本数据的最小值为1 885,最大值为64 237,平均值为25 077,标准方差为15 471。其中,在线翻译搜索指数由计算机终端和移动终端组成。

2.1 网络拓扑结构特征

表1给出了点强度排名前20的符号对应的点强度、入度、出度和聚类系数。可以看出符号DRR和RRD的点强度超过了100,说明在线翻译搜索指数波动表现出显著的大涨大跌的特征,即在大幅下跌之后会出现连续的大幅上涨,在连续的上涨之后会出现大幅下跌。符号DRR的转入路径和转出路径分别为41条和32条,这意味着在线翻译搜索指数波动更倾向于转入大幅下跌后连续上涨。符号RRD的转入路径和转出路径分别为27条和38条,可见在线翻译搜索指数波动更倾向于从连续上涨变为大幅下跌,然后转换成其他状态。

表1 网络节点的拓扑性质Table 1 Topological properties of network nodes

符号DRR和RRD的聚类系数相对较小,说明与DRR和RRD相连的其他符号间存在连接的概率较低。此外,发现聚类系数较大的符号主要集中在波动较小的状态中,如eee、eed、ree、drr、rre和ere等。这反映了波动较小的符号之间的联系更为紧密。上述结果表明,我国在线翻译搜索指数虽然表现出显著的波动特征,但在大部分时间段内,仍以小幅波动为主。

图1为在线翻译网络最短路径长度的分布。通过对最短路径长度的研究可以揭示任意两个符号之间的转变距离问题。图1中不同节点间的最短和最长路径长度分别为1和5,整个网络的最短路径长度分布近似为偏态分布。最短路径长度为2和3的数量占总数的比例超过80%。数量最多的最短路径长度和整个网络的平均路径长度均为3,说明由一个符号转换成另一个符号平均需要经过3个中间符号。

图2是对在线翻译网络的社团结构划分,符号大小表示相应的点强度,符号间的连线和箭头表示符号间具有转换以及转换方向。可以看出,将在线翻译网络划分为5个社团结构。点强度最大的4个符号DRR、RRD、eee和eed分别位于3个社团中。从图2可以看出,波动较小的符号间的联系更为紧密,这与波动较小的符号具有较大的聚类系数相对应。其他社团中则是大幅波动和小幅波动组成的符号占主体。

图1 最短路径长度的分布Fig.1 Distribution of the shortest path length

图2 在线翻译网络社团结构Fig.2 Community structure of the online translation network

2.2 在线翻译网络的引领模式

图3为出现频率最高的RRD、DRR、eed和eee四种符号在2011―2020年间的分布特征,其中图3(a~d)分别为符号RRD、DRR、eed和eee相应的结果。从图3可以看出,在线翻译搜索指数波动整体呈现下降趋势。其中,在2011―2016年出现了两次较大上升和下降过程,在2017年之后则逐渐下降。符号RRD和DDR主要分布在指数波动较大的2011―2016年间,而符号eed和eee则主要分布在2017―2020年间,在2011―2016年间也有少量分布,这在一定程度上说明了搜索指数在转折时期的剧烈波动特征,同时也反映了在线翻译从早期的不成熟到逐渐发展成熟的过程。

图3 4种引领模式的分布特征Fig.3 Distribution characteristics of four leading modes

3 结束语

基于符号动力学和随机过程的思想,采用复杂网络理论方法,本文构建了时间序列数据驱动的人工智能在线翻译搜索指数的网络模型,并基于中国2011―2020年的数据分析了其网络结构特征。首先,根据节点强度最高的20个符号对应的节点强度、入度、出度和聚类系数的结果,发现尽管在线翻译搜索指数呈现出显著的波动特征,在大多数时间里仍然以小波动为主。其次,本文发现网络的最短路径长度分布近似为一个偏态分布,网络中从一个符号到另一个符号的转换平均需要3个中间符号。此外,本文还发现,波动性较小的符号具有较大的聚类系数。最后,根据引领模式的分布特征,发现在线翻译的发展过程是从早期的不成熟到逐渐成熟。本文基于时间序列符号化网络分析方法,揭示了人工智能在线翻译搜索指数变化规律。一方面,有助于了解中国人工智能在线翻译使用现状,为人工智能在线翻译系统产品设计开发等提供市场数据,为人工智能在线翻译相关企业提供决策参考。另一方面,为语言领域研究者开展相关问题研究提供现实依据。

猜你喜欢

波动社团符号
缤纷社团
学符号,比多少
“+”“-”符号的由来
羊肉价回稳 后期不会大幅波动
11月汇市:波动率降低 缺乏方向
微风里优美地波动
2019年国内外油价或将波动加剧
最棒的健美操社团
缤纷社团,绽放精彩
草绳和奇怪的符号