APP下载

基于多种计算方法的语言分布演变预测

2018-11-01马之杰秦雅博郑超逸

电脑知识与技术 2018年18期
关键词:微分方程

马之杰 秦雅博 郑超逸

摘要:世界上有超过6900种语言。主要语言的使用者构成了绝大多数世界人口。其中包含了单一使用母语人士和使用第二或第三语言的人士。随着经济和文化的全球化,不同语言使用者的分布也发生变化。语言者的数量可能随时间演变而增加或减少。它们的地理分布可能同时发生变化。语言分布的变化与文化政策、移民、教育、商业关系和国际交流等都有着密切的相关性。该文考虑多重因素的影响下,预测了不同语言者分布随时间变化的人口在地理分布规律。这些预测结果可以对商业运作提供参考性建议。

关键词:马尔科夫模型;微分方程;语言流

中图分类号:TP3 文献标识码:A 文章编号:1009-3044(2018)18-0237-03

首先为了便于模型的一般性推广,我们给定以下的一般性假设:

[·]假设全球人口增长率在不久的将来是稳定的。

[·]假设我们所做的研究是基于可信数据的。我们仅利用现有数据提供可行的预测方案。

[·]忽视语言人数和移民人数由于战争、自然灾害等不可抗因素导致的突然变化。

1 基于马尔可夫模型的语言分布预测

1.1 模型组建

在马尔科夫模型中,在某一时刻,一组对应于每个状态的值被称为分布序列[1]。在马氏过程中,每个状态中的单元有可能一步转入另一个状态(包括自转移)。

我们定义各类语言的语言者分布序列[ξk=a0,a1,…]以描述语言分布,其中,[k]为年份, [ai]指第[k]年的分布序列中第[ith]状态的的值, 我们定义其值为第[ith]种语言者的数量。每个分布序列通过转移概率矩阵的作用后,我们得到下一年的分布序列:[ξkMk=ξk+1]其中,[k]为时间序号,转移概率矩阵[Mk][1]单元[pij]描述在下一年从[ith]状态转移至[jth]状态的概率。

[Mk=p11p12…p1np21p22…p2n......pij...pn1pn2…pnn]

在马尔科夫模型中,矩阵的行求和概率符合归一化限制条件,由概率的性质给出[pij∈0,1j=1npij=1]

随时间变化规律可以视为按年度离散的多步马尔科夫过程,我们可以通过累乘[ξ(t+1)=ξ(1)k=1tMk]来计算多步马尔可夫过程,其中[ξ(1)]和[ξ(t+1)]依次是初始分布和第t年分布。

针对于语言者分布的变化,自我转移对应于语言继承,这意味着一部分语言者在一步转移中保持不变。相互转移对应于语言从一个到另一个语言的演化,受到语言使用者比例(SS),移民情况(IS),文化政策(CP)和文化交流(ICC)等因素的影响,按图1的逻辑结构以确定本模型中各概率:

自转移概率:由于在正常情况下,只有少数语言者会自发地转变成另一种语言者,我们认为大多数发言者都是遵循“语言继承”,我们给定自我转移概率[pij=0.98i=j]

互转移概率:由上易得语言者的总互转移概率为2%,对应于矩阵行求和概率,每两种语言间的转移比例是不确定的,我们应该采取定量指标的比例来确定剩余概率:[pij=2%×Fij/j=1nj≠iFij i≠j]其中[Fij]是与语言规模,移民规模,文化政策和国际文化交流有关的综合指标。为了获得上述指标的量化描述,我们在模型中将上述四个方面定量调整为语言者相对规模(RSS),人文发展指数(HDI)[4],移民水平指数(ELI)[4]和全球化指数(GI)[4]。

首先,两种语言之间的规模差距越大,较小规模的语言越有可能演化为另一个。因此,我们可以通过两种语言的规模之比来定义语言者的相对规模:[RSS=Pj/Pi]

根据报道,人类发展指数[4]是定义在0-1区间内的衡量人类实现预期寿命,教育程度和体面生活的人类发展的综合指标:[HDIj∈0,1]对于分布在多个国家的语言,我们用这些国家的平均人文指数来描述该语言的移民水平指标。

根据目前世界移民总体趋势[4],目前世界上最明显的人口流动趋势是从发展中国家到发达国家。贫困地区为主要流出地,发达地区为主要流入地。我们定义发达国家的移民水平指数为“3”,主要发展中国家为“2”,贫困发展中国家为“1”,并同样利用分布国家的总平均值该指标:

全球化指数[4]是描述经济,社会和政治方面全球化的量化指标,与国际文化交流水平成正比:[GI∈0,100 ,100 代表最高国际化水平]

对于母语者来说,母语由成长环境决定,并且在成长后不会改变,所以我们认为母语人数不会受到国际文化交流的影响;对于第二语言者来说,主要受语言规模,移民局势和国际文化交流的影响:。通过乘积来量化定义这些指标,我们最终得到[Fij]的表达式:

对综合指标[Fij]量化后,我们能计算出转移概率和转移概率矩阵。由于计算母语者和第二语言者的分布存在差异,我们将这两部分看作是独立的马尔可夫过程,并依次给出[Mk]、[Mk']相关的递归关系:

1.2 算法处理

根据马尔可夫模型的特点,我们可以采用迭代算法[2] [3]来计算各种语言者分布的预测情况。在前一个输出可用作下一个输入的情况下使用迭代算法。图2可阐述其逻辑结构。

步骤1:输入语言使用者的分布以及目前的RSS,HDI,DLI,GI。

步骤2:计算当年的RSS并更新一步马尔可夫过程的传输概率矩阵

步骤3:转移矩阵作用于初始分布并获得下一年的分布情况。

步骤4:先前的输出值作为下一年的输入值,并重复迭代50次。

对于母语者和第二语言使用者,我们独立地对这两部分进行马尔科夫预测,最后将它们相加得到语言总人口的数量分布。

1.3 预测结果

通过迭代算法,我们可以得到预测的未来50年每种语言在每一年的数量分布,这在附录中给出。我们通过两部分预测结果相加计算总語言者的分布。根据预测得到的语言分布情况,我们重新排名得到世界上十大主要语言如表1所示:

在总体语言分布中,日语取代孟加拉语进入前十名,同处于前十名的其他排名略有变化。

2 基于人口迁移差分方程模型的语言分布预测

在马尔可夫模型中,我们只讨论了不同语言之间的相互转移,忽视了人口的自然增长,这可能会导致与实际情况有所偏差。因此,我们在考虑人口增长率的情况下调整差分方程,以此来更准确地描述语言分布的变化,由此引入基于人口迁移的差分方程模型进行预测。

根据人口流动模型,一个地区的人口增长率是由人口自然增长率、人口迁入率和迁出率决定的,因此,可建立以下差分方程:

其中[Yit]表示第i个地区的人口,a表示自然增长率,[s=YtYmax]是人口的相对增长限制,[pij]是人口迁入率。据资料显示,我们定义[a=0.7%],[Ymax=1.5Y(1)]以及[Y(1)]是目前是语言的人口数。同时移民的过程可以看作是母语迁移的过程,因此我们假设移民的迁移率与语言迁移的概率相同。

隨后,我们研究逐年人口的变化,因此微分方程可以简化为一个差分方程:

以初始语言人口分布作为差分方程的初始条件,我们可以得到人口的分布随时间的变化。由于采用这一模型预测时,迭代算法的主要结构与上一部分相近,在此不再赘述。我们主要将该部分结果用于语言的地理分布预测中。

3 基于语言流模型预测的语言地理分布变化规律

为了研究各国的主要地理语言分布变化,我们选取了几个有代表性的国家进行了预测。我们定义每两个国家之间的语言流函数[gpq],衡量语言从语言源传播到目的地的概率,以百万人为单位量化:

其中,[μp]是第i种语言中p国家的人口比例,[μq]是第j种语言中q国家的人口比例。语言流[gpq]是标量,因此我们通过两种语言流之间的差异来计算语言的净流向量[Gpq]:[Gpq=gpq-gqpepq],其中,[epq]是第p个国家到第q个国家的单位矢量,[Gpq]指相对矢量。根据预测的语言流量,我们可以计算每两个主要国家之间的[Gpq]。因此,我们可以通过计算的数值对语言流进行排名来获得主要的地理语言变化趋势。在计算每两种语言之间的语言净流量之后,我们根据相同的语言来源和目的地将数据分组,然后我们按降序排列组的总流量。排名如下表2所示:

除以上表3所列数据外,我们绘制了的语言转换图(图3)以直观显示语言的地理分布变化:

地图中的着色部分是语言分布在地理上发生变化的区域,箭头表示国家之间的语言流。从上面的结果中,我们可以清楚地看到,英语和英语是地理分布中最具扩张性的语言,而阿拉伯语和普通话的地区未来可能转化为其他语言。总之,语言的地域分配转移方向大体一致。我们将人口迁移看作是语言群体融合的过程。

4检验与分析

由于我们建立了基于人口迁移理论的微分方程,理论上讲,那些预测的语言说话者的总和预计将与按总体自然增长率计算的总人口一致:[Yi(t)=1+atYi(1)]我们由此计算相对误差约为7%,表明说话者的预测数值分布是合理的,反映了自然增长率在50年内具有代表性。由于马尔可夫模型的自我传递概率被设定为占主导的概率,为了检验模型的稳定性和合理性,我们通过微调自转移概率并观察预测结果变化,发现排名前四的语言保持一致。同时,排名变化主要发生在葡萄牙语-阿拉伯语,日语-俄语-孟加拉语之间。我们认为这是由于他们之间的竞争关系和相互转移。此外,当自传概率高达99%时,在排名前十中引入了一种新语言,这意味着该模型的最大极限稳定性大约在98.5%和99%之间。基于人口增长理论的模型,自然增长率和增长极限也影响微分方程模型的稳定性。

5 结论

通过本文提供的语言数量变化及地理分布规律预测方法,在掌握有效的统计数据时,能够对未来语言人口变化趋势进行较为合理的预测,为各类政治、经济、文化、商业活动提供参考依据。在条件允许的情况下,通过更多方面指标的提取,提高数据的精准度等方法均可对我们的工作进行完善。并且,针对不同应用场景,各类参数可以在合理范围内根据侧重性做适当调整以满足商业化应用。

参考文献:

[1] 司守奎.数学建模算法及应用[M].北京:国防工业出版社, 2016.

[2] 姜启源.数学模型[M].北京:高等教育出版社, 2011.

[3] 卓金武.MATLAB 在数学建模中的应用[M].北京:北京航空航天大学出版社,2014.

[4] World Economic Forum. The Global Information Technology Report, 2016.

[5] R. Liu, Improvement of Population Migration Model and Prediction of System Dynamics Simulation. 2008, 38(18-9).

[6] World map PPT material template. Retrieved from http://www.1pppt.com.

[7] https://en.wikipedia.org/wiki/List_of_languages_by_total_number_of_speakers.

[8] National Bureau of Statistics of People's Republic of China, International Yearbook of Statistics, China Statistics Press, 2015.

猜你喜欢

微分方程
血液流速的微分方程模型
浅谈高等数学教学过程中的教育思想
微信营销的信息传播问题的数学建模探究