针对全球语言发展趋势的分析及预测
2018-12-28黎子恒胡垠盈陈雪
黎子恒 胡垠盈 陈雪
摘 要:本文针对全球语言发展趋势进行了分析讨论,建立了基于时间序列的三次指数平滑模型以及基于粒子群优化的神经网络模型,对人口迁移以及语言发展展开了相关研究。同时考虑到影响母语使用者数量的因素,建立了多元线性回归模型,预测未来50年语言使用人数的变化。针对全球人口迁移受经济和交通等因素的影响,提出了基于粒子群优化的神经网络模型,预测未来50年的全球移民格局。最后得出结论:同一时期语言随地理分布发生变化。
关键词:时间序列 多元线性回归 粒子群优化 语言发展
引言
语言是文化最直观的表达方式,目前地球上大约有6900种语言。其中,中文、英文、西班牙文、俄文、日文、阿拉伯文、葡萄牙文、印度文以及孟加拉文是当今世界常用的九大语言,世界上大多数人都会说除母语外的第二种语言。然而随着时间的推移,语言的使用受到不同因素的影响,其可能会有所变化。
1 预测模型
首先设定时间系列: , 代表加权系数, 。三次指数平滑计算如下:
其中 是指数平滑值, 是第二个指数平滑值,并且 是第三个指数平滑值。
而后建立三个指数平滑预测模型[1]为:
是预测的数量t+m ; t是已知数据的年数, ; m是要预测的年数。
其次进行多元线性回归:
使用最小二乘法找出估计值c0 、c1、c2 …c6 ,也就是选择估计值 ,当cj 等于 ,j=0,1,2,…,6 ,平方误差的总和QW 降到最低。
本文利用多元线性回归分析建立六因素与三因素之间的关系 ,然后添加时间 影响力,来预测未来50年的语言数量。
2 BP神经网络模型
由于全球人口变化与时间不成线性关系,因此需要一种非线性方法来预测全球人口。 因此,本文建立了一個基于粒子群算法的BP神经网络模型来预测全球人口,在优化的学习算法中,粒子矢量
每个元素的值表示BP网络中神经元的权重或阈值,其中 d是BP网络中的所有权值和阈值数量。
粒子群优化粒子适应度函数如下:
;
其中n是样本的数量, , 表示颗粒的数量。Yi,j 是理想的输出i样本和yi,j 是的实际输出ith样本。
根据已知全球人口数据预测,应用本文模型对未来50年全球人口进行预测如下图。
3 人口迁移模型
本文通过使用人口统计数据,将50年内语言变化分为以下三种情况。
①如美国,所使用的语言在各种语言中影响极大,人均国内生产总值、国际商业关系等指标处于良好状态,这将导致进一步增加世界上使用英语的人数。
②一些发展中国家,如印度、巴基斯坦和尼日利亚,由于人口迅速增长,其母语人数大幅增加。但是,它们的指标并不像欧美等发达国家那么好,在世界范围内增长并正在向世界先进经济体转移。
③波斯尼亚和黑塞哥维那等人口减少,指标不像欧美等发达国家发达的国家,其使用总人数下降,并转移到发达国家,最终可能灭绝。
首先,收集每种语言中用户数量的数据,利用三种指数平滑预测各类语言的趋势,取权重系数值为0.6?0.8;
然后,使用多元线性回归来表示每个因素对使用该语言的人数的影响,并合并时间序列以获得预测值。由此,预测未来50年每个语言的母语人数和使用总数的变化如下:
结论
本文针对全球语言发展趋势进行了分析讨论,建立了基于时间序列的三次指数平滑模型以及基于粒子群优化的神经网络模型,对人口迁移以及语言发展展开了相关研究。本文建立的时间序列模型中可充分利用原始时间序列数据,计算速度快,模型参数动态确定能力强,准确性较好。
参考文献:
[1]Margaret L. Brandeau, Samuel S. Chiu. An overview of representative problems in location research [J]. Management Science. 1989,35(6):645- 674
[2]Jossef Perl, Mark S. Daskin. A unified warehouse location-routing methodology[J]. Journal of Business Logistics. 1993,5(1):92- 111