基于多元统计方法的外来入境人员特征识别
2017-05-24俞昊辰
俞昊辰
随着来华人数日益增多,为了更好地服务外来入境人员和最大化自身利益,中国相关产业部门对获得外来人群的特征信息的诉求愈加强烈。本文依托对2015年来华外国游客的统计数据,利用数理统计方法,获取甄别外来入境人员的特征信息,从而为我国相关产业部门的人士分析行情提供参考。
在经济全球化的大环境下,每年来到中国的外国人群数以万计,外来人员的年龄层也日趋多元化,由单一的中青年人群,发展到如今各年龄段并存的状态。随着中国与周边国家的合作日趋增多,双方签订的贸易工程逐渐落实,我国现今已与包括荷兰在内的多个国家互通铁路,坐火车来到中国已成为了一种新的出国方式。与此同时,年轻人热衷于轻旅行,旅行“轻”文化掀起了全球范围内背包游的热潮,人们开始广泛涉足徒步旅游与自驾旅游领域,出行的交通方式已不再是从前普遍的航空水运体系的单一向垄断。出行方式的新奇多样,给我国交通部门以及旅游局带来了难题。在大数据的时代下,如何从海量的出行方式信息里,甄别各国游客的旅游特征亟待解决。
一、直观评价入境外国游客特征
1.年龄段上,25~64岁这个人群段的外国游客最多。由于这个年龄段的人群大多是处于事业期,我们可以粗略地认为2015年大部分外来游客都属于工作人士,来华很有可能是拓展业务的需要,或者是签订相应的外事合同。
2.性别上,男女比例近乎2:1。然而这是全球男女比例以及就业男女比例等因素共同作用的结果,是一个宏观上已经成型的结果,并非我们所希望的由于旅游因素而所导致的差异,诸如男女人数相近、女多男少此类。因此,本文在此推测,性别因素对特征化入境外国游客信息的影响不显著。
3.出行方式上,徒步所占比例尤为高。然而,传统的船舶和飞机这两种方式却占有率极低,一来对于外国的拥有国际航行许可的轮渡企业与航空企业造成了不小的挑战,二来也对我国拥有国际航行许可的轮渡企业与航空企业带来了极大的威胁。
4.来华目的上,“其他”所占比例很高,国家旅游局数据中心并未给出我们其他中包括的具体内容,再此我们不妨假设其为教育和来华务工。出于会议和商务目的来华的人数仅次于“其他”,虽然占有量不如观光休闲的人数,但是这也印证了我们之前在按年龄段总计的统计分析中的猜想,即工作人士来华比例高。
二、多元方差分析比较差异
基于之前的直观分析,得到了事业型人士在总成分中占有率大的结果。通过将各洲各年龄段人群数据汇总(以万人为单位),用样本均值分别估计四个大洲的期望。假定这四个洲的数据总体均为多元正态总体,并且它们的协方差矩阵相同,根据的估计公式,可以得到改组的威尔克斯统计量= 0.3159573,其分布格式的值为3.895202。由于,所以拒绝原假设,认为各大洲各年齡段均有显著差异。为了了解这个四个大洲的显著差异究竟是由哪些年龄段人数引起的,在此对这五类年龄段分别用一元方差分析方法进行检验分析。结果显示单独对五类人群而言,并无显著差异。我们只能暂时认为14岁以下、25~44岁与65岁以上这三段人群的数量对整个的显著差异有一定的影响,其中14岁以下人群的影响最大。
按照上述多元方差分析的方法,分析有:性别上,发现各大洲男女人数所占比例无显著差异;出行方式上,徒步与其他方式相比而言,差异变动较大;目的上,各大洲来华目的有显著差异,其中经过一元方差分析再检验后,探亲访友的差异性较为显著。亚洲与欧洲来华探亲的少,而美洲与大洋洲来华探亲的多,可以认为是移民因素作用的结果。美洲与大洋洲一直是移民热土,这两个大洲的人口组成中,移民带来的人群所占比重不容小觑,尤其是中国,这个人口密度即大的国家,在外国移民人群中,光是在亚洲这个范围内,就已经占据足够大的分量。相反地,亚洲与欧洲因服务员工来华的比例相对较少,而美洲与大洋洲因此来华的比例相对较多。
三、主成分分析提取特征成分
用人数所占比例来替换相应的人数,并对此进行主成分分析。
1.年龄段上,根据累积贡献率,选定主成分。其中只与25-44岁的人群数量成负相关,认为其与青壮年事业人群数成负相关,可以反映青壮年来华的排斥性;反映了本科以上来华留学生的比例。
2.出行方式上,选定主成分反映距离的影响,居住在相对较近的国家的人民会通过水路和自驾来到中国,而相对较远的则会通过飞机来到中国;反映了徒步旅行在各大洲的推崇度。
3.来华目的上,选定主成分。与会议/商务和服务员工成正相关,而与探亲访友成负相关,我们认为这是个用来鉴别来华旅客身份的主成分。若是属于会议/商务与服务员工这些含有事业因素的人群,则我们将其认定为无直接亲缘关系的外国人,若是属于探亲访友这一类,则我们认为其是有亲缘关系的移民。再上升一个层次,对于商务来华的人员,我们可以认为其是受工作被动而来的。同样服务员工我们也认为是受指派而来的,是个被动的过程。而探亲访友很明显是一个主动的过程,所以,我们也将这个主成分判定为表现来华被动性与否的主成分;反映了来华人群的休闲指向,与其成正相关的是观光休闲和服务员工,与其成负相关的主要是事务类型的目的。
四、特征信息评估与行业发展建议
结合主成分分析内容,得到表1数据,从而可以得到2015年度各洲人群的特征信息如下所示。
1.非洲:多因工作原因来华,部分来华旅游和留学的人崇尚徒步;
2.美洲:非青壮年比例多,多来华探亲与旅游;
3.大洋洲:非青壮年比例多,多来华探亲与旅游;
4.欧洲:多为来华留学,相对而言事务较多;
5.亚洲:多为来华留学和旅游。
针对不同大洲的人群,给出相关产业发展上的不同的建议,建议如表2所示。
(作者单位:中国石油大学(华东)理学院)