APP下载

方言文化与广东省内人口流动
——基于百度迁徙大数据的研究①

2023-12-25胡少东林晓博

南方人口 2023年6期
关键词:方言广东省人口

胡少东 林晓博

(汕头大学 商学院,广东 汕头,515063)

1 引言

“鸡同鸭讲眼碌碌。”这是广东家喻户晓的《外来媳妇本地郎》的歌词,形容21 世纪初汇聚不同方言背景的广东家庭成员交流情况。广东省作为我国改革开放的前沿地区,一直是全国热门的人口迁入地。流动人口以省外流入为主,而且集中在珠三角地区[1-2]。然而,近些年来,广东省的跨省流入规模在缩减,但省内流动人口持续增长[3]。截至2020 年第七次全国人口普查,广东省省内流动人口超过两千万人,占全省流动人口总数的43%。

广东省是我国汉语方言最复杂的省份之一,省内方言纷繁复杂、犬牙交错[4]。主要分布着粤方言、闽方言以及客家方言三个方言大区,具体可以细分为11 个方言片。随着普通话的推广,普通话已成为人们在正式场合使用的语言。不过,在非正式场合,人们的用语并没有明确的规定[5]。广东省语委2014 年在深圳、珠海和汕头开展调查发现,这三个地方的居民一方面既高度认同普通话,另一方面又习惯在非正式场合使用自己的母语方言进行交流[6]。此外,在粤东地区,只有一半的受访者表示会在工作场合使用普通话进行交流[7]。可见,方言依然流行于广东居民的日常生活中,形成了方言和普通话并用的情况。考虑到语言能够影响到人口流动的决策[8],地级市之间的方言文化差异是否会影响省内人口的流动呢?

本文借助“百度迁徙”所收集到的海量人口流动数据,从社会网络角度分析广东省省内人口流动情况。同时,实证探究广东省内地级市之间的方言文化差异对于省内人口流动的影响作用。相较于现有研究,本文的贡献可能有两个方面:第一,本文将从文化的视角解释广东省省内人口流动,补充了广东省省内人口流动的影响因素研究。第二,借助实时和海量的数据把握广东省省内人口流动的情况与变化,为广东省各地因地制宜地制定人口政策提供参考。

2 文献综述

地区之间语言的同质性和相似性增加了人口流动的可能性,语言的差异则会形成人口跨地区流动的非正式壁垒[9-11]。在德国,标准德语的普及减少了人们交流的困难,但是德语方言在现代社会中更体现为一种持久的地区文化差异,仍对人口迁移产生显著影响[12]。在我国,劳动力流动的范围在空间距离上会更偏好邻近城市,在空间位置上则是偏好方言相近、文化背景相似的地方,而普通话的推广能够有效减少文化的负向作用,从而促进劳动力跨文化区域流动[8][13-14]。相关研究认为方言距离对劳动力流动的影响是呈现出先促进、后抑制的倒U形结构[15]。

语言主要通过信息沟通、身份认同和人力资本这三个方面影响人口流动决策。首先,语言是交流的载体。唐寅在《阊门即事》中写道“五更市卖何曾绝?四远方言总不同。”我国是个多方言的国家,北方地区的方言内部差异不大,沟通较为方便;而南方地区的方言种类多,语音、语调等都比较复杂,方言之间存在着较大的差异,造成人们交流中存在一定的障碍[16-17]。其次,语言会影响身份认同。《颜氏家训·音辞》中写道:“夫九州之人,言语不同,生民已来,固常然矣。”方言是人们用来区分不同群体的工具之一,人们在交谈过程中往往会根据口音来判断彼此身份[18]。在一些方言占强势地位的地区,语言的差异不仅会让外来人口被贴上“外来人”标签,同时还会让他们感受到来自主流社会的排斥,使得他们难以融入当地[5]。最后,语言能力是一项人力资本。掌握方言沟通可以有助于外来人口扩大在当地的社交网络和提高自身的社会认同度,减少创业壁垒,增加迁入人口创业机会,增加收入,提高定居的可能性[19]。

广东省是我国人口流动活跃的地区之一。同时,透过人口普查和全国流动人口动态监测调查数据,可以发现珠三角城市群的省内流入人口增速要快于省际流入,在此趋势下珠三角城市群流入人口将逐渐呈现省内和省际并重的特征[20]。

通过总结已有研究可以发现:第一,广东省内人口流动比重在增加,这会成为未来省内人口流动趋势。目前关于广东省内人口流动的研究还仍不足,而且基本是借助人口普查数据。随着人口流动的变化,需要借助及时、海量的数量来分析以便更好了解人口流动变化。第二,对于人口流动影响因素的研究从经济、社会层面拓展到更为深层的文化层面。文化的差异会增加人口跨地区流动的负担从而阻碍人口的流动。我国疆域广阔、方言众多,“十里不同音”,即使在一个省内,也是存在多样化的方言文化。方言对于同一省内的人口流动是否会产生影响?特别是占比较高的广东省内人口流动,是否会受到方言文化差异的影响?现有研究尚未探讨这个问题。

3 广东省省内人口流动网络

大数据时代的到来使得海量的人口流动可以被及时观察到。本文将采用百度地图慧眼平台(https://qianxi.baidu.com/#/)提供的人口迁徙大数据进行研究。百度地图平台为用户手机里的APP 提供定位服务,服务范围涵盖航空、铁路、公路等交通运输方式。百度地图平台可以基于定位服务判断用户所在位置的变化来分析用户的流动轨迹,是国内数据源最广的LBS(Location Based Service)平台[21]。该平台通过采集用户位置信息进行处理,从而得出每日各省市的人口流动数据,并按日公布数据,实现人口流动数据的及时性和可视化。

春运是中国独特文化现象,一年一度的大规模返乡是中国人口流动的写照。大量人口被经济发达、资源更丰富的地区所吸引,但以户籍制度为基础的二元社会体制存在,这些流动人口大多只能以“暂住居民”的身份生活在城市中。中国人具有浓厚的乡土情结,春节回家团聚是中国人一年一度的重要仪式。大批外出人口会在春节前一段时间里集中返乡过年,过年后又会返回到城市工作[14]。因此,春运期间的数据对于反映我国区域间人口流动的方向具有特殊作用[22]。

根据国家发改委的信息,2020 年春运的起始时间为“2020 年1 月10 日(腊月十六)到2020年2 月18 日(正月二十五)”。2020 年春节期间新冠疫情爆发,为有效控制疫情,我国部分地区采取交通管制、旅行限制等措施,使人口的跨区域流动受到一定影响。但是,2020 年春节前,人口跨区域流动受到的限制极小[23],在一定程度上可反映正常情况下的人员流动情况。考虑到疫情防控从2020 年1 月24 日开始且省内城市地理距离较近,为更好反映人口返乡情况,本文选择春节前一周的人口流动数据作为研究,并收集了广东省21 个地级市在2020 年1 月17 日(农历腊月二十三)至2020 年1 月23 日(农历腊月二十九)期间人口流动的数据。同时收集了2023 年农历同时期(2023 年1 月14 日至2023 年1 月20 日)的人口流动数据,以对比两个时期人口流动的网络。

百度迁徙页面里提供的不是i 地流向j 地具体人数,而是i 地流向j 地的人口数占i 地总流出人口数的比例,是一个相对重要数值,需要进行处理[24]。同时,页面中还提供了每个城市的“迁徙规模指数”。根据百度平台的解释,这个指数可用来反映迁入或迁出人口规模,城市间的数值可进行横向对比。因此本文将百度迁徙页面提供的每个城市每日的“迁出规模指数”乘以迁往每个城市的比例从而得到每日i 地流向j 地的指数,加总形成研究时间段内i 地迁往j 地的指数[23],具体如下:

其中,Tindexi,j为i 地在t 时间段内前往j 地的总指数;indexi,t为i 地每日的迁出指数;percenti,j,t为每日i 地迁出人口中迁往j 地的占比。

最后,本文构建了以流出地为纵坐标和流入地为横坐标的关系矩阵,并利用迁移指数(Tindexi,j)作为边的权重,得到一个21*21 的有向多值网络矩阵,用于分析广东省省内人口流动情况。同时借助Gephi 软件将人口流动网络进行可视化。其中,节点越大表示度数越大,点之间的连边越粗则表示权重越大,见图1 和图2。

图1 2020 年广东省内人口流动网络

图2 2023 年广东省内人口流动网络

Gephi 软件的模块化功能可以借助节点之间的联系紧密程度的大小对节点做归类,将网络中的节点划分到不同的子群当中。模块化表明了同一个社区成员之间存在着较高的密集和相对较强的、直接的或者积极的联系,因此这个功能可以用于网络中的社会发现[25]。为了研究人口流动关系,本文借助Gephi 软件的模块化功能将网络进行模块化,结果见表1。

表1 网络模块化结果

表2 变量描述性统计

同一模块中大多城市都在地理位置上相近或接壤,例如模块1 中的广州市与佛山市,模块2中的深圳市与惠州市,模块3 中的粤东潮汕揭三市。除外,还发现各模块中的城市在方言文化之间具有一定程度的相似性。2020 年模块1 的“广州市、佛山市、江门市”在方言上都是使用粤语中的广府片,在2023 年模块1 中的城市里也分布着粤语方言。在模块2 中,2020 年深圳市、惠州市、韶关市都是既有使用粤语也有客家方言的城市,2023 年的城市大多都是有使用粤语或者客家方言的,例如深圳市、东莞市、河源市、梅州市。另外,模块3 中两个时期的城市保持稳定,均是粤东地区的“汕头市、揭阳市、潮州市”,这三个城市不仅地理上相近,而且文化高度同源,均使用闽语中的潮汕片。总之,广东省省内城际人口流动在除了地理距离上的关联性外,在方言文化上也具有相近性。

4 方言距离对广东省省内人口流动影响实证分析

在上述网络分析中,人口流动关系密切的城市在方言文化上存在着相近性。方言距离是否会对广东省省内人口流动存在一定的影响?为避免疫情防控对人口流动的影响,本文将选取2020年春 节前(2020 年1 月17 日至2020 年1 月23 日)即人口正常流动状态下的数据作为研究数据。

4.1 模型构建

在现有的文献中,引力模型常被用来分析区域之间人口流动。最早的引力模型来源于物理学中的万有引力公式,后来被应用到人口流动的研究当中。在基础引力模型中,地区的人口流动是由迁出地与迁入地之间的地理距离以及这两地的人口规模所决定的,见公式(2):

对公式(2)的等式两边取对数可以得到公式(3):

若以i 地为人口的迁出地,j 地为人口的迁入地,则公式(3)中的Mij表示从i 地迁往j 地的人口规模,POPi和POPj分别表示i 地和j 地的人口规模,DISij则代表i 地和j 地的地理距离。

本文借鉴已有研究做法[12]使用修正的引力模型检验德国方言对德国历史上人口流动影响的做法,在公式(3)的基础上加入了方言文化距离和相关控制变量得到公式(4):

其中,DIAij为i 地和j 地之间的方言距离变量以衡量迁入地与迁出地的方言文化差异,Eij代表相关的控制变量。

4.2 变量处理及描述性统计

4.2.1 解释变量:方言距离

鉴于数据可得性,本文使用的赋值测量方法来构建广东省21 个地级市之间的方言距离指标的[15]。首先根据广东省现行的行政区域将1986 年广东省各县匹配到2020 年的地级市当中。然后,对县与县之间的方言差异进行赋值,具体规则为:如果两个县使用的方言属于同一方言片,那么我们赋值1;如果两个县使用的方言属于同一方言区中的不同方言片,就赋值为2;如果两个县使用的方言是同一方言大区而方言区不相同时,赋值为3;如果两个县分别属于不同的方言大区则赋值为4。方言数据采用徐现祥团队的研究结果[26]。同时,考虑到地区之间方言的使用范围及影响力,对方言差异进行人口加权,利用公式(5)计算出地级市之间的方言距离。

其中,假设i 县和j 县分别由A 市和B 市管辖,diaij是根据i 县和j 县的方言差异赋值规则得到的数值。POPAi和POPBj分别表示i 县人口占A 市的总人口比重和j 县人口占B 市的总人口比重。由于使用的数据是按照1986 年我国的行政区划登记各县方言,为了更好地匹配上各县人口数据,本文使用距离1986 年最近的《人口普查分县资料2000》中各县的人口数据。DIAA,B则为经过人口数量加权计算得出的地级市方言距离。

4.2.2.被解释变量:人口流动

随着我国户籍制度改革的推进和地区交通基础设施的完善等,中国的流动人口在快速增长。户籍制度虽然对公民在非户籍地定居有一定的阻碍作用,但对其自由流动选择是没有任何影响的。流动人口的增多和流动行为的多样化也使得在现在的实证研究中对于“人口迁徙”和“人口流动”这两个概念也不再进行明确的区别[27]。本文采用的人口流动数据来源于“百度迁徙”,平台提供的数据是关于城市之间人口的流动比例。在现有研究中[8][28],学者们使用地区的人口迁移率研究方言文化对人口迁移影响。由于在“春运”期间流动人口主要是从外地返回其家乡,为了更好地反映城市之间的流动,本文采用春运期间人口迁入来源地的比重来衡量人口在日常流向其他城市的数据,然后计算研究时间内数据的平均值形成人口流动数据。

4.2.3.其他控制变量

本文结合引力模型以及相关研究,在实证中控制了影响人口流动的其他因素。第一,地理距离。现有研究认为地理距离对人口流动和迁徙有重要的影响。广东省在地理上东西跨度较大。因此,本文借助百度地图获取21 个地级市的经纬度数据,计算出两两之间的地理距离。第二,是否接壤。根据两个城市是否接壤可以来刻画城市的区位特征[28]。对此,本文将通过设置虚拟变量来表示城市之间是否接壤,如果两个城市有交界则记为1,没有交界则记为0。第三,经济发展水平差异。现有研究表明地区之间的发展差异、就业机会、工资水平是促进人口流动的经济动因。本文以两地之间的人均GDP 差值的绝对值来衡量地区经济发展水平差异。此外,实证分析中还考虑了地区人口规模,采用各市年末户籍人口数进行衡量。相关数据均来源于《广东统计年鉴2020》。

4.3 实证结果及分析

4.3.1.基准回归结果

为了探究方言距离对于广东省省内人口流动的影响,本文使用公式(4)作为基准回归方程,具体的估计结果如表3 所示。首先,第(1)列只将方言距离和人口流动分别作为解释变量和被解释变量,回归结果显示两者具有相关性而且“方言距离”显著为负,这表明两地的方言距离越大则省内人口流动的可能性会越低。然后我们在第(2)列和第(3)列中进一步控制了地理因素、人口规模、经济发展因素和地区固定效应。可见,“地理距离”的估计系数显著为负,说明城市之间的地理距离较近则人口流动的可能性比较高。同时,经济因素对广东省省内流动具有显著影响,经济发展水平差异越大,人口流动的可能性会更大,经济发展水平是影响人口流动的重要因素。在控制上述变量后,本文关注的“方言距离”的估计系数依旧为负数而且通过显著水平检验,显示了城市的方言文化因素对于人口流动具有一定的影响,即两地的方言距离会显著降低人口流出的可能性。因此,如果迁入地和迁出地有相近的方言文化则能够有效地减少流动人口的交流困难,加强身份认同,从而增加了人口流动的可能性。

表3 基准回归结果

4.3.2.稳健性分析

(1)更换变量指标

首先,参照现有研究做法[14],本文构建城市人口流动机会比率来替换被解释变量。人口流动机会比率意思为:对于流出地i 而言,人口流动到j 地的概率与没有流动到j 地的概率比值。其计算方式见公式(6):

其中,odds 表示人口流动机会比率,p 表示从i 地流向j 地在观测期间的平均比重。本文将被解释变量由“人口流动比例”变更为“人口流动机会比率”。将人口流动机会比率作为被解释变量进行回归,回归结果如表4 第(1)列所示。估计结果与基准回归结果接近,说明人口流动的衡量指标变更不会影响到我们回归结论。

表4 稳健性检验结果

在方言距离的测量中,对于方言差异采用“1-2-3-4”的赋值方法可能存在主观性。为此,根据各县方言的不同,将方言差异赋值数值由“1-2-3-4”调整为“1-5-25-50”,得到新的方言距离数据。回归估计结果在表4 的第(2)列。由于“1-5-25-50”的数值比“1-2-3-4”要大,因此得到的方言距离也变大,回归系数仍通过显著性检验,而且依然为负数,估计结果稳健。

(2)子样本回归

虽然百度迁徙平台是根据海量用户的定位信息形成的数据,但是目前数据仍无法获取每个个体的具体信息。有些个体可能是由广东省外到达广东省内城市再转回目的地或者从广东省内某个城市出发经过中转后返回其他省份,这时候该地就可能不是流动人员真正的迁出地或者迁入地,而是其从广东省外返乡或者从广东省内返回外省的一个中转城市。为了减少这部分的影响使得结果更为稳健,本文剔除了广州市和深圳市的样本,原因在于这两座城市既是广东省经济中心,也是广东省的两大综合交通枢纽,是重要的目的地和中转地。剔除后的子样本回归结果如表4 第(3)列所示,检验结果没有发生大的变化,所有变量仍保持显著。同时,可以发现经济发展水平差异的重要性有所下降,而地理距离和方言文化的影响较基准回归结果有所上升。

(3)变化研究时间段

2023 年我国对新型冠状病毒感染调整为“乙类乙管”,经济社会有序恢复正常。本文收集了2023 年农历同时期(2023 年1 月14 日至2023 年1 月20 日)的人口流动数据以检验研究结论。表4 的第(4)列结果显示,在2023 年,广东省内人口流动同样受到方言文化的影响,即方言文化越接近,人口流动越密切。

4.3.3.内生性检验

人口流动现状可能会受到早期的移民活动、流动人口的个体社会关系等因素的影响,在回归中遗漏了不可观测的变量,从而形成内生性问题。

戏剧艺术具有浓厚的地方特色,我国民间的戏曲大部分是采用当地语言进行表演的[29]。由于表演语言的特殊性,戏剧的受众群体通常是使用该种方言的居民[30]。广东省的戏剧类型分布与省内的方言区划在地理上基本重合[31],例如,以闽语潮汕话演唱的潮剧主要流行在粤东潮汕方言地区,在省内其他地区则难以见到潮剧的表演。同时,戏剧是在长久历史积淀中形成的文化,与方言文化存在相关性,而对于现代人口流动则不产生影响,因此选做工具变量是合适的。

本文根据《广东省地方戏曲剧种普查报告(2019)》对于广东省21 个地级市本土戏曲剧种的调查结果设置虚拟变量,即如果两个城市的本土戏曲剧种相同记为1,有差异则记为0,从而形成方言距离的工具变量。本文采用2SLS 方法进行内生性检验,结果见表5,第一阶段的结果显示方言距离与两地戏曲类型差异存在显著的负相关关系,戏曲种类相同的地区方言距离会越小。第一阶段的F 值为24.38。根据经验法则,该数值大于10 则可以排除弱工具变量问题。在使用工具变量之后,第(2)列中方言距离的估计系数依然显著为负。

表5 内生性检验

5 研究结论与建议

传统的人口理论关注经济因素、家庭因素等对人口流动决策的影响,如推拉理论、新劳动迁移理论。不过这些理论并没有关注到方言文化对人口流动决策的影响。“少小离家老大回,乡音无改鬓毛衰。”自小习得的方言伴随并影响着人的一生。本文的研究表明,方言文化是影响人口流动决策的重要因素之一,人口理论需要加强对方言文化的关注。

本文基于百度迁徙大数据研究得出:第一,在广东省内人口流动网络中,将城市进行模块化分析以发现城市子群,位于同一模块中城市具有两个特点:地理位置临近和方言相近。第二,实证分析结果表明除了地理距离、经济发展水平差异、人口规模等经济社会因素对广东省内人口流动产生影响外,方言文化差异也会影响到省内的人口流动。如果流出地与流入地的方言距离越小,人口流动的可能性会越高,即方言文化背景相似地区对于省内流动人口具有一定的吸引力。稳健性检验和内生性检验进一步表明,方言文化差异对广东省省内人口流动具有显著的抑制作用。

城市因人而兴,随着省内人口流动规模的增长,促进城市和区域协调发展需要进一步做好流动人口管理与服务工作。本文从文化和春运视角出发,探究方言文化差异与广东省内人口流动的关系,研究结论具有一定的政策启示:第一,对于粤东西北而言,目前普通话水平较低,需要进一步发展深化基础教育和中等教育、在保护本土方言的基础上推广普通话、提高当地人的语言能力,减少沟通障碍以增加地区的吸引力。第二,2022 年8 月广东省自然资源厅发布了《广东省都市圈国土空间规划协调指引》,明确了广东省未来规划建设的五大都市圈,分别为广州都市圈、深圳都市圈、珠西都市圈、汕潮揭都市圈以及湛茂都市圈。结合本文的研究,这五大都市圈各自内部人口流动活跃,在地理和文化上具有相近性。未来在加强都市圈建设的同时,需要开展都市圈之间的交流与协作,减少地域文化差异,增加省内不同文化背景人口的交流,促进广东省区域协调发展。

猜你喜欢

方言广东省人口
方严的方言
《世界人口日》
人口转型为何在加速 精读
方言
说说方言
留住方言
广东省铸造行业协会十周年会庆暨第四届理事会就职典礼成功举行
人口最少的国家
1723 万人,我国人口数据下滑引关注
广东省海域使用统计分析