APP下载

基于百度指数的京津冀地区城市网络特征研究

2020-07-03张令涛吴风华

关键词:信息流层级聚类

张令涛,吴风华

(华北理工大学 矿业工程学院,河北 唐山 063210)

0 引言

随着互联网技术的不断发展,城市间的联系越来越密切,有关城市网络的问题受到越来越多的关注。城市网络是指在一定的区域内众多相互联系城市所构成的系统。目前城市网络研究采用的方法主要是通过获取城市间相互关联性数据来研究城市网络结构[1]。城市间关联性体现在各种流,如客流、货流、资金流、技术流和信息流等。信息技术的快速发展使得城市间的联系逐渐摆脱地理空间距离限制,并逐渐不再依赖于实体空间中的各种流[2]。信息流在城市相互作用过程中所起到的作用越来越明显,将表征信息流的数据应用于城市网络研究逐渐成为一种新的趋势[3]。熊丽芳等借助百度指数的用户关注度数据来模拟城市间信息流,并对城市网络进行研究与分析[4]。潘昱成等利用长江中游城市群的31个城市间的百度搜索指数,利用社会网络分析法对城市网络特征进行分析并探讨影响城市网络的主要因素[5]。高烨昕等以山西省地级市为研究对象,利用百度搜索指数,运用社会网络分析方法以及ArcGIS可视化分析方法,分析和揭示山西省各城市间网络结构特征,并对山西省城市网络结构优化提出合理的建议[6]。虞洋等将中国省份间的百度搜索指数作为信息联系依据,利用社会网络分析法对中国省际信息联系网络格局以及层级结构进行分析与研究[7]。胡国建等通过百度指数模拟黑龙江省城市间信息流,并对城市信息流量、城市网络结构和城市在网络中的主导性与控制力等方面进行研究[8]。百度搜索指数是以网民在百度的搜索量为数据基础,以关键词为统计对象,科学分析并计算出各关键词在百度网页搜索中搜索频次的加权和。该项研究通过利用京津冀地区两两城市间的百度搜索指数来表征城市间的信息流强度,进而分析京津冀地区城市网络特征变化。

1 研究区域与数据来源

1.1 研究区域

京津冀地区位于华北平原的北部,漳河以北,背靠燕山,东临渤海,西为太行山地,东南部、南部衔山东、河南两省,西倚太行山与山西省为邻,西北部、北部与内蒙古自治区交界,东北部与辽宁省接壤。该地区包括北京、天津两大直辖市和河北省的保定、唐山、廊坊、石家庄、秦皇岛、张家口、承德、沧州、衡水、邢台、邯郸共计13座城市。如图1所示。

图1 研究区域位置及区域范围

1.2 数据来源

在城市网络特征研究中,城市被视为网络中的节点。利用城市间百度搜索指数表征网络节点中的信息流。借助百度指数平台构建以某一城市为范围和另一城市为关键词的百度搜索指数,进而获得反映城市间信息联系情况。例如,要获取北京对天津的信息联系情况,则以天津为关键词,范围为北京,即可获得北京对天津某一时段的百度搜索指数。该项研究使用2012年和2018年的京津冀地区两两城市间百度搜索指数,构建一个13×13京津冀地区城市间联系矩阵,作为研究京津冀地区城市网络特征的依据(见表1)。

表1 2012年京津冀地区城市间百度指数

2 研究方法

2.1 C-Value和D-Value分析法

利用C-Value和D-Value分析法,对京津冀地区所有城市在城市网络中的主导性和控制性进行分析。城市a的信息发送量为城市a对其它城市的百度搜索指数之和,城市a的信息接收量为其它城市对城市a的百度搜索指数之和。公式如下:

Ea=Ha1+Ha2+···+Ha(n-1)

╲*MERGEFORMAT(1)

Fa=H1a+H2a+···+H(n-1)a

╲*MERGEFORMAT(2)

╲*MERGEFORMAT(3)

Da=Ea-Fa

╲*MERGEFORMAT(4)

式中:Ea为城市a的信息发送量,Ha1、Ha2和Ha(n-1)为城市a对其它城市的百度搜索指数。Fa表示城市a的信息接收量,H1a、H2a和H(n-1)a为其它城市对城市a的百度搜索指数。Ca表示城市a在城市网络的控制力,其值越大,则说明城市a的控制力越强;若为负值,则说明城市a为被控制型城市。Da表示城市a在城市网络中的主导性,其值越大,城市a的主导力越强;若为负值,则说明城市a为附属型城市。

2.2 城市对信息流强度

用城市a和城市b的百度指数乘积Nab表示两城市对的信息流强度,用城市对信息流强度值与城市对信息流强度最大值的比值来表示城市对的相对强度。计算公式为:

Mab=Nab×Nba

╲*MERGEFORMAT(5)

╲*MERGEFORMAT(6)

式中:Mab表示城市对ab的信息流强度,Nab表示城市a对城市b的百度搜索指数,Nba为城市b对城市a的百度搜索指数。Pab为城市对ab信息流的相对强度,Mmax为所有城市对中信息流强度最大值。

2.3 城市信息流强度

某城市信息流强度为与该城市发生直接联系的所有城市对信息流强度之和。计算公式为:

Ua=Ma1+Ma2+···+Ma(n-1)

╲*MERGEFORMAT(7)

╲*MERGEFORMAT(8)

式中:Ua表示城市a的信息流强度,Ma1、Ma2和Ma(n-1)为与城市a发生直接联系的城市对信息流强度,n为某地区所包含城市的个数。Wa为城市a的信息流强度在所有城市信息流强度的比值,Usum为所有城市信息流强度总和。

2.4 变异系数

变异系数表示变量的离散程度,借助变异系数可以用来反映京津冀地区不同城市信息流强度的离散程度,用Cv表示。变异系数小于0.1属于弱变异,0.1到1属于中等变异,大于1属于强变异,计算公式如下:

╲*MERGEFORMAT(9)

式中:Ui表示城市i的信息流强度,U表示京津冀地区所有城市的平均信息流强度,n为京津冀地区所有城市的个数。

2.5 聚类分析法

聚类分析是研究样品或指标分类的一种多元统计方法。其中分层聚类法是应用最广泛的一种聚类方法。分层聚类是根据距离最近或相近程度最高的2类进行合并组成一个新类,并不断重复此过程直到所有的个体都归为一类。分层聚类分为样本聚类和变量聚类2种,样本聚类是对样本进行聚类,它使具有相似特征的样本聚集在一起,使差异大的样本分离开来。

2.6 可视化分析方法

利用ArcGIS的可视化分析功能对比不同年份某地区城市网络结构变化特征,在Excel中将城市对信息流相对强度与城市对坐标一一对应,利用XY坐标转线的功能将坐标信息和相对强度信息作为属性数据转化为线图层数据。采用自然间断点分级法对线图层数据进行分类,分类按照数据固有的自然组别分类,使得组内差异最小,组间差异最大。

3 京津冀地区城市网络特征分析

3.1 京津冀地区城市网络节点分析

根据式(1)~式(4),分别计算出2012年和2018年京津冀地区13个城市的信息发送量、信息接收量、C值以及D值(见表2)。通过数据可知,2012年和2018年北京的信息发送量、信息接收量、C值和D值在京津冀地区所有城市中处于绝对领先的地位,属于强控制型和强主导型的城市。2012年只有北京、天津、保定和唐山4座城市的C值和D值大于0,说明北京、天津、保定和唐山属于控制型和主导型城市,其余9座城市则属于附属型城市。到2018年,天津的C值和D值变为负值,说明天津由控制型和主导型城市变成被控制型和附属型城市,石家庄、廊坊和刑台的C值和D值变为正值,由被控制型和附属型城市转变成控制型和附属型城市。

表2 2012年和2018年京津冀地区各城市信息发送量、信息接收量、C值以及D值

3.2 京津冀地区各城市百度信息流及其比例变化

根据公式(7)和公式(8),可以获得2012年和2018年京津冀地区各城市信息流强度及其比重变化(见图2和表2)。从2012年到2018年,城市年信息流总量由4 406 056增加到11 295 284,增长率为156.36%。各城市的信息流强度都有大幅度增长,其中北京、天津和石家庄城市信息流强度明显高于其他城市的信息流强度。

图2 2012年和2018年京津冀地区各城市信息流总量及其比重变化

表3 2012年和2018年京津冀地区各城市信息流强度及其比重变化

3.3 京津冀地区城市网络层级特征

利用软件SPSS 26对京津冀地区城市网络进行层级划分,分别将2012年和2018年各城市信息流强度数据导入该软件,使用样本聚类中的组间连接法对导入数据进行分组,使分组达到组内差异化最小和组间差异化最大,并生成对应的谱系图(见图3)。根据谱系图可知,2012年和2018年所有的样本均被分为3类:第1类为北京,第2类包括石家庄、天津,第3类为京津冀地区其余10个城市,最后根据分层聚类的先后顺序将这3类划分为3个层级(见表4)。 根据公式(9),计算出2012年和2018年京津冀地区城市网络变异系数(见表5)。

图3 2012年和2018年组间平均联接谱系图

表4 京津冀地区城市网络层级分布、各层级信息流占比以及各城市排名情况

表5 2012年和2018年京津冀地区城市网络变异系数

从表4中的数据可以看出:2012年和2018年京津冀地区城市网络层级结构没有发生变化,第1层级和第2层级的信息流总量占比有所下降,第3层级的城市信息流总量占比有所增加。2012年和2018年城市排名北京稳居第一,城市网络第1层级始终由北京一座城市独占。和2012年相比,虽然2018年北京市信息流占比下降了4.48%。但是北京市信息流占比维持在整个地区信息流总量的三分之一左右,也充分说明北京市在城市网络中的核心地位没有发生变化。第3层级城市排名有所波动:沧州上升2位,邢台下降1位,张家口下降1位,衡水下降1位,承德上升1位,期间没有第3层级的城市上升到前2层级,也说明了第3层级的城市与前两层级的城市差距较大。但从2012年到2018年第3层级的信息流占比增加了8.08%,说明该层级的城市和其它城市的信息交流强度不断增加。

2012年变异系数为1.127,属于强变异。2018年变异数为0.915,属于中等变异。变异系数呈现下降的趋势,但变异系数值较大,说明京津冀地区城市信息流的离散程度较高,城市间信息流强度差距较大,存在不均衡的现象。

3.4 京津冀地区城市间网络结构特征

根据公式(5)和公式(6),分别构建2012年和2018年京津冀地区城市对信息流相对强度,如表6所示。根据自然间断点分级法,将78个城市对划分为3个等级。第1等级为城市网络的核心结构,其相对强度值区间为[0.3,1]。第2等级为城市网络的主干结构,其相对强度值区间为[0.1,0.3)。第3等级为城市网络的边缘结构,相对强度值区间为(0,0.1)。最后分别绘制出2012年和2018年京津冀地区城市网络骨架结构图、城市网络主干结构图和城市网络结构图(见图4)。

表6 2012年和2018年京津冀地区城市对信息流相对强度及排名

图4 2012年和2018年京津冀地区城市网络不同层级结构对比

2012年和2018年京津冀地区城市网络核心骨架结构没有变动,仍然是北京-天津和北京-石家庄作为城市网络的骨架。北京、天津和石家庄作为城市网络的核心城市,依旧保持对周边的城市信息联系辐射和带动作用。2012年和2018年城市主干网络和城市网络则有所变化,城市主干有4条变为9条,新增的5条分别是北京-张家口、北京-沧州、北京-邯郸、保定-石家庄和石家庄-邯郸。近年来,随着张家口、沧州、邯郸等城市的不断发展,这些城市主动与周边城市信息联系增加较为明显。城市网络的边缘结构的数量由2012年的72条减少到2018年的67条。第3层级的城市同第1、2层级的城市的联系逐渐加强,但是所占城市网络的比重仍然较大,第3层级的城市由于自身城市发展相对落后,与周边的信息联系强度比较薄弱,未能城市网络的主干和骨架结构。

4 结论

(1)从2012年到2018年京津冀地区各城市信息流强度增幅较大,但城市网络层级结构没有发生变化,始终呈现“1+2+10”3个网络层级,即北京为第1层级,天津和石家庄为第2层级,其余10个城市则为第3层级。第1、2层级的信息流占比均有所下降,第3层级的信息流占比增加迅猛。城市主干结构的比重增加,城市边缘结构比重逐渐减少,说明京津冀地区城市网络结构得到不断优化和调整,城市间联系强度不断增强。

(2)京津冀地区城市间的信息网络整体上呈现逐渐紧密的趋势,但是城市网络结构不够均衡。城市网络核心城市始终是北京、天津和石家庄,其余城市信息联系普遍较弱。说明区位优势明显、经济发展水平高的城市,在信息流城市网络中仍处于核心的地位。另外,城市网络边缘结构以及第3层级的城市数量始终所占比重较大,变异系数虽然呈现下降的趋势,但变异系数值较大,同样也说明京津冀地区城市信息流的离散程度较高,城市间信息流强度差距较大,城市网络结构不够均衡,有待进一步合理优化。

猜你喜欢

信息流层级聚类
一种傅里叶域海量数据高速谱聚类方法
科室层级护理质量控制网的实施与探讨
一种改进K-means聚类的近邻传播最大最小距离算法
基于约束逻辑的网络非集中式信息流整合系统设计
军工企业不同层级知识管理研究实践
基于信息流的作战体系网络效能仿真与优化
基于军事力量层级划分的军力对比评估
职务职级并行后,科员可以努力到哪个层级
战区联合作战指挥信息流评价模型
改进K均值聚类算法