产业空间集聚中心引力指数算法的设计及应用<br/>——基于长三角一体化视角的企业微观数据验证

产业空间集聚中心引力指数算法的设计及应用
——基于长三角一体化视角的企业微观数据验证

2020-04-27嵇正龙

统计与信息论坛 2020年3期

嵇正龙，宋宇

(西北大学经济管理学院，陕西西安 710127)

一、问题提出

促进经济增长和发展的政策措施效果在很大程度上取决于经济活动在地理上的空间集聚。长三角一体化、国家中心城市和户籍制度改革等国家战略规划决策，意图进一步促进资源的集聚，形成经济增长的新动能。根据2018年各省市国民经济与社会发展统计公报，长江三角洲地区(沪、苏、浙、皖)在约35.91万平方公里的国土面积上，实现地区生产总值 21.15万亿元，工业增加值 8.83万亿元，常驻人口2.25亿人，分别占全国的3.74%、23.49%、28.95%、16.15%。从国土面积占比与三项经济社会发展的核心指标的全国占比形成的反差，可以看出长三角地区经济活动的空间集聚程度较高。总体来说，长三角地区经济空间集聚慢于人口空间集聚，创新的空间集聚和溢出效应表现出明显的区域内部差异[1]，生产者服务业发展和密集的区域高铁网络等对制造业的空间集聚产生了显著的正向促进作用[2]。

国内关于地区经济空间集聚的测度大多是对传统方法的应用，也有研究文献是利用微观企业层面的数据应用较为前沿的DO指数测度空间集聚特征[3]，而对空间集聚方法本身缺乏更深入的探讨。已有空间集聚衡量方法的发展脉络是怎么样的？有哪些优点和不足？能否设计一个新的衡量方法对已有方法进行有益的补充？为回答这些问题，本文聚焦于经济活动空间集聚衡量新方法的设计。

二、文献回顾

自产业集聚理论发展之初，经济集聚程度的测度方法的研究与应用就成为了经济集聚理论发展的核心组成部分之一。回顾经济集聚测度方法的相关研究成果，主要可以分为基于产业集群的离散空间测度法和基于点对距离的连续空间测度法两类，并有学者对二者的融合做出了探索。总的来说，两类空间集聚程度测度方法共存于现有研究文献中。

(一)基于产业集群的离散空间集聚指数

该类指数，基本沿着马歇尔提出的外部性理论和规模收益递增解释集聚，至关重要的经济集聚的空间特征被简化处理。假设空间由可识别的离散地理单元构成，基于产业集群视角，应用产值或者人口等数据构造集聚度指标，试图将空间维度作为经济变量引入主流分析框架。

早期的研究，由于公司的确切位置数据的获取限制，所有关于经济活动地理集中的研究都使用行政区域的汇总数据来测量空间集聚。这方面的研究有大量的文献，主要涉及区域比较，但公司或研究机构等经济行为主体的实际空间位置无从体现。这类指数以熵指数、赫芬达尔指数、空间基尼系数、泰勒指数、EG指数等为代表，将经济活动空间按照国家或者行政管理区划等分为若干区域，评估经济活动的空间集中程度[4]。其中，EG指数与其他指标不同之处在于，通过构造产业集聚的三因素模型，考虑企业规模总体分布，对基础数据进行处理，然后计算出产业集聚新指标[5]，对集聚判断更为准确。该类指标的优点表现为，基于经济集聚的理论分析，将容易获取的宏观数据或区域经济总量指标，应用简单易懂的公式估计经济集聚程度，尤其是计算量较小。因此，此类指标的应用，不仅在早期的实证研究中较为常见，当前的研究中依然被广泛使用。

但是该类指标忽略了空间因素的关键缺陷也是显而易见的。第一，忽略了空间因素。作为衡量经济活动空间集聚的指标却没有考虑地理距离的影响，而地理距离正是知识溢出的空间局限性来源。尽管技术进步和社会发展了，但是知识溢出仍然受到空间距离的限制。也正是因为简单化的处理，这些指数反映的是某个单元的产业集聚，而非真正意义上的空间集聚，同时缺乏判断一个地区的专门化程度是否存在集群的阈值，被认为更多的是反映专业化的趋势，不能确定集群的空间维度，只能确定专业化程度较高的区域。第二，高估了集聚的作用。由于该类指标反映的是产值在较大的地理尺度上的相对集中，而产值与经济增长等发展指标具有显著的同向性，即具有较强的内生性，难以通过控制变量解决，因此会正向高估集聚程度及其对经济增长的影响。第三，集聚程度受限于区域划分。这类指标所确定的产业集聚程度取决于区域边界的主观划分，即分区边界的位置对观测水平有影响[6]，产生所谓的区域单位可修改问题，简称MAUP问题。理想情况下，应该在连续的空间中进行所有的数据分析，以避免主观的空间单元划分而产生的边界偏差[7]。有些研究假设离散测度的空间集聚程度不受区域排列的影响，尝试将离散测度与自相关测度相结合限制MAUP的作用；有些研究试图通过整合空间集聚程度指数的自相关程度，在一定程度上纠正空间集聚程度结果。前者是试图寻找限制MAUP效应的方法，后者是遵循MAUP的要求，不做任何的空间分区，但都不是很成功[8]。因此，关注地理指标因素，发展新的空间集聚程度指数是非常有必要的。

(二) 基于点对距离的连续空间集聚指数

基于点对距离的连续空间集聚测度方法，假设空间是连续的非均匀状态，不可分割，基于地理空间距离，描述经济活动在空间上不同单元的联合行为所体现的整体分布特征，并借助于经典假设对该分布特征进行统计检验。

随着数据的收集和处理技术的进步，空间经济学的实证研究需要高效利用越来越容易获取的详实的微观数据的新工具。同时，为解决经济学家传统上使用的空间集聚衡量方法和指标存在的缺陷，地理位置信息成为构造衡量集聚程度新指标的重要数据来源。基于距离的方法，利用微观经济数据，将每个企业视为地图上的一个点，并借用所谓的点模式分析方法研究它们的空间分布，其中最具有开创性意义的是使用点对数据的K函数测度聚类[9]，成为后来大部分基于距离衡量经济活动空间集聚指标设计的起点。但是，直到DO指数方法的出现[10]，基于距离的经济活动空间集聚程度的衡量方法才得到迅速推广。DO指数开创性的提出了一种基于公司间距离分布的集聚度量方法，不依赖分区，提供关于所有尺度的集聚分布的信息。DO指数很好的发展了K函数方法，将企业的地理位置信息纳入空间集聚的衡量研究中，应用核密度函数对经济活动的集聚程度做出估计和检验，成为后来同类研究的典范。基于DO指数，相继发展出具有基准的累积指数版本的BT指数；基于K函数的累积密度函数估计的MP指数等代表性方法[11-12]。

上述指数研究利用微观数据，把企业看作是经济空间中无量纲的点。但在经济空间中观察到的点并非无量纲，企业的员工数量、产品、资本等方面具有不同的量纲特征。基于此，利用点过程理论的工具，采用基于模型的方法，使用基于K函数加权版本的指数考虑企业特征指标构建了EGA指数[13]。DO指数以及MP指数和EGA指数都是受到了标记点过程理论的启发，但是只有EGA指数明确地将产业集聚测量与一个确定的统计参数联系起来，可以不使用蒙特卡罗方法来虚拟检验[14]。此外，受到波特的产业集群理论启示，使用公司级聚类指数检测空间聚类进行区域研究，在计算和解释上都不同于现有的基于距离的度量，是识别没有预先确定边界的集群的一种方法，被称为Cluster指数法[15]。

针对上述方法都是计算欧几里德直线距离，无法跨越自然屏障的缺陷，部分研究成果采用了规划距离对上述的一些方法进行了优化。关于距离的测算：有定义并研究了Network K函数，分析沿着街道网络测量的距离；也有考虑现实世界的地理位置，需要道路联结的街道和桥梁穿过的河流形成的路径[16]。点过程的数学性质通常依赖于欧几里德距离，因此总的来说还是欧几里德距离的计算方法较多。

基于距离的集聚程度衡量方法的优点是具有统计理论支撑，能够在全域空间上检测地区所发生显著地理集中或分散的尺度。以DO指数为代表，基于空间距离的指数研究都构造了统计检验，比传统的空间集聚程度测量方法更为稳健，成为了当前基于距离的空间集聚衡量的评估方法的主流和前沿。与基于集群离散空间的衡量方法不同，基于距离的方法不以特定的方式对问题区域进行分区，而是考虑连续空间。与只在单一尺度上描述经济活动位置的测量方法不同，基于距离的方法可以在任意尺度上检测空间结构。

基于点对距离的连续空间集聚指数法，存在企业异质性考察不足、置信区间设置较为随意、集聚程度的具体数值缺乏应用和具体集聚位置不明等缺陷。第一，基于点对的地理距离构建指数，理论上可以考虑企业质量因素做加权处理，但是实际应用中基本都是以未加权的地理距离进行评估。因此，未能体现企业异质性带来的空间距离影响差异。随着经济发展，交通和通信水平都在改善，经济联系越来越紧密，单纯的静态地理距离衡量产业集聚程度却是变化不明显的。空间集聚的异质性还体现在从许多中小企业的高度集聚到几个大企业集聚，或者是一个大企业和许多中小企业聚集在一起，把这种现象称为企业集群和经济活动集群[13]。第二，置信区间的随机选择位置缺乏科学依据，因为每个行业的选址具有不同的真实要求，不同行业位置并不是可以相互替代的，比如机械制造选址要求与化工产业就明显不能替代。第三，除了EGA指数和Cluster指数方法，其他指标由于其设定的评估方法非常理论，加权的计算比较复杂，并依赖函数检验和图形判断集聚情况，而对于集聚程度的具体数值却不重视，因此限制了将集聚程度作为一个重要的经济变量应用于更为广泛和深入的空间经济分析，特别是空间计量的可能性。第四，由于考察的结论是在某个尺度上是否集聚的情况，而对真实的地理空间的集聚位置并未指明，显得模糊不清[15，17]。

此外，该类函数的思想很简单，但主要是受限于计算量的约束。基于距离的方法基本都是数据密集型和计算机依赖型。数据虽然容易得到了，但是算法过于细致导致速度很慢，系统资源占用很高，与基于集群的传统指数相比，正是数据密集型和计算机依赖型限制了基于距离的方法的应用[15]。所有这些函数的计算以及它们各自的置信区间估计非常耗时。计算时间与点的平方数(计算所有对点之间的距离)和零假设的虚拟次数成正比，内存需求与点数的平方成正比，计算中涉及的点的数量取决于函数[18]。最近的发展已经提出大数据集的处理的挑战以及如何处理数据的重要计算需求[15]。

(三)产业集聚和点对距离融合的探索

单纯根据地理位置距离设计的集聚程度指标更多反映的是空间集聚的地理尺度，而我们感兴趣的问题是空间经济活动的集聚程度及其地理位置。实际上，每个公司都有许多经济质量特征(比如员工数量或资本)。利用企业选址概率模型对EG指数修正的研究是最早关于综合集聚和位置的尝试[19]。真正意义上综合权衡集聚和距离的研究是建立一个集聚概率模型，混合使用基于聚类的方法和基于距离的方法，识别产业集聚的空间尺度、空间位置和类型的带状集聚理论[17]。上述关于产业集聚与地理位置融合的各类模型扩展具有极大的创新意义，但是囿于其模型设计的复杂，计算量的庞大，限制了其应用推广，基本没有这些方法推广应用的研究文献。

(四)总体述评

通过对上述两条研究路线的梳理和比较发现，两条研究路线存在较大的差异，各有优劣。第一条研究路线，在按照主观划分地理单元的空间上，基于产值或者就业人数的评估，主要是提供一个数值。该数值更多体现的是专业化水平，而非集聚程度，且与产出等指标存在明显的共线性。由于缺乏阈值进行标准的统计检验，该数值难以做出是否集聚的判断。第二条研究路线，基于微观的地理数据，试图对全域做出判断，并对集聚做出严苛的统计检验，反映的是空间集聚的地理尺度而非具体集聚位置。理论上可以综合考虑就业人员或者产出的加权，但是实际应用中很少做加权处理，原因在于计算的复杂度呈现几何级别的增加。因此，大多是从整体分布角度描述集聚程度的分布，同时对于集中程度指数的不重视也限制了计量分析的应用。因此，综合考虑集群和距离等多种因素，融合企业多维信息的企业活动空间集聚衡量的新方法，符合中国区域发展的差异性和竞争性的实际，也是经济活动空间集聚指标研究的一个有价值的探索方向。

在回顾已有空间集聚衡量研究方法的基础上，本文提出了基于引力模型的产业空间集聚衡量方法，定义为中心引力指数法，即基于企业微观层面数据，综合考虑了企业的地理位置和质量指标，构造相对置信区间做统计检验和设定绝对判断阈值，并追踪产业空间集聚的地理位置动态。本文的主要创新之处在于：将企业的分布看作是多维的立体空间，而不是二维的平面地图分布，考虑了多维分布的聚集问题；试图兼顾基于产值集聚程度衡量的简单易用和基于距离集聚程度衡量方法的统计检验要求；通过产业视角，基于企业的微观地理数据衡量集聚程度，能够对产业的空间集聚程度、空间分布特征以及空间转移过程做出合理的判断和解释，确定产业集聚的空间地理位置。

三、中心引力指数算法设计

本文借鉴已有集聚指数的计算方法，包括基于产业和基于距离两种研究路线，结合引力模型理论，提出衡量经济活动空间集聚的中心引力指数算法。

(一)虚拟中心企业设定

中心企业的设定是中心引力指数核算的关键，也是确定产业空间集聚地理位置的关键。传统的空间集聚程度的测度方法是使用产值或者人口规模考察，缺乏对空间因素尤其是距离的考察。为了修正该缺陷，同时得益于数据获取分析技术的进步，基于距离的方法异军突起。关注地理空间考察，理论上可以兼顾产值和人口等质量因素，但是现实应用却极其罕见，并且对集聚的真实地理空间位置语焉不详。为弥补上述两类方法的缺陷，融合产业集聚和地理距离的研究做出了有益探索，但是受限于公式复杂和计算量的庞大，实际应用较少。因此，综合已有研究成果，基于引力模型，同时考察多个因素，特别是解决集聚的地理位置问题，本文提出了中心引力指数方法。设定中心企业，为空间集聚的地理位置定位提供基础，弥补了DO指数等无法定位的缺陷。具体设定方法如下：

第一步，划定经济集聚核心企业集合。基于距离的经济聚集测度的核心是经济活动的集聚，其次才是空间分布问题。由于全域企业的分布规模大小不一，位置较为分散，因此，经济集聚核心企业集合的选择，更多的侧重于经济活动的集聚，在考察地理距离因素时需避免离群点极端值的影响。假设Z行业中有N家企业，企业的考察指标涵盖多个质量指标，统称为指标集合Xi。按照经济质量Xi指标集合对行业所有企业分别排序，分别取每个指标降序排列中位数以上的企业，共同组成一个企业集合，并剔除重复样本，最后形成一个包含n家企业的经济集聚核心企业集合z。第二步，设定中心企业。此处的中心企业，不仅仅考虑地理位置的中心，还需要考虑经济活动的中心。因此，取经济集聚核心企业集合z的企业各项指标的中位数，作为一个虚拟中心企业的各项对应指标值，同时对各个企业的经纬度坐标取中位数，作为中心企业的地理位置坐标，记为O点，用CO标记虚拟中心企业。

根据上述设定规则，中心企业的各项指标均值计算公式如下：

XO=median(Xi)

(1)

(二)引力模型介绍

1.两点之间简单引力模型

设有两个点，分别为点1和点2，各自的质量(经济分析中可以用人口、产出和GDP等表示)分别为m1和m2，两点之间的距离为d1，2(经济分析中可以是地理距离，也可以是其他具有空间性质的变量)，则两点之间的引力为g1，2，公式表示如下：

(2)

其中φ代表引力系数(1)φ在牛顿引力公式中是常数，但是在做经济分析时，在不同的分析情况下是变化的。。

2.两点之间单因素引力模型一般形式

设有空间点的集合P，共有N个点，任意两点i点和j点之间的引力为：

(3)

其中：α，β和γ是大于0的常数。

3.两点之间多因素引力模型

在经济分析中，往往是由多点组成的空间，也同时考察多个因素共同作用，因此，两点多因素引力模型变得更为复杂。

Gi，j=f(Xi，Xj，Si，j)

(4)

其中：X表示考察的因素的集合；S表示点之间的具有空间性质的向量。假设考察k个因素，那么两点之间引力合计为：

(5)

(三)中心引力指数估计及检验

1.中心引力指数估计

对于有N个企业的Z行业，企业与虚拟中心企业形成N个引力点对关系。一个企业与虚拟中心企业之间形成多因素引力点对关系，中心点对距离记为dO，i。所有因素的中心引力加总，得到该企业的中心引力总值GO，i。

(6)

行业中所有企业的中心引力加总为GZ。

(7)

设定中心企业所在位置为圆心O点，距离r为半径形成一个圆形区域，r∈[mindO，i，maxdO，i]，其中半径r均匀的从圆心O点逐渐延长到最远的企业距离maxdO，i。该圆形区域内的企业组成经济集聚核心区企业集合，记为ZO，所有企业的中心引力值，记为GO。

(8)

行业Z的产业集聚程度，记为CRZ，用经济集聚核心区ZO中的企业中心引力总值GO与行业Z中所有企业的中心引力总值GZ的比值表示。

(9)

2.经济集聚检验

产业是否集聚以及集聚的空间分布特征等，并不能简单的从前述行业空间集聚程度指标的绝对值做出可靠的判断。借鉴已有的空间集聚测度的检验思路，需要设定一个科学的置信区间做统计检验以及集聚判断阈值，并作图分析。基于对产业集聚和分散审慎的判断，本文的检验分两步进行：第一步，根据前述经济核心区面积和行业覆盖区域面积指标估计相对阈值指标，构造置信区间；第二步，提出空间集聚程度的绝对值标准作为判断阈值。检验的原则：只有依次符合上述两步判断，才能确认集聚或者分散。

第一步，关于相对值判断的置信区间设定。假设，核心区域面积记为AO；行业Z覆盖的圆形区域面积，记为AZ；二者的比值，记为μO。此处的μO为集聚与分散的基准值。

(10)

(11)

第二步，关于绝对值判断的阈值设定。集聚与否，不等同于集聚程度，因此需要对不同的集聚程度做出更为细致的判断，便于考察产业的集聚结构特征。本文采用一定的比例将集聚程度分为低度集聚、中度集聚和高度集聚三个等级。本文选定的标准是将0.25和0.75两个分位点作为三个等级划分的临界值。

(12)

四、中心引力指数算法应用

(一)数据整理

中心引力指数算法应用例证，使用的空间范围为长江三角洲地区三省一市，即江苏省、浙江省、安徽省和上海市；研究的对象为制造业(两位标准产业代码SIC13-SIC43)，数据来源《中国工业企业数据库(1998—2013)》中制造业企业微观数据，其中2010年企业质量指标基本缺失，故剔除。根据长三角地区的微观企业数据的实际情况，选择资产总计大于0、固定资产1 000万元以上、年销售额500万元以上、就业人数30人以上，且企业地址相对完整的制造业企业为研究样本。

数据的统计口径和两位数产业代码在2002年和2012年发生两次调整，因此整体数据存在匹配问题。需要进行行业大类名称匹配，而不是简单的代码匹配。数据匹配调整有三种基本法方案：一是前向调整，以1998年统计口径为基准，2003年之后数据做前向调整。二是后向调整，以2012年的统计口径对之前的数据做相应调整。三是以2002年的统计口径为基准做前后向灵活调整。本文以合并数据为首选调整原则，兼顾指标的均衡处理，选择2002年的统计口径为基准做数据匹配处理(2)具体数据匹配调整处理方法以及后续的数据验证、图形分析，有需要的读者，联系作者索取。。烟草制品行业(SIC16)和武器弹药(SIC39)属于特殊行业，故排除在考察范围之外。

研究指标根据前述引力指数算法模型，选取企业地址、工业销售产值、固定资产和资产总计四个指标因素。企业的精准经纬度坐标值是将企业详细地址通过R语言的RCurl包对接高德地图的API接口获取；而虚拟中心企业的地理位置根据经纬度坐标，逆向处理。不同于现有大部分研究使用欧几里得距离，本文应用航海上广泛运用的兰勃特公式计算大圆距离。本文的数据清洗、挖掘和计算是基于R语言3.5.3版本完成。

(二)计算步骤

1.设定中心企业

长三角地区看作一个整体的经济区域，在两位数代码行业层面进行分析。本文根据前述关于中心企业设定的指标的计算方法，按照工业销售产值(Vi)、资产总计(Ti)和固定资产(Fi)三个指标对行业所有企业分别排序，分别取每个指标降序排列大于中位数的企业，共同组成一个企业集合，并剔除重复样本，最后形成一个包含n家企业的核心区域经济集聚企业集合z。中心企业的各项指标由核心区域经济集聚企业集合z中企业的各项指标的中位数得到，即根据式(1)计算。

2.计算中心点对的多因素引力

根据企业的经纬度，应用航海上大圆距离公式计算两点之间的球面距离。假设已知两点经纬度P1(φ1，λ1)和P2(φ2，λ2)，应用兰勃特公式计算大地线长。

(13)

其中，cosσ=sinφ1sinφ2+cosφ1cosφ2cosΔλ；a、c为椭球的长半径和扁率；σ为由地理经纬度求得的球面距离。本文使用R语言Geosphere包中基于兰勃特公式的Distm函数估计点对距离。

根据前述中心引力指数算法的设计方法核算行业的空间集聚程度。引力模型中参数的设定，参考白俊红等关于引力模型参数设定的标准[20]，引力系数φ、引力因素参数α和β都设定为1，γ设定为2。此外，如果企业的地址与中心企业相同，或者非常接近，导致距离极小，将该点对地理距离设定为1千米，以避免出现中心引力极端值对估测的干扰。

3.空间集聚程度与检验估计

根据前述算法设计思路，设定中心企业CO，将半径的起始距离设定为最近的企业距离mindO，i，然后逐渐增加距离，实行逐点统计，连续估计经济空间集聚程度，并同步估计检验标准。为了避免极值的影响和深入结构化分析，本文将距离边界设定为全域企业距离的中位数，选择行业距离的中位数(mediandO，i)为分界点，将距离小于mediandO，i的企业组成考察企业集合，记为ZM，企业所在区域为考察区域，半径记为R。已有的大多数基于距离的集聚指数的估计，对所有的行业设置固定考察距离，忽视了行业差异导致其分布的地理范围不同的特征。因此，本文针对不同的行业以中位数为标准，也就是不同的行业选择了不同的考察距离，符合产业自身的特征。集聚程度记为CRZ，与式(9)类似，用中心区域的企业引力总值(GO)除以局域企业集合的引力总值(GM)得到。

(14)

检验标准使用中心区域的面积(记为AO)与考察面积(记为AM)相比得到。

(15)

4.作图检验分析

最直观的方式是按照前述阈值范围作图。按照式(11)和式(12)比较以判断经济活动集聚还是分散，以及集聚的程度分类。绘图可以直观的判定产业集聚的空间尺度和集聚程度。绘图过程中，将集聚程度使用原值带入，而阈值分别用上限和下限带入构成置信区间。综上，对于产业的集聚与否的判定标准具有绝对标准和相对标准两个检验，只有同时满足两个判定才能对集聚还是分散做出谨慎的断定。

(三)典型行业示例

为了更好地理解中心引力指数法及其结果的评价和应用，选取具有代表性特征的木材加工及竹、藤、棕、草制品业(SIC20)1998年、2002年、2007年和2013年的数据作为示例，从时间上分析空间分布的变化。之所以选择该行业，因为该行业属于传统的制造业，具有劳动密集和原料依赖特征，因此其随着经济的发展会具有明显的集聚和产业转移特征。

1.产业全域分布与虚拟中心转移

产业(SIC20)在研究时间跨度中的空间分布变化，同时表现出集聚程度逐渐提高和集聚的空间转移两个显著特征(见图1)。从图1a到图1d可以看出，随着时间的推移，产业的集聚程度明显提高，表现为图中的黑点所代表的规模以上企业越来越密集。集聚的转移的特征也非常显著，从黑点所形成的簇可以发现，1998年的时候，产业主要集聚在环太湖地区，而到了2013年，产业主要集聚在江苏北部的宿迁地区。

1a 1998年

1b 2002年

1c 2007年

1d 2013年图1 长三角产业(SIC20)全域分布与虚拟中心转移图

根据虚拟中心企业的位置转移，考察产业集聚的空间转移。产业集聚的虚拟中心企业作为衡量集聚的关键，其空间位置不仅是估计产业集聚程度的基础，并且是产业转移地理空间路径的关键标志。随着时间变化，产业发生转移，其集聚中心，也就是虚拟中心企业必然也会发生转移。而中心企业位置的转移正是代表了产业集聚在地理空间上的转移。应用前述数据处理技术，将所观察产业的四个阶段的虚拟中心企业地理经纬度和具体地理位置求解。从图1中虚拟中心企业的地址“⊗”标记的变迁进行分析发现，产业(SIC20)先后从上海到苏州，再到无锡，最后到宿迁的产业转移集聚路径，表明该劳动密集型兼具资源依赖型的传统产业从长三角的经济中心地带向外围转移。虚拟中心企业位置转移分析方法同样适用于其他产业的转移路径的追踪分析。

产业(SIC20)转移的过程经历了单中心集聚，到双中心集聚，再到单中心集聚的完整过程(见图1)。从图1a和图1b可以看出，产业在苏沪杭地区产生集聚；从图1c可以看到，产业在向江苏北部转移，并逐渐形成新集聚，而原来的产业集聚中心依然存在，此时形成了双中心集聚；从图1d可以发现，最终该产业在新的地区形成集聚，回到了单中心集聚。这个集聚转移的单中心到双中心，再到单中心的过程，在中心引力指数法的应用中也将得到验证(见图2c)。

2.产业集聚程度与空间尺度变化

木材加工及竹、藤、棕、草制品业(SIC20)在四个年份中集聚的时间和空间变化基本涵盖了中心引力指数法所要研究的内容(见图2)。在图2中，点线组合的粗线是产业集聚程度；两条虚线是根据面积比设定的置信区间，也就是相对判定标准，上面的是上限，下面的是下限；而0.25和0.75的水平实线是绝对判断指标临界值，用以对集聚程度做绝对值区间划分。遵从前述的判断标准，从图2可以看出：该产业在1998—2013年之间呈现逐渐集聚的特征，可以分为四个阶段。第一阶段，从图2a可以看出，产业呈现低度集聚特征，空间分布尺度在20千米～50千米；第二阶段，从图2b可以看出，产业呈现出中度集聚状态，集聚的空间尺度在50千米～70千米范围，相较于上一阶段，集聚的程度在提高的同时，集聚的空间尺度也在明显扩大；第三阶段，从图2c可以看出，自80千米左右的地方开始呈现高度集聚，空间集聚的地理尺度也扩大到了140千米左右；第四阶段，从图2d可以看出，集聚的空间范围呈现收缩特征，空间集聚的地理尺度在20千米～90千米范围呈现高度集聚。

2a 1998年

2b 2002年

2c 2007年

2d 2013年图2 长三角产业(SIC20)集聚程度与空间尺度图

综合上述四个阶段，从图2a到图2c，我们可以看到该行业从低度集聚到高度集聚状态是一个地理分布逐渐扩大的过程；从图2c到图2d，可以发现在转向高度集聚的时候，地理空间分布的地理尺度又呈现收缩，进一步强化了集聚。具体体现在图2c中的集聚曲线出现了明显的两个拐折，分别在50千米～70千米和80千米～140千米两个空间尺度，表明出现了两个集聚中心。这一点与前述的图1c所变现的双中心集聚现象相吻合，有力地证明了中心引力指数算法在侦测产业的多中心集聚方面是有效的。

(四)长三角地区产业集聚的总体特征

通过对长三角地区两位代码的制造业逐个分析，数据和图形研究都表明该地区制造业表现出高度集聚的特征，并且绝大部分产业集聚都位于环太湖地区，只有少数的传统产业向外围转移，见图3。

3a 1998年

3b 2013年图3 长三角地区制造业1998年与2013年制造业全域分布对比图

产业集聚主要向三个方向转移：比如木材加工及竹、藤、棕、草制品业(SIC20)为代表的传统劳动密集型兼具资源依赖的产业在向长三角北部地区转移；食品加工业(SIC13)从苏州依次转向常州、镇江和南京，即沿长江经济带向西转移；纺织业(SIC17)和皮革制造业(SIC19)从苏锡常地区向湖州和嘉兴地区转移。而其他大部分产业继续在长三角核心地区集聚强化。在研究期间内，集聚的时间趋势较为明显，都是随着时间的推移，集聚程度呈现上升的趋势。即使发生了部分产业的转移，以苏沪杭为中心的长三角核心地区依然是制造业中心。产业不同，集聚的空间尺度存在差异，总体上集聚的空间分布地理尺度在100千米范围内。

五、结论与展望

(一) 总体结论

1.中心引力指数算法是对已有产业空间集聚测度方法的综合权衡和补充。现有空间集聚测度方法大体可以从基于产值和基于距离的两个研究路线分为两类，前者忽略距离，后者所谓的产值加权缺乏实际应用。究其原因，两条路线的研究都是受制于技术，前者受限于数据采集技术，后者受限于计算能力限制。随着技术的进步，出现了一些基于实际距离的考察，但依然处于初步阶段，未能突破运算能力的限制，正是在这样的背景下，本文提出了中心引力指数法，有效综合了现有研究方法的优点，规避了限制。通过融入成熟的引力模型，综合了产值和距离，然后采用中心化方法，设定虚拟中心企业，有效摆脱了运算能力的限制。因此，中心引力指数算法对已有的测度方法是一个可靠的拓展，形成综合权衡和补充。

2.中心引力指数法能够高效测度空间集聚。由于采用较为成熟的引力模型，融合产值和距离，并借鉴了已有测度方法的许多数学处理方法，通过设定虚拟中心企业的做法，在具备坚实的理论基础的同时，极大地简化了数学计算。特别是通过相对指标构造置信区间和绝对指标判断阈值，识别集聚程度并分类，能够有效地对经济活动的空间集聚程度和地理空间分布特征做科学的结构分析。方法的有效性还体现在使用长三角地区的微观企业数据进行验证，表明了中心引力指数法能够有效地测度集聚程度和空间分布特征，准确侦测产业多中心集聚，并能够根据虚拟中心企业的地理位置转移，准确追踪产业集聚的转移。

3.长三角地区制造业集聚和空间分布特征分析。样本数据分析表明，长三角地区的制造业同时呈现集聚和转移两个特征。部分传统产业，特别是劳动密集型和资源依赖型产业在向长三角的外围转移，虚拟中心企业的地理位置清楚表明了主要是向江苏北部、长江中上游和浙江中部三个方向转移。特别强调的是，产业转移而不是发散，转移的过程中集聚程度在逐渐提升，最终在外围的某个地区形成了高水平的集聚。比如江苏北部的木材、南京的食品加工和嘉兴的皮革制造等。苏沪杭核心区的制造业的集聚程度在进一步提高，也就是没有发生转移的产业的集聚程度进一步强化。制造业的集聚基本都经历了集聚程度与地理空间分布同向变化，然后集聚程度提高，地理空间分布收缩的分阶段过程。最终制造业都呈现高度集聚，同时在100千米范围内的空间分布特征。

(二)研究展望

中心引力指数算法能够兼容现有方法的优点，并规避其限制，应用示例效果较好。但是，作为现有研究方法的权衡和融合，是对现有方法的有效补充，而非替代。中心引力指数算法尚存在一些不足，未来的研究可以从以下几个方面拓展。

1.关于引力模型本身的拓展。本文所引入的引力模型是较为基本的模型，而且考察的企业的质量指标都是产值相关，而对于就业规模、技术水平和财税贡献等指标并未考察。而这些指标对于产业的集聚也非常关键，因此对于能够融合更多因素，全面反映产业集聚影响因素的引力模型的拓展，将对中心引力指数算法的完善产生根本性的影响。

2.关于企业之间引力考察不足。中心引力指数算法，顾名思义，是围绕着现实企业和虚拟中心企业之间的引力做出的产业集聚测度。而产业集聚是全体企业之间产生的综合的关系，而不是单一的一对企业的关系，也就是所有点对之间的引力。这正是中心引力指数算法为了简化计算而产生的效率损失。关于点对企业的引力计算量将是极其庞大的，但是其衡量集聚程度更为精确。

3.关于多中心集聚的识别问题。中心引力算法具有一个先天的缺陷，那就是假定了产业是单中心集聚。而事实上有不少产业是多中心集聚，尤其是产业在转移的过程中，必然有一个多中心集聚的过程。如果能够应用诸如核密度或者泊松分布等统计检验工具对多中心集聚进行识别和侦测，结果会更为精准。这应该是完善中心引力指数算法的一个拓展方向。