时空计量分析的框架研究
2016-03-19叶信岳
叶信岳
(美国肯特州立大学 计算社会科学实验室,俄亥俄州 44240)
时空计量分析的框架研究
叶信岳
(美国肯特州立大学 计算社会科学实验室,俄亥俄州 44240)
推动科学研究设计的应该是研究问题。大多数实证研究是由某些明确界定的研究问题激发出来的。因此,研究者总是寻找合适的分析方法和适合于该方法的研究数据。研究分析解释和成果评估则往往在研究的最后阶段才进行。然而,传统的研究方法在揭示地理的时空现象上并不是非常有用,尤其是在处理一些新的、大量的和复杂的时空数据库时。正如经济现象的时间和空间耦合属性难以去表达与检视,GIS与经济地理面临着同样的挑战: 即如何在跨尺度与跨维度的层面来处理地理过程的时间演变动态,以及经济发展过程的空间演化动态。为此,需要新的方法来概括时空经济数据的特征与结构。动态GIS将为认清某些演变模式提供分析工具,并通过动态模拟实现对未来变化的预测。GIS与经济地理在处理跨尺度和维度的地理过程时间动态与经济发展空间动态方面面临着挑战。耦合了空间和时间属性的经济现象集成了空间、时间属性, 在单一数据集下很难表达与检视。我们可以利用多种类型的跨尺度与跨维度分析单元来一般化时空经济数据集的特征和结构。这些分析单元发挥类似建筑街区的作用,用于构建表达经济世界的时空系统。为此,经济数据分析可系统地抽象,在此基础上可以开发出相应的分析工具。
区域差异研究向来是地理学关注的热点问题之一,众多的学者从不同角度提出了诸多区域差异测度方法,包括非时空测度方法、时间序列测度方法、空间测度方法和时空测度方法。纵观已有研究发现,发展于主流社会科学学科的方法在应用时,很少关注到空间自相关造成的潜在挑战,更别说在多尺度随时间推移的空间效应。所以,随着区域差异研究的不断深入,构建一个能发掘空间、时间和经济属性相互作用的区域差异分析框架已十分必要。若要发展一套更为明确的空间增长理论,首先必须有一套可操作的测量方法来捕捉隐含在区域数据集中的空间动态特征。将工具、数据模型和软件进行有效的整合是今后区域差异分析方法的研究方向。换言之,开发该工具有利于更好地理解时空经济系统, 发现该系统的多层依赖和异质性。该框架能够在更好的尺度和维度水平上,有助于动态GIS揭示经济现象的时空动态。此外,若失去时空计量工具和空间经济学之间的相互裨益,时空计量将仅局限为一项技术,而不是对经济发展问题的一个解决方案。时空计量分析流程和与经济增长相关的特定知识,共同决定适宜工具和方法的选择。
空间模式与其时间是相关联的,调查研究这一空间结构转变和更改的过程,应该理解时空数据库。因此,在构思一个新的研究问题之前,分析者应该熟悉数据情况。熟悉数据的过程就是探索性数据分析的基础。
探索性数据分析用于交互式地提出假设。在探索性数据分析的框架结构下,探索性空间数据分析被定义为发现数据中的空间模式,根据地理数据提出系统假设,评估空间模型。它是一系列旨在描述和观察空间分布的技术,这些技术识别空间特异值,探索空间关联、集群或热点地区的模式,识别空间体制或其他的空间异质性形式。大量证据阐明空间依赖性和异质性,往往是规则而不是例外。探索性空间数据分析,能够揭示其他方法所无法确定的复杂的空间现象,它也为系统化阐述新颖的研究问题奠定了基础。
与此同时,人们在经济收敛和差异的研究中,越来越意识到空间的重要性。空间概念在自然科学和社会科学中的转变,是要将地理信息引入到这些领域的概念框架并进行应用。随着世界经济、社会和政治领域的日益全球化,导致进一步研究区域现象的兴趣加深。然而,近期的区域经济学研究成果受到批评,因现存的经济和区域发展理论,不能完全解释在实证研究中遇到的空间模式的丰富细节。在增长与收敛的常规理论模型中集成时空因素,是可靠政策建议的先决条件,有助于规划制定和评估区域政策。目前,经济增长分析中的时空关系开始受到关注。然而,经济增长的研究结果,通常在一个相同的经济体系内表现出差异,甚至相互矛盾,因为经济发展是一个多空间多尺度的现象。举世瞩目的中国经济成就背后的区域差异问题日益引起人们的关注与重视。中国地域辽阔,空间跨度大,自然禀赋和经济社会发展条件迥异。改革开放后,在市场经济作用下,具备良好的发展条件和政策的区域实现快速发展,并在报酬递增机制的作用下,出现了强者愈强、弱者愈弱的沿海与内陆、东部与中西部、城市与乡村的区域差异格局。国内外实践已经证明,过大的区域差异会降低经济增长产生的福利,产生一系列的社会问题,进而阻碍经济持续健康发展。因此,缩小区域差异,实现协调可持续的经济增长,是当前中国发展的重要任务。
随着人们对空间因素的重视程度越来越高,对区域差异的研究方法越来越倾向于由时间差异向空间、时空差异转变,融合时间、空间和其他属性于一体成为重要趋势。回顾已有研究可以发现,众多学者从不同尺度,运用不同方法对区域差异进行研究得出了分歧较大的结论,可见研究方法对最终的研究结果有较大的影响。空间计量经济学,强调空间依赖和空间尺度在分析区域经济收入分布动态中的重要作用。一系列的探索性空间数据分析技术已经应用在区域收入分配的研究中。马尔科夫链方法记载了时空数据的趋势稳定性、形态和等级变动等方面。为了理解时空在经济现象中的作用,很多新颖的数据分析和可视化方法正在日益凸显出其价值,尤其是在分析分配稀缺资源方面。显然,时空关系日益成为我们理解经济发展的视角,新的研究方法需要真正地整合时间和空间。时空方法可以通过空间依赖结合演变,或者通过延伸静态的空间到一个动态的环境。因此,拥有一个可以完全探索空间、时间和跨尺度经济属性之间相互关系的框架,以及构建一个能够引导时空计量分析设计的研究问题系统都是非常有价值的。
在很多学科中,研究人员要求比较和对比两个事物,比如两个理论,两个时间趋势,两个空间过程等等。探索两个地区之间的共性或者两组区域的差异性是有意义的,这能够提炼出一些重要的研究问题。这种研究兴趣跨越了各种各样的学科。面对一系列棘手的差异性和相似性,需要设计的研究问题更加具有逻辑和全面。研究者和政策制定者通过对比分析,能够更好地理解不同的经济发展机制和政策的实施方案。此外,经济发展是一个多尺度现象,因为一个尺度的分布特征可能会影响到另一个尺度中的分布。
尽管大量概念框架强调收入分配过程的空间动态与不公平,但实证研究与经济增长模型之间的差距仍在扩大。很多基于增长理论的经济计量模型,并不能合理地解析数据的动态空间效应。因此,最为关键的是在假设检验之前系统地理解数据。值得注意的是,数据收集过程同样是基于我们对系统的理解和假设。然而,分析单元与观察单元的定义应该区别开来,以便表征时空数据的结构。
分析单元是研究中被分析的主要实体,而观察单元是数据收集与报告的基本实体。分析对象是被研究者设计出来的。然而,观察主体由数据收集的方法所决定,并不能由研究者完全控制。大多数研究并不区分二者之间的差别。虽然有时将产生一些问题,但认识这一差别对于比较时空分析框架是非常重要的,主要原因在于分析单元涉及尺度问题以及数据聚合,在展开数据分析任务时非常有用。不同的空间区划方案导致不同的分析单元类型,反过来生成审视相同数据的不同视角。因此,在形成研究问题之前,考虑所有可能的空间视角是有价值的。同时,值得注意的是所有的时间配置也需要考虑进来。当空间和时间分划方案均考虑以后,便生成了很多类型的分析单元。例如,失业问题可以在县级尺度利用月度数据进行分析,也可以在州级尺度用年度数据分析,再或者在任何其他空间区划和时间片段上进行分析。
为了揭示这些关系,空间、时间与属性的分布应该作为度量所在的背景因素处理,而不是仅仅设定某个单一的空间或时间作为背景因素。空间的分布(空间维度)指代属性的空间分布,而属性的分布(统计分布维度)指对属性的安排处理,展示它们观察的或理论的发生频率。此外,时间的分布(时间维度)表示的是属性的时间动态趋势。美国加利福尼亚州1970年的人均收入可以映射到空间分布上的某个地区,时间趋势上的某个时间点,以及统计分布上的某个位置。同样,亚利桑那州的人均收入也可以从这三个维度上审视。值得注意的是,相邻的加利福尼亚州与亚利桑那州(空间关系)在统计分布上的位置相差甚远。从时间角度来看,加利福尼亚州1970年的收入位于经济萧条的某个时间点,而亚利桑那州在同年记录了较高的经济增长。如果这些分布不作为两个收入的背景因素,也就无法发现二者之间的相似与差别。通过总结这些现象,可以生成数据分析的任务清单。换言之,如果忽略参考系与属性之间的关系,很多有趣的研究问题将无法深入下去。
除了维度,尺度问题的认知也十分重要。在此考虑四个尺度:个体尺度、局部尺度、中等尺度和全局尺度。个体尺度上的分析单元表示属性的地理位置,属性的时间标签或属性等级。换言之,个体尺度的分析单元并没有将观察对象之间的任何关系考虑进去。局部尺度的分析单元对一组单元进行探索,这些单元由聚焦对象及其邻域对象在某一个维度上形成。例如,在局部尺度上,聚焦州及其邻域州从空间维度(分布)的视角可认为是一个分析单元;聚焦年份以及相邻的前一年和后一年从时间维度可视为一个分析单元;聚焦等级及其紧邻的较高和较低级别从统计维度可视为一个分析单元。研究者可灵活定义哪些观察对象可作为聚焦观察对象在空间、时间和统计分布上的邻域。例如,可使用各种类型的空间权重矩阵来定义聚焦观察对象的空间邻域单元。
中等尺度与局部尺度一样,都是用来处理观察对象的某个子集。中等尺度分析研究的是在空间、时间以及统计分布上具有相似特征的一组实体。换言之,局部尺度分析与中等尺度分析的差别在于获取时空数据的方式不同。前者强调数据集中的其他元素与聚焦对象相近,而后者在数据集中根本不存在聚焦元素。此外,后者的分析单元通常较前者具有更大的数据集合(空间范围更广或时间跨度更长)。例如,从空间维度视角,富裕州的空间分布在中等尺度上可看作是一个分析单元;从统计维度视角,收入落入同一个四分位范围的州在中等尺度上可视为一个分析单元。正如上面三个实例所阐释的那样,中等尺度从观察对象的范围角度,可看作是介于局部尺度和全局尺度之间的一个尺度。
在全局尺度上的分析则是对所有区域、时间和属性的全面检视。例如,在全局尺度上,所有收入的空间分布是基于空间维度视角的分析单元;所有年份是基于时间维度的分析单元(时空动态研究对初年和终年的选取非常敏感);所有收入的统计分布可视为基于统计维度的分析单元。若仅局限于这些维度和尺度中的某一个,将导致对经济增长动态理解的偏颇。探索式数据分析可概括为三个步骤:综览、缩放与过滤,按需进行细节分析。在第一步,分析者必须对整个数据进行全面浏览,也即所指的全局尺度方法。在第二步,分析者对关注对象进行缩放,也即所指的中等尺度方法。在第三步,分析者选取某个对象及(或)其周围邻域对象进行更为详细的检视,也即所指的局部尺度或个体尺度方法。值得注意的是这一过程是循环迭代的,分析者可随时不断地回到上一步骤。
空间数据分析、时间数据分析以及概率分布分析,是时空数据的三个基本的分析方法。因此,将三个维度与四种尺度结合可以概念化为12个基本的分析单元。时空数据的这一分析视角有助于描述某些经济活动模式,如发生于跨尺度的地理空间溢出现象,可能比传统的宏观经济要素具有更高的显著性。通过识别分析单元,可建立一般的任务类型分类。这一框架可生成一个全面的研究问题清单。 这一框架同样可用于土地利用变化的元胞自动机建模中,跨尺度空间维度可明确用于检验各种构建邻域形成规则的情景,而跨尺度的时间维度将可很好地抽象为土地利用变化的生命周期。此外,属性可用作不同发展阶段的阈值(不同尺度统计分布)。
通过各种交互进行模式探索,而这些视图彼此动态集成,由此产生动态空间数据分析的第二层意义(第一层意思是将时间引入空间数据分析)。本框架所建议的尺度与维度丰富了交互与视图的形式。在全局尺度上,网络方法将经济增长协方差矩阵在单一地图上进行可视化。该协方差矩阵反映了每个州(省)收入动态之间协方差的矩阵形式。协方差提供了对两两收入集合之间相关强度的量度。这一成对的时态协方差可利用网络方法进行地理表达。以每个区域为中心,它们之间的连边(协方差联系)是基于预定义的空间权重矩阵画出的。协方差联系受两个相邻空间单元间的时态协方差强度的制约。当两接壤区域的收入时间序列协方差高于全国平均水平,则定义这两个区域在时间动态上相似(具有强烈的时态联系)。当两个收入时间动态相似,则意味着在两个区域之间可能存在某种类型的经济交互。
一旦知道了任意两个区域之间的协方差,即可测度每个两两“区域对”之间的时态联系强度。该方法通过引入空间组件对收入的时间动态进行展示。更具体地说,该网络图识别出了区域之间相似与不同的经济增长趋势。当一个经济体与所有空间邻域具有较强的时态联系(表现出相似的时间动态),那么对该聚焦区域来说可能存在非常强的时空一体化。此外,不同的相关水平也可被可视化,其将截面关系更明确地识别出来。在中等尺度上,一组区域的空间特性可通过利用凸包描绘点集“形状”的方法进行汇总。例如,基于一组贫穷区域的凸包研究,可用于总结这些区域的空间分布。此外,这些凸包的时间稳定性可能反映了某种隐蔽的空间扩散或交互过程,其可通过探测凸包大小、紧密度和位置的改变发现。蛛网图明确反映了某一区域与其他所有区域系统之间收入的时态协方差,反映了每个区域与其各自国家系统之间可能的经济一体化。该图识别出与其共享同一动态特征的特定区域。这些联系均由连接聚焦区域与相似区域之间的连线显示出来。
在局部尺度上,LISA是检验局部自相关的一个指标。将该局部空间依赖的静态试图扩展到动态环境背景下,LISA的时间路径图描绘了聚焦单元收入值与其空间滞后(聚焦单元一阶邻域均值)随时间的成对移动现象。LISA时间路径也可视为Markov转移矩阵的连续表达。多尺度多维度框架可揭示某些很难发现的隐藏时空模式。因此,这一框架为探索具有时间和空间维度的数据提供了一个理想和强大的环境。在全局尺度上有证据表明从收入的空间动态来看,美国比中国的一体化更加明显。然而,宏观结构通常可以掩盖细节尺度上的大量波动现象。美国和中国所有州(省)的LISA时间路径表明,中国具有更为分散的空间动态,可能意味着中国存在各种不同的经济发展模式。研究者可进一步确定哪些省份可能存在和其他经济单元完全不同的经济发展路径,以及这一差异的程度有多大。在个体尺度上,某一特定州(省)可能沿统计分布上下移动。在局部尺度上,聚焦区域可能具有与周边区域不同的经济发展速度。在中等尺度上,某些统计分布区间可能反映了空间过程随时间而变化的有趣现象。
很多社会经济系统包含大量跨尺度的交互要素。这些系统的现实表达,以及这些交互的严格定量分析是人类理解世界的重要努力的一部分。比较时空框架通过结合空间——时间——统计分布与个体——局部——中等——全局尺度,可以发展出一个通用任务结构。
时空计量分析与空间经济学在以下进程中可互相裨益:首先,分析者出于特定原因研究不同的经济发展问题,既可以表述为一个一般问题,也可以表述为一个一般问题集。其次,将分析的本质与数据集的任务拓扑结构进行比对。第三,分析者选出配对的任务并从中查出有趣且与分析相关的东西。第四,新奇且更为具体的问题脱颖而出,这些问题激励分析者寻找更多的细节,也影响着哪些细节将被审视以及以哪种方式进行审视。最后,修改步骤一提出的一般问题,分析者再次重复上面的步骤。因此,这一工作流程将促进跨学科的研究。
这一时空框架为当前经济收敛和收入不均研究做出贡献,后者缺少系统的比较时空研究。尽管该比较框架在本研究中仅分析了收入分布动态,但是它同样可用于更广的具有跨地区单元与多时间片段上度量的地理索引数据的社会经济过程中,例如犯罪率动态、房产市场动态等。换言之,该框架与选取的展示工具可直接用于具有离散对象概念化的学科和主题。这是一个包含大多社会科学学科的广阔领域,其数据集越来越具有空间和时间足迹特征。同样,针对时空数据和分析任务设计出的可操作的分类法可能对数据分析者和不同特定领域的用户均会有所帮助,用以预测可能从数据探索中产生的典型问题。
实际上,我们见证了空间时代在我们面前展开,地理空间信息和观点在个人和集体水平的决策中不可或缺。世界上的许多挑战性问题,如全球经济危机、贫困问题、全球变暖等,如果不通过地理方法,就得不到解决。 从这个意义上来说,空间时代的到来是一场革命。这意味着地理学的运用方面,只要敢想,就能做到,这是我们的历史中前所未有的。在地理动态背景下,地理信息科学关注工具、数据模型、软件与其他有助于动态现象分析和建模的资源,通过系统地设计数据分析任务与研究问题,来集成“工具、数据模型、软件”。比较时空分析的目的在于提出研究问题,在一个数据集中以及跨越两个数据集对时空模式与趋势进行比较。该框架可为进一步研究提供一个有用的平台,对地理动态进行描述、理解与预测。
责任编辑 彭国胜 英文审校 孟俊一
2016-10-12
国家社科基金重大项目“大数据时代计算社会科学的产生、现状与发展前景研究”(16ZDA086)的阶段性成果。
叶信岳(1974-),男,浙江端安人,美国肯特州立大学计算社会科学实验室创始主任,地理系副教授,博士生导师,国际华人地理信息科学学会主席。研究方向:时空分析与大数据方法。