地理大数据挖掘研究进展与挑战
2022-08-12刘耀林刘启亮
刘耀林,刘启亮,邓 敏,石 岩
1. 武汉大学资源与环境学院,湖北 武汉 430079; 2. 中南大学地球科学与信息物理学院,湖南 长沙 410083
近20年来,伴随着传感器技术与移动定位技术的飞速发展,人类对地表系统的刻画能力空前提升,地理学研究已经进入大数据时代[1-2]。地理大数据主要分为两类[3]:①对地观测大数据,对地观测能力的不断进步使得我们对自然界各种要素的描述越来越全面、越来越精细,各种遥感、观测台站数据不仅能够详细刻画地理环境,夜光遥感等数据还蕴含了丰富的社会经济活动信息[4-5]。②人类行为大数据,传感网络的发展使得“人人都是传感器”,志愿者定位数据、浮动车行驶轨迹、移动终端定位与通信记录数据、社交网络签到数据、公交IC卡和自行车租赁信息等从社会生活的方方面面记录了大量个体粒度的人类活动信息[6-7]。全面涵盖人类活动与地理环境信息的地理大数据突破了传统目的性采样数据(或“小数据”)在数据范围、时空粒度与信息内涵等方面的局限,为更全面认识“人-地”关系提供了新的机遇[8-9]。地理大数据在推动科技进步与社会经济发展等方面的巨大价值已经引起了各国政府、工业界及学术界的广泛关注[10]。美国、英国等国家相继将大数据列为战略性技术,我国也已明确做出加快国家大数据战略发展的重要部署。谷歌、微软、华为、阿里等重要高技术企业一直在积极推动大数据产业发展。《Nature》和《Science》也分别在2008年和2011年组织专刊探讨大数据学术研究[11-12]。
地理大数据实现大价值的关键在于数据分析和挖掘[13]。当前,来自地理信息科学、信息科学及复杂系统领域的诸多学者已经针对地理大数据分析和挖掘开展了大量的研究,一些重要的成果相继涌现,如采用搜索引擎数据预测流感暴发[14]、采用手机数据预测人类行为[15]和制定新冠疫情防控措施[16]等;一些新的地理大数据分析和挖掘概念被相继提出,如社会感知计算(socially aware computing)[17]、城市计算(urban computing)[18]、社会感知(social sensing)[19]等。经过20多年的发展,地理大数据挖掘已经由一个新生概念逐渐成长发展,在智慧城市[20]、交通管控[21]、公共安全[22]、环境保护[23]、气候变化[24]、流行病防控[16]、矿产资源勘查[25]等领域发挥了重要价值。在取得这些进展的同时,也需要我们进一步思考:地理大数据为数据挖掘带来了哪些新的机遇和挑战?地理大数据挖掘方法相比传统的空间数据挖掘方法到底有哪些独特性?未来地理大数据挖掘需要突破哪些关键问题?本文尝试从3个方面回答上述问题:首先,从地理大数据的特点出发对地理大数据挖掘的独特性与继承性进行剖析;然后,对当前代表性的地理大数据挖掘方法与应用案例进行分类和评述;最后,对地理大数据挖掘未来的发展方向进行展望。
1 地理大数据挖掘的变与不变
地理大数据挖掘面临的挑战和机遇本质上是由于地理大数据具有与传统目的性采样“小数据”不同的独有特征。通常认为大数据具有“5V”特征[26],即海量(volume)、更新速度快(velocity)、多样性(variety)、价值密度低(value)和真实性差(veracity)。实际上,上述“5V”特征自20世纪90年代提出空间数据挖掘的概念以来,也被认为是空间数据的重要特征[27]。地理大数据真正区别于传统空间数据的特征是什么?笔者认为其关键区别体现在采集手段、信息内涵与尺度特征3个方面(表1)。
表1 地理大数据与传统空间数据的区别
1.1 地理大数据的特殊性
与传统空间数据相比,地理大数据的采集由专业化走向大众化。传统空间数据或“小数据”一般是专业人员针对具体的地理现象或应用目的,设计专门的数据采集方法(如抽样框架)[28]。这些数据的采集精度、代表性和可靠性具有严格的控制标准,可以直接反映地理现象的特征[9]。地理大数据的提供者不仅包括测绘地理信息领域专业人员,还包括大量的非专业机构和人员。这些非专业机构提供的地理大数据往往是其主营业务的副产品,并不能保证(往往也不关心)数据采集的精度、代表性和可靠性[29]。例如:出租车轨迹数据由于GPS定位误差、车辆运营及高层建筑的影响,其大量轨迹点偏离城市道路且不同行驶方向轨迹点交错混杂[30];微博的用户中46岁以上的人群比例极低,且女性用户比例更高[31];搜索引擎中搜索“流感”关键词的用户并不一定已经患上流感[32]。地理大数据中包含的这些缺乏质量控制与抽样设计的成分,对传统针对“小数据”设计的挖掘方法提出了挑战[33]。
相比传统空间数据,地理大数据的内涵更加丰富,尤其是包含了大量的人类活动信息。传统空间数据更多关注地表自然地理要素,海量的对地观测数据与观测台站数据可以对地表物理空间进行较好地反映,但是人类活动信息较为缺乏,难以全面刻画地理学核心的“人-地”关系问题[19]。例如:城市土地利用是人类活动的综合体,以往多是采用遥感影像进行土地利用分类,这种方法仅考虑了土地利用的物理特征,而难以估计人类活动的社会经济属性,导致一些无人居住的“鬼城”仍然会被识别为住宅区[34]。大数据时代,手机信令、公交/地铁智能卡数据、车辆轨迹数据等新兴地理大数据蕴含了丰富的人类活动信息,可以从更全面的视角探索“人-地”关系[3]。例如:手机信令数据在新冠疫情防控和流调中发挥了重要的作用[35]。
地理大数据与传统空间数据相比,具有更精细的尺度。地理大数据的尺度也可以用一组参数进行描述,如分辨率、范围等[36]。地理大数据具有更加精细的时空分辨率。例如传统的人口调查数据通常是以人口普查小区为基本单元,数据更新时间以年为单位,而采用手机信令数据几乎可以估计城市中每个个体的位置,时间分辨率以分钟为单位[37]。地理大数据具有更广的时空范围。针对传统空间数据而言,虽然遥感数据可以对地表进行大范围的观测,但是涉及人类社会经济属性的数据,由于采集成本与采集能力的限制,往往难以进行大范围的观测。例如传统的城市居民出行数据多是采用问卷调查的形式,难以进行大范围的人类出行规律识别,而当前百度人口迁徙数据(https:∥qianxi.baidu.com/)与腾讯提供的用户定位信息(https:∥heat.qq.com/bigdata/index.htm)等数据可以反映全国范围的人口活动及流动模式,可以从更加宏观的视角探索“人-地”关系。
1.2 地理大数据挖掘的继承性
虽然地理大数据的独特性对地理大数据挖掘方法提出了新的挑战,但是地理大数据挖掘方法与起源于计量地理学革命时期的空间统计分析方法及20世纪90年代以来的空间数据挖掘方法具有继承和发展的关系。笔者认为,与空间数据挖掘相比,现有地理大数据挖掘的根本任务与挖掘方法的设计思路仍然具有明显的继承性。
地理大数据挖掘与空间数据挖掘的任务和内容是基本相同的。针对挖掘的目的而言,二者都是希望发现数据中隐含的、未知的、潜在有用的模式或知识。这些挖掘结果本质上是为了辅助对地理现象时空格局、关联关系和演化过程的理解[38]。针对挖掘内容而言,对于时空格局的挖掘,二者都是采用聚类分析与异常探测的方法发现时空分布的规律性与例外性;对于关联关系的挖掘,二者均是采用关联规则挖掘、回归分析等方法发现地理变量间定性与定量的联系;对于演化过程挖掘,二者均是采用统计方法或神经网络的方法,依据历史数据和/或外部影响变量间的联系,对地理现象未来的发展变化状态进行预测。
地理大数据挖掘方法与空间数据挖掘方法的设计思路是基本相同的。就挖掘方法而言,二者主要还是依赖聚类分析、异常探测、关联规则挖掘、机器学习等方法。就聚类分析而言,地理大数据聚类对簇的认知没有发生改变,仍然是基于中心的簇、基于连接的簇和基于密度的簇3种类型[39];针对异常探测方法,全局异常、局部异常、背景异常的认识在地理大数据异常探测中仍然适用[40];地理大数据关联规则挖掘方法的设计仍是基于频繁度与邻近性的思想[41]。地理大数据挖掘方法与空间数据挖掘方法的主要设计难点都是针对时空相关性、异质性及尺度依赖性的建模[42-44]。
2 地理大数据挖掘研究进展
地理大数据的特殊性为地理大数据挖掘带来了新的机遇与挑战。本文将主要针对地理大数据挖掘方法、应用及软件的研究进展进行回顾。
2.1 地理大数据挖掘方法研究
虽然地理大数据的任务、内容及方法设计继承了空间数据挖掘的研究成果,但是由于地理大数据的独特性,近年来国内外学者已经在空间数据挖掘的基础上,发展了一系列针对性的地理大数据挖掘方法。下面将针对地理大数据聚类分析、异常探测、关联关系挖掘及预测建模的主要进展进行分析和总结。
2.1.1 地理大数据聚类分析
地理大数据聚类分析旨在依据地理实体间的相似性,将地理实体划分为一系列内部相似、外部相异的簇结构。地理大数据聚类是发现地理时空格局的重要手段。当前地理大数据聚类分析方法主要还是分为3种类型[45]:划分的方法(簇可以用其中心表示,且簇内实体与簇的中心尽可能接近,而尽可能远离其他簇的中心)、层次的方法(簇由实体通过相互间的邻近关系构成)及基于密度的方法(簇被定义为被低密度区域分隔的连通高密度区域)。地理大数据聚类分析在3个方面具有新的变化:①新的聚类特征。人类移动轨迹、手机信令等数据蕴含的人类互动特征需要一定的特征表征方法进行量化,当前学者们已经从出行OD数据中构造了不同类型的特征向量进行聚类分析[46-47],能够更好地发现人类活动的时空分异特征,可以从人类活动的视角对从城市空间结构进行认知和反演;也有一些学者采用矩阵分解、词嵌入等方法发现人类活动的隐含特征[48-49]。②流数据的聚类分析。地理流描述了两个空间位置间的人流活动、物质交换等信息,改变了以距离度量空间相关性的传统认知(例如两个很远的地点,如果二者人流联系紧密也可能具有较高的相关性)[50-51]。近年来学者们针对流数据的距离度量、密度定义开展了大量的研究工作,并拓展了当前局部空间相关性统计量、层次聚类和基于密度的聚类方法,发展了一系列针对聚合流数据和单个流数据的聚类方法[52-58]。流数据的聚类分析能够定量化地描述人群移动模式的时空分布规律,有利于深入理解人群移动行为与城市空间结构的耦合关系[59-60]。图1展示了采用共享邻近密度聚类方法[58]发现的北京市出租车OD流在早高峰的聚类模式,可以清晰发现不同区域间的强交互作用及OD流的聚散模式。③空间嵌入图的聚类分析。地理单元之间通过人流、物流、信息流体现出的交互作用构成了一种空间嵌入图(节点为地理单元,节点间边的权重表示了空间交互的强度)。空间嵌入图聚类旨在发现空间嵌入图中联系紧密的子图结构(或空间社团),对于城市空间结构理解具有重要价值[61]。当前兴起于复杂网络领域的社团检测方法[62-63]已被拓展应用于空间嵌入图聚类,其主要工作集中于如何在聚类过程中考虑空间相关性(如在聚类过程中施加空间邻近性约束[64-66]或在聚类目标函数中建模空间衰减效应[67-68])。近年来,在聚类分析中融入先验知识亦开始引起国内外学者的注意,一些研究开始尝试借助知识图谱表达领域知识,并建模于聚类模型之中[69]。融入先验知识的聚类模型更有利于发现数据驱动模型难以发现的聚集模式[70],是未来地理大数据聚类分析研究的一个重要方向。
图1 北京市五环内2016年5月23日早高峰(8:00—10:00)出租车OD流聚类分析[58]
2.1.2 地理大数据异常探测
地理大数据异常探测旨在发现非观测误差导致的、偏离整体或局部分布特征的少部分地理实体。当前的地理大数据异常探测方法仍主要分为3种类型[40],即全局的方法(发现偏离全体数据分布的异常数据)、局部的方法(发现偏离局部数据分布的异常数据)及考虑背景信息(发现违背已知常识的异常数据)的方法。传统的空间数据异常探测主要是针对时空位置信息与专题属性信息的异常数据识别[71-72]。地理大数据异常探测将位空间邻近性度量的概念扩展至“动态流空间”与“多维场景空间”[50,73],从地理流过程相似性、地理场景综合相似性等多视角刻画地理实体在演化过程中的突变程度。地理大数据异常探测在3个方面具有新的变化:①在移动对象几何形态、行为特征等变量的相似性约束下,探测移动对象在时空演化过程中表现出的异常行为或属性状态。例如:时空轨迹大数据中的离群对象与异常移动行为[74-75]、空间交互出行流异常载荷与流量热点[76-77]等。②在移动对象动态演化过程相似性条件约束下(如车辆时空可达约束、人群移动强度相似性约束等),发现呈现出的稀有分异格局或发展态势[78-81]。③在高时空分辨率地理大数据支持下,土地利用信息、城市景观分布、水土气污染分布、人类行为活动等复杂地理过程被抽象为随时间持续动态变化的流数据,多元地理要素的关联性可以在异常识别过程中被定量建模,提升了异常识别准确性与可解释性[82-84]。例如:集成多源人群移动数据中的异常活动信息可以有效增强对人类活动异常信号的表征能力,提升异常识别的灵敏度。
2.1.3 地理大数据关联关系挖掘
地理大数据关联关系挖掘旨在定量或定性地发现地理实体间的联系。回归分析是地理大数据关联关系定量挖掘的代表性方法,近年来学者们在如何建模时空相关性、异质性与变量间非线性关系等方面取得了一些重要的进展,例如:时空地理加权回归[85]、时空回归克里金[86]等。关联规则挖掘是地理大数据关联关系定性挖掘的代表性方法,旨在发现在相邻时空区域内频繁出现的地理对象关系。早期的空间关联规则挖掘方法主要是采用空间剖分的方法构建空间事务,然后应用事务型关联规则挖掘方法(如Apriori)发现空间关联规则[87-88],此类方法割裂了地理现象间的时空联系。当前地理大数据关联规则挖掘方法多不采用空间事务化的策略,而是基于邻近性与频繁性思路发现连续时空区域内的关联关系[89],主要取得了以下3方面进展:①局部关联规则挖掘模型。由于空间异质性的影响,关联规则经常在不同区域具有不同的表现形式,近年来学者们重点基于图划分和聚类分析的思想,发展了一系列局部关联规则挖掘模型[90-96],可以更加全面地发现关联规则。例如:全局与局部的城市兴趣点关联规则对于全面地理解城市功能组合规律具有重要价值[97]。②关联规则统计推断。空间关联规则挖掘往往需要人为设置频繁度阈值对规则有效性进行评价,而在大规模地理大数据关联规则挖掘任务中,阈值参数很难设定。近年来,学者们基于随机重排检验的思想,通过融入关联规则的认知规律(如空间自相关对关联规则的影响)发展了一系列全局和局部关联规则统计推断方法[98-102]。这些方法提升了关联规则挖掘的可靠性和可操作性,例如通过对犯罪事件与地理因子间关联规则进行统计推断,可以排除一些虚假的关联模式,从而能够更好地辅助决策。③考虑额外约束的关联规则挖掘模型。地理大数据通常具有时空属性,而且人类活动受到道路网络等约束。近年来,学者们已经开始在地理大数据关联规则挖掘中,通过修改邻近关系识别方法建模时空耦合关系与路网约束[103-107],可以进一步提升挖掘结果的可靠性与可解释性。图2展示了采用时空事件级联关联规则挖掘方法[106]发现的我国京津冀地区2014年冬季与2015年春季PM2.5污染事件时空传播规律,对于空气污染物溯源及空气污染物传播规律理解具有指导价值。图中,箭头为传播路径,点为空气质量监测站点。
图2 京津冀地区PM2.5污染事件时空传播规律[106]
2.1.4 地理大数据预测建模
地理大数据预测建模旨在构建反映地理变量间时空联系的模型,对地理实体未来的状态或属性进行估计。地理大数据预测建模是发现地理现象演化规律的重要手段。地理大数据预测建模的主要方法分为两类:基于统计学的方法与基于机器学习的方法[108]。基于统计学的方法主要是依据历史数据的时空相关性建模实现预测,代表性方法如时空自回归移动平均模型、时空地统计模型等[109]。基于统计学的方法难以建模变量间的非线性关系,基于机器学习的方法在地理大数据预测建模任务中逐渐得到重视。伴随着深度学习技术在近十年来的突破性进展,各种深度网络已经成为当前地理大数据预测的主要手段,广泛应用于空气质量预测、交通流量/速度预测、人流量预测等领域[110]。地理大数据预测建模的主要进展可以总结为以下两个方面:①时空耦合的地理大数据预测建模方法。现有研究主要采用两种策略整合时间和空间相关性信息提升预测精度,一种是通过整合空间和时间预测模型[111-113];另一种是将空间和时间预测模型进行嵌套[114-118]。常用的空间预测模型主要包括卷积神经网络(CNN)及其变种(用于建模规则数据)[119]、图卷积神经网络(GCN)[120]及其变种(用于建模非规则数据)。常用的时间预测模型主要采用长短期记忆网络(LSTM)[121]及其变种,亦有研究对时间序列进行分解,针对相邻时间点、周期时段和趋势部分的建模结果进行融合[114]。②地理大数据时空异质性建模。地理变量间的关系通常是时空非平稳的,例如:风速、风向、地形、污染源等空气质量影响因素与空气污染物浓度间的关系在不同时间和地点经常是不同的。时空异质性具有两种表现形式:分层异质性与局部异质性[122]。现有研究主要采用两种策略建模时空异质性,针对分层异质性,首先对时空数据进行聚类分析,进而在每个较为均匀的分区内建立预测模型[123-124];针对局部异质性,主要借鉴地理加权回归的思想,针对每个时空位置分别建立预测模型[125-126]。数据驱动的预测模型虽然已经取得了重要进展,但是也存在预测结果与实际地理现象变化规律不符的缺陷,直接导致预测结果难以解释、稳定性差[127]。近年来,有学者开始探索将地理现象的物理变化规律融入预测模型,提升了预测模型的可解释性与泛化性能,具体策略包括物理规律引导的初始化、物理规律引导的网络损失函数及物理规律引导的网络架构设计等[128]。
2.2 地理大数据挖掘应用研究
当前,地理大数据挖掘在应用方面也取得了重要的成果,尤其是在城市规划、智能交通、环境保护、公共安全等领域受到广泛关注。下面将重点针对地理大数据在以上4个方面的应用成果进行回顾和总结。
城市规划领域是当前地理大数据挖掘应用最广泛、最深入的领域[129]。地理大数据使得从微观、动态的视角发现城市中“人-地”耦合关系成为可能,促进了“以人为本”的城市规划设计,为分析城市发展现状、理解城市发展机制及科学规划城市发展提供了最基础的素材[130]。地理大数据挖掘已广泛应用于区域联系与等级体系研究、城市居民活动模式反演、城市功能与空间结构识别等方面,为城市规划提供了重要的决策信息[18,59,131]。在区域联系与等级体系研究方面,互联网数据、社交媒体数据、人口迁徙、手机信令、车辆轨迹等数据已用于定量衡量不同研究粒度上区域间的联系强度[7],重力模型、社团检测方法及层级分析等方法已被广泛应用于识别城市的等级体系[68,132-133]。在城市居民活动模式反演方面,对不同类型人群活动数据反映的个体移动规律已经有了较为深刻的认识(如移动步长规律、重访概率等);地理大数据挖掘方法已经可以有效支持人群移动的“韵律性”规律、时空聚散规律及活动类型的识别[134-137];当前已经可以实现城市人口分布的精细化制图与动态预测[37,138]。在城市功能与空间结构识别方面,国内外学者已经采用多种类型人类活动轨迹数据、社交媒体数据、城市街景数据、城市兴趣点及夜光遥感数据,借助聚类分析、关联规则挖掘、词嵌入等方法,开展了城市功能区划、城市中心区识别与土地利用反演等研究[47-48,97,139-141];近年来,采用多源地理大数据进行场所语义推测及场所情感感知等方面也取得了重要进展[142-143],可以进一步反映人类对城市物质空间的认知和感受。
地理大数据挖掘在智能交通领域的应用已经得到了广泛关注。海量、多源、动态、细粒度的车辆轨迹数据在道路信息提取、交通状态感知及交通流预测方面发挥了重要作用,有力提升了城市交通运营、管理与规划的水平[144]。在交通道路信息提取方面,地理大数据挖掘方法(如聚类分析)已经可以实现从多源车辆轨迹数据中生成高精度城市路网及道路语义信息(如方向、速度、车道数等)[145-148],有效服务于车辆导航等实际应用。在交通状态感知方面,地理大数据挖掘方法(如异常探测、矩阵分解等方法)已经被应用于交通拥堵与异常模式识别[149-150]、通行时间估计[151]、交通能耗估计[152]及交通调度和路径优化[153-154]等方面,有利于提升交通系统的运行效率,缓解交通拥堵等城市病问题。在交通流预测方面,基于机器学习的预测模型已经被广泛应用于交通流量预测与道路速度预测[116-118,155],可为交通管理提供重要的决策信息。
地理大数据挖掘在环境保护方面的应用价值逐渐受到重视,已在城市空气、水质及噪声污染防控等实际应用中发挥了重要作用。在城市空气污染防控方面,地理大数据挖掘不仅可以被用于发现空气污染的时空变化规律,而且可以实现高精度、高时空分辨率空气质量预测[123-124,156]。例如采用历史PM2.5浓度数据及城市兴趣点、交通、气象等数据,基于机器学习方法构建的预测模型可以实现千米格网、小时分辨率的高精度连续预测,对于控制污染与保护人民健康具有重要价值[112]。在城市水资源保护中,融合水质检测历史数据与多类型影响变量(如降水、兴趣点等)构建的智能预测模型可以实现城市水质的高精度连续预测[157-158],可为水污染预警预报提供重要的决策信息。在城市噪声污染防控方面,现有研究已采用多源地理大数据协同分析不同区域、不同时段的噪声污染情况,可以克服噪声污染监测的稀疏性问题,服务于城市噪声污染防控[159-160]。
地理大数据在公共安全方面也取得了重要的应用成果,尤其在城市犯罪预防、人群聚集风险评估与流行病防控方法发挥了重要作用。在城市犯罪防控方面,地理大数据挖掘不仅可以被用于识别犯罪热点区域与时空分布规律,而且可以发现影响犯罪的空间因素,对于预防犯罪具有重要价值[102,161]。在人群聚集风险评估方面,地理大数据挖掘方法可以从多源人群活动数据中发现人群异常的聚集现象,可为管理部门提供预警信息,降低人群踩踏等公共安全事件发生的风险[135,162]。地理大数据挖掘在流行病防控方面已经发挥了重要作用,例如通过对病例人群轨迹数据进行时空聚集分析,可以有效地进行传染病溯源,发现潜在的易感染人群[163];新冠疫情防控中,结合手机信令数据和病例数据可以发现不同因素对疾病传播的影响,并预测新冠病例的地域分布与传播规律,为政府制定防疫政策提供了科学的依据[16,164]。
2.3 地理大数据挖掘软件研发
海量、多源地理大数据的存储、管理和高效计算对传统的空间数据挖掘软件提出了新的挑战。地理大数据挖掘需要分布式、并行计算的支持[165]。以Apache Hadoop为代表的开源大数据框架为大数据高性能存储和计算提供了重要支撑[166]。Hadoop框架采用Hadoop分布式文件系统(Hadoop distributed file system,HDFS)实现了对大规模数据集的分布式存储,采用MapReduce[167]计算框架实现了对大规模数据集的并行处理。MapReduce将每次处理的过程数据存入磁盘,由此产生的反复磁盘I/O操作影响计算效率。为了解决这一问题,Spark计算引擎采用抽象弹性分布式数据集(resilient distributed datasets,RDD),将中间运算结果保存在内存中,避免了对分布式文件的反复读写,其运算效率显著高于MapReduce[168]。Hadoop与Spark没有考虑地理大数据的空间属性,从而限制了其地理大数据存储与计算的能力。近年来,一些专门的地理大数据计算框架已经出现,例如SpatialHadoop[169]对Hadoop的每一层(语言层、存储层、MapReduce层和操作层)均进行了空间扩展,实现了对地理大数据的空间数据索引和空间操作功能;GeoSpark[170]对RDD进行了空间拓展,实现了地理大数据的几何操作和空间查询能力。除了以Hadoop和Spark为代表的地理大数据计算框架,近年来,一些地理大数据集成技术平台也受到了广泛关注,例如CyberGIS[171]平台集成信息基础设施(Cyber infrastructure)、地理大数据资源与数据挖掘方法,可为数据密集型与计算密集型应用提供有效的解决方案。HiGIS[172]基于高性能计算技术(HPC),提供了地理大数据存储服务、计算服务与制图服务。
当前主流的商业地理信息软件已经开始集成地理大数据挖掘功能。例如ESRI公司基于Spark框架推出了ArcGIS GeoAnalytics Server和ArcGIS Image Server用于支持地理大数据挖掘,其可以支持云存储、HDFS、Hive数据仓库等多种来源的大数据,并提供了地理大数据挖掘工具箱(https:∥enterprise.arcgis.com/zh-cn/)。MapGIS基于Hadoop、Spark等分布式计算框架支持地理大数据管理与计算(https:∥www.mapgis.com/index.php?a=shows&catid=8&id=139):结合PostgreSQL、Elasticsearch、HDFS等多种存储引擎构建MapGIS DataStore组件,实现地理大数据存储;开发了云服务集群引擎IGServer和大数据计算引擎IGServer-X,提供地理大数据挖掘服务。SuperMap采用HBase和HDFS提供大规模矢量数据的存储服务,同时通过Elasticsearch引擎提供大规模流数据的存储服务,三者共同构成了SuperMap内置的地理大数据存储引擎(https:∥www.supermap.com/zh-cn/a/product/10i-tec-2-2021.html);此外,SuperMap对Spark框架进行了拓展,集成了大量地理大数据挖掘方法,并通过集成开源地图开发库(OpenLayers、Leaflet、MapboxGL JS等)、可视化库(ECharts、MapV、DECK.GL等)提供地理大数据可视化服务。
3 地理大数据挖掘研究存在的问题
通过上述分析可以发现,当前地理大数据挖掘研究已经取得了重要的进展。针对地理大数据的新特征,一些针对性的地理大数据挖掘方法已经被提出,并在“人-地”关系研究中发挥了重要价值。例如可以从人类活动的视角对城市土地利用进行新的审视;可以定量地发现人类在城市中的活动规律并且可以据此对城市空间结构进行深层次的解析;犯罪事件与城市兴趣点间的关联关系对于犯罪机理解释与犯罪预防具有重要价值;利用城市交通流量、地理背景及空气污染历史数据构建的预测模型已经可以实现高时空分辨率的空气质量预测。地理大数据理论方法与应用的重要进展正在改变地理学的研究范式,为地理规律的发现提供了重要的工具和手段。在取得这些进展的同时,同样需要对当前地理大数据挖掘面临的问题进行冷静的思考。笔者认为以下3个问题需要引起充分的重视。
3.1 地理大数据丰富的信息内涵尚未被充分利用
地理大数据包含了丰富的“人”“地”信息,这些信息存在于不同来源、不同类型的地理大数据,例如城市人群交通活动信息蕴含于出租车、公交车、地铁、私家车等不同交通方式。现有的地理大数据挖掘研究还多是仅基于单一类型数据进行的分析应用,其挖掘结果多存在片面性。现有研究大量采用出租车轨迹数据研究城市人群的空间移动模式,而实际上城市居民出行大量依赖地铁、公交等交通方式。当前,尚难以回答不同来源地理大数据如何共同地对某一地理事实进行反映和表征[173-174]。如何融合多源地理大数据全面探索人类对城市空间实际功能的理解及城市物质空间与人类活动间的适宜度依然是一个难题。导致这一困境的原因源于两个方面,一方面是多源地理大数据协同挖掘的模型与方法尚较为缺乏;另一方面是多源地理大数据的交换和共享机制尚不成熟,不同领域、部门间的地理大数据难以真正贯通和协同。
3.2 地理大数据挖掘结果多是验证性
地理大数据挖掘虽然在人类移动模式定量度量等方面取得了一些新的认知成果(如人类移动模式的步长分布规律[175]),但是现有地理大数据挖掘成果尚难以真正实现“未知知识”的发现。地理大数据挖掘成果虽然使我们对“人-地”关系有了更加细化、定量化的认识,但是这些挖掘结果多是验证性、常识性的。例如采用各类移动轨迹数据发现的城市人群通勤模式、人群活动热点、城市多中心结构等多是被领域专家所熟知的;采用大范围位置大数据发现的人口分布模式实际上仅仅是对20世纪30年代发现的“胡焕庸线”的验证[3]。如何真正发现地理大数据背后隐含的、未知的知识,取得类似“胡焕庸线”这样的地理发现,是地理大数据挖掘方法面临的严峻挑战。
3.3 地理大数据挖掘结果的可信性难以评价
现有地理大数据挖掘方法虽然针对地理大数据的新特征进行了部分适应性的改进,但是针对地理大数据样本质量无控、采样有偏等问题尚缺乏有效的解决方案。现有地理大数据挖掘研究对数据产生机制、数据质量控制、数据可用性缺乏足够的重视。实际上,现有的大部分地理大数据挖掘方法依然假设数据源可以直接反映地理现象的特征,虽然可以对数据挖掘给出一定的解释,但是很少关注挖掘结果的可信性。地理大数据挖掘的尺度依赖效应仍然不可忽视,虽然地理大数据的尺度信息更加精细,但是实际分析中仍然需要确定合适的数据尺度(地理大数据通常需要聚合到一定的单元)和分析尺度。近年来尺度驱动的地理大数据挖掘模型取得了一定的进展[177],但是尺度依赖性的内在机理及最优尺度选择等问题依然悬而未决[36]。地理大数据挖掘结果的可信性问题直接影响了地理大数据挖掘的实际应用效果。
4 地理大数据挖掘的发展趋势
面对当前地理大数据挖掘面临的机遇与挑战,笔者认为未来地理大数据挖掘可能需要在以下3个方面开展进一步的深入研究。
4.1 多尺度聚类分析是地理大数据认知的突破口
聚类分析是人类认识世界最基本、最有效的能力之一[178]。聚类分析可以从纷繁复杂的大数据中有效地总结规律性信息,是大数据认知要解决的首要问题[179]。地理大数据聚类分析不仅可以作为一种从地理大数据中发现地理格局的有力工具,同时也可以作为其他地理大数据挖掘任务的重要预处理步骤。尺度依赖性是地学研究中不可回避的关键科学问题,对地理大数据内蕴的各种“人-地”关系特征进行发现,必须对尺度依赖性具有清晰的认知。地理大数据聚类必须恰当地建模地理现象的尺度依赖性[9,45,180]。人类视觉系统具备天然的多尺度聚类分析能力,模拟人类视觉系统的多尺度聚类方法近年来受到了重要关注,并发展了一些尺度驱动的空间聚类分析模型[181-182]。未来地理大数据多尺度聚类分析研究在尺度效应的深层地学机理解析、多种尺度(如数据尺度、分析尺度)联合效应建模及尺度有效性评价等方面需要开展持续的研究工作。
4.2 多源地理大数据聚合与深度融合
地理大数据实现大价值的关键是如何实现多源地理大数据的信息综合和协同增强,具体包括两个方面的核心问题:多源地理大数据聚合与深度融合。多源地理大数据聚合需要以具体的应用需求为驱动,统一不同来源地理大数据的时空框架与基准,协调观测尺度差异,实现不同尺度、不同时态、不同语义地理大数据的协同、信息派生与增值,为多源地理大数据提供基础的数据支撑[183]。多源地理大数据深度融合需要在语义层次上实现多源地理大数据内蕴特征的协同增强,发现不同来源地理大数据的一致性与互补性,实现对地理现象更加深入和全面的理解。多源地理大数据聚合与深度融合对于提升挖掘结果的可靠性和全面性具有重要价值。近年来,一些研究尝试引入多视角学习的方法对多源移动轨迹数据进行聚类分析,可以更全面地反演城市土地利用[184-185]。此外,地理大数据同样需要与传统“小数据”进行深度聚合和融合,一方面可以加深对地理大数据有偏性的理解[186],另一方面“小数据”可以对地理大数据进行一定程度的“校正”和“纠偏”,使得地理大数据挖掘结果更具代表性。
4.3 知识与数据双重驱动的地理大数据挖掘方法
自20世纪90年代初以来,数据驱动的空间数据挖掘模型(尤其是以深度网络为代表的机器学习方法)虽然取得了重要的进展,但是其不可解释、稳健性差、难以扩展的弊端亦不可忽视[187]。人类经过几千年的文明发展,已经积累了针对地学现象的大量重要认知知识。这些知识一方面有助于对地理大数据蕴含的地理规律进行理解,促进对地理大数据的有偏性、不完备性的认知;另一方面可以缓解数据误差的影响,提升地理大数据挖掘模型的可靠性与精度。在遥感影像分类模型中融入地物间的空间关系先验知识,可以有效降低分类误差。知识与数据双重驱动的地理大数据挖掘方法有望成为未来地理大数据挖掘的一个重要研究方向[188]。地学知识图谱是地理知识表达、提取、管理的重要工具,建立知识与数据双重驱动的地理大数据挖掘方法需要兼顾地理现象的多尺度时空特征,融合图、文、数等多种信息载体表征,构建开放式、可扩展的地理空间知识图谱[189]。
5 结论与展望
地理大数据挖掘已经成为地理信息科学、信息科学共同关注的前沿热点问题,对于深入探索地理学“人-地”关系这一核心问题具有重要价值。本文对近20年来地理大数据挖掘研究的主要进展进行了回顾,分析了地理大数据挖掘与空间数据挖掘相比的独特性和继承性,使得从空间数据挖掘到地理大数据挖掘的发展脉络更加清晰;系统梳理了地理大数据挖掘方法、应用与软件的主要研究进展,总结了当前地理大数据挖掘需要进一步突破的主要问题,并对地理大数据挖掘发展趋势进行了展望,对于未来地理大数据挖掘理论完善与方法设计具有指导意义。地理大数据挖掘是一个复杂的、综合性的研究领域,本文仅仅起到抛砖引玉的作用,希望能够推动地理大数据挖掘在地理学“人-地”关系研究中发挥更大作用。