自然地理学的大数据研究
2015-03-27马振刚,李黎黎,许学工
马 振 刚,李 黎 黎,许 学 工
(1.张家口学院理学系,河北 张家口 075000;2.北京大学城市与环境学院,地表过程分析与模拟教育部重点实验室,北京 100871)
“大数据时代”的到来为科学研究提供了新的机遇和挑战。相继有 Nature[1]、Science[2]等学术期刊介绍了大数据在各个领域研究中的应用;2012年“Next-generation Digital Earth”的发表[3],2013 年国际环境遥感大会专门召开了“大数据与数字地球和未来地球”分会[4],标志着大数据将在地球科学领域发展中扮演重要角色。目前,大数据在地理学中的人文地理学研究较多[5,6],在自然地理研究中鲜有涉及。自然地理学是地理学的主要分支,重点研究地球表面各地理要素的作用机理、空间格局、时空演变和人地关系。数据一直是自然地理学研究的重要基础,自然地理研究从经验方法到实证方法再到系统方法[7],对数据的需求也由少变多,由简单变复杂。大数据的出现为自然地理研究提供了新的平台,对现有研究模式提出了新的要求,开展自然地理学的大数据研究具有实际意义。
1 自然地理学的大数据源
“万物源于数”,数据推动着自然地理学的创新,如放射性年代测定、数值天气预报、测定大气CO2、获取卫星影像、对地观测系统等均促成了20世纪地理研究里程碑式的工作[8]。自然地理数据的获取方式经历了以人工运营为主的被动式数据采集阶段,以对地观测卫星为主的主动式阶段,以自动式为主的感知式系统阶段和自发地理信息阶段[9,10]。对地观测、自动感知和自发地理信息的数据生产方式催生了自然地理大数据,其主要包括遥感大数据、地面传感器数据、自发地理信息、地学成果数据。
从1957年苏联发射第一颗人造地球卫星开始到现在的近60年时间里,对地遥感技术的发展达到了空前水平,并积累了海量数据。大中小卫星和无人飞行器相互协同、高中低轨道相结合、多种成像方式并存、波谱域不断扩大、分辨率“三高”不断提升,形成了遥感大数据,其具有海量、异构、多源特征[11]。目前中科院遥感与数字地球所具有的对地观测数据总量超过450 TB,预计到2020年全球遥感卫星数据将达50 PB[12]。
基于无线传感器网络技术等构成的地面台站观测系统,能够提供时间连续的精确数据,是自然地理数据的另一个重要来源。“传感器网络”通过众多智能化感应节点完成对较大区域的地物信息获取,包括温度、湿度、风速、风向、气体成分、生态成分等自然地理信息,形成了自动感知大数据。典型应用除传统的气象、水文、海洋、环境、地震和生态监测站外,还有精准农业、建筑业、工业等领域,为建设地理学等自然地理分支学科提供了新手段。同时地面台站观测系统与对地遥感系统结合,构建了立体观测系统,尤其以全球气候观测系统GCOS、全球海洋观测系统GOOS、全球陆地观测系统GTOS为代表[13]。
定位技术从手持罗盘的传统定位发展到卫星网络定位和移动终端定位,使定位走向基于移动网络的位置服务,并在 Web2.0时代催生了自发地理信息大数据。自发地理信息(VGI)由Goodchild在2007年提出[14],指在 Web2.0时代地理信息可由大众自发创建实现。VGI数据来源多样,包括GPS终端记录的兴趣点、轨迹、几何对象等空间图形信息,智能手机上传的具有时空位置的图像、视频和语音记录等属性信息[15]。以众包的方式基于地理标签(geotag)对各种数据进行混搭(mashups)形成的Geoweb,促成了自发地理信息大数据的形成。麦肯锡报告(Manyika,et al,2011)指出,“个人位置数据”已成为5个主要大数据流之一,每天约有6 000亿个事项被处理,每年全球都会有各种移动设备传输大约1 PB的数据。
地理大数据除了原始数据外,还有经过加工处理后的海量累积成果数据,包括地图数据、遥感解译数据、实验数据、研究报告等,如仅第二次国土调查数据即大约150 TB[16]。这些数据经过了预处理、实证研究、计量计算、模型模拟等过程,具有更高的精确性,经过多尺度多模式等联合挖掘,会产生巨大的价值。另外,地理信息技术融入IT主流系统是当前一个趋势[13],各种传统的管理信息系统(MIS),如企业资源规划、客户资源管理、供应链管理等,嵌入以4S(GPS、GIS、RS、LBS)为代表的地理信息技术,成为新的地理大数据源。
自然地理大数据具有科学大数据的特征,其数据内容一般表征自然客观对象和过程,获取手段一般来自观测和实验的记录以及后续加工,分析手段一般是与科学原理模型相结合,数据具有内容的不可重复性、高度不确定性、高维特征和高计算复杂性[12]。所以上述提到的自然地理大数据在应用到研究中,还需要有鉴别筛选的过程,现有的“小数据”一般具有更高的价值,新的大数据源与原有数据结合要体现增值效应而非数据污染。
2 自然地理研究的大数据方法
方法革新一直是自然地理学发展的重要推动力,就如数理统计之于地理实证研究、3S技术之于地理系统研究一样,大数据为复杂地理研究提供了新的途径。自然地理研究中的大数据方法具有科学大数据方法的共性和自然地理学方法的特性。大数据方法主要体现在 X-Info和Comp-X两个环节中[17],即领域信息学和领域计算学。对于自然地理研究,主要是地理信息学和地理计算学,它们是传接地理数据—地理信息—地理知识的枢纽。目前对地理数据的分析,总体上是依托少量的计算机,利用各自熟悉的软件和模型进行有限的操作。其结果是在数据获取、处理和计算上会消耗大量时间和精力,以至于无力思考将新的发现纳入到已有的知识体系中,大量有价值的数据被束之高阁,这种“作坊”式的研究方式急需向“产业”化转变。大数据给地理研究提供了一个新思路,即“不是随机样本,而是全体数据”,“不是精确性,而是混杂性”,“不是因果关系,而是相关关系”[18];大数据研究是对海量数据做统计性的搜索、比较、聚类和分类等分析归纳,目的在于找出数据集里隐藏的相互关系网[19],其本质特征在于从模型驱动到数据驱动范式的转变以及数据密集型科学方法的确立[4]。
让大数据发挥作用的关键支撑是技术体系,GPS、RS、互联网、物联网和感知技术支撑着数据的获取,云存储、云计算、智能统计分析等支撑着信息的发现,如何更好地治理整合地理大数据,并从中发现空间联系、挖掘地理知识,需要地理信息科学在系统架构、模型开发、可视化等方面有大的进化甚至变革[20]。GIS是让大数据在自然地理研究中产生价值的关键,需要在基于where定位的基础上,发现what、who、when的时空格局,进而对how和why进行推理分析。GIS领域专家在这方面做了大量工作,包括地理信息的分布式管理、云存储;地理信息处理的空间数据挖掘、数据流挖掘、地理云计算等;地理信息表达的多维数据可视化、数据感知等[21]。周成虎认为大数据时代GIS具有自动化处理、规模化存储、高效化计算、知识化服务的特性,高性能计算、空间知识发现、专业模型嵌入将成为未来GIS特色[22];李德仁等认为遥感解译应关注语义层的研究,发展遥感大数据云,整合数据、算法、软件和工作流程,利用云技术使用户快速获取服务[23];傅伯杰在2014年中国地理学会报告中指出,大数据时代的地理学分析和可视化方法以及资源环境大数据处理方法和地理知识发现,是中国地理科学未来发展的战略方向。大数据工程技术纷繁复杂,吉姆·格雷制定的几条规则有利于对其通俗理解[17],如科学计算日益变得数据密集型,解决方案是一种“横向扩展”的体系结构,将计算用于数据而非数据用于计算等。在大数据时代,对于假设的检验既可以通过定向的数据采集和分析进行,也可以通过对已有数据的组合和挖掘进行。
当然如果承认大数据是个相对概念,那么对于目前众多的地理研究机构和人员,现有的成熟技术体系仍可用于更高数据级规模的管理和处理,关键是是否愿意将研究数据和工具等拿出来开放共享,并基于大数据思维开展工作。科研项目具有金字塔结构,对于国际性项目而言,数据工程技术或许是主要制约因素,但对于大多数一般研究项目,大数据理念是最大掣肘。
3 大数据推动下的自然地理学变革
3.1 自然地理研究向数据密集型范式转变
大数据的产生使科学研究进入了大数据时代[24],作为地理研究对大数据时代的响应,2012年美国地质调查局制定和发布了《美国地质调查局核心科学体系战略(2013-2023)》[25],提出了地球科学研究新思维,将临界带作为重点研究对象,按生态系统的内在逻辑构建模块式科学框架,将以学科为主线的组织架构调整为以重大问题为主线,突出数据密集型科学研究新范式与地球研究的结合[26]。这将加快推动自然地理研究向数据密集型范式转变。
研究范式是研究方法和研究思维的集成,数据密集型研究范式是继实验科学、理论科学、计算科学之后的第四范式,这种范式是以数据为中心来思考、设计和实施科学研究[24],采集、存储、管理、分析和可视化数据的能力成为科学研究必须适应的新常态,它使研究由模型驱动转向数据驱动。自然地理学研究范式经历了经验科学、实证科学和系统科学3个成熟的范式,并向第四种范式转变[7]。地理学第四种研究范式还处于探索阶段,李双成认为它具有复杂性科学特征,主要表现为对还原论的超越,转向整体、关联的复杂性思维方式,而海量数据的累积和新技术新方法的应用为地理研究提供了强有力的支持[27]。自然地理的数据密集型研究范式以研究对象的多尺度、复杂性和综合性为逻辑基础,以地学大数据为基础,以模型为支撑,将模型应用到数据的挖掘中,通过分析数据之间的横向相关揭示地理事物之间的因果联系。
3.2 大数据推动自然地理研究实现新的综合
地理学发展经历了综合—分化—再综合的过程[13],目前处于再综合阶段。这种综合是在分支学科深入发展之后的综合,既有全球环境变化等现实需求的驱动,也有学科自组织作用。系统科学的出现为这次地理学综合提供了理论支撑和实践路径,典型表现是地球系统科学的提出,它将地球各圈层要素作为相互联系的子系统进行综合考虑,提升了对复杂、系统的地理现象的理解能力[13],这与综合自然地理学宗旨相似。大数据的出现将推动自然地理研究达到新的综合,包括研究内容、研究数据、研究手段、学科之间等多方面综合。
大数据将推动应用性自然地理学的综合。新的综合源于现实的需求,如全球背景下的环境变化、自然灾害、水资源问题等。大数据为这些复杂性问题提供了解决方案,弱化基础学科需要长时间探寻因果关系,强化与问题领域广泛有关的相关分析。基于科学研究的新型应用将致力于为实际决策提供信息,而不再是以获取知识为目的的原始性发现和基本数据产出[17]。诸如不必等到理解降水演化模型之后才对城市水设施进行改善;不用理解土地利用变化对环境的作用机制,通过对大数据的相关分析,能够了解为减轻气候变化影响而将农地大量改种玉米的行为会对紧缺的水资源造成极大压力。大数据驱动下的应用学科的发展体现如下特征:基于社会需求驱动而非科学问题驱动,基于决策制定的外部限制条件而非获取最好知识的时机来确定行动准备,基于结果性而非回归性(即使不完善但有用)、数据密集性等[17]。自然地理学是地理应用学科的基础,无论在解决全球尺度、区域尺度还是景观尺度上的地理环境问题中,都扮演着重要角色,但其发展依赖于数据的获取和分析手段的发展,大数据作为涵盖数据、技术、方法的体系,将极大推动自然地理学应用的发展,包括基于工程测量数据的建设地理学及地理设计科学等。
3.3 大数据将推动自然地理研究队伍的多元化
自然地理大数据研究不仅需要三维知识结构的个人[28],也会推动多元结构研究队伍的形成,这包括专门化的基于平台整合数据的人、基于模型进行知识挖掘的人、将知识应用于实践提供政策的人、能够从数据分析提炼地理规律的人。从研究的工作流程分析,自然地理大数据研究流程包括从数据到信息到知识到应用的3个环节4个内容:由数据到信息属于数据处理阶段,该阶段主要是针对数据的各种处理分析并产生有用的信息,工作的主体人员应该是地理信息及IT领域的;由信息到知识是自然地理研究人员主要工作着力点,要通过对已有地理知识的掌握来理解判断新的信息蕴含的价值,然后根据数据结果分析—科学实验—实验结果分析—证伪假设—科学假设的过程进行理论性研究;从知识到应用阶段是应用地理人员主要工作环节,除需要较好地理解地理知识外,还需要掌握应用领域知识,如测量、生态修复、景观设计等工程性技能。当然,不同阶段的人员划分并不是绝对的,需要基于目标有全程性的控制,但就自然地理研究人员而言,其精力不应平均在所有过程中,而是更多地用在将地理信息转为地理知识上。这种工作流程将地理科学家从常规数据处理的繁琐中解放出来,使其可以专注于科学发现[26]。
除基于工作流程的纵向维度需要多元化的专业人员外,在不同环节的横向维度也需要多学科领域学者的参与。世界是统一的有机整体,事物之间具有普遍联系,这是哲学上的认识。大数据在某种程度上会使这种哲学认识数量化。跨界的数据融合需要进行多学科叠加研究,如地理、地质、生物、环境、水文等,这种研究是数据驱动的。大数据的基本架构是尽可能整合多种数据和集成多种知识挖掘方法,所以机器发现数据之间的关联具有跨学科性,而对关联的理解和认识就需要不同学科的学者共同进行研究。自然地理大数据的跨界融合,决定了研究方法的跨学科性和研究人员的跨领域性。
大数据背景下的开放科学趋势会推动自然地理研究的众包模式形成。自然地理研究通过众包的形式进行数据采集、处理、按模块分发研究任务等。这样形成了一个新的研究队伍结构,其组织相对松散,有线上线下、有行里行外、有团体或个人,但其以众人参与的方式,通过择优而用使研究性价比提高。如在应急处理和减灾领域,已有 Ush-ahidi、In Relief、Sahana和Crisis Commons这些重要的减灾软件,其运转都是基于自愿公开的地理信息、开放自由的软件工具、云平台以及专家和民间学者的合作[10]。大数据推动下的自然地理研究需要一种新的组织结构,它能够整合自然科学与社会经济科学,平衡科学与技术,关注系统思考,支持采用灵活和跨学科的方法来解决长期问题,将知识的创造与知识的使用有机结合,对个人与团队成就能有机协调[17]。
4 自然地理研究中大数据应用的促进措施
4.1 数据开放共享
如果说数据驱动是大数据研究的显著特征,那么数据共享和开放则是大数据得以应用的基础。解决大数据问题有三大力量,即公众、社会和强大的地理方法,但一切都取决于开放[10]。自然地理研究对象的时空跨尺度性和实际研究中采样的区域性、时段性,决定了学科本身对数据共享的内在要求。开放数据的两个合理标准包括易获得性和可评估性[10]。已有多个国际项目在促进信息交换和数据共享方面做出了示范,如《南极条约》中关于数据共享的条款、GEOSS十年行动计划、“百慕大原则”、“柏林宣言”及其他国际性数据共享获取政策等[17]。政府间地球观测组织GEO在全球地球综合观测系统GEOSS计划中就若干数据共享战略性政策达成一致意见[4]:所有框架内的数据、元数据和信息产品都应在相关的国际法律和国家法律政策下进行完全开放的交换;所有共享都应在最短的时间内以最低的成本获取;鼓励将所有免费或者不超过复制成本的共享数据、元数据和信息产品用作研究和教育之用。
国家层面上,数据共享与开放存在很多差异。与美国、欧洲等国家和地区不同,我国目前尚没有国家层面的数据共享或开放数据政策。科学技术部、中国科学院等部门通过工程项目的方式投资建立了以科学数据共享为重要内容的数据库群和服务平台,如中国科学院科学数据库(http://www.csdb.cn/)、国家生态系统观测研究网络数据共享网(http://cerndis1.cern.ac.cn/)等。但总体而言,由于缺乏国家层面的政策基础,我国在公共资助产生的数据共享和获取方面仍处于较低级水平,被纳入有关工程项目中提供开放共享的数据只是公共资助产生的数据中的一小部分,且这些数据的开放不具有可持续性[24]。科学数据共享可使科研结果得到更广泛的利用和传播,数据共享机制可促进新研究项目充分利用他人已有的研究成果,避免不必要的重复,使包括经费、人力、仪器设备在内的科研资源得到有效利用。2003年孙枢院士阐述了地球科学中数据共享观点,并呼吁我国迫切需要在保证国家安全和尊重知识产权条件下的“科学数据完全公开”政策[8]。时至今日,当大数据成为各国发展战略共识时,形势的发展或许会倒逼数据开放政策改革的加快进行。
4.2 开展大数据地理学研究
当数据像空气、水一样广泛存在并不断被生产时,它已成人们沁入其中的一种生活环境,人们通过数据观察世界、理解世界,并在其引导下做出决策,这些决策可能包括资源分配、空间规划、应急处置等,如此数据将影响到每个人的现实生活。但人们往往忽略了大数据也存在着空间分布的不均质性,数据在哪产生、由谁产生、如何传播、怎样使用等也像自然要素一样具有空间异质性。热衷于典型区域的自然地理研究使生成的数据更具有区域性,如建成的黄土高原水土保持数据库、黑河水土气生平衡库、黑河陆面过程实验数据库等,数据的区域性分布会加重研究的区域性聚集,并可能导致理论适用的区域性问题。地理是大数据形成、传播、作用过程的重要影响因素,大数据地理学要研究大数据的区域特征、时空分异规律以及对人类活动的影响。区域间的经济、文化、信息化差异等均会影响大数据的生态环境,在分析大数据时要考虑大数据与其映射的真实世界的差异,并对在大数据时代可能被统计忽略的数字“贫民”和落后地区给予足够的关注[29]。特别在我国区域间社会经济发展极不均衡的情况下,更应该开展大数据地理学研究,探讨大数据与地理的相关性,以便让公众更好地认知大数据、决策者更好地驾驭大数据。
5 结论
大数据研究从顶层设计到底层实现的过程中,数据是基础、技术是承载、分析是手段、应用是目的[30]。就自然地理学的大数据研究而言,遥感、自动感知技术和自发地理信息等为其提供了数据基础,地理信息科学的发展和变革为其提供了技术支撑,地理学的综合思维和多学科交叉的研究队伍为其提供了智力保障,自然地理学在一定程度上具有了将大数据整合到学科体系中的基础。同时,自然地理学的大数据研究还需要在理论梳理的基础上,坚持以科学问题和现实应用为导向,加强实证研究,探索有效模式,逐步构建一个成熟的研究体系。
[1] CLIFFORD L.Big data:How do your data grow?[J].Nature,2008,445(4):28-29.
[2] REICHMAN O,JONES M,SCHILDHAUER M.Challenges and opportunities of open data in ecology[J].Science,2011,331(6018):703-705.
[3] GOODCHILD M F,GUO H D,ANNONI A,et al.Next-generation digital earth[J].Proc.Natl.Acad.Sci.USA,2012,109:11088-11094.
[4] 郭华东,王力哲,陈方,等.科学大数据与数字地球[J].科学通报,2014,59(12):1047-1053.
[5] KITCHIN R.Big data and human geography:Opportunities,challenges and risks[J].Dialogues in Human Geography,2013,3(3):262-267.
[6] 甄峰,秦萧,王波.大数据时代的人文地理研究与应用实践[J].人文地理,2014(3):1-6.
[7] 李双成.自然地理学研究范式[M].北京:科学出版社,2013.7-19.
[8] 孙枢.地球数据是地球科学创新的重要源泉——从地球科学谈科学数据共享[J].地球科学进展,2003,18(3):334-337.
[9] 孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013(1):146-169.
[10] 隋殿志,叶信岳,甘甜.开放式GIS在大数据时代的机遇与障碍[J].地理科学进展,2014,33(6):727-737.
[11] 宋维静,刘鹏,王力哲,等.遥感大数据的智能处理:现状与挑战[J].工程研究,2014,3(6):259-265.
[12] 郭华东.大数据大科学大发现——大数据与科学发现国家研讨会综述[J].中国科学院院刊,2014,29(4):500-506.
[13] 承继成.地球科学方法探索[M].北京:科学出版社,2014.392-403.
[14] GOODCHILD M F.Citizens as voluntary sensors:spatial data infrastructure in the world of Web2.0[J].International Journal of Spatial Data Infrastructures Research,2007(2):24232.
[15] 李德仁,钱新林.浅论自发地理信息的数据管理[J].武汉大学学报(信息科学版),2010,35(4):379-383.
[16] 李小文.编制大数据时代的大地图,遥感可先行[J].科技导报,2014,32(18):1.
[17] HEY T,TANSLEY S,TOLLE K.潘教峰,张晓琳,等(译).第四范式:数据密集型科学发现[M].北京:科学出版社,2012.1-8.
[18] 迈尔·舍恩伯,格肯尼思·库克耶.盛杨燕,周涛(译).大数据时代:生活、工作与思维的大变革[M].杭州:浙江人民出版社,2013.26-28.
[19] 李国杰,程学旗.大数据研究:未来科技及经济社会发展的重大战略领域——大数据的研究现状与科学思考[J].中国科学院院刊,2012,27:647–657.
[20] MILLER H J,GOODCHILD M F.Data-driven geography[J/OL].http://link.springer.com/article/10.1007/s10708-014-9602-6/fulltext.html,2014.
[21] 李清泉,李德仁.大数据GIS[J].武汉大学学报(信息科学版),2014,39(6):641-644.
[22] 周成虎.全空间地理信息系统展望[J].地理科学进展,2015,34(2):129-131.
[23] 李德仁,张良培,夏桂松.遥感大数据自动分析与数据挖掘[J].测绘学报,2014,43(12):1211-1216.
[24] CODATA中国全国委员会.大数据时代的科研活动[M].北京:科学出版社,2014.204-205.
[25] BRISTOL S,EULISS N H,NATHANIEL J L,et al.Science strategy for core science systems in the U.S.geological survey,2013-2023[EB/OL].http://pubs.usgs.gov/of/2012/1093/1of2012-1093.pdf.2012-06-04/2014-01-08.
[26] 杨宗喜,唐金荣,周平,等.大数据时代下美国地质调查局的科学新观[J].地质通报,2013,32(9):1337-1343.
[27] 李双成.复杂性科学视角下的地理学研究范式转型[J].地理学报,2010,65(11):1315-1324.
[28] 美国国家科学院研究理事会.刘毅,刘卫东(译).理解正在变化的星球——地理科学的战略方向[M].北京:科学出版社,2011.145-148.
[29] GRAHAM M,SHELTON T.Geography and the future of big data,big data and the future of geography[J].Dialogues in Human Geography,2013:3(3)255-261.
[30] 桑尼尔·索雷.匡斌(译).大数据治理[M].北京:清华大学出版社,2014.3-4.