论时空大数据及其应用
2015-07-05李德仁马军邵振峰
● 文| 李德仁马军邵振峰
1. 武汉大学测绘遥感信息工程国家重点实验室2. 地球空间信息技术协同创新中心
论时空大数据及其应用
● 文| 李德仁1,2马军1,2邵振峰1,2
1. 武汉大学测绘遥感信息工程国家重点实验室2. 地球空间信息技术协同创新中心
时空大数据与非空间数据相比,具有空间性、时间性、多维性、海量性、复杂性等特点,其云计算方法和挖掘技术是目前国际遥感科学技术的前沿领域之一。 本文围绕遥感大数据的特点、时空大数据云计算和遥感大数据挖掘等关键问题,深入探讨了时空大数据的研究进展及应用,并展望了时空大数据的发展前景。
时空大数据 云计算 遥感云 位置云 遥感大数据挖掘
一、引言
时空大数据是最重要的大数据之一,其表达与组织是数据内容准确度量和价值提炼的基础。传统数据局部表达方式的缺陷是难以应对数据规模快速增长,因此大数据的全局表达能力是其最本质的特性。大数据时代数据内部复杂关系是数据核心价值所在,时空大数据的价值在于时间、空间、对象之间的关联关系。然而,时空大数据之间的复杂关系和动态演化使得关系的表达和计算变得异常困难。时空大数据的服务价值在于其背后隐含规律的发现和利用,时空大数据不同于局部数据的独特价值在于其背后隐含着对应的大尺度事件信息,对其的理解因时空跨度大和对象、行为复杂变得尤为困难。当前时空大数据已成为本领域学术前沿,主要研究和探索数据与现实中对象、行为、事件间的对应规律,针对时空大数据高效表达与组织问题,探索时空全局冗余产生的内在机理,突破数据压缩和长期保存的瓶颈,针对时空大数据多维关联与协同计算问题,构造对象相似和目标空间约束协同计算模型,克服虚警数据规模快速增长的影响,针对时空大数据模式发现与价值提炼问题,揭示大尺度事件的演化推理机理,突破大尺度安全事件理解的局限。例如,当前正在建设的智慧城市是在数字城市建立的基础框架上,通过物联网将现实的城市与数字城市进行有效融合,自动和实时地感知现实城市中人和物的各种状态和变化,基于时空大数据挖掘技术由云计算中心处理其中海量和复杂的计算与控制,为经济发展、城市管理和公众生活提供各种智能化的服务。也就是说,一个智慧的城市,需要运用物联网、云计算、时空大数据集成等新一代信息技术,来促进城市规划、建设、管理和服务智慧化的新理念和新模式。
二、时空大数据的特点
“大数据”一词首先出现在2008年9月《Nature》杂志发表的一篇名为“Big Data: Wikiomics”的文章上(Mitch,2008)。2011年2月,《Science》杂志也出版专刊“Dealing with Data”。2012年3月,美国投资2亿美元启动“大数据研究和发展计划”,旨在提高和改进人们从大数据中获取知识的能力。面对大数据时代的挑战与机遇,国际上的专家学者针对大数据处理开展了一系列的探索和研究。2012年在印度新德里举行的首届大数据分析国际会议上,与会代表达成共识,认为大数据的表达、检索、挖掘是大数据处理面临的三大挑战。目前,对“大数据”的研究已经逐渐发展成为信息科学的主要研究趋势(Craglia 等,2012;Pareek和Cupta,2012;Poja和Anand,2013)。然而,迄今为止,“大数据科学”尚未有统一定义,但是科学家普遍认为它是以海量的多元异构数据为主要研究对象,以大数据的存储、处理和理解方法为主要研究内容,以新兴的计算技术为主要研究工具,以扩展人类对数据的利用能力为主要目标的一门新兴的综合性学科(Craglia等,2012)。它主要针对当前海量(volume)、多元(variety)和高速更新(velocity)数据的处理问题,重点研究如何将当前高速发展的计算技术用于数据处理/挖掘、有效地利用数据、从海量多元的数据本身去发现新的知识。
在智慧城市的建设和应用中,无所不在的传感器网将产生反映自然和人类活动的百万兆(TB)级到十亿兆(PB)级和万亿兆(EB)级数据。越来越多的数据使世界进入真正的大数据时代,其中大量的与时空位置有关的数据称为时空大数据。
时空大数据由于其所在空间的空间实体和空间现象在时间、空间和属性三个方面的固有特征,呈现出多维、语义、时空动态关联的复杂性,因此,需要研究时空大数据多维关联描述的形式化表达、关联关系动态建模与多尺度关联分析方法,时空大数据协同计算与重构提供快速、准确的面向任务的关联约束。具体特点包括:
1)时空大数据包含对象、过程、事件在空间、时间、语义等方面的关联关系。
2)时空大数据具有时变、空变、动态、多维演化特点,这些基于对象、过程、事件的时空变化是可度量的,其变化过程可作为事件来描述,通过对象、过程与事件的关联映射,建立时空大数据的动态关联模型。
3)时空大数据具有尺度特性,可建立时空大数据时空演化关联关系的尺度选择机制;针对不同尺度的时空大数据的时空演化特点,可实现对象、过程、事件关联关系的尺度转换与重建,进而实现时空大数据的多尺度关联分析。
4)时空大数据时空变化具有多类型、多尺度、多维、动态关联特点,对关联约束可进行面向任务的分类分级,建立面向任务的关联约束选择、重构与更新机制,根据关联约束之间的相关性,可建立面向任务的关联约束启发式生成方法。
5)时空大数据具有时间和空间维度上的特点,实时地抽取阶段行为特征,以及参考时空关联约束建立态势模型,实时地觉察、理解和预测导致某特定阶段行为发生的态势。可针对时空大数据事件理解与预测问题,研究空间大数据事件行为的本体建模和规则库构建,为异常事件的模式挖掘和主动预警提供知识保障,可针对相似的行为特征,时空约束和事件级别来挖掘事件模式并构建大尺度事件及其应对方案的规则库。
三、时空大数据的云计算
时空大数据经过存储、处理、查询和分析后,才可更好地用于各类应用从而提供智慧服务,因此对大数据存储、处理、查询和分析的实时性要求越来越高。针对这一处理需求,当前都是基于云计算技术,建立从基础设施、数据、平台到服务的一体化时空信息云平台,将各类应用中的时空大数据进行有效管理,并按照实际需求进行处理、存储、管理并提供相应服务,满足各类智慧应用。遥感云和位置云是基于云计算技术的两类典型时空大数据服务。
1.遥感云
遥感云是将海量的各类遥感数据和遥感平台提供的复杂的遥感处理与分析功能放在远程的云计算平台中,把遥感数据发布为一类数据服务,把各类遥感图像处理功能发布为功能服务,把遥感分析需要用到的各类模型发布为模型服务,把一些经过实践应用后形成的固化服务流程发布为服务链,利用云计算平台弹性的计算能力,用户无需搭建专用环境,只需要根据需求选择服务后即可获取最终结果。武汉大学测绘遥感信息工程国家重点实验室自主研发的OpenRS2Cloud就是一个典型的基于云计算技术的提供遥感云服务的空间信息处理平台。OpenRS2Cloud采用可伸缩、开放式的平台体系结构设计,在网络环境下,能够对数据资源、计算资源进行动态监控与任务分配(李德仁等,2010)。国内外算法研究人员和数据商将算法和数据上传到平台即可享受相应服务,用户无需搭建专用环境,只需要选择数据和算法后即可获取最终结果。相关的说明以及源代码可以通过以下网址获取:http://www.openrs.org/wiki/。
图1 遥感云实现的洪水淹没范围分析示例
图1是利用该平台上的智慧城市遥感云服务实现流域洪水淹没范围分析的示例,用户只需要提出关注洪水淹没范围的请求,提供该服务的遥感云就会自动寻找该区域淹没前后影像、对影像进行配准等预处理、执行变化检测并把变化结果返回给用户。整个过程中的数据服务、功能服务都是通过遥感云来完成的,图中蓝色部分为湖泊正常水位范围,绿色部分为洪水淹没范围。
借助大数据科学的相关技术,开展对海量多元异构遥感数据的研究,不仅可以丰富“大数据科学”的内涵,而且将有效地破解遥感对地观测所面临的“大数据,小信息”的困局,具有十分重要的科学价值和现实意义。
2.位置云
“位置云”是指基于3S技术、IT技术、网络与通信技术等,提供与位置相关的各类服务或需求解决方案。一类典型的位置云服务应用就是将手机接收到的导航卫星信号与其他定位相关的传感器信息传输到云计算中心,通过实时解算,实现室内外高精度的手机连续位置定位和实时导航。北斗位置云平台的应用领域见图2,而地理国情监测员、灾情报告员、森林调查员、地质勘测队员、土地调查员、城管员、公安交警人员等国家公务员和车联网用户是位置云服务的主要用户。
图2 北斗位置云公共服务平台
2012年12月27日,北斗系统对中国及周边地区正式提供运营服务,定位精度达到水平方向10m、垂直方向10m,测速精度大于 0.2 m/s。2013年11月,中国在泰国春武里府建成首个北斗卫星海外连续运行卫星定位服务综合系统(CORS)示范站。北斗在泰国等低纬度东盟地区的精度与性能优于GPS,可用于智慧交通中车辆控制和智能驾驶,三站测试结果见表1。
表1 北斗在泰国三站测试结果
四、时空大数据挖掘
基于数据表达、信息组织与知识发现等不同层次的数据挖掘方法,实现时空大数据挖掘,是时空大数据的优势。例如,可基于遥感大数据实现夜光遥感影像支持下的全球社会经济动态监测。传统方式调查全球社会经济数据主要依赖于统计部门、国际组织以及各国媒体。一般而言,传统调查方式获得全球社会经济数据的时效性较差。特别对于统计力量薄弱或政局不稳定的国家而言,获取社会经济信息较为困难并且可信度较低。夜间灯光(夜光)遥感为监测全球社会经济动态提供了一条新的途径。大量的统计分析表明,世界各国生产总值的空间分布与夜间灯光存在较强的相关性[1-2]。
对于GDP估算而言,由于夜光能够客观的反映区域的繁荣程度,因此能够克服统计数据的误差以及空间信息量不足等问题。基于计量经济学模型,结合GDP统计数据和夜光影像,可以修正不同区域GDP以及GDP增长率[3-4]。例如,国际社会对缅甸1992-2002年的GDP年均增长率的估算值为8.6%,而通过夜光数据修正后的年均增长率为4.3%[3]。此外,GDP的统计单元一般为行政区划,因此缺乏较为准确的空间信息。通过夜光影像、人口密度、土地覆盖等数据,建立GDP空间分配模型,从而获得全球GDP格网图[5]。夜光的长期变化能够较好的反映社会经济的长期走势,而夜光的短期剧烈变化能够反映区域武装冲突以及对应的人道主义灾难。通过对夜光影像的长时间序列分析,发现夜光影像能够较好的评估不同区域受到武装冲突的影响程度[6-8]。加州大学洛杉矶分校的Agnew等人通过对比不同时期伊拉克的夜光影像,发现了驻伊美军在2007年开展的军事行动未能扭转巴格达的安全局势,质疑了小布什政府的伊拉克政策[6]。科罗拉多州立大学的Witmer等人利用了夜光影像对车臣战争和格鲁吉亚的武装冲突进行了评估,发现夜光影像能够较好的反映居民迁徙和油井燃烧的现象,从而证明了夜光影像对于评估区域武装冲突的可行性[7]。武汉大学李熙等人对全球169个国家的1992-2010年的夜光影像进行时空数据挖掘,发现了战争爆发往往导致夜光减少,夜光的波动较大的国家发生战争的几率较高等现象[8]。
2011-2014年,叙利亚内战已导致至少10万人丧生。然而,绝大部分关于叙利亚的报道无法反映叙利亚内战的全貌,而夜光遥感影像为评估叙利亚局势提供了一条途径。图3表明,叙利亚内战已导致叙利亚全境夜光显著降低。
另外,基于全球中低高分辨率遥感数据,包括MODIS、HJ-1A/B、Landsat TM/OLI、GF-1、SPOT、RapidEye等,综合多源遥感影像中不同作物在影像上呈现不同的光谱、纹理特征,以及作物具有的季相节律性和物候变化的规律性等特点,进行作物分类识别和产量估算。图4是利用遥感影像监测农作物长势的示例,图5是利用遥感大数据实现东南亚棕榈油月产量估计的示例。利用遥感大数据实现农业遥感监测,基于遥感大数据提取农作物信息作为农作物长势监测或产量估算的模型参数,进一步进行农作物产量统计分析。禾讯科技就是目前国内最领先的卫星大数据应用企业,其基于遥感大数据得到的最有覆盖度的农产品基本面信息已经获得金融市场发布机构的认可。遥感大数据实时获取的第一手数据资料,还将在能源、国际贸易、保险、渔业、城市动态监测、矿产勘探等领域中提供重要的信息。
图3 叙利亚及周边夜光遥感数据对比图
图4 全球作物长势监测
图5 东南亚棕榈油月产量估计
五、结论与展望
大数据研究蕴含着巨大的社会、经济、科研价值,已引起各国的高度重视。近几年,《Nature》和《Science》等国际顶级学术刊物相继出版专刊探讨对大数据的研究。大数据也已经成为科技界和企业界关注的热点。时空大数据一方面具有一般大数据的大规模、多样性、快变性和价值性的特点,另一方面还具有与对象行为对应的多源异构和复杂性、与事件对应的时/空/尺度/对象动态演化、对事件的感知和预测特性。目前来看,国际上的时空大数据科学的研究仍处于起步阶段,需要面向具体应用开展深入研究。例如在国防领域,整体态势感知是现代化国防的关键,具有整体获取特性的遥感大数据在国防上意义重大;在气象领域,空间信息是气象预测的基础,能融合时空大数据的气象大数据将为大气环境监测、农业灾害监测提供强有力的支撑;在交通领域,融合了地理位置信息、空间信息的时空大数据将是应急处置的重要决策依据,可以提高应急交通指挥决策的科学性。因此,进一步研究时空大数据表示、度量和理解的基本理论和方法,揭示时空大数据与现实世界对象、行为、事件间的对应规律,将大有可为。
[1]Li,X.,H.Xu,et al.Potential of NPP-VIIRS Nighttime Light Imagery for Modeling the Regional Economy of China[J].Remote Sensing,2013(3) :3057-3081.
[2]Elvidge,C.D.,K. E.Baugh,et al.Relation between satellite observed visible-near infrared emissions, population, economic activity and electric power consumption[J].International Journal of Remote Sensing,1997,18(6):1373-1379.
[3]Henderson,J.V.,Storeygard,A.,Weil,D.N.Measuring economic growth from outer space[J],National Bureau of Economic Research,2009.
[4]Chen,X.,Nordhaus,W.D.Using luminosity data as a proxy for economic statistics[A],Proceedings of the National Academy of Sciences[C],2011,pp.8589-8594.
[5]Ghosh,T.,Powell,R.L.,et al.Shedding light on the global distribution of economic activity[A],The Open Geography Journal[C],2010,pp.148-161.
[6]Agnew,J.,Gillespie,T.W.,et al.Baghdad nights: evaluating the US military “surge ”using nighttime light signatures[A],Environment and Planning A[C],2008,pp.2285-2295.
[7]Witmer,F.D.W.and J.O'Loughlin.Detecting the Effects of Wars in the Caucasus Regions of Russia and Georgia Using Radiometrically Normalized DMSP-OLS Nighttime Lights Imagery[J].Giscience & Remote Sensing,2011,478-500.
[8]Li,X.,Chen,F.,Chen,X.Satellite-observed nighttime light variation as evidence for global armed conflicts[A].IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing[C],2013,pp.2302-2315.
国家重大设备专项(No.2012YQ16018505);科技支撑计划(No.2013BAH42F03);教育部新世纪优秀人才资助计划(NCET-12-0426);湖北省自然科学基金杰青项目(No.2013CFA024)和武汉大学创新人才项目(No.2042014kf0212)