大数据时代对地观测卫星的发展现状与趋势
2014-01-09北京空间科技信息研究所刘嘉宁
· 文|北京空间科技信息研究所 刘嘉宁
大数据时代对地观测卫星的发展现状与趋势
· 文|北京空间科技信息研究所 刘嘉宁
本文围绕对地观测这一核心卫星应用产业,通过对国内外优秀企业利用大数据技术和思维从卫星应用层面改变传统产业格局和提升数据处理效率典型案例的调研分析,把握大数据技术与对地观测产业的共通点、交汇点,结合国家军民融合政策,从市场需求角度促进两者融合,进而优化整个卫星应用产业布局,扩宽航天技术应用产业的发展路线。探讨了大数据研究面临的科学问题和技术挑战,为研究机构和人员提供参考指南。
对地观测卫星 遥感图像 众包 大数据处理
一、前言
对地观测是人类利用卫星、飞船、航天飞机、飞机以及近空间飞行器等空间平台和地面、地下的各种传感器设备获取观测数据,结合各个学科的专业知识,对地面物体和地理过程进行监测和预测的科学活动,其目的是更加深刻和科学地揭示人类社会活动所依赖的地球环境和人地环境的规律和变化,增强人类对地球的利用和适应能力。对地观测研究工作具有非常明显的信息学特征。因此,除了地球科学方法论外,信息科学方法论也对对地观测科学活动有非常重要的指导意义。对地观测研究很大程度上是围绕着“信号—数据—信息—知识”的数字化信息过程来展开的,并构成了“信息获取—信息传输—信息存储—信息加工—信息挖掘—信息呈现”的数据全生命周期。
从信息科学的角度来看,对地观测领域知识发现的方法主要是确定模型分析方法。在遥感技术的发展初期,观测数据量较小,用于数据挖掘分析的理论和模型也不够成熟,因此更多是依靠专业人员的目视判读进行信息解译和勾绘制图,然后再利用其他学科的知识对获得的信息进行修正。这种方法显然不能满足日益增大的观测数据量和日益复杂的应用模式需求。在数据量不断增大、信息提取精度不断提高的情况下,依赖于计算机处理的数据分析新模式出现了。遥感信息反演的定量化成为对地观测信息深度应用的趋势,这种能力也随着计算机处理能力的提升不断提高,逐步满足了MB(220字节)、GB(230字节)、TB(240字节)甚至部分PB(250字节)量级的数据分析和信息挖掘工作,从应用上解决了较大地理尺度上的复杂地学问题。提升计算机的处理速度和存储设备的规模已经成为解决观测数据量增大和信息模型复杂化所带来的问题的一个很好的途径。进入21世纪以后,对地观测技术又呈现出很多新的发展趋势,其中大数据的出现给对地观测的研究带来了全新的挑战和发展机遇。近年来,随着对地观测需求的增加和技术的进步,各种类型传感器获取数据的能力不断提高,使得国内外以专业化、行业化为特征的各类数据中心迅速崛起,对地观测领域成为数据密集型计算的一个典型应用。整个对地观测系统流程突出体现了“需求牵引—知识驱动”的概念和原则,形成了以社会需求为先导来发展对地观测卫星、传感器、平台、数据传输、信息处理、应用模型及相应科学理论的发展模式。
二、对地观测领域的大数据现象
在对地观测领域,各类分辨率的卫星产生的遥感信息无疑属于大数据。以我国遥感卫星为例,2008年发射的风云三号A星搭载着20通道的中分辨率光谱成像仪和10通道的可见光近红外扫描辐射计,实现了对整个地球进行连续观测,随后与2010年和2013年发射的风云三号B星和C星组网,对地球开展每天6次的观测。卫星观测数据切割成5分钟段的数据文件,又将250m和1000m中分辨率光谱成像仪的数据分别存放,每天产生的数据文件和数据量均非常巨大。要管理、处理和分发这些全球数据需要运用“大数据”的方式,而且需要大量的数据科学家开展基础研究工作,研究算法,从数据中实时提取地球参数信息,进而为科研、业务的数据信息需求服务。这一事实充分说明了从海量遥感数据的获取、存储、提取与分发、数值处理,到数据挖掘和知识发现,对地观测活动的整个生命周期体现了大数据的“4V”特性:数据体量大(volume)、数据来源和类型繁多(variety)、数据的真实性难以保证(veracity)、数据增加和变化的速度快(velocity)。
国际上,美国和欧洲处理和分发中分辨率数据较中国稍早几年,美国处理MODIS数据和产品的方式、欧洲处理ENVISAT/MERIS数据和产品的方式可为我们借鉴。由于美国没有MODIS的后续卫星计划,数据的供给将随着传感器的失效而终止。欧洲的ENVISAT/ MERIS于2012年失效,只能提供2002-2012年间的数据。中国风云气象卫星规划已持续到2020年,因而,在未来几年,中国的风云卫星中分辨率遥感数据在国际上将是重要的数据源,向全球用户提供优质的数据和产品,将是中国数据科学家肩上的重任。
1. 观测平台和传感器的数据获取
遥感数据获取是由载有成像传感器的遥感飞行平台来完成的。遥感飞行平台的发展体现在:①先进的卫星对地观测系统,包括大型的综合卫星平台与小卫星星座;②先进的集成高—中—低空飞行作业的航空遥感平台;③全面一体化的对地观测综合系统。未来的传感器搭载平台将是由相辅相成的高中低轨道上的大小卫星平台和高中低航空平台组成的,天地一体化、全球性、立体和多维的观测体系[1]。与此同时,对地观测传感器的数据获取能力将向着“三高”(高空间分辨率、高光谱分辨率和高时相分辨率)和全天候方向发展[2,4]。遥感平台和传感器的技术进步使得获取的数据量大幅度增大。比如刚刚退役的Landsat -5卫星在其29年的在轨工作期间,平均每年获取8.6万景影像,每天获取67GB的观测数据。而2012年发射的资源3号卫星,每天的观测数据获取量可以达到10TB以上。类似的传感器现在已经大量部署在卫星、飞机等飞行平台上,未来10年全球天、空、地空间中部署的百万计传感器每天获取的观测数据将超过10PB。
2.天-空-地一体化的对地观测数据网络传输
巨大的观测能力需要通过覆盖天-空-地的高速数据传输网来实现对地观测平台和全球地面接收站网络之间的数据传递。这种传输能力要通过一个由光缆、地面微波、蜂窝移动通信和低、中以及静止轨道的卫星通信系统组成的、服务于全球的、无缝隙覆盖的、全球一体化的高速天-空-地对地观测数据传输网络实现[3,4]。现在,单个传感器的信号下传速率已经突破了Gbit/s。
3.海量数据的快速处理
标准遥感产品的快速生成需要高吞吐量、高精度及自动化的分布式数据处理能力,以满足规模化、业务化的标准产品生产的要求。标准产品快速处理的突出特点是即时性和大吞吐量,兼有数据密集、计算密集的性质。海量遥感数据的处理需要利用庞大的网络计算资源,通过并行计算、分布式处理以及集群计算技术来实现网络化大数据量处理及多机分布式并行处理,以满足应用的需求。我们可以利用网格技术把分散在不同地理位置的计算机组织成一个“虚拟的超级计算机”,来提供高性能和高吞吐量的计算环境,为完成计算密集型任务提供有力的手段;同时充分利用网络上多种闲置计算设备的处理能力,完成传统计算模式下不能完成的各种大数据量的计算任务,从而保证标准产品的快速处理和生成[5]。
4.下一代空间数据设施
下一代空间数据设施建设将以全球尺度问题求解和多样化实体数据设施建设为前提,基于传统空间数据设施和联邦数据设施,通过松耦合形式建立一种非中心化、虚拟化、按需服务化和全球化的数据服务体系。分布在世界各地的各种对地观测数据中心,将在下一代空间数据设施的连接下,面向特定专题,与高性能的信息化设施结合,动态形成大量专业化的虚拟数据设施。这些设施不仅可以汇聚和提供超大规模的数据,还具备对数据进行深度加工和挖掘的计算能力。地球观测组织(GEO)所推动建立的全球综合地球观测系统(GEOSS)就是一种下一代空间数据设施,这种设施管理和处理的都是超大规模的对地观测数据和空间数据。
5.热点信息实时挖掘
灾害信息、军事信息和应急信息等热点信息实时挖掘是对地观测应用中非常重要的方面。我们可以充分利用现代对地观测系统灵活、及时的特点,综合其中丰富的电磁波信息进行数据分析和挖掘。在传统遥感应用中,在特定数据范围内进行热点信息发现和过滤,一般都需要比较精确的模式、较大的运算量和较长的处理时间。现在,在面向事件驱动的应用方式下,热点信息的发现技术呈现前置的趋势,不再仅局限在对数据中心的特定产品数据进行分析,而是要在尽量靠前的环节去挖掘,这样可以更加准确和及时地发现和预警。在数据流计算中,可以通过设计合适的匹配滤波器或者模式识别算法来对输入数据流进行动态过滤,以捕捉所需要的热点数据,并对热点进行自动检测。在轨数据热点检测主要应用于灾害识别与检测领域,例如飓风、野火、火山爆发等的自动识别以及整个传感网网络异常检测等[6]。
6.多中心协同的信息反演
全球环境变化使得全球的科学家开始就全球性效应和全球尺度问题进行联合工作,对地观测数据作为极其重要的数据源在这些研究中发挥了巨大作用。但是每个观测计划都有其在波谱、时间和空间上的特定性和局限性。一方面体现为数据来源于遍布全球的多个数据中心,数据量巨大频繁大量的网络传输将大大影响科学家研究工作的效率;另一方面计算工作本身需要在分布的环境下进行,因为对地观测数据的处理和分析方法在很多情况下无法由某个单位单独掌握和使用。因此全球性问题的研究需要多个互补观测系统之间的合作,具体而言就是多个数据中心之间协同合作。对于这种全球规模数据的处理,各个存档数据中心分头进行统一参数下的计算,显然比将如此巨大的数据量进行全球移动要更合理,也更为可行。
7.灾害和响应
对地观测技术通过卫星等远程仪器获取关于地球表面的信息,可以准确、频繁和实时地提供全球任何地方大片区域的数据。许多传感器用于灾害监测,例如热传感器可以发现活动的火源,红外传感器可以发现洪水,而微波传感器(能穿透云和烟)可以用于测量在地震前和地震中或火山喷发时地球的变形。对地观测领域的灾害监测有两个难点:实现影像数据在轨实时处理和高频率大数据量数据的快速传输。传感器的高精度定位是实现影像数据在轨实时处理的基础。为了保证变化检测、目标提取、几何纠正等增值数据产品在轨处理的准确性,传感器必须有高精度的定位参数[7]。
8.数字地球与未来地球
作为和对地观测衔接的科学框架,数字地球是一个广泛的以信息高速公路和空间基础设施为依托的概念,其核心思想是用数字化手段整体性解决地球的各种科学问题,并最大限度地利用信息资源。未来的数字地球不再局限于进行地学数据的表达和呈现,而将成为一种对地球的各种学科的数据和模型进行综合分析的平台。同时,由国际科学理事会(ICSU)和国际社会科学理事会(ISSC) 共同发起的“未来地球”计划将多学科交叉研究推向更加重要的位置。不论数字地球还是未来地球,其多学科的高度数据复杂性是非常显著的信息特征。和常规的单学科研究不同,在这种综合研究场景中,信息技术要面对的是多学科复杂数据类型之间的数据建模、数据发现和数据整合问题。
三、大数据在对地观测领域应用的典型案例
大数据时代的对地观测技术为发展空间地球信息科学奠定了基础,从对地观测过程的信息学特征可以清晰地看到此领域大数据的发展趋势。但目前大数据研究普遍存在着“只有数据、没有利用”的问题,导致搜集数据、存储数据付出的成本被浪费。据报道,通过遥感卫星获得的影像数据中,目前得到应用的不到5%,多半数企业不知如何从数据中获得价值,因此这个问题急需解决,下面将介绍一些国内外创新企业利用大数据技术为遥感图像应用找出路的典型案例,希望能够扩宽我们的视野并从中得到有价值的借鉴。
1.Digital Globle:遥感图像+大数据分析助力寻找马航MH370迷踪
马航失联客机MH370去哪儿的问题,牵动着全世界的心。为了找出谜题的答案,寻回239名乘客的信息,各方为此动用了许多手段,包括直接分析飞机上设备发出的各种信号,卫星和雷达的天罗地网等先进的科技方式,调遣各类船只前往可能事故区域搜网式调查,可惜都无果而终,就在失联事件发生的12天后,澳大利亚宣布从卫星影像中找到了疑似马航MH370失联航班残骸,广袤的洋面找一架飞机如同大海捞针实属不易,虽然还未能确定残骸是否来自于MH370,但在短短几天内在能够通过海量的卫星图片发现如此重要的线索可见其背后的数据分析能力之强大,支撑这一能力的正是大数据技术,快速定位残骸坐标体现了大数据技术在处理海量高分遥感图像上的速度优势,展示了大数据与遥感技术的融合将在灾难救援方面的关键作用。
这次提供高性能计算解决方案和云方案的Adaptive Computing公司和著名的商业遥感公司DigitalGlobe。
(1)大数据解决方案提供商Adaptive Computing
位于美国犹他州普罗沃的Adaptive Computing。其Moab数据中心平台正在被如橡树岭国家实验室、剑桥大学和The Weather Channel天气手机应用等全球不同类型的企业所使用。
Moab是Adaptive Computing公司的Big Workflow数据中心软件包的组成部分,它声称能够统合所有数据中心资源、优化分析过程并且保证服务质量。顾名思义,Big Workflow能够简化工作流程解决大数据问题,还可以将对大量数据的分析传递到多个平台、环境和位置中去。
(2)遥感图像提供商DigitalGlobe
DigitalGlobe是全球商业地球成像和地理空间信息市场的领先企业,公司使用DigitalGlobe图像对各种行业都具有极其重要的意义,包括能源勘探,地区规划,环境监控,紧急响应规划,情报和3D仿真。其客户和合作伙伴包括Google以及众多的国际公司,政府机构和新闻媒体。
DigitalGlobe操纵多颗高分辨率成像遥感卫星,代表着商用遥感成像领域的最前沿,较现有的其他任何商业化卫星图像而言,它能提供最大尺寸、最大星载储存容量和高分辨率的图像。
参与本次搜索行动的卫星数据来自以下5颗卫星:Worldview-1(拍摄精度0.5m),Worldview-2(拍摄精度0.46m),GeoeEye-1(拍摄精度0.41m,681km轨道高度),QuickBird(拍摄精度0.61m,450km轨道高度)和IKONOS(拍摄精度0.82m)。
2.Skybox Imaging:迈向大数据时代的商业遥感成像公司
Skybox成像公司成立于2009年,目前员工不到60人,是名副其实的“小”公司,但却在多轮融资中备受风投的青睐,麻省理工学院技术评论将其评为2012年最具“摧毁性”的50家公司之一。
Skybox成像公司认为,卫星成像具有革新现有产业和催生新产业的潜质,但目前商业卫星成像时效性差、价格高昂,卫星图像及其衍生产品却不是滞后(如谷歌地图展示的图像是几年前的),就是太贵(商业情报的每单任务要价高达2000~3000美元);而且经常还要给政府的优先获取权让路,导致许多需求受到压抑,许多潜在用途无法实现。在这些方面,Skybox成像公司认为现在的卫星图像与1998年的GPS是很像的。Skybox成像公司要做的就是在卫星图像应用领域掀起一场类似GPS的大变革。
首先,在地球成像的特性上,针对目前商业卫星成像时效性差、价格高昂等缺陷,Skybox成像公司将目标设定为近实时、低成本和高分辨率,以获得后来者居上的竞争优势。该公司对成像数据的来源—卫星进行了精心设计:由12~24颗成像小卫星组成卫星星座。卫星的设计,特别是对卫星制造成本的控制,是Skybox成像公司战略上非常关键的一环。
按照Skybox成像公司的计划,其星座每颗卫星能够不用5000万美元就能建造和发射,耗资仅为数字地球(DigitalGlobal)和地球眼(GeoEye)这些传统成像公司运营的成像卫星的1/10;用省下来的钱来进行更大的在轨卫星组网,从而能够实现一天3~4次对地球上任一点进行拍摄,以满足客户对时效性的要求。
截至2013年5月,Skybox共获得融资9100万美金。Skybox募集的资金将主要用于完成两个目标:Skysat-1、Skysat-2的研发与发射,招募软件工程师和数据科学家,而后者,才是Skybox的秘密武器。
图片和视频的拍摄结合基于数据挖掘的强大的趋势分析能力,将为各行业的信息决策提供前所未有的信息支持。目前已经有大量的实际应用,领域涵盖从商业智能和金融贸易到灾难救援和人道救援。
为了达成这一目标,Skybox正在建设一套基于Hadoop的大数据分析系统,用于处理并分析图像等数据,从中发现趋势。大量招募数据科学家,尤其是那些在Skybox目标市场有从业经验的专家将非常关键。这些专家肩负着从图像数据中发现特定领域价值信息的任务。
在这些原始卫星图像经过大数据分析平台的处理后,用开发的基于云的数据分发系统,便捷地分发到客户手中。用户随时登录其云服务平台,完成身份认证,就能抓拍到地球上任一点的最新照片。Skybox成像公司计划每8h就更新一次,在一个用户界面友好的网页平台有效地按日程收集、下载和处理图像产品。
3.禾讯科技:商业化卫星遥感服务现代化农业生产
农业是生命之源、发展之基。由于农业资源、环境及多样化的生产经营方式,农业大数据涉及到水、土、光、热、气候资源,作物育种、种植、施肥、植保、过程管理、收获、加工、存储、机械化等环节会产生大量结构化和非结构化数据,而且随着农业科技创新发展和物联网的应用,非结构化数据呈现快速增长的势头,其数量将大大超过结构化数据,为保障“舌尖上的安全”,利用大数据技术对不断产生的大批非结构化数据的信息获取、挖掘、存贮、处理与智慧应用是农业现代化不可或缺的手段。
目前公司主营业务为在全球范围主产区内监测农作物的长势并准确预估产量,定量评估灾害后农业生产受损程度从而帮助期货或者现货从业者更好的把握基本面情况,预测价格走势,帮助保险公司快速对灾害进行准确响应。服务对象包括政府、农产品期货公司、农产品贸易公司、财产保险公司等。
美国农业部是目前市场上唯一的权威信息垄断发布机构,禾讯公司成立之初就已“打破美国农业部农业信息领域垄断,让中国也能够发出自己的全球粮食生产情况的声音”为目标,近几个月公开发布的信息也证明了其实力:近期连续发布出来的大宗作物估产信息比美国农业部提前半个月时间,信息准确度也保持在97%到99%之间。
创始人向涛将禾讯定义为一家卫星大数据应用的公司,其运作模式的本质就是通过整合各种卫星数据,搭建出一个开放的数据平台为社会提供服务,将遥感卫星技术和人们的真实需求结合起来,从而建成一个公开的信息服务平台,利用卫星提供全球范围内最新的、最客观的动态信息监测服务,让所有对此类信息感兴趣的个人或机构都可以通过该平台进行查阅。形式上就如同一个网上商店,将数据在平台上开放,一些机构或个人就能够基于我们的开放数据做各种分析,经过分析形成的模块就可以为用户提供有价值的服务。
随着未来形势的变化,卫星数量会越来越多,经由卫星产生的数据也将出现爆炸式增长。同时,随着全球化的迅猛发展,人们的生活会被各种看不见、摸不着、甚至很遥远地方发生的事情所影响,蝴蝶效应愈发明显,人们对世界范围内的信息需求也会越来越大。农业乃我国立国之本,禾讯利用大数据技术辅佐商业遥感成像为关系到国民生活基本保障的农业保驾护航可谓好钢用在刀刃上,必将大有作为。
四、大数据情境下对地观测研究的发展趋势
1.从量变到质变
对地观测领域的大数据现象,在不同尺度上对现有的技术水平提出了挑战。对地观测领域的大数据现象包括4个方面:①数据量剧增,已经达到PB量级;②数据类型多样,来自空基、天基的各种不同成像机理及数据获取方式、不同时空分辨率和光谱特性的传感器数据和地面台站的观测数据及实验模拟数据、统计数据等构成了纷繁复杂的数据类型;③应用场景众多,目前对地观测数据在气象、水文、能源、农林种植、工矿开发及灾害应急等诸多领域体现了其应用价值;④应用服务时间尺度多种多样,天气预报、灾害应急等需要实时或准实时的数据分发反馈,而地图测绘、土地变化等则需要中长期的对地观测数据,不需要高时效性[9]。
2.多数据中心协同处理
传统的对地观测知识发现的科研模式在大数据情境下已经不再适用,原因是传统的科研模型不具有普适性且支持的数据量受限,受到数据传输、存储及时效性需求的制约等。因此,新知识正更多来自于大数据的使用,数据生命周期中信息学流程的变化正引发传统科研模式的变化。以“用户需求”为导向的对地观测活动,需要为有不同应用需求的用户提供恰当的数据产品及信息资源,要求对地观测数据实时处理及快速分发。实现这一目标的关键是多中心协同计算,通过构建分布式多中心计算环境,将大量松散绑定或独立的数据处理任务动态分配给闲置计算资源,实现资源动态调度及任务分配。目前需要解决的问题是如何实现有效地调度计算资源及跨异构系统计算时如何维持系统的高性能等。
3.模型驱动到数据中的知识发现模式
传统的数据生命周期信息学流程是从数据到信息,再通过模型进行知识发现。而随着数据量的爆炸式增长,可用模型已不能对海量数据进行模拟推演,因此由模型发现知识的传统方法已经不能适应大数据时代的需求。
4.多学科交叉的科学研究
全球性的资源、环境问题日益凸显,使得全球变化问题和可持续发展成为全世界科学家关注的焦点和研究的重点。全球变化的研究对象包括大气圈、水圈、生物圈、人文圈并涉及外层空间,需要理解并掌握这些圈层中各个要素之间的物理、化学、生物、人文的影响过程和规律,需要自然科学、社会科学和工程科学相融合的面向大数据的新科学研究方法,也需要科学数据和互联网数据之间的全新耦合和整合方法。
[1] 李德仁.地球空间信息学的机遇.武汉大学学报,2004;29(9):753~758.
[2] 王毅.国际新一代对地观测系统的发展.地球科学进展,2005;20(9):980~989.
[3] 承继成.数字地球导论.科学出版社,2006.
[4] 国家遥感中心.地球空间科技信息科学技术进展,2009;1.
[5] 李盛阳,张爱军,朱重光,等.基于网络的遥感图像快速处理.计算机工程,2007;33(6):35~37.
[6] Hampapuran Ramapriyan,G.M.,Stephen Morse,et al.Intelligent systems technologies to assist in utilization of earth observation data. Earth Observing Systems IX,2004;5542.
[7] 李德仁,沈欣.论智能化对地观测系统,2005;30(4):9~12.
[8] Chen,N,et al.Geo-processing workflow driven wildfire hot pixel detection under sensor web environment,Computers &Geosciences,2010;36(3):362~372.
[9] 李国庆,邬延群.大数据时代的对地观测科学研究.中国计算机学会通讯,2013;第九卷,第九期.