APP下载

大数据时代气象数据分析应用的新趋势

2014-04-08李社宏陕西省气象局西安710014

陕西气象 2014年2期
关键词:气象时代信息

李社宏(陕西省气象局,西安 710014)

大数据时代气象数据分析应用的新趋势

李社宏
(陕西省气象局,西安 710014)

简要介绍了大数据的概念和特征,以及大数据时代的思维变革方式,通过案例引述,从数据采集、数据存取、数据挖掘和信息发布等方面探讨了大数据时代气象数据分析应用的新趋势,提出了应对思路和方法。

大数据时代;大数据思维;气象数据分析应用

大数据分析应用一般可分为两个方向:一个方向侧重于数据的处理与表示,主要强调数据采集、存取、加工和可视化方法;另一个方向则侧重于数据本质特征的提取和模式发现,即数据挖掘[1]。近些年来,气象部门高度重视气象数据的采集工作,建设改造了大量国家气象站、区域站、天气雷达、气象卫星、闪电定位、大气电场、土壤水分、能见度等自动化观测设备,采集到的数据“爆增”,气象数据采集呈现出了显著的大数据特征。然而,在气象数据存取、加工、可视化、挖掘分析、精准发布等环节,还存在不少问题,主要是不能很好发挥这些海量数据的作用。究其原因,是因为没有做好充分准备,不能适应悄然而至的大数据时代,没有学会用大数据的思维和方法解决面临的问题。

2013年被世界公认为“大数据元年”。继2012年3月奥巴马政府公布了2亿美元的《大数据研究发展计划》之后,2013年11月再度公布了涉及各级政府和私企、科研机构的多个大数据研究项目,人们称之为美国大数据战略的2.0版。在英国,虽然经济不景气、财政紧缩,但政府依然为大数据一掷千金,2013年初,英国政府宣布注资3亿美元用于大数据项目。大数据引爆的大变革、大竞争、大挑战正在迅速发酵、蔓延。根据互联网数据中心的研究结果,2011年全球产生的数据总量达到1.8 ZB(1 ZB=1 024 EB,1 EB=1 024 PB,1 PB=1 024 TB,1 TB=1 024 GB,1 GB=1 024 MB,1 MB=1 024 KB,1 KB=1 024 B),每年产生的数据总量还在以60%的速率高速增长,到2020年,全球每年产生的数据总量将达到35 ZB。2013年,中国产生的数据总量达0.8 ZB,较2012年翻了一倍,相当于2009年全球的数据总量,到2020年,将是2013年的10倍,达到8.5 ZB[2]。

目前,中国气象局所保存的数据总量约为5 PB,每年新增数据量接近1 PB,这些数据包含了地面观测、卫星、雷达和数据预报产品等几大类。以这些数据为主,构成了气象部门的大数据,即“气象大数据”[3]。

1 大数据与大数据思维

1.1 什么是大数据

维基百科对大数据的定义,是指利用常用软件工具捕获、管理和处理数据所耗时间超过可容忍时间的数据集。一般认为,大数据具有“4V”特征:第一,数据量大(Volume),从TB级别跃升到PB级别;第二,数据类型多(Variety),有传统的结构化数据,更多的是音频、视频、图像等非结构化数据;第三,数据处理速度快(Velocity),遵循“1秒钟定律”,即1秒钟之内完成数据分析处理,输出结果;第四,价值密度低(Value),有效信息占总信息量的比例很小,常常淹没其中,难以发掘。

大数据的本质并不在于“大”,而在于以崭新的思维和技术去分析海量数据,揭示其中隐藏的信息、知识、人类行为等,进而由此创新产品、服务、管理,或是预测未来趋势。所以,大数据既指海量的数据,也指处理海量数据的技术和工具,还指利用海量数据的思维方式[5]。

从定义可以看出,大数据与传统数据显然不同。举一个很形象的例子,如果把数据比作“水”,把有价值信息比作“鱼”,则大数据分析就好比“大海捕鱼”,传统数据分析好比“池塘捕鱼”。首先,二者规模不同,这点很好理解;其次,大海中鱼的种类多,池塘中鱼的种类少;再次,在池塘中捕鱼,事先能判断出究竟能捞出些什么,而在大海中捕鱼,常常不清楚能捞出什么,经常需要根据上一网捞出的东西,判断下一网可能会捞到什么,还要根据季节、天气等因素,决定到哪里去捞;最后,“大海捕鱼”和“池塘捕鱼”使用的工具会截然不同,“池塘捕鱼”使用一种或很少几种渔网即可,而“大海捕鱼”使用的工具要复杂得多。

1.2 大数据时代的思维变革

英国人维克托·迈尔-舍恩伯格被誉为“大数据时代的预言家”,他于2012年出版了风靡全球的《大数据时代》,他指出大数据带来的信息风暴正在变革我们的生活、工作和思维,大数据开启了一次重大的时代转型。根据舍恩伯格的观点,现有的认知体系是建立在原来数据稀缺背景下的,在大数据时代,人们思维和工作方式必须发生变革。第一,要分析与事物相关的所有数据,而不是依靠分析少量数据样本,即“要总体、不要样本”,或者“样本等于总体”。第二,要乐于接受数据的“杂、乱”,而不再追求数据的精确性,即容许错误数据存在。第三,相关关系比因果关系更重要,即只关心“是什么”,不关心“为什么”[4]。气象部门以旧思维分析数据的传统根深蒂固,在大数据时代实现上述三个思维变革尤为重要,也会非常艰难。

2 大数据给气象数据采集、存取、分析和发布带来的影响

2.1 数据采集

当前的气象数据采集已经呈现出明显的大数据特征。但是,这仅仅是数据量的“爆增”,还不是真正意义上的大数据。实际上,大数据更侧重于研究非气象类数据、或者是看起来与气象毫无关系的数据,在这些数量超大、而单个数据有效价值低的数据中挖掘出有价值的信息。因此,气象大数据采集不仅包括传统的气象数据,还包括其他任何可能用到的数据。如:哪些人在什么时间关注哪一类天气信息,某一类商品的销售信息,航班信息,用户访问气象网站的时间、地点、浏览内容、滞留时间,网络社区交流内容,手机应用使用情况等。气象大数据采集的一般特征表现为:自动、客观、单个监测点成本低、实时性强、数据量大、数据质量不高、间接性等,同时还具有物联网的特征。下面给出几个有趣例子。

2010年,联合国哥本哈根世界气候大会期间,美国麻省理工学院的学生设计了一款自行车辅助工具——哥本哈根车轮。车轮内置了一些监测装置,可以对路况、温度、湿度、一氧化碳等信息进行监测,GPS帮助记录位置信息。通过蓝牙模块与智能手机关联,骑车人可以参考这些实时数据调整自己的出行计划。更有意义的是,还可以将这些数据上传,帮助建立一个庞大的环境状况数据库,绘制出城市环境地图。

2011年,美国国家气象局在美国2 000辆客运大巴上安装了传感器,随着巴士的移动,这些传感器可以搜集沿途所有地点的温度、湿度、光照度等数据,并立即传回国家气象局数据中心。数据采集每10秒一次,每天每个传感器要采集10万次以上的数据。与此情况类似,该国邮政局计划在他们的邮政车上安装传感器,实时采集空气质量、污染指数、噪声等数据。

英国的研究人员在智能手机里安装了气压、温度、湿度传感器,随时随地、不知不觉的测量并发送这些信息到国家气象数据中心。虽然发出的可能是用户口袋里的温度,但是他们已经研究出了相应的模型,通过大量这样不太准确的数据计算出高分辨率、实时的城市温度分布图。

2.2 数据存取

大数据存取面临两个方面的问题。一是存储容量问题,当前省级气象部门应达到PB级水平。二是存取速度问题,要满足“1秒钟输出结果”定律。这两个问题既相互矛盾,又相互关联,必须统筹解决。解决这两个问题的关键不在于存储系统扩容,而在于系统架构设计和数据分析算法。需要应用分布式存储、分布式计算、云计算、非结构化数据存储等新技术,改造现有的信息系统,建设满足大数据需求的数据中心。

2.3 数据挖掘

气象部门开展数据分析由来已久,而在大数据分析领域还是新手。大数据分析为气象数据分析提供了全新的思路、方法,也开辟了广阔的发展空间。

大数据的核心是“预测”。大数据之所以能预测未来,靠的是对相关关系的把握,通过相关关系分析过去,获得对未来的预测。例如:“清明时节雨纷纷”这个结论不是逻辑推导出来的,而是人们通过多年观察,发现每年清明前后总是下雨比较多,于是总结出这一规律,运用此规律即可做出预测。这是一种传统的统计学分析,实际中的大数据分析比这要复杂得多。传统统计学方法对样本数据的正态性假设、变量的独立性、变量个数、假设检验等要求较高,而大数据分析(即数据挖掘)则是对传统统计学方法的扩展和延伸,侧重于应用高维建模、多模式建模、复杂网络建模、非参数模型等新技术,从种类繁多、数量庞大的数据中快速获取有价值的信息。

“多维”和“混搭”是大数据分析的重要特征。许多成功的大数据应用案例,都是从似乎毫不相干的数据中找到了相互之间的相关关系。美国天气预报公司长期以来都在向航空公司和能源交易商销售天气预报服务。而现在,他们不仅仅能够提供天气预报,还能依据人们查看天气的时间、地点和频次等情况,预测人们的消费行为。借助大数据分析技术,该公司帮助广告主投放高度精准的广告,如空气干燥时推销保湿型洗发水等。

大数据与“预防性维修模式”。美国一家运输公司通过“任何数据都不能少”计划,从成千上万的货车运输系统中搜集了900个数据元素,包括轮胎和汽油使用的传感器、引擎运行、GPS定位数据,以及货车司机在博客上的抱怨等。通过对这些数据的集成分析处理,可以预测哪辆车的哪个部件什么时候可能出现故障,建立了“预防性维修模式”,取代了过去出现故障后再进行抢修的“救火维修模式”,取得了很好的效果。这个案例对综合气象观测系统的运行保障有很好的借鉴意义。

2.4 信息发布

气象信息、特别是气象预警信息不仅要发得快、还要发得准,才能保证在这个信息过载的时代,气象信息被阅读而不被忽略。如何实现气象信息的精准发布和个性发布?气象部门为此大动脑筋,大数据也许是解决这一问题的利剑。

目前使用墨迹天气、天气通等应用,用户可定制个性化的气象服务。未来用户还可依据用户前期的上网记录、位置信息、消费记录等,推送个性化的气象信息,甚至包括家里的电视天气预报节目、办公室的电脑都可根据浏览记录、个人爱好、天气情况等自动推送个性化的内容。内置了位置、方位、震动等多种传感器,且操作方便、互动性强的智能手机将是大数据时代气象信息精准发布和个性化发布的重要渠道。同时,通过智能手机把气象灾害现场的视频、图片、音频及时发送给数据中心,也有重要的意义。

美国国家天气服务局推出了“无线紧急预警系统”,这个系统可以根据暴风或者恶劣天气通过的路径来确定会受影响的人群,从而发送信息,而不是以一个省或一个市为单位盲目群发。具体的说,该系统不是根据手机用户的注册地址来推送预警信息,而是根据用户手机发出的信号,来判别其是否位于灾区之内,再决定是否发送信息,这样既提高了预警信息发布的精准度,又减少了不必要的信息扰民。

4 结语

大数据对气象部门的影响远远不止上述几点。从政府运行角度讲,气象数据向社会开放是大势所趋,数据开放能够大大驱动全社会参与创新[6]。从管理角度讲,要学会以数据为基础,进行决策、管理和工作。从公共服务角度讲,要学会应用大数据分析用户需求,持续改进服务质量。另外,驾驭大数据需要高质量的数据分析师,这是人力资源管理方面应关注的。当然,大数据并不尽善尽美,信息安全和保护个人隐私将是大数据时代面临的严峻挑战。

大数据时代已经来临,一场改变世界格局和人类生活的大数据革命即将引爆。谁掌握了大数据,谁就将在这个时代胜出。谁漠视大数据,等待他的只有落后。

[1] 王星.大数据分析:方法与应用[M].北京:清华出版社,2013.

[2] ZDNET.数据中心2013:硬件重构和软件定义[EB/OL]. [2014-02-21].http://itpapers.zdnet.com.cn/itpaper/detail/3/24234.shtml.

[3] “气象大数据”以何种方式在气象领域蔓延?[EB/OL].[2014-02-18].http://www.chinawuliu.com.cn/zhxw/201402/18/278296.shtml.

[4] 维克托·迈尔-舍恩伯格,肯尼斯·库克耶.大数据时代[M].盛杨燕,周涛,译.杭州:浙江人民出版社,2013.

[5] 徐继华,冯启娜,陈贞汝.智慧政府:大数据治国时代的来临[M].北京,中信出版社,2014.

[6] 涂子沛.大数据[M].南宁:广西师范大学出版社,2012.

李社宏.大数据时代气象数据分析应用的新趋势[J].陕西气象,2014(2):41-44.

编者的话:目前气象观测资料包含有海量信息,呈现出了显著的大数据特征,气象大数据采集不仅包括传统的气象数据,还包括其他任何可能用到的数据,数据分析不仅仅涉及气象业务和科研方面,而且涉及到决策、管理及公共气象服务等许多方面。基层气象科技人员常反映写文章难,实际上,许多气象科学的重大发现和论断的提出都是基于气象观测事实和观测资料分析而完成的。基层气象台站拥有许多宝贵的第一手气象数据,同时基层科技人员对气象数据有着深刻的理解,因此,基层台站开展数据分析有天然的优势。为帮助基层年轻科技人员提高业务技能和科研能力,鼓励他们开展气象数据的分析应用,本刊特约陕西省气象局观测网络处处长李社宏撰写了《大数据时代气象数据分析应用的新趋势》一文,为气象数据分析应用提供了全新的思路。《陕西气象》将对基层作者有关数据分析应用的论文优先刊载。

1006-4354(2014)02-0041-04

2014-02-21

李社宏(1969—),男,汉族,陕西周至人,高级工程师,主要从事气象业务管理。

C

猜你喜欢

气象时代信息
气象树
《内蒙古气象》征稿简则
大国气象
美丽的气象奇观
订阅信息
e时代
e时代
e时代
展会信息
健康信息