建设大坝监测的大数据应避免的问题
2015-04-08王卫列
王卫列,高 岚
(1.国网电力科学研究院,江苏省南京市 211106;2.国网电力科学研究院,江苏省南京市 211106)
建设大坝监测的大数据应避免的问题
王卫列1,高 岚2
(1.国网电力科学研究院,江苏省南京市 211106;2.国网电力科学研究院,江苏省南京市 211106)
目前国内各个行业都在上大数据项目,大坝监测行业也是一样,但行业内存在对大数据技术概念认识模糊的现象,在技术构想方面有一些盲动现象。本文探讨了大坝监测大数据建设中可能存在的一些错误思路,希望能促进同行一起思考,避免走弯路。
大数据;大坝监测
0 前言
无疑,大数据和云计算是当下IT的发展热点,随之国内很多新的IT项目纷纷贴上了大数据和云计算的概念标签,然而由于处于大数据系统的发展初期,各自对其的认识存在不同,不免会出现一些不成熟的发展思路,本文结合大坝安全监测信息系统引入对大数据的展望,探索其发展过程中应避免的各种问题。
1 应该避免的问题
1.1 传统系统的重复建设
很多新大数据项目都声称将极大地提高决策和智能水平,然而仔细审视这些项目的内容却发现其实质还属于“新瓶装老酒”,只是用大数据的概念装饰了一下。
例如,建立某个数据中心,主要内容是将多个工程现场的数据汇集到中心,然后在中心通过与工程现场相似的应用系统再分析处理这些数据,其内容实质还是一个传统的系统,只是搬了个家,常常发现其挖掘的数据价值并没有发生超越。
对这种系统我们应该有鉴别能力,避免国家的重复投资。
1.2 有Hadoop就是大数据
很多人认为有Hadoop(或其他类似系统,如Spark等)就是大数据了,于是只重视创Hadoop系统然后将各路工程的数据汇入,然后声称实现了某大数据系统,其实Hadoop只是解决了大规模存储和并发,虽然突破了大数据的几个关键技术瓶颈,但远远不是大数据的全部,再者在并发和存储方面Hadoop还不是唯一的解决方案。
验证是否是大数据,可以参考业界提出的4V特征,Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值),其中value是大数据的终极目标,也就是通过对大数据的分析来获取以往传统系统难以得到的有价值的信息,从而获得巨大的经济和社会效益,如果只是停留在用Hadoop及类似系统解决了前3个V的话,那么这样的大数据系统只是徒有其表。
以后在鉴别大数据系统的真伪时,不要被Hadoop之类的数据术语所遮目,要全面考量4V在系统中的必要性,尤其要看清能为我们带来什么分析价值(即value)。
下面我们具体结合大坝监测信息系统来分析是否符合4V特性。我们曾做过一次试验,我们的在系统存储了2亿7000万条测量数据,一共花了140G存储空间,这个数据规模相当于一天存入1万条测量数据共使用了73年(通常情况下大坝测点每天就一条测量数据),显然这种数据规模还远没有达到所谓的Volume问题(即使将多个大坝的测量数据汇聚到一起,注:这里不是说数据汇聚时直接使用工程中的原测量数据,这里只是用这个细粒度的数据做一个规模估计);另外,我们系统仅仅供少数专业人士查看,所以其并发性要求很不高,如果与阿里巴巴、腾讯等系统相比,其Velocity要求实在是太低了;在Variety方面,大坝除了测量数据外,确实还会有一些非结构化数据(如图片、视频等),但比起社交网络形成的非结构化数据,其复杂度还相对比较低,对这些数据,通过关系数据库中的BLOB和xml字段也能应付,当然在这方面,今后可能会有所发展;在Value挖掘方面,如果使用原来的大坝监测数据,则其价值已经被发掘得差不多了,在数据中心重复这样的系统,意义不大。
当然,我们不必为大坝监测数据尚不满足4V特性而去否定大坝数据在大数据建设中的作用,我们的眼光不能仅仅限制在自己的专业领域,大数据的价值发现一般是通过跨领域的数据挖掘产生,当大坝专业领域的安全监测、施工管理等数据与水情水调、气象、强震监测、堤防监测、防灾应急等系统的数据进行联合挖掘时,可以充分体现自身的价值(value),这方面是我们的空白,也是我们今后发展的方向。
1.3 无分析目标的数据汇聚
常常有这样的现象,在做大数据项目的计划时,不管三七二十一,先把分布在各厂中的多个系统数据传送到数据中心,如此缺少目的性的数据汇聚很容易形成数据垃圾,最后因做无用功而造成浪费。
我们建立大数据中心,一个很重要的目的是为了从数据中发现价值,而且是那些在我们已有系统中挖掘不出来的价值,这需要对跨领域、跨系统的数据进行分析才能获得,在这个层面上看,似乎上述的数据汇聚方式是合理的,但答案是否定的。 因为任何一个数据分析问题都需要有针对性的数据建模,只有在我们确定具体分析目标后,才能决定哪个数据源中的哪些数据列是有效的,才能确定数据格式和粒度,才能考虑跨系统的数据维度如何统一,才能确立挖掘的数据模型如何建立,如此精细的数据需求不可能通过盲动的数据汇聚得到。有人说,可以先汇到中心,然后再慢慢抽取(ETL),然而已建的子系统种类多、数据量大,无端消耗中心的大量存储实难称道,所以目的性不强的数据汇聚一定会浪费大量的人力、财力。当然,分析目标的确定不会一蹴而就,常常是一个反复迭代的过程,在其后的定义问题(确定分析目标)、数据准备、形成数据视图、数据建模和部署发布的过程中都会根据实施过程中遇到的问题反复调整分析目标,然而这些都是目的性很强的活动,我们只是花了我们必须付出的代价,只有这样才能最大程度地减少因盲动而造成的损失。
除了对大数据的认识程度以外,没有确定分析目标(定义问题)的原因很大程度上是因为这项工作的确有难度,这需要业务决策人员和数据挖掘专业人员深入进行沟通,我们常常遇到的情况是仅仅技术人员在那里空想,没有对业务问题的深入理解,是不可能完成这项任务的,所以业务决策人员不要坐等系统完成后才介入。
业务决策人员可以从业务流程的角度去发现问题(决策时需要查询的数据、预测、评估等),数据挖掘专业人员则思考如何构建数据模型,数据挖掘人员可以从技术角度提出一些问题来和业务人员沟通,另外定义问题的重点在跨系统的数据分析(单个系统能回答的问题无需数据中心来分析)。
这里举个例子来说明如何确定分析目标,申明一下,可能所涉及的业务问题不一定正确,我们只是来模拟一个确定分析目标的过程,假设我们现在要做出的是:洪水来临时,区域内多个大坝的弃、保水决策,为了支持这个决策,需要系统能回答很多数据查询和预测问题,如:目前的气象条件以及保水策略下水库水位的预测;在目前的水位和大坝的状态下,升水速率限制什么范围可保证大坝的安全?在目前的水位下,流域内大坝联动泄洪策略是否可保洪峰安全度过,泄洪时应该如何组织人力资源执行应急预案,这些问题由业务决策人员根据自己的决策流程的需要来提出,数据分析专业人员会和业务决策人员反复沟通后分析需要哪些数据以及如何数据建模,这可能涉及气象预测、洪水预报、大坝安全监测和分析、流域三维数据、历史泄洪水土流失数据、历史泄洪形成的重大民事事件、应急预案、视频监控、汛期值班任务、人力资源、抢险器材库存等数据,需要双方紧密合作来确定这些问题,然后由专业人员来采集数据、建模并实现所需的分析预测目标,如果相关基础数据缺失,还可以提出相应的数据建设需求。
总之,尽管确定分析目标是困难的,但是这是我们大数据分析的出发点,必须从这里开始考虑。
1.4 大数据中心没有自己的研发队伍
国内某些单位常有这样的习惯性思维,就是要搞什么系统就是委托第三方厂家研发一套,最后经过安装、培训来接手这套系统,然而如果要建的是具有大数据概念的数据中心,则需要改变这种思路。可以仔细了解一下已有的大数据系统(阿里巴巴、腾讯、亚马逊,Microsoft Azure),无一不是自己的研发队伍在运维这套系统;不然进场的各应用厂家各行其是,必定造成中心的应用逻辑混乱,成为信息的垃圾场。
数据中心将汇聚各种所需专业系统的数据,而对它们的分析要求常常是原来某个专业系统所不能提供的,而且分析目标也是不断变化的,这需要中心有自己的数据分析开发人员。
数据中心所涉及的云计算和大数据软硬件架构,对其维护升级需要技术能力很强的专职技术人员,依赖第三方做到这点也是不可能的。
各种专业应用是如何影响中心的数据建设呢?其实只有在中心进行数据采集时才会发生关系,其采集模式无论是拉模式还是推模式,只要符合其交互的服务接口和数据标准即可,而这些标准也应该是中心的技术人员提出。
综上所述,中心的工作必须有一支自己的研发队伍,而且是研发的主体。
1.5 不注重信息安全问题
数据中心很多信息影响到国家的安全,例如在做局域网应用时,常常比较重视功能性开发,对非功能性的安全问题重视不够,如今数据中心是依赖于Internet运行的,其信息安全问题是首先要解决的问题,这方面涉及的技术繁多且复杂,在这里不多赘述,应该高度重视该问题才是。
2 综述
无论我们采用什么技术手段,应该深刻理解其技术内涵,不能为赢得什么彩头而使用技术,不然会造成国家财产的严重浪费;随着大数据和云计算技术在国内应用的深入,我相信对这些技术的使用会越来越成熟,会为我们的国家和社会创造巨大的价值。
[1] 郭晓科.大数据.北京:清华出版社,2013.
[2] 高彦杰.Spark大数据处理.北京:机械工业出版社,2014.
[3] 大数据研究报告编写组.综合分析冷静看待大数据标准化渐行渐近.信息技术与标准化,2013,(9).
王卫列(1961—),男,高级工程师,主要研究方向:电力系统软件开发。E-mail:wangweilie@sgepri.sgcc.com.cn
高 岚(1965—),女,高级工程师,主要研究方向:电力系统计算机应用。E-mail:gaolan@sgepri.sgcc.com.cn
Problems Should Be Avoided in Constructing the Big Data System of Dam Monitoring
WANG Weilie1,GAO Lan2
(1. State Grid Electric Power Research Institute,Nanjing 211106,China;2. State Grid Electric Power Research Institute,Nanjing 211106,China)
Big data is more and more popular today and it is same in dam monitoring system also. But within the industry there are large technical concepts of fuzzy phenomena,some blind in technology ideas. This article discusses some wrong ideas in construction of big data system of dam monitoring. I hope peers to reflect together on how to avoid these mistakes.
big data;dam monitoring