地质大数据分析与应用模式研究
2016-01-27李朝奎严雯英肖克炎赵亚楠
李朝奎, 严雯英, 肖克炎, 赵亚楠
(1.湖南科技大学地理空间信息技术国家地方联合工程实验室,湖南湘潭411201; 2.中国地质科学院矿产资源研究所,北京100037)
地质大数据分析与应用模式研究
李朝奎1, 严雯英1, 肖克炎2, 赵亚楠1
(1.湖南科技大学地理空间信息技术国家地方联合工程实验室,湖南湘潭411201; 2.中国地质科学院矿产资源研究所,北京100037)
摘要:大数据时代下地质数据的获取方式多种多样,数据量十分庞大,数据格式复杂多样。从地质大数据的存储管理、数据挖掘技术、可视化技术等方面阐述了其分析应用的关键点。介绍了大数据不同于传统数据的分析思维,强调注重数据本身的重要性。大数据的分析与应用方法处在不断创新中,同时也面临巨大挑战,如何保证地质大数据的质量、如何高效地搭建云平台等都是需要解决的难题。指出了地质大数据的开发对矿产资源预测、城镇选址等具有十分重要的意义。
关键词:地质大数据;存储管理;数据挖掘;可视化;云平台
doi:10.3969/j.issn.1674-3636.2015.03.352
中图分类号:P628+.2
文献标识码:A
文章编号:1674-3636(2015)03-0352-06
收稿日期:2015-06-12;修回日期:2015-06-21;编辑:侯鹏飞
基金项目:国家自然科学基金项目“集群环境下大范围三维复杂场景的并行绘制机理及算法实现 ”(41271390)、国土资源部公益性行业科研专项“地质大数据技术研究与应用试点”(201511079-04)、中国地质调查局地质矿产调查评价专项“全国重要矿种成矿区划部署研究”(12120114051501)、湖南科技大学创新基金基础研究项目“地质空间数据挖掘方法及其应用基础研究”(S140038)联合资助
作者简介:李朝奎(1967—),男,教授,博士,地理信息工程专业,主要从事三维地理信息理论方法及技术应用研究工作,E-mail:chklhn@163.com
0引言
我国地质行业自20世纪60年代以来,开展了矿产资源勘查、地球科学研究、海洋地质勘察等工作。随着科技的进步,地质调查工作的方式趋向数字化、信息化、智能化。GPS、RS大大提高了地质数据的获取能力, GIS、数字地质调查系统空间数据库的建库技术等改善了地质数据的应用水平(孙磊等,2010)。近年来,在空载热辐射与反射成像技术高光谱反射技术、新型激光3D制图技术(Zebedee系统)等的推动下,地质数据的数量迅速增加,形式也多种多样,传统的一些技术方法越来越不能满足不断丰富的服务内容,地质行业已到了“地质大数据”时代。
作为不同地史时期下地质作用信息的载体,地质数据主要用于研究地质历史进程的恢复以及对未来地质演化的推测。为了从地质数据中获得更为全面的有用信息,以便深刻地了解和认识地质体、地质现象和地质过程,更好地利用和保护地质资源,地质工作越来越多地求助于数学方法和地质信息技术。各种物化探异常的正、反演理论方法(赵鹏大,2012;阴江宁等,2013)和各种地球动力学理论方法(李四光,1973;於崇文等,1993)的提出和完善,都是这方面的重要成果,对地质学定量化和地矿勘查信息化进程起到了重要的推动作用。地质行业应该借鉴大数据的思维,解决地质大数据的问题。
1地质大数据分析思路
自2008年以来,Nature、Science、麦肯锡、达沃斯论坛等相继发表了专门的大数据研究报告,美国政府也于2012年3月发表了《大数据研究和发展倡议》,作为信息科学领域又一重大举措(Executive Office of the President,2012)。研究证明,有效地管理与使用大数据能给企业提供更多增强生产能力和竞争能力的机会,并能带来巨大的潜在商业价值(Manyika et al,2011)。2012年10月,中国计算机学会和中国通信学会各自成立了大数据专家委员会,从行业学会的层面组织和推动大数据的相关产学研用活动。从研究内容看,尚处于应用探讨与展望阶段。
1.1 从数据角度思考
过去信息相对贫乏,任意一个数据点的测量情况都会对结果至关重要,对地质数据进行分析前必须尽量保证每个数据点的精确性,才不会导致结果的偏差。如今,高精密的仪器能够保证数据的大趋势正确,也大大增强了数据处理能力,数据分析不再通过随机采样的方式进行,而是使用全部数据。
全国矿产资源潜力评价数据集成管理应用平台(DipMopa)系统采用将传统的关系型数据库管理系统和列式数据库相结合的方式,对多源地学非结构化数据进行存储(何翠云,2013)(表1),并结合有关应用软件实现对全国矿产资源潜力评价数据的高效管理。大数据解决方案架构下的数据库HBase可以很好地按列存储数据。HBase是一个分布式、面向列的开源数据库,它不同于一般的关系数据库,适合于非结构化数据存储。
表1 全国矿产资源潜力评价数据库分类
2007年,吉姆·格雷(Jim Gray)在他最后一次演讲中描绘了数据密集型科学研究的“第四范式”(The Fourth Paradigm)(刘光鼎,2002),把数据密集型科学从计算科学中单独分出来,这意味着从数据中直接查找或挖掘所需要的信息、知识和智慧,甚至无需直接接触需研究的对象。“第四范式”不仅是科研方式的转变,也是人们思维方式的大变化。
地质大数据本身所包含的规律客观存在,人们一直将理论应用到实践中来分析和理解这些规律。在大数据数时代,应着重关注数据本身,在很多情况下,与致力于避免错误相比,对错误的包含会带来更多的好处。
1.2 数据非理性效果
目前大数据在商业方面运用较为成熟,Google 公司通过大规模集群和MapReduce 软件,每月处理的数据量超过400 PB;百度每天大约要处理几十PB 数据;Facebook 注册用户超过10亿,每月上传的照片超过10亿张,每天生成300 TB 以上的日志数据;淘宝网会员超过3.7亿,在线商品超过 8.8亿,每天交易数千万笔,产生约20 TB数据(李国杰等, 2012)。
随着全球工业化和城市化的推进,自然资源开发引起了一系列地质环境变化,全球水土污染不断加重,突发性的地质灾害频发,引发了区域性地质环境的重大变化。资源、环境、生态问题相互交织,这些问题产生的原因来自于多方面,单纯通过数学计算和现有的理论很难全面掌握问题的根源(雷志强,2011)。大数据由于考虑了数据的全面性与相关性,在研究中往往会得到事先难以预测的因素。
地质大数据存在着多源异构、综合利用难度大等问题,决定了其数据分析算法有别于普通情况,不再追求高精确、复杂的计算,往往简单的算法比基于小数据的复杂算法更加有效。同时,数据分析将不再热衷于寻找因果关系,利用基础算法对大数据进行相关关系分析,突破传统思维模式,进行技术创新,才能有效地挖掘出地质大数据中隐藏的信息,获得其地质应用价值。现阶段基于大数据的数据分析模式主要还是基于统计方法的关联性分析,缺乏逻辑推导过程(Agrawal et al,1996;Cheung et al,1996)。对于理论逻辑层次清晰的地质行业,大数据的统计学方法不足以支撑地质行业的知识发现,需要在数据分析过程中插入中间环节,完善推导过程,协助新理论、新方法的研究(缪谨励,2014)。
1.3 大数据面临的问题
大数据的相关技术正在不断影响和改变地质行业,从数据的采集到存储管理再到应用服务,传统思维习惯也将逐渐变化。地质大数据中所蕴藏的信息,等待着大数据技术来“开采”。但是大数据技术目前还不完善,许多问题等待解决。例如,矿产资源预测的关键在于有效地获取矿产资源信息、正确认识矿床模型和成矿条件、正确刻画矿产资源的时空分布规律,运用大数据技术,对于勘查难度大、未发现矿产资源多的地区能够进行信息综合和建模,有效降低成本,辅助勘探决策,但是不能保证结果的正确性,在地质研究过程中,不论是地质灾害预测,或是矿产资源勘测都讲究对结果进行验证,以提高模型的准确性。因此,大数据不是万能的:(1)历史数据不能准确预测未来;(2)预测模式中存在不确定因素;(3)各种模式操作过程中存在偏颇以及不符合实际的预测。
地质大数据提供了海量数据源,但是这些数据包含的数据价值密度相对较低,可能造成挖掘结果的谬误。要以辩证的观点看待大数据带来的创新技术,不能完全弃用以往的方法经验,应该根据实际问题,将新技术与过去的方法相结合,相辅相成,才能有效保证结果的正确性。
2地质大数据应用关键技术
2.1 存储管理技术
地质大数据种类繁多,关系复杂,有结构化数据如关系数据库的统计数据、表格表单数据等,也有非结构化数据如矢量数据、文本数据、影像数据、图片等。
基于传统的关系数据库查询方法已经不能满足要求,对地质大数据进行统一组织和存储,实现多源异构数据的集成,是地质大数据信息化的基础。
地质数据种类繁多,通过分析与抽象,主要可以分为图件、文档、表格3种实体性数据和报告,2种概念型数据(表2)。
表2 地质数据分类
地质大数据由于数据量庞大,数据类型复杂多样,进行数据粒度分析会涉及到多种粒度数据的混合处理,需要根据相关业务要求,利用粗粒度与细粒度间的内部联系,有机统一起来进行管理,根据粒度进行数据库层次化部署。在已有数据库的基础上,制定相应的数据更新机制,以确保能够存储同一数据不同时态的数据,为支持数据时态对比、历史数据演变等提供必要的信息支撑。
地质大数据查询检索技术主要有4种方式:(1) 基于文件名查询;(2) 基于范围和分辨率查询;(3) 基于范围和格网数查询;(4) 基于内容查询。其主要构架在地质大数据云存储系统设计的基础上,能够快速定位并获取所需的数据。
目前,数据库领域中最常用的数据模型是关系模型,基于此模型的数据库管理系统(DBMS)产品较多,有Oracle、SQL Server、DB2等,在大数据解决方案架构下,以Google的GFS(Google File System)和Hadoop的HDFS(Hadoop Distributed File System)为代表,HDFS是GFS的开源实现,它们均采用分布式存储方式存储数据,用冗余存储的模式保证数据可靠性,不同于一般的关系数据库,是一个适合于非结构化数据存储的数据库。
在地学大数据技术研究实验平台GeoBDA实验中,作者通过对比实验得出大数据平台的对比:Hadoop架构中没有提供完善的检索解决方案,如果要在数据挖掘方面满足特定的需求,需要投入较大的开发力量,这与Hadoop作为Apache项目的发展历程有关(缪谨励,2014)。Oracle架构中,Intermedia支持直接搜索,Oracle各种组件功能强大,产品化、成熟度高,不过价格比较高。
2.2 数据挖掘技术
数据库知识发现 (KDD) 是从数据集中识别出有效、新颖、潜在有用的以及最终可理解的模式的非平凡过程(图1),数据挖掘是数据库知识发现过程中应用数据分析和发现算法的一个步骤,在可接受的计算效率的局限性之内,在数据上产生一种特殊的列举模式(或模型)(李德仁等,2002)。
图1 知识发现流程示意图Fig.1 Schematic diagram showing the process of knowledge discovery
从数量上来说,可能需要处理数量级达到TB 级乃至PB级的数据,另外还有高维数据、各种噪声数据以及动态数据等,选择合适的算法及并行策略来完成任务是关键。另外,算法的设计、参数的调节都会直接影响到最终的结果,数据挖掘过程中可能会存在许多不明确性,进行数据挖掘的目的就是要将这些不明确性带来的影响降到最低。这些不明确性包括对数据挖掘任务描述的不明确性、进行数据采集和预处理时会出现的不明确性、数据挖掘方法选择和最终结果的不明确以性及对如何评价数据挖掘结果的不明确性等。数据挖掘算法将直接影响到所发现知识的结果。
多个发达国家早已将SOA(Service Oriented Architecture,基于面向服务的体系结构)、并行计算、虚拟化等技术融入到地质调查信息化建设中,建立了在线编图等采用“一站式”工作模式服务的应用系统(表3)。虽然我国目前在这方面的技术相对落后,但是许多科研团队对多元、异构的地学数据集成与共享也已经进行了深入研究与探讨。
提供地理空间信息的查询访问有助于信息的共享和获取。对全球8万余次地震发生的分布图(图2)进行简单的数据挖掘,可以发现地震活跃带和板块构造中各板块的边缘比较吻合,从图中可以看到通过空间数据挖掘的计算结果和经验判断基本相符(缪谨励,2014)。
表3 部分国家的地质空间数据挖掘技术系统
图2 大数据研究实验平台实验效果(据缪谨励,2014)Fig.2 Experimental results of the experimental big data platform(after Miao, 2014)
2.3 地质大数据可视化技术
数据可视化是进行大数据分析的一个很重要的手段,可视化的目标是通过可视的方法提供新的洞察力以影响现有的科学方法(McCormick et al,1987)。可视化思维是个人通过探索数据的内在关系来揭示新问题,形成新观点,进而产生新的综合,找到新的答案并加以确认,而可视化交流是向公众表达已经形成的结论和观点。
大数据有利于简化模型设计,丰富的数据为直接基于数据的建模提供了可能性,甚至有可能实现基于每个时空实体构建局部的实时、动态模型。地质体、地质现象及地质过程的可视化是为了更加直观和真实的表达。对于专业人员,这有利于地质现象分析、科学计算、评价决策、工程设计等操作;对于普通人员,有利于理解晦涩难懂的专业知识(陈建国等,2012)。由于地质大数据的特殊性,其可视化的关键在于:(1) 海量三维数据体的存储和快速调度;(2) 三维地质体数字化的快速建模技术;(3) 三维数字地质体的快速自由矢量剪切技术;(4) 三维数字地质体的局部快速动态更新技术;(5) 三维数字地质体的多样化空间分析技术(吴冲龙,2011)。
目前,已有一些比较完善的三维地质建模软件能够实现多种数据三维综合建模、显示和分析等功能,如国外的 GOCAD、MVS、MicroStation、Surpac 等,国内的如QuantyView(GeoView)、GeoMo3D、Titan 3DM等。但这些建模方式仍然是静态交互的,在大数据时代下的可视化技术将朝着自动化和交互性方向迈进。
3地质大数据面临的挑战
3.1 数据质量问题
高质量的数据是大数据发挥效能的前提和基础,对大数据进行有效分析的前提是必须保证数据的质量。随着整体数据量增加,其中含有误差的噪声数据量也随之增加,如何制定地质大数据质量的标准要从无数次的经验总结而来。数据质量问题贯穿始终,数据的来源、处理及使用,都应该随时把握数据质量。在数据获取阶段,要保证数据定义的一致性、元数据定义的统一性;在处理阶段,噪声数据的去除、目标数据的最大化保留是实现高水平数据质量的基本保障;在存储阶段,应该根据地质大数据的特殊组成与结构,合理地设计数据存储和使用规则,以方便对数据进行快速读取。
我国对于地质大数据的研究水平还不高,对数据质量的重要性意识还比较淡薄,大数据方案的建设及应用在我国还不够完善成熟,对于地质大数据存储分析技术、数据管理方案等各项配套设施和制度还不完善,保证大数据的质量应该受到越来越多的关注。
3.2 云平台搭建
地质行业的专业性较强,在数据量相对较少的情况下,数据的收集、存储管理、算法研究等由专业人员进行即可,但在大数据时代,则需要多方面的协作,除了需要地质专业研究人员,还应配备高端的专业数据库设计和开发人员、程序员、数学和统计学家,相互协作才能完成。在数据挖掘过程中,数据挖掘算法、系统设计工程、资源分配等是重点,但这多适合于专业技术人员,阻碍了数据挖掘的广泛应用。地质大数据应用总体框架如图3所示。云计算作为一种新兴的计算模式,它隐藏了计算资源以及计算的执行过程,用户不用考虑内部计算架构,就能通过浏览器或者应用程序界面提交计算任务或者服务请求,这大大增加了地质数据的使用效率,使地质数据携带的信息在相关应用领域创造更多价值。
图3 地质大数据应用总体框架示意图Fig.3 Sketch of overall framework for the application of geological big data
建设云计算平台是一个涉及软件资源、硬件资源管理、优化、分配等复杂的系统化工程。为了搭建地质云计算平台,至少需要解决如下关键问题:(1) 明确地质大数据的应用目的;(2) 在已有软硬件资源的基础上,基于虚拟化技术研究并搭建云存储模式,实现地质大数据的合理组织;(3) 搭建服务虚拟化的地质云计算平台,给出服务管理、搜索调用机制;(4) 通过不同粒度的数据服务和计算服务来实现对地质大数据的访问,并发布这些服务。
目前,ESRI、GIS Cloud等已经开始研究将GIS迁移到云计算环境中,初步形成了提供GIS数据和服务的云GIS平台。
4结论
我国幅员辽阔,地质环境复杂,地质数据量巨大。有效地利用这些数据成为越来越重要的问题。随着大数据时代的来临,应积极寻求解决问题的方法,使其适应信息化社会和知识经济时代的要求,发挥地质大数据潜在知识的价值,提升新时期地质行业的创新服务能力。作为当今最受瞩目的对象,大数据的出现并不是一蹴而就的。数据量由GB增长到TB、ZB……是人类需求不断增加的结果。在这些蕴藏着规律的海量数据中,价值无法估量。
地质大数据对于城市规划、建设、安全等方面有着十分重要的意义,对于城市环境和防灾减灾工作十分重要,利用地质基础数据能够进行选址适宜分析、地下空间分析等,动态监测数据提供了自然变化和人为工程对地质环境影响的监测结果,模拟分析数据可以客观模拟灾害发生时的情景,预警案例数据则可以为防灾减灾预警工作提供数据支撑(王少勇, 2014)。
在大数据时代,从海量地质数据的存储管理到地质知识发现,并通过智能化处理平台服务于用户,满足用户日益增长的需求,对于地质大数据的管理应用将发生深刻变化。地质数据的数字化是基础,最终是为了实现信息化,创新开展知识管理和知识服务,发挥地质大数据潜在的知识价值,提升新时期地质大数据管理水平与创新服务能力,这也是适应当今信息化社会和数字化时代的必然要求。
参考文献:
陈建国,肖敦辉,梁玉辉,等.2012.重磁三维可视化反演系统的设计与实现[J].地质学刊,36(3):250-255.
何翠云.2013.广西矿产资源潜力评价数据特征[J].地质学刊,37(3):451-455.
李四光.1973.地质力学概论[M].北京:科学出版社.
李德仁,王树良.2002.论空间数据挖掘和知识发现的理论与方法[J].武汉大学学报:信息科学版,27(3):221-233.
刘光鼎.2002.回顾与展望:21世纪的固体地球物理[J].地球物理学进展,17(2):191-197.
雷志强.2011.加强地质灾害防治,构建生态城市环境[J].地质学刊,35(1):104-108.
李国杰,程学旗.2012.大数据研究:未来科技及经济社会发展的重大战略领域:大数据的研究现状与科学思考[J].中国科学院院刊,27(6):647-657.
缪谨励.2014.地学大数据技术研究实验平台GeoBDA[J].地理信息世界,21(6):48-52.
孙磊,张彦杰,李丰丹,等.2010.数字地质调查系统空间数据库建库技术方法应用:以1∶5万瑶里幅地质图空间数据库制作为例[J].地质学刊,34(3):260-270.
吴冲龙.2011.地质数据三维可视化的属性、分类和关键技术[J].地质通报,30(5):642-649.
王少勇.2014-12-22.迎接地质大数据时代[N].中国国土资源报,(1).
於崇文,岑况,鲍征宇,等.1993.热液成矿动力学[M].湖北武汉:中国地质大学出版社.
阴江宁,肖克炎,汪新庆,等.2013.中国稀土矿产资源定量分析与预测[J].地质学刊,37(3):378-381.
赵鹏大.2012.数字地质与矿产资源评价[J].地质学刊,36(3):225-228.
AGRAWAL R, SHARFER J.1996.Prarallel mining of association rules[J].IEEE Trans on Knowledge and Data Engineering, 8(6):962-969.
CHEUNG D W , NG V T,FU A W, et al.1996.Efficient mining of association rules in distributed database[J].IEEE Trans on Knowledge and Data Engineering, 8(6):911-922.
Executive Office of the President.2012-03-29.Big data across the federal government[EB/OL].http://www.whitehouse.gov/sites/default/files/microsites/ostp/big_data_fact_sheet_final_1.pdf.
MCCORMICK B H, DEFANTI T A, BROWN M D.1987.Visualization in scientific computing[J]. Computer Graphics,12(6):1103-1109.
MANYIKA J,CHUI M,BROWN B, et al.2011.Big Data:the Next Frontier for Innovation, Competition, and Productivity[R].Washington,DC,USA: McKinsey Global Institute.
Analysis and application mode of geological big data
LI Chao-kui1, YAN Wen-ying1, XIAO Ke-yan2, ZHAO Ya-nan1
(1. National-Local Joint Engineering Laboratory of Geo-Spatial Information Technology, Hunan University of Science and Technology, Xiangtan 411201, Hunan, China; 2. Institute of Mineral Resources,Chinese Academy of Geological Sciences, Beijing 100037, China)
Abstract:In the era of big data, there are many ways to obtain geological data. The amount of data is very large, and the formats are complex and diverse. This paper illustrates the key points of analysis and application from the aspects of the storage and management of geological data, data mining technology and visualization technology. We also introduce the different analysis thinking of big data, and emphasize the importance of focusing on the data. In the technology innovation, there are also challenges, such as how to ensure the accuracy of geological big data, and how to build a cloud platform. The development of geological big data is of great significance for the prediction of mineral resources and selection of urban location.
Keywords:geological big data; storage management; data mining; visualization; cloud platform