论地质调查工作大数据
2018-04-18谭永杰屈红刚
谭永杰 ,屈红刚 ,文 敏
(1. 中国地质调查局 发展研究中心,北京 100037;2. 国土资源部 地质信息技术重点实验室,北京 100037)
0 引 言
大数据是新理念、新技术、新资源。大数据带来新的思维方式和理念,更加突出数据在日常业务与管理决策中的作用;大数据应用基于新一代技术环境,包括云计算(解决信息化基础设施资源的分布式共享利用问题)、人工智能(解决机器智能化的问题)、物联网(解决物物相连的问题)等技术;大数据本身就是丰富的数据资源。大数据为地质调查工作的发展和变革带来新技术、新模式与新动力,支撑引领地质调查全过程的数字化、网络化和智能化,推动野外调查的智能化、地质研究的综合化、业务管理的高效化、信息服务的网络化,全面推进地质调查工作的现代化。
1 地质大数据应用的基础
1.1 地质大数据的组成与特征
地质工作就是采用各种探测与综合研究手段,研究地球(重点是地球表层)的物质组成、结构及演化。工作手段包括野外调查、钻探(槽探等)、物探、化探、遥感、分析测试、综合研究等,工作平台涉及航空、航天、地表(下)、海洋等,工作过程包括数据采集、处理和成果数据综合等,研究成果来自对已有数据和新探测数据的分析利用。
地质大数据从内容上看,不仅包括地球探测的数据,也依附了社会经济发展的相关数据;从形式上看,地质大数据涉及空间地图数据(如地质图)、图像数据(如遥感数据、野外观测点照片)、文本数据(如地质调查报告、地质文献)、动态实时数据(如水土地球化学监测数据、地质灾害监测数据)、视频数据(如野外观测点录制视频、监测视频)等诸多类型,是国家大数据的重要组成,除了具有大数据共有特性外,具有以下典型特性:
1)多源异构。涉及多手段、多平台、多仪器、多单位采集、处理与管理,数据模态、数据描述方式及结构、数据源等多样。
2)高度时空相关性。地质数据都有特定空间位置和时间点。描述的坐标系、投影参数、探测精度及基本粒度变化多样;时间尺度从分秒跨越至数百万年;并呈现出显著的二维、三维、四维、属性维等多维特征。
3)大容量高相关、低价值密度。观测对象广阔、手段多样、探测历史悠久形成巨量数据;数据描述的对象相对稳定,数据相关性高。探测数据多需要进行解译处理后才能深入应用,原始采集数据的价值密度低。
4)复杂性与模糊不确定性。数据是客观的、量化的,但是对观测对象的认识是无穷尽的逼近。描述客观对象的数据复杂,大多具有模糊不确定性。
5)多主题。涉及区域地质、地质矿产、地质环境、地质灾害、地下水等多专业数据,可以服务能源资源保障、地质灾害防治、地下空间综合开发、重大工程实施、海洋经济发展等各个方面。
1.2 地质大数据应用的理论基础
大数据在地质行业的应用主要基于对“地球系统”和“社会系统”具有自身规律性的认识。
从地球系统科学的角度来看,整个地球的物质组成和地质过程都是息息相关的,是一个不可分割的整体。通过对尽可能多的地质大数据的收集和分析挖掘,就可以获得对地球更全面、更深入的认识。而且,对于某一区域或某一地质问题,也一定程度上具有“小系统”的特点。只要纵向上有一定的时间积累,横向上有较丰富的记录细节,通过多个来源对同一个地质现象采集的各种数据的有机整合和综合分析,尤其是“全数据”的应用,就可能产生新的有价值的认识。
生活于同一社会系统的人类,同样具有行为上的规律性。基于大数据研究个体或群体行为特征,发现活动中蕴含的行为和交互模式,进而支持个体或群体行为决策。通过地质相关人员的行为数据的大量积累,就可以分析与地质工作相关的人的行为特征,如对热点地质数据与信息产品的分析。
2 国外地质调查信息化与大数据发展应用新态势
当前,云计算、大数据、物联网、对地观测等新一代信息技术已成为引领经济社会发展的先导力量,全球信息化正在进入全面渗透、跨界融合、加速创新、引领发展的新阶段,已成为全球新一轮科技革命和产业变革的核心内容。这些技术同样在全球地质调查信息化与信息服务工作中产生了重要影响。
2.1 在线地质信息共享开放是普遍关注的优先发展主题
地质数据和信息是各地质调查机构的核心产品,为政府部门、企事业单位、社会公众提供广泛而优质的地质信息服务,是各国地调机构普遍关注的优先发展主题。尤其在当前互联网、移动通讯快速发展的背景下,搭建地质信息共享服务平台,提供在线的“一站式”服务,向“数字化、网络化、智能化、移动化”方向发展,已成为共识。而且,强调提供标准化的网络服务,如按照国际地理信息开放联盟(OGC)提出的网络地图服务(WMS)、网络要素服务(WFS)等标准服务方式提供。研究利用数据出版保护地质数据知识产权,为地质数据设置唯一、永久数字对象标识符(DOI)。
2.2 向“集成、融合、协同”发展成为显著的时代特征
国际地质调查机构(发达国家地调机构、部分发展中国家地调机构等)的信息化经过多年的发展,在基础设施、地质数据库建设、地质数据处理与分析评价软件、地质数据共享与服务平台、信息化制度标准等方面,已经形成了较为成熟的体系。但由于这些数据库、软件和平台是不同时期开发的,不同单位开发运行的,具有典型的“点”或“线”的特点,进行整合集成和融合,形成“面”或“体”的整体效应和协同效应,是当前普遍关注的问题。如欧盟在开展十余个已有地学数据共享服务平台的集成,包括OneGeologyEurope、IGME5000、eENVplus、EMODnet、IHME1500、GEMAS、Minerals4EU、ProMine、SPBA、PanGeo、TerraFirma、GeoMol、EUSR5000等。多数地调机构开发了融入野外调查主要流程的数据采集软件工具和多源地质数据处理软件。部分地调机构探索利用云办公软件(如Office 365),搭建机构内部的在线协同工作平台。
2.3 “由数据服务向信息服务,进而向知识服务”成为重要发展方向
地调机构由“收什么服务什么”,向提供地质资料的粗加工,进而提供深加工服务,包括面向政府的辅助决策支持等,推动地质数据资源的深度开发利用。如通过地质综合研究,构建工作区三维地质模型,并提供在线服务,成为当前地调机构普遍关注和开展的工作,国际地科联地学信息委员会(IUGS-CGI)和OGC正在筹建三维地质模型共享工作组,开展三维地质模型元数据标准研制等工作。澳大利亚、波兰、法国、德国等地调局研究通过关联数据(Linked Data)、语义网络(Semantic Web)等技术,研究主题相关数据的一体化查询检索服务。
2.4 更加突出“以‘客户’为中心,由被动服务向主动服务”的发展理念
更加紧密地围绕政府部门、企事业单位、社会公众等各类用户需求,研制针对性的地质信息服务产品。深入调查客户多元需求,开展客户服务满意度调查与反馈,主动提供地质数据的售后服务、跟踪服务,强化数据提供后的辅助支持服务,确保用户“拿得到,用得上”。注重用户查询、浏览、下载地质数据等用户行为信息的记录和统计分析,开展推送式服务。
2.5 向“全面共享”发展
除了强调数据共享外,在云计算等技术的支撑下,地质信息化软件、应用、基础设施各类信息化资源均可实现共享和动态调用,是一种全方位共享的理念。软件工具可以通过桌面云的思路,实现在线共享使用。应用服务可以通过Web Service技术实现共享。服务器、存储、网络等基础设施通过虚拟化技术实现动态调用和共享使用。美国、澳大利亚、挪威等地调局积极推进云计算技术的应用。在软件和应用开发方面,重视和使用开源代码(Open Source)等资源。在信息化资源共享开放中,网络安全得到更多的重视和投入。
3 我国地质调查信息化发展为大数据应用打下坚实基础
自国土资源大调查实施以来,中国地质调查局以社会化服务为目标,以实现地质调查主流程信息化为主线,以基础地质数据库建设为基础,以信息化基础设施建设为保障,全面推进地质调查信息化工作,信息技术在地质调查工作中得到广泛应用,为大数据应用创造了良好条件。
1)地质调查主流程信息化关键技术取得重大突破。研发了具有自主知识产权的野外数字地质调查软件、多元地质数据处理软件、地质资源环境评价预测软件等,在地质调查主要业务领域,基本实现了数据采集、传输、建库、处理、表达和服务全过程的数字化。
2)地质数据资源积累已具规模。已建成10大类48个国家地质数据库。从时间序列上覆盖了新中国成立以来,在陆域、海域开展的地质调查获取的所有地质成果数据,在精度上覆盖了从1:5000000到1:50000不同比例尺,为地质大数据开发利用奠定了坚实数据基础。
3)建设了基本的地质调查业务管理信息化系统。在地质调查规划部署、项目管理、行政办公、财务管理、装备管理、安全生产保障、生产调度指挥等管理领域建设部署了信息化应用系统,初步实现了地质调查业务管理的数字化、可视化和规范化。
4)现代地质信息服务体系建设初显成效。形成了包括窗口服务、网络服务、应急服务、专题服务等多层次、多形式的服务格局,确立了地质信息服务的长期性、稳定性。实现了30万种全国地质资料目录、部分地质资料信息等的网络发布和在线服务。
5)地质调查网络体系基本形成。地质调查信息基础设施持续完善。基本构建了覆盖全局的办公网、业务网和广域网,建立了基于卫星通信的野外数据传输网络,形成了较为完善的网络信息安全防护体系。基本形成了地质调查信息化标准体系。
另一方面,我国地质调查工作中大数据应用也面临5个方面的主要挑战:一是“数据孤岛”“信息孤岛”的问题,虽然建设了各类数据库、信息系统,但互联互通不够,没有形成一体化、可在线访问的地质大数据集,使得大数据的价值无法充分发挥。二是新采集数据的汇聚不及时,尤其是过程中形成的数据不能及时汇聚。三是地质数据种类繁多、格式复杂,并且由于不同时期使用了不同的标准规范,导致数据异构现象突出,分析挖掘技术难度大。四是地质领域的知识层次复杂,领域知识库构建难度大,增加了人工智能等技术的领域应用难度。五是既懂地质又懂人工智能等IT技术的复合型人才缺乏。
4 我国地质调查工作大数据应用的四个主要方向探讨
4.1 大数据支撑下的现代化、智能化野外地质调查与安全保障
大数据背景下,就是要搭建一个天地空一体化的野外地质调查数字化环境,构建现代化地质调查新模式,提高野外数据采集的效率和自动化水平。基于北斗卫星(GPS)、卫星通讯、移动基站通讯等多种通讯系统,搭建“地质调查+互联网”工作平台,野外地质调查项目组之间可以使用智能手机等移动设备,及时共享工作区的地质数据和信息,还可以随时随地快捷查阅相邻范围,乃至全国范围地质报告、地质图、地学文献等海量大数据集(位于地质大数据“云”侧的异地大数据中心),“云”甚至于可向野外调查人员主动推送工作区底图等数据,并提供实时上传野外调查数据等功能,实现地质数据的“双向”及时流动,全面支撑野外调查工作,大大缩短地质调查数据从获取到服务的周期。进一步,“云”也可向野外调查人员提供在线统计与分析挖掘工具服务。
锤子、罗盘、放大镜是地质工作的“三大件”,随着信息技术在地质调查中的应用,出现了数码相机、掌上机、GPS“新三件”。在大数据环境下,新三件可以全部被智能手机取代,甚至包括罗盘,这时的智能手机成为了“云”的一个“端”,野外工作模式也由“单兵模式”发展成为“兵团模式”(即依托位于“云”侧的大数据集和分析工具)。
大数据环境下,野外地质调查安全保障系统能够详细记录和主动提示工作区的有关安全因素。在出现安全突发事件时,能够及时和总部联系,实时进行指挥调度。甚至在艰险或特殊地区,由机器人代替人的部分采集活动或动作。
4.2 大数据支撑下的综合化、数据化资源环境评价与地质科研创新
围绕“能源资源安全保障”“生态文明建设”“新型城镇化、工业化、农业现代化和重大工程建设”“减灾防灾”“海洋强国建设”等国家需求和国土资源中心工作,基于机器学习、深度学习等新一代人工智能技术,开发建设地质调查大数据分析应用系统,构建数据密集型地质资源环境评价与地质科研创新模式。通过开展地质时空数据语义识别与智能挖掘,复杂结构化、半结构化和非结构化地质大数据关联分析、可视分析与知识发现等应用技术研究,在重点领域开展地质大数据分析应用试点,支持地质数据关联、知识发现、规律挖掘,推动地质大数据的深度开发利用。开展基于人工智能技术的矿产资源潜力评价、资源环境承载力评价、岩石矿物自动识别、深部找矿知识等领域的示范研究,探索找矿机器人研发。
4.3 大数据支撑下的精细化、高效化地质调查业务管理
大数据背景下,构建一体化、“一站式”地质调查业务管理平台,整合各业务管理信息系统,实现地质调查业务管理综合信息的高效管理、交叉验证、统计分析和辅助决策,实现业务管理全过程信息化,提高地质调查业务管理精细化与规范化水平,提升业务管理效率和便捷性。建立以项目信息为纽带的综合集成框架,将人、财、物等各类办公、业务管理信息关联至项目信息上。搭建一个稳定运行的协同工作平台,支撑地质调查日常管理。消除横向、纵向的数字鸿沟,包括各业务管理系统之间的、不同层级业务管理系统之间的。加强分析挖掘与辅助决策功能,包括不可测区、不宜部署区、重复部署区的自动监测,中央地方地质调查规划部署的在线、常态化对接等。打造移动办公平台,在安全保障的前提下,加快实现移动办公。
4.4 大数据支撑下的泛在化、精准化地质信息社会化服务
建设统一的交换共享、社会化服务平台,提供无论何时、何地的地质数据“一站式”访问服务。提供地质数据、信息、知识服务。通过自然语言文本数据处理,提供地质报告、文献等全文检索服务。开展地质语义集成服务,实现语义级别的地质数据共享。主动记录用户点击、访问、下载等行为信息,分析用户行为特征,发现热点数据,提供精准推送服务。
开发建设面向地调局内部的地质数据共享交换平台,部署运行于地质调查业务网上,实现地调局直属单位、计划、工程、项目之间的互联互通;并接入国土资源主干网、国家政务外网,为政府管理决策提供地质数据支撑。开发建设面向社会化服务的地质数据服务平台,部署运行于互联网上,并接入国土资源数据开放平台,推进地质数据资源集中向社会开放。
5 结束语
近两年来,中国地质调查局启动了地质云建设,2017年地质云1.0将正式上线运行,为地质调查工作中大数据的应用提供重要平台支撑和保障。为了更好的推动地质大数据发展,发挥大数据的综合效益,就下一步工作提出如下建议:
1)按照“物理集中、逻辑分布、统一政策、分节点管理”的思路,进一步加强集中式、集约化发展。采用云计算技术,基于三张网络(涉密网、业务网、互联网),将服务器、存储等信息化软硬件和数据资源进行集中化建设,构建一个比较集中的地质大数据中心,提供强大的计算、存储能力,以及完善的灾备系统、高速网络、可靠的安全防控,从而发挥集约化建设优势,减少重复建设,降低基础设施投资,减少运行维护成本。在该模式下,各单位在大数据中心动态调取基础设施等资源,但原有的数据库管理、信息系统的管理维护权限不变。
2)推动地质数据的结构化、智能化采集,实现野外调查、物化探、野外实时监测数据、海洋地质调查、航空航天遥感等采集的地质数据向“云”的及时(实时)汇聚。
3)建立完善的质信息产品体系,培养品牌产品,出台地质信息产品管理办法,推进地质数据与信息产品的分级分类管理,研制信息产品制作技术要求,规范产品加工与服务。
4)开发整合地质调查业务综合管理系统,构建协调一致的管理模式,推动管理数据与业务数据的深度融合,实现业务管理信息化全局覆盖、业务管理全部在线办理,甚至移动化办理。
5)研发基于机器学习、深度学习等新型人工智能技术的地质数据分析评价与知识挖掘系统,并开展示范应用。借助于云平台,构建区域三维地质框架模型和专题模型,推动多维地质建模与可视化技术应用。