大数据背景下地球物理专业课程模式探索
2020-07-17杨春颖王赟张致付
杨春颖 王赟 张致付
【摘要】随着学科间交叉以及大数据方法在地球物理学科的不断渗透,需要培养具有地球物理和大数据知识的综合型人才。传统地球物理专业向油气勘探开发各个阶段输送了大批人才,但在大数据方面的教学模型设计方面尚未形成对应的培养方案。本文从大数据的技术体系出发,分析了数据采集、存储管理、计算模式、数据挖掘分析等流程,并介绍了数据挖掘方法在油气勘探开发中的应用。以此为基础,设计了面向地球物理专业的数据挖掘教学模型,介绍了具体内容,希望以此教学模型为起点,设计教学大纲,开展教学探索。
【关键词】大数据 地球物理 数据挖掘 教学模型
【中图分类号】P3-4;G642.423【文献标识码】A 【文章编号】2095-3089(2020)26-0116-03
大数据起源于互联网并迅速发展,在各个行业得以应用。油田勘探开发行业采集并管理着庞大的数据体:从三维宽方位采集、四维地震、生产数据到测井、岩心、生产测井,再到光纤实时数据传输。国内含油气盆地具有多样化、多期次的构造特征,有海相碳酸盐岩孔缝储层,又有陆相碎屑岩和隐蔽油气藏,诸多复杂构造、复杂储层的勘探开发需要高精度地球物理方法,利用大数据方法进行生产决策,可以充分利用发挥已有地震数据的优势,提高并推动地球物理核心技术的发展。而大数据方法在能源行业的发展和应用,需要懂专业和大数据知识的综合型人才,该背景下地球物理专业学生培养的投入相对薄弱。
1.大数据技术体系
大数据流程(图1)涉及数据采集和预处理,存储和管理,计算模式,大数据挖掘和分析,以及可视化等五个方面[1,2]。数据采集主要包括以下几个方面:(1)科学实验采集,是在预先假定条件下观测到并用于研究和学术的信息系统;(2)物理信息,可以是对各种物理现象或物理过程的监控和检测,是关于介质物性、化学性质的测量数据;(3)管理信息,为日常管理和经营过程中产生的数据,例如,办公和事务处理系统;(4)Web信息系统,通常指互联网产生的各种数据信息。这些数据是对某一过程或某周期状态或某种现象的描述,这些数据的质量决定了可用性,能否精确的描述生产过程、学术问题均受到数据质量的影响。
采集的大规模数据,可能是结构化的,也可能是非结构化的,均需要存储技术支撑;根据用户需求,数据的处理方式和结果也多种多样。因此数据的存储和管理,是大数据的另一个重要环节。将PB(1000TB)级甚至更高的EB(1000PB)级数据分散到各个节点或者设备上,是分布式存储的基本特征,目前常用的技术包括分布式文件系统,分布式数据库,大数据索引查询等。大数据计算模式(图2)有批处理、内存计算、流式计算、迭代计算、查询分析计算和图计算[3]。以常见的批处理为例,其对应的计算系统有Hadoop、MapReduce和Spark,采用的是分而治之的并行思路,是目前最为主流、较为成功的并行计算模式,具有简单易用的特点,很多企业内部使用这种批处理方法计算大数据。
大数据的优势在于数据的体量大,通过数据挖掘,可以克服观测数据的个体波动,从而揭示更多可信赖的深层次的模式和规律,发现更潜在的数据价值,数据挖掘是通过机器学习、统计等实现数据聚类的过程。在TB级别的数据体上迭代查找有用信息,需要深入理解和扎实的数据挖掘方法。该方法本身经过了很多年的发展,已经出现了很多较为成熟的挖掘算法[4],而传统的算法较难直接应用到MapReduce、Spark等分布计算系统上,需要开发新的方法,挖掘算法可以分为聚类算法、预测回归算法、索引排序法和关联规则分析法[5],可实现知识的提取。这些方法可以在分布式存储系统框架下,并行的执行大数据挖掘任务,在准确率和效率方面大大提升。
从大数据的技术体系可见,与数据的存储方式、计算系统研究相比,数据挖掘是面向用户需求的一种计算过程,可服务各行各业,对油气行业的发展将有很大的帮助。大数据在能源行业的发展和应用,需要懂专业和大数据知识的综合型人才,此类人才缺口较大,仅美国就需要14万到19万名拥有数据深度分析专长的从业者。近年来,像中石油这样的大型央企未雨绸缪,也在加大数据专业人才的培养力度,开始大数据的人才储备;广海局在可燃冰技术方向走在国内外前列,近两年也开始招聘数据挖掘方向,招聘专业限制为测绘和地球物理这两个专业,可见,企业和科研高校对这方面人才的需求趋势;寻求数据挖掘和地球物理专业的结合点,将是未来人才培养的一个新方向。
2.大数据对地球物理技术的影响
勘探地球物理旨在圈定油气藏边界,需要采集和分析大量数据,例如:野外宽方位、节点式采集产生海量地震数据,时延地震通过对有利区块重复三维采集,产生的大数据等。随着技术的发展,采集1000平方公里的三维数据是500TB,1.92万次覆盖,道数已高达700亿道。通过大数据和云技术实现数据快速传输,并实现野外与室内的实时互动,这些工作的展开都要围绕大数据技术。很多工作者已经尝试采用数据挖掘方法开展油田解释和反演工作。例如,通过关联规则、神经网络方法,统计分析油田勘探开发数据库,并研究水淹层自动识别技术[6];通过贝叶斯方法和聚类分析技术实现油田数据库监控,实现数据质量、静态、动态数据跟踪等[7]。
国内外公司也已经开始布局大数据在油田勘探方面的应用,像国外大型油服公司CGG、Schlumberger,都在开发大数据应用平台。Schlumberger推出了认知勘探开发环境,利用了数据挖掘方法,例如,机器学习、物联网等来提供生产率,同时,也发布了数字化井建设规划方案,以便能够在统一的系统内访问钻井数据,并将此项技术逐渐应用到勘探开发的其他环节。中石化自主开发了π-frame地震数据处理和解释软件,是处理和解释一体化平台,实现了数据IO和处理的并行化,在业界首次使用MapReduce和Hadoop等分布式大数据技术,能够支撑PB级别海量地震数据的高效组织和管理。π-frame的功能不仅局限于此,未来还将包括钻井、测井等勘探开发技术,该平台与现在主流软件相比,已经具备了明显的优势。此外,中石油也在开展油田生產管理系统。随着技术的不断发展,以及生产效率的不断提高,数据挖掘技术在油气行业将展现出广泛的应用前景,对具有地球物理背景的综合型人才需求较大。
而地球物理专业对人才的培养多集中在地震勘探方法、地震数据处理和解释、数字信号处理等传统科学的建设,在学时安排方面传统专业课的比重较大,作为高校的教学工作者,对行业动态和最新发展趋势的认知,利于探索地球物理专业学生的培养方式,以适应能源行业的新时代特征,加大这方面人才培养的力度。在国内外能源需求降低,人才竞争激烈的背景下,培养高素质毕业生,可以提高专业的核心竞争力,保证人才的输送质量。
3.地球物理专业培养方式
经过多年教学和实践,地球物理专业传统课程设置的教学模型优势在:大学一年级基础知识学习,奠定学科基础,包括高等数学、大学物理、地球物理概论等基础课程;同时,学科讲座贯穿整个学年,新生对专业有较为清晰的认识。大学二年级开始较为深入的数理学习,包括线性代数、复变函数、概率论等专业基础课学习,为下一年度专业课学习打下基础;此外,还将系统学习C++语言程序设计,算法基础编程实践;也有专业课学习,例如,数字信号处理等。第三年将集中学习弹性动力学、场论、地震、测井、地磁等多种物探方法,从课程设置来看,学生将接受较为全面的专业课学习。第四年是对专业课的一个系统学习。考虑学科特点,探索数据挖掘课程模式,需要整合分析现有课程设置特点、采取分层阶梯优化的原则,整体推进教学模型设计:
(1)基础层:学科基础课是大数据分析的基本工具,以常规大数据处理方法为依据,研究学科基础课程内容设置,设计基于大数据分析(数据挖掘)技术的教学内容:
①数据挖掘基本概念:包括定义、方法的价值和目的,即输出的是一个预测模型,并改善预测模型;地震海量数据引起的生产需求;挖掘技術分类:按照功能分为预测和描述两种,又可细分为聚类算法、分类与预测、关联分析法;挖掘算法的特征;异常检测的应用以及异常检测分类。
②分类与预测:每条记录都包含一组属性,其中的一个属性就是类,若根据类属性获得一个模型,则这个模型就是其他属性的函数;预测是根据某些变量预测未知或其他变量在将来的值,或者,根据已知数据集和类属性,构建预测模型并分类现有数据,并使用分类的新数据,预测未知对象。可实现非线性样本学习,进行非线性函数预测。
分类法包括决策树分类法、神经网络、支持向量机和朴素贝叶斯分类法[8],都是通过学习算法确定分类模型,能够很好的拟合输入数据和属性之间的关系[8]。重点讲述广泛使用的决策树分类技术:基本原理,建立决策树流程,决策树归纳设计,属性测试条件,属性划分度量的合理选择。最后介绍模型的过拟合问题:训练误差、过拟合原因等。
③聚类算法:按照某种标准把一个数据集分割成不同的类,使得类内相似性尽可能大,同时类间区别也尽可能大。最终每个分类在空间上是个相对稠密的空间。和分类的区别在于聚类不依赖于预先定义的类。如图3所示。教学内容主要包括分类、划分方法、基于模型的聚类、异常分析。
④案例分析:储层性质横向变化大,采用聚类分析可以有效、准确地建立储层预测流程。而地震属性是地震反射波的任一属性,从数据驱动的角度,将属性和特定储层特征联系起来,可以建立合理预测模型。例如,碳酸盐岩油层含水和裂缝分布,通过裂缝和油井分类统计含水饱和度,进而制定潜在有价值的生产策略,整个数据分析流程如图4所示:
以上是根据现今大数据和地球物理的结合点,设计的教学内容和案例分析,希望通过课上讲解,激发学生的积极性,提高学生基本学习能力。课程安排方面,可以安排在
C++和算法基础编程实践课程后,或者安排在大学四年级,作为作业的新方法新技术。虽然课程和传统专业课略有差异,但可以充分发挥大数据方法在引导学生兴趣中的作用,并可以依托传统专业课的优势,普及“大数据+专业”在寻找能源、国民经济发展中的重要方法和技术。
(2)专业层:学生通过课堂学习,逐渐对学科专业课:如地震数据处理、解释方法课程,融会贯通。在这个层面,可以整合理论教学和实践内容,学习SAS Data Mining(SAS 数据挖掘软件)、Software-R等软件,设计一些实验流程,增强学生对课程的认知。也可以设计一些小微课题,任课老师指导,从文献查阅、方案制定、流程设计开始组织学生独立开展学习,解决实验设计与调试过程中遇到的问题,培养学生的创新意识。
4.结束语
通过介绍大数据处理的基本体系,详细分析了适合地球物理专业的大数据方向——数据挖掘,该项技术在国内外大型单位都具有很好的前景,而且人才需求很大。将地球物理和大数据进行融合,优化课程内容,设计符合地球物理专业的教学模型,可以形成较为完整的大数据地球物理课程,帮助课程大纲撰写,也有助于教学探索。此外,设计合理的教学内容,可以适应学科和行业发展,拓展了人才培养空间可以提高学生的综合竞争力,推动我校地球物理专业学科建设。
参考文献:
[1]李学龙,龚海刚.大数据系统综述[J].中国科学:信息科学,2015(45):1-44.
[2]涂新莉,刘波,林伟伟.大数据研究综述[J].计算机应用研究,2014(31):1612-1616.
[3]李秋虹.基于MapReduce的大规模数据挖掘技术研究[D].复旦大学,2013.
[4]孟小峰,慈祥.大数据管理: 概念,技术与挑战[J].计算机研究与发展,2016(50): 146-169.
[5]Han J, Pei J, Kamber M. Data mining: concepts and techniques[M]. Elsevier,2011.
[6]王宏威.油田数据挖掘技术的研究与应用[D].大庆石油学院,2005.
[7]樊嘉麒.基于大数据的数据挖掘引擎[D].北京邮电大学,2015.
[8]李欣.基于神经网络的数据挖掘方法研究[D].大庆石油学院,2003.
作者简介:
杨春颖,女,讲师,主要从事地球物理教学与研究工作。