浅谈基于Hadoop非结构化数据管理体系在采油厂中应用
2021-12-24王琪
王琪
摘要:随着数字化油田和企业信息化的发展,每天都会产生海量的数据,如何合理的对这些数据进行存储和应用成为数据管理人员巨大的挑战。除了我们常用的结构化数据之外,还包含大量格式不确定的非结构化数据。这类非结构化数据依靠现有的数据库无法处理,我们急需一种新的数据处理方式来应对不断增长的非结构化数据。采用Hadoop数据管理技术能够有效缓解不断增长的非结构化数据处理造成的压力。
关键词:非结构化数据;NoSQL系统;Hadoop;Oracle
中图分类号:TP311 文献标识码:A
文章编号:1009-3044(2021)29-0142-00
1引言
在油田开发的过程中,随着油田数字化建设的不断深入,积累了大量数据资源,除了统建系统为核心产生的大量结构化的传统的数据之外,也产生了大量非结构化数据和半结构化数据,这些数据主要包含各类图纸、文档附件、影音录像、地震体文件、数模建模工区文件等。如何合理的对这些数据进行科学的管理,分类规划、分析,最大程度获取这些数据的价值,合理利用整合数据资产是我们势在必行的工作。
2企业结构化数据和非结构化数据的产生和区别
结构化数据,是指固定类型的数据,例如:井号、类别、沉没度等都属于结构化的数据,通过这些字段项可以准确地找到需要的信息;只要系统中提供结构化数据的采集页面,就可以获取到相关内容。
非结构化数据,类型和标准不固定,视频、音频、井震信息、工区文件等都是非结构化数据。如果需要从非结构化数据中提取其中的信息,必须先对数据进行非结构化处理。企业日常生产过程中的非结构化数据,最主要的就是以工区文件为主的大文件,单个文件大小有时甚至达到30G 以上。这类文件通常无法使用传统FTP或通信设备共享,设备传输存在安全隐患。基于以上问题,非结构化数据管理体系的构建势在必行。
通过对某采油厂14个单位跟踪调研发现,其中有大量非结构化数据没有建库。目前采油厂非结构化数据的存储和流转,大都采用邮件、FTP 以及即时通讯等工具传输;本地服务器、计算机、移动硬盘存储。这些工具传递文件时速度不稳定,安全性得不到保障,并且无法很好地满足企业中一对多的高频数据传递场景。
2.1目前采油厂的非结构化数据主要类型
1)数模、建模工区文件、相带图、地震数据体文件等。
2)图纸、附件、影音、视频、文件,存储在特定服务器中,生成编号地址,再将地址或编号存在Oracle服务器中,通过访问地址获取、查看。
3)数字化建设实时产生的数据包括流量数据、监控数据等,存入实时数据库pSpace中。
以上这些非结构化数据大部分存储在特定硬盘或服务器中由专业人员保存。
2.2现有存储方式存在的问题
目前采油厂数据库主要包括 Oracle、VFOX 以及pSpace。但对比Hadoop架构,都存在不同程度的使用问题。
1)Oracle11G 以上版本已经开始支持非结构化数据的检索,但在执行效率和成本上远远不及Hadoop,这在存储实时数据上表现得非常明显。
2)VFOX数据库作为老牌数据库优势在于操作简便,易于掌握,但安全性和兼容性较差,并且不能处理非结构化数据。
3)pSpace是企业级实时历史数据库,pSpace可以构成一个复杂的企业信息化系统,但功能性较为单一,多用于配合传统数据库补充使用。
除此之外,存储在FTP或存储介质中的非结构化数据也存在很多问题:1)不方便共享;2)安全性存在隐患,数据容易遗失,需要多个存储介质进行备份。
3 Hadoop的基本属性及特点
3.1关于Hadoop
目前很多企业把Hadoop作为数据库使用,但Hadoop并不是数据库,而是一个由Apache基金会所开发的分布式系统基础架构,主要解决海量数据的存储和海量数据的分析问题,允许分布式处理多台(可以达数千台)计算机上的大数据集。使用基础的功能——底层结构HDFS处理海量数据群,作为一种先进的分布式存储框架,它能够最大限度地完成对数据采集、存储、分析、处理、保管和交托。它的核心是HDFS,是一个支持跨多台计算机存储大数据集的 Hadoop 文件系统,可以说Hadoop是为了大数据的发展应运而生的。
Hadoop 的结构部署如图1所示:
Hadoop 的基本组件包括以下几种:
1)HBase:来源于Google 的BigTable;是一个高可靠性、高性能、面向列、可伸缩的分布式数据库。
2)Hive:是基于hadoop架构的数据仓库的工具,可以将结构化的sql数据文件进行映射并且可以作为数据库表来处理sql查询等功能。
3)Pig:这是 Hadoop 的客户端是一个数据操作的数据分析引擎,使用特定的语法操作HDFS部件中的相关数据。
4)ZooKeeper:来源于 Google 的 Chubby;可以有针对性的解决传统分布式应用系统存在的协调问题以及分布式管理的操作困难。
5)Ambari:是一种用于集成管理的工具,辅助集群决策管理。
6)Sqoop:Apache Sqoop(TM)是一种在 Apache Hadoop 和结构化数据存储(如关系数据库)之间传输批量数据的工具。它是 Hadoop 生态系统的一部分。
7)Mahout:一個可扩展的机器学习和数据挖掘库。
3.2 Hadoop与Oracle对比
目前采油厂的非结构化数据,大部分存在本地硬盘中,或使用FTP共享,不但不容易保存,并且数据价值并没有被充分挖掘。
例如:地震数据体文件,单个文件大小可最高达到50G 以上,传输困难,而一台计算机存储空间有限,大部分文件存储在移动硬盘中,随着数据量的不断增长,普通存储介质已经不能满足工作需求。尤其在地质技术人员需要同时使用时只能分别拷贝到自己的计算机内,传输时间长、效率低。
我们做了一个对比试验:在相同实验环境下,使用Java语言接口分别对Hbase数据库及Oracle数据库文件传输结果进行效率比对。总计传输了50个共960M 的附件文档,Oracle共计耗时1980秒,而HBase仅耗时136秒;而如果下载同等大小的文件,Oracle需要耗时296秒,但HBase仅需103秒。从测试结果可以看出,使用HBase存储非结构化数据,文件吞吐执行效率优于Oracle,更优于传统存储介质或FTP。当文件大小超过一定量时,无法有效的通过ORACLE进行文件管理。
而Hadoop另一核心组件HDFS,则是为了存储大文件而存在的:它将每个文件存储成一系列可以配置大小的数据块,除了最后一个,所有数据块都是同样大小的。并且每个数据块都有副本,每个副本系数都是可配置的。应用程序可以指定每个文件的副本数目。每个文件都是一次性写入的(读多写少模式)。
3.3 Hadoop 的安全性
对于数据的来说,拥有的数据越多,对数据的保护就越重要。 Hadoop 的安全性一直广受质疑。为了解决安全性问题, Hadoop设置了 Simple 和 Kerberos这两种安全机制。Simple 是一种认证与授权服务机制; Kerberos是基于认证服务器的一种机制。经测试,这两种机制均有比较安全的效果。
同时,随着 Hadoop 的广泛应用。很多大数据资源厂商都针对Hadoop发布了安全补充方案。比如DataGuise for Hadoop 以及DataStax等配套资源,这也为我们安全的使用Hadoop提供了技术支持和后续保障。
4 Hadoop架构在非结构化数据管理的应用前景
4.1利用Hadoop存储油田非结构化数据的方式
4.2 Hadoop数据架构的搭建:
1)文件存取使用统一接口,封装对数据中心所有的非结构化数据的读写操作接口;
2)以HDFS对大文件负责存储,并作为文件协议标准;
3)以 HBase通过维护一张文件表完成对小文件的存储并作为文件协议标识。
搭建一个Hadoo分布式存储架构,通常只需要三到五台计算机,成本低廉并且 Hadoop 和Storm作为开源的框架,几乎是免费的,有效地降低了企业应用成本。
该架构能将实时计算和离线计算都是在一个架构或一个集群中,所需要的数据共用共享,共享的非结构化数据一次写入,多次读取,写入后存储在HDFS上就不能修改,但可以把文件下载到本地,把HDFS上的文件删除,修改后再上传到HDFS 上,实现文件的修改,确保共享文件的安全性和实时性,以及数据源的唯一性。在此基础上,甚至可以进一步构建大数据技术生态体系。
5总结
随着大数据时代的发展,很多运营商深切认识到 Hadoop 的价值,开发的软件和数据库都为 Hadoop 提供了接口。比如我们现在一直在用的Oracle。 Oracle从11G版本开始就为Ha⁃doop提供了免费接口,几乎可以做到无缝衔接,这就使我们在管理企业数据时有了更加便捷的管理途径。之前提過Hadoop 是为大数据时代而生的,尽管由于开发时间尚短,存在许多不足,比如对于传统结构化数据的处理方面还不能完全取代Ora⁃cle,但随着大数据的发展以及技术的不断创新,终有一天能够为企业数据建设提供更加坚实的支撑。
数据建设和管理是一项复杂的系统工程,作为数据管理人员,我们的主要任务,就是利用先进的理念和技术,打破传统的模式,对数据进行全方位的管理和升级,在实践中寻找方法,开拓道路,为油田高质量高效益发展提供数据支撑。
参考文献:
[1] Sanger F, Nicklen S. DNA sequencing with chain-terminating [P].74, 5463–5467(1977).
[2] Schuster S C. Next-generation sequencing transforms today's biology[J].Nature Methods,2008,5(1):16-18.
[3]解增言,林俊华,谭军,等.DNA测序技术的发展历史与最新进展[J].生物技术通报,2010(8):64-70.
[4] Rusk N.Cheap third-generation sequencing[J].Nature Methods, 2009,6(4):244.
[5] Venter J C,Adams M D,Myers E W,etal.The sequence of the human genome[J].Science,2001,291(5507):1304-1351.
[6]于聘飞,王英,葛芹玉.高通量DNA测序技术及其应用进展[J].南京晓庄学院学报,2010,26(3):1-5.
[7]衣春翔.哈工大牵头启动十万人基因组计划——绘制中国人精细基因组图谱[N].黑龙江日报,2017-12-29(3).
[8] Jeffrey Dean, Sanjay Ghemawat. MapReduce: Simplified Data Processing on Large Clusters[C]. America: Google, Inc., 2004:137-149.
【通联编辑:唐一东】