海量地震数据实时传输技术研究
2021-04-28李建锋冯玉苹
李建锋,冯玉苹
(1.中石化石油工程地球物理有限公司胜利分公司 山东 东营 257000;2. 中国石化胜利油田有限公司物探研究院 山东 东营 257000)
0 引 言
随着地震勘探向着宽频带、宽方位、高密度方向发展,野外地震采集工程呈现高效施工和采集数据量剧增的特征。以胜利油田LJ2017工区为例,该工区观测系统为36L5S620T,接收道数达22 320道,炮道密度为357.12万,最大日效791炮,每炮数据量达601 MB之多。在这种海量数据高效采集模式下,依靠传统纸质监视记录进行质量监控既不现实,也不科学。
目前,利用现代计算机及网络技术,通过设计合理的传输与存储模式,制定科学的评价模型,可以有效实现海量地震数据实时监控,替代长期以来一直沿用的人工定性分析与纸质监视记录评价模式,确保高密度地震采集的高质与高效。地震采集实时监控软件[1-2]正是这种需求的产物,它安装在仪器车的计算机网络环境中,实现对当前激发的单炮地震记录进行质量监控。但是,在海量地震数据采集时,如何把地震采集系统中的大数据量单炮记录高效传输到监控软件是实时质量监控的前提和关键,按照目前采集工程需求,这种单炮记录从传输到解编应控制在数秒内,否则,难以达到高效地震采集资料实时监控目的。
法国Sercel公司400系列采集系统等是如今国内地震队使用广泛的地震采集设备,不失一般性,本文主要基于Sercel 428XL采集系统展开讨论。
1 传统地震数据现场传输模型
1.1 模型构成
按照现行行业标准[3],在地震资料采集过程中,地震采集系统需要配置采集板、服务器、磁带机、大容量外置硬盘、打印机和网络交换机等设备,用于磁带/磁盘转储和监视记录打印。一般还购置仪器公司配套的监控软件,例如Sercel公司的eSQC-Pro,用于常规单炮记录回放和简单的分析处理功能。
根据Sercel公司地震仪通讯理念[4],将计算机网络节点引入到遥测地震仪系统,排列中的电源站、交叉站等均可定义为网络节点,构建地震区域网络,形成现场采集网络系统,最终生成地震采样数据(一般按SEG D或SEG Y规范记录)。同时,利用Sercel配套工作站、数据备份设备、数字打印设备以及实时监控设备等构建独立的输出与监控网络。如图1所示。
图1 通用地震采集系统与输出和监控网络系统
在图1中,左侧部分为地震采集系统(下简称网络A),构成了现场地震数据生成的物理环境;右侧部分为通用地震数据传输、存储与监控等网络环境(下简称为网络B)。服务器配置双网卡,同时位于两个网络环境,因此,服务器的性能很大程度上决定了这套地震采集系统和监控系统的性能。
大数据量的地震数据磁带存储采用光缆方式传输,网络B中其它输出与监控设备的网络负载瓶颈是服务器与交换机之间的网线带宽。
目前,Sercel 400系列地震仪器采用千兆自适应网络,按照千兆网实际传输带宽60~80 MB/s计,该服务器如果采用单一目标输出可达该传输速率,但是,如果多于1个目标输出,则多目标共享该传输带宽。
1.2 实验测试
为检测施工效果,在胜利油田CGZ工区进行环境噪声录制传输实验,该工区观测系统为36L5S336T,记录时长20 s,采样率为1 ms,数据文件大小约948 MB。分别进行了三种不同目标传输实验,笔记本采用Sercel公司专用的FTP传输方式,同一实验在相同环境进行了5次,耗时数据取平均,结果见表1。
由表1的传输速率可以看出,随着传输目标的增加,传输速率呈下降趋势,不考虑磁盘写入的差异(固态盘与机械盘),N个目标传输速率约是单目标速率的1/N倍。
表1 CGZ工区数据传输实验
根据实验结果可推得:引言中LJ2017工区单炮记录601 MB数据向两个目标传输时,大致需要16.58 s才能完成,如果再考虑数据解编、属性提取及单炮评价时间,按照图1构建的传输模型,完全难以满足海量地震采集实时监控需求。
1.3 存在的弊端
针对海量地震数据采集实时监控而言,Sercel地震采集仪器目前通用数据传输模型存在三个方面的弊端:
1)通过绘图仪输出监视记录是在小接收道时的产物,在多排列、大道数地震采集时,抽排列绘制监视记录进行现场监控既不全面,也不经济;
2)传统的显示回放记录或只做简单数据分析的软件不能对海量地震数据进行定量化的全面质量监控;
3)在高效采集时,大数据量单炮记录采用现场记录磁带方式,耗时过长,影响生产效率,完全可以用磁盘存储-室内记录磁带的方式替代。
因此,研究海量地震数据实时传输技术,提出改善的数据传输模型,达成真正的海量数据实时、高效、全面质量监控是必要的。
2 海量地震数据高效传输模型
2.1 物理模型
海量地震采集资料质量实时监控传输模型离不开现有采集系统,需要对现有数据传输模型进行改造,从提高监控网络带宽、输出目标瘦身及面向未来应用三个角度着手。
千兆网提升为万兆网是首要之举。用2台台式计算机在无其它负载情况下进行网络传输实验,包括万兆网交换机在内的整个网络是万兆网,在网络映射硬盘方式下的传输速率为251.9~407.25 MB/s,FTP方式下的速率为366.55~555.75 MB/s。由此得出结论:万兆网络环境中数据传输速度约为千兆网络环境下数据传输速度的4~6倍,前文提及的LJ2017单炮数据的传输时间仅为2~3 s,这样,就从根本上保障了物理传输效率。
输出目标瘦身是指针对通用地震采集资料监控模型,改造其输出模式,将地震数据的目标输出限定在NAS盘和实时监控设备。
未来,地上地下条件双复杂、地质目标越发精细导致地震采集工程向大体量发展,资料实时监控将遇到更多难题。单炮记录快照及单炮资料地震属性数据较单炮数据量小得多,结合5G技术,可将仪器车上的实时监控结果快速反馈到异地,使得远程监控与施工指导成为可能。
基于以上因素,构建海量地震采集资料实时监控数据传输物理模型如图2所示。该模型将地震数据记录到NAS盘;在服务器与监控设备间实现点对点互联;利用大型显示器显示单炮记录、线性动校正、各种地震属性量化分析图表、单炮记录监控与评价表以及各种统计图表等;把每炮的属性提取与分析结果通过现场网络实时回传到地震队现场服务器或采用VPN回传给基地服务器。
图2 海量地震高效采集数据传输物理模型
该模型充分利用了万兆网的传输速率,设置了大型显示设备,兼顾了质量监控结果的共享。该模型既能满足实时数据备份需求,又为单炮记录实时监控提供物理基础,还把监控相关信息实时同步到地震队和基地服务器,便于远程分析与管理。
2.2 海量地震数据传输模式
地震数据传输模式建立在地震采集系统数据流传输机制基础上,重点关注记录与输出两个步骤。记录是把经过处理的信号转换为SEG D格式的数据文件,并将SEG D数据文件存储到服务器系统专门在硬盘上开辟的缓存目录下的过程;输出是把缓存目录中的SEG D数据文件发送到不同输出目标的过程。为不影响下一炮激发,采集系统规定:在所有目标输出完毕后,缓冲区文件会立即自动删除。
结合地震数据传输物理模型,获取现场单炮记录文件有4种方式:缓存访问、FTP、映射网络磁盘和磁带。
采集系统把最初形成的地震数据文件暂存在缓存中,因此,通过采取缓存访问方式可快速获取该数据。缓存中的文件是采集系统第一时间生成的,访问该文件理论上操作效率最高,但是,整个地震采集系统是个系统工程,需要考虑其它因素的影响。Sercel采集服务器采用Linux操作系统,缓存文件管理由Linux系统控制,第三方软件若要对缓存中的文件操作必然存在该文件不可控的风险,例如,可能正在读取时,该文件已被删除。
地震仪器厂商一般提供高效FTP(文件传输协议,File Transfer Protocol)服务,方便地震数据传输。FTP的良好运行与其它输出通道密切相关,输出通道增多,FTP的传输速率必然下降;另外,FTP还与缓冲区的大小及服务器的内存等有关。
网络映射磁盘和磁带转储模式是一种延迟传输方式,它是把地震数据从缓存中的文件先存储到外置硬盘或磁带后再获取文件的一种方式。
表2反映了这4种不同传输方式的性能对比。缓存访问和FTP是受限于采集系统的访问方式,它们直接访问缓冲区文件,效率高;缓存文件的不可控性决定了缓存访问不可行性。FTP服务器一般由采集系统服务器兼任,FTP的启用增加了采集系统的风险。映射网络硬盘(表2中的NAS盘)和磁带是两种延迟访问方式,对它们的访问并不影响采集系统的正常运转,可靠度高;磁带的记录时间较长,现场访问磁带效率极低。
表2 几种不同传输方式的性能对比
2.3 双线程随机炮队列伺服模型
海量地震采集数据传输模型在关注单炮记录传输效率的同时,针对单位时间内出现多炮拥堵的问题,提出如下解决思路:
将生产炮激发视为随机事件,构建线程与队列间的关系,形成随机炮队列伺服模型,如图3所示。按照“先来先服务”规则,建立宏观有效的数据传输与处理机制,避免多炮数据拥堵,确保采集服务器通讯畅通,不因为监控影响生产。
图3 随机炮监控队列数学模型
高效数据传输模式方案设计如下:
Linux服务器上采集系统产生的地震数据SEG D在万兆网环境下直接存储到NAS盘上,监控软件将NAS盘作为网络硬盘访问,单炮记录作为独立事件随机产生。
在图3中,存在2个事件队列:队列A是采集系统把缓存中的文件输出到NAS盘共享目录的过程,该过程完全由地震采集系统自动控制;队列B是把NAS盘共享目录下的文件利用映射网络技术下载到监控软件本地的数据传输事件。
采用2个线程实时监测这2个队列并做相应的处理:线程A监测事件队列A,并在队列A不空且队列B中的事件结束时,启动队列B的下一个事件;线程B监测队列B中事件执行,将事件队列B的首炮送入空闲的监控软件进行解编和处理,该过程完成后,反馈信号给线程A,启动下一个任务。
上述方案通过文件落盘模型和文件不落盘模型的设计与研究加以实现。
1)文件落盘模型 所谓文件落盘是指实时监控软件在监控前把存放在NAS盘共享目录下的文件传输到本地磁盘的过程。显然,文件落盘方案采用两次传输,地震数据首先从缓存中把文件传输到NAS盘,然后,监控软件读取并转存硬盘文件,再进行解编、处理,这种操作比FTP模式增加了1次数据传输,造成了更多的时间消耗。但由于地震数据文件传输到本地,对该文件的任何操作都不影响采集系统,工程上的可行性和实用性程度显著提高。
2)文件不落盘模型 监控软件利用线程A监控NAS盘共享目录,如果产生新的地震数据文件,不启动传输队列B,而是建立待监控数据映射表,通过虚链接方式,在线程B反馈给空闲信号后,再从映射表中,提取第一个待处理文件,直接进行解编处理。线程A和B尽管在时间上也有先后顺序,都仍然是并行操作,因此,避免了两个传输事件队列由于随机事件可能造成的队列拥堵,有效减少了等待时间,同时由于减少了一次传输时间,总的实时监控时间得到有效控制。
2.4 文件锁
多个线程同时操作同一文件时,容易导致文件数据混乱,操作系统一般通过文件锁保障数据的完整。文件锁是一种文件读写机制,在任何时候,只允许一个线程访问同一个文件,以确保文件安全,主要有共享锁和排它锁两种类型[5-6],如果文件被其它线程锁住,线程会被阻塞直到锁被释放。关于文件锁,有个基本规则[7]:多个线程在一个给定的字节上可以有一把共享的读锁,但是在一个给定字节上的写锁则只能由一个线程独用;更进一步,如果在一个给定字节上已经有一把或多把读锁,则不能在该字节上再加写锁;如果在一个字节上已经有一把独占性的写锁,则不能再对它加任何读锁。
根据该规则,在Windows环境下,可以方便地检测文件的结束时刻。遗憾地是,目前采集系统没有对从缓存文件输出到NAS盘共享目录下的文件设置锁标记,因此,线程A对队列A中某事件结束的监测带来困难,可采用算法检测队列A事件结束。
3 工程应用及时效分析
根据以上技术方法,我们开发了相应的软件系统,组建了现场地震数据监控网络,实现了海量地震采集资料实时质量监控,如图4所示为软件监控界面。
该成果分别在胜利油田NZH工区和YJ工区进行了传输时效对比应用。其中NZH工区采用的观测系统为40L5S364T,单炮数据量为392 MB,使用FTP传输模式;YJ工区采用32L7S392T观测系统,单炮数据量为350 MB,使用NAS盘方式传输数据。两者均采用千兆网进行数据传输,NZH单炮传输加监控时间为6~9 s,YJ工区单炮传输加监控时间为7~10 s。
这两个工区采用千兆网限制了数据传输效率,按照2.1的测试,如果采用万兆网,传输速率按最小提升4倍计,整个监控时间可显著缩短,完全可达到海量地震采集实时监控数据传输目标。
图4 海量地震采集资料实时监控界面
4 结 论
通过地震数据传输物理与逻辑模型研究,在技术可行性与工程实用性之间进行了综合对比研究,提供了多种可供选择的解决方案,为海量地震采集实时监控的数据传输提供了可借鉴的工程实施方案。
1)物理模型要求在万兆网下,尽量减少输出的多目标性,并为自动化和远程监控增加新的设备和实施。
2)逻辑模型提供FTP和映射网络硬盘技术之间的差异,前者效率更高而工程可行性低于后者,后者相对具有更高的工程可操作性。
3)单次数据传输的不落盘模型具有更高的传输效率,但由于数据不落盘,不具备数据的离线分析能力。