APP下载

古生物化石智能化识别方法及应用*

2023-08-02贾建忠

计算机与数字工程 2023年4期
关键词:古生物化石运算

饶 溯 贾建忠

(中海石油国际能源服务(北京)有限公司 北京 100028)

1 引言

生物是全球碳循环的中转站,生物不但可以用于确定地层年代、反映古环境,还能改变环境,形成有利于有机质富集的条件。古生物分析作为油气勘探中的重要一环,通过古生物化石图片的识别既可以厘定地层年代和沉积环境,也可以判断烃源岩沉积期的有机质富集条件。生物的演化与油气生成关系较为密切,主要原因是烃源岩供烃与当时生物大量繁殖有关。而有孔虫的识别在海相油气勘探中广阔的应用前景,它可反应水深、海平面、温度、古气候的变化和当时的氧化还原条件。

目前,油气勘探领域古生物人才较少,而且通常人工鉴别方法工作效率低下。对于钻井数量庞大的实验室鉴定人员来说,任务较为繁重。20 世80 年代末期,国内外对于基于知识图谱的专家识别系统开展了相应的研究[1~2]。21 世纪初,机器学习方法例如多元统计分析、决策树、人工神经网络等也用于化石鉴定和分析[3~8]。随着计算机硬件技术和大数据分析技术的快速发展,基于卷积神经网络的深度学习技术已逐渐成为古生物识别的主流方法[9~10]。

基于图像处理方法和深度学习技术,建立一项古生物化石智能化识别方法,对样本进行分类,其分类准确率较高。该项识别方法在油气勘探领域具有较强的实用价值和推广前景。

2 方法简介

为了保证古生物化石的识别精度,采用了图像形态学方法、去雾处理方法、图像常规处理方法来提高深度学习训练模型的准确率。

2.1 图像形态学方法

图像形态学方法是以图像的形态特征为研究对象,通过腐蚀、膨胀、开运算和闭运算去度量和提取图像的基本特征和结构元素[11]。

假设f(x)和g(x)为定义在二维离散空间F 和G 上的两个函数,其中f(x)为输入图片,g(x)为结构元素,则可定义f(x)关于g(x)的腐蚀和膨胀如下所示:

先进行腐蚀再膨胀可称开运算,它通常可用于去除噪声;先进行膨胀再腐蚀可称闭运算,它通常可用于填充图像上的空白小洞及小点。可定义f(x)关于g(x)的开运算和闭运算如下所示:

对于收集古生物图片的上可以存在多个古生物化石样本,需对其单个古生物化石样本定位,可先通过微分算子检测出其边缘和骨架,再依次对其进行闭运算形态学操作,即先膨胀再腐蚀后获得单个古生物化石样本图片的位置坐标,最后可根据坐标的最大最小值拆剪图片,即获得单个古生物图片。

2.2 去雾处理方法

去雾处理方法认为在无雾图像上每一个局部区域都很有可能会有一些暗通道,一旦图像受到雾的影响,那么暗通道就变得灰白,通过估计雾的浓度来识别物体,可还原图像的颜色和能见度[12]。

对于任意图像G,可定义其暗通道如下所示:

其中,Gc为图像G 的R、G、B 颜色通道,Ω(x)为像素x上的一个矩形窗,Gdark→0。

式(5)表示计算出图像G 的R、G、B 分量中最小值,将最小值存入一幅与原始图片大小相同的灰度图中,然后对该幅灰度图进行最小值滤波。

去雾方法公式可定义为

其中,J(x)为去雾后图像,I(x)为待去雾图像,A为已知的大气光值,t(x) 为透射率,t0为阈值,取t0=1。

透射率t(x)的取值方法如式(7)所示:

其中,ω为权重因子,保留实际图片上受粉尘颗粒影 响 产 生 的 雾,ω取 值 范 围 为0~1 之 间,取ω=0.95。

2.3 图像常规处理方法

本文研究中,图像常规处理方法是特指图像边缘扩充处理、图像旋转处理、图像缩放处理、图像加噪处理。

1)图像边缘扩充处理。在对古生物图片定位、图片进行旋转和图片卷积运算之前,需先对原始图片进行扩边处理,相当于在图片周围创建有一定宽度的边,并在边上填充像素零值。

2)图像旋转处理。由于在镜下观察和拍照角度不同,故需对原始样本图片进行多角度的旋转处理。

3)图像缩放处理。考虑到收集到古生物化石样本图片像素大小有一定的差异,通过水平和垂直缩放系数来调整图片像素。

4)图像加噪处理。古生物样本图片不可忽略有噪声的存在,本文对样本图片增加了高斯白噪声。

2.4 深度学习VGG16架构

深度学习是指具有深层次网络结构的神经网络,它模仿神经系统的层次结构,低层次表示细节特征,高层次表示更抽象的属性类别或结构特征,以便挖掘和学习数据的本质信息。

目前,典型深度学习网络结构主要包括卷积神经网络、循环神经网络和递归神经网络。其中卷积神经网络的设计灵感来源于感受野认知模型,为专门识别二维信号尤其是图像而设计的网格模型,通过局部二维滤波器保持并提取图像的局部空间特征。

本文研究是基于深度学习VGG16 架构进行古生物图片的识别,如图1所示。深度学习VGG16架构是一个用于大规模图像分类与识别的深层次卷积神经网络[13~15],该网络由输入层、13 个卷积层、ReLU 激活函数、池化层、3 个全连接层、Softmax 分类器组成。

图1 深度学习VGG16架构的参数设置示意图

3 方法的技术流程

基于文中阐述图像处理领域的一系列方法和深度学习技术建立了一项古生物智能化识别方法,该方法如图2所示。该方法主要包括以下几项内容:

图2 古生物智能化识别方法的技术流程图

1)对于一张图片上有多个古生物化石样本,通过图像扩边处理和形态学方法闭运算定位出各个古生物化石样本的角点坐标。

2)对于彩色、白色、灰色背景的古生物化石样本图片,通过形态学闭运算和去雾算法将不同背景色图片转成背景纯色图片。

3)对获得单个古生物化石样本图片进行N 个角度旋转、M个系数缩放和高斯加白噪声处理。

4)选取训练集样本和测试集样本,使用VGG16架构对训练集样本进行训练。

4 方法的应用

本文研究中,如图3 所示,共收集到种一级Globoquadrina dehiscens、Globorotalia fohsi、Globorotalia menardii 三类单个古生物化石样本图片共计384张。

图3 三类单个古生物化石样本图片数量统计图

对于多个古生物在同一张图片,如图4 所示,采用文中所述图像形态学方法可以定位古生物化石样本的位置。如图6 所示,对于含有彩色、白色、灰色背景的样本图片,可将样本图片都归一化成黑色背景。

图4 单个古生物化石样本的定位

图5 不同色差的单个古生物化石样本图片

图6 同色背景的单个古生物化石样本图片

对于384 张古生物化石样本图片,通过图像扩边处理、角度旋转、系数缩放,样本总数扩充了32倍,即12288张古生物图片样本。如图7所示,第一行图片为旋转后图片,第二行图片为缩放后图片,第三行图片为不加噪声和家噪声图片。

图7 扩充后的单个古生物化石样本图片

选取最终样本图片中的90% 作为训练集,另外10%的图片作为测试集。如图8 和图9 所示,模型误差和准确率分别随着模型训练的迭代次数增加而减小。在迭代次数约20 次左右时,训练模型不容易过拟合,测试集也有较高的准确率,准确率可达92%以上。即本文提出的古生物化石智能化识别方法的识别率可高达92%以上,可推广至输入更多类古生物化石样本进行方法试验并应用。

图8 模型误差随迭代次数的变化

图9 准确率随迭代次数的变化

5 结语

本文建立了一套古生物化石智能化识别方法,以种一级Globoquadrina dehiscens、Globorotalia fohsi、Globorotalia menardii三类古生物样为例,来训练学习模型,并对该类别的古生物进行识别,其识别率较高,可用于古生物化石的鉴定工作。该方法的优点和不足可以概括为以下几点:

1)该方法可减少古生物专业人员的重复性工作,提高工作效率。

2)该方法可减少鉴定过程中不同古生物专业人员的主观性。

3)该方法不同于知识图谱的专家系统识别方法,它不用花大量时间用于建立古生物特征识别知识库。

4)该方法有助于建立可靠的地质年代标尺,可以厘定地层年代和沉积环境和判断烃源岩沉积期的有机质富集条件。

5)采用ResNet,AlexNet,Inception等卷积神经网络的架构以及部分架构的变种,都可能进一步提高识别的准确率。

6)不同种属的古生物化石样本标注仍需耗费古生物专业人员大量的工作时间,且需在平时工作中不断收集和补充样本。

7)如果加入训练集的样本类别过多,由于数据扰动,可能会对识别率有所影响。

8)该方法要求加入训练集中不同种属的古生物化化石样本数量必须是均衡的。

9)相比与传统机器学习和统计学定量分析古生物化石样本,深度学习原理仍缺乏解释性。

猜你喜欢

古生物化石运算
重视运算与推理,解决数列求和题
琥珀——古生物的水晶棺
有趣的运算
原角龙
“整式的乘法与因式分解”知识归纳
第三章 化石大作战
第三章 化石大作战
我的古生物博物馆之行
古生物博物馆的红五月
化石