APP下载

雅鲁藏布江砂粒显微图像数据集

2020-11-16董小龙胡修棉赖文

关键词:偏光底图砂粒

董小龙,胡修棉*,赖文

1.南京大学地球科学与工程学院,南京 210023

数据库(集)基本信息简介

数据库(集)名称 雅鲁藏布江砂粒显微图像数据集数据作者 董小龙,胡修棉,赖文数据通信作者 胡修棉(huxm@nju.edu.cn)数据时间范围 河流砂样品采集的时间为2016年6月;河流砂薄片偏光显微照片拍摄于2019年。地理区域 样品采自中国西藏自治区日喀则地区雅鲁藏布江干流;GPS坐标为:29°19′13.5″N,88°51′28.4″E。偏光显微镜分辨率 4908×3264像素数据量 10.3 GB数据格式 *.jpg,*.xls,*.xml数据服务系统网址 https://dx.doi.org/10.11922/sciencedb.j00001.00035基金项目 第二次青藏高原科学考察研究项目(STEP,2019QZKK0204)数据库(集)组成数据集共包括3个数据文件,它们分别为:碎屑单颗粒标记图片集data.zip、标记底图.zip、砂粒信息表.zip。其中:(1) data是标记的图像坐标文件(xml格式)和原始薄片偏光显微照片(jpg格式),共1876张照片,数据量9.49 GB;(2)标记底图是标记的颗粒的编号及其对应的显微照片拍照视域,共120张照片,数据量911 MB;(3) 砂粒信息表是标记的砂粒的类型,共2份,数据量162 KB。

引 言

砂或砂岩中碎屑颗粒的组分和含量是判定碎屑物源的重要依据。要获得碎屑颗粒的组分和含量,传统工作需要将砂或砂岩磨制成标准薄片,在偏光显微镜下采用Gazzi-Dickinson方法统计约400个颗粒[1]。然而,这种靠人眼在显微镜下逐颗粒识别统计的方法不仅所耗时间长,劳动强度大,而且受人的主观认识和经验的影响,所得到的统计数据的对比性较差。如何能把地质工作者从繁琐耗时的碎屑统计中解脱出来,从而提高工作效率,是一个亟待解决的问题。

近年来,使用机器学习技术的计算机辅助方法已应用于煤岩组分的自动鉴定[2],矿石矿物的自动鉴定[3]和重矿物的自动识别[4],这不仅可以减少地质学家的工作量,并且可以提高鉴定的准确性,实现不同实验室的数据对比。基于机器学习算法的地质图像分类方法首先通过提取地质图像特征,如颜色、解理、结构和形状等信息,在特征空间中构建对地质图像的特征表示。然后使用机器学习算法学习不同类别特征间的差异,构建特征分类器,从而实现基于显微图像的碎屑颗粒自动鉴定和分类统计。

基于显微图像的碎屑组分自动鉴定技术,前期需要大量的由专业地质人员所标记的图像数据集作为机器学习的样本。然而,该类型的数据现在还处于空白,有许多想要利用已标记好的碎屑颗粒图像数据集进行深度学习的计算机工作者苦于找不到公开发表的数据基础。基于数据共享,公开利用的原则,笔者将前期耗费大量时间和精力所拍照并逐一标记的显微图像数据集进行整理,并与大家共享。

1 数据采集和处理方法

选取2016年6月采集于雅鲁藏布江干流心滩河流砂样品16A063(图1),采样标准参考[5-8],采集砂样约2公斤,分成2份分别编号16A063-1和16A063-2。16A063-1用2000 μm和63 μm的筛网湿筛得到粒径在63-2000 μm的砂样,16A063-2用500μm和63μm的筛网湿筛得到粒径在63-500 μm的砂样。然后用分样器多次均分样品,最终得到约5 g砂样,前后分两批送往河北省廊坊诚信地质服务有限公司进行标准薄片磨制,获得厚度为0.03 mm的标准光学薄片,其中薄片16A063-1颗粒胶结物为蓝色环氧树脂,薄片16A063-2颗粒胶结物为无色环氧树脂。

拍摄显微图像时,先在薄片上画出一定的矩形区域,以去掉边缘不均匀的部分。然后在标准偏光显微镜下(显微镜型号Nikon ECLIPSE LV 100POL,目镜10倍)进行底图拍照,同时拍摄单偏光和正交偏光照片。拍照时有小部分重叠以便能完整拼接。根据砂粒大小,薄片16A063-1选用2.5倍物镜进行底图拍摄,选用10倍物镜进行单颗粒图像拍照。薄片16A063-2选用5倍物镜进行底图拍摄,选用20倍物镜逐一拍摄单颗粒图像。薄片拍照和信息采集方法统一按《岩石显微图像专题》的标准执行[9],系统采集了砂薄片显微图像。采集的每张单颗粒图像视域均在底图上框出,以便能快速找到每张显微照片的位置。采集完偏光显微图像后,按照划分的17种颗粒类型进行逐颗粒鉴定,将鉴定的结果在底图上标出,用折线将标记的颗粒相连,折线中每个拐点所在的位置代表一个颗粒,按照顺序以间距为10进行编号,同时在Excel表中对每个颗粒进行编号,以方便后期颗粒标记(图2)。将拍摄的单颗粒图像文件用专业标记软件LabelImg打开并对每张图片上的每一个颗粒进行标记,得到样本的标记数据集。LabelImg是一款开源的标注工具,使用版本为windows_v1.5.0(下载网址:http://tzutalin.github.io/labelImg/)。

图1 样品位置图(改自[10])

图2 砂粒显微图像拍照编号流程图

2 数据样本描述

本数据集由3部分组成,分别为data文件夹、标记底图文件夹和砂粒信息表文件夹。共包含不同类别的砂粒8734颗,砂薄片显微图像1996张,其中单颗显微图像1876张,标记底图照片120张。粒砂粒按照6大类17小类进行分类(表1),分类标准参考[1],对于石英仅区分单晶石英和多晶石英,长石区分斜长石和钾长石,本数据集未再进行细分。不同类型的砂粒数量见表2。

表1 砂粒分类及缩写表

表2 薄片16A063-1和16A063-2颗粒数量和显微图片数量统计表(颗粒缩写见表1)

总数 45 7 120 107 2 2 702 8734 1876备注16A063-1 其他=重矿物(187)+不透明矿物(7)+无法识别矿物(2)16A063-2 其他=重矿物(338)+不透明矿物(163)+无法识别矿物(5)

2.1 碎屑单颗粒标记图片集

全部数据集信息保存为data压缩文件。data文件中包含:image文件夹,annotation文件夹和类别注释 predefined classes文件。annotation文件夹包含与 image文件夹中图片一一对应的标注文件(图3)。这样的文件组织格式方便计算机进行读取。

图3 显微图像数据组成图

图像标注工作使用LabelImg软件完成,在LabelImg软件中打开砂粒图像,手动标注颗粒位置及类别。由于单偏光图像与正交偏光图像颗粒位置一一对应,故仅需对单偏光图像进行标记。计算机可以根据单偏光标记的位置坐标自动提取正交偏光显微照片的颗粒位置。标记信息以xml格式保存在 annotation文件中。annotation文件中的每个颗粒标记坐标文件可用软件 Notepad++,版本为windows_v7.8.8(下载地址:https://notepad-plus-plus.org/downloads/v7.8.8/)打开。标记的图片位置用LabelImg打开时,需要将图片文件夹名称与标记保存的xml文件夹名称对应(图4A两个红色方框位置),才能显示标记位置。

砂粒照片数据集image文件夹共包含1876张单颗粒偏光显微照片组成,每一个单颗粒视域都包含单偏光显微照片和正交偏光显微照片各一张,显微照片编号样式为“a1-”和“a1+”,“a1”为对应底图拍照视域的位置,“-”表示单偏光照片,“+”表示正交偏光照片(图 4B)。显微照片颜色与偏光显微镜下的肉眼观察一致。显微照片的分辨率为4908×3264,保存格式为JPG。

图4 颗粒标记示意图

2.2 标记底图

标记底图文件夹中共有120张标记好的显微图像照片。其中文件名“a*标”为10倍或20倍镜下拍摄的单颗粒照片视域(图5A);文件名“a*-1”为对应的“a*标”视域,用折线将每个鉴定编号的颗粒相连,以10为间距依次编号(图5B)。

图5 标记底图示例

2.3 砂粒信息表数据子集

砂粒信息表为两张薄片16A063-1和16A063-2的颗粒鉴定结果,信息表中的编号与底图“a*-1”的编号顺序相一致(图 5B)。单颗粒的鉴定结果按照底图标定的顺序以缩写的形式填写在砂粒信息表中。在薄片16A063-1将强烈蚀变的斜长石(P)和钾长石(K)分别标记为P1和K1,以示区别。不同的颗粒所占总体的比例如图6。

图6 薄片16A063-1和薄片16A063-2不同类型砂粒组成比例图(颗粒缩写见表1)

3 数据质量控制和评估

岩石薄片样本符合国家与国际标准的厚度。在本次显微照片拍摄和薄片鉴定过程中,同一批次的岩石薄片中观察到石英颗粒的干涉色均为一级干涉色,说明薄片的厚度符合0.03 mm的国家标准。显微照片高清且无色差。在显微镜拍摄过程中,采用自动曝光和自动白平衡,使得肉眼观察和系统照片颜色尽量保持一致;且显微照片的分辨率统一采用拍照系统的最高值4908×3264像素,图片统一保存为jpg格式;故而显微照片的质量与清晰度是可靠的。每张照片都添加有比例尺,为后期颗粒大小的测量、圆度计算、面积计算提供便利。

砂粒的鉴定是研究者共同讨论的结果,以确保鉴定结果的准确性。

本数据集提供大量的已标记的砂粒图像和标记的坐标文件,每张颗粒显微照片的每个颗粒均进行标记,可以获得每个颗粒的坐标值和对应的颗粒类型。同时标记过程中在底图上标出颗粒图像的视域位置并进行颗粒编号,使得每个标记颗粒的位置和类型可追踪。后面的使用者可以进行校验。

数据的不足之处在于数据结构不均衡,有的颗粒类型数量非常多,如石英颗粒,有的颗粒类型非常少,如变质岩岩屑(图6)。这使得基于机器学习技术的图像识别结果的准确性参差不齐,有待下一步继续对数据集进行补充,减少数据库内各颗粒类型的数量差距。由于人工移动载物台,拍照视域和底图视域稍有偏差,但不影响快速定位。部分颗粒在底图上未标出,但用LabelImg标记时每张图片中出现的颗粒均标出其坐标位置和颗粒类型,以利于计算机读取。

4 数据价值

本数据集包含大量标记好的单颗粒图片和坐标文件,是利用机器学习技术实现砂粒中的矿物和岩屑自动鉴定的重要数据基础。大量已鉴定的单颗粒照片可以作为鉴定图版使用。砂粒的分类可为后续的河流砂研究提供参考标准,提高不同实验室所获碎屑数据的可比较性。现代河流砂砂粒的鉴定特征可以为砂岩成分的鉴定提供参考依据,帮助我们理解古代砂岩的特征。

5 数据使用方法和建议

本数据集中3个文件的关联性较强,内容相对应,使用时注意一下几点:

(1)数据集中出现的薄片,都集中统一保存在南京大学胡修棉教授课题组。如果以上数据集中提供的显微照片不能满足进一步的研究需要,可以联系通信作者申请进一步使用。

(2)数据使用时3个文件应同时下载使用,以便能迅速找到每个颗粒的位置信息和颗粒类型,在使用标记的 annotation标记文件时,应提前下载好标记软件 LabelImg(具体安装步骤可参考https://blog.csdn.net/qq_38451119/article/details/83036495)和坐标文件读取软件Notepad++,以读取颗粒图像和坐标。用LabelImg打开图像文件时,应将标记的保存目录更改为与图像文件想对应的文件名下,才能显示标记的图框位置。如在使用中有任何问题请联系本文作者。

(3)单颗粒的砂粒照片可以作为河流砂碎屑鉴定的标准图版,部分具有典型结构的碎屑颗粒可以直接用于教学和图书出版。

猜你喜欢

偏光底图砂粒
一种基于实际GIS底图的精准计费方式探究
偏振波谱光态矢量光照参量对东亚飞蝗偏光响应效应的影响
新型高耐久染料系聚乙烯醇偏光膜的性能研究
航道生产单位中底图档案工作存在的问题及思考
下降管蓄热器中沙漠砂流动性数值分析
主动出击
基于3D技术和偏光技术的茜草鉴别研究
科研院所底图管理模式转型研究
用于粒子分离器的砂粒反弹特性实验研究
让远光灯使用更安全