岩石显微图像专题 I 区论文(评审中) 版本 ZH2
下载
雅鲁藏布江砂粒显微图像数据集
A photomicrograph dataset of sand grains from the Yarlung Tsangpo, Tibet
 >>
: 2020 - 06 - 30
: 2020 - 07 - 15
: 2020 - 07 - 15
922 25 0
摘要&关键词
摘要:河流砂碎屑组分的鉴定和统计是物源分析的关键步骤,传统显微镜鉴定和人工统计过程费时费力,所获得的数据标准不一,质量参差不齐,不同实验室所获得的数据对比性较差。使用机器辅助技术实现碎屑组分自动鉴定是地质学家的夙愿。要实现这一目标,需要专业地质人员拍摄和标记显微图像文件作为训练基础。基于数据公开、共享的原则,作者将前期耗费大量时间和精力所标记的图像数据集发表出来,供感兴趣的地学、计算机等领域研究人员共享。本数据集包含8734个标记好的碎屑颗粒的图像和坐标文件,1536张高清砂粒显微图像,120张编号标记底图和两个砂粒成分鉴定表。本数据集可以作为机器学习训练集,也可以作为鉴定其他河流砂碎屑组分的参考。
关键词:砂粒;显微图像;碎屑;机器学习;雅鲁藏布;河流砂
Abstract & Keywords
Abstract: Identification and statistics of reproduction of river sand and sediment components are the key steps of provenance analysis. The traditional human identification and manual statistics process are time-consuming and laborious, and the data obtained are of different standards and of uneven quality. The data obtained by different laboratories are of poor contrast. The automatic identification of sand components by computer using machine learning technology can help geologists relieve themselves from this tedious and time-consuming work. To achieve this goal, professional geologists need to take and mark a large number of microscopic image files as a basis for training. However, the large number of computer workers who want to do this work cannot find such datasets. Based on the principle of data disclosure and sharing, the author published the marked image dataset which had spent a lot of time and energy before. The dataset consists of 8,734 tagged clastic particle images and coordinate files, 1,536 sand microscope images, 120 numbered base maps and two sand composition identification tables, which provides a large number of data bases for computer automatic identification of sand components using machine learning techniques, and can also serve as reference standards for identification of other river sand detrital components.
Keywords: sand grains; photomicrograph; detrital grains; machine learning; Yarlung Tsangpo; river sand
数据库(集)基本信息简介
数据库(集)名称雅鲁藏布江砂粒显微图像数据集
数据作者董小龙,胡修棉,赖文
数据通信作者胡修棉(huxm@nju.edu.cn)
数据时间范围河流砂样品采集的时间为2016年;河流砂薄片偏光显微照片拍摄于2019年。
地理区域样品采自中国西藏自治区日喀则地区雅鲁藏布江干流;GPS坐标为:29°19′13.5″N,88°51′28.4″E。
偏光显微镜分辨率4908*3264像素
数据量10.3 GB
数据格式*.jpg,*.xls,*.xml
数据服务系统网址https://dx.doi.org/10.11922/sciencedb.j00001.00035
基金项目第二次青藏高原科学考察研究项目(STEP)(2019QZKK0204)
数据库(集)组成数据集共包括3个数据文件,它们分别为:碎屑单颗粒标记图片集data.zip、标记底图.zip、砂粒信息表.zip。其中:(1) data是标记的图像坐标文件(. xml)和原始薄片偏光显微照片(. jpg),共1876张照片,数据量9.49 GB;(2)标记底图是标记的颗粒的编号及其对应的显微照片拍照视域,共120张照片,数据量911 MB;(3) 砂粒信息表是标记的砂粒的类型,共两份,数据量162 KB。
Dataset Profile
TitleA photomicrograph dataset of sand grains from the Yarlung Tsangpo, Tibet
Data corresponding authorHu Xiumian (huxm@nju.edu.cn)
Data authorsDong Xiaolong, Hu Xiumian, Lai wen
Time rangeModern river sand sample were collected in 2016; Polarized photomicrographs of thin section were taken in 2019.
Geographical scopeThe sample site is located at the trunk river of Yarlung Tsangpo in Xigaze, Tibet; GPS: 29°19′13.5″N;88°51′28.4″E.
Spatial resolution4908×3264 pixels
Data volume10.3 GB
Data format*.xml; *.jpg; *.xls
Data service system<https://dx.doi.org/10.11922/sciencedb.j00001.00035>
Source of fundingThe Second Tibetan Plateau Scientific Expedition and Research Program (STEP), Ministry of Science and Technology, China (2019QZKK0204).
Dataset compositionThe dataset includes 3 data files, which are: Labelled Photomicrographs named data.zip, Labelled base map. zip, and information table of single sand.xls. (1)Labelled Photomicrographs.file include labelled coordinates of all the sand grains(*.xml) and 1876 polarized photomicrographs (*.jpg) of sand grains, with a data volume of 9.49 GB; (2)Labelled base map.file shows the number of the marked particles and the corresponding photomicrograph photographic field, with a total of 120 photos and a data volume of 911 MB;(4)information table of single sand.xls is the identification data sheets of sand grains in the thin sections, with a data volume of 162 KB.
引 言
砂或砂岩中碎屑颗粒的组分和含量是判定碎屑物源的重要依据。要获得碎屑颗粒的组分和含量,传统工作需要将砂或砂岩磨制成标准薄片,在偏光显微镜下采用Gazzi-Dickinson方法统计约400个颗粒[1]。然而,这种靠人眼在显微镜下逐颗粒识别统计的方法不仅所耗时间长,劳动强度大,而且受人的主观认识和经验的影响,所得到的统计数据的对比性较差。如何能把地质工作者从繁琐耗时的碎屑统计中解脱出来,从而提高工作效率,是一个亟待解决的问题。
近年来,使用机器学习技术的计算机辅助方法已应用于煤岩组分的自动鉴定[2],矿石矿物的自动鉴定[3]和重矿物的自动识别[4],这不仅可以减少地质学家的工作量,并且可以提高鉴定的准确性,实现不同实验室的数据对比。基于机器学习算法的地质图像分类方法首先通过提取地质图像特征,如颜色、解理、结构和形状等信息,在特征空间中构建对地质图像的特征表示。然后使用机器学习算法学习不同类别特征间的差异,构建特征分类器,从而实现基于显微图像的碎屑颗粒自动鉴定和分类统计。
基于显微图像的碎屑组分自动鉴定技术,前期需要大量的由专业地质人员所标记的图像数据集来作为机器学习的样本。然而,该类型的数据现在还处于空白,有许多想要利用已标记好的碎屑颗粒图像数据集进行深度学习的计算机工作者苦于找不到公开发表的数据基础。基于数据共享,公开利用的原则,笔者将前期耗费大量时间和精力所拍照并逐一标记的显微图像数据集进行整理,并与大家共享。
1   数据采集和处理方法
选取雅鲁藏布江干流现代河流砂样品16A063(图1)[5],分成两份分别编号16A063-1和16A063-2。16A063-1用2000 μm和63 μm的筛网湿筛得到粒径在63–2000 μm的砂样,16A063-2用500μm和63μm的筛网湿筛得到粒径在63–500 μm的砂样。然后用分样器多次均分样品,最终得到约5 g砂样,前后分两批送往河北省廊坊诚信地质服务有限公司进行标准薄片磨制,获得厚度为0.03 mm的标准光学薄片,其中薄片16A063-1颗粒胶结物为蓝色环氧树脂,薄片16A063-2颗粒胶结物为无色环氧树脂。


图1   样品位置图(改自[5])
MBT-主边界逆冲断裂;STDZ-藏南拆离系;GKT-吉隆-康马断裂;YTSZ-雅鲁藏布缝合带;LMF-洛巴堆-米拉山断层;SNMZ-狮泉河-纳木错混杂岩带。
拍摄显微图像时,先在薄片上画出一定的矩形区域,以去掉边缘不均匀的部分。然后在标准偏光显微镜下进行底图拍照,同时拍摄单偏光和正交偏光照片。拍照时有小部分重叠以便能完整拼接。根据砂粒大小,薄片16A063-1选用2.5倍镜进行底图拍摄,选用10倍进行单颗粒图像拍照。薄片16A063-2选用5倍镜进行底图拍摄,选用20倍镜逐一拍摄单颗粒图像。薄片拍照和信息采集方法统一按《岩石显微图像专题》的标准执行[6],系统采集了砂薄片显微图像。采集的每张单颗粒图像视域均在底图上框出,以便能快速找到每张显微照片的位置。采集完偏光显微图像后,按照划分的17种颗粒类型进行逐颗粒鉴定,将鉴定的结果在底图上标出,用折线将标记的颗粒相连,折线中每个拐点所在的位置代表一个颗粒,按照顺序以间距为10进行编号,同时在Excel表中每个颗粒进行编号,以方便后期颗粒标记(图2)。将拍摄的单颗粒图像文件用专业标记软件LabelImg打开并对每张图片上的每一个颗粒进行标记,得到样本的标记数据集。LabelImg是一款开源的标注工具,使用版本为windows_v1.5.0。


图2   砂粒显微图像拍照编号流程图
2   数据样本描述
本数据集由3部分组成,分别为data文件夹、标记底图文件夹和砂粒信息表文件夹。共包含不同类别的砂粒8732颗,砂薄片显微图像1996张,其中单颗显微图像1876张,标记底图照片120张。粒砂粒按照6大类17小类进行分类(表1),分类标准参考Ingersoll(1984)。不同类型的砂粒数量见表2。
表1   砂粒分类及缩写表
缩写英文全称中文名称备注
QmMonocrystalline quartz单晶石英Q=Qm+Qp
QpPolycrystalline quartz多晶石英
QTotal quartz石英
PPlagioclase feldspar斜长石F=P+K
KPotassiμm feldspar钾长石
缩写英文全称中文名称
FFeldspar长石
LvfAcid-intermediate vocanic rock fragments中酸性火山岩岩屑Lv= Lvf+ Lvm+ Lvi
LvmMafic vocanic rock fragments基性火山岩岩屑
LviIntrusive rock fragments侵入岩岩屑
LvVolcanic rock fragments火成岩岩屑
LscCarbonate grain碳酸盐岩岩屑Ls=Lsc+Lsm+Lss+Cht
LsmMudstone or shale grain泥岩岩屑
LssSandstone & siltstone砂岩岩屑
ChtChert硅质岩岩屑
LsSedimentary rock fragments沉积岩岩屑
LmlSlate fragments板岩岩屑Lm=Lml+Lmp+Lms+Lmu+Lmc
LmpPhyllite fragments千枚岩岩屑
LmsSchist fragments片岩岩屑
LmuMetamafic rock fragments of ultramafic rocks超基性变质岩(如蛇纹岩)
LmcLithic grains of marble大理岩岩屑
LmMetamorphic rock fragments变质岩岩屑
其它重矿物、不透明矿物,无法识别矿物
表2   薄片16A063-1和16A063-2颗粒数量和显微图片数量统计表(颗粒缩写见表1)
QmQpPKLvfLvmLviLscLsmLss
16A063-1132882224114172112296049
16A063-2342829044547715626460161100
总数47563726691618871728489221149
ChtLmlLmpLmsLmuLmc其他颗粒总数颗粒照片数
16A063-11526223001962369374
16A063-230558842250663651502
总数4571201072270287341876
2.1   碎屑单颗粒标记图片集
全部数据集信息保存为Data文件夹。Data文件夹中包含:image文件夹,annotation文件夹和类别注释predefined classes文件。annotation文件夹包含与image文件夹中图片一一对应的标注文件(图3)。这样的文件组织格式能够方便计算机进行读取。


图3   显微图像数据组成图
图像标注工作使用LabelImg软件完成。在LabelImg软件中打开砂粒图像,手动标注颗粒位置及类别。由于单偏光图像与正交偏光图像颗粒位置一一对应,故仅需对单偏光图像进行标记。计算机可以根据单偏光标记的位置坐标自动提取正交偏光显微照片的颗粒位置。标记信息以xml格式保存在annotation文件中。annotation文件中的每个颗粒标记坐标文件可用软件Notepad++打开。标记的图片位置用LabelImg打开时,需要将打开图片文件夹名称与标记保存的xml文件夹名称对应(图4A两个红色方框位置),才能显示标记位置。
砂粒照片数据集image文件夹共包含1876张单颗粒偏光显微照片组成,每一个单颗粒视域都包含正交偏光显微照片和单偏光显微照片各一张,显微照片编号样式为“a1-”和“a1+”,“a1”为对应底图拍照视域的位置,“-”表示单偏光照片,“+”表示正交偏光照片(图4B)。显微照片颜色与偏光显微镜下的肉眼观察一致。显微照片的分辨率为4908×3264,保存格式为JPG。


图4   (A)LabelImg标记单偏光图片,存放于annotation文件中;(B)对应的原始偏光显微图片,存放于Image文件中
2.2   标记底图
标记底图文件夹中共有120张标记好的显微图像照片。其中文件名“a*标”为10倍或20倍镜下拍摄的单颗粒照片视域(图5A);文件名“a*-1”为对应的“a*标”视域,用折线将每个鉴定编号的颗粒相连,以10为间距进行依次编号(图5B)。


图5   (A)单颗粒照片视域位置图,编号“a1标”;(B)颗粒顺序编号图,编号“a1-1”
2.3   砂粒信息表数据子集
砂粒信息表为两张薄片16A063-1和16A063-2的颗粒鉴定结果,信息表中的编号与底图“a*-1”的编号顺序相一致(图5B)。单颗粒的鉴定结果按照底图标定的顺序以缩写的形式填写在砂粒信息表中。在薄片16A063-1将强烈蚀变的斜长石(P)和钾长石(K)分别标记为P1和K1,以示区别。不同的颗粒所占总体的比例如图6。


图6   薄片16A063-1和薄片16A063-2不同类型砂粒组成比例图(颗粒缩写见表1)
3   数据质量控制和评估
岩石薄片样本符合国家与国际标准的厚度。在本次显微照片拍摄和薄片鉴定过程中,同一批次的岩石薄片中观察到石英颗粒的干涉色均为一级干涉色,说明薄片的厚度符合0.03 mm的国家标准。显微照片高清且无色差。在显微镜拍摄过程中,采用自动曝光和自动白平衡,使得肉眼观察和系统照片颜色尽量保持一致;且显微照片的分辨率统一采用拍照系统的最高值4908×3264像素,图片统一保存为jpg格式;故而显微照片的质量与清晰度是可靠的。每张照片都添加有比例尺,为后期颗粒大小的测量、圆度计算、面积计算提供便利。
砂粒的鉴定是研究者共同讨论的结果,以确保鉴定结果的准确性。
本数据集提供大量的已标记的砂粒图像和标记的坐标文件,每张颗粒显微照片的每个颗粒均进行标记,可以获得每个颗粒的坐标值和对应的颗粒类型。同时标记过程中在底图上标出颗粒图像的视域位置并进行颗粒编号,使得每个标记颗粒的位置和类型可追踪。后面的使用者可以进行校验。
数据的不足之处在于数据结构不均衡,有的颗粒类型数量非常多,如石英颗粒,有的颗粒类型非常少,如变质岩岩屑(图6)。这使得基于机器学习技术的图像识别结果的准确性参差不齐,有待下一步继续对数据集进行补充,减少数据库内各颗粒类型的数量差距。由于人工移动载物台,拍照视域和底图视域稍有偏差,但不影响快速定位。部分颗粒在底图上未标出,但用LabelImg标记时每张图片中出现的颗粒均标出其坐标位置和颗粒类型,以利于计算机读取。
4   数据价值
本数据集包含大量标记好的单颗粒图片和坐标文件,是利用机器学习技术实现砂粒中的矿物和岩屑自动鉴定的重要数据基础。大量已鉴定的单颗粒照片可以作为鉴定图板使用。砂粒的分类可为后续的河流砂研究提供参考标准,提高不同实验室所获碎屑数据的可比较性。
5   数据使用方法和建议
本数据集中三个文件的关联性较强,内容相对应,使用时注意一下几点:
(1)数据集中出现的薄片,都集中统一保存在南京大学胡修棉教授课题组。如果以上数据集中提供的显微照片不能满足进一步的研究需要,可以联系通信作者申请进一步使用。
(2)数据使用时3个文件应同时下载使用,以便能迅速找到每个颗粒的位置信息和颗粒类型,在使用标记的annotation标记文件时,应提前下载好标记软件LabelImg(具体安装步骤可参考https://blog.csdn.net/qq_38451119/article/details/83036495)和坐标文件读取软件Notepad++,以读取颗粒图像和坐标。用LabelImg打开图像文件时应将标记的保存目录更改为与图像文件想对应的文件名下,才能显示标记的图框位置。如在使用中有任何问题请联系本文作者。
(3)单颗粒的砂粒照片可以作为河流砂碎屑鉴定的标准图版,部分具有典型结构的碎屑颗粒可以直接用于教学和图书出版。
数据可用性声明
由于本数据集正在进行相关的研究,特此对该数据集申请保护3年,保护期间读者可以登录网站https://dx.doi.org/10.11922/sciencedb.j00001.00044,下载部分数据集内容供理解和参考。保护期后读者登录科学数据存储库官网下载和使用数据,访问和下载网址:https://dx.doi.org/10.11922/sciencedb.j00001.00035。
致 谢
感谢李超、马安林博士在薄片颗粒鉴定中的有益讨论;感谢郭荣华在野外样品采集中的贡献。
[1]
R.V. Ingersoll. The effect of grain size on detrital modes; a test of the Gazzi-Dickinson point-counting method[J]. Journal of Sedimentary Research, 1984, 54(1): 103-116.
[2]
宋孝忠, 张群. 煤岩显微组分组图像自动识别系统与关键技术[J]. 煤炭学报, 2019, 44(10): 3085-3097.
[3]
徐述腾,周永章. 基于深度学习的镜下矿石矿物的智能识别实验研究[J]. 岩石学报, 2018, 34(11) : 3244-3252.
[4]
HAO H Z, GUO R H, GU Q, et al. Machine learning application to automatically classify heavy minerals in river sand by using SEM/EDS data[J]. Minerals Engineering, 2019, 147. https://doi.org/10.1016/j.mineng.2019.105899.
[5]
GUO R H, HU X M, E. Garzanti , et al. How faithfully the geochronological and geochemical signatures of detrital zircon, titanite, rutile and monazite record magmatic and metamorphic events? A case study from the Himalaya and Tibet[J]. Earth Science Review, 2020, 103082, https://doi.org/10.1016/j.earscirev.2020.103082.
[6]
胡修棉, 赖文, 许艺炜, 等. 沉积岩显微数字图像数据的获取与信息收集标准[J/OL]. 中国科学数据, 2020. (2020-03-02). DOI: 10.11922/csdata.2020.0008.zh.
数据引用格式
董小龙, 胡修棉, 赖文. 雅鲁藏布江砂粒显微图像数据集[DB/OL]. Science Data Bank, 2020. (2020-07-15). DOI: 10.11922/sciencedb.j00001.00035.
稿件与作者信息
论文引用格式
董小龙, 胡修棉, 赖文. 雅鲁藏布江砂粒显微图像数据集[J/OL]. 中国科学数据, 2020. (2020-07-15). DOI: 10.11922/csdata.2020.0051.zh.
董小龙
Dong Xiaolong
主要承担工作:薄片鉴定、薄片拍照、砂粒的标定、论文撰写。
(1993—),男,四川眉山市人,硕士生,研究方向为现代河流砂。
胡修棉
Hu Xiumian
主要承担工作:数据集的设计、论文撰写。
huxm@nju.edu.cn;
(1974—),男,江西省南昌市人,博士,教授,研究方向为沉积学。
赖文
Lai Wen
主要承担工作:薄片鉴定、论文撰写。
(1992—),男,江西省赣州市人,博士,助理研究员,研究方向为大地构造沉积学。
出版历史
I区发布时间:2020年7月15日 ( 版本ZH2
II区出版时间:2020年9月25日 ( 版本ZH5
参考文献列表中查看
中国科学数据
csdata