数据论文 I 区论文(评审中) 版本 ZH4
下载
蝴蝶物种自动识别研究的生态照片数据集
A dataset of butterfly ecological images for automatic species identification
 >>
: 2018 - 12 - 14
: 2019 - 02 - 14
: 2019 - 02 - 14
1102 6 0
摘要&关键词
摘要:蝴蝶物种的自动识别能够为生态环境监测、生物多样性保护、害虫防治等领域提供技术支持,减少对专家人工鉴定的依赖。针对目前蝴蝶自动识别研究中主要依靠标本照片,缺少蝴蝶自然生态照片数据的状况,本数据集提供了一组蝴蝶生态照片以及对应的PASCAL VOC 2007格式的标注文件。本数据集包含的721张中国蝴蝶生态图片,涵盖94种蝴蝶。每张照片对应一个标注文件,标注文件中包含照片大小、照片中蝴蝶的种类和位置等信息。本数据集可为自动识别、目标检测和昆虫分类等研究提供基础数据。
关键词:蝴蝶分类;生态照片;自动识别;目标检测
Abstract & Keywords
Abstract: While reducing reliance on experts, automatic species identification can provide strong technical assistance to ecological environment monitoring, biodiversity protection, pest control. However, all the datasets used for butterfly species auto-identification are currently based on specimen images, and there is a lack of ecological butterfly images. Therefore, we set up a dataset of butterfly images which includes ecological images of the butterfly species in China and corresponding annotation files in PASCAL VOC 2007 format. The dataset contains 721 butterfly images, covering 94 butterfly species. Each annotation file corresponds to an image, which contains the image size, taxonomic information and location of the butterfly species. This dataset can support researches on automatic butterfly species recognition, object detection, and insect taxonomy.
Keywords: butterfly taxonomy; ecological images; automatic recognition; object detection
数据库(集)基本信息简介
数据库(集)名称蝴蝶物种自动识别研究的生态照片数据集
数据作者谢娟英、曹嘉文、马丽滨、甄文泉、陈振宁、李晓东、李后魂、许升全
数据通信作者许升全(xushengquan@snnu.edu.cn)
数据时间范围2012–2017年
地理区域中国
数据量4.48 GB
数据格式*.jpg, *.xml
数据服务系统网址http://www.sciencedb.cn/dataSet/handle/706
基金项目国家自然科学基金项目(61673251、31872273);中央高校基本科研业务费专项资金项目(GK201701006)
数据库(集)组成本数据集由2部分数据组成:(1) JPEGImages.zip是蝴蝶生态照片,共721张;(2) Annotations.zip 是对应生态照片的721个标注文件,包含照片大小、照片中蝴蝶的种类和位置等信息。
Dataset Profile
TitleA dataset of butterfly ecological images for automatic species identification
Data corresponding authorXu Shengquan (xushengquan@snnu.edu.cn)
Data authorsXie Juanying, Cao Jiawen, Ma Libin, Zhen Wenquan, Chen Zhenning, Li Xiaodong, Li Houhun, Xu Shengquan
Time range2012 – 2017
Geographical scopeChina
Data volume4.48 GB
Data format*.jpg, *.xml
Data service system<http://www.sciencedb.cn/dataSet/handle/706>
Sources of fundingNational Natural Science Foundation of China (61673251, 31872273); Fundamental Research Funds for the Central Universities under Grant No. GK201701006
Dataset compositionThe dataset consists of 2 subsets in total. It comprises butterfly ecological images and corresponding annotation files. The annotation file contains the image size, species and location of the butterfly. The subsets are recorded as JPEGImages.zip and Annotations.zip:
1. JPEGImages.zip is made up of 721 butterfly ecological images;
2. Annotations.zip is made up of 721 annotation files corresponding to the ecological images.
引 言
蝴蝶是节肢动物门昆虫纲鳞翅目锤角亚目昆虫的统称[1]。其最引人关注的特征就是翅和身体表面由不同形态和色彩的鳞片所形成的绚丽多彩的图案和花纹。这些色彩和花纹与蝴蝶的拟态、保护色、求偶等行为有关;也是千百年来蝴蝶作为文化昆虫而被人们描绘、歌颂的原因[1]。全球目前已知的蝴蝶种类约18000种,每种蝴蝶都基本固定的取食少数几种植物,其发生与植物和生态系统的变化密切相关,是重要的环境指示昆虫和生物多样性监测指示生物[2-3]。对蝴蝶物种的快速准确鉴定是生物学多样性保护和蝴蝶文化发展的迫切需求,但人工对蝴蝶进行鉴别和分类是一件非常耗时耗力的工作,且对专家的分类经验依赖度很高。近年来出现了不少关于蝴蝶自动识别的研究。例如,基于内容检索的蝴蝶所属科的识别[4]、基于极限学习机的蝴蝶种类自动识别[5]和基于单隐层神经网络的蝴蝶识别[6]等。然而,这些研究所使用的数据集均为蝴蝶标本的模式照片,且涵盖的种类较少,研究结果无法应用到对蝴蝶生态照片的识别,特别是从生态照片中区别蝴蝶和环境背景。鉴于此,本数据集通过野外拍摄、蝴蝶爱好者捐赠等方式收集、筛选、整理了一组自然环境中的蝴蝶生态照片,并将照片中蝴蝶的种类和位置信息记录在PASCAL VOC 2007格式的标注文件中。本蝴蝶生态照片数据集是已完成的第三届中国数据挖掘竞赛(国际首次蝴蝶识别大赛)的竞赛数据。希望本数据集能够为昆虫分类、目标检测和自动识别领域的相关研究提供数据支持。
1   数据采集和处理方法
1.1   数据采集方法
本数据集中蝴蝶的生态照片来源于野外实地拍摄和蝴蝶爱好者的捐赠,均为高清单反相机拍摄所得,保证了照片的质量。
1.2   数据处理方法
照片中的蝴蝶依据《中国蝶类志》《中国蝴蝶图鉴》等蝴蝶分类文献鉴定到物种[1]。我们使用labelImg工具标记照片中蝴蝶的位置和类别,并生成PASCAL VOC 2007格式的标注文件。
2   数据样本描述
数据集共包含721张照片,涵盖94种蝴蝶。如图1所示,自然环境中蝴蝶的照片与蝴蝶标本照片的不同在于姿态各异,有些是正面照、有些是侧面照、有些正在展翅、有些双翅合拢等。特别是为了躲避天敌的捕食,大部分蝴蝶具有拟态和保护色,它们翅和身体的颜色和花纹与周围环境相似,难以辨认。






图1   生态图片部分样本
蝴蝶生态照片的统计数据如图1所示,大部分种类蝴蝶的样本个数在13以内,每种蝴蝶至少有1个样本,最多包含61个样本,呈现典型的长尾分布(图2)。


图2   蝴蝶生态图片数据分布图
每张图片都对应一个PASCAL VOC 2007格式的xml标注文件,文件中包含对应图片名、图片大小、蝴蝶种类和蝴蝶位置信息。其中蝴蝶分类精确到种,蝴蝶的位置由矩形框标出,在标注文件中记录矩形框的对角位置信息。
3   数据质量控制和评估
本数据集中每张照片的蝴蝶都由昆虫分类学专家按照《中国蝶类志》等蝴蝶分类文献进行鉴定,保证了数据的准确性。
蝴蝶的位置信息均为人工标注,并经过多次核查,以确保数据质量。
本数据集已在“2018年第三届中国数据挖掘竞赛——国际首次蝴蝶识别大赛”中发布供参赛者使用,竞赛圆满结束。此次竞赛的圆满成功也说明了本数据集提供的照片数据和标注数据质量可信,可以为相关研究提供数据支持。
4   数据价值
本数据集提供了94种蝴蝶在其自然生态环境中的721张生态照片,并给出了照片中蝴蝶的种类和位置信息。由于蝴蝶有拟态和保护色,和周围环境不易区别,所以识别生态照片中的蝴蝶种类是目标检测领域的挑战性难题。虽然本数据集只包含了94种蝴蝶,没有涵盖全部的中国蝴蝶种类,但蝴蝶物种的识别是同一大类内的小类间区分识别问题,属于细粒度分类,完全不同于常见的目标检测是不同大类物体的识别问题,而且94类的分类问题也是一个很挑战的多类分类问题;加上蝴蝶种类的识别主要依赖于蝴蝶翅膀图案,而生态环境中拍摄的蝴蝶照片,其翅膀通常不会完全展开,使得其分类特征很难获得。细粒度多类分类和高难分类特征,使得训练自动识别方法难度非常大。本数据集在为相关研究提供基础数据的同时,也能促进相关实际应用的开发,使得大众及昆虫爱好者能更加方便地了解和认识蝴蝶。
致 谢
本数据集曾在蝴蝶识别大赛中使用,在数据的整理和测试阶段得到了南京大学计算机系高阳教授、北京邮电大学杜军平教授、北京交通大学于剑教授、山东财经大学尹义龙教授、复旦大学张军平教授、南京航空航天大学谭晓阳教授的指导。特别感谢山东财经大学吕鹏副教授、北京交通大学景丽萍教授、南京大学史颖欢副教授带领各自团队在竞赛前对数据验证所做的大量工作。本数据在听取2018年第三届中国数据挖掘竞赛——国际首次蝴蝶识别大赛部分参赛队伍建议的基础上进行了完善,对这些队伍和队员表示感谢。
[1]
周尧. 中国蝶类志[M]. 郑州: 河南科学技术出版社, 1998.
[2]
ESPELAND M, BREINHOLT J, WILLMOTT K R, et al. A Comprehensive and Dated Phylogenomic Analysis of Butterflies[J]. Current Biology, 2018, 28(5): 770-778.
[3]
马方舟, 徐海根, 丁晖,等. 我国蝴蝶多样性的保护现状与对策[J]. 世界环境, 2016(s1):29-31.
[4]
WANG J, JI L, LIANG A, et al. The identification of butterfly families using content-based image retrieval[J]. Biosystems Engineering, 2012, 111(1): 24-32.
[5]
KAYA Y, KAYCI L, TEKIN R, et al. Evaluation of texture features for automatic detecting butterfly species using extreme learning machine[J]. Journal of Experimental & Theoretical Artificial Intelligence, 2014, 26(2):267-281.
[6]
KANG S H, SONG S H, LEE S H. Identification of butterfly species with a single neural network system[J]. Journal of Asia-Pacific Entomology, 2012, 15(3): 431-435.
数据引用格式
谢娟英, 曹嘉文, 马丽滨, 等. 蝴蝶物种自动识别研究的生态照片数据集[DB/OL]. Science Data Bank, 2018. (2018-12-13). DOI: 10.11922/sciencedb.706.
稿件与作者信息
论文引用格式
谢娟英, 曹嘉文, 马丽滨, 等. 蝴蝶物种自动识别研究的生态照片数据集[J/OL]. 中国科学数据, 2018. (2018-12-14). DOI: 10.11922/csdata.2018.0092.zh.
谢娟英
Juanying Xie
主要承担工作:数据集结构设计。
(1971—),女,陕西省西安市人,博士,教授,研究方向为机器学习、数据挖掘与生物医学数据分析。
曹嘉文
Jiawen Cao
主要承担工作:数据的标注。
(1995—),女,陕西省西安市人,硕士研究生,研究方向为模式识别与人工智能。
马丽滨
Libin Ma
主要承担工作:照片拍摄。
马丽滨(1980—),男,宁夏回族自治区银川人,博士,副教授,研究方向为昆虫分类学。
甄文全
Wenquan Zhen
主要承担工作:照片拍摄。
(1971—),男,辽宁省彰武县人,博士,副教授,研究方向为昆虫生态学。
陈振宁
Zhenning Chen
主要承担工作:照片拍摄。
(1970—),男,河南省柘城县人,博士,教授,研究方向为动物系统分类与生态。
李晓东
Xiaodong Li
主要承担工作:照片拍摄。
(1982—),男,陕西省蒲城县人,博士,副教授,研究方向为昆虫生物多样性。
李后魂
houhun li
主要承担工作:照片拍摄。
(1956—),男,江苏省南京市人,博士,教授,研究方向昆虫分类学。
许升全
Shengquan Xu
主要承担工作:数据集设计,照片拍摄、筛选。
xushengquan@snnu.edu.cn
(1967—),男,陕西省兴平市人,博士,教授,研究方向昆虫系统与进化。
出版历史
I区发布时间:2019年2月14日 ( 版本ZH4
参考文献列表中查看
中国科学数据
csdata