中国凤蝶标本图像特征数据集

责编:

根据同评专家意见,汇总如下修改意见,请回复、参考修改,并重传文章:

1. 英文摘要中:①请确认第一句是“dataset”还是“data set”。②“value of a image”应为“value of an image”。

2. 数据集基本信息简介中:①“数据时间范围”一项缺少单位,而且是“1998”还是“1994年”?请确认。②网址应写具体的网址:http://www.sciencedb.cn/dataSet/handle/8。

3. 第2.1,2.2中等(1)(2)等后面的空格数不一,如果只是自动生成的PDF显示的问题,在word中无需修改。

4. 建议将数据处理成两个表,从而避免“img_path”和“taxa_latin”两个字段中的重复内容。不改亦可。

5. 建议全文统一叙述“颜色”“形状”“纹理”的顺序,包括在摘要、流程图中的顺序。

【2016-04-22】 评论来自:版本 1
作者:

1. 英文摘要中:①请确认第一句是“dataset”还是“data set”。②“value of a image”应为“value of an image”。

回复: 已修正。①第一句是dataset 。②修正。

2. 数据集基本信息简介中:①“数据时间范围”一项缺少单位,而且是“1998”还是“1994年”?请确认。②网址应写具体的网址:http://www.sciencedb.cn/dataSet/handle/8。

回复: 已修正。

3. 第2.1,2.2中等(1)(2)等后面的空格数不一,如果只是自动生成的PDF显示的问题,在word中无需修改。

回复: 已修正。 这个不是空格数的问题,是段落居中对齐导致的问题,已经调整为段落的左对齐。

4. 建议将数据处理成两个表,从而避免“img_path”和“taxa_latin”两个字段中的重复内容。不改亦可。

回复:接受意见,但是出于“便于各类用户理解和使用”的角度,我们不做修改。

5. 建议全文统一叙述“颜色”“形状”“纹理”的顺序,包括在摘要、流程图中的顺序。

回复: 已修正。

【2016-07-27】 评论来自:版本 1
编委会成员:

经编委会投票决定录用本文。

【2016-10-26】 评论来自:版本 1

提交问题或建议:



您还没有登录,请[登录]或[ 注册]!

中国凤蝶标本图像特征数据集

浏览下载总计

网页浏览 论文下载
8463 39

中国凤蝶标本图像特征数据集

作者发表的论文

1 鸟兽物种多样性测度的G-F指数方法
蒋志刚,纪力强. 生物多样性[J],1999,7(3),220

数据来源:CSCD中国科学引文数据库      CSCD      被引次数: 94

2 大尺度生物多样性评价
赵**,纪力强. 生物多样性[J],2003,11(1),78-85

数据来源:CSCD中国科学引文数据库      CSCD      被引次数: 13

3 生物多样性信息学研究进展
王利松,陈彬,纪力强,马克平. 生物多样性[J],2010,18(5),429-443

数据来源:CSCD中国科学引文数据库      CSCD      被引次数: 10

4 生物多样性信息系统建设的现状及CBIS简介
纪力强. 生物多样性[J],2000,8(1),41

数据来源:CSCD中国科学引文数据库      CSCD      被引次数: 10

5 小木蠹蛾性信息素分泌腺的位置及组织学
张金桐,韩艳,甘雅玲,孟宪佐. 昆虫学报[J],2002,45(4),430-435

数据来源:CSCD中国科学引文数据库      CSCD      被引次数: 7

6 槐小卷蛾性诱剂的合成与林间诱蛾活性试验
孟宪佐,韩艳,李维维. 林业科学[J],1996,32(2),150

数据来源:CSCD中国科学引文数据库      CSCD      被引次数: 5

7 用性信息素诱捕法防治槐小卷蛾研究
盛承发,张桂芬,韩艳,阎晓华,孟宪佐. 生态学报[J],2001,21(10),1583

数据来源:CSCD中国科学引文数据库      CSCD      被引次数: 5

8 黄斑卷蛾性诱剂的合成与田间诱蛾活性试验
孟宪佐,韩艳,刘玉秀. 林业科学[J],2001,37(5),97

数据来源:CSCD中国科学引文数据库      CSCD      被引次数: 3

9 生物多样性数据集成模式初探
乔慧捷,韩艳,李诺,纪力强. 生物多样性[J],2004,12(5),553-561

数据来源:CSCD中国科学引文数据库      CSCD      被引次数: 3

10 昆虫图像分割方法及其应用
王江宁,纪力强. 昆虫学报[J],2011,54(2),211-217

数据来源:CSCD中国科学引文数据库      CSCD      被引次数: 3

11 生物多样性评价软件BiodiversityMapping的设计与实现
赵**,纪力强. 生物多样性[J],2004,12(5),541-545

数据来源:CSCD中国科学引文数据库      CSCD      被引次数: 2

12 物种潜在分布地预测系统PSDS的设计与实现
邓浩,纪力强. 生物多样性[J],2008,16(1),96-102

数据来源:CSCD中国科学引文数据库      CSCD      被引次数: 2

13 保护生物多样性,促进可持续发展——纪念《中国生物物种名录》和《中国生物多样性红色名录》发布
蒋志刚,覃海宁,刘忆南,纪力强,马克平. 生物多样性[J],2015,23(3),433-434

数据来源:CSCD中国科学引文数据库      CSCD      被引次数: 2

14 PSDS 2.0:一个基于GIS和多个模型的生物潜在分布地预测系统
林聪田,纪力强. 生物多样性[J],2010,18(5),461-472

数据来源:CSCD中国科学引文数据库      CSCD      被引次数: 1

15 生物标本地理信息系统SpecimenMapping的设计和实现
张尚武,纪力强. 动物学杂志[J],2006,41(4),64-70

数据来源:CSCD中国科学引文数据库      CSCD      被引次数: 0

16 相对特征在昆虫目级阶元图像自动鉴定中的应用
王江宁,宋志顺,纪力强,梁爱萍. 动物分类学报[J],2010,35(3),585-590

数据来源:CSCD中国科学引文数据库      CSCD      被引次数: 0

17 金龟子化学通讯与信息化学物质
孟宪佐,韩艳,闫晓华. 生命科学[J],1999,11(5),39

数据来源:CSCD中国科学引文数据库      CSCD      被引次数: 0

18 物种和植被资源信息系统的建设及展望
李奕,董鸣,高琼,纪力强,徐克学,关烽,马俊才,杨奠安,傅德志,张新时. 资源科学[J],2001,23(1),40

数据来源:CSCD中国科学引文数据库      CSCD      被引次数: 0

19 槐小卷蛾性信息素次要组分对林间诱蛾活性的影响
韩艳,傅晓燕,孟宪佐. 植物保护[J],1999,25(3),11

数据来源:CSCD中国科学引文数据库      CSCD      被引次数: 0

20 流程化的生态建模方法与科学工作流系统
乔慧捷,林聪田,王江宁,纪力强. 生物多样性[J],2014,22(3),277-284

数据来源:CSCD中国科学引文数据库      CSCD      被引次数: 0

中国凤蝶标本图像特征数据集

王江宁1,韩艳1,纪力强1*

1. 中国科学院动物研究所, 北京, 100101

摘要:中国凤蝶标本图像特征数据集是在对蝴蝶标本图像自动识别研究的实验中产生的。本数据集收集了使用规范方法从390幅经过处理后的中国凤蝶标本图像中提取的三个最常用特征的数值数据,即颜色、形状和纹理特征。本数据集的每条记录都包含了蝴蝶的分类信息、图像编号以及特征信息,为模式识别、昆虫分类等研究的提供了基础数据。

关键词:凤蝶科;标本图像;图像特征;模式识别

Feature dataset of Chinese papilionidae specimen image

Wang Jiangning 1, Han Yan 1, Ji Liqiang1*

1. Institute of Zoology, Chinese Academy of Sciences, Beijing 100101

Abstract: Feature data set of Chinese papilionidae specimen image is created in the researches of butterfly image recognition. This dataset collects the color, texture and shape features from 390 pre-processed specimen images of Chinese papilionidae by standardized feature extraction methods. Each record contains the classification information, image identifier feature ID and feature value of a image. The dataset could support research on pattern recognition and entomology.

Keywords: Papilionidae, specimen image, image feature, pattern recognition

数据库(集)基本信息简介

数据集中文名称

中国凤蝶标本图像特征数据集

数据集英文名称

Feature dataset of Chinese papilionidae specimen image

通讯作者

纪力强,中国科学院动物研究所,ji@ioz.ac.cn

数据作者

王江宁,中国科学院动物研究所,wangjn@ioz.ac.cn

韩艳,中国科学院动物研究所,hanyan@ioz.ac.cn

纪力强,中国科学院动物研究所,ji@ioz.ac.cn

数据库(集)组成

收集了390幅中国凤蝶标本图像的分类信息,以及从中提取的颜色、纹理、形状特征数据。

数据时间范围

1998年

地理区域

中国

数据格式

Excel文件

数据量

1.4MB

数据服务系统网址

http://www.scidb.cn/index

1  引言

基于图像的模式识别被应用于各种领域[1],但多数是在与人体或者机器人相关的领域,对于昆虫图像的研究相对较少。这由两方面原因造成:一方面,昆虫学方面的数据库不少[2],但是适合模式识别研究的图像数据库却不多[3];另一方面,昆虫图像不少,但是带有可靠分类信息的昆虫图像的数据不如人脸、指纹等图像数据容易获取。因此,适合模式识别研究的昆虫学数据集就相对较少,限制了模式识别在昆虫学中的应用。本数据集收集整理了《中国蝶类志》(94版)[4]中的标本图片,经过一系列处理后形成单一背景图像的特征数据。这些特征,均使用作者提出的特征提取方法[5]从图像中提取,并配有准确的分类学信息,对于模式识别方法、昆虫分类学研究人员有重要的意义。

2  数据采集和处理方法

原始数据是扫描处理存档的蝴蝶标本的图像数据。这些图像经过背景切割后形成纯色背景图像,保留了主体的色彩。我们使用已经公开发表的固定方法[5]对处理后的图像提取特征,本方法有4个主要流程,如图1所示。

 

图1  图像特征提取主要流程

下面章节对图1中主要流程的关键步骤进行详细描述。

2.1  规范化图像

本过程由两个步骤构成:

(1) 根据背景颜色,去除背景,获取主体(蝴蝶),并根据主体获取主体最小包络矩形;

(2) 从图像中剪裁出最小包络矩形,将剪裁的图像缩放到512 px×512 px,获得规范图。

2.2  提取颜色特征

本过程由4个步骤组成:

(1) 计算主体的重心以及长径(主体上到重心最远点的距离);

(2) 以重心为圆心,以长径的1/2化圆,图像分为内、外两区;

(3) 分区提取颜色直方图,按照R、G、B三通道和16位量化数,进行统计;

(4) 规一化直方图到[0, 1],得到两组48维的直方图向量(内、外区)。

2.3  提取形状特征

本过程由5个步骤组成:

(1) 同步2.2节步骤1;

(2) 以重心为原点,以向右的水平线段(与长径等长)为扫描线,顺时针扫描图像,按照间隔1°的角度和1/100的长径进行采样,将规范图转换成极坐标下的扫描图,扫描图应为360 px×100 px;

(3) 统计每条扫描极线中主体部分的数量,获得形状直方图分区提取颜色直方图,得到一组360维的值在[0, 100]的向量;

(4) 将上述得到的向量值重新量化成20位,并根据将360个重新量化到10位的向量值重新统计,获得极线的直方图(20维[0,360]的向量),即20个级别的极线各有多少根极线;

(5) 将上述直方图进行规一化处理,得到一组20维[0, 1]的向量。

2.4  提取纹理特征

本过程由5个步骤组成:

(1) 同2.2节步骤1;

(2) 将彩色图转换成灰度图,使用 v=(R+G+B)/3的公式转换; 

(3) 统计每条扫描极线中主体部分的相邻灰度值变化大于16的数量,并将统计值量化成10级,得到一组360维的值在[0, 10]的向量;

(4) 将360个重新量化到10位的向量值重新统计,获得极线的直方图(10维[0,360]的向量),即10个级别的极线变化各有多少根极线;

(5) 将上述直方图进行规一化处理,得到一组10维[0, 1]的向量。

2.5  特征数据

2.1节中步骤是提取各种特征的公共步骤,通过2.2、2.3、2.4节中的步骤提取了颜色、形状、纹理特征。

每幅图像的分类信息是人工标记的。特征数据、图像代号以及分类信息最终构成本数据集。

3  数据样本描述

数据集以表格形式进行存储,表格的字段说明见表2。

表2  数据集的元数据描述

字段名

字段意义

字段类型

tk_name

特征代码

字符

tk_value

特征值

数值(双精度实数)

img_path

图像代码

字符

taxa_latin

分类学名

字符(拉丁学名)

表3给出了一组数据的示范。

表3  范例数据

tk_name

tk_value

img_path

taxa_latin

cbirT6_0

1.00000000000000000000

100-1.png

Troides magellanus

cbirT6_1

0.10961250000000000000

100-1.png

Troides magellanus

cbirT6_10

0.62510380000000000000

100-1.png

Troides magellanus

cbirT6_11

0.84378030000000000000

100-1.png

Troides magellanus

cbirT6_12

0.62506570000000000000

100-1.png

Troides magellanus

本数据集中的特征代码意义如表4所示。

表4  数据集中的特征代码

特征代码

意义

cbirT6_[0-19]

20维的形状特征

cbirT7_[0-9]

10维纹理特征

cbirT9_[0-47]

48维内区色彩特征

cbirT9_[48-95]

48维外区色彩特征

其中特征代码中的下划线前半部是特征向量的代码,后半部是特征向量的维数编号,如cbirT6_0表示形状特征向量的第1个值,cbirT9_48表示外区色彩特征向量的第1个值。

分类学名字段以“属名种名”格式提供。

本数据集结构较简单,此设计便于模式识别研究人员直接使用或者稍作调整后使用。

4  数据质量控制和评估

本数据集的特征提取方法已经公开发表,得到了领域同行的肯定。数据提取过程也已程序化,设计并完成了相应的组件。该组件经过多次人工验证,运行稳定可靠。本数据集通过程序调用该组件生成,由固定特征提取模块进行特征提取的操作,保证了特征数据的可靠性,不会产生误差数据。

原始图像信息经过人工采集、校对和三次核对,保证了分类信息数据的可靠性。鉴于分类学中分类系统的会随学科的发展而变化,本数据集中图像的分类信息以1994版《中国蝶类志》分类系统为标准。

5  数据使用方法和建议

本数据集数据形式简单,在使用时注意:

(1) 特征向量值需要按照图像编号和特征代码进行组合后再使用;

(2) 颜色特征向量的0-47维和48-95维可以分成两组向量使用;

(3) 特征向量值本身是32位的double型数据,在Excel中显示受到Excel软件本身约束,因此在使用时对精度的选择请根据实际需要酌情处理。

致谢

感谢研究组张荣在原始图像处理中所作的工作。

作者分工职责

王江宁(1982—),男,博士,助研,研究方向:昆虫图像识别。主要承担本数据集的规划、建设和维护。

韩艳(1972—),女,学士,工程师,研究方向:生物多样性信息学。主要承担本数据集原始数据的采集和整理。

纪力强(1961—),男,博士,研究员,研究方向:生物多样性信息学。主要承担本数据集的设计。

参考文献

[1] Marques de Sá, J.P. Pattern Recognition: Concepts, Methods and Applications [M]. Heidelberg Springer, 2001.

[2] 中国科学院动物研究所, 昆明动物研究所, 上海植物生理生态研究所, 成都生物研究所, 武汉水生所. 中国动物主题数据库[Z]. 北京: 中国科学院动物研究所, 2009.

[3] 王江宁, 纪力强. 分布式分类学图像智能检索框架设计[C]//第十届科学数据库与信息技术学术研讨会. 北京: 兵器工业出版社, 2010:481-485.

[4] 周尧. 中国蝶类志[M]. 郑州: 河南科学技术出版社, 1994.

[5] Wang, J., Ji, L., Liang, A., Yuan, D. The identification of butterfly families using content-based image retrieval[J]. Biosystems Engineering, 2012, 111(1): 24-32.

引用数据

王江宁, 韩艳, 纪力强. 中国凤蝶标本图像特征数据集(讨论版). Science Data Bank. DOI: 10.11922/sciencedb.180.8.

其他

请使用以下方式引用本文:

王江宁, 韩艳, 纪力强.中国凤蝶标本图像特征数据集(讨论版). 中国科学数据, 2015. DOI:10.11922/csdata.180.2015.0008.

下载