数据论文 I 区论文(评审中) 版本 ZH3
下载
全国地表类型遥感影像样本数据集
Remote sensing images of land cover types in China
 >>
: 2018 - 09 - 17
: 2018 - 10 - 26
611 9 0
摘要&关键词
摘要:全国地表类型遥感影像样本数据集是对全国(除港澳台地区外)31个省、自治区、直辖市的十米级Landsat 8多光谱影像数据和米级GF-1、QuickBird多光谱影像数据进行人工解译采集而得。本数据集使用了2013–2017年的影像数据,覆盖夏季和冬季两个典型时相,采用了面向测绘地物波谱的分类体系。所构建数据集可为土地覆盖分类提供先验训练和测试样本,指导待分类影像中同类影像样本点的采集,为应用示范研究提供样本数据支持。为了更好地利用这些数据,采用统一规范的数据处理方法、样本采集规则和质量控制体系,对地表类型遥感影像样本数据进行采集和质量控制,并已经公开共享和提供下载。
关键词:地表类型;全国;遥感影像样本;十米级多光谱;米级多光谱
Abstract & Keywords
Abstract: This dataset of remote sensing images of land cover types in China is obtained through manual interpretation of ten-meter-level Landsat 8 multispectral image data and meter-level GF-1 and QuickBird multispectral image data, which covers 31 provinces, municipalities and autonomous regions of China excluding Hong Kong, Macao and Taiwan. Based on satellite images of the past five years (2013 – 2017), including summer and winter seasons, the study uses the classification system of the ground object spectral library. The dataset can offer priori training and testing samples for land cover classification, and provide sample data support for the research on the application of land cover classification. It can also be used to guide the collection of similar image sample points in the image. To promote convenient data usage, we adopted unified and standard data processing methods, sample collecting rules and quality control system, based on which the land cover image data are formed. So far, this dataset has been made publicly available online.
Keywords: land cover type; China; remote sensing image sample; ten meter level multispectral data; meter level multispectral data
数据库(集)基本信息简介
数据库(集)名称全国地表类型遥感影像样本数据集
数据作者赵理君、郑柯、史路路、白洋、唐吉文、张伟、饶梦彬、邹松、李艳艳
数据通信作者赵理君(zhaolj01@radi.ac.cn)
数据时间范围2013–2017年
地理区域全国(除港澳台地区外)31个省、自治区、直辖市等区域
空间分辨率2.4–30 m
数据量647 MB (解压缩后)
数据格式*.tif, *.jpg, *.txt, *.xml
数据服务系统网址http://www.sciencedb.cn/dataSet/handle/663
基金项目科技基础性工作专项(2014FY210800)
数据库(集)组成本数据集由2个分卷压缩文件构成,解压后包含了米级空间分辨率样本点的GF1和QuickBird这两个文件夹,以及十米级空间分辨率样本点的Landsat文件夹,各个文件夹下又由以不同采样地区命名的子文件夹组成。每个子文件夹下,存储了覆盖土壤、水体、岩矿、植被、冰雪、人工目标等6大类地表类型的样本点压缩文件,每个压缩文件中仅压缩存储同一景影像中同一种地表类型的多个样本点数据。解压缩后,每个样本点数据又由4个数据文件组成,分别为:样本点原始影像数据文件(*.tif),样本点预览图文件(*.jpg),样本点的影像波段DN值文件(*.txt),样本点的元数据文件(*.xml)。
Dataset Profile
TitleRemote sensing images of land cover types in China
Data corresponding authorZhao Lijun (zhaolj01@radi.ac.cn)
Data author(s)Zhao Lijun, Zheng Ke, Shi Lulu, Bai Yang, Tang Jiwen, Zhang Wei, Rao Mengbin, Zou Song, Li Yanyan
Time range2013 – 2017
Geographical scope31 provinces, municipalities or autonomous regions of China excluding Hong Kong, Macao and Taiwan
Spatial resolution2.4–30 m
Data volume647 MB (after decompression)
Data format*.tif, *.jpg, *.txt, *.xml
Data service systemhttp://www.sciencedb.cn/dataSet/handle/663
Sources of fundingBasic Research Foundation of Science and Technology (2014FY210800)
Dataset compositionThe dataset consists of two compressed files, made up of two folders storing meter-level sample data, namely GF1 and QuickBird, and one folder storing ten-meter-level sample data, namely Landsat. Each folder is comprised of several subfolders which are named after sampling regions. Each subfolder consists of compressed files that store data of six major land cover types in the sampling regions, including soil, water body, rock, vegetation, snow and ice, and man-made objects. Each of the compressed files includes only data of several samples of the same remote sensing image of the same land cover type. After being decompressed, each file is made up of four types of data files, including an original satellite image of the sample (*.tif), a sample image preview file (*.jpg), a text file of DN values of different spectral bands (*.txt), and a metadata file (*.xml).
引 言
地表覆盖是地球表面各种物质类型及其自然属性与特征的综合体,其空间分布直接影响着地球表面的物质和能量的循环过程[1]。利用遥感影像开展地表覆盖监测是生态环境变化研究、土地资源管理和可持续发展的重要基础,在全球资源监测、全球变化检测中发挥着重要作用[2]。目前,遥感影像的计算机分类成为主要的发展方向,涌现出多种分类方法,如统计模式识别方法、人工智能分类法、遥感与GIS结合法、面向对象的分类法、多源信息复合分类法等[3]。遥感影像分类就是把图像中的每一个像元或区域划分为若干类别中的一种,即通过对各类地物的光谱特征分析来选择特征参数,将特征空间划分为互不重叠的子空间,然后将影像内各个像元划分到各子空间中去,从而实现分类[4]。在遥感影像地表覆盖分类的过程中,影像样本的采集为分类模型的构建提供了训练样本支持,为地表类型的遥感影像分类提供类别先验知识。本数据集利用了全国范围内2013–2017年不同时相的遥感影像,通过对典型地表类型进行人工解译得到最终的影像样本。
相比已有的影像样本数据集(如GlobeLand30数据集[5-6]),本数据集特色在于:(1)时相更新(2013–2017年);(2)包含影像样本空间分辨率更高(最高2.4–8 m);(3)样本类型更精细(面向测绘地物类型);(4)服务方式完全免费(所有样本数据在平台完全公开)。
1   数据采集和处理方法
本数据集包括十米级和米级两种影像的样本数据,其中十米级影像以Landsat 8卫星的30 m空间分辨率数据为主,米级影像以国产GF-1卫星的8 m空间分辨率数据为主,补充了部分QuickBird卫星的2.4 m空间分辨率数据。所有的影像数据通过地理空间数据云平台(http://www.gscloud.cn/)、购买等渠道获取下载。其中,Landsat 8数据使用L1T产品,已使用地面控制点和数字高程模型数据进行精确校正,几何校正精度为12 m,小于0.5个像元;GF-1数据使用L1级产品,无几何信息,利用RPC参数文件进行了RPC几何精校正;QuickBird数据使用L2A级产品,已经过了几何精校正处理。上述所有数据源影像均经过了几何精校正处理,不做辐射和大气校正处理,保留原始像元值(Digital Number,DN)数据。这主要考虑到在遥感影像分类过程中,地理点位的类别信息在训练样本的构建以及影像分类当中的普适性高于影像的波谱反射率信息。在实际应用中,不同传感器会因波段设置上的差异造成像元波谱信息无法保持一致性。在影像空间范围选择上,十米级影像覆盖全国(除港澳台地区外)31个省/自治区/直辖市的区域,每个行政区划单元随机选择至少2景影像;米级影像覆盖全国的7大分区,即东北、华北、华东、华中、华南、西南、西北等地区,每个地区随机选择至少2景影像。在影像时相选择上,主要考虑夏季和冬季两个差异度最大的时相,其中冬季时相的时间跨度设定为12–3月,夏季时相的时间跨度设定为7–9月。在影像的获取年份上,设定为最近5年时间内的影像,以保证样本数据的时效性。最终,获得待采样的影像数据情况如表1所示。
表1   不同卫星影像数据获取情况表
卫星影像数据源分辨率等级数量(景)空间范围划分
Landsat 8十米级66全国(除港澳台地区外)31个省/自治区/直辖市
GF-1米级14东北、华北、华东、华中、华南、西南、西北等地区
QuickBird 02米级1华北地区
基于上述预处理后的遥感影像,通过人工解译开展地表类型影像样本采集工作。类别体系严格遵从项目内部制定的标准规范《测绘地物波谱库地物分类编码规范(草案)》,覆盖地表类型种类包含土壤、水体、岩矿、植被、冰雪、人工目标等6大类一级类,植被向下划分至6级分类体系,冰雪冻土向下划分至5级分类体系,土壤、岩矿、水体、人工目标向下划分至4级分类体系。根据遥感影像对地表区分的能力,对上述分类体系进行了精简,表2给出本数据集构建中使用的类别体系划分情况。
表2   类别体系简表
1级类2级类3级类4级类
编号类别编号类别编号类别编号类别
1植被11农林用地1101耕地110101稻田
110102旱地
110103菜地
110104水生作物
1103林地
1104天然草地110402草地
12城市绿地1201人工绿地
2土壤206漠土
3岩矿31岩石
4冰雪冻土41412湖冰
413河冰
42
43冻土
5水体51河流511常年河
513干枯河(干河床)
52沟渠522干渠
53湖泊531常年湖、塘53101湖泊
53102池塘
533干枯湖
54水库
55海洋要素551海域
552海岸线
557海岛
6人工目标61水系6101沟渠
62居民地及设施6201居民地
6202工矿及其设施
63交通6302城际公路
6303城市道路
在人工解译采样过程中参考了已有的专题产品和历史资料以确保样本类别标注的准确性。针对每景影像中的每一个子类别,采样数量控制在50–700个,采样大小为7×7的区域,并在采样过程中避免边缘像元的选择。每一个样本数据采用标准统一的数据组织和存储格式进行记录,每一个样本数据对应4个文件,如表3所示。
表3   样本记录文件
文件明细文件内容
image_<top class>_< sensor type>_<acquired time>_AXXX.tif样本点原始影像数据
view_<top class>_<sensor type>_<acquired time>_AXXX.jpg样本点预览图
pixel_<top class>_<sub class>_<acquired time>_AXXX.txt影像各波段DN值
pixel_<top class>_<sub class>_<acquired time>_BXXX.xml样本点的元数据描述信息
在表3中,<top class>、<sub class>、<sensor type>和<acquired time>有统一的命名规则。其中,<top class>为地物大类,限定为vege,soil,rock,snow,water,manmade,分别对应表2中的植被、土壤、岩矿、冰雪冻土、水体和人工目标等类别;<sub class>为子类英文简写名称,长度不超过15个字符;<sensor type>为传感器的英文名,限定为OLI、PMS、QuickBird,分别对应Lansat 8、GF-1和QuickBird 02卫星;<acquired time>为数据获取时间,记录年月日时分秒,格式为YYYYMMDDHHMMSS;XXX为文件编号范围从001–999;A和B为文件标识,A是对样本点配套文件的标识,B是对元数据文件的标识。
2   数据样本描述
全国地表类型遥感影像样本数据集包含十米级和米级两个空间分辨率等级,其中十米级影像样本采集了118324个样本(以省/自治区/直辖市为单元采样,每个地区至少两个时相),其中夏季58317个,冬季60007个;米级影像样本采集了29551个(以全国大的区划为单元采样,每个区划至少两个时相),其中夏季15792个,冬季13759个。采样点的空间分布如图1所示。表4和表5分别给出了数据集中十米级影像样本和米级影像样本的组成情况。


图1   全国地表类型遥感影像样本数据集空间分布图(图片送审中)
蓝色为十米级影像样本点,红色为米级影像样本
表4   十米级影像样本数量统计表
数据源空间分辨率采样区域季相隶属一级类隶属子类类代码样本数量
Landsat 830 m甘肃夏季植被旱地110102204
林地1103206
水体湖泊53204
河流51253
岩矿岩石31214
人工目标居民地及设施62209
城市道路6303209
土壤2215
冬季植被旱地110102223
林地1103208
水体湖泊53203
河流51233
岩矿岩石31214
人工目标居民地及设施62204
城市道路6303218
冰雪冻土42232
土壤2206
贵州夏季植被林地1103267
水体湖泊53245
河流51233
人工目标居民地及设施62209
城市道路6303202
土壤2221
冬季植被林地1103206
稻田110101234
人工目标城际公路6302210
居民地及设施62247
城市道路6303210
水体湖泊53209
河流51242
土壤2202
四川夏季植被林地1103228
稻田110101219
人工目标城际公路6302231
城市道路6303216
居民地及设施62246
水体湖泊53228
河流51251
土壤2214
冬季植被林地1103232
稻田110101232
人工目标城际公路6302228
居民地及设施62212
城市道路6303247
水体湖泊53225
河流51284
冰雪冻土42262
土壤2203
新疆夏季植被旱地110102220
人工目标城际公路6302224
居民地及设施62225
城市道路6303235
水体湖泊53291
河流51205
岩矿岩石31227
冰雪冻土42212
土壤2217
冬季植被旱地110102240
人工目标城际公路6302227
居民地及设施62246
城市道路6303208
水体湖泊53206
河流51205
岩矿岩石31232
冰雪冻土42231
土壤2270
云南夏季植被稻田110101243
林地1103252
人工目标城际公路6302212
居民地及设施62214
水体湖泊53296
河流51250
土壤2215
冬季植被林地1103253
稻田110101252
水体湖泊53284
河流51219
岩矿岩石31213
人工目标居民地及设施62244
城市道路6303207
土壤2217
江西夏季植被耕地1101329
林地1103394
水生作物地110104245
水体湖泊53101425
常年河511323
池塘53102282
水库54330
人工目标居民地及设施62421
冬季植被耕地1101223
林地1103263
水体干枯河513252
湖泊53101271
常年河511386
池塘53102366
人工目标居民地及设施62251
土壤2228
河南夏季植被耕地1101323
水生作物地110104451
林地1103313
水体湖泊53101630
常年河511388
池塘53102367
干渠522263
人工目标居民地及设施62417
冬季植被林地1103333
水生作物地110104221
耕地1101467
水体湖泊53101384
常年河511315
池塘53102353
干渠522265
人工目标居民地及设施62358
土壤2443
海南夏季植被耕地1101224
林地1103334
水生作物地110104304
水体湖泊53101422
常年河511406
池塘53102297
海域551436
海岸线552325
人工目标居民地及设施62376
冬季植被耕地1101214
林地1103425
水生作物地110104248
水体干枯河513225
湖泊53101305
常年河511296
海域551374
池塘53102339
人工目标居民地及设施62260
广西夏季植被林地1103409
水体湖泊53101480
常年河511469
人工目标居民地及设施62248
土壤2224
冬季植被水生作物地110104219
林地1103311
水体湖泊53101347
常年河511409
池塘53102287
海域551336
海岸线552225
海岛557265
人工目标居民地及设施62338
土壤2339
广东夏季植被水生作物地110104304
耕地1101345
林地1103305
水体湖泊53101305
常年河511383
池塘53102423
海域551302
人工目标居民地及设施62433
土壤2228
冬季植被林地1103313
水生作物地110104284
水体海岛557261
湖泊53101399
常年河511426
池塘53102397
海域551355
人工目标居民地及设施62354
土壤2215
江苏夏季植被耕地1101250
草地110402250
林地1103250
人工目标城市道路6303250
居民地6201250
水体河流51250
湖泊53250
土壤2250
冬季植被草地110402250
耕地1101250
水体湖泊53250
池塘53102250
河流51250
岩矿3250
人工目标居民地6201250
土壤土壤2250
山东夏季植被耕地1101250
水体池塘53102250
河流51250
海域551250
人工目标居民地6201250
土壤2250
冬季水体池塘53102250
河流51250
海域551250
湖泊53250
岩矿3250
人工目标居民地6201250
土壤2250
上海夏季植被耕地1101250
林地1103250
草地110402250
城市绿地12250
水体河流51250
海域551250
湖泊53250
人工目标居民地6201250
城市道路6303110
土壤2250
冬季植被耕地1101250
城市绿地12250
水体河流51250
海域551250
湖泊53250
人工目标居民地6201250
城市道路6303103
土壤2250
河北夏季人工目标交通63236
居民地及设施62255
植被耕地1101266
林地1103316
水体湖泊53222
土壤2249
冬季植被耕地1101230
水体湖泊53262
人工目标交通63217
居民地及设施62233
土壤2253
天津夏季水体湖泊53220
海洋551265
河流511237
植被耕地1101211
人工目标交通63226
居民地及设施62285
土壤2245
冬季冰雪冻土湖冰412313
水体海洋551259
河流511218
湖泊53221
人工目标交通63238
居民地及设施62248
土壤2271
北京夏季水体湖泊53251
河流511232
人工目标交通63258
居民地及设施62324
植被耕地1101244
林地1103264
土壤2231
冬季冰雪冻土湖冰412246
水体湖泊53215
人工目标交通63236
居民地及设施62255
植被耕地1101217
土壤2414
湖北夏季水体湖泊53443
河流511390
人工目标交通63237
居民地及设施62245
植被耕地1101218
城市绿地12218
林地1103252
水生作物地110104235
土壤2214
冬季水体湖泊53259
河流511253
人工目标交通63242
居民地及设施62280
水库6102205
植被耕地1101228
林地1103280
土壤2239
湖南夏季水体湖泊53221
河流511252
人工目标交通63224
居民地及设计62207
植被耕地1101234
林地1103219
土壤土壤2217
冬季水体湖泊53245
河流511217
人工目标交通63222
居民地及设计62264
植被耕地1101240
林地1103309
土壤2257
浙江夏季植被耕地1101221
林地1103250
水体海洋要素55343
河流51235
人工目标居民地及设施62231
冬季植被耕地1101237
林地1103261
水体湖泊53300
河流51250
人工目标居民地及设施62220
交通63212
土壤2150
福建夏季植被耕地1101220
林地1103306
水体海洋要素55363
池塘53102364
河流51301
人工目标居民地及设施62329
冬季植被耕地1101263
林地1103284
水体海洋要素55253
池塘53102219
河流51254
人工目标居民地及设施62248
安徽夏季植被水生作物地110104263
耕地1101232
林地1103249
人工绿地1201236
水体湖泊53236
池塘53102236
河流51225
人工目标居民地及设施62236
土壤2227
冬季植被耕地1101351
林地1103224
人工绿地1201203
水体湖泊53262
河流51267
人工目标居民地及设施62299
交通63102
土壤2242
重庆夏季植被天然草地1104237
林地1103253
水体河流51249
土壤2205
人工目标居民地及设施62247
冬季植被耕地1101241
林地1103285
天然草地1104276
水体湖泊53327
河流51266
土壤2265
人工目标居民地及设施62239
交通63263
西藏夏季植被天然草地1104265
林地1103235
水体河流51290
湖泊53283
土壤2279
盐矿岩石31277
人工目标居民地及设施62216
冬季植被林地1103251
人工目标居民地及设施62216
冰雪冻土湖冰412273
42287
冻土43297
辽宁夏季植被耕地1101279
林地1103275
水体湖泊53246
土壤2231
人工目标居民地及设施62263
水系61248
冬季人工目标居民地及设施62274
土壤土壤2261
植被耕地1101279
林地1103282
冰雪冻土湖冰412219
42272
河冰413270
冻土43305
吉林夏季人工目标居民地及设施62232
土壤2209
植被耕地1101231
林地1103260
天然草地1104255
水体河流51259
湖泊53241
冬季人工目标居民地及设施62268
土壤2244
植被耕地1101236
林地1103296
冰雪冻土河冰413264
42297
黑龙江夏季人工目标居民地及设施62254
植被耕地1101248
林地1103289
天然草地1104258
水体湖泊53245
河流51237
冬季人工目标居民地及设施62244
植被耕地1101237
林地1103254
冰雪冻土冻土43247
河冰413214
42289
内蒙古夏季植被耕地1101234
林地1103231
天然草地1104229
土壤土壤2218
水体河流51211
湖泊53294
岩矿岩矿3247
人工目标居民地及设施62237
冬季植被耕地1101210
土壤2207
漠土206229
冰雪冻土湖冰412215
河冰413218
42215
人工目标居民地及设施62217
岩矿岩矿3214
宁夏夏季植被耕地1101208
林地1103266
水体湖泊53204
河流51207
岩矿3224
人工目标居民地及设施62232
土壤2240
冬季植被耕地1101210
林地1103205
土壤漠土206226
2237
冰雪冻土湖冰412236
河冰413216
42211
人工目标居民地及设施62202
青海夏季植被耕地1101222
林地1103222
水体河流51211
湖泊53234
人工目标居民地及设施62224
土壤2225
岩矿3246
冬季土壤漠土206254
2235
水体河流51208
冰雪冻土湖冰412309
河冰413209
42209
岩矿3233
人工目标居民地及设施62231
山西夏季植被耕地1101217
林地1103221
水体湖泊53203
河流51124
人工目标居民地及设施62215
冬季植被耕地1101240
林地1103266
水体湖泊53227
河流51207
人工目标居民地及设施62223
土壤2204
陕西夏季植被耕地1101257
林地1103307
水体湖泊53220
池塘53102204
河流51268
人工目标居民地及设施62239
土壤2209
冬季植被耕地1101215
林地1103272
水体湖泊53235
河流51203
人工目标居民地及设施62227
冰雪冻土42248
土壤2231
表5   米级影像样本数量统计表
数据源空间分辨率采样区域季相隶属一级类隶属子类类代码样本数量
GF-18 m西南夏季植被稻田110101204
林地1103225
土壤2206
岩矿岩石31202
水体河流51261
人工目标居民地及设施62216
冬季植被稻田110101255
林地1103260
土壤2260
岩矿岩石31228
水体河流51253
湖泊53253
人工目标居民地及设施62237
华南夏季水体常年河511642
湖泊53101347
池塘53102308
植被水生作物地110104301
林地1103325
城市绿地12320
耕地1101300
人工目标工矿及其设施6202303
居民地6201337
交通63294
冬季水体海域551377
常年河511469
湖泊53101341
池塘53102334
干枯河513277
干枯湖533302
植被水生作物地110104246
林地1103308
城市绿地12476
人工目标工矿及其设施6202203
居民地6201355
交通63282
土壤2315
华东夏季植被耕地1101250
城市绿地12250
水体池塘53102250
河流51250
湖泊53250
人工目标居民地6201250
城市道路6303250
土壤2250
冬季植被城市绿地12250
耕地1101250
水体池塘53102250
河流51250
湖泊53250
人工目标居民地6201250
土壤2250
华北夏季水体湖泊53241
河流511258
海洋551294
人工目标交通63221
居民地及设计62261
植被耕地1101319
城市绿地12251
土壤2245
冬季冰雪冻土湖冰412288
河冰413277
人工目标交通63273
居民地及设计62401
土壤2256
华中夏季植被耕地1101278
人工绿地1201208
水体湖泊5370
河流51206
人工目标居民地及设施62269
交通63254
冬季植被林地1103281
人工绿地1201235
水体湖泊53268
河流51265
人工目标居民地及设施62262
交通63243
东北夏季人工目标居民地及设施62268
土壤2222
植被耕地1101246
水体湖泊53255
河流51221
冬季冰雪冻土43271
人工目标居民地及设施62251
植被耕地1101269
林地1103235
水体河流51223
西北夏季植被旱地110102350
稻田110101294
水体湖泊53101381
池塘53102249
水库54233
岩矿3236
人工目标居民地及设施62267
土壤2246
冬季植被耕地1101254
人工目标沟渠6101211
居民地及设施62256
水体池塘53102244
冰雪冻土河冰413250
岩矿3241
土壤2224
QuickBird2.4 m华北夏季植被菜地110103224
旱地110102237
林地1103247
天然草地1104250
水体湖泊53292
河流51217
人工目标居民地及设施62206
城市道路6303230
土壤2255
本数据集以“图像+描述文档”的方式组织存储,包含了影像数据和文本数据,如表3所示。图2以农林用地这一类别的一个样本点数据为例,展示了其对应的存储文件列表。


图2   影像样本数据组织存储文件示例
其中,tif文件为7×7大小的原始影像文件;jpg文件为7×7大小的预览图像,与原始影像对应;txt文件为样本点中心像元的DN值文件,内容的格式为两列数值,以Tab键分隔,第一列数据为波长,第二列数据为DN值;xml文件为元数据描述文件,采用格式化存储方式,内容如图3所示:




图3   影像样本元数据描述文件内容示例
3   数据质量控制和评估
针对遥感影像样本数据,数据质量控制过程包括对待采样影像数据的检查整理,单个样本数据点的检查,样本点配套文件的生成和入库,以及元数据的编写、检查和入库。对待采样影像数据的检查包括影像投影信息、波段数、存储损坏等明显的数据问题以及文件格式等。单个样本数据点的检查,主要针对类别标注错误的样本点数据进行修正、剔除。样本点配套文件以及元数据文件的检查包括文件命名、文件格式、文件内容中字段标准化命名以及文件内容的完整性等。
针对遥感影像样本数据集的构建,在数据入库阶段建立了完善的质量控制过程(图4),保证已入库数据的正确性、完整性和一致性。在数据采集整理和入库过程的质量控制方面,进行了原始遥感影像数据和影像样本点数据的整理和格式统一,同时通过一系列质量控制方法,如正确性检查、数据一致性检查等,以保障数据的质量。影像样本点配套文件和元数据文件由影像样本数据采集人员根据项目制定的数据标准格式(包含图像文件名、经纬度、传感器型号、观测时间、空间分辨率、光谱类型人员信息等)进行填写,为减少人工填写引起的错误,所有元数据信息均通过程序编写自动从原始影像数据和采样点数据中读取填写得到。


图4   数据质量控制
利用所采集样本,针对部分地区不同季节的高中分辨率(GF-1的8 m多光谱数据和Landsat 8的30 m多光谱数据)的影像进行影像分类的总体测试精度可达到80%以上,反映了所采集的样本质量是有保证的。
4   数据使用方法和建议
本数据集基于Landsat 8,GF-1和QuickBird等卫星影像数据,结合历史资料数据通过人工目视判读方式采集而得,适用于遥感影像分类算法研究,为土地覆盖分类提供训练和测试样本数据。依据待分类遥感影像的空间范围,查询搜索相应范围内的影像样本点,通过读取样本元数据中的经纬度信息,得到样本点的地理坐标,通过地理坐标与待分类影像像元坐标的转换,得到待分类影像中的样本点分布,使用最大似然(Maximum Likelihood Classification,MLC)、支持向量机(Support Vector Machine,SVM)、卷积神经网络(Convolutional Neural Network,CNN)等分类算法完成分类。由于本数据集并没有完全覆盖全国的每一个地区,如待分类影像的空间范围没有包含到任何影像样本点,建议相关研究者查询周边相邻地区的影像样本点,以筛选出的样本点为参考样本集,指导待分类影像中同类样本点的采集,进而利用所得到的样本点完成影像分类任务。
[1]
乔五十, 郭喜绒, 刘妍, 等. 地表覆盖遥感制图耕地要素提取的方法与相关问题探讨[J]. 测绘标准化, 2013, 29(3): 21–23.
[2]
张伟, 郑柯, 唐娉, 等. 深度卷积神经网络特征提取用于地表覆盖分类初探[J]. 中国图象图形学报, 2017, 22(8): 1144–1153.
[3]
史泽鹏,马友华,王玉佳, 等. 遥感影像土地利用/覆盖分类方法研究进展[J]. 中国农学通报, 2012, 28(12): 273–278.
[4]
王昆, 戚浩平. 土地利用与土地覆盖遥感分类方法研究综述[J]. 山西建筑, 2008, 34(5): 353–354.
[5]
GONG P, WANG J, YU L, et al. Finer resolution observation and monitoring of global land cover: first mapping results with Landsat TM and ETM+ data[J]. International Journal of Remote Sensing, 2013, 34(7): 2607–2654.
[6]
CHEN J, CHEN J, LIAO A P, et al. Global land cover mapping at 30 m resolution: A POK-based operational approach[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2015, 103: 7–27.
数据引用格式
赵理君, 郑柯, 史路路, 等. 全国地表类型遥感影像样本数据集[DB/OL]. Science Data Bank, 2018. (2018-10-15). DOI: 10.11922/sciencedb.663.
稿件与作者信息
论文引用格式
赵理君, 郑柯, 史路路, 等. 全国地表类型遥感影像样本数据集[J/OL]. 中国科学数据, 2018. (2018-10-26). DOI: 10.11922/csdata.2018.0058.zh.
赵理君
Lijun Zhao
主要承担工作:影像样本数据集设计与采集规范、方案制定,数据质量检查,样本数据入库程序的编写。
zhaolj01@radi.ac.cn
(1986—),男,河南省洛阳市人,博士,助理研究员,研究方向为遥感图像特征提取与分类。
郑柯
Ke Zheng
主要承担工作:影像样本数据集制作方案可行性指导。
(1963—),男,北京市人,博士,研究员,研究方向为遥感图像处理。
史路路
Lulu Shi
主要承担工作:重庆、西藏、辽宁、吉林、黑龙江等地区十米级影像预处理与样本采集和东北地区米级影像预处理与样本采集以及数据质量检查与数据入库。
(1991—),男,河南省周口市人,本科,硕士研究生,研究方向为遥感图像分类。
白洋
Yang Bai
主要承担工作:北京、天津、河北、湖北、湖南等地区十米级影像预处理与样本采集和华北地区米级影像样本预处理与采集以及样本数据入库程序的优化。
(1991—),女,湖北省黄冈市人,本科,博士研究生,研究方向为遥感图像辐射处理。
唐吉文
Jiwen Tang
主要承担工作:甘肃、新疆、贵州、四川、云南等地区十米级影像预处理与样本采集和西南地区米级影像预处理与样本采集以及数据汇集整理。
(1992—),男,湖南省永州市人,本科,博士研究生,研究方向为遥感图像目标检测与深度学习。
张伟
Wei Zhang
主要承担工作:山东、江苏、上海等地区十米级影像预处理与样本采集和华东地区米级影像预处理与样本采集。
(1992—),男,山西省运城市人,硕士,博士研究生,研究方向为遥感图像分类,机器学习与数据挖掘。
饶梦彬
Mengbin Rao
主要承担工作:江西、河南、海南、广西、广东等地区十米级影像预处理与样本采集和华南地区米级影像预处理与样本采集。
(1992—),女,江西省抚州市人,硕士,博士研究生,研究方向为高光谱遥感图像分类,机器学习。
邹松
Song Zou
主要承担工作:内蒙古、宁夏、青海、山西、陕西等地区十米级影像预处理与样本采集和西北地区米级影像预处理与样本采集。
(1993—),男,湖北省仙桃市人,本科,硕士研究生,研究方向为遥感图像几何处理。
李艳艳
Yanyan Li
主要承担工作:浙江、福建、安徽等地区十米级影像预处理与样本采集和华中地区米级影像预处理与样本采集。
(1990—),女,河北省唐山市人,硕士,博士研究生,研究方向为海洋遥感。
出版历史
I区发布时间:2018年10月26日 ( 版本ZH3
参考文献列表中查看
中国科学数据
csdata