地球大数据科学工程 I 区论文(评审中) 版本 ZH3
下载
1979–2015年广州市建成区数据集
Dataset of Guangzhou build-up area during 1979 – 2015
 >>
: 2019 - 07 - 29
: 2019 - 08 - 01
: 2019 - 08 - 02
588 1 0
摘要&关键词
摘要:本研究基于1979–2015年广州市Landsat遥感影像,利用已有各种土地覆盖资料,并充分考虑各地物内部的多样性以及地域、季节性差异,构建了各种地物类型的样本库,并利用迭代聚类与SVM结合的方法提取了6期广州市的建成区分布。与同期广州市建成区解译结果对比,生产者精度和用户精度分别为91.8%和90.4%。本数据集可用于揭示广州市建成区扩展的总体特点,包括用地规模、空间分布及其时空变化,有利于研究建成区扩展与经济发展的关系,挖掘低经济效率的土地利用现象,促进国土资源的有效利用和城市的有效规划。
关键词:建成区;城市扩张;经济发展
Abstract & Keywords
Abstract: Based on Landsat images and various land cover materials during 1979 – 2015, initial training datasets were selected in this research, considering the diversity and seasonal difference of each land cover. After being refined by the iterative clustering procedure, training samples were combined with Support Vector Machine to create six build-up maps of Guangzhou. The research results were compared with interpretation products, and the producer’s and user’s accuracies were 91.8% and 90.4%, respectively. This dataset can be used to delineate the temporal and spatial variation of urban expansion in Guangzhou, study the relationship between build-up area expansion and economic development, analyze the poor efficiency in land use, in order to promote the valid exploitation of land and effective planning of city.
Keywords: build-up area; city expansion; economic development
数据库(集)基本信息简介
数据库(集)名称1979–2015年广州市建成区数据集
数据作者孙芳蒂、吴志峰、余琪
数据通信作者孙芳蒂(heaven816@163.com)
数据时间范围1979–2015年
地理区域广州市建成区数据集包括广州市11区(越秀区、天河区、荔湾区、海珠区、黄埔区、白云区、从化区、增城区、花都区、番禺区、南沙区)的建成区空间分布。
空间分辨率30 m
数据量90.2 MB
数据格式*.shp
数据服务系统网址http://www.sciencedb.cn/dataSet/handle/808
基金项目广州市属高校计划(1201430672);国家自然科学基金项目(41671430);广东省自然科学基金团队项目(2018B030312004)。
数据库(集)组成本数据集主要包括6期广州市建成区数据产品,这些数据保存为1个压缩文件(1979~2015年广州市6期建成区数据集.rar)。
Dataset Profile
TitleDataset of Guangzhou build-up area during 1979 – 2015
Data corresponding authorSun Fangdi (heaven816@163.com)
Data authorsSun Fangdi, Wu Zhifeng, Yu Qi
Time range1979 – 2015
Geographical scopeThe dataset covers the build-up area of the 11 districts of Guangzhou, including Yuexiu, Tianhe, Liwan, Haizhu, Huangpu, Baiyun, Conghua, Zengcheng, Huadu, Panyu and Nansha.
Spatial resolution30 m
Data volume90.2 MB
Data format*.shp
Data service system<http://www.sciencedb.cn/dataSet/handle/808>
Sources of fundingScientific Program of Guangzhou Bureau of Education (1201430672); National Natural Science Foundation of China (41671430); Natural Science Foundation of Guangdong Province (2018B030312004).
Dataset/Database compositionThis dataset includes build-up area of Guangzhou for six time periods, stored as a compressed file named “1979 – 2015 Guangzhou build-up data sets.rar”.
引 言
广州市位于广东省中南部,珠江下游入海口,地理位置为112°57′−114°3′E,22°26′–23°56′N。广州市属于丘陵地带,海拔东北高、西南低,北部为丘陵山区,森林集中,中部为丘陵盆地,南部为沿海冲击平原,是珠江三角洲的组成部分。广州市总面积为7434.40 km2,2015年常住人口为1350.11万。1970s以来,随着广州市经济的发展,城市化进程加快,人口向城市集中,建成区占地面积日益扩大。城市扩展过程中,对周边土地利用造成的影响主要是对耕地、林地、园地、裸地和水体等土地利用类型的占用[1-2]。本文利用一种迭代聚类与SVM结合的方法,基于1979–2015年的Landsat遥感影像展示了6期广州市建成区的空间分布,并提供数据共享服务。
1   数据采集和处理方法
1.1   数据来源
本研究使用的Landsat数据为广州市辖区高质量Landsat MSS/TM/ETM+影像(表1),并进行了辐射、大气和几何校正。几何校正利用广州市1∶10万地形图,校正误差控制在1~2个像元。影像投影均采用Krasovsky-1940-Albers。
表1   本研究中Landsat遥感影像特点
时间搭载平台传感器分辨率(m)
1979.1Lansat 5MSS60
1990.1Lansat 5TM30
2000.1Lansat 7ETM+30
2005.3Lansat 7ETM+30
2010.11Lansat 5TM30
2015.1Lansat 8OLI30
1.2   数据处理方法
由于广州市建成区的光谱反射特征复杂多样,采用指数法进行提取往往顾此失彼,不能高精度地绘制其分布。本研究采用监督分类的方法对建成区进行提取,分类器选择支持向量机(Support Vector Machine,SVM)。样本选取方面,利用一种基于迭代聚类的算法[3]。该算法首先为各种地表覆盖类型建立样本规则,其中各规则的建立考虑了各地物内部的多样性及季节性差异,初始样本库则利用这些规则进行构建。其次,利用k-means与建成区指数Normalized Differenced Build-up Index(NDBU)结合进行迭代聚类,从而去除样本库中的噪音,精炼样本库。最后,结合SVM对遥感影像进行分类,实现建成区地快速提取。
1.2.1   样本选取
本研究中各种地表覆盖类型的解译标志及光谱特征如表2和图1所示。
表2   主要地表覆盖类型解译标志
建成区林地耕地草地裸地湿地水体


图1   Landsat遥感影像上各地物类型的光谱特征
根据地物的光谱特征构建样本选取规则如下[3]
(1)水体总体反射率低,各波段反射率在0.1以下。
(2)植被(包括耕地、林地和草地)具有较高NDVI值,NDVI可以达到0.5以上。
(3)湿地的光谱曲线与植被类似,但是反射率比植被低,最高值介于0.15–0.2之间。
(4)建成区1–5波段反射率随波长增加而增加,最高反射率在第5波段,数值介于0.35–0.6,第7波段反射率下降。
(5)裸地1–5波段反射率随波长增加而增加,最高反射率在第4波段,数值介于0.15–0.4,第7波段反射率下降,且裸地的整体反射率低于建成区。
基于以上样本选取规则,构建样本库。由于本研究的目的是提取建成区,因此样本库包含建成区样本和非建成区样本两种。
1.2.2   样本精炼
由于利用上述规则构建的样本库难免存在误差,本研究通过对样本库中每一类地物样本分别进行迭代聚类去除错误样本,从而利用正确、典型的样本去训练分类器,以便得到较高的分类精度。
该算法需要设定3个参数:(1)聚类的数目。本研究考虑到各种地表覆盖类型的内部差异,将聚类数目设置为10。(2)子类内部各样本与类中心的距离标准。聚类后,判断子类内部各样本对该子类方差的贡献。如果某像素的加入使子类的方差增加比例高于0.1,则认该像素为噪音。(3)子类取舍的标准。算法中使用建成区提取指数NDBI来进行子类取舍。Zha等建议NDBI的阈值为0[4],即NDBI>0为建成区,NDBI<0为非建成区。为了获得高精度的建成区样本,本研究设定NDBI的阈值为0.15。
NDBI = (R5-R4)/(R5+R4) (1)
R代表MOD09产品中各波段的反射率,其中4、5波段分别指NIR、SWIR波段[4]
本研究所用算法具体思路为:在迭代聚类过程中,每一次聚类会产生10个子类。首先,判断子类中每个像素对该子类方差的贡献,如果某像素的加入使子类的方差增加比例高于0.1,则该像素为噪音。其次,计算去除噪音后的子类的NDBI。如果NDBI>0.15,则该子类被认为是典型建成区样本;若NDBI≤0.15,则对该子类继续执行聚类,继续分为10个子类,去除噪音,判断每个新生成子类的NDBI值。此过程进行10次迭代。迭代终止时,如果某子类的NDBI仍然是小于等于0.15,则该子类被去除。通过多次迭代,可以精炼建成区样本库。对于非建成区样本库,则采用同样的方式进行迭代聚类。如果几次迭代聚类后,有些子类的NDBI仍大于0.51,则说明它与建成区光谱特征相近,该子类从非建成区样本中去除,加入建成区样本。最后一次聚类更新后的样本库,可用于本研究进行分类器训练[3]
1.2.3   分类及后处理
结合精炼后的样本库与分类器SVM对广州市6期Landsat遥感影像进行分类。SVM是统计学习理论衍生出来的一个分类方法[5]。它利用一个决策面来分开两类。相对于传统的统计分类器,SVM不需要利用较全面的样本。特征空间里分布于两类型边界附近的支持向量对分类更有利。SVM在基于遥感技术的土地利用/土地覆盖方面应用广泛,且取得较高的精度[6,7,8 ]
由于建筑物的阴影反射率较低,与水体光谱特征类似,容易造成误分类,因此本研究对分类结果进行逐景检验,并对建成区错分、漏分的情况通过人机交互进行修正。
2   数据样本描述
2.1   数据组成
本数据集包括广州市1979–2015年共计6期建成区空间分布数据,该数据保存为1个压缩文件(“1979~2015年广州市6期建成区数据集.rar”),总数据量为90.2 MB。数据存贮为shp矢量数据文件,矢量数据采用Albers坐标投影系统。
2.2   数据样本
广州市1979–2015年广州市建成区空间分布如图2所示。


图2   1979–2015年广州市建成区空间分布
3   数据质量控制和评估
本研究获取了广州市2000、2010年建成区解译结果[9-10],且建成区解译结果所对应元数据的获取时间与本研究所用数据一致。因此本研究分别将两年的自动提取结果与解译结果进行对比,计算生产者精度和用户精度。其中,生产者精度是指正确分出的水体像元占水体实际像元数的比例,为91.8%;用户精度是指正确分出的水体像元占分出水体像元的比例,为90.4%。验证结果说明本研究中自动提取的建成区分布精度较高。虽然没有解译产品的精度高,但是本研究的数据集基于自动化的方法,人工干预少,提取效率高。
4   数据使用方法和建议
1979–2015年广州市6期建成区分布数据均为shp格式,可利用ArcGIS等地理信息系统软件对本数据集进行编辑及后续分析工作。本文可作为研究广州市城市化发展程度的基础数据集。
[1]
张增祥, 赵晓丽, 周全斌, 等. 中国城市扩展遥感监测[M]. 北京: 星球地图出版社, 2006.
[2]
FAN F L , WENG Q H , WANG Y P. Land Use and Land Cover Change in Guangzhou, China, from 1998 to 2003 based on Landsat TM/ETM+ Imagery[J]. Sensors, 2007, 7(7): 1323-1342.
[3]
孙芳蒂, 吴志峰. 一种基于迭代聚类的不透水层提取方法: 中国[P]. 2019, 申请中.
[4]
ZHA Y, GAO J, NI S. Use of normalized difference built-up index in automatically mapping urban areas from TM imagery[J]. International Journal of Remote Sensing, 2003, 24(3): 583-594.
[5]
VAPNIK V. Estimation of Dependences based on empirical data (in Russian). Moscow: Nauka, (English translation: Kotz S[M]. New York: Springer-verlag), 1982.
[6]
CAO X, CHEN J, IMURA H, et al. A SVM-based method to extract urban areas from DMSP-OLS and SPOT VGT data[J]. Remote Sensing of Environment, 2009, 113: 2205-2209.
[7]
MAULIK U, CHAKRABORTY D. A self-trained ensemble with semisupervised SVM: An application to pixel classification of remote sensing imagery[J]. Pattern Recognition, 2011, 44: 615-623.
[8]
HUANG C Q, DAVIS LS, TOWNSHEND J R. An Assessment of Support Vector Machine for Land Cover Classification[J]. International Journal of Remote Sensing, 2002, 23: 723-749.
[9]
Gong P, Wang J, Yu L, et al. Finer resolution observation and monitoring of global land cover: first mapping results with Landsat TM and ETM+ data[J]. International Journal of Remote Sensing, 2013, 34(7): 2607-2654.
[10]
王雷, 李丛丛, 应清, 等. 中国1990~2010年城市扩张卫星遥感制图[J]. 科学通报, 2012, 57: 1388-1399.
数据引用格式
孙芳蒂, 吴志峰, 余琪. 1979–2015年广州市建成区数据集[J/OL]. 中国科学数据, 2019. (2019-07-29). DOI: 10.11922/sciencedb.808.
稿件与作者信息
论文引用格式
孙芳蒂, 吴志峰, 余琪. 1979–2015年广州市建成区数据集[J/OL]. 中国科学数据, 2019. (2019-08-01). DOI: 10.11922/csdata.2019.0032.zh.
孙芳蒂
Sun Fangdi
主要承担工作:Landsat TM/OLI影像数据建成区自动化提取算法研究等。
heaven816@163.com
(1983—),女,山东人,讲师,研究方向为资源环境遥感。
吴志峰
Wu Zhifeng
主要承担工作:本数据集的生产和质量控制的整体技术流程设计。
(1969—),男,湖南人,教授,研究方向为全球生态环境遥感。
余琪
Yu Qi
主要承担工作:Landsat TM/OLI影像数据采集、建成区数据矢量化及实地验证与考察。
(1992—),男,广东人,博士研究生,研究方向为水文遥感。
出版历史
I区发布时间:2019年8月2日 ( 版本ZH3
参考文献列表中查看
中国科学数据
csdata