数据论文 I 区论文(评审中) 版本 ZH2
下载
山东省乡镇级格网化人口空间分布数据集(2000、2010年)
Gridded data of township-level population distribution in Shandong Province (2000 & 2010)
 >>
: 2019 - 02 - 28
: 2019 - 03 - 11
: 2019 - 03 - 11
730 16 0
摘要&关键词
摘要:格网化人口空间分布数据是更精细尺度的人口空间分布数据,对于支持地理、资源、环境、生态、灾害,以及可持续发展等方面的研究具有重要意义。本文以山东省乡镇级人口统计数据为控制单元,在城乡二级分区的基础上,利用增强型植被指数的夜间灯光调整指数和土地利用数据相结合的空间化方法,产出了SDpop2000和SDpop2010两期山东省100 m格网人口空间分布数据集。模型精度验证结果显示2000年与2010年分别有78.0%和78.4%的行政单元的相对误差绝对值小于20%。空间化结果与精度较高的全球WorldPop人口数据产品对比分析,结果显示:2000年的相关系数和相对均方根误差分别为0.932和38.42%,2010年的相关系数和相对均方根误差分别为0.948和40.46%。
关键词:人口;空间化;夜间灯光数据;土地利用数据;乡镇级;山东省
Abstract & Keywords
Abstract: Capturing a fine-scale population spatial distribution, gridded data is of great significance for supporting research on geography, resources, environment, ecology, disasters, and sustainable development. On the basis of urban-rural partition and township-level demographic data, this study uses the spatialization method that combines enhanced vegetation index adjusted nighttime light index and land use data to produce the gridded population data of Shandong Province, namely, SDpop2000 and SDpop2010 (100 m resolution). The model verification results showed that 78.0% of the administrative units in 2000 and 78.4% in 2010 had an absolute relative error of less than 20%. When validated against global WorldPop population data products, our dataset demonstrated a correlation coefficient and a %RMSE of 0.932 and 38.42% in 2000 respectively, and 0.948 and 40.46% in 2000.
Keywords: population; spatialization; nighttime light data; land use data; township-level; Shandong Province
数据库(集)基本信息简介
数据库(集)名称山东省乡镇级格网化人口空间分布数据集(2000、2010年)
数据作者王明明、王卷乐
数据通信作者王卷乐(wangjl@igsnrr.ac.cn)
数据时间范围2000、2010年
地理区域中国山东省(北纬34°22′54″–38°24′0.6″,东经114°47′30″–122°42′18″)
空间分辨率100 m
数据量36.07 MB
数据格式*.tif, *.jpg
数据服务系统网址http://www.sciencedb.cn/dataSet/handle/736
基金项目中国科学院战略性先导科技专项(A类)资助(XDA19040501);中国科学院“十三五”信息化专项科学大数据工程项目(XXH13505-07)
数据库(集)组成本数据集由2部分组成:(1)“Dataset Result.Zip”包含2000年和2010年山东省格网人口空间分布数据。数据命名格式为SDpopYYYY.tif,YYYY代表年份。数据量为13.42 MB。(2)“Dataset Map.Zip”包含2000年和2010年山东省格网人口空间分布图。数据命名格式为SDpopYYYY.jpg。数据量为22.65 MB。
Dataset Profile
TitleGridded data of township-level population distribution in Shandong Province (2000 & 2010)
Data corresponding authorWang Juanle (wangjl@igsnrr.ac.cn)
Data authorsWang Mingming, Wang Juanle
Time range2000, 2010
Geographical scopeShandong Province, China (34°22′54″N–38°24′0.6″N, 114°47′30″E–122°42′18″E)
Spatial resolution100 m
Data volume36.07 MB
Data format*.tif, *.jpg
Data service systemhttp://www.sciencedb.cn/dataSet/handle/736
Sources of fundingStrategic Priority Research Program of the Chinese Academy of Sciences (XDA19040501); Scientific Data Project of the 13th Five-Year Informatization Program of the Chinese Academy of Sciences (XXH13505-07)
Dataset compositionThe dataset is composed of two subsets: (1) Gridded data of population spatial distribution in Shandong Province (2000 & 2010), with a data volume of 13.42 MB. Each data document is recorded as SDpopYYYY.tif, where YYYY represents the year.. (2) Gridded map of population spatial distribution in Shandong Province (2000 & 2010), with a data volume of 22.65 MB. Each data document is recorded as SDpopYYYY.jpg.
引 言
乡镇级人口统计数据是我国目前公开的最精细的统计数据,乡镇级人口空间分布数据成为地学研究的重要需求之一,但单纯地将统计数据以行政区划为单元分布到空间,往往具有行政单元尺度不够精细[1]、行政区划系统存在变动[2]、行政边界造成地学研究中的“可变元问题”[3]等不足。格网化人口空间分布数据是传统人口统计数据的拓展和补充,其实现了行政单元尺度人口的重新展布,有效克服了人口统计数据存在的不足,对地理、资源、环境、生态、灾害,以及可持续发展等跨学科研究具有重要意义。
目前涉及中国区域的格网化人口数据已有中国人口空间分布公里网格数据集、全球栅格人口数据集(GPW)、全球农村城镇制图计划数据集(GRUMP)和世界人口计划数据集(Worldpop)等,这些数据集中除了GPW外,其他均是以县级人口统计数据为基础,借助人口统计数据与土地利用、夜间灯光和土地覆被等数据的关系建立空间分布模型。尽管GPW使用了2010年的乡镇级人口统计数据,但其乡镇级行政边界数据不是实际边界数据,而是采用特殊方法的模拟数据[4]。可见,真实的乡镇级人口格网化数据产品目前是极为贫乏的。究其原因在于三点,一是乡镇级行政区划矢量数据获取困难,且存在大量的行政区划和地名变更问题,难以直接利用。二是,乡镇级人口统计数据的空间关联需要进行大量的涉及乡镇地名和行政区划的空间数据匹配处理工作,非专业的团队难以完成。三是,空间化的方法单一,缺少多源数据和中国人口地理学特点的综合运用,例如中国人口分布的城乡二级分布特征。以上这些原因使得当前人口数据空间化研究多是基于县级人口统计数据[5,6,7,8 ],即使有个别乡镇级的研究[9-10],也只停留在小范围内。针对这一需求,本文完成了2000年和2010年山东省乡镇级人口匹配处理,并利用土地利用数据和夜间灯光数据相结合的空间化方法,实现了两期人口数据的空间化工作。其中土地利用数据和乡镇级行政单元相结合构建城乡二级分区方法,增强型植被指数(EVI)对DMSP/OLS夜间灯光数据进行修正,保证了空间化模型的精度。
1   数据采集和处理方法
1.1   数据来源
生产本数据集所采用的数据包括DMSP/OLS夜间非辐射定标的平均稳态数据、EVI、土地利用数据、世界人口计划数据集WorldPop、乡镇级人口统计数据和行政边界数据。数据的相关参数和来源如表1中所示。
表1   数据源详细信息
序号名称分辨率时间来源网址
1DMSP/OLS夜间非辐射定标的平均稳态数据30″2000/2010美国国家环境数据中心https://www.ncei.noaa.gov/
2EVI250m2000/2010美国NASA一级大气存档和分配系统数据中心https://ladsweb.modaps.eosdis.nasa.gov/
3土地利用数据100m2000/2010国家科技基础条件平台—国家地球系统科学数据共享平台http://www.geodata.cn/
4WorldPop3″2000/2010WorldPop project官方网站https://www.worldpop.org/
5乡镇级行政边界数据1:25万2000国家科技基础条件平台—国家地球系统科学数据共享平台http://www.geodata.cn/
6乡镇级人口统计数据2000/2010中国知网http://www.cnki.net/
1.2   数据处理
(1)乡镇级人口空间数据
乡镇级人口空间数据制作需要将乡镇级人口统计数据与乡镇级行政区划矢量数据的属性进行关联,实现乡镇级人口统计值在空间上的分布。本文采用决策树的思想实现两者的属性关联,过程如图1所示。


图1   乡镇级人口空间数据制作
(2)夜间灯光数据
DMSP/OLS夜间灯光数据由于OLS传感器本身的缺陷存在饱和溢出现象,会影响到城市中心人口数据空间化的精度。有研究表明可以通过EVI对DMSP/OLS夜间灯光数据进行修正,生成增强型植被指数调整的夜间灯光指数(EANTLI),修正公式如式(1)[11]
(1)
式中,为归一化后的DMSP/OLS夜间灯光指数,为处理后的EVI数据,NTL为原始DMSP/OLS夜间灯光指数。
(3)城乡二级分区
建模之前将样本进行分区处理,如图2。利用土地利用数据将所有行政单元分为城镇地区、农村地区和其余地区,农村地区和其余地区再根据人口密度的大小各自分成三个分区。其中城镇地区中的居民地类型只包含城镇用地,农村地区的居民地类型只包含农村居民点,其余地区则包含这两种居民地类型。


图2   城乡二级分区和建模技术流程图
(4)空间化模型
城镇地区人口数据空间化模型如式(2)所示,农村地区的人口数据空间化模型如式(3)所示。建模结果分别对应图2中的方程式1–4。
(2)
(3)
式中,为乡镇级行政单元内的人口值;为行政单元中城镇用地范围内的EANTLI灯光强度值;为回归系数;为常数项;为行政单元中农村居民点的面积;表示第i个分区,农村地区有三个分区,取值分别为2、3、4。
(5)格网单元人口模拟
在各个分区内建立100 m格网,利用方程式1–4模拟每个格网单元的人口值。其中分区分别利用方程式1–4模拟,分区利用方程式1和方程式3模拟,分区利用方程式1和方程式2模拟,分区利用方程式1和方程式4模拟。
(6)格网单元人口修正
由于模型公式存在一定的误差,行政单元内的人口模拟值和人口统计值不一致。建立人口模拟修正公式,见式(4),对格网内的人口模拟值进行调整。
(4)
式中,表示第i个行政单元内第j个格网单元人口模拟的修正值;表示第i个行政单元内第j个格网单元初始人口模拟值;表示第i个行政单元的初始人口模拟值;表示第i个行政单元的人口统计值。
2   数据样本描述
经过数据处理得到2000年和2010年山东省100 m格网人口空间分布数据集(图3、图4)。本数据集比较清晰地反映了山东省的人口分布特点,高人口密度主要集中在济南、青岛、潍坊、淄博、烟台、德州、威海和济宁等地级城市驻地处,济南和青岛两地的人口密度和数量最高;鲁北沿海、鲁中山地丘陵区和济宁南部的人口分布较为稀少。从2000年到2010年的人口分布变化来看,地级城市处高人口密度区有明显的扩大,2010年的最大人口密度值较2000年有所提高。


图3   2000年山东省格网人口空间分布数据


图4   2010年山东省格网人口空间分布数据
3   数据质量控制和评估
3.1   质量控制
本文利用乡镇级人口统计数据作为基础数据、运用城乡二级分区建模方法、EVI对DMSP/OLS夜间灯光数据进行修正等做法保证空间化产品的精度。为了对空间化结果做出准确的评价,本文对空间化模型进行验证并对空间化结果进行同类产品对比分析。验证和对比结果如后文所述。
3.2   质量评估
(1)模型精度验证
在其余地区内,计算乡镇级人口统计值和模拟值之间的相对误差,见式(5)。结果显示,2000年和2010年的其余地区中分别有78.0%和78.4%的行政单元的相对误差绝对值小于20%。
(5)
式中:为其余地区第i个行政单元的人口统计值,为其余地区第i个行政单元的人口模拟值。
(2)空间化结果对比
本研究利用目前可开放获取的精度最高的人口空间分布数据集WorldPop[12]对本文产出的SDpop2000和SDpop2010进行对比验证。分别统计WorldPop和SDpop在10km格网内的人口值,采用散点图、相关系数(R)、平均绝对误差(MAE)、均方根误差(RMSE)和相对均方根误差(%RMSE)来衡量两者的差异,其中%RMSE是将均方根误差除以人口普查数据的平均值得到,可以反映模型模拟的精度高低[13]。检验结果如表2所示,SDpop与WorldPop的散点图如图5所示。
(6)
(7)
(8)
式中,为SDpop第i个10 km格网内的人口数,为WorldPop第i个10 km格网内的人口数;N代表10 km格网的个数。
表2   山东省格网化人口空间分布数据验证结果
数据RMAE(人)RMSE(人)%RMSE(%)
SDpop20000.932**11598.44220028.21438.42
SDpop20100.948**13028.7522529.4240.46
注:**表明在0.01水平(双侧)上显著相关。




图5   SDpop与WorldPop的10km格网人口值散点图
4   数据价值
格网化人口空间分布数据打破了行政单元的禁锢,实现了更精细的人口空间分布,这不仅对地理、资源、环境、生态、灾害等学科中和人口相关的跨学科研究具有重要意义,而且对政府部门进行土地使用、公共设施和开发计划等规划具有重要参考意义。本文通过对乡镇级人口统计数据、独特分区方法和基于EVI修正的夜间灯光数据的使用,有效地提高了人口数据的空间化精度,产出的2000年和2010年山东省格网化人口空间分布数据集,丰富了人口格网化产品。
[1]
BRIGGS D J, GULLIVER J, FECHT D, et al. Dasymetric modelling of small-area population distribution using land cover and light emissions data[J]. Remote sensing of Environment, 2007, 108(4): 451-466.
[2]
ZENG C, ZHOU Y, WANG S, et al. Population spatialization in China based on night-time imagery and land use data[J]. International journal of remote sensing, 2011, 32(24): 9599-9620.
[3]
柏中强, 王卷乐, 杨飞. 人口数据空间化研究综述[J]. 地理科学进展, 2013, 32(11): 1692-1702.
[4]
柏中强. 基于乡镇尺度的中国人口分布格局及空间化问题研究[D]. 北京: 中国科学院大学, 2016.
[5]
付晶莹, 江东, 黄耀欢. 中国公里网格人口分布数据集( PopulationGrid_China ) [DB/OL].全球变化科学研究数据出版系统, 2014. DOI:10.3974/geodb.2014.01.06.V1.
[6]
GAUGHAN A E, STEVENS F R, HUANG Z, et al. Spatiotemporal patterns of population in mainland China, 1990 to 2010[J]. Scientific Data, 2016, 3: 160005.
[7]
陈晴, 侯西勇. 集成土地利用数据和夜间灯光数据优化人口空间化模型[J]. 地球信息科学学报, 2015, 17(11): 1370-1377.
[8]
谭敏, 刘凯, 柳林, 等. 基于随机森林模型的珠江三角洲30 m格网人口空间化[J]. 地理科学进展, 2017(10): 122-130.
[9]
柏中强, 王卷乐, 姜浩, 等. 基于多源信息的人口分布格网化方法研究[J]. 地球信息科学学报, 2015, 17(6): 653-660.
[10]
李翔, 陈振杰, 吴洁璇, 等. 基于夜间灯光数据和空间回归模型的城市常住人口格网化方法研究[J]. 地球信息科学学报, 2017(10): 42-49.
[11]
卓莉, 张晓帆, 郑璟, 等. 基于EVI指数的DMSP/OLS夜间灯光数据去饱和方法[J]. 地理学报, 2015, 70 (8): 1339- 1350.
[12]
BAI Z, WANG J, WANG M, et al. Accuracy Assessment of Multi-Source Gridded Population Distribution Datasets in China[J]. Sustainability, 2018, 10: 1363. DOI:10.3390/su10051363.
[13]
Stevens F R, Gaughan A E, Linard C, et al. Disaggregating Census Data for Population Mapping Using Random Forests with Remotely-Sensed and Ancillary Data[J]. PLOS ONE, 2015, 10(2): e0107042. DOI:10.1371/journal.pone.0107042.
数据引用格式
王明明, 王卷乐. 山东省乡镇级格网化人口空间分布数据集(2000、2010年)[DB/OL]. Science Data Bank, 2019. (2019-02-28). DOI: 10.11922/sciencedb.736.
稿件与作者信息
论文引用格式
王明明, 王卷乐. 山东省乡镇级格网化人口空间分布数据集(2000、2010年)[J/OL]. 中国科学数据, 2019. (2019-03-11). DOI: 10.11922/csdata.2019.0005.zh.
王明明
Wang Mingming
主要承担工作:基础数据处理、人口数据空间化及论文撰写。
(1993—),男,河北沧州人,硕士研究生,研究方向为人口数据空间化。
王卷乐
Wang Juanle
主要承担工作:数据集设计和技术指导。
wangjl@igsnrr.ac.cn
(1976—),男,河南洛阳人,博士,研究员,研究方向为资源环境数据集成与共享、GIS和遥感应用。
出版历史
I区发布时间:2019年3月11日 ( 版本ZH2
参考文献列表中查看
中国科学数据
csdata