数据论文 I 区论文(评审中) 版本 ZH3
下载
中国乡镇(街道)人口密度数据集(2010年)
China township-level population density dataset (2010)
 >>
: 2020 - 03 - 31
: 2020 - 04 - 01
: 2020 - 04 - 01
3369 69 0
摘要&关键词
摘要:乡镇(街道)级人口统计数据是中国目前公开的最精细的人口统计数据。将人口统计数据和行政边界数据进行属性关联,实现人口统计数据的空间展布,对于支持地理、资源、环境、生态、灾害,以及可持续发展等方面的研究具有重要意义。本数据集将2010年国家统计局发布的中国31个省(直辖市、自治区)的乡镇(街道)单元人口统计数据按乡镇行政区划建立空间匹配,经过拓扑处理、属性匹配、人口密度计算和矢栅转换,形成2010年乡镇(街道)级人口密度数据集,数据集为TIFF栅格形式。
关键词:人口统计学;人口密度;空间分布;乡镇级;中国
Abstract & Keywords
Abstract: Township-level demographic data is the most detailed data released in China currently. Associating the attribute table of demographic data with the one of administrative boundary data to realize spatial distribution of population, is significant to the research of geography, resources, environment, ecology, disasters, sustainable development, etc. This dataset establishes spatial matching of administrative divisions to township level demographic data released by National Bureau of Statistics in 2010 covering 31 provinces, municipalities, and autonomous regions in China. Through topology processing, attribute matching, population density calculation and vector grid conversion, the township-level population density dataset of China (2010) was formed in the TIFF format.
Keywords: demography; population density; spatial distribution; township-level; China
数据库(集)基本信息简介
数据库(集)名称中国乡镇(街道)人口密度数据集(2010年)
数据作者王卷乐、王晓洁、王明明、姚锦一、王岚涛、邱丛丛
数据通信作者王卷乐(wangjl@igsnrr.ac.cn)
数据时间范围2010年
地理区域安徽省、北京市、福建省、甘肃省、广东省、广西省、贵州省、海南省、河北省、河南省、黑龙江省、湖北省、湖南省、吉林省、江苏省、江西省、辽宁省、内蒙古自治区、宁夏回族自治区、青海省、山东省、山西省、陕西省、上海市、四川省、天津市、西藏自治区、新疆乌鲁木齐自治区、云南省、浙江省、重庆市
空间分辨率1 km
数据量108 MB
数据格式*.tif
数据服务系统网址http://www.sciencedb.cn/dataSet/handle/964
基金项目中国科学院战略性先导科技专项(A类)(XDA19040501),中国科学院“十三五”信息化专项科学大数据工程项目(XXH13505-07)
数据库(集)组成数据集共包括1个文件,为:2010中国乡镇(街道)人口数据.zip. 其中:(1) 2010中国乡镇(街道)人口数据.tif是中国31省平均人口密度的栅格图像,数据量108 MB;(2) 2010中国乡镇(街道)人口数据.tfw存储空间参考信息,数据量1 KB;(3) 2010中国乡镇(街道)人口数据.tif.ovr是金字塔文件,数据量3.1 MB;(4) 2010中国乡镇(街道)人口数据.tif.aux.xml存储其他辅助信息的XML文件,数据量1.4 KB.
Dataset Profile
TitleChina township-level population density dataset (2010)
Data corresponding authorWang Juanle (wangjl@igsnrr.ac.cn)
Data author(s)Wang Juanle, Wang Xiaojie, Wang Mingming, Yao Jinyi, Wang Lantao, Qiu Congcong
Time range2010
Geographical scopeAnhui, Beijing, Fujian, Gansu, Guangdong, Guangxi, Guizhou, Hainan, Hebei, Henan, Heilongjiang, Hubei, Hunan, Jilin, Jiangsu, Jiangxi, Liaoning, Inner Mongolia, Ningxia, Qinghai, Shandong, Shanxi, Shaanxi, Shanghai, Sichuan, Tianjin, Xizang, Xinjiang, Yunnan, Zhejiang, Chongqing
Spatial resolution1 km
Data volume108 MB
Data format*.tif
Data service system<http://www.sciencedb.cn/dataSet/handle/964>
Source(s) of fundingStrategic Priority Research Program of Chinese Academy of Sciences (XDA19040501); Specific Informatization Scientific Research Science Program of Chinese Academy of Sciences (XXH13505-07).
Dataset/Database compositionThe dataset consists of 1 subsets in total. The subsets are recorded as China township (street) population data.zip:
1. 2010 China township (street) population data.tif is a raster image of the average population density of 31 provinces in China, with a data volume of 108 MB;
2. 2010 China township (street) population data.tfw storage space reference information, with a data volume of 1KB;
3. 2010 China township (street) population data.tif.ovr is a pyramid file, with a data volume of 3.1 MB;
4. 2010 China township (street) population data.tif.aux.xml storing other auxiliary information of XML file, with a data volume of 1.4 KB.
引 言
“100亿人在地球上如何生存和分布”被认为是21世纪地理科学的11个重大战略方向之一[1]。空间分布是人口的重要属性,人口密度则是表现人口空间分布最主要的形式和衡量人口分布地区差异的主要指标[2]。中国拥有世界上最多的国家人口总数,人口分布不平衡,资源环境承载压力大[3]。准确、精细的人口密度数据能够为区域规划与开发、灾害风险评估和救援、医疗资源配置和资源环境承载力评估等研究和应用提供支撑[4]。乡镇级人口统计数据是目前官方公布的最精细的人口数据,然而乡镇级的人口空间数据缺乏。究其原因在于两点,一是乡镇级行政区划矢量数据获取困难,且存在大量的行政区划和地名变更问题,难以直接利用。二是乡镇级人口统计数据的空间关联需要进行大量的涉及乡镇地名和行政区划的空间数据匹配处理工作,工作量大且技术要求较高。本文将2010年国家统计局发布的中国31个省(直辖市、自治区)乡镇(街道)单元的人口统计数据按乡镇行政区划建立空间匹配。利用乡镇级行政区划数据的人口属性和面积属性计算乡镇级平均人口密度,经过矢栅转化形成本数据集。
1   数据采集和处理方法
1.1   数据采集
统计数据来源于中国国家统计局,乡镇(街道)边界数据来源于国家科技基础条件平台–地球系统科学数据共享平台。
1.2   处理方法
1.2.1   拓扑错误处理
乡镇级行政区划矢量数据易存在两种拓扑错误:行政区划边界处存在重叠或空隙现象。造成这种错误有两种情况,一种是由乡镇(街道)矢量单元发生偏移造成的有规律的重叠和空隙,另一种是由乡镇(街道)矢量单元存在残缺或多余造成的不规律的重叠和空隙。其中第一种情况利用ArcGIS软件的空间校正(Spatial Adjustment)功能将乡镇(街道)矢量单元移回原来的位置,第二种情况利用ArcGIS的建立拓扑功能中的“不能重叠(Must Not Overlap)”和“不能有缝隙(Must Not Have Gaps)”规则实现对残缺部分的补充和对多余部分的去除。
1.2.2   属性关联
乡镇级人口统计数据与乡镇级行政区划矢量数据的属性关联是指人口统计数据的乡镇(街道)单元的人口总值属性同行政区划矢量数据的空间属性相关联,实现乡镇级人口统计值在空间上的分布。乡镇级人口统计数据与乡镇级行政区划矢量数据的属性关联可以通过两者的公用字段(键)来自动关联,但往往由于存在以下三种情况导致人口统计数据和行政区划矢量数据不能完全自动关联成功:①乡镇级行政区划矢量数据的表征时间和乡镇级人口统计数据的时间不一致,在这段时间差内发生过行政区划的调整;②乡镇级行政区划矢量数据存在误差,矢量数据的行政区划单元多于或少于人口统计数据的行政单元;③人口统计数据和行政区划矢量数据对乡镇(街道)的命名方式不统一。由以上原因造成自动关联失败的乡镇(街道)单元需要进行手动关联。
本文采用决策树的思想实现乡镇级人口统计数据与乡镇级行政区划矢量数据的属性关联,如图1所示。此决策树共包含四层。第一层根节点以乡镇(街道)的名称作为公用字段(键)实现矢量数据和统计数据的自动关联,由此会出现自动关联部分和不能自动关联部分两个有向边。第二层对这两部分做进一步处理,其中自动关联部分需要以区县为单元检验自动关联的准确性,自动关联失败的部分以区县为单元进行手动关联,寻找自动关联失败的原因,由此产生6个有向边。第三层包含2个内部节点和4个叶节点。左边的内部节点是由行政区划调整导致的自动关联失败,需要根据调整信息统一矢量数据和统计数据的行政区划;右边的内部节点是自动关联错误的情况下,手动寻找统计数据中对应的人口值,两个内部节点分别产生两个有向边。中间的4个叶节点是第二层中间4个有向边的具体解决方案。第四层是第三层四个有向边的具体解决方案。具体流程如图1[5]所示。


图1   乡镇级人口空间数据库建设流程[5]
1.2.3   平均人口密度计算
根据公式(1),计算各乡镇(街道)平均人口密度:
\(PD=\frac{P}{A}\) (1)
式中,PD为人口密度(人/ km2);P为乡镇(街道)人口数量(人);A为乡镇(街道)面积(km2)。
1.2.4   矢量转栅格
利用ArcGIS的Polygon to Raster工具将人口密度矢量图层转化为栅格图层,空间分辨率为1 km×1 km。
2   数据样本描述
本数据集为栅格数据类型,空间分辨率为1 km2,后缀名为.tif。本数据集包括全国22个省、5个自治区以及4个直辖市内43691个乡镇(街道)单元的平均人口密度信息。数据以Krasovsky椭球为基准,投影方式为Albers投影,最后生成中国2010年分乡镇街道人口密度分布图(图2)。从图2可以看出,中国31个省市自治区的人口密度由东部地区至西部地区总体上呈现出密集到稀疏的分布规律,人口主要集中分布在中国的中东部地区。蓝色区域代表人口平均密度小于等于50人/km2,红色范围表示人口平均密度大于等于2000人/km2


图2   中国2010年分乡镇街道人口密度分布
(图片送审中)
3   数据质量控制和评估
利用省级行政区划矢量边界统计栅格数据集,得到每个省份的栅格数据集人口值,与2010年省级人口统计数据进行对比(图3),其人口分布趋势与省市级统计人口值基本一致,其中福建省和浙江省人口略偏有出入。计算全国省级统计人口数据与栅格数据集人口数据之间的相对误差(图4),各省(市)误差控制在10%之内,说明该人口数据集精度较高。其误差计算公式为:
\(E=\left(\frac{{p}_{i1}-{p}_{i2}}{{p}_{i2}}\right)×100,\mathrm{ }\mathrm{ }\left(\mathrm{i}=1,2,3\dots 31\right)\) (2)
其中,E表示相对误差;\({p}_{i1}\)表示第i个省级行政区栅格数据集的值;\({p}_{i2}\)表示第i个省级行政区统计人口值。


图3   栅格数据集人口与统计人口对比


图4   栅格数据集人口与统计人口误差
4   数据价值
本数据集包括2010年全中国31个省级行政区,其中22个省、5个自治区和4个直辖市乡镇街道单元内人口统计数据。本数据集将全国范围内(不包括港、澳、台特别行政区)乡镇街道级人口统计数据与43691个乡镇街道界限矢量数据进行关联,在空间上展示中国最精细的乡镇级人口分布数据。中国的全国人口普查数据每10年统计一次,因此本数据集可以成为乡镇(街道)级人口数据分布的本底数据集,可以在空间尺度上反映我国人口的精细分布状况,为经济发展、城市规划、医疗资源配置、灾害评估等提供数据参考。
5   数据使用方法和建议
中国2010年乡镇街道级人口密度数据集可以用ArcGIS、ENVI等地理信息系统相关软件打开[4]。本数据集的空间分辨率为1 km,可以直接用来表征中国乡镇街道级的人口空间分布,为中国人口、资源、环境、灾害、生态等科学研究提供重要基础和本底数据。同时也可以结合同一尺度的土地利用数据、居民点数据、DEM数据、夜间灯光数据、道路交通数据、社交媒体数据等多源数据进行融合和综合分析,进一步揭示中国区域人口空间化的地理分布特征,为人类活动模拟、区域规划、资源配置、灾害评估等研究和应用提供数据产品。
致 谢
感谢中国国家统计局提供的中国第六次人口普查乡镇街道级人口统计数据。感谢国家科技基础条件平台—地球系统科学数据共享平台提供部分乡镇界线数据。
[1]
National Research Council(NRC). 理解正在变化的星球: 地理科学的战略方向[M]. 刘毅, 刘卫东, 译. 北京:科学出版社, 2011.
[2]
祝卓. 人口地理学[M]. 北京: 中国人民大学出版社, 1991.
[3]
葛美玲, 封志明. 基于GIS的中国2000年人口之分布格局研究——兼与胡焕庸1935年之研究对比[J]. 人口研究, 2008, 32(1): 51-57.
[4]
柏中强, 王卷乐. 中国27 省乡镇(街道)级人口密度数据集(2000 年)[J/OL]. 中国科学数据, 2016, 1(1) : 1-6. DOI: 10.11922/csdata.170.2015.0002.
[5]
王明明, 王卷乐. 山东省乡镇级格网化人口空间分布数据集(2000、2010年)[DB/OL]. Science Data Bank, 2019. (2019-02-28). DOI: 10.11922/sciencedb.736.
数据引用格式
王卷乐, 王晓洁, 王明明, 等. 中国乡镇(街道)人口密度数据集(2010年)[DB/OL]. Science Data Bank, 2020. (2020-03-31). DOI: 10.11922/sciencedb.964.
稿件与作者信息
论文引用格式
王卷乐, 王晓洁, 王明明, 等. 中国乡镇(街道)人口密度数据集(2010年)[J/OL]. 中国科学数据, 2020. (2020-03-31). DOI: 10.11922/sciencedb.964.
王卷乐
Wang Juanle
主要承担工作:总体设计、技术实施与成果集成。
wangjl@igsnrr.ac.cn
(1976—),男,河南省洛阳市人,博士,研究员,研究方向为科学数据共享、地理信息系统与遥感应用研究。
王晓洁
Wang Xiaojie
主要承担工作:乡镇人口数据空间化、数据汇总。
(1995—),女,山东省烟台人,硕士,研究方向为人口空间化。
王明明
Wang Mingming
主要承担工作:提供空间化技术支持。
(1993—),男,河北省沧州市人,硕士,研究方向为人口空间化。
姚锦一
Yao Jinyi
主要承担工作:乡镇人口数据空间化。
(1996—),男,江苏省苏州市人,硕士,研究方向为遥感科学与技术。
王岚涛
Wang Lantao
主要承担工作:乡镇人口数据空间化。
(1993—),男,湖北省武汉市人,硕士,研究方向为城市设计与城市健康。
邱丛丛
Qiu Congcong
主要承担工作:乡镇人口数据空间化。
(1994—),女,山东省临沂市人,硕士,研究方向为建筑设计。
出版历史
I区发布时间:2020年4月1日 ( 版本ZH3
II区出版时间:2020年9月17日 ( 版本ZH4
参考文献列表中查看
中国科学数据
csdata