中巴经济走廊专题 I 区论文(评审中) 版本 ZH3
下载
1961–2015年中巴经济走廊逐日气象数据集
A daily meteorological dataset in China-Pakistan Economic Corridor from 1961 to 2015
 >>
: 2020 - 12 - 16
: 2021 - 02 - 20
: 2021 - 02 - 20
249 0 0
摘要&关键词
摘要:本数据集覆盖了整个中巴经济走廊地区,空间分辨率为0.25°×0.25°,时间跨度从1961年1月1日至2015年12月31日。基于中巴经济走廊及其周边地区65个气象站点逐日降水、最高和最低气温数据,以该地区DEM数据为协变量,采用ANUSPLIN软件进行空间插值。以研究区其他未进行插值的气象站点数据为参照,结合目前国际上常用的逐日气温、降水数据集,验证表明本数据集具有更高的精度,能够较好地反映出真实的降水、最低和最高气温时空分布特征。本数据集可为中巴经济走廊地区气候变化研究和气象水文灾害风险评估提供数据支撑。
关键词:降水;气温;中巴经济走廊;ANUSPLIN;数据评估
Abstract & Keywords
Abstract: With a spatial resolution of 0.25 degree, this dataset covers the entire China-Pakistan Economic Corridor (CPEC) and span from 1st January 1961 to 31th December 2015. It is based on the observed daily precipitation, maximum and minimum temperature of 65 stations in the CPEC and its surrounding region, incorporating DEM as a covariate and using ANUSPLIN software for spatial interpolation. The gridded precipitation, maximum and minimum temperature datasets are evaluated through statistical metrics including Root Mean Square Error (RMSE) and Correlation Coefficient (CC) on daily and monthly timescales over the entire CPEC region. This dataset can provide substantial support for climate change research and meteorological disaster risk assessment over the China-Pakistan Economic Corridor.
Keywords: precipitation; temperature; China-Pakistan Economic Corridor (CPEC); ANUSPLIN; data evaluation
数据库(集)基本信息简介
数据库(集)名称1961–2015年中巴经济走廊逐日气象数据集
数据作者陈金雨、陶辉、刘金平
数据通信作者陶辉(taohui@ms.xjb.ac.cn)
数据时间范围19612015年
地理区域中巴经济走廊地区,地理范围包括24°N40°N,60°E80°E。
空间分辨率0.25°×0.25°
数据量580.5 MB
数据格式*.tif
数据服务系统网址http://www.dx.doi.org/10.11922/sciencedb.j00001.00189
基金项目科技部基础资源调查专项课题(2018FY100501)
数据库(集)组成本数据集共包括3个数据文件,其中:(1) 中巴经济走廊逐日降水CPEC_PRE.zip是19612015年的格点化逐日降水数据,数据量98.5 MB;(2) 中巴经济走廊最高气温CPEC_TMAX.zip是19612015年逐日最高气温数据,数据量245 MB。(3) 中巴经济走廊最低气温CPEC_TMIN.zip 是19612015年逐日最低气温数据,数据量237 MB。
Dataset Profile
TitleA daily meteorological dataset in China-Pakistan Economic Corridor from 1961 to 2015
Data corresponding authorTao Hui(taohui@ms.xjb.ac.cn)
Data authorsChen Jinyu, Tao Hui, Liu Jinping
Time range19612015
Geographical scopeChina-Pakistan Economic Corridor, 24°N40°N, 60°E80°E
Spatial resolution0.25°×0.25°
Data volume580.5 MB
Data format*.tif
Data service system<http://www.dx.doi.org/10.11922/sciencedb.j00001.00189>
Source of fundingNational Key Research and Development Program of China MOST (2018FY100501)
Dataset compositionThe dataset consists of 3 subsets in total. among which: (1) China-Pakistan Economic Corridor’s daily precipitation CPEC_PRE.zip is the gridded daily precipitation data from 1961 to 2015, with a data volume of 98.5 MB; (2) China-Pakistan Economic Corridor is the highest Temperature CPEC_TMAX.zip is the daily maximum temperature data from 1961 to 2015, the data volume is 245 MB. (3) The minimum temperature of the China-Pakistan Economic Corridor CPEC_TMIN.zip is the daily minimum temperature data from 1961 to 2015, with a data volume of 237 MB.
引 言
高时空分辨率的气象数据对气候变化研究至关重要[1]。在发展中国家,由于基础设施的建设和维护成本高,地面气象观测站稀少,难以获得能够满足研究需求的高空间分辨率气象数据集[2]。中巴经济走廊(China-Pakistan Economic Corridor,CPEC)地处南亚次大陆西北部,介于24°N–40°N和60°E–80°E,气候类型多样;北起中国喀什地区,南至巴基斯坦的瓜达尔港,是“一带一路”的重要组成部分[3]。高时空分辨率气象数据对中巴经济走廊地区气候变化研究和气象灾害风险评估具有重要意义。
国际上已相继建立了多气象要素和多时空分辨率的全球格点数据集,如CHIRPS[4]、MSWEP[5]、PGFMD[6]、CPC[7]。但大多数据集空间尺度较大、时间序列不一,在研究中小区域尺度气候变化时存在偏差[8-9]。尤其在地形复杂的地区,表达区域气候特征能力有限[10]。因此,为了得到适合中小区域尺度长时间序列、高精度的格点化气象数据,通常会使用空间插值技术[11]。由澳大利亚国立大学开发的气象数据空间插值软件ANUSPLIN可以有效地模拟地形对降水的影响,其基于薄盘光滑样条插值技术在许多研究中得到了应用,并被证明是可靠的空间插值方法[12,13,14,15]。ANUSPLIN已为许多气象数据集的构建做出了贡献,且在世界各地得到了广泛的应用[16,17,18]。然而,中巴经济走廊地区目前还没有一套完整的高时空分辨率的气象数据集,这使得在该地区开展气候变化相关研究具有一定困难。
本数据集以中巴经济走廊及其周边地区日降水、日最高气温和日最低气温站点数据为基础,结合研究区DEM数据,利用ANUSPLIN软件进行数据处理,经过数据重采样和空间插值,生成中巴经济走廊地区0.25°×0.25°空间分辨率气象数据集,并利用广义交叉验证和统计学方法对数据集进行质量评估,得到结果可为中巴经济走廊地区气候变化研究提供参考。
1   数据采集和处理方法
站点观测数据主要来源于巴基斯坦气象局、中国气象局和美国国家环境预报中心的逐日降水、最高和最低气温站点数据。其中巴基斯坦地区有74个站点,中国段有8个站点。剔除缺测率超过50%的17个站点,使用剩下的65个气象站点进行数据制作。DEM数据来自美国航空航天局的SRTM GRID数据处得到的成品数据,使用ArcMap软件将DEM数据进行重采样为0.25°×0.25°,并转换成ANUSPLIN软件能够识别的ASCII格式数据。
1.1   ANUSPLIN原理
薄盘样条函数插值方法最早是Wahba于1979年提出,Hutchinson等于1984年对其改进能够适用于更大的数据集,Bates等于1987年将其进一步拓展为局部薄盘光滑样条法[19-20]。为了方便薄盘样条函数法的使用,Hutchinson等基于普通薄盘和局部薄盘样条函数的插值理论,开发了专业气候数据空间插值软件ANUSPLIN,它除了可以引入自变量外,还允许引入协变量(海拔、海岸线等)[21]。ANUSPLIN软件的核心是局部薄盘光滑样条算法,其理论统计模型公式为:
\({Z}_{i}=f\left({x}_{i}\right)+{b}^{T}{y}_{i}+{e}_{i}\) (\(i=1,2,\dots ,N\)) (1)
其中,\({Z}_{i}\)为位于空间点\(i\)的因变量;\(f\left({x}_{i}\right)\)为关于\({x}_{i}\)的未知光滑函数;\({x}_{i}\)为独立变量;\({b}^{T}\)\({y}_{i}\)\(p\)维系数;\({y}_{i}\)\(p\)维独立协变量;\({e}_{i}\)为随机误差;\(N\)为观测值数量。当式(1)缺少第一项\(f\left({x}_{i}\right)\)时,该统计模型简化为简单多元线性回归模型,但是在ANUSPLIN软件的实际使用中不允许出现这种情况;当式(1)缺少第二项\({b}^{T}{y}_{i}\)时,即不存在协变量(\(p=0\)),该统计模型就简化为普通的薄盘光滑样条模型。式(1)中,函数\(f\)和系数\({b}^{T}\)通过最小二乘估计来确定:
\(\sum _{i=1}^{N}{\left[\frac{{Z}_{i}-f\left({x}_{i}\right)-{b}^{T}{y}_{i}}{{w}_{i}}\right]}^{2}+\rho {J}_{m}\left(f\right)\) (2)
其中,\({J}_{m}\left(f\right)\)是函数\(f\left({x}_{i}\right)\)的粗糙度测度函数,为函数\(f\)\(m\)阶偏导(也称为样条次数);\(\rho \)为正的光滑参数,主要用来平衡插值数据的保真度以及拟合曲面的粗糙度。当\(\rho \to 0\)时,函数\(f\)为精确内插式;当\(\rho \to +\infty \)时,函数\(f\)为最小二乘多项式。在ANUSPLIN软件中通常以广义交叉验证GCV和最大似然法GML的最小化来确定。GCV的计算原理主要为逐个移除数据点,在同样的\(\rho \)下利用其他数据点来估算该点的残差,并且在ANUSPLIN软件中的\(log\)日志文件(Log file and List file)中有记录。
ANUSPLIN软件的\(log\)日志文件中提供了一系列用于判别误差来源和插值质量的参数:观测数据统计量(均值、方差、标准差等)、广义交叉验证(GCV)、最大似然法误差(GML)、拟合曲面参数的信号自由度(Signal)和剩余自由度(Error)、均方残差(MSR)、光滑参数(RHO)、期望真实均方误差(MSE)等。\(log\)日志文件中的统计结果还给出了均方根残差(RMSR,Root mean square residual)的数据点序列,可以用来控制数据质量,检验并消除原始数据在位置和数值上的错误。
对于\(log\)日志文件中数据拟合表面的结果,RHO过小和Signal大于观测站点的一半或RHO过大都表明在拟合过程中找不到最优的光滑参数,说明数据点过于稀疏、存在短相关或拟合函数过于复杂,所选模型不适合用于插值,这些情况在ANUSPLIN软件的\(log\)日志文件中以符号(∗)标出。ANUSPLIN软件插值过程中最佳模型的选择标准:\(log\)日志文件中GCV或GML最小,模型残差比(MRR)或信噪比(SNR)最小,Signal小于站点的一半,文件中无∗号指示[22]
1.2   数据处理流程
数据处理流程主要包括4个部分(图1):原始数据输入、数据处理、数据输出(符合要求的数据格式)和空间插值(编写批处理代码)。输入数据主要包括1961–2015年中巴经济走廊地区气象要素(日降水、日最高气温和日最低气温)站点数据、气象台站信息资料和DEM数据。数据处理部分分别把气象要素站点数据和DEM数据处理成ANUSPLIN软件需要的数据格式。其中,将气象要素站点数据样本量小于50%的站点作为无效站点进行剔除,用反距离加权法(IDW)对剩下站点的缺测值进行插补,以保证插值过程和结果的可信度,然后输出为ANUSPLIN软件需要的数据格式;另外,将中巴经济走廊地区DEM数据进行重采样,根据插值目标把空间分辨率重采样为0.25°×0.25°,然后以ASCII码数据格式类型输出。空间插值部分主要在ANUSPLIN软件中完成,通过编写批处理脚本文件,进行空间插值。


图1   数据处理流程图
为保证每个拟合表面的插值精度和模型的稳定性,并使之在连续的时间序列上具有可比性,在对3个气象要素(降水、日最高和最低气温)连续55年逐日站点数据进行曲面插值过程中,首先选取1979年进行实验(该年为平水年)。实验模型为薄盘样条和局部薄盘样条函数的6个spline模型(独立变量、协变量和样条次数多种组合,表1)。根据最佳模型的选择标准,初步选出每个气象要素的最优待用模型,再用这些待用模型对不同气象要素进行连续55年插值,对个别模型不符的月份,利用残差分析,剔除个别残差较大的站点以使模型能够使用。
表1   6个spline模型详细列表
序号变量样条次数模型名称含义
1经度、纬度2LL2双变量薄盘光滑样条函数
2经度、纬度3LL3双变量薄盘光滑样条函数
3经度、纬度4LL4双变量薄盘光滑样条函数
4经度、纬度、高程为协变量2LLD2三变量局部薄盘光滑样条函数
5经度、纬度、高程为协变量3LLD3三变量局部薄盘光滑样条函数
6经度、纬度、高程为协变量4LLD4三变量局部薄盘光滑样条函数
对于降水数据、日最高/低气温数据,用初定的6个模型对1979年的数据进行实验显示,选择以高程作为协变量的三变量局部薄盘光滑样条函数、样条次数为2的LLD2模型能保证大部分插值结果最为精确。
2   数据样本描述
1961–2015年中巴经济走廊逐日气象数据集共包含1961–2015年60264个数据文件,命名方式为CPEC_XXX_YYYYMMDD。其中CPEC为中巴经济走廊;XXX为气象要素,包括日降水量PRE、日最高气温TMAX和日最低气温TMIN;YYYY为数据年份;MM为月份;DD表示天。图2为中巴经济走廊地区1979年8月23日降水数据,图3为中巴经济走廊地区1979年8月23日最高(a)和最低(b)气温数据。


图2   中巴经济走廊地区1979年8月23日降水

(a)


(b)

图3   中巴经济走廊地区1979年8月23日最高和最低气温
(a) 1979年8月23日最高气温; (b) 1979年8月23日最低气温
3   数据质量控制和评估
为了验证本数据集的精度和可靠性,采用了研究区内3个未进行插值的台站的气象要素作为验证数据(表2)。
表2   验证站点
序号站点名称经度纬度海拔(m)
1吉德拉尔(Chitral)71.83°E35.85°N1500
2德拉·伊斯梅尔·汗(D.I.khan)70.92°E31.82°N173
3曼迪·巴奥丁(Mandi Bahauddin)73.80°E32.97°N252.97
同时,本研究制作的格点化气象数据集(以下简称CPEC-P、CPEC-T)与国际上较为常用的逐日降水数据集(表3)与逐日最高、最低气温数据集(表4)进行了对比。
表3   常用逐日降水数据集
序号数据名称分辨率范围数据来源
1PGFMD0.25°×0.25°60°S–90°N普林斯顿大学
2CHIRPS0.25°×0.25°50°N–50°S加州大学圣芭芭拉分校
3MSWEP0.25°×0.25°60°S–60°N欧盟委员会联合研究中心
表4   常用逐日最高、最低气温数据集
序号数据名称分辨率范围数据来源
1PGFMD0.25°×0.25°60°S–90°N普林斯顿大学
2CPC0.5°×0.5°90°N–90°S美国气候预报中心
对于降水数据(CPEC-P),从不同数据集评估结果(表5)和月降水数据验证散点图(图4)中可以看出,本研究制作的CPEC-P能够较好反映出真实的降水水平,其中在德拉·伊斯梅尔·汗站点评估结果最好,回归系数为0.87,R²=0.73,均方根误差RMSE=18.76 mm。对于德拉·伊斯梅尔·汗和曼迪·巴奥丁两个气象站,CPEC-P与PGFMD评估结果相一致,但分别低估了100 mm(德拉·伊斯梅尔·汗)与200 mm(曼迪·巴奥丁)以上的降水,而CHIRPS与MSWEP两个数据集均整体低估了降水。对于吉德拉尔站点,CPEC-P整体高估了该站点的降水,但其他数据集同样不能够很好反映出该站点的真实降水,这可能与该站点的高程(1500 m)有关,高程较高的站点插值出来的结果误差较大。
表5   不同降水数据集评估结果比较
站点名称数据集回归系数RMSE (mm)
吉德拉尔CPEC-P0.930.6531.22
CHIRPS0.540.6617.64
PGFMD0.730.6424.85
MSWEP1.410.8922.57
德拉·伊斯梅尔·汗CPEC-P0.870.7318.76
CHIRPS0.580.7214.40
PGFMD0.890.7918.03
MSWEP0.720.8412.58
曼迪·巴奥丁CPEC-P0.820.6645.49
CHIRPS0.550.6828.96
PGFMD0.800.6744.43
MSWEP0.600.7130.25


图4   月降水数据验证散点图(直线为不同数据集线性拟合,红虚线为45°线)
对于最高、最低气温数据(CPEC-T),从不同日最高、最低气温数据集评估结果(表6)和月平均最高、最低气温验证散点图(图5)中可以看出,本研究制作的CPEC-T比其他数据集能够更好反映出站点的真实气温。对于德拉·伊斯梅尔·汗和曼迪·巴奥丁两个气象站,三个数据集都能很好反映出站点的真实气温,CPEC数据R²均在0.98以上且RMSE均在1℃以内。对于吉德拉尔站点,3个数据集都低估了该站点的气温,但3个数据集评估结果表现为与观测数据拟合程度较好,R²均在0.9以上,这可能因为站点的高程影响了插值的效果,造成数据结果的低估。
表6   不同日最高、最低气温数据集评估结果比较
站点名称数据集日最高气温日最低气温
RMSE (℃)RMSE (℃)
吉德拉尔CPEC-T0.991.010.941.68
CPC0.961.980.902.47
PGFMD0.981.310.931.84
德拉·伊斯梅尔·汗CPEC-T0.990.850.990.82
CPC0.990.700.981.15
PGFMD0.990.860.990.93
曼迪·巴奥丁CPEC-T0.980.860.990.63
CPC0.990.710.990.74
PGFMD0.971.180.980.94


图5   月平均最高(a-c)、最低气温(d-f)验证散点图(直线为不同数据集线性拟合,红虚线为45°线)
4   数据使用方法和建议
本数据集为*.tif文件格式,解压后可使用Matlab或ArcMap软件打开、显示、查看、统计分析等。因为数据量较大,建议使用Matlab软件进行批处理,提取数据经纬度代码已上传至网站。
致 谢
感谢巴基斯坦气象局(PMD)、国家气候中心、美国国家环境预报中心(GSOD)提供站点观测数据。
[1]
KARGER D N, CONRAD O, BöHNER J, et al. Climatologies at high resolution for the earth’s land surface areas[J]. Scientific Data, 2017, 4(1): 170122.
[2]
DERIN Y, YILMAZ K K. Evaluation of Multiple Satellite-Based Precipitation Products over Complex Topography[J]. Journal of Hydrometeorology, 2014, 15(4): 1498-516.
[3]
ULLAH S, YOU Q L, ULLAH W, et al. Observed changes in precipitation in China-Pakistan economic corridor during 1980-2016[J]. Atmospheric Research, 2018, 210: 1-14.
[4]
FUNK C, PETERSON P, LANDSFELD M, et al. The climate hazards infrared precipitation with stations a new environmental record for monitoring extremes[J]. Scientific Data, 2015, 2: 150066.
[5]
BECK H E, VAN DIJK A, LEVIZZANI V, et al. MSWEP: 3-hourly 0.25 degrees global gridded precipitation (1979-2015) by merging gauge, satellite, and reanalysis data[J]. Hydrol Earth Syst Sci, 2017, 21(1): 589-615.
[6]
SHEFFIELD J, GOTETI G, WOOD E F. Development of a 50-year high-resolution global dataset of meteorological forcings for land surface modeling[J]. J Clim, 2006, 19(13): 3088-111.
[7]
GALLAGHER M R, CHEPFER H, SHUPE M D, et al. Warm Temperature Extremes Across Greenland Connected to Clouds[J]. Geophys Res Lett, 2020, 47(9): 10.
[8]
税军峰, 任婧宇, 彭守璋, 等. 1901-2014年黄土高原1 km分辨率月均气温和月降水量数据集[J]. 中国科学数据(中英文网络版), 2019, 4(04): 133-42.
[9]
SUN Q H, MIAO C Y, DUAN Q Y, et al. A Review of Global Precipitation Data Sets: Data Sources, Estimation, and Intercomparisons[J]. Rev Geophys, 2018, 56(1): 79-107.
[10]
NAWAZ M, IQBAL M F, MAHMOOD I. Validation of CHIRPS satellite-based precipitation dataset over Pakistan[J]. Atmospheric Research, 2021, 248: 105289.
[11]
贾洋, 崔鹏. 高山区多时间尺度Anusplin气温插值精度对比分析[J]. 高原气象, 2018, 37(03): 757-66.
[12]
AROWOLO A O, BHOWMIK A K, QI W, et al. Comparison of spatial interpolation techniques to generate high-resolution climate surfaces for Nigeria[J]. Int J Climatol, 2017, 37: 179-92.
[13]
CUERVO-ROBAYO A P, TELLEZ-VALDES O, GOMEZ-ALBORES M A, et al. An update of high-resolution monthly climate surfaces for Mexico[J]. Int J Climatol, 2014, 34(7): 2427-37.
[14]
HIJMANS R J, CAMERON S E, PARRA J L, et al. Very high resolution interpolated climate surfaces for global land areas[J]. Int J Climatol, 2005, 25(15): 1965-78.
[15]
MA J, LI H, WANG J, et al. Reducing the Statistical Distribution Error in Gridded Precipitation Data for the Tibetan Plateau[J]. Journal of Hydrometeorology, 2020, 21(11): 2641-54.
[16]
NEW M, HULME M, JONES P. Representing twentieth-century space-time climate variability. Part I: Development of a 1961-90 mean monthly terrestrial climatology[J]. J Clim, 1999, 12(3): 829-56.
[17]
NEW M, HULME M, JONES P. Representing twentieth-century space-time climate variability. Part II: Development of 1901-96 monthly grids of terrestrial surface climate[J]. J Clim, 2000, 13(13): 2217-38.
[18]
ZHAO Y, ZHU J, XU Y. Establishment and assessment of the grid precipitation datasets in China for recent 50 years[J]. Journal of the Meteorological Sciences, 2014, 34(4): 414-20.
[19]
HUTCHINSON M F, GESSLER P E. Splines — more than just a smooth interpolator[J]. Geoderma, 1994, 62(1): 45-67.
[20]
BATES D M, LINDSTROM M J, WAHBA G, et al. GCVPACK-routines for generalized cross validation[J]. Communications in Statistics-Simulation and Computation, 1987, 16(1): 263-97.
[21]
刘志红, R.MCVICAR T M, NIE T G V, 等. 基于ANUSPLIN的时间序列气象要素空间插值[J]. 西北农林科技大学学报(自然科学版), 2008, 10: 227-34.
[22]
刘志红, MCVICAR T R, NIEL V, 等. 专用气候数据空间插值软件ANUSPLIN及其应用[J]. 气象, 2008, 02: 92-100.
数据引用格式
陈金雨, 陶辉, 刘金平. 1961–2015年中巴经济走廊逐日气象数据集[DB/OL]. Science Data Bank, 2020. (2021-02-19). DOI: 10.11922/sciencedb.j00001.00189.
稿件与作者信息
论文引用格式
陈金雨, 陶辉, 刘金平. 1961–2015年中巴经济走廊逐日气象数据集[J/OL]. 中国科学数据, 2020. (2021-02-19). DOI: 10.11922/csdata.2020.0104.zh.
陈金雨
Chen Jinyu
主要承担工作:论文撰写,数据质量控制和评估。
(1998—),男,河南省信阳市人,硕士研究生,研究方向为气象水文灾害风险评估。
陶辉
Tao Hui
主要承担工作:数据制作、评估整体思路的设计。
taohui@ms.xjb.ac.cn
(1981—),男,新疆昌吉市人,研究生学历,副研究员,研究方向为气候变化与风险评估。
刘金平
Liu Jinping
主要承担工作:数据整理、插值。
(1990—),男,河南省商丘市人,研究生学历,讲师,研究方向为全球变化水文循环。
出版历史
I区发布时间:2021年2月20日 ( 版本ZH3
参考文献列表中查看
中国科学数据
csdata