数据质量控制是计算极端气候指数前的必要步骤,原始数据的异常值及错误值不但会导致产生错误的当年值,而且会影响后续的趋势分析。采用R语言编程环境中的RClimDex1.0软件包处理气象观测数据,包括气温与降水数据的质量控制和极端气候指数计算。
首先,校检各站点气象数据的txt文件,检测是否存在不符合逻辑的异常值,包括:(1)日最高温度Tmax小于日最低温度Tmin;(2)降水量Prcp小于0 mm。采用RClimDex1.0软件加载预处理得到的气象观测站点数据,运行质量控制功能模块,软件会自动识别–99.9为NA,并用NA替换异常值。其次,为了检测出气温和降水时间序列中的离群值,定义不超过或不小于青藏高原每日气候时间序列平均值3倍标准差范围为合理值范围,其离群值范围表达为[-∞, Mean – 3*Std] U [Mean+3*Std, +∞]。若原始气温及降水数据处于离群值范围[-∞, Mean – 3*Std]U[ Mean+3*Std, +∞]内,需再次对质量控制结果文件中的记录进行校检与筛选,剔除不合理的记录或将其设置为缺测值,确保数据质量得到严格控制;若无异常离群值,则可计算极端气候指数。
在分析了各观测值的统计分布情况的基础上,进一步检验是否存在逻辑异常值。图4显示了站点51804的气温和降水观测值的概率密度分布情况。95%分布区间外的分布均有可能为异常值,通过检查原始数据实际情况决定是否剔除。
图4
原始气温及降水数据概率密度分布图(以站点51804为例)