数据收集过程中通常会受到噪声数据、缺失数据、冲突数据等影响,导致采集到的原始数据比较“脏”。因此,首先需要对原始数据进行预处理,以保证数据的质量和应用价值。本文的预处理环节主要包括数据集成、数据清洗和数据转换等方面。
(1)数据集成
由于交易信息不是来源于同一网站,需要将数据进行整合,形成一个综合数据集。将不同数据源的数据进行形式统一,有利于提高数据的集中性和一致性。
在这个过程中,主要是对不同来源的数据名称、长度、格式和单位等进行统一,并进行字段检查。对不同的字段进行删除或合并,避免出现冗余。
(2)数据清洗
对数据的不一致检验、噪声数据的识别、数据过滤与修正,有利于提高数据的真实性和可用性。本文清洗过程包括以下几个方面:
①数据不一致。由于数据的来源不同,名称和单位可能有所差异。在使用前,对数据进行检查和统一,避免由于内容不一致带来的误差。
②空缺值。原始数据中存在少量空缺值,这是由于当天没有成交记录造成的,对数据的分析与研究并没有实际意义,故直接将空缺值做删除处理。
③异常值识别。通过单变量的描述统计及图形法,识别有无异常值或明显错误值。本文分别将七个试点的成交量和成交额进行描述性统计分析得出每月碳配额价格的加权平均值,然后利用散点图将碳配额日均价可视化处理。对于明显偏离加权平均值的数据可视为异常情况,可能原因是原始数据的记录错误或者数据收集过程中的操作错误。对于有异常值出现的情况,经人工查证后利用上一交易日的有效成交数据进行替换处理。
(3)数据转换
利用对数收益率计算方式将配额日成交均价转化成碳价日变化率,可以为市场有效性研究提供基础数据支持,计算公式为
[9]:
Xt=ln
(Pt/Pt-1),其中,
Xt为第
t日的碳价日变化率;
Pt为第
t日的碳市场价格;
Pt- 1 为第
t-1日的碳市场价格。
数据预处理阶段的整体流程如图1所示。