中国七大试点碳市场2014-2017年交易信息数据集
2020-06-22张倩云李瑾张瑶赵东刘琛
张倩云,李瑾*,张瑶,赵东,刘琛
1.上海环境能源交易所股份有限公司,上海 200083
引 言
碳市场建设是我国构建绿色金融体系的关键内容,根据各试点每日交易价格判断碳市场的有效性是衡量碳市场发展成熟度的关键依据[1]。关于国外的碳市场价格研究,Daskalakis 和Markellos利用欧洲碳交易数据,实证检验碳市场的有效性[2];Seifer等通过随机均衡模型得出了欧洲碳市场信息充分有效的结论[3];Alberto Montagnoli等采用方差比率法对欧盟碳市场的有效性进行检验[4];Amelie Charles等亦证实欧盟碳市场有效[5];国内研究部分,王倩、王硕选取2013年下半年至2014年上半年范围内上海、北京、深圳和天津4个试点的碳交易数据进行有效性研究[6];赵长红等采用面板回归模型分析能源价格、宏观经济等因素对碳交易价格的影响[7];王扬雷选取2013年11月至2015年6月期间北京碳排放权交易价格作为研究对象,进行市场分析[8]。可以看出,碳市场的交易信息为市场有效性的研究提供基础的数据支撑。
相对目前国内已有的研究来看,本数据集覆盖的试点范围和时间范围更广,包括2013年12月31日至2017年12月31日北京、上海、广东、深圳、湖北、天津、重庆7个省市试点碳市场的配额日成交量和日成交额数据。根据这些数据可以整理出碳交易市场配额日成交均价以及碳价日变化率序列,为进一步分析碳市场价格变化趋势及市场有效性提供必要的数据支持。
1 数据采集和处理方法
1.1 数据来源
本数据主要来源于市场公开数据,覆盖各个试点碳市场官方网站的交易信息。其中,上海碳市场的交易数据由上海环境能源交易所根据交易系统内部成交信息进行统计汇总形成。对于北京、广东、深圳、湖北、天津和重庆碳市场,分别进入各自的碳排放权交易所官网,将2013年12月31日至2017年12月31日时间范围内的交易信息完整下载,得到原始数据。
1.2 数据预处理
数据收集过程中通常会受到噪声数据、缺失数据、冲突数据等影响,导致采集到的原始数据比较“脏”。因此,首先需要对原始数据进行预处理,以保证数据的质量和应用价值。本文的预处理环节主要包括数据集成、数据清洗和数据转换等方面。
(1)数据集成
由于交易信息不是来源于同一网站,需要将数据进行整合,形成一个综合数据集。将不同数据源的数据进行形式统一,有利于提高数据的集中性和一致性。
在这个过程中,主要是对不同来源的数据名称、长度、格式和单位等进行统一,并进行字段检查。对不同的字段进行删除或合并,避免出现冗余。
(2)数据清洗
对数据的不一致检验、噪声数据的识别、数据过滤与修正,有利于提高数据的真实性和可用性。本文清洗过程包括以下几个方面:
①数据不一致。由于数据的来源不同,名称和单位可能有所差异。在使用前,对数据进行检查和统一,避免由于内容不一致带来的误差。
②空缺值。原始数据中存在少量空缺值,这是由于当天没有成交记录造成的,对数据的分析与研究并没有实际意义,故直接将空缺值做删除处理。
③异常值识别。通过单变量的描述统计及图形法,识别有无异常值或明显错误值。本文分别将七个试点的成交量和成交额进行描述性统计分析得出每月碳配额价格的加权平均值,然后利用散点图将碳配额日均价可视化处理。对于明显偏离加权平均值的数据可视为异常情况,可能原因是原始数据的记录错误或者数据收集过程中的操作错误。对于有异常值出现的情况,经人工查证后利用上一交易日的有效成交数据进行替换处理。
(3)数据转换
利用对数收益率计算方式将配额日成交均价转化成碳价日变化率,可以为市场有效性研究提供基础数据支持,计算公式为[9]:Xt=ln(Pt/Pt-1),其中,Xt为第t日的碳价日变化率;Pt为第t日的碳市场价格;Pt-1为第t-1日的碳市场价格。
数据预处理阶段的整体流程如图1所示。
图1 数据处理流程图
2 数据样本描述
经过数据处理,得出七个试点2014-2017年的交易数据,详情如表1所示。
表1 七个试点交易数据详情
本数据集由七个试点碳市场2014-2017年的交易情况组成,每个试点的数据内容包括配额日成交量、配额日成交额、配额日成交均价以及碳价日变化率。根据这些数据可以单独研究各试点的市场交易情况,也可以将七个试点作对比分析。以上海碳市场为例,数据具体信息如图2所示。
图2 上海碳市场部分交易数据信息
3 数据质量控制和评估
由于原始数据属于外部二手数据,所以在使用前对数据的准确性、适用性和一致性进行审核。
(1)准确性
本数据来源于各试点官网信息,是所有交易情况的汇总统计,保证了数据的真实性和准确性。
(2)适用性
本文收集的原始数据中包含市场成交量和成交价等重要信息,是碳市场量价关系分析以及有效性研究等工作必不可少的目标数据。
(3)一致性
不同试点官方网站包含的数据字段有所差别,但是均包含完整的交易信息,根据数据集需求进行统一筛选。
4 数据价值
本数据集来源可靠,包含了七个试点2014-2017年较完整的交易数据。各数据可以直接参考使用,为中国碳市场历年进展情况或七个试点交易情况对比等相关研究提供可靠的数据支持。
致 谢
衷心感谢中国科学院上海高等研究院“碳排放特色数据产品及系统开发”项目的大力支持。