原油价格预测:近30年研究回顾和未来展望
2022-11-28张耀杰王玉东
张耀杰,王玉东
(南京理工大学 经济管理学院,南京 210094)
原油价格预测一直都是学术界和业界的研究热点与难题。在错综复杂的全球经济环境下,原油价格表现出高波动性的特点。图1描绘了1986-01~2022-05期间的美国西德克萨斯中间基原油(West Texas Intermediate,WTI)1)WTI也经常翻译为西德克萨斯轻质原油或西德克萨斯中质原油,又称为德州轻质低硫原油和英国北海布伦特(Brent)原油的现货价格变化情况。在进入21世纪以来,油价波动愈加剧烈,并且与经济周期和地缘政治事件紧密联系。特别地,在2020 年4 月20 日,WTI原油5月期货合约的最终结算价为-37.63美元/桶,引发了金融市场的强烈反响与恐慌。在原油价格波动剧烈的背景下,其预测研究显得尤为重要。
图1 WTI和Brent原油现货价格时间序列(1986~2022)
为了分析原油价格预测的研究趋势,本文检索了该主题下的学术论文发表情况。一方面,利用Web of Science数据平台以“Forecasting oil price”为主题词进行相关英文论文的检索;另一方面,利用中国知网以“原油价格预测”为主题词进行相关中文论文的检索2)本文并没有在初步检索的基础上对每一篇文献进行排查。理由如下:①大部分检索结果是与主题完美契合的文献;②小部分检索结果虽然不是与主题完全相关,但也基本贴近;③检索过多或过少的文献对每年的趋势判断影响甚小。最后,需要说明的是,虽然仅检索了一个最核心的主题词汇,但检索结果还是包含了相关衍生词或近义词,如“Oil price forecasting”“Forecasts”“Prediction”和“Crude oil”等。图2给出了1990~2021 年该主题学术论文的数量变化趋势。首先,英文论文数量明显多于中文论文数量。主要原因是大家都更加关心以WTI和Brent原油为代表的国际原油基准价格。以人民币计价的原油期货合约在2018年才开始上市交易,尚处于起步阶段,而中文期刊相对偏好中国问题的研究。其次,原油价格预测的论文数量呈现出逐年上升的趋势,说明学术界对此研究的积极性正在不断提高。图3进一步给出了发表原油价格预测论文数量排名前20的英文期刊以及发表数量超过3 篇的中文期刊。能源经济学领域主流期刊Energy Economics发表了244篇相关论文,在数量上遥遥领先。总体而言,能源类期刊发表数量最多,占据榜单的前5名。此外,经济学和金融学综合期刊的上榜数量有7个,占该榜单期刊总数约1/3,说明原油价格预测也受到经济学和金融学领域的关注。这是符合预期的,因为原油价格预测是宏观经济及金融领域重要的研究议题之一。最后,两本预测领域的重要期刊Journal of Forecasting(第6名)和International Journal of Forecasting(第8名)也发表了大量油价预测的论文。截止目前,只有两本中文期刊的发文量在3篇以上:《北京理工大学学报(社会科学版)》(10篇)和《中国科学院院刊》(8篇)。
图2 近30年(1990~2021)以原油价格预测为主题的中英文论文数量
图3 以原油价格预测为主题发表的论文数量前20名的英文期刊及论文数量超过3篇的中文期刊
本文的研究目的是:一方面,对原油价格预测的基础知识、技术细节、理论模型和预测方法进行综合回顾,帮助感兴趣的读者加深对这一研究领域的理解;另一方面,给出一些未来值得研究的方向,以供参考讨论。
第1节主要介绍原油价格的预测对象。这部分的内容较为基础,但非常重要。预测原油价格的第一步就是确定预测的具体对象。从广义上讲,原油价格预测的对象包含了很多维度,具有很多分类。①讨论了油价基准的对象选择问题,对WTI和Brent等多种原油品种进行了详细介绍。②区分了名义价格和实际价格的差异,讨论它们之间不同的经济含义和预测机理。③结合不同的研究背景和研究目标,分析了原油价格和收益率之间的对象选择问题。④依然从研究背景和研究目标的角度分析了原油交易的平均价格和收盘价格之间的对象选择问题。⑤从样本时间范围的角度讨论了不同历史时期下原油价格变动的主要驱动因素,并给出了相关样本时间范围的选择建议。⑥讨论预测频率和预测周期的对象选择问题,给出了多周期预测的过程细节和注意事项。上述讨论对后续预测建模和理论解释都是有帮助的。最后,正如Kilian等[1]所强调的,某一种原油价格对象难以满足所有的研究目标,应该根据不同的研究目标选择合适的预测对象;如果实证结果对不同的原油价格对象都是一致或相似的,那么,研究结论也会更加稳健可靠。
第2 节介绍了原油价格的影响因素和预测变量。原油定价也符合普通商品的定价规律,受到市场供求的影响。在需求端,原油作为经济生产中必要的工业原材料商品,其需求与全球经济周期有紧密的联系。当经济行情好的时候,原油需求旺盛。在供应端,原油具有“石油外交”的政治属性,战争和恐怖主义等地缘政治风险对中东等地区产油国的原油生产和运输造成极大的影响。此外,原油期货市场及原油相关产品的价格信息也对原油现货价格有指导意义和预测能力。随着原油相关金融交易市场的发展和完善,原油商品表现出金融化的属性。因此,基于交易价格和交易量的技术指标和金融市场预测变量都提供了丰富的预测信息。
第3节介绍了原油价格的预测模型和方法。首先分析了样本内预测和样本外预测的联系与区别,并讨论了实时预测的问题;然后介绍了几种流行的原油价格预测基准模型,并在统计和经济意义层面分别给出了预测表现的评价标准。继续介绍了两种传统预测方法:专家调查预测和传统计量模型。进一步,回顾了结合经济理论的约束方法和组合预测方法在原油价格预测上的成功研究。最后,讨论了降维、变量选择、神经网络和其他混合模型等一系列的机器学习方法。
第4节从实践角度出发,分别讨论了政府、企业和个人投资者能够从原油价格预测中获得哪些实际的帮助。政府可以从原油价格预测中了解经济的现状和走势,制定合理的经济调控政策。相关企业可以依据原油价格预测,合理调整投融资决策以提高企业价值。投资者可以根据油价预测进行投资组合或市场择时以提高投资收益或降低投资风险。
第5节提供了3个值得进一步研究的方向。首先,在 “双碳”目标的背景下,本文推荐研究各类气候风险对原油价格长期变化的预测作用;其次,研究者可以考虑从文本、图像和音频等多源异构数据中提取油价预测信息;最后,本文提醒避免机器学习方法在原油价格预测领域的“过度”使用,要结合经济理论解释,争取打开机器学习的“黑箱”,剖析出令人信服的内在预测机理。
1 原油价格预测对象
1.1 原油基准价格
国际上公认的原油基准价格是WTI和Brent原油价格。WTI原油在美国德克萨斯州、路易斯安那州和北达科他州的油田开采提取,通过管道运输的方式将原油输送到俄克拉荷马州库欣的油库中,再进一步依靠管道或铁路将其运送到墨西哥湾沿岸地区的炼油厂,最后精炼后的原油产品运往美国及世界各地。相比之下,Brent原油主要以海运的方式进行运输,成本更低。Brent原油的产地为欧洲北海,主要通过海上石油平台的方式进行开采提取,通过浮式生产储油卸油船(Floating Production Storage and Offloading,FPSO),原油可以直接从该设备方便地卸到油轮上,从而低成本的海运至世界各地。
在原油品质方面,WTI和Brent原油都是轻质低硫的高品质原油。WTI原油的含硫量为0.24%,API3)美国石油学会(American Petroleum Institute,API)。API度表示石油的密度,即轻质度。石油的API度越高,意味着其密度越低,越轻质,即品质越高轻质度为39.6,而Brent 原油的含硫量为0.37%,API轻质度为38。因此,WTI原油的品质略高于Brent原油,这也基本反映在这两种原油的早期定价中。由图1可以发现,在2011年之前,更高品质的WTI原油价格略高于Brent原油。但是,2011年之后出现了反转的价格关系,即Brent原油价格略高于WTI原油。具体原因是:①北海Brent原油逐渐枯竭,出现供应不足的局面;②金融危机之后,全球经济开始复苏,全球原油需求增加,而相比之下,Brent原油以亚欧等美国以外地区原油需求驱动为主,WTI原油则以美国国内原油需求驱动为主;③随着21世纪初美国页岩油革命的成功,美国国内的油气产量大幅提高。
在影响因素方面,Brent原油价格在需求端受以欧洲和亚洲为主的全球石油需求影响,在供应端主要依赖于石油输出国组织(OPEC)的原油产量变化。因此,Brent原油价格的主要影响因素是亚欧国家的经济行情和中东地区等产油国的地缘政治风险。相比之下,WTI原油价格的主要驱动因素是美国国内的原油产量与需求。因此,库欣地区的原油库存量会对WTI原油价格造成直接影响。当然,WTI也是全球重要的原油价格基准,其价格在一定程度上受到全球原油供需的影响。
在交易方面,WTI原油的期货合约在纽约商品期货交易所(NYMEX)交易,Brent原油期货合约在伦敦国际石油交易所(ICE)交易。WTI原油期货凭借其报价透明和高流动性的优势以及美国超级原油买家的地位和纽交所的世界影响力,在全球商品期货的成交量方面占据龙头地位。但是,全球约2/3的原油交易量是以Brent原油作为基准进行定价的。表1总结了上述对WTI和Brent原油的对比情况。
表1 WTI原油和Brent原油对比
与Brent原油相比,原油价格预测的研究更加偏爱WTI原油。此外,美国炼油商进口原油的购置成本(U.S.Refiner’s Acquisition Cost for Imported Crude Oil,以下简称RAC)也是文献中经常考虑的原油价格[2-6]。相比于同为美国的WTI原油,RAC通常被认为是更好地反映全球行情的原油价格代理[2,7-9]。但是,RAC 存在两个缺点:一是价格数据公布有延迟,通常延迟3个月左右;二是存在数据修正问题,和CPI等经济数据类似,会在首次公布后,对RAC价格数据进行调整修正。
在亚洲的原油交易市场,阿联酋迪拜商品交易所(DME)的阿曼原油和新加坡国际金融交易所(SIMEX)的迪拜原油也是国际上较为公认的原油价格基准,具有较为广泛的影响力。特别地,阿曼原油期货合约具有目前国际上最大的原油实物交割量。但是,这些亚洲原油期货的国际地位正受到挑战。
2018年3月26日,以人民币计价的原油期货在上海国际能源交易中心(INE)挂牌交易,交易代码为SC。SC 期货合约的交割标的为中质含硫原油,含硫量为1.5%,API轻质度为32。在原油品质上,SC原油期货是对WTI和Brent轻质原油期货的补充。彭博新闻社专门发布了题为“中国即将撼动石油期货市场(China Is About to Shake Up the Oil Futures Market)”的新闻报道,认为以人民币计价的中国原油期货将对以美元计价的原油定价体系发起挑战。在上市交易百日之内,SC原油期货交易量迅速攀升,日均成交量很快超过了迪拜原油期货合约和阿曼原油期货合约,成为仅次于WTI与Brent原油期货的全球第三大原油期货合约。Wei等[10]研究了上海SC原油期货、纽约WTI期货和伦敦Brent期货之间的动态关系,发现三者之间的价格收益率和波动率均存在显著的溢出效应和很强的联动关系,SC期货价格在其中扮演了重要的信息传递和接收作用。基于上海SC 期货的成功上市与积极作用,越来越多的学者开始研究其价格收益率[11-12]和波动率[13-16]的可预测性。
1.2 名义价格还是实际价格?
预测原油的名义价格还是实际价格? 在回答这个重要问题之前,先给出名义价格和实际价格之间的转换公式:
由式 (1)和式(2)可以得出:当原油名义价格的未来走势不可预测时,如果CPI的变化是可预测的,则原油实际价格的变化是可预测的,但其可预测性仅仅来源于通货膨胀率的可预测性;反之,当原油实际价格不可预测时,名义价格可能因通货膨胀率的可预测性而变得可预测。特别地,经典的经济理论告诉我们:通货膨胀可以影响商品(包括原油)的名义价格,但不能影响实际价格。因此,通货膨胀的相关因素在理论上可以预测原油的名义价格。Gillman等[17]和Alquist等[7]通过格兰杰因果检验给出了相关实证证据,发现通货膨胀率和货币供应量都领先于原油名义价格的变化。反之,许多学术研究也经常论证原油名义价格上升是否加剧了通货膨胀[18-19]。在现实中,该问题被多次经济危机所证实:高油价引发高通胀,造成需求下降,从而引发经济危机。
不同于原油的名义价格,其实际价格在经济理论上应该受实际经济情况的影响,例如实际利率和实际GDP等。换言之,货币增发如果不能刺激真实经济,只会造成原油名义价格的上升;只有实际经济状况好转,需求增加,才能提高原油的实际价格。Alquist等[7]给出了对应的综合实证结果,他们发现,芝加哥联储全国经济活动指数(Chicago Fed National Activity Index,CFNAI)、工业生产指数和Kilian[20]的全球真实经济活力指数4)该指数的构造在学术界存在一定的争议都是能够提前捕捉原油实际价格变化的预测变量。反之,原油的实际价格也经常被视为真实经济状态的代理指标和驱动因素[21-25]。
原油价格是宏观经济状态的内生变量还是外生变量? 长期以来,这是一个比较有争议的话题。基于上述分析,本文认为原油价格是内生的5)原油价格内生性的特殊情况讨论见1.5节,其价格变化是受经济活力或经济周期所驱动的。具体而言,宏观货币政策和通货膨胀水平会影响原油的名义价格;而真实的经济活力与需求会影响原油的实际价格。由于原油实际价格更加适合经济理论建模,越来越多的研究开始关注实际价格的预测问题。但是预测名义价格和实际价格的相关学术论文在数量上是接近的。这是因为原油名义价格不仅是政府实施宏观调控政策的依据6)当然,政府监管部门也关心原油的实际价格。实际价格与真实经济情况联系更加紧密,还是原油消费者在货币幻觉下的关注重点,也是相关企业财政预算和管理决策的依据。
1.3 价格还是收益率?
本文讨论的原油价格预测是一个广义笼统的概念,既包括价格预测,又包括收益率预测。那么,应该预测原油的价格还是收益率? 如果没有任何限制条件,这个问题的答案很简单:预测价格或收益率都可以。因为预测未来的价格(或收益率)可以轻松地通过价格和收益率之间的计算公式转换成未来的收益率(或价格)。
首先,价格预测在技术上存在一些局限性。如果使用传统的计量模型进行原油价格预测,时间序列的平稳性是必要的前提条件。但是,以图1的原油价格序列为例(1986~2022),无论是WTI还是Brent原油价格,其实际价格和名义价格,或是原始价格和对数价格,都不能通过单位根检验。因此,预测原油价格的对数差分(即收益率)是一个更好的选择。但是,在学术研究中,直接对原油价格或对数价格进行预测或建模也是较为常见的[2,9,20,26-30]。其可能的原因是,部分研究的原油价格序列在对应的样本时间范围内是平稳的。例如,图1的原油价格序列在1986~2003年的时间范围内是平稳的。此外,在一些研究中,原油价格与其他变量的时间序列存在协整关系。再或者,序列的非平稳性是时间趋势造成的,引入时间趋势变量就可以解决该问题。最后,有些预测方法不受平稳性的限制,例如基于原油期货价格的现货价格预测模型、专家调查预测和部分机器学习方法等(详见第3节)。但是,一般而言,平稳的时间序列更有利于预测建模,因为其本身存在一定的分布规律,时序的前后具有较为稳定的自相关性。而非平稳序列过于杂乱无章,例如随机游走序列完全无规律可循,从而难以预测。
其次,基于不同的预测目标,应当对原油价格和收益率进行有选择的预测。原油是一种能源商品,其价格受经济活力的影响,也会对经济行情产生影响。因此,央行等政府部门在实施宏观调控政策时,航空公司和汽车生产厂商等原油价格敏感企业在做成本预算和管理决策时,都更加关注的是原油价格而非收益率。此外,原油也是金融交易市场的交易品种。在以投资决策为目标时,原油价格收益率,特别是普通超额收益率而非对数超额收益率7)需要注意的是,原油期货的超额收益率在计算时无需再减去无风险收益率。因为原油期货的收益包含保证金和抵押物的收益,而这个收益通常被视为无风险收益,是投资者更加关心的预测对象。
虽然价格预测和收益率预测之间可以相互转换,但是在根据研究目标确定预测对象后,应该直接对关心的对象进行预测评价和检验。因为价格和收益率预测在转换前后可能得到不一致的评价结果。具体而言,在经济层面,应该直接对价格(而非收益率)预测值的准确性进行评价;而在金融层面,应该直接对收益率(而非价格)预测值的准确性进行评价。相关评价方法见3.2节。
1.4 平均价还是收盘价?
在金融预测领域,资产价格数据一般是基于收盘价。但在能源经济领域,原油的平均价是研究人员更关心的对象。对应的解释和上一节的话题是类似的。在金融层面,投资者关心的是资产的收益率,因此,需要用收盘价来计算收益。为了实现投资目的,应该使用原油期货价格而非原油现货价格。因为在实际投资方面,期货比现货的可操作性更强,更加灵活。特别地,由于保证金制度,期货投资杠杆显著高于股票等其他普通金融资产。Zhang等[4]考虑了期货投资的杠杆问题,并给出了改进后的最优投资组合构建方法和对应的评价标准。在经济层面,监管部门、消费者和相关企业关心的是原油在一段周期内的平均价格,因为平均价格更加能够反映这一周期内的经济状况、购买成本和生产利润等。这与CPI和GDP等经济指标的构建思想是一致的。
在统计性质方面,平均价和收盘价的时间序列呈现出一些有趣且值得考虑的差异。Working[31]指出,相比于周期末尾的收盘价,周期内平均价的一阶差分表现出更低的方差和更高的自相关性。Schwert[32]进一步指出,相比于收盘价,周期内平均价的差分序列与其他变量的协方差表现出向下的偏误。这些统计推断也得到了股票市场[32-34]和原油市场[35]的实证结果支持。特别地,Conlon等[35]强调,在现有文献中,大部分变量和模型对原油价格的预测能力依赖于数据的选取,可预测性通常只在原油平均价下有效,但在月末收盘价上几乎无效。
最后,需要提醒读者一项关于数据下载的问题。美国能源信息署(Energy Information Administration,EIA)是最权威的原油价格数据来源之一,其周期性的原油价格数据都是平均价格而非收盘价。例如,EIA 提供了WTI和Brent原油的月度期货和现货价格。所有相关的月度价格数据都是当月每天收盘价的算术平均值。如果想要得到当月的收盘价数据,需要下载对应的日度数据进行提取,或者直接从金融数据库进行月度数据下载。财经网站和金融数据库的原油月度数据大部分都是当月的收盘价格。请根据不同的研究目的,下载使用对应的原油价格数据。
1.5 样本的时间范围
在预测原油价格时,应该选择多长的样本时间范围? 由于小样本偏差的问题[36],实证研究通常倾向于选择尽可能长的时间样本。Gupta 等[37]和Salisu等[38]在研究原油价格预测时,使用了从1859年开始的跨越一个半世纪以上的原油价格数据样本。但是原油价格预测并非样本越长越好。WTI价格是实证研究中最流行的代理变量,但是WTI原油价格在1985年之前并不是由市场决定的,而是由美国政府的相关部门严格监管控制的。图4展示了1948~1985年之间的WTI价格时间序列,其中实际价格以1970年1月为基期。在图4(a)(1948~1973)中,WTI的名义价格在相当一段时期内都是恒定不变的常数8)该图中涉及的WTI价格和CPI数据来自FRED经济数据库(https://fred.stlouisfed.org/),并不能反映出该时期内真实的原油供需情况。即使在经济衰退时期,原油的名义价格也是几乎恒定不变的,这与图1形成了鲜明的对比。虽然图4(a)中的实际价格是连续变动的,但和1.2节的讨论类似,这时的实际价格变动大部分反映的是通货膨胀的变化情况而非真实原油市场的行情变化。图4(b)描绘了WTI价格在1974~1985年之间的变化情况。由图4(b)可以发现,WTI原油价格虽然还是阶梯式的变动,但变动频率越来越快。
图4 WTI原油的名义价格和实际价格(1948~1985)
接下来,对原油价格在图1和图4之间的不同变化形态给出相关解释。在1973年之前,美国国内的原油基本是自给自足的。但是在1973年后,美国的原油进口量急剧上升,不受价格管制的国外进口原油和美国国内的管制原油之间的价格偏离压力不断加大,从而驱使美国国内原油价格的调整频率不断提高。在1985年之后,WTI原油价格基本不再受美国政府的管制,可以客观反映出原油市场的供需情况和宏观经济行情。这可能是EIA 的下载数据和绝大部分相关论文的使用数据起始于1986年的主要原因。另一个值得一提的原因是,在1973~1985年期间,第四次中东战争、伊朗的伊斯兰革命和两伊战争等地缘政治事件主导了原油价格的变动。期间,OPEC成员国纷纷宣布对美国禁运并持续减产,导致原油价格飙升。两次石油危机导致全球失业率和通货膨胀率同时上升,引发了世界范围内的经济大衰退。在此期间,OPEC 对全球油价有直接的定价权和绝对的影响力。但是经济衰退伴随着原油需求的下降,OPEC慢慢陷入囚徒困境,逐渐对原油产量和定价做出让步和妥协。
把研究样本的时间范围放宽之后,重新讨论原油价格的内生性问题(之前的相关讨论见1.2节)。根据图4(a),可以发现,原油的名义价格在1973年之前应该是外生的,不会对经济行情的变化做出响应。油价的外生性在油价恒定不变的时间段内是基本成立的。Hamilton[22]和Gillman等[17]利用20世纪50年代和60年代的样本,发现通货膨胀等经济变量确实对原油名义价格没有影响。但是,在1973~1985的OPEC控制油价时期,油价变化的外生性是存在争议的。虽然OPEC 成员国的原油禁运和减产有时是基于战争等外生事件,但也常常会对美国非预期的通胀、降息和美元贬值做出减产提价的回应。因此,原油价格在1973年后表现出一定程度的内生性。Barsky等[21]给出了相关实证来支持这一结论。
最后,新冠疫情和俄乌战争等突发事件的爆发可能会造成原油价格的结构突变。但是,不同于排除原油价格管制时期的一般做法,我们总是将最新的研究样本包含进来。为了解决突发事件可能引起的结构突变问题,一方面可以通过识别结构断点,划分独立的子样本,进行分样本的样本内分析;另一方面可以运用滚动窗口、时变参数和机制转换等技术进行样本外预测研究。
1.6 预测频率与周期
第2个与时间有关的对象选择问题是原油价格的预测频率。现有文献对原油价格预测的频率一般为月度、季度和年度[5,7,39-42]。其主要原因是,大部分经济基本面的预测变量都只能在月度等低频率上获取相关数据。另外,学者们也会对更高频率的原油价格进行预测研究,如周度[40]、日度[43]以及日内高频[12,44]。现有研究认为更高频率的原油价格更加不稳定,因而更难预测[40,43]。此外,也有学者使用混合频率的数据对原油价格进行预测[3,45-47]。基于Ghysels等[48]提出的MIDAS 模型,研究发现,混合频率的数据可以提高对原油价格预测的准确度。
本文讨论的最后一个与时间有关的对象选择问题是预测周期。一部分原油价格预测文献专注于单期预测[4,39-41],另一部分则同时进行了单期和多期预测[5,7,49-50]。多期预测就是在t时刻预测未来h(h>1)期的价格或收益率。正如1.4 节的讨论,有必要对平均价和收盘价的多期预测进行区分。
如果关心的是原油收盘价,则可以直接预测第t+h期的原油价格,即Pt+h,或者预测第t+1期至t+h期的多期收益率,即rt+1:t+h=lnPt+h-lnPt,亦或预测第t+h期的单期收益率rt+h=lnPt+hlnPt+h-1。预测rt+h是间接的多期预测,因为还需要分别单独预测rt+1,rt+2,…,rt+h-1,才能真正实现多期预测的实际作用,所以预测rt+1:t+h是多期预测的直接实现。基于对数收益率的时间序列可加性,相关文献一般将该多期收益率表示为
如果关心的是原油的平均价,则可以直接预测第t+1期至t+h期的多期平均价格,即
或者预测第t+h期的单期价格,即Pt+h,亦或预测第t+1期至t+h期的多期收益率,即rt+1:t+h=lnPt+1:t+h-lnPt-h+1:t(注意,此处不是rt+1:t+h=lnPt+h-lnPt)。此时,预测Pt+h是间接的多期预测,因为还需要分别单独预测Pt+1,Pt+2,…,Pt+h-1,才能真正实现多期预测的实际作用。
最后,给出多期预测的实际操作过程。以如下最简单的一元线性回归模型为例:
首先,在第t期末,利用i=1至t-h的ri+1:i+h和xi数据回归得到系数估计值。此时,因变量和自变量所用到的最后一期数据分别为rt-h+1:t和xt-h,均不涉及第t期以后的未来信息。然后,将xt代入回归方程,可得对应的多期收益率预测值此时,注意不要将样本内拟合数据的下一期,即xt-h+1,代入回归方程,否则本质上还是单期预测。
2 油价的影响因素和预测变量
2.1 经济基本面、地缘政治风险和原油供需
原油作为一种常见的商品,其价格也是由供应和需求所决定的。如果原油供应越少(越多),需求越大(越小),则原油的价格就会越高(越低)。众多实证研究证实了该供求理论。Ye等[26]发现,原油库存量作为同时反映供给和需求的变量,可以有效预测原油价格。
在需求层面,原油作为一种重要的经济发展的工业原料,经济活力直接决定了原油的需求9)除了经济活力以外,还有其他影响原油需求与消费的因素。Considine[51]指出,气候条件会显著影响能源的需求;特别地,温暖的气候会降低取暖油的消费。在经济繁荣时期,原油需求较大,原油价格上升;而在经济衰退期,原油需求较小,原油价格下降。Kilian[20]通过航运数据构造了全球真实经济活力指数以反映原油需求,并发现该指标对原油价格有显著的影响。Kilian等[52]发现,全球经济增长可以预测原油真实价格的上升。类似地,Baumeister等[24]研究了2014年以来的原油价格下降,认为其中一部分可预测的价格下跌是由于全球经济放缓造成的原油需求下降。
在供应层面,由于“石油外交”的政治属性,地缘政治风险直接决定了原油的供应。Caldara等[30]利用新闻报纸的文本数据构建了地缘政治风险指数。Bouoiyour等[53]研究了其中两个子类指标,发现地缘政治行动比地缘政治威胁对原油价格的影响更加显著。Akram[54]发现,地缘政治的不确定性风险上升会伴随着原油价格的上升,并且该关系会在原油出口国的货币贬值时进一步加强。Su等[55]强调了原油的政治属性,发现战争会导致原油价格上升,并且原油市场与地缘政治事件是紧密联系的。Phan等[56]发现,将恐怖袭击作为变量可以预测油价,恐怖袭击对油价会产生正向影响,并且影响效应主要集中在产油国的恐怖袭击。Ozcelebi等[57]发现,巴西、俄罗斯和印度的地缘政治风险上升(或下降)会导致原油价格的上升(或下降)。此外,通过观察图1中油价和战争的联系以及1.5小节的相关讨论,可以发现,产油国(特别是中东地区)的战乱和恐怖袭击是油价变化的重要推手。
对于原油的需求和供应,哪一个因素对油价变化的影响更大? 学术界一直在尝试回答这个问题。相关研究一致认为,油价变化主要是由原油需求冲击而非供给冲击引起[20,58-59]。但是,Baumeister等[60]给出了正好完全相反的结论,认为原油供给才是油价的主导者。Kilian[61]正面反驳了该观点,给出了全新的实证以证明需求冲击确实是原油真实价格变动的主要驱动者。Herrera等[62]基于需求和供给的油价争论指出,不同识别假设和模型设定可能会导致不同结论。目前,该问题的争论还在继续。
2.2 原油期货市场及原油相关产品市场的预测信息
在期货定价中,预期理论认为期货价格是未来现货价格的无偏估计。因此,部分学者直接将原油期货价格作为未来现货价格的预测,并认为其是一个有效的预测基准[2,7,50,63]。程刚等[64]研究发现,在2004年之前,原油期货价格对到期日现货价格的预测基本都是无偏的,能够为预测提供比较有效的信息;在2004年之后,期货价格对相应到期日现货价格的预测是有偏的。Bai等[65]则检验各种预测指标对WTI原油月度价格密度预测的贡献,发现WTI原油期货价格是唯一能够在不同时间范围内都产生良好的样本外密度预测的有效变量。Chu等[66]研究发现,简单的无变化基准预测在短期(小于1年)的原油价格预测表现优于基于期货价格的预测;然而,从长期(1~5年)预测来看,基于期货价格的预测比无变化的基准预测表现得更好。
相比之下,持有成本理论认为期货价格应该等于现货价格加上持仓费用。持仓费用包括现货仓储费、运输费、保险费以及借款利息。换言之,使用期货价格作为原油价格预测时应考虑一个合理的调整项。Coppola[67]基于持有成本模型考虑期货和现货的协整关系,构建向量误差修正模型(Vector Error Correction Model,VECM)以预测原油价格,结果表明,考虑期货信息的模型在样本内外的原油价格预测都有较高的精度,其中样本外预测可以打败随机游走模型。信息逐步扩散理论则认为信息首先在期货市场上有所反应,然后逐步扩散到现货市场上。换言之,期货市场领先于现货市场,可以为现货市场的预测提供有价值的信息。相应地,学者们将原油期货价格作为预测指标对原油价格进行预测[5,49]。此外,也有学者认为相关产品价差可以为原油价格预测提供信息。Baumeister等[68]认为原油产品价差对原油价格具有预测能力,通过实证分析发现,考虑汽油和取暖油现货价差的时变参数模型是预测原油价格最准确的模型,优于无变化预测模型。总体而言,期货市场信息和相关产品价差可以为原油价格预测提供信息。
2.3 金融市场变量
原油具有金融属性,其价格与金融市场的状况紧密相关。因此,学者们考虑使用金融市场变量对原油价格进行预测。首先介绍的金融市场变量是技术指标。考虑到异质信息、异质投资者以及反应不足和反应过度等原因,Neely等[69]证明技术指标在股票市场上具有预测能力。相应地,在原油市场上,Yin等[70]直接考察了技术指标对原油价格的预测能力,实证结果表明,技术指标在统计和经济意义上对原油价格都有显著的预测能力。此外,技术指标的预测能力超过常用的宏观经济变量。Yin 等[70]认为预测能力部分来自于投资者情绪的变化,这与Neely等[69]的观点一致,表明了原油市场的金融化。随后,Liu等[71]从投资者的视角,使用技术指标对原油价格进行预测。具体而言,他们基于流行的移动平均线规则构建技术指标,结果表明,基于技术指标的组合预测优于基于宏观变量的组合预测,可以为投资者带来更高的经济收益。此外,他们还发现,技术指标和宏观经济变量之间具有互补的信息,这与Neely等[69]的发现也是一致的。最近,Wen等[72]对传统的移动平均技术指标进行了改进,实证结果表明,改进的技术指标相比于宏观经济变量和传统的技术指标预测能力更强。此外,Wen 等[41]、He等[40]和Zhang 等[39]基于技术指标分别从经济约束、扩散指数和变量选择的角度对原油价格进行预测。值得注意的是,基于技术指标对原油价格的预测大多针对于原油平均价格而非原油收盘价格。当对原油收盘价格的收益率进行预测时,技术指标往往并未显示出较好的预测能力。换言之,原油市场是弱势有效的。
另有一些研究直接使用金融市场变量对原油价格进行预测。Degiannakis等[46]将高频金融信息与石油市场基本面相结合预测原油价格,发现尽管原油市场基本面对长期预测是有用的,但是结合高频金融数据后仍可进一步提高预测精度。Zhang等[73]使用众多预测指标对原油价格波动进行预测,结果表明,股票类指标被选择使用的频率最高,能提供最多的预测信息,其中最有用的单个变量是股市隐含波动率指标。Ma等[74]也同样发现,金融类变量对原油价格波动具有较强的预测能力。总体而言,随着原油金融化程度的不断加深,金融市场变量,包括技术指标和股市变量等,都能够为原油价格预测提供有用的信息,甚至超过原油的基本面信息。
2.4 小结
从经济理论的角度看,供求关系是原油价格变化的基础。经济基本面是需求端的主要驱动因素,而地缘政治风险经常引起原油生产和运输的供应冲击。根据预期理论和持有成本理论,原油的期货价格能够为未来的原油现货价格提供有价值的预测信息。此外,基于投资者的有限关注和信息逐步扩散理论,与原油相关的其他产品或商品市场的价格信息对原油价格预测也有帮助。从金融的角度看,原油价格的可预测性探究也是对有效市场理论的一种检验。相比于经济变量,技术指标表现出更强的预测能力。随着原油金融化的不断加深,原油市场与其他金融交易市场的关系变得更加紧密,市场之间的信息溢出效应更加明显。因此,金融市场变量也表现出对原油价格的良好预测能力。相关原油价格理论的综述可参考文献[75],该文献从投机、供求关系、OPEC垄断和稀缺租金等多个视角,讨论了原油定价的经济理论基础。
3 预测方法
3.1 样本内、样本外和实时预测
现有文献对原油价格的预测可以分为样本内和样本外预测两个方面。样本内预测是指利用全部样本对模型进行拟合,然后基于模型的估计结果进行预测效果的解释,故样本内预测也通常被称为样本内估计。样本外预测是指在保证观测值时序性的前提下,将全部观测值分成两部分,前一部分用来对模型进行样本内估计,后一部分用来迭代预测和评价。在1.6节给出了样本外预测过程的例子。
大量文献表明,良好的样本内预测效果并不能保证样本外预测的准确性[76-78]。Welch 等[76]通过对文献中的众多预测指标进行实证分析,发现这些预测指标不能提供优于简单历史均值模型的样本外预测。样本内可预测性无法保证样本外可预测性的原因包括过度拟合、虚假回归和结构突变等[78]。过度拟合导致模型样本内性能较好,样本外拓展能力较差[6,79]。Hansen等[80]通过考虑一系列数据挖掘的例子,发现样本外分析比样本内分析更能解决数据挖掘导致的模型过拟合问题。Granger[81]指出,模型与数据的拟合度较高可能是虚假回归的原因,这使得模型变得不再可靠。此外,数据中结构突变的存在也导致不能进行有效的建模[5,82]。一般而言,样本内预测提供了更有效的参数估计,因此,对目标的预测会更准确;而样本外预测则隐含地对数据生成过程的稳定性进行检验,同时采用样本内和样本外预测有助于得到更可靠的结果[69]。应当注意的是,样本内可预测性是样本外可预测性的必要条件[78]。
实时预测也是原油价格预测研究中重点关注的问题。数据的滞后公布和修正是实时预测的两个重要问题。Baumeister等[50]指出,并非所有的预测数据都能实时得到,并且许多预测原油价格的指标会受到数据修正的影响。例如,RAC原油价格只有在延迟3个月左右才能获得,而用于构建原油实际价格的CPI数据只有在延迟1 个月后才能获得;并且,因统计误差等原因,这些期初公布的初始数据可能会在之后的几个月中被调整修正。Baumeister等[50]首先对这一问题进行了研究,并构建了一个用于月度原油价格预测的实时数据库,研究发现,即使在实时预测的真实预测环境下,原油价格依然具有较好的可预测性,利用实时数据的预测模型可以打败基准模型;此外,他们还发现,数据修正在一定程度上也反映了有价值的预测信息。Baumeister等[2]则基于实时数据库对原油的季度价格进行预测研究。随后,Wang等[5]和Liu等[71]也构建了实时数据库,基于改进模型对原油价格进行实时预测。最近有关原油价格预测的文献也对此问题进行了考虑[39-41]。
3.2 基准模型及预测评价
基准模型的选择对于原油价格的预测评价是非常重要的。文献中常用的原油价格预测基准包括无变化(No-change)预测[5,41,49-50]、基于期货价格的预测[2,7,50]以及历史均值预测[39-40,71-72]等。
假设原油市场是有效的,即原油价格不可预测,则随机游走模型就为原油价格提供了一个有效的预测基准。基于无漂移项的随机游走模型,未来原油价格的预测值就是当前的价格水平,即无变化预测,可以表示为
式中:Pt为第t期的原油价格;为在第t期对t+h期原油价格的预测;h为预测周期。
学者们也普遍认为,原油期货价格是预测未来原油价格的最佳指标[5,49,83]。期货市场价格发现理论中的预期理论认为,期货价格是未来现货价格的无偏估计,其预测值可以表示为
历史均值一直是股票收益率预测的基准模型[69,76-77,84],在原油价格收益率预测中也被广泛使用。历史均值预测的核心思想同样是基于有效市场和随机游走,其预测值表达式为
式中:ri为第i期的原油价格收益率;为在第t期对t+h期原油收益率的预测值。
为了比较基准模型和其他模型对于原油价格预测能力的优劣,选择合适的预测评价指标是必要的。常用的评价指标包括均方预测误差比率(Mean Square Prediction Error Ratio,MSPE Ratio)[5,7,42,49-50]、样本外R2(Out-of-sampleR2,以及成功率[5,39,49-50]等。
MSPE比率衡量了其他模型相对于基准模型均方预测误差的比例,可以表示为
式中:Pt+h为第t+h期的原油真实价格;为基准模型预测的t+h期的原油价格;为其他模型预测的t+h期的原油价格。显然,MSPE比率小于1表明,其他模型的预测结果比基准模型的预测结果更准确。
样本外R2由Campbell等[86]提出,衡量了其他模型相对于基准模型MSPE的减少程度,可以表示为
式中:rt+h为第t+h期的原油真实收益率为基准模型预测的t+h期的原油收益率为其他模型预测的t+h期的原油收益率。显然,样本外R2>0,说明其他模型相对于基准模型的MSPE较小,即预测结果更准确。样本外R2的统计显著性可以基于Clark等[87]统计值进行检验。此外,由MSPE比率和样本外R2的定义可知,如果预测对象都是收益率或价格,这两个评价指标是一致的、可相互转换的[39,88]。
在实际应用中,预测市场的涨跌走势有时比获得准确的点预测更为重要[89]。因此,检验市场走势预测精度的成功率指标被用于原油价格预测的评价,其可以表示为
式中:Dt为哑变量,当对第t期原油价格涨跌走势的预测和真实涨跌走势一致时,其值为1,否则为0;N为评价样本的长度。成功率的统计显著性可以基于Pesaran等[90]统计值进行检验。
上述3个指标评价了原油价格预测的统计精度。然而,投资者在利用原油价格预测构造投资组合时,更加关心原油价格预测能否带来经济收益。现有文献对原油价格预测经济收益的评价指标包括确定性等价收益(Certainty Equivalent Return,CER)和夏普比率(Sharpe Ratio,SR)等。CER是投资者不采用有风险投资组合时愿意接受的无风险回报率[39,69-70,86];夏普比率可以被解释为单位风险带来的投资超额收益。Yin 等[70]、Liu等[71]和Zhang等[39]的研究都使用了这两个指标对原油价格预测的经济效益进行评价。
3.3 专家调查预测
专家调查预测是利用专家的专业知识、判断、意见和直觉,分析研究并寻求原油价格的变动规律,推测未来原油价格的一种预测方法10)类似地,Anderson等[91]利用了消费者调查数据进行原油价格的预测。专家通常更熟悉原油相关的短期经济动态,以及可能的长期演变或整体经济将发生的结构性变化。长期以来,原油价格长期预测一直寻求专家的意见和建议[92-93]。提供原油价格专家调查预测的组织和机构有美国能源信息署 (Energy Information Administration,EIA)11)https://www.eia.gov/、经济学人智库(Economist Intelligence Unit,EIU)12)https://www.eiu.com/以及共识经济公司(Consensus Economics,CE)13)https://www.consensuseconomics.com/等。
相关文献将专家调查预测与其他模型进行比较,分析其预测的准确度。基于共识经济公司的原油价格预测,Reitz等[94]发现,专家调查预测与随机游走预测相比表现不理想。相似地,Alquist等[95]研究发现,专家调查预测不如无变化预测准确。Alquist等[7]则评估了不同来源的专家调查预测的表现,通过将其与无变化预测进行比较,发现专家调查预测对于原油价格预测精度的提升是有限的。Kunze等[96]从短期和长期预测的角度对专家调查预测进行评估,发现其在短期预测时不如天真的基准模型预测准确,然而,其长期的预测表现好于天真的基准预测。Figuerola-Ferretti等[97]对彭博社的原油价格专家调查预测进行了分析,结果表明,基于期货价格的预测比基于分析师的预测更准确。专家调查预测表现不佳的原因可能是因为专家并不是完全理性的[98-100]。相比之下,Zhou 等[101]发现,专家调查预测相对于定量方法的预测是一种有效的补充。Cortazar等[102]也指出,可以从众多专家预测中提取出有用的油价预测信息。总体而言,专家调查预测并没有给出令人信服的原油价格预测。
3.4 传统计量模型
传统计量模型在原油价格预测中被广泛使用。其中,有代表性的模型主要包括自回归模型(Autoregressive Model,AR)、自回归移动平均模型(Autoregressive Moving Average Model,ARMA)、自回归综合移动平均模型(Autoregressive Integrated Moving A verage Model,ARIMA)、广义自回归条件异方差模型(Generalized Autoregressive Conditional Heteroscedasticity,GARCH)、向量自回归模型(Vector Autoregressive Model,VAR)以及其他普通的线性回归模型。
AR 模型利用过去若干期原油价格数据来预测未来的原油价格。Baumeister等[50]、Alquist等[7]和Gupta等[37]在进行原油价格预测时都考虑使用AR模型,然而,得到的预测结果并不理想。ARMA模型以AR 模型与移动平均模型为基础组合构成。AR模型是一种特殊的ARMA 模型,而ARIMA 模型则是为了保证ARMA 模型中数据平稳而得到的模型。Xie等[103]利用ARIMA 模型预测WTI原油价格,发现ARIMA 表现一般。Moshiri等[104]运用ARIMA 和GARCH模型,对1983~2003 年在NYMEX 交易的原油期货价格进行建模和预测,结果表明,ARIMA 和GARCH 模型的表现不如其他被考虑的模型。虽然这些模型预测表现一般,但是它们在预测原油价格的文献中非常流行[7,50,105-107]。
由Sims[108]提出的VAR 模型是一个线性回归方程组。在VAR 模型中,特定的变量对自身的滞后项和模型中其他变量的滞后项进行回归。Alquist等[7]发现,VAR 模型能够比AR 和ARMA模型产生更准确的短期原油价格预测值。考虑到原油市场和经济活动之间的非线性关系,Gupta等[37]使用定性VAR 模型对WTI原油价格进行预测,发现定性VAR 模型的预测表现优于随机游走、AR 以及传统VAR 模型。基于预测变量构建一元线性回归模型也是一种流行的原油价格预测方法。Yin等[70]利用线性回归模型比较了经济变量和技术指标的预测能力,发现技术指标对原油价格的预测能力更强。其他预测原油价格的文献也考虑了简单的线性回归模型[4,40,49,109]。总体而言,传统计量模型无法捕捉原油市场的非线性等特征,并且其前提假设较为严格,对原油价格的预测存在一定的限制。
3.5 经济约束
在预测过程中,统计模型有时会违背经济理论。在这种情况下,对统计模型施加合理的经济理论约束能够提高预测效果。例如,在股票收益率预测时,Campbell等[86]认为理性的投资者出于卖空约束等理由会抛弃负的收益预测,因此,当收益预测为负值时,将其约束为零。同时认为预测变量回归系数的正负性应该符合理论预期,否则放弃该预测变量,直接使用基准模型进行预测。此后,Pettenuzzo等[84]在非负收益的基础上继续使用合理的夏普比率对收益预测加以约束。类似地,Zhang等[110]使用3σ准则对收益率预测的极大值进行合理约束。这些研究都发现,施加经济约束后可以进一步提高股票收益率的预测表现。
受此启发,学者们在进行原油价格的预测时也尝试考虑施加经济约束以提高预测精度。Wang等[49]在进行原油价格预测时,同时考虑了经济约束和统计约束。在经济约束方面,他们借鉴Campbell等[86]的思想,对预测指标回归系数的符号进行约束,保证模型中得到的回归系数与经济理论预期是一致的,结果表明,施加该经济约束可以提高原油价格预测的准确性。最近,Wen等[41]在使用技术指标进行原油价格预测时也考虑经济约束方法,并提高了原油价格的预测表现。其他原油价格预测的文献也考虑了经济约束的作用[39,42,111]。总体而言,施加经济约束可以使得原油价格预测更符合经济理论,进而提高原油价格的预测精度。
3.6 组合预测
金融预测研究经常存在模型不确定性的问题,导致单个模型的预测性能有限,预测精度较差。Stock等[112]和Rapach 等[77]都对这一问题进行了探究,并推荐使用组合预测方法来解决这一问题。Rapach等[77]指出,组合预测方法能够有效降低预测误差方差,进而提高预测表现。
Baumeister等[9]较早在原油价格预测的研究中考虑预测组合的作用,发现实时预测组合会比无变化预测的原油价格更加准确,如基于成功率的预测精度高达72%,因此,他们建议构建合适的组合预测以代替传统的原油价格预测方法。随后,Wang等[5]基于时变参数模型的多种组合方法对原油的实际价格进行预测,结果表明,在长达24个月的预测周期内,基于时变参数模型的预测组合方法的原油价格预测精度高于无变化预测、单个模型预测以及基于恒定系数模型的预测组合方法。这一结果的原因是不同时变参数模型预测误差之间的相关性较低。Zhang等[4]则考虑了一种新的迭代组合方法对原油价格进行预测,研究发现,迭代组合预测和传统的组合预测方法都能够提供优于基准模型的原油价格预测。相比之下,迭代组合预测的预测精度更高。组合预测方法不仅表现优异且十分稳定可靠,在原油价格预测的研究中被广泛使用[39-41,45,113-116]。总体而言,组合预测方法可以解决原油价格预测中的参数及模型不确定性问题,是一种提高原油价格预测精度的稳健方法。
3.7 机器学习
3.7.1降维方法 降维是一种处理多元信息的方法,而且可以有效防止模型过拟合等问题[5-6,40,70,72,117]。原油价格预测的文献常常会涉及几十甚至上百个变量[4,27,39,73],亟需进行降维处理。其中,常用的降维方法包括主成分分析法(Principal Component Analysis,PCA)、偏最小二乘法(Partial Least Squares,PLS)以及缩放主成分分析法(Scaled Principal Component Analysis,SPCA)等。
Yin等[70]利用PCA 方法从经济变量和技术指标中提取主成分,并对原油价格进行预测,结果表明,PCA 可以有效地从预测指标中提取信息,对原油价格的预测较为准确。相比于PCA 的无监督降维,PLS是一种有监督的降维方法。Zhang等[39]和Wen等[41]基于PLS方法对原油价格进行预测。与PLS的思想类似,Huang等[118]提出SPCA 方法也是一种有监督的降维方法。He等[40]基于技术指标,使用SPCA 方法预测原油实际价格,研究发现,SPCA 能够识别对原油价格预测能力强的技术指标,从而提升原油价格的预测效果。最近,Zhang等[6]将PCA 和组合预测方法进行结合,提出了一种新的降维组合预测方法,实证结果显示,该降维组合方法优于相关的竞争预测模型,对原油收益率的预测更加准确。总体而言,降维方法可以有效解决因变量数目多而产生的多重共线性和过度拟合问题,在原油价格预测领域取得了一定的成效。
3.7.2变量选择 变量选择是另一种适合多变量环境的预测方法,在原油价格预测中也经常被使用[6,27,39-41,72]。Lasso(Least Absolute Shrinkage and Selection Operator)[119]和弹性网[120]是常见的变量选择方法。这些方法由于在普通最小二乘的目标函数上进一步引入了L1范数的惩罚项,可以让一些相对“无用”变量的回归系数收缩为零,从而实现变量选择的功能。换言之,回归系数非零的变量就是被选择的变量。
Zhang等[39]利用变量选择模型对原油价格预测进行了一个全面的研究,发现Lasso和弹性网的预测表现优于岭回归、组合预测和主成分分析法等竞争模型,并进一步探究了原油价格预测的变量选择问题,给出了一些有意义的发现:①Lasso和弹性网并不总是选择预测能力强的变量,也会兼顾那些能够提供互补信息的变量;②变量选择呈现出有趣的动量效应;③基于每一期所选择的变量,普通的多元线性回归模型也可以表现出较好的预测能力;④模型的变量选择及预测能力与投资者情绪紧密相关。这些有价值的发现对进一步解释和理解变量选择模型的预测能力是很有帮助的。Miao等[27]考虑供给、需求、金融市场、商品市场、投机和地缘政治6个方面的预测指标,使用Lasso模型对原油价格进行预测,结果表明,Lasso模型的预测性能优于无变化预测和期货基准预测。Wen等[41]在考虑经济约束的前提下利用Lasso和弹性网等模型对原油价格进行预测研究,发现变量选择模型确实可以准确地预测原油价格,并且考虑经济约束后,它们的预测性能可以得到进一步提升。
总体而言,变量选择模型通过引入了L1范数的惩罚项,放弃了普通最小二乘法的无偏估计,通过牺牲估计的偏差来提高估计的稳定性,从而实现提高预测精度的目标。因此,和降维方法一样,变量选择模型也可以解决多变量环境下的过度拟合和多重共线性问题,在原油价格预测领域颇有建树。
3.7.3神经网络模型 真实的原油市场具有复杂的非线性、高波动性和不规则的特点[121],导致传统计量模型在进行原油价格预测时不可避免地存在一定的局限性。因此,众多学者考虑使用能够捕捉预测指标与原油价格之间非线性关系的神经网络模型对原油价格进行预测[107,122-127]。
现有文献表明,神经网络模型对原油价格预测具有优越的性能。Tang等[122]构建了一个多小波递归神经网络(Multiple Wavelet Recurrent Neural Network,MWRNN)仿真模型,并利用该模型对原油价格进行预测,然后通过结合一个反向传递神经网络(Back Propagation Neural Network,BPNN),得到原油价格的最优预测,仿真结果表明,该模型具有较高的预测精度。Xiong等[123]提出了一种基于经验模态分解(Empirical Mode Decomposition,EMD)和前馈神经网络(Feed-forward Neural Network,FNN)的修正混合模型,该模型能够捕捉原油价格的复杂动态。Godarzi等[128]研究发现,在石油价格平稳期和振荡期,带外生输入的非线性自回归神经网络模型的预测结果比线性时间序列和静态人工神经网络模型的预测结果更准确。范秋枫等[125]将模糊逻辑系统与神经网络进行结合,采用量子粒子群智能算法调整模糊神经网络系统中的参数,使用此系统对Brent原油价格进行预测,结果表明,基于量子粒子群智能算法的模糊神经网络系统对原油价格的预测精度高于BP神经网络算法和普通最小二乘法。
3.7.4其他预测方法及小结评述 除了上述用于原油价格预测的机器学习方法,学者们也探索并使用了其他可提高预测精度的方法对原油价格进行预测,例如支持向量机(Support Vector Machine,SVM)、小波分析以及众多混合方法。
李建立等[129]通过建立多因素SVM 模型对原油价格进行预测,实证结果表明,基于此模型的原油价格预测相对于误差修正模型和基于油价本身的自回归SVM 模型具有更好的预测效果。Fan 等[130]在原油价格预测中也使用了SVM 模型。Lin等[131]运用小波分析与其他模型结合,提出了一种新的原油价格预测方法,发现新模型在极端事件期间具有优越的预测能力。刘金培等[105]和Jammazi等[132]也基于小波分析预测原油价格。此外,众多混合方法也被用于原油价格的预测。Wang等[133]将复杂网络方法与人工智能算法进行混合;Chai等[134]将变点识别方法、时变转移概率马尔科夫机制转换模型、贝叶斯模型平均和时变结构时间序列模型进行混合;Abdollahi[135]将完备集合经验模态分解方法、支持向量机、粒子群优化算法和马尔科夫转换GARCH 模型进行混合;Abdollahi等[136]将自适应神经模糊推理系统、自回归分数积分移动平均以及马尔科夫转换模型进行混合;张金良等[137]将小波变换、神经网络以及GARCH 模型进行混合。其他很多文献也利用混合方法进行原油价格预测[106,138-141]。
机器学习方法通过解决原油价格预测中存在的复杂性问题,提高原油价格的预测精度。例如,降维方法和变量选择模型都可以处理多变量环境下的过度拟合问题,而神经网络方法则可以捕捉到变量之间非线性的交互信息。单个模型可能无法同时解决预测过程中的多个问题。为了综合各个模型的优点,现有文献进一步混合多种预测方法进行原油价格预测,结果显示,确实可以提高预测精度。然而,相较于单个模型,混合模型更加难以解释,其背后的经济逻辑和理论基础都不够清晰。此外,混合模型存在过多超参数调试、模型设定及多个方法排列组合等选择偏误问题,更加容易引起数据挖掘和p值操纵的实证问题,使得这些复杂模型的预测能力缺乏扩展性和可复制性。在研究这类预测方法时,需要重点关注这些问题,并予以解决14)将在5.3小节继续对该话题进行了相关讨论。
4 我们可以从油价预测中获得什么?
4.1 政府监管视角
原油是经济生产过程中最重要的工业原材料之一,因此,油价变化会影响宏观经济的运行情况。Narayan等[142]对原油价格能否预测经济增长进行探究,考虑了28个发达国家和17个发展中国家的经济增长与原油价格的关系,结果表明,名义原油价格相比于实际原油价格可以为经济增长的预测提供更多的信息。Hamilton[143]和Kilian等[144]指出,原油价格冲击是导致经济衰退的主要原因之一。其他大量文献也对原油价格和宏观经济的关系进行了论证[145-147]。
总体而言,原油价格是评估宏观经济状态及经济运行风险的重要依据。政府监管部门(如央行、财政部和工信部等)在进行宏观经济调控时,应该根据原油价格的当前水平和未来预期,实行对应的政策和措施。例如,在油价急剧上升时,经济生产的成本会升高,宏观经济会面临通货膨胀和失业率增加的风险。政府监管部门应该实行相关经济保护措施和经济刺激手段以避免发生经济衰退。此外,原油储备关乎国家能源安全问题。油价预测是国家原油储备动态调整的重要依据。
4.2 企业管理视角
原油价格变化也会影响相关企业的成本预算、投资决策和经营管理。例如,当油价下降时,OPEC希望成员国的石油开采企业通过降低原油的开采与供应来维持油价。原油价格是航空公司重要的运营成本,对其成本预算和机票定价都有重要影响。油价上升通常会提高机票的燃油附加费。此外,油价水平会影响消费者对燃油汽车和新能源汽车的购买决策,同样也会影响汽车生产厂商的研发和生产决策。随着原油的慢慢耗竭或价格上升,汽车厂商有更强的动机去研发生产新能源汽车。
在相关研究中,Driesprong等[148]发现,由于原油是大多数公司的重要投入,原油价格上涨会增加其运营成本,从而减少利润。Gupta等[149]对不同宏观经济条件下原油价格和企业风险承担之间的关系进行研究,结果表明,随着原油价格上涨,如果宏观经济条件有利(不利),企业会增加(减少)风险承担。
4.3 金融投资视角
原油及其衍生的金融产品(如期货、期权和基金15)美国石油指数基金(United States Oil Fund,USO)是全球最有名的原油价格指数交易基金等)是机构和个人投资者的重要投资对象。众多文献分析了原油价格收益率预测值的经济价值[4,6,39-41,70-72]。油价预测的经济价值检验主要分为两大类:第1类是从资产配置的角度,根据油价收益率的预测值构建基于原油期货和无风险资产(如国债)之间的投资组合,并检验其投资组合的经济效益[4,12,39,41,70,72];第2类是从市场择时的角度,根据原油预测的涨跌,买入或卖空原油产品,并检验其市场择时的投资效益[12,40-41,44]。
除了投资目标以外,油价预测还可以应用于避险。原油的多头(如原油生产厂商)和空头(如航空公司)都可以利用原油期货进行套期保值。虽然套期保值主要取决于现货和期货之间的相关性(或协方差),但是油价预测可以为是否避险提供决策依据。例如,当预测油价上升(下降)时,原油的多头(空头)方就没有必要进行套期保值的避险,而空头(多头)方则需要进行避险。这与市场择时的逻辑是相似的。
总之,政府、企业到个人投资者都很关心原油价格的预测,并从中获得帮助。政府可以从原油价格预测中了解经济的现状和走势,制定合理的经济调控政策。相关企业可以依据原油价格预测,合理调整投融资决策以提高企业价值。投资者可以根据油价预测进行投资组合或市场择时以提高投资收益或降低投资风险。因此,油价预测具有重要的现实意义。需要注意的是,对于不同领域的实际应用,需要关注不同的原油价格预测对象。
5 未来研究展望
5.1 气候风险
随着全球变暖和极端天气的频繁出现,气候风险正成为金融学的热门研究话题。金融学顶级期刊Review of Financial Studies和Journal of Financial Economics分别在2020年和2021年组织了以“气候金融”为主题的专刊16)据不完全统计,近年来,以“气候金融”和“绿色金融”等相关主题组织专刊的期刊还包括Review of Finance、Journal of Corporate Finance、Journal of Banking &Finance、Journal of Financial Stability、Ecological Economics和Finance Research Letters等。众多研究发现,气候风险可以显著影响房地产[150-151]、债券[152-153]、股票[154-156]和其他金融衍生产品[157]的定价。气候风险包括气候变化风险和应对气候变化的政策风险。在“双碳”目标下,从长期来看,化石能源的使用应是逐渐减少的,但气候风险的短期效应还不明确。目前为止,气候风险如何影响原油价格,相关文献的研究还明显不足。
但是,原油的开采、提炼和消耗都是碳排放强度高的活动。因此,气候风险对原油及其金融衍生产品的定价影响具有扎实的经济理论基础。如何从众多气候风险因素中找出对原油价格预测的有效变量是未来值得研究的方向。
5.2 多源异构数据
随着大数据技术的发展,可以在传统预测变量的基础上进一步构建新的预测指标。具体而言,可以利用网络数据采集、文本分析、图像识别和语音识别等技术获取及处理丰富的多源异构数据。目前,原油价格预测在这方面的研究还比较缺乏。Fantazzini等[158]、Han等[85]和Yao等[159]都利用网络数据进行了油价预测的指标构建。刘岭等[160]利用新闻数据构建了新闻影响力指数衰减指标来预测油价。Kertlly de Medeiros等[47]根据EIA 的原油市场报告数据,提取构建了一个文本情绪指标。
石油钻井平台、炼油厂、大型油桶、港口集装箱和海洋冰川等卫星图像数据反映了原油的供应与需求、经济活力和气候风险等信息。Mukherjee等[161]发现,投资者会根据储油罐上空的卫星图像计算石油库存量,但晴天的图像可以清晰地获得该信息,但阴天的卫星图像因云层遮挡而不能反映该信息。此外,石油行业上市公司的年报和电话视频会议数据反映了具有专业背景的管理者对于油价行情的预期和原油市场的情绪。能否从这些文本、图像和音频等多源异构数据中提取出有效的原油价格预测信息是未来值得研究的问题。
5.3 机器学习和经济理论解释
本文回顾了大量机器学习与原油价格预测的文献。这些文献发现,机器学习方法可以提升原油价格的预测表现,但没有给出预测模型成功背后的因果逻辑和经济理论基础。显然,这会造成数据挖掘和p值操纵的问题,使得实证结果不可靠,缺乏扩展性和可复制性。特别地,大量文献采用了多种统计方法和机器学习模型相互混合的形式来预测原油价格,这种混合模型对梳理经济理论解释造成较大难度。
机器学习是原油价格预测领域未来可以进一步研究的方向。但其重点是打开机器学习的“黑箱”,给出对应的经济理论解释,避免数据挖掘和p值操纵的陷阱。Chinco等[162]利用Lasso方法进行横截面股票收益率的预测研究,并证明了Lasso预测能力的经济理论解释是:那些包含基本面信息的公司股票收益率总是在新闻发布前10 min 左右被Lasso所提前捕捉到。Gu等[163]发现,回归树和神经网络模型是预测股票收益率最成功的机器学习方法,因为它们能够捕捉变量之间的交互信息,这是其成功的关键;此外,还发现,动量、流动性和波动率是所有众多变量中最成功的变量,这3类变量都是富有经济理论基础的。总之,剖析机器学习方法成功预测原油价格背后的因果逻辑和经济理论,是未来值得进一步研究的方向。