新能源汽车行业股票价格预测研究
——基于机器学习算法
2024-02-28陈梦龙吴志鹏
陈梦龙,樊 骋,吴志鹏
(合肥经济学院 金融学院,安徽 合肥 230036)
一、问题的提出
随着全球气候变化的加剧,减少碳排放已成为全球共同的责任。“双碳”目标的提出,为中国新能源汽车行业的发展提供了巨大的机遇,也带来了挑战。中国股票市场中新能源汽车行业及其相关上下游板块也因此受到了广泛的关注和追捧,成为了投资者追逐的热点板块之一。然而,新能源汽车行业的发展仍面临着多种挑战,如技术瓶颈、市场需求不足等。如何降低新能源汽车行业股票的投资风险、提高投资收益,成为了一个重要的研究课题。经验研究表明,新能源汽车行业股票价格受政策支持、技术创新、市场竞争等多种因素影响,因此,新能源汽车股票价格波动及其背后的驱动因素成为学者以及投资者关注的焦点。
最早使用机器学习方法研究股价预测问题可以追溯到White(1988)[1]使用神经网络分析IBM普通股票的日回报率的非线性规律;Kamijo和Tanigawa(1990)[2]应用循环神经网络分析东京证券交易所上市公司的股票价格涨跌的模式,获得较好的预测效果及识别效果;Saad等(1998)[3]发现时延神经网络、循环神经网络和概率神经网络都是有效的股票走势预测模型。其后,随着机器学习模型的不断开发以及股价预测方面技术分析手段的不断推陈出新,大量文献开始将二者结合,即以新的股价技术分析指标作为特征变量训练新的机器学习模型。
但目前相关文献并没有直接使用机器学习模型研究A股新能源汽车股票价格预测问题,大多数集中于将机器学习方法应用于新能源相关领域,例如清洁能源行业、光伏行业股票的价格预测,并通过模型预测误差等模型评价指标筛选出该类股票价格预测中的最优模型。Jabeur等(2021)[4]通过考察绿色能源资源、全球环境指数(ESG)和新能源股票市场,利用随机森林和LightGBM等模型,对新能源股价及石油价格崩盘期进行了探究;Sadorsky(2021)[5]使用随机森林模型及技术指标作为特征变量,分析了清洁能源交易基金的股价方向预测;Sadorsky(2022)[6]使用基于决策树的机器学习方法预测新能源股票价格的方向。相似研究还有Sadorsky(2022)[7]分析了清洁能源股票价格走向,使用了随机森林、极端随机树、随机梯度提升和支持向量机等机器学习方法,并发现这些方法的预测准确率高于传统模型机器学习方法进行美国清洁能源股票价格预测。
以上文献表明,在分析新能源及相关领域的股票市场时,使用基于树的机器学习方法预测股票价格,有更高的准确性。此外,在众多机器学习方法中,选择何种机器学习方法对于股价预测也十分重要。Nti 等(2019)[8]使用随机森林和长短期记忆循环神经网络来预测30天后的加纳证券交易所(GSE)多个领域的股票价格,结果发现这两种方法都可以高精度地预测不同领域股票价格的未来走势;Ma等(2019)[9]通过对2013年至2017年上证指数的数据进行模拟和比较,使用随机森林和LSTM神经网络构建的股票预测模型可以提高股票预测的准确性,并且可以通过该模型构建有效的交易策略;Polamuri等(2019)[10]使用美国标普500指数中公司的历史股票价格数据预测未来价格,对比多种机器学习模型发现,基于决策树和随机森林的回归模型是最好的算法;Illa等(2021)[11]使用了道-琼斯指数从2000年到2016年的历史数据,发现将随机森林与LSTM神经网络和情感分析技术结合的集成学习模型可以显著提高预测的准确性;Cosenza等(2021)[12]以全球5个地区的股市为研究对象,比较了普通最小二乘回归、随机森林和k近邻三种模型的预测效果,结果发现前两者的预测精度相近,均优于k近邻,并且变量选择对随机森林的预测性能没有影响;Yin等(2023)[13]通过分析美国4家上市公司股价,使用了随机森林模型结合指数平滑方法和决策树来优化模型,结果发现随机森林在中长期股票趋势预测中具有优势,并且该种方法可以进一步提高随机森林模型的性能。
可以看出,近年的文献在多个国家的多个股票市场的股价预测中,随机森林都获得了较高的预测精确度。同时,这些文献的常用方法都是尽可能加入足够多的特征变量让机器学习模型自行筛选,但并没有关注特征变量之间进行比较。本文在此基础之上,使用随机森林方法来研究新能源汽车行业股票价格预测问题,并与简单回归树及装袋法这两种机器学习方法进行对比。根据Basak 等(2019)[14]的对比,筛选7种最为常用的股票技术分析指标作为特征变量。通过对比特征变量重要性,筛选出对股票价格预测最为重要的特征变量。
与既有研究相比,本文重点回答以下问题:1.结合我国股票市场新能源汽车行业的特征,通过选择多种影响因素有效地整合到机器学习模型中,以提高预测结果的可靠性,同时分析影响新能源汽车行业价格变动的最重要的变量。2.基于机器学习算法的新能源汽车行业股票价格预测模型能否有效地捕捉市场中的价格波动,如何选择合适的机器学习算法以提高预测准确性。3.机器学习算法在预测新能源汽车行业股票价格过程中可能面临的过拟合、数据不平衡等问题如何解决。回答上述问题对于投资者来说具有重要的实际意义,有助于降低投资风险,提高投资收益。通过对基于机器学习算法的新能源汽车行业股票价格预测研究的深入探讨,有望为投资者提供更加有效的投资策略和决策支持,也能为中国新能源汽车行业及股市的研究提供一定启示。
二、模型说明
(一)随机森林模型
随机森林模型(Random Forest)为Ho(1995)[15]首先提出的,这是一种基于决策树的集成学习算法,能够有效地处理回归问题。它通过组合多个决策树来构建一个强大的预测模型,每个决策树都是在随机选择的样本和特征上进行训练,并用投票的方式来决定最终的预测结果。具体来说,随机森林中的每个决策树都是通过自助采样和随机特征选择来构建的。自助采样意味着从原始数据集中有放回地抽取相同大小的样本子集,用于训练每个决策树。随机特征选择则意味着在每个节点处,从所有特征中随机选择一部分特征进行分裂。假设有一个训练集,其中Xi是输入特征向量,Yi是对应的输出标签。对于回归问题,随机森林方法的思路是学习一个预测函数F(X),使得预测值F(Xi)尽可能接近真实值Yi。
随机森林算法的步骤如下:首先,对于每棵树Ti,从训练集D中有放回地随机采样n个样本,得到一个样本子集Di,然后随机选择k 个特征子集,用于训练决策树;用Di和选定的特征子集来训练一棵决策树Ti。其次,对于一个新的输入向量X,通过计算所有树的输出的平均值得到最终预测值:
其中,T是决策树的数量。为了衡量预测值与真实值之间的误差,通常采用平方误差损失函数,即;而对于回归问题:令和,则可以通过最小化加权平方误差(即残差平方和)的准则来选择最佳的划分变量j和最佳的划分点s,具体公式如下:
其中,c1与c2分别为两个区域内部的均值。最佳的划分变量j和最佳的划分点s可以通过贪心算法进行选取。而对于随机森林的预测问题,最终的预测结果是所有决策树的预测结果的平均值,即:
其中,B表示决策树的数目,fb(X)表示第b棵决策树对于输入样本X的预测。随机森林具有以下优点:第一,能够处理高维数据和大量特征,不需要进行特征选择;第二,具有较高的准确率和泛化能力;第三,能够评估特征的重要性,提供特征选择的依据。随机森林回归算法的基本思想是将数据集随机划分为多个子集,建立多棵决策树并计算每颗决策树的回归效果,最终将这些决策树的结果合并得到最终模型的预测结果。
(二)装袋法
装袋法最早由Breiman(1996)[16]提出,是一种基于集成学习的机器学习算法,其基本思想是通过对多个训练集进行随机采样,从而得到多个子训练集,然后分别对这些子训练集进行训练,最后将这些训练好的模型进行组合,得到一个更加稳定和准确的模型。
假设一个包含N个样本的训练集D,每个样本的特征向量为Xi,标签为Yi。采用装袋法训练一个大小为M的模型集合,其中每个模型用hm(X)表示。则装袋法的预测结果为:
其中,Y表示最终的预测结果。
(三)决策树
决策树是最早由Stone 和Hunt(1963)[17]提出的一种基于树结构的机器学习算法,用于解决回归问题。它的基本思想是将数据集划分为多个子集,每个子集对应一个叶子节点,并在每个叶子节点上预测一个数值。通过不断地递归划分数据集,最终得到一个树形结构,可以用于对新的数据进行回归预测。
假设有一个包含N个样本的训练集D,每个样本的特征向量为Xi,标签为Yi。使用决策树建模,得到一个树形结构,对于每个叶子节点k,它对应的预测值为ck。则决策树的预测结果为:
其中,Y表示对于输入的特征向量X的预测值,k表示叶子节点的个数,I(X∈Rk)表示X是否属于叶子节点k所对应的子集。
三、特征工程与数据来源
(一)特征工程
本文选择相对强度指标(Relative Strength Index,简称RSI)、随机震荡指标(Stochastic Oscillator,简称%K值)、威廉指标(William%R值)、移动平均线收敛/发散指标(简称MACD)、收益率指标、平衡成交量指标(On Balance Volume,简称OBV值)及换手率这7个指标作为特征值进行分析。
1.相对强度指标(RSI)
相对强度指标是一种用于衡量股票价格涨跌幅度的技术分析指标,RSI指标的取值范围为0 ∼100,通常认为当RSI值超过70时,股票处于超买状态;当RSI值低于30时,股票处于超卖状态。RSI指标可以用于股票价格的技术分析,帮助投资者判断股票的买卖时机。
2.随机震荡指标(%K)
随机震荡指标(%K)是一种用于衡量股票价格相对高低水平的技术分析指标。%K 的取值范围为0 ∼100,通常认为当%K值超过80时,股票处于超买状态;当%K值低于20时,股票处于超卖状态。随机震荡指标可以用于股票价格的技术分析,帮助投资者判断股票的买卖时机。
3.威廉指标(William %R)
威廉指标是一种技术分析工具,用于测量股票价格的超买和超卖情况。该指标的取值范围在0到-100之间,当%R指标的数值超过-20时,表示股票处于超买状态;当%R指标的数值低于-80时,表示股票处于超卖状态。
4.移动平均线收敛/发散指标(MACD)
移动平均线收敛/发散指标是一种技术分析工具,用于测量股票价格的趋势和动量。该指标的计算是基于两个移动平均线之间的差异,通常用于判断股票价格的买入和卖出时机。MACD线的数值可以是正数或负数,表示股票价格的上涨或下跌趋势。当MACD 线的数值大于0 时,表示股票价格处于上涨趋势;当MACD线的数值小于0时,表示股票价格处于下跌趋势。除了MACD线之外,还可以计算出MACD的信号线,用于判断股票价格的买入和卖出时机。MACD的信号线通常采用9天的时间周期,当MACD线向上突破信号线时,表示股票价格处于买入时机;当MACD线向下突破信号线时,表示股票价格处于卖出时机。
5.收益率(RATE)
收益率指标用于衡量价格变化的速度和幅度。
6.平衡成交量(OBV)
平衡成交量指标是一种技术分析工具,用于测量股票价格的涨跌动量。OBV指标的计算基于股票交易量的增减情况,可以用于判断股票价格的趋势和买卖时机。当OBV指标的数值持续上升时,表示股票价格处于上涨趋势;当OBV指标的数值持续下降时,表示股票价格处于下跌趋势。OBV指标也可以与股票价格进行比较,如果股票价格上涨而OBV指标下降,则可能预示着价格趋势的反转。
7.换手率
换手率是指某一特定时间段内,某个证券交易的股数与该证券流通股本的比率,通常用百分数表示。换手率越高,表示该股票的流通性越好,市场交易越活跃。换手率可以反映出市场对该股票的热度和投资者的情绪,是衡量股票市场活跃程度的重要指标。
(二)数据来源及模型预测评价指标
1.数据来源
本文选择2016年7月20日至2023年4月28日上证A股新能源汽车指数日度数据作为研究样本,新能源汽车股票数据来源于wind 数据库,特征变量数据来源于英为财情网站及手工计算,共得到1 648 个样本值。为了消除量纲不一致问题,已经对特征变量经过标准化计算。本文所有数据分析均在python3.7 中实现。
2.模型预测评价指标
本文选取袋外均方误差、测试误差及拟合优度三种方法对比衡量单棵决策树、装袋法及随机森林三种模型预测效果,袋外均方误差及测试误差值越小,说明预测效果越好;拟合优度值越大,说明预测效果越好。
四、实证分析和结果解释
(一)随机森林模型预测准确性
本文检验机器学习中的随机森林算法来构建新能源汽车行业股票价格预测模型的准确性,图1为随机森林的预测值与实际值的散点图,由图可知,散点紧密地围绕在45度线周围,表明了随机森林取得了较好的预测效果。进一步分析回归树的棵数对预测误差的影响,如图2所示,可知在150棵树之后,预测误差降到比较低的水准,并随着棵数增加保持平稳。
图1 随机森林预测值和实际值的散点图
图2 回归树棵数对预测误差的影响
(二)变量对于新能源汽车股票价格预测的重要程度
为了进一步探究新能源汽车股票价格预测的关键因素,即研究新能源股的RSI值、%K值、William%R、MACD值、价格变动率、OBV值、换手率对新能源汽车股票价格的预测何者更重要,本文进一步分析这些变量的重要性,分析结果如表1所示。将其按照重要性排序,各特征的重要性如表1,柱状图展示如图3。结果表明,最重要的三个特征为平衡成交量指标、换手率指标及移动平均线收敛/发散指标,对股票价格预测的重要性分别为0.5196、0.2105和0.1059。平衡成交量之所以在预测新能源汽车行业股票价格时最为重要,一个较为合理的解释是,新能源汽车行业需要大量资金投入研发、生产和销售,资金流向对股票价格会产生较大影响,平衡成交量指标可以反映市场资金的流入和流出情况,帮助投资者把握行业资金动向。同时,新能源汽车行业受到政策、技术和市场等多方面因素的影响,股票价格波动较大,而该指标通过分析成交量与股票价格的关系,能够反映市场活跃程度,为投资者提供有关市场趋势的信息,可以帮助投资者判断市场的买卖力量,提前发现趋势变化的信号,从而作出及时的投资决策。
图3 随机森林变量重要性图
进一步分析这三个特征变量,并绘制偏依赖程度图(Partial Dependence),用于展示特征变量与模型预测结果之间的关系。图4 从左至右分别是OBV、换手率和MACD 的偏依赖程度图。可以看出,当OBV 指标的值从较低水平开始增加时,股价预测的重要性也随之增加,这意味着在OBV指标上升的情况下,市场对于新能源汽车股价的预测变得更加可靠和重要。OBV 指标上升通常表示市场对该行业的买入兴趣增加,投资者对于新能源汽车股价的预期也随之提高。然而,当OBV 指标接近零值时,股价预测的重要性达到最低点。这表明在OBV 指标接近零值的情况下,市场对于新能源汽车股价的预测变得更加困难。因为OBV 指标接近零值时,市场处于相对平衡状态,投资者对于新能源汽车行业的未来走势持有较为谨慎的态度,导致股价预测的不确定性增加。但随着OBV的进一步增加,此特征变量对股价预测的重要性进一步增加。
图4 OBV、换手率及MACD偏依赖程度
换手率指标从0开始增加时,对股价预测的重要性也随之增加。这意味着在低换手率水平下,新能源汽车股价受到换手率的积极影响,即换手率的增加会推动股价上涨。然而,当换手率超过约400%后,偏依赖程度开始下降,这表明在高换手率水平下,换手率的增加反而对新能源汽车股价的预测产生负面影响,即换手率的进一步增加可能导致股价下跌。
MACD指标的值从较低水平开始减少时,对于新能源股价预测的重要性也随之降低。意味着在MACD指标下降的情况下,对于新能源汽车股价的预测变得不太可靠。由于投资者对于新能源汽车行业的兴趣减弱,导致股价受到较小的关注和波动。当MACD 指标接近零值时,股价预测的重要性达到最低点。随着MACD指标进一步上升,股价预测的重要性也开始增加,这意味着在MACD指标上升的情况下,市场对于新能源汽车股价的预测变得更加可靠和重要。因为MACD指标上升通常表示市场对该行业的买入兴趣增加,投资者对于新能源汽车股价的预期也随之提高。
(三)三种机器学习算法的对比分析
为了对比分析随机森林算法与其他算法之间的优劣,本文对比分析单棵决策树、装袋法与随机森林法三种方法在模型拟合优度及预测方面的表现,使用袋外均方误差用于衡量机器学习模型的泛化能力和预测准确性。具体来说,袋外均方误差越小,说明模型的泛化能力越强,对未知数据的预测准确性越高。使用测试集的拟合优度来衡量模型的拟合程度,拟合优度越接近1,说明模型的拟合程度越好,同时预测准确性越高。
本文在python的scikit-learn模块中初始化了三个模型,在单棵决策树中,使用默认参数对原数据建立了1棵树。在装袋法中建立了300棵树,并对每棵树的训练集进行了随机采样。在随机森林模型中,直接对原数据建立了300棵树且不对其剪枝。进一步对三个模型在训练集和测试集上的表现进行了评估,具体指标如表2所示。结果表明,在袋外均方误差及测试集的拟合优度方面,随机森林模型的表现最佳,显著高于单棵决策树和装袋法。该结论在图5也能得到体现,图5为单棵决策树、装袋法及随机森林三种机器学习方法的测试误差之间的对比,横轴为树的棵数,纵轴为测试误差,可以看出随机森林的测试误差与装袋法接近,且二者皆远小于单棵决策树的测试误差。在决策树的数量超过200棵之后,随机森林法的测试误差略小于装袋法。说明在设置参数时,适当提高决策树的数目可降低随机森林方法的测试误差,即提高随机森林方法对新能源汽车股票价格的预测精度。同时,测试误差是在模型训练完成后,使用独立的测试数据集来评估模型的性能。测试误差越小,说明模型的泛化能力越强。在随机森林中,测试误差通常比单一决策树和装袋法要小,因为随机森林综合了多棵决策树的结果,可以更好地避免过拟合。
表2 决策树、装袋法及随机森林三种方法预测准确度对比
图5 单棵决策树、装袋法及随机森林三种算法测试误差对比
综上所述,从袋外均方误差、拟合优度和测试误差三个指标的角度来看,随机森林优于单棵决策树和装袋法。因为随机森林综合了多棵决策树的结果,可以更好地拟合数据、避免过拟合,并且具有更好的泛化能力。
(四)随机森林模型的交叉验证误差
为了全面展示和检验随机森林模型的实际预测性能及稳健性,引入随机森林模型的交叉验证误差。该方法可以有效地评估模型的泛化能力,即其对未知数据的预测性能。图6为随机森林模型在不同最大特征数下的交叉验证误差。当最大特征数为4时,交叉验证误差达到最低点,这意味着随机森林模型在这个参数设置下表现最好,预测的准确性最高。图形先降低再上升,说明在最大特征数小于4时,增加特征数可以提高模型的预测能力,但当最大特征数超过4后,继续增加特征数反而会导致模型的预测能力下降,因为引入了过多的噪声或者不相关的信息,导致模型过拟合。对于新能源汽车股票价格预测,通过设置最大特征数为4,可以帮助提高预测模型的准确性、泛化能力和效率。这有助于提高预测结果的可靠性,并为投资者和决策者提供更准确的股票价格预测信息。
图6 随机森林模型的交叉验证误差
五、总结
随着我国提出实现“双碳”目标,大力发展新能源汽车行业已经成为国家战略,这为新能源汽车相关上市公司带来巨大发展机遇。本文使用2016年7月20日至2023年4月28日上证A股新能源汽车指数日度数据作为研究样本,采用机器学习中的随机森林模型,通过选择7个常用股票投资技术分析指标作为特征变量,预测新能源汽车行业股票价格,并对指标的特征重要性进行对比,进一步对比随机森林模型与决策树模型及装袋法的模型预测能力。
(一)研究结论
第一,随机震荡指标、换手率指标和移动平均线收敛/发散指标对于预测新能源汽车行业股票价格是最为重要的三个指标。进一步分析发现,这些指标的偏依赖程度都与其取值呈非线性关系。这些结果可以为投资者提供关于预测股票价格最为重要的信息,从而更好地指导其投资决策。
第二,随机森林模型在预测股票价格方面具有较高的准确性和可靠性。首先,在袋外预测误差、拟合优度和测试误差方面,随机森林模型都表现出了优异的性能。这些结果表明,随机森林模型可以在新能源汽车行业板块的投资决策中起到关键的作用。其次,相比于装袋法与决策树模型,随机森林模型在预测股票价格方面具有较高的准确性和可靠性。最后,对于新能源汽车股票价格预测,经过检验随机森林模型交叉验证误差,当设置最大特征数为4时,可以帮助提高预测模型的准确性。因为在针对新能源汽车行业股价预测时,选择最大特征数为4时交叉验证误差最好,且此时具有较好的模型的泛化能力。
(二)研究启示及政策建议
第一,加大新能源汽车相关上市公司的政策支持力度。随着国家对新能源汽车产业的战略支持,相关上市公司获得了巨大发展机遇。因此,国家应继续加大对新能源汽车产业的扶持力度,通过税收优惠、补贴、资金支持等多种政策手段,帮助新能源汽车企业获得发展所需的资金支持,降低企业融资和运营成本。
第二,完善新能源汽车股票市场的监管体系。本文研究发现随机森林模型可以较好地预测新能源汽车股票价格,这说明新能源汽车股票市场存在一定的规律性。为提高股票市场定价效率,防止股价过度波动,应建立健全新能源汽车股票的监管机制,避免市场操纵和内幕交易问题,维护市场秩序。加强新能源汽车行业的财政支持和税收优惠以鼓励投资,推动行业发展。
第三,加强新能源汽车股票投资决策能力建设。相关部门应加强新能源汽车领域的数据监测和模型建设工作,并向投资者广泛宣传相关投资分析方法,帮助投资者提高决策能力和水平。投资者在投资新能源汽车行业股票时,应当关注随机震荡指标和相对强度指标等重要的指标,避免过度依赖MACD指标等不重要的指标。同时应当综合考虑多种因素,避免过度依赖技术指标或者其他单一因素,从而规避风险。
第四,坚持长期新能源汽车发展战略,并加强新能源汽车行业监管,消除市场风险。新能源汽车产业仍处于发展阶段的初期,国家应采取长远和稳定的政策,为企业提供一致和可预期的发展环境,促进新能源汽车产业快速成长,助力国家实现“双碳”目标。针对新能源汽车行业股市风险,政府要加强对新能源汽车行业的监管,确保企业公开透明、诚信经营,避免不良企业的违规操作和市场扭曲,通过政策引导和财政支持,促进新能源汽车行业的发展,包括技术创新、产业升级、市场扩大等方面,从而提高新能源汽车行业的整体水平和竞争力。同时针对新能源汽车行业的上市公司,政府应积极考虑税收优惠、信贷扶持等,以鼓励更多的投资者关注并投资新能源汽车行业,推动行业的快速发展。
(三)研究局限和今后研究方向
本文对新能源汽车行业股票价格预测准确性和可靠性方面进行了研究,但存在一定的局限性:一是本文所选取的特征值仅限于七种常见股票市场投资指标,未涵盖更多可能影响股价的潜在因素,如宏观经济环境、政策法规变化等。二是本文所采用的随机森林模型虽然在预测表现上优于其他机器学习方法,但在实际应用中仍存在一定的局限性,例如对超大规模数据的处理效率较低。
未来的研究方向可从以下方面展开:一是可以考虑拓展特征值的选择范围,引入更多与新能源汽车行业相关的指标,如技术创新水平、行业政策支持度等,以提高预测模型的准确性和全面性。二是可以进一步优化机器学习算法,提高其对大规模数据的处理能力和效率,以适应现实应用场景的需求,可以结合深度学习等前沿技术,构建更加复杂和精准的预测模型,为新能源汽车行业的投资决策提供更可靠的参考依据。