APP下载

基于多元回归模型分析方法的股票每股收益影响因素研究

2022-01-11曹宇轩

品牌研究 2021年20期
关键词:因变量回归系数方差

文/曹宇轩

(上海大学)

一、引言

现如今股票已经成为人们生活中的主要投资产品,其波动性大、风险高、收益高的特性使得很多人愿意花大量时间在研究股票上。而股票的波动反映的终究是发行该股票的企业的经营状况和未来增长的潜力,如何选取一支好的股票更像是如何选择一个好的上市公司。对于投资者来说,一家企业的盈利性指标往往是重点关注的对象,因此企业也更注重盈利性指标。每股收益指标是衡量一家企业盈利能力的重要指标,其影响因素众多。本文通过利用企业公开的财务报表数据进行多元回归,找出影响企业每股收益指标的重要影响因素,并最终得出结论。

二、多元回归方法

(一)多元回归原理

多元回归是研究一个因变量和多个自变量之间的关系的方法。多元回归可以反映一类因素的数量因多种因素的数量的变动而相应变动的规律,是建立多个变量之间线性或非线性数学模型数量关系式的统计方法[1]。

y是因变量,x 是自变量,A 和 B 是决定方程的系数。下标表示不同的自变量。x_1 是第一个自变量的值,x_2 是第二个自变量的值,依此类推。随着越来越多的自变量被添加,它会继续运行,直到最后一个自变量 x_n 被添加到方程中。请注意,此模型允许您根据需要添加任意数量、n、自变量和更多项。B 系数使用相同的下标,表明它们是与每个自变量相关的系数。和以前一样,A 只是一个常数,当所有自变量都为零时,它表示因变量 y 的值。

本文研究的对象为每股收益指标,一家企业的每股收益往往受到企业的经营性现金流量、在外发行股数、净利润、总资产量等指标因素的影响。那么在处理这些数据时就要关注各个因素之间的关系,特别是研究变量和其他变量之间的关系。这时就需要建立一个公式,将各个因素包括其中,以便于推测其中的变量。而这就是多元回归的任务,通过利用数学表达式描述各个变量间的相互关系。具体内容是,将需要预测的变量视为因变量,而其他影响该因素的变量视为自变量,通过各变量的值算出交叉乘积和得出预测变量。

假设Y是我们要预测或者研究的变量,X为其他影响因素变量,贝塔为影响因素的回归系数,€被称为随机误差,是包含在y里面不能被x和y的线性关系解释的随机因素。估计这些回归系数通过利用最小化残差平方和的方法:模型的求解采用最小二乘法计算,用最小二乘法做多元回归需要以下四个统计假设,即正态性、独立性、线性和同方差性[2]。

在模型做完回归后采用AIC信息准则来衡量模型拟合是否优良。AIC信息准则是鼓励利用增加自有参数的数目的方法从而提高拟合的优良性,同时尽量避免出现过度拟合的状况,通常选出AIC值最小的作为优先考虑的模型。

表1 指标基本信息

图1 残差与真实值关系图

(二)指标选择

首先确定样本空间,本研究选择的是A股市场上的互联网企业共73家。互联网企业近几年是投资者重点关注的企业,随着互联网行业的不断发展,大多数互联网企业在2010年后股票市场有了大幅的上涨。在2012年达到巅峰,随后的几年有所下降,但随着大数据分析、区块链、人工智能等词条逐渐与未来发展的话题相互联系,投资者们也就格外地关注相关的企业。

其次确定相关指标,本研究以企业的每股收益指标作为因变量,自变量的选择同样来源于财务报告指标。分析一家企业时我们通常以这家企业近几年的财报为参考来衡量这家企业的优劣性。每股收益是投资者最为关注的指标之一,每股收益反映了股票的盈利能力,是市场上衡量公司盈利能力的重要指标,每股收益是由税后利润与总股本数相比得出。影响每股收益的指标很多,其中盈利性指标影响最大,我们在盈利性指标中选取具有代表性的指标作为后续的变量。

图2 方差恒定检测

三、实验研究

(一)实验数据

首先通过Tushare数据库下载A股市场互联网企业的股票数据,筛选出需要用的指标。筛选过数据后简单地对数据进行处理,得到各指标基本的信息。

处理后得出每个指标的最小值、最大值、均值、中位数等数据,处理后的数据如下:

由上图可看出,互联网企业有以下几个特点:市盈率偏高的企业占多数,资产规模大多不高,流通股本数不高,每股收益较低,净利润率、毛利率各个企业间差别也很大而且极端值严重影响均值。

(二)实验模型的建立与分析

由上文可知,模型主要研究因变量在受到其他因素影响而相应地产生变化的规律。本文主要研究每股收益指标与其他金融指标间的变化规律,因此我们以每股收益作为因变量Y,收入同比增长作为x1,市盈率作为x2,流通股本最为x3,总资本作为x4,每股净资产作为x5,市净率作为x6,未分配利润作为x7,每股未分配利润为x8,利润同比增长为x9,毛利率为x10,净利率为x11作为自变量做多元线性回归,其中β0为线性方程的截距,βi为回归系数。模型的检验采用t检验,t检验用于比较两样本平均值之间是否具有显著性差异,t检验要求样本要符合正态分布或者近似于正太分布。通过以上信息我们建立起多元线性回归模型,再通过绘制模型散点图来检测模型的假设是否满足。

由回归结果得出残差标准差RSE为0.387,自由度为61。Multiple R-squared为相关系数的检验,越接近1则越显著,越大越好,这里表示解释每股收益的方差为0.917,剩余0.083是不能被解释的,由此可见该模型拟合程度很好、解释程度很高。Adjusted R-squared为相关系数的修正系数,该参数会设置一个惩罚项对那些增加的自变量且不改变模型效果的变量进行惩罚,它考虑了模型中变量的数目能实际地评估模型的有效性。回归结果显示Adjusted R-squared的值为0.901,与Multiple R-squared值的差距不是特别大。F-statistic表示F统计量,评估模型是否显著,p值小于0.05则表明该模型是显著的大于0.05则模型不显著[3]。

根据回归结果我们可得出一些结论。其中总资产、每股净资产、未分配利润、每股未分配利润、净利润率这几个指标的Pr值很小,说明这些自变量的回归系数的不显著概率比较小,影响因变量的概率大与因变量有线性关系。而其他指标的Pr值较大,说明不显著水平较高,影响因变量的概率小,与因变量线性关系不明显。

图表2中左图为残差分布和拟合图,主要描绘的是残差的拟合程度。

表2 Anova分析

由图可见,拟合程度较好,大多数点都出现在拟合线上个别点偏离了拟合线满足线性的假设。右图为正态Q-Q图,适用于描绘标准化残差是否符合正态分布的图,一般图中的点呈现斜率为1的直线说明服从正态分布,本实验结果接近呈现斜率为1的直线,说明服从正态分布满足正态性的假设。图表3左图是位置尺度图,若满足不变方差假设,那么在位置尺度图中,水平线周围的点应该随机分布,显然我们画出的图并没有很好地满足同方差性的假设,图中画线呈现出“上扬笑脸”的形状说明方差是在变动的,这需要我们后续对数据进行处理和筛选,需要进行F检验。右图是残差与杠杆图,该图提供的是关注单个观测点的信息用于检查数据分析项目中是否有特别极端的点,从图形可以鉴别出离群点、高杠杆值点和强影响点。

表3 多元回归结果

(三)模型检验

由上述分析我们得知,绘制出的散点图中位置尺度图Scale-Location显示出“上扬笑脸”的形状,这与我们之前的假设之一同方差性假设相违背。这时需要进行模型检验,进行F检验。F检验用于本次研究相当于假设检验,第一步需要建立假设。多元回归系数中一部分指标的Pr值过高,这类自变量与因变量的线性关系受到质疑。这些变量是收入同比增长、市盈率、流通股数、市净率、利润同比增长、毛利润率。我们假设一组变量中不含有上述变量,也就是这些变量的回归系数设为0,另一组则是包含所有变量。原假设为H0:β1=β2=β3=β6=β9=β10=0,对比的原本包括所有变量为备择假设H1:所有回归系数不为0。减少的模型为:

完整的模型为:

假设线性假设模型成立,则P值为:p= P(Fdf1 ,df2 > Fstat)。计算得 出 Fstat=1.2024,P值P(Fdf1 ,df2 > Fstat)=0.317。下面我们将原有模型和新模型进行离散分析。离散分析anova既F检验,也就是方差分析是用于两个及两个以上样本均数差别的显著性检验。通过采用R语言分析软件,我们得出以下结果:

由P值我们可看出0.88>0.05,也就是说应该服从原假设,该假设成立。

下面我们进行AIC信息准则逐步回归寻找最优的模型,通过逐步回归得出多个组合选用AIC值最小的模型为最优模型。

由回归结果得知最后一个组合AIC为-136.97为最小,自变量分别为总资产、未分配利润、每股未分配利润、净利润率、每股净资产。多元回归结果如下:

由新的结果我们可看出,筛去旧的相关性弱的自变量后剩下的新变量是总资产、未分配利润、每股未分配利润、净利润率、每股净资产。这时每个回归系数的Pr值则要较之前小很多,说明这些回归系数不显著的概率很小。相关系数R2为0.913,说明可以解释每股收益方差中91.3%解释程度依旧很高,调整的相关系数R2为0.907与多元相关系数R2差距很小。相比较之前模型的0.917之下降了0.004,从另一个角度说明了去掉的自变量对结果影响甚微,筛去的自变量与因变量线性关系很弱。我们将回归系数带入多元回归模型中,为了预测变化区间,我们将之前对数据处理时计算出的各个自变量数据的均值带入上面的多元回归模型中,由于处理的数据中存在很多影响整体波动的极值,我们在选用各个自变量数据的中位数带入上面的多元回归模型中,得出的值分别为0.3637和0.4701,对比之前我们对数据处理中算出的每股收益平均值0.37,可以发现两者差别甚微,说明该模型回归结果可以作为预测每股收益的结果。在预测区间为95%内时的预测变化区间为:

根据得出来的结论发现总资产、未分配利润、每股未分配利润、净利润、每股净资产这些指标对股票每股收益指标影响较大线性关系较为显著。

四、结语

本文选取了A股市场上所有互联网企业作为研究对象,以企业每股收益作为预测变量将总资产、未分配利润、每股未分配利润、净利润、每股净资产等指标作为输入变量进行回归,发现企业每股收益指标受到以上指标的影响。其中总资产、每股未分配利润、净利润和每股净资产指标与每股收益成正相关关系,未分配利润与每股收益成负相关关系。可见在投资者以企业每股收益为指标进行投资时,可以适当同时关注企业总资产、未分配利润、净利润和每股净资产等指标,这些指标能更好地帮助投资者进行投资选择。

基于以上研究可以发现,在互联网行业里各家企业各指标差别很大,无论是资产规模还是收入利润,并且互联网企业自身每年波动也很大,前一年的营收在下一年无法复制。

这就使得过大的差别产生出很多极端值,导致我们在散点图分析中出现无法满足方差协同性的假设,即使在后续自变量的调整中仍然存在该问题。一个明显的例子就是在分析中我们对净利润率进行回归,由于暴风集团和乐视网这两个企业的存在,产生出很多影响整体波动的极值。这也提醒投资者们在进行投资时不要局限于一两个指标的判断。

猜你喜欢

因变量回归系数方差
调整有限因变量混合模型在药物经济学健康效用量表映射中的运用
基于生产函数模型的地区经济发展影响因素分析
方差生活秀
电导法协同Logistic方程进行6种苹果砧木抗寒性的比较
电导法协同Logistic方程进行6种苹果砧木抗寒性的比较
偏最小二乘回归方法
谈谈如何讲解多元复合函数的求导法则
精心设计课堂 走进学生胸膛
揭秘平均数和方差的变化规律
方差越小越好?