APP下载

基于线性回归的电力物资配套采购数量的预测分析

2019-06-11胡亚楠王铁铮蒋訢晔巩晓昕

农村经济与科技 2019年2期

胡亚楠 王铁铮 蒋訢晔 巩晓昕

[摘 要]电力物资配套采购数量预测是指,在电力物资采购中,根据已有的部分物资采购数量,预测相对应的配套物资的可能的采购数量。线性回归在预测问题中是一种常见而有效的方法。在物资采购问题中,采购数量一般具有线性关系的特点,线性模型更适合用于物资采购问题的预测。由于输入数据常常多于输入的维度数量,预测值和实际值无法完全相等,因此在线性回归中引入了损失函数的概念,通过损失函数来衡量预测值和实际值之间的差距。本文将基于传统的线性回归模型,根据历史数据进行预测,在此基础上,使用添加正则项之后的损失函数作为新的评价指标,进行预测,并与原来的预测结果相比较。

[关键词]物资配套;线性回归分析法;采购数量

[中图分类号]F274 [文献标识码]A

电力物资采购时,多种物资采购的数量可能存在着一定的相关性,例如采购水泥柱的数量与电缆的数量有较强的相关性。实际情况中,某些物资的数量可以较为准确地估计,而对于一些配套的物资,数量较难估计,而且对于不同类型的项目,采购的物资数量关系也有区别,人为较难进行估计。因此,需要一个能够根据现有的较为准确的物资采购数量来预测其他相关的物资数量的方法。线性回归、决策树回归、前馈神经网络等都可以用来进行回归分析。但在小样本的情况下,线性回归有着更好的拟合性,神经网络和决策树回归需要大量样本,不然容易出现过拟合。除了简单的线性回归外,线性回归还有其他的改进方式,岭回归是通过添加正则项的方式来改进损失函数。而通过回归分析,可以较为准确地估计配套物资,比基于经验的估计更为准确,从而减少仓储成本和采购成本。

1 线性回归

线性回归主要用于对多变量,多维度输入拟合单输出的情况。简单的线性回归的公式见公式(1)。

其中y表示估计的输出的变量、x表示输入的变量向量,w为权重向量,b为标量表示偏置。

为了衡量估计值与真实值之间的差距,需要用损失函数来对其进行衡量。假设输入的x向量有n个维度,一共有样本m个数据,则损失函数如公式(2)所示。

其中yi表示第i个样本的真实值,yi表示第i个样本根据输入、权重和偏置的值所得的估计值。公式中的中的分母中的m用来补偿样本数量带来的影响,2用来补偿求导后的系数2。

若将偏置b与x合并,则公式(1)变形为公式(3)的形式:

损失函数衡量了真实值与估值之间的差距,因此当损失函数值越小,二者差距越小,目标是求损失函数的最小值。

为了求二者之间的最小值,考虑到损失函数是关于w的二次函数,因此对损失函数进行求导,令导数等于0,即可求得最小值。

公式(5)中,若X为满秩的情况时,即m=n时,存在w使得损失函数为0,而当m>n时,一般而言,很难使得损失函数为0,除非样本中存着重复样本的情况。简单的最小二乘法的另一个缺点是,当出现多重共线性的情况时,公式(5)不稳定,甚至无法求解逆矩阵。多重共线性是指样本中,输入变量中某些参数存在着线性关系。

为了解决这一问题,可以对公式(5)进行更新,从中添加对角矩阵:

公式(7)表示的损失函数所对应的线性回归叫做岭回归,新添加的项叫做正则项,其含义为:在原有的损失函数的基础上,还需考虑各个权重的大小乘以系数λ的情况,这个系数是人为指定的,称之为超参数。一般而言,超参数的值需要人为设定,根据实验结果进行不断改进。

2 实验结果

为了方便展示回归拟合的结果,本文选择了2维输入变量和1维输出变量,输入变量表示“交流盘形悬式瓷绝缘子”和“锥形水泥杆”,输出变量为“架空绝缘导线”。本文所使用的数据为某省某电力公司的数据。

表 1所示为实验样本中的前4条样例,其中绝缘子的数量单位为个,水泥柱数量单位为个,绝缘导线的数量单位为千米。

首先使用简单的线性回归模型,对所有输入的样本进行回归分析,并将得到的结果做可视化。

图中左侧图为简单线性回归,右侧为岭回归,由于二者模型的系数差异不大,无法直观地看出差距。

为了衡量二者之间的差距,本文随机选取了样本中的6条样本作为对结果的评价,并且为了公平起见,这些样本在训练权重参数时不放入训练样本中。若放入训练样本,则无法体现模型泛化的能力。样本数据见表2。

表格4中的数据是两种模型对于測试样本的偏差比较结果,其中的数据根据表 2、表格3中的数据进行计算。偏差和偏差比率计算公式为:

从比较结果中可以明显看出,岭回归的偏差要比简单线性回归模型要好,第3条数据二者都无法正确评估可能是因为第3条数据是离群点,即异常值,因此两种模型的估计值与实际值之间的差距较大。

3 总结

电力物资采购时存在着数量上的相关关系,而线性回归是一种很好的用于拟合已知采购数量和目标数量的分析方法。本文首先介绍了简单的线性回归模型,以及其的不足,并且针对其不足之处,介绍了能够一定程度上解决不足的岭回归。本文随后采用了简单线性回归模型和岭回归模型,分别进行了采购物资数量的分析,发现岭回归相比于简单线性回归,确实能够减少测试样本的总误差。

[参考文献]

[1] (美)利昂(Leon,S.,J.)著,张文博,张丽静译.线性代数(原书第7版)[M].机械工业出版社,2008.

[2] (美)韩家炜(Han,J.)等著.数据挖掘:概念与技术(原书第3版)[M].机械工业出版社,2012.