基于VMD与改进麻雀算法优化LSSVM的多晶硅生产能耗预测∗

2022-08-02赵铁成谢丽蓉范协诚王智勇邓佑刚叶金鑫

新疆大学学报(自然科学版)（中英文） 2022年4期

赵铁成，谢丽蓉†，范协诚，王智勇，邓佑刚，李朋，叶金鑫

(1.新疆大学电气工程学院，新疆乌鲁木齐 830017；2.新特能源股份有限公司，新疆乌鲁木齐 830011；3.新疆燚加华工业科技有限公司，新疆乌鲁木齐 830018)

0 引言

多晶硅是光伏产业设备生产的主要原材料，其需求增长迅速，年增长率约为31.2%.多晶硅还原生产是生产多晶硅的关键过程，生产工艺总电耗的60%用于多晶硅还原生产，约占综合生产成本的30%[1].采取一定的措施来减少还原生产的能耗已经成为各多晶硅企业关注的热点问题.生产过程主要能耗是还原炉内硅棒表面高温所需的电耗，多晶硅的还原生产是一个随机、动态、复杂的过程.所需能耗时刻变化，在生产过程中很难确定下一时刻的能耗情况，这种复杂的生产过程给工艺人员的可控管理带来了极大的困难[2].因此，对还原炉沉积生产过程的能耗展开了研究并对其生产过程中的下一时段的能耗进行预测，明确下一时段的能耗情况，以降低还原沉积过程能耗把控的不确定性，提高工艺人员对还原炉操作的可靠性、合理性.

关于多晶硅生产过程中还原炉能耗的研究目前大多从技术上提高工艺水平，改进设备，并进行模拟仿真.Nie等[3]采用数值模拟方法研究反应堆焦耳加热过程的热能消耗分析，对降低多晶硅生产还原过程中的能耗具有重要的参考意义.沈琛[4]通过利用Aspen Plus过程仿真软件对现有的再生气体回收工艺和节能优化过程进行了模拟和能耗对比分析，从而降低了能耗.刘继三等[5]提出“Aspen Plus模拟方案”，在传统技术中优化蒸汽消费、水循环和能源消费，大大降低了能源消耗的成本.韩金豆等[6]利用三氯硅烷蒸馏和热泵整流技术中的差分热整合技术减少加热和冷却能耗约50%.杨金祥[7]、方文宝[8]、夏小霞[9]等探究了多晶硅还原炉中温度对凝固速率、硅棒直流加热模型和三氯氢硅氢还原过程的影响，对降低多晶硅生产还原过程中的能耗有一定指导意义.郭久俊[10]针对还原过程中能耗的复杂影响因素的问题，提出了一种基于LSTM-Adaboost递归神经网络多晶硅生产制造工艺的能耗预测模型，以实现能耗预测.尽管在多晶硅生产制造过程中关于节能优化的研究获得了一些成果，但多晶硅生产过程的能耗预测研究仍相对较少、且预测精度低.

针对以上问题，本文提出了基于VMD与改进麻雀算法优化LSSVM的多晶硅生产能耗预测方法.从主成分分析算法（Principal Component Analysis,PCA）对多晶硅还原生产能耗影响因素降维入手，依次介绍了能耗序列的VMD序列分解方法、麻雀搜索算法原理及改进后自适应麻雀搜索算法（Adaptive Sparrow Search Algorithm,ASSA）；自适应麻雀搜索算法优化LSSVM，寻找最优惩罚系数与核函数，提高其泛化能力.通过实验仿真分析得出所提组合预测模型可大大提高能耗预测的准确性.

1 基于PCA的多晶硅还原生产能耗影响因素降维

1.1 PCA算法原理

多晶硅还原生产能耗受多种因素影响，机理复杂、耦合性强.若把所有参数直接输入到预测模型中，会导致模型执行效率低.因此，有必要消除多晶硅生产过程所有参数数据间多重共线性.本文采用主成分分析算法[11]（PCA）对多晶硅还原生产能耗影响因素降维处理，PCA算法原理如下：

（1）构成变量采样的原始数据矩阵xn×p：

式中：n为样本数；p为样本中指标的数量.

（2）对矩阵xn×p标准正态分布化处理得到标准化矩阵R，且对其求解相关系数矩阵R.相关系数的计算公式如下：

式中：rij为xmi与xmj之间的相关系数，且rij=rji.

（3）建立关系矩阵R，计算R的特征值及特征向量，由其特征值确定最小变量数量m.

式中：取η=0.85；既用m维的特征向量代表原始训练数据基本特征.

1.2 PCA多晶硅还原生产能耗影响因素降维

选取多晶硅公司实际生产数据，包括H2（氢气）流量、TCS（三氯氢硅）流量、尾气温度、尾气压力、混合气温度、相电流和相电压等共24组数据.通过主成分分析算法确定所需的最小变量数量，实现多晶硅还原生产能耗影响因素降维.利用公式(1)∼(3)，求出协方差矩阵的特征根及贡献率，根据累计贡献率提取主成分，计算结果如表1所示，各主成分分量的贡献率如图1所示.

表1 特征值及贡献率

由表1可知，通过主成分分析计算结果得出结论：当m=4时，主成分累计贡献率为85.14%，由公式（4）主成分累计贡献率η≥85%，即W1∼W4主成分可抓住数据主要信息.由图1可知，各主成分分量的方差贡献率快速下降，从W5开始方差贡献率较低，对整个数据信息的影响很小，即W1∼W4可有效包含原有生产数据的绝大部分信息，极大提升预测模型的执行效率.

2 构建VMD-ASSA-LSSVM多晶硅还原生产能耗预测模型

2.1 变分模态分解原理

变分模态分解（Variational Mode Decomposition,VMD）是采用原始信号的非递归处理[12−13].利用交替方向乘子法更新模块功能及其中心频率，调整相应的基频带[14]，最大限度地减少带宽估计.具体构造步骤如下：

（1）通过希尔伯特（Hilbert）变换计算每个模态函数uk(t)解析信号，将中心频率ωk的相应指数项混叠，以获得每个模态的频谱.

式中：δ(t)是狄拉克函数；∗表示卷积运算；表示中心频率复平面向量描述.

（2）通过高斯平滑原理，对uk(t)信号带宽解调.

式中：{uk}={u1,u2,···,uk}为K个模态分量IMF；{ωk}={ω1,ω2,···,ωk}为各IMF的中心频率.

（3）引入二次惩罚系数α和拉格朗日乘数λ，将约束性变分问题转换为无约束变分问题.

（4）利用交替方向乘子法更新uk,ωk,λ并求取上述拉格朗日函数的鞍点.

2.2 改进麻雀搜索算法

2.2.1 麻雀搜索算法

麻雀搜索算法[15]（Sparrow Search Algorithm,SSA）是一种新型智能优化算法，主要模拟麻雀群的觅食和防止被捕食过程，由发现者、跟随者、预警者组成麻雀群觅食模型.在觅食过程中，发现最佳食物的个体为发现者，其余为追随者，并选取一定比例的个体进行预警.具体的搜索过程如下：

（1）发现者位置迭代更新数学表达式如下：

式中：t为迭代的数量，W为迭代次数最大阈值，为第t代的第i个麻雀的位置在第d维，α∈(0,1].预警值r∈[0,1]，安全值β∈[0.5,1]，q是服从正态分布的随机数，l是元素全部为1的矩阵.当r<β时，表明附近没有捕食者，发现者进行范围性搜索.当r≥β时，表明发现捕食者并向种群发出警告，麻雀种群要立即飞往安全的地方觅食.

（2）追随者位置迭代更新数学表达式如下：

（3）预警者意识到危险时，进行反捕食行为，其数学表达式如下：

2.2.2 改进麻雀搜索算法

麻雀搜索算法可用于不同领域解决优化问题.麻雀在解空间中的位置是随机分布的，当前个体周围没有相邻的麻雀时，执行随机行走策略.这种模式在有限的迭代次数下减缓了收敛趋势，降低了收敛精度.本文提出适应性学习解决该问题，改进过程如下：

（1）麻雀的安全系数变化率：

式中：µ为极小常数；为目标函数值；为最佳适应值.

（3）麻雀种群中发现者、追随者、预警者的自适应位置迭代更新：

发现者自适应位置迭代更新：

追随者自适应位置迭代更新：

预警者自适应位置迭代更新：

2.3 最小二乘支持向量机

LSSVM是对SVM的改进和扩展，将低维空间中的线性不可分问题转化到高维空间中去解决，避免了二次规划问题[16−18]，将最优化问题的求解转化为求解线性方程，降低算法的复杂度，同时提升收敛的精度[19−20].LSSVM的回归过程如下：

（1）LSSVM的回归模型：

式中：ω为特征空间中的权系数向量；ϕ(x)为把x映射到高维特征空间的非线性映射函数；b∈R为偏差.

（2）利用结构风险最小化准则[21]，式(18)对应的LSSVM优化问题可以转变成式(19)，为解决带约束问题，引入αi构建Lagrange函数：

式中：ei为误差变量；ξ为惩罚系数；αi为Lagrange乘法算子.

（3）通过KKT条件求解，并最终得到回归函数[22]为：

式中：K(xi,xj)为核函数；σ为核函数宽度.自适应麻雀算法对LSSVM中的可调参数ξ和σ寻优.

2.4 预测模型的建立

自适应麻雀算法优化最小二乘支持向量机的流程如图2所示，其具体运行步骤如下所示：

步骤1：设置ASSA算法参数：麻雀的种群规模为20、最大迭代次数为50、学习率控制参数为ρ.

式中：f(x)为目标函数；n为样本数；yi为真实观测值；为预测值.

步骤3：根据公式(15)、(16)、(17)更新麻雀种群中发现者、追随者、预警者的位置，根据公式(17)判断麻雀是否进行反捕食行为.

步骤4：更新个体最优解Pbest和全局最优解Gbest，检查是否满足寻优停止条件的预设最大迭代次数.若满足则结束寻优，输出ASSA寻找的全局最优值.否则转至步骤2继续寻优.

步骤5：将ASSA寻找的最优惩罚系数ξ和核函数宽度σ值赋值给LSSVM，建立最优的LSSVM预测模型.

本文最大迭代次数设置为50次，为了提高实验结果的可靠性，算法独立运行30次，取30次的平均值作为最终展示结果，适应度函数平均收敛曲线如图3所示.

由图3可知，ASSA算法平均在第20次迭代之后就找到了全局最优值，并将最优参数赋予LSSVM，构成最优的ASSA-LSSVM多晶硅还原生产能耗预测模型.

3 VMD-ASSA-LSSVM多晶硅还原生产能耗预测模型

多晶硅还原生产能耗具有非线性、非平稳性和随机性的特点，使得多晶硅还原生产能耗预测精度低.针对该问题，本文提出VMD-ASSA-LSSVM多晶硅还原生产能耗预测模型，如图4所示.具体的多晶硅能耗预测过程如下：

步骤1：利用主成分分析方法（PCA）提取多晶硅还原生产过程的主要影响因素，实现降低影响因素数据维数，提升预测模型的执行效率.

步骤2：利用变分模态分解（VMD）将多晶硅还原生产能耗序列分解，获得K个不同尺度的本特征模态分量，为避免发生频率混叠现象，采用观察中心频率方法确定模态分量的个数.

步骤3：为解决麻雀搜索算法（SSA）当个体周围没有相邻的麻雀时，在有限的迭代次数下减缓了收敛趋势、降低了收敛精度，本文提出引入适应性学习因子解决该问题.

步骤4：为提高模型在短尺度时序的预测能力，对各模态分别建立LSSVM预测模型.利用自适应麻雀搜索算法（ASSA）对LSSVM中可调参数进行寻优，极大提升模型的预测精度.

步骤5：将各模态预测模型的预测值相叠加作为最终预测结果，得到多晶硅生产过程能耗最终预测值.

4 算例分析

4.1 多晶硅还原生产能耗原始数据VMD分解

数据来自某多晶硅公司GBAI-ICS系统平台采集多晶硅还原生产的能耗数据，实验选取多晶硅公司二分厂2018年9月1日到2018年10月20日的1 200组能耗数据，其中前1 164组数据作为训练集，后36组数据作为测试集，样本采样间隔为1 h.多晶硅还原生产能耗样本数据如图5所示.由图5可知，能耗数据具有非线性、非平稳性和随机性的特点，为解决该问题，利用VMD对能耗数据分解处理.VMD需先选定模态个数K，模态分解的次数过少时，信号中的一些重要信息被排除或者丢失.模态分解个数过多时，相邻模态分量的中心频率彼此接近，导致频率混叠.因此，采用观察中心频率方法[23−24]确定K的大小.

多晶硅还原生产能耗数据通过VMD分解可得K个IMF分量，其中心频率呈低频到高频分布，选取分量的中心频率取到最大值时的K值作为分解次数.对K从小到大取值，检验不同K值各模态对应的中心频率是否相近，判断其是否过分解.K取不同值时的中心频率如表2所示.

表2 K取不同值时的中心频率

由表2可知，当K=6时，模态分量2的中心频率为178，模态分量3的中心频率为253，模态频率相近，为避免频率混叠，本文选取K值为5，采用VMD分解结果如图6所示.

4.2 预测结果对比分析

为验证本文提出预测模型的优越性，以相同原始数据样本为基础，分别选择LSSVM、VMD-LSSVM、SSALSSVM、ASSA-LSSVM和VMD-ASSA-LSSVM预测模型进行对比分析.五种模型预测结果对比如图7所示、相对误差如图8所示，性能评价指标如表3所示.

表3 误差指标对比

通过以上实验仿真结果可以得出：对比分析LSSVM模型与VMD-LSSVM模型，采用VMD将多晶硅能耗序列分解为不同特征的模态，分别建模预测能有效改善预测精度.ASSA-LSSVM模型在SSA-LSSVM模型的基础上，引入自适应学习因子，解决SSA算法收敛速度慢、收敛精度下降的问题，提高了对LSSVM的优化效果.VMDASSA-LSSVM模型比较好地解决了对于极端时刻的预测效果不佳的问题，预测效果更优，能够更好地拟合出能耗变化趋势.

为了增加仿真结果的可靠性，本文将10次仿真评价指标数值的平均值作为预测模型的误差评判结果，如表3所示.通过对比观察，发现VMD-LSSVM模型相较LSSVM模型，误差评价指标MAPE降低了34.19%、MAE降低了25.40%、RMSE降低了24.46%；ASSALSSVM模型相较SSA-LSSVM模型，误差评价指标MA PE降低了15.72%、MAE降低了13.55%、RMSE降低了12.33%；VMD-ASSA-LSSVM模型相较ASSA-LSSV M模型，误差评价指标MAPE降低了21.52%、MAE降低了21.67%、RMSE降低了21.62%.实验结果表明：ASSA-LSSVM模型提升了LSSVM的泛化能力；VMDASSA-LSSVM模型预测精度最高.

为进一步验证VMD-ASSA-LSSVM预测模型的预测精度，与VMD-PSO-LSSVM、VMD-BSO-LSSVM以及VMD-BAS-LSSVM等预测模型进行仿真对比试验.模型预测结果对比如图9所示，预测误差评价指标对比如表4所示.

表4 误差指标对比

由图9可知，相比其它对比预测模型，VMD-ASSA-LSSVM预测模型的预测值与能耗真实值的拟合程度最高、预测效果最好.即使在能耗的峰谷点附近，本文所提预测模型也能有较好的预测精度.

由表4可知，相比VMD-PSO-LSSVM、VMD-BSO-LSSVM、VMD-BAS-LSSVM预测模型，本文所提方法的误差评价指标MAPE分别降低了35.67%、27.45%和30.23%；MAE分别降低了31.04%、27.92%和28.73%；RMSE分别降低了29.42%、26.22%和28.07%，VMD-ASSA-LSSVM预测模型的各项预测误差指标值均最小.因此，本文所提预测模型预测性能优于上述其它模型.