一种基于支持向量机的软测量建模方法
2017-07-24高世伟
高世伟,赵 力
(1.兰州石化职业技术学院电子电气工程学院,甘肃 兰州 730060; 2.中国石油兰州石化公司自动化研究院,甘肃 兰州 730060)
一种基于支持向量机的软测量建模方法
高世伟1,赵 力2
(1.兰州石化职业技术学院电子电气工程学院,甘肃 兰州 730060; 2.中国石油兰州石化公司自动化研究院,甘肃 兰州 730060)
在生产过程中,在线分析仪表通常被用于对被测介质的组成或物性参数进行自动连续测量,但很多参数无法通过在线分析仪表直接测量获得。在工业现场,通常采用软测量技术来弥补在线分析仪表的不足。软测量技术也称软仪表技术,是基于推断控制理论的一门新兴工业技术。其利用易测过程变量与难以直接测量的待测过程变量之间的数学关系,通过各种计算和估计方法,实现对待测过程变量的测量。为了提高软测量模型的性能,提出一种基于支持向量机的软测量建模方法。该模型结构分为两层:一层用于分析工业数据在时间序列上的相互关系,解决时间序列的相关性问题;一层用于软测量建模和分析,解决非线性回归模型的鲁棒性。仿真结果表明,该软测量建模方法在进行在线预测时具有很好的性能,为软测量技术在工业现场的应用提供了一种方法。
软测量; 支持向量机; 闪点; 色谱模拟蒸馏; 双层模型; 在线分析仪表; 油品馏程
0 引言
在炼化生产过程中,由于技术或经济的原因,一些变量无法直接测量。但是这些变量对于保证产品质量和生产装置的平稳运行都十分重要。为解决这个问题,软测量技术应运而生,并已发展为当前过程控制领域的研究热点之一。软测量技术依据可测、易测的过程变量与难以直接检测的待测变量的数学关系,根据某种最优准则构建数学模型,实现对待测变量的预测[1-2]。支持向量机(support vector machine,SVM)是从统计学习理论发展而来的,是一种主要针对小样本数据进行学习、分类和预测的方法;具有良好的泛化能力和鲁棒性,被用来解决模式识别、回归估计等问题[3-4]。本文提出了一种基于支持向量机的软测量建模方法,可以提高模型的准确性。
1 支持向量机
支持向量机是一种基于统计学习理论的监督式学习方法[5-7]。假设有两组样本数据,训练数据x∈Rm是一个向量。分类的结果为y∈{-1,1},表示两种数据的分类结果,即将样本数据分成两类结果,类别用y来表示,1和 -1代表两个不同的类,支持向量机是一种两类分类模型。假设有n个训练数据,训练数据组为{x,y}∈Rn×m×{-1,1},i=1,2,…,n。建模的目的是用这些组数据找到数据的分类模式。假设P(x,y)为数据集的未知概率分布;f(x,a)为输入x到输出y的映射;a为一个可调节参数,代表了在假设空间中的一个特定的函数。
期望风险为:
(1)
然而,因为概率分布未知,R(a)不能准确计算,但是可以计算期望风险的边界。如果有n个被观测数据,定义经验风险为:
(2)
(3)
为了最小化经验风险函数,定义一组指示函数:
f(x,w)=sign{(w×v)}w∈Rn
(4)
式中:(w×v)为向量w和v的内积。
经验风险Remp(w)为:
(5)
如果训练集可以正确分离,意味着经验风险可为0,通过有限的步骤可以找到向量w。如果训练集不可分类,问题就变成了非确定多项式(non-deterministic polynomial,NP)完全问题。此外,因为函数的梯度或为0或不明确,所以不能采用通常的基于梯度的方法,需要用S函数近似得到:
(6)
式中:S为光滑单调函数,S(-∞)=-1,S(∞)=1。
SVM采用最优分类超平面,利用数据和超平面的最大距离分类数据。假设有训练数据:(x1,y1),(x2,y2),…,(xn,yn),x∈Rm,y∈{-1,1}。
数据有两类,一类的目标值y为-1,另一类的目标值y为1,分割的超空间定义为:
(w×x)+b=0w∈Rnb∈R
(7)
决策函数为:
f(x)=sign{(w×x)+b}
(8)
在这个模型中,w和b为变量,xi和yi为输入数据,通常可以转化为对偶问题来处理:
(9)
决策函数为:
(10)
这是有一个等式约束条件的二次规划问题,问题的解a指定了训练模式,对应a非零成分的向量w称为支持向量,它影响分类超平面的形成。
2 双层软测量建模
支持向量机在多个领域被用来解决具体的工程问题,同时,依据支持向量机的基本原理,也出现了多种用于提升支持向量机性能的方法[8-11]。这里采用一种新的基于支持向量机的两层软测量建模方法:在一层中将系统辨识理论用于分析工业数据在时间序列上的相互关系;在另一层中支持向量机用于软测量建模和分析,以提高模型的鲁棒性和范化性能。
系统辨识理论用于发现过程数据的时间相关性,前n个预报值被反馈输入,迭代模型将训练集(d为x变量的维数)映射到新的动态特征空间S中,映射表示为:
(11)
借助数理统计中的F检验法,确定模型的结构参数(n,m)。
损失函数为残差平方和:
(12)
式中:n为假定阶;n0为系统阶的真值。一般来说,当n≤n0时,随着n的增加,J(n)明显下降;当n>n0时,J(n)值变化不明显。
设n1、n2是模型的两个不同阶次,当阶次从n1增加到n2时,损失函数从J(n1)降至J(n2)。判断J(n)的变化是否显著:如果显著,说明n2比n1更接近真实阶次n0;如果不显著,则说明n1已经接近真实阶次n0。检验损失函数是否有显著差异,引入统计检验准则:
(13)
式中:N为样本长度;2n1、2n2分别为模型阶次是n1、n2时参数的数目。当n2>n1>n0时,存在充分大的N,统计量t渐近服从F(f1,f2)分布,F分布自由度f1=2(n2-n1)、f2=N-2n2。这时,确定阶的问题可以转换为假设检验问题H0:
n2>n1>n0
(14)
利用统计量F来检验H0。给定置信度α,检查Fα分布表得Fα(否定域临界值)。若F 通过F检验来确定阶次,用逐次递增阶的方法(即n1=1,2,…;n2=n1+1),每增加一阶次,就进行一次F检验,直到J(n1)与J(n2)无显著差别为止。此时n2-n1=1,从而统计量t(n1,n2)可简化为: (15) 在另一层中,支持向量回归的预测性能则用于提升软测量模型的范化性能。该方法的基本原理是动态组分值由其他参数和它们的迭代值计算获得,可用以下公式进行描述。 (16) 因此,动态系统的学习问题等同于从(l+n)个稀疏点集中估计未知的f函数。 由于油品的闪点数据与油品的馏分数据有相关性,可以采用色谱模拟蒸馏馏程的部分馏程点数据,以间接获得油品的闪点数据。在实际应用中,将包括初馏点、5%、10%点内的多个馏程点数据加入到系统模型中。依据机理分析,分别采用标准支持向量机以及本文提出的双层支持向量机建立闪点的预测模型。 在相同的测试条件下,分别利用标准法和新发法对预测航空煤油的闪点进行预测。重复性对比结果如表1所示。 表1 重复性对比结果 从表1可以看出,新方法的重复性要好于标准法。 准确性是评价方法的另一项重要指标,为此将采集的常一线航空煤油样本分别进行色谱模拟蒸馏测试与闭口杯闪点测试(试验值),计算标准法和新发法预测值和试验法的误差(计算值与试验值之差)。准确性对比结果如表2所示。 表2 准确性对比结果 从预测的误差数据看,标准法与新方法的绝对误差平均值分别为1.08 ℃和0.78 ℃,新方法计算结果准确性要优于标准法。 为了全面地评价两种计算方法的准确性,对航空煤油馏分进行了大量的闪点对比试验。分别计算标准法与试验法、新方法与试验法的差值,然后比较差值在各区间的个数。两种计算法和试验法的误差(计算值与试验法之差)统计分布如表3所示。标准法的平均绝对误差为1.55 ℃,新方法的平均绝对误差为1.33 ℃。 表3 误差统计分布 从误差统计分布的规律来看,新方法误差分布较标准法更集中,平均绝对误差较小。由于误差分布相对集中的特点,可以方便地对其计算值进行校正,因此新方法要优于标准法。 本文介绍了支持向量机的基本概念,并提出了一种基于支持向量机的软测量建模方法。该软测量模型结构分为两层:一层用于分析工业数据在时间序列上的相互关系,解决时间序列的相关性问题;另一层用于软测量建模和分析,解决非线性回归模型的鲁棒性。以航空煤油闪点为研究和应用对象,进行软测量建模预测仿真。仿真结果表明,该方法处理预测产品组分问题时具有很好的性能,这为以后软测量技术在工业现场中的应用提供了一种方法。 [1] VAPNIK V N. The nature of statistical learning theory[M].2nd edtion.New York:Springer,2000. [2] CRAMMER K,SINGER Y. On the learnability and design of output codes for multiclass problems[J]. Machine Learning,2002,47(2-3):201-233. [3] 冯凯,卢建刚,陈金水.基于最小二乘支持向量机的MIMO线性参数变化模型辨识及预测控制[J]. 化工学报,2015,66(1):197-205. [4] 王鲜芳,王岁花,杜昊泽,等.基于模糊粗糙集和支持向量机的化工过程故障诊断[J].控制与决策,2015,30(2):353-356. [5] MA J,THEILER J,PERKINS S. Accurate online support vector regression [J]. Neural Computation,2003,15(11):2683-2704. [6] CAUWENBERGHS G,POGGIO T. Incremental and decremental support vector machine learning[J]. Advances in Neural Information Processing Systems,2001,44 (13):409-415. [7] 冯昌,廖士中. 随机傅里叶特征空间中高斯核支持向量机模型选择[J].计算机研究与发展,2016,53(9):1971-1978. [8] CHENG L L,ZHANG J P,YANG J,et al. An improved hierarchical multi-class support vector machine with binary tree architecture[C]//Proceeding of International Conference on Internet Computing in Science and Engineering.Washington:IEEE Computer Society,2008,1(4):106-109. [9] LIN X,FENG Y Q,LIU X Y,et al. Robust grappa reconstruction using sparse multi-kernel learning with Least squares support vector regression[J]. Magnetic Resonance Imaging,2014,32(1):91-101. [10]WEI L W,CHEN Z Y,LI J P. Evolution strategies based adaptive LS-SVM[J]. Information Sciences,2011,181(14):3000-3016. [11]ZHAO Y P,SUN J G,DU Z H. An improved recursive reduced least squares support vector regression[J]. Neuro Computing,2012,87(1):1-9. A Soft Measurement Modeling Method Based on Support Vector Machine GAO Shiwei1,ZHAO Li2 The online analytical instruments are commonly used to automatically and continuously measure the compositions and physical properties of the measured media in the production process. However,many parameters cannot be obtained directly by on-line analytical instrument. So the soft measurement technology is often used to make up the shortages of the on-line analytical instruments in the industrial field. The soft measurement technology is also known as soft instrument technology,and it is a new industrial technology based on inference control theory. It utilizes the mathematical relationship between the easy-to-test process variables and the process variables that are difficult to be directly measured,and the measurement of the measured process variables is achieved by various computational and estimation methods. In order to improve the performance of the soft measurement model,a soft measurement modeling method is proposed based on support vector machine. The structure of the model is divided into two layers. One layer is used to analyze the interrelationship of the industrial data and solve the correlation of these data in time series; another layer is used for modeling and analyzing,and solving the robustness of nonlinear regression model. The simulation results show that the proposed soft measurement modeling method features good performance for online prediction,and it provides a method for applications of soft measuring technology in industrial field. Soft measurement; Support vector machine; Flash point; Chromatographic simulated distillation; Two-layer model; On-line analytical instrument; Oil distillation process 高世伟(1980—),男,博士,副教授,高级工程师,主要从事石油化工先进检测技术、先进控制技术的研究工作。 E-mail:gaoshiwei1980@126.com。 TH81;TP274 A 10.16086/j.cnki.issn1000-0380.201707011 修改稿收到日期:2017-03-163 煤油闪点模型建立
4 结束语
(1.College of Electric & Electronic Engineering,Lanzhou Petrochemical College of Vocational Technology,Lanzhou 730060,China; 2. Automation Institute,Lanzhou Petrochemical Company of Petro China,Lanzhou 730060,China)