一种分步约简的炼油生产敏感变量选择方法
2020-06-06李灵王雅琳孙备
李灵,王雅琳,孙备
(中南大学自动化学院,湖南长沙410083)
引 言
随着先进制造技术的发展,制造行业对生产发展由数量和规模扩张向质量、效益和环保的提升提出了更高的要求。为了能够及时有效地监测和评估过程运行状况,实现系统故障的准确诊断、产品质量的快速跟踪,需要对过程关键产品质量和与之密切相关的过程变量进行实时检测。然而受限于检测环境的恶劣性、分析仪器的高昂成本以及化验分析的滞后性,目前这些关键产品质量较难实现在线检测。为了解决上述问题,基于过程特征及过程数据的数据驱动软测量建模技术应运而生。然而由于过程可测变量数目大,若将所有过程可测变量全部看作软测量建模的辅助变量,不仅会增大模型的复杂度、降低计算速度,造成维数灾难,降低模型的稳定性和预测精度,而且会大大增加数据采集和存储的经济成本。因此,如何快速有效地选取一组最能精确描述或解释过程主导变量的辅助变量子集显得极为重要。
近年来,许多学者相继提出了一些变量选择的理论方法。根据变量搜索与评价方法的不同,Guyon等[1-2]将变量优选方法分为过滤式[3]、包裹式[4-5]和嵌入式[6-7]三种类型,其中过滤式方法因其计算速度快且不易造成过拟合得到了广泛应用。该方法以变量排序技术作选择变量的主要标准,一般采用数据本身特性或者统计规律作为分析依据。常用的分析依据有相关系数[8]、互信息[9-10]、欧氏距离[11]、贝叶斯推理[12-13]等。过滤式变量选择方法不依赖于学习算法,是通过改变数据来适应学习算法,但是该方法容易忽略变量相关性,造成所选子集可能不是最优子集。为解决过滤式变量选择方法变量冗余问题,国内外许多学者进行了相关研究。Liu等[14]基于条件相关系数提出了一种具有超高维协变量的变系数变量选择方法,然后分成降维和参数估计两个阶段来验证方法的有效性。Sun 等[15]基于信息论准则筛选辅助变量,并针对变量的冗余性提出了一种动态加权特征选择方法。Jiang 等[16]提出了一种基于粗糙集的相对决策熵模型应用于大规模数据集的变量选择。Dong 等[17]和Vohland 等[18]分别采用回归系数法和载荷系数法提取了光谱的特征波长。上述方法均可有效地解决过滤式变量选择方法容易忽略变量间相关性及冗余性问题,却不具备过程工况信息描述的能力。然而在实际工业生产过程中,受到入口原料品质波动、加工方案调整、产品规格要求变化等影响,生产工况处于波动状态,工况不同产品质量也会存在一定的差异。因此,若筛选出的辅助变量不能较好地描述工况的变化,将在一定程度上降低预测模型的精度。针对这一问题,吴佳等[19]提出了一种无监督约简的特征选择方法用于解决表征矿物浮选工况泡沫图像特征冗余性大的问题,该方法根据图像特征对工况变量的敏感程度定义了泡沫图像特征敏感性指数,然后根据敏感性指数选择敏感图像特征,最后基于粗糙集属性重要度实现属性约简,但是该方法忽略了主导变量和辅助变量间的相关性,即获取的变量子集可能并非最能描述主导变量的子集,进而影响模型的预测精度。因此,研究既能反映工况信息又能反映主导变量与辅助变量相关性的敏感变量选择方法十分重要。
综合考虑变量相关性与变量对工况变化的敏感性问题,本文提出一种分步约简的敏感变量选择方法,在明确敏感变量与关键敏感变量的基础上,根据变量对工况变化的敏感程度和辅助变量与主导变量的净相关性定义敏感性指标,实现敏感变量的初选;接着构建加权余弦马田系统以解决变量冗余性大的问题,实现敏感变量的精选;最后将方法应用于加氢裂化关键产品质量预测,利用实际工业数据验证方法的有效性。
1 问题描述
工业生产中可获取的过程数据具有多源异构和多采样的特性,本文将可获取的所有过程数据用集合P表示,pi∈P(i= 1,…,n) 表示第i种过程数据,例如压力、温度、流量等。根据前文所述,敏感变量既要能反映工况信息又要能反映主导变量与辅助变量的相关性,将主导变量[20]、辅助变量[20]和敏感变量定义如下。
定义1 主导变量:软测量建模中待估计的变量。
定义2 辅助变量:与待估计变量(即主导变量)相关的且易测量的变量。
定义3 敏感变量(sensitive variables,SV):与主导变量密切相关,且能充分表征主导变量和工况变化的变量,用集合PS表示。
在已选择的敏感变量PS中,由变量间自相关性造成的冗余使得敏感变量子集并非最小特征子集,因此还需进行敏感变量精选,挑选出冗余性较小的关键敏感变量。
定义4 关键敏感变量(key sensitive variables,KSV):与主导变量密切相关,且能充分表征主导变量和工况变化的非冗余变量,用集合PK表示。
根据定义3和定义4可知:
本文根据式(1)描述的关系进行敏感变量选择:第一步实现P→PS,初选出与主导变量密切相关,且能充分表征主导变量和工况变化的敏感变量;第二步实现PS→PK,精选出冗余性小的关键敏感变量。
2 敏感变量优选
针对敏感变量既要具备能够充分表征工况变化能力,又要具备能够充分解释主导变量能力的问题,首先根据变量对工况的描述能力和辅助变量与主导变量的净相关性定义敏感性指标,通过计算辅助变量与主导变量的偏相关系数和辅助变量的变异系数得到变量敏感值,实现敏感变量的初选;然后针对变量冗余性和传统马田系统仅关注样本距离未考虑样本方向的问题,构建加权余弦马田系统,实现敏感变量的精选,其中权重由样本马氏距离和余弦相似度的变异程度决定。
2.1 敏感性指标
为获取敏感变量,需事先进行数据预处理,包括离群点剔除和数据标准化,其中标准化公式如下:
其中,zij表示标准化后的数据值,xij表示第i个变量的第j个样本值,μi表示第i个变量的均值,si表示第i个变量的标准差。
定义5 敏感性指标(sensitivity indicator, SI):辅助变量与主导变量净相关性和辅助变量自身离散程度的乘积,即
其中,rik表示第i个辅助变量与第k个主导变量的偏相关系数,μi表示第i个变量的均值,si表示第i个变量的标准差,σi表示第i个变量的方差。偏相关系数计算过程如下。
首先利用皮尔逊相关分析法[21]计算相关系数矩阵:
标准化后的辅助变量zi和主导变量zk的偏相关系数rik为:
其中,cik为Mcc的逆矩阵Μ-1cc中元素
敏感性指数越大表明该辅助变量对主导变量的影响作用越大,对工况的变化越敏感。根据过程对象及主导变量的不同,基于过程知识对敏感性指标设定不同的阈值
其中,ξk表示针对第k个主导变量设置的敏感性指数阈值。根据式(7)可以初选出针对不同主导变量的敏感变量,但是这些敏感变量间存在一定冗余,需进一步进行属性约简。
2.2 加权余弦马田系统
马田系统(MTS)[22-23]是日本著名质量工程学家田口玄一博士在田口方法基础上提出的一种模式识别技术,该技术广泛应用于产品检测、疾病诊断、信贷审核等领域。同其他模式识别技术相比,MTS不仅原理简单、速度快,而且不依靠数据本身的分布假设。此外,MTS 还是一种有效的降维工具,它以基于马氏距离的信噪比作为类别可分性指标,采用2 水平正交表优化试验次数,根据每次试验的信噪比筛选有效特征变量,从而达到降维的目的。
2.2.1 马田系统 MTS 应用于特征筛选可分为以下三个步骤。
(1)构建马氏基准空间 马田系统最初用于正常样本和异常样本的区分,因此在构建马氏空间时,首先需要选取n个正常样本。假设样本中具有q
个初始辅助变量,则基准空间可以表示为:
其 中,oij(i= 1,2,…,n;j= 1,2,…,q)表 示 第i个正常样本第j个辅助变量的数据。
对正常样本数据进行标准化:
其 中,o͂ij(i= 1,2,…,n;j= 1,2,…,q)表 示 第i个正常样本第j个辅助变量的标准化数据。计算所有正常样本的马氏距离:
(2)验证基准空间有效性 根据构建的马氏空间,计算异常样本的马氏距离,若该马氏空间可以较好地区分正常样本和异常样本的马氏距离[24](MD),则说明构建的马氏空间是有效的。其中,异常样本数据标准化时的均值和标准差均等同于正常样本数据。一般来说,正常样本的MD在1附近波动,而异常样本的MD远大于正常样本。
(3)优化基准空间 结合正交表和信噪比(多选用望大特性信噪比)筛选有效的特征变量,优化基准空间。首先设计正交表,正交表中每行对应一个基准空间,计算在每个基准空间中异常样本的MD,按式(11)计算信噪比(望大特性信噪比):
若ΔSNj大于0,则表示该辅助变量对建模有效;若ΔSNj小于0,则表示该辅助变量对建模无效,删除该辅助变量。
2.2.2 余弦马氏距离 虽然马氏距离具有不受量纲影响、排除变量间相关性干扰的优点,但是马氏距离只能从距离的角度区分正常样本和异常样本,难以从方向上进行区分。而在一些分类问题中,样本方向上的相似度对分类结果存在较大影响。因此,为了提高马田系统的分类准确率并进一步拓展其应用范围,亟需构建一个新的度量尺度。
余弦相似度[25]是通过计算两个向量的夹角余弦值来评估样本间的相似度。余弦值的范围在[-1,1]间,值越趋近于1,代表两个样本的方向越接近;越趋近于-1,表示两个样本的方向越相反;接近于0,表示两个样本近乎于正交。
结合余弦相似度和马氏距离构建一种新的度量尺度——余弦马氏距离,可以在保留原有马氏距离优点的基础上,弥补无法从方向上区分正常样本和异常样本的缺点,计算公式如下:
其中,MDi表示样本的马氏距离,用以描述样本距离的相似度;CSi表示样本的余弦相似度,用于描述样本方向的相似度;α、β为权重系数。
MDi的计算公式同传统马田系统一致,CSi的计算公式如下:
此外,在传统马田系统中,只有当信噪比增量为负时,才剔除辅助变量即只删除对建模无效的辅助变量。而在实际建模过程中,为了更大程度地降低变量间冗余性,可以对信噪比增量设定一定阈值,删除阈值范围内的所有辅助变量。
2.2.3 余弦马氏距离权重确定 本文分别根据正常样本的马氏距离变异程度和余弦相似度变异程度确定余弦马氏距离的权重。具体公式如下:
图1 加氢裂化流程Fig.1 Flow chart of the hydrocracking process
3 工业实例:加氢裂化敏感变量选择
3.1 加氢裂化流程描述
加氢裂化流程[26-27]作为炼油生产的一个重要典型环节,其工艺机理是高温、高氢压的密闭环境下,使重质油和氢气在催化剂作用下发生复杂化学反应转化为轻质油。加氢裂化流程如图1 所示,由加氢精制反应器、加氢裂化反应器、高低压分离系统和分馏部分组成。以减压蜡油为原料,产品有轻烃、轻石脑油、重石脑油、煤油、柴油和尾油。
本文以国内某石化公司加氢裂化流程航煤10%馏出温度为研究对象,验证所提方法的有效性。首先根据机理分析筛选出可用于预测建模的38个辅助变量。
3.2 航煤10%馏出温度敏感变量
选取该公司加氢裂化流程包含多个生产工况的2016 组采样数据,计算38 个辅助变量的离散程度、与航煤10%馏出温度的偏相关系数及敏感性指数,部分结果如表1所示。
分析各变量的敏感性指数可知,精制反应器塔底温度指示(12)、精制反应器压差(13)、脱硫化氢汽提塔塔顶回流量(23)、主分馏塔中段返回温度(31)、柴油汽提塔塔顶温度(37)、柴油汽提塔底部温度(38)敏感性指数较低,说明这些辅助变量对主导变量航煤10%馏出温度和工况变化的敏感性和描述性相对较低。因此除去这6个敏感性指数较低的变量以外其他剩余的32 个辅助变量被初选为敏感变量。
3.3 航煤10%馏出温度关键敏感变量
在3.2节初选的32个敏感变量采样数据中选取32 组正常样本,12 组异常样本数据(该公司加氢裂化流程交接记录本中记录的异常情况)用于关键敏感变量的精选。
表1 加氢裂化流程机理筛选辅助变量敏感性指数Table 1 Sensitivity index of mechanism selected variables of hydrocracking process
(1)构建加权余弦马氏基准空间先对正常样本进行标准化,然后分别计算正常样本的马氏距离、正常样本与其均值向量的余弦相似度和余弦马氏距离;根据式(15)得到马氏距离的权值为0.84,余弦相似度的权值为0.16,部分结果如表2所示。
由表2 可知正常样本的余弦马氏距离基本在1附近波动,均值0.9003。
(2)验证基准空间有效性对异常样本进行标准化,然后分别计算异常样本的马氏距离、异常样本与正常样本均值向量的余弦相似度和余弦马氏距离,结果如表3所示。
由表3可知异常样本的余弦马氏距离均远大于1,均值为203.0627,因此构建的加权余弦马氏基准空间可以很好地区分正常样本与异常样本。其中异常样本3 为特意挑选的方向性异常样本,其马氏距离为1.6571,如果按照传统马田系统仅根据马氏距离判别样本,样本3 为正常样本,与实际情况不符;而样本3 的余弦相似度为5.3472,余弦马氏距离为2.2475,此时加权余弦马田系统将样本3 判别为异常样本,相较于传统马田系统,加权余弦马田系统可以更好地区分正常样本与异常样本。
表2 加权余弦马氏基准空间Table 2 Weighted cosine Mahalanobis space
表3 异常样本余弦马氏距离Table 3 Cosine Mahalanobis distance of the abnormal samples
(3)优化基准空间设计表4所示的正交表,水平1 表示使用辅助变量,水平2 表示不使用辅助变量,并计算信噪比(括号内为原机理筛选辅助变量敏感性指数表中变量序号)。
32 个敏感变量的信噪比增量直方图如图2 所示,变量21(原机理筛选辅助变量24)、28(原机理筛选辅助变量32)和32(原机理筛选辅助变量36)的信噪比增量为负,说明这些辅助变量对建模无效;变量26(原机理筛选辅助变量29)的信噪比增量较小,说明这些辅助变量对建模作用较小,可以忽略不计。因此,基于加权余弦马田系统最终精选得到28个可用于预测建模的关键敏感变量。
表4 二水平正交表和信噪比Table 4 OAs and S/N ratios
图2 加裂流程敏感变量信噪比增量直方图Fig.2 Histogram of the gain of S/N ratios
3.4 航煤10%馏出温度预测结果与分析
本文采用局部加权偏最小二乘[28](LWPLS)方法建立预测模型,用于建模的数据共有1610 组,其中966 组作为训练集,644 作为测试集,分别将辅助变量集合按照机理筛选变量集合、敏感变量集合和关键敏感变量集合用于建模且模型参数完全相同,预测结果如图3~图5 所示,预测结果与真实值的散点图如图6所示,均方根误差RMSE如表5所示。由图3~图5可知,利用关键敏感变量进行预测建模,其预测结果较其他两种辅助变量集合可以更好地跟踪航煤10%馏出温度的实际值;由图6可知,利用关键敏感变量进行预测建模其预测结果更接近对角线,即越接近真实值;由表5可知,利用关键敏感变量进行预测建模其预测的均方根误差RMSE 为3.0474,较其他两种辅助变量集合分别提高了7.86%和4.15%,验证了本文所提方法的有效性。
接着,采用十折交叉验证(10-fold cross validation)来进一步测试所提方法的有效性,分别采用3 种变量集合建立基于LWPLS 的预测模型,其RMSE 如表6 所示。由表6 可知,采用关键敏感变量集合建立的预测模型精度最高,同时也证明了所提方法具有一定的外推性。
图3 利用关键敏感变量集合预测航煤10%馏出温度结果Fig.3 Predicted 10%distillation temperature of aviation kerosene based on key sensitive variable set
图4 利用敏感变量集合预测航煤10%馏出温度结果Fig.4 Predicted 10%distillation temperature of aviation kerosene based on sensitive variable set
图5 利用机理筛选辅助变量集合预测航煤10%馏出温度结果Fig.5 Predicted 10%distillation temperature of aviation kerosene based on mechanism selected auxiliary variable set
图6 三种变量集合的预测值与真实值散点图Fig.6 Scatter plot of real and predicted outputs on the three variable sets
表5 3种变量集合预测建模的均方根误差RMSETable 5 RMSE of LWPLS on three auxiliary variable sets
表6 3种变量集合十折交叉验证的均方根误差RMSETable 6 RMSE of 10-fold cross validation on three auxiliary variable sets
此外,分别采用偏最小二乘[29](PLS)、支持向量机[30](SVM)和局部加权核主元回归[31](LWKPCR)3种方法验证本文所提方法的有效性,三种方法的均方根误差如表7 所示。由表7 可知,采用关键敏感变量集合建立PLS、SVM 和LWKPCR 3 种预测模型,其RMSE 均最小,即选取出的关键敏感变量具有较好的通用性。
表7 3种变量集合不同预测建模的均方根误差Table 7 RMSE of three methods based on three auxiliary variable sets
为了进一步验证本文所提方法的性能,选取同一段时间内航煤10%馏出温度为主导变量,分别采用本文所提方法和基于互信息的变量选择方法及文献[19]中所提方法建立LWPLS 模型,基于3 种变量选择方法的预测模型均方根误差如表8所示。由表8 可知,基于本文所提方法选取的关键敏感变量建立的预测模型可以更好地拟合实际生产曲线,均方根误差最小。这是因为本文所提方法首先初选出既与主导变量相关又能反映工况的敏感变量,然后精选出冗余性更小的关键敏感变量;而基于互信息的变量选择方法仅考虑辅助变量与主导变量的相关性,且没有进一步降低冗余性,所以其预测精度低于本文所提方法;文献[19]中所提方法虽然在选择变量时考虑了工况变化的影响,但是未考虑辅助变量与主导变量的相关性,所以其预测精度略低于本文所提方法、高于基于互信息的变量选择方法。
表8 基于3种变量选择方法建立LWPLS预测模型的均方根误差Table 8 RMSE of LWPLS on three variable selection methods
4 结 论
本文针对如何选取既能反映工况信息又能反映主导变量与辅助变量相关性的敏感变量方面,提出了一种分步约简的敏感变量选择方法。该方法在明确敏感变量和关键敏感变量的基础上,根据变量对工况变化的敏感性和辅助变量与主导变量的净相关性定义了敏感性指标,实现敏感变量的初选;接着通过构建加权余弦马田系统解决变量冗余性大的问题,实现敏感变量的精选;最后将方法应用于加氢裂化产品质量预测,利用实际工业数据验证方法的有效性,结果表明:
(1)将关键敏感变量、敏感变量和通过机理筛选的辅助变量分别用于基于LWPLS 的航煤10%馏出温度预测建模,结果显示使用关键敏感变量集合建模,不仅可以降低预测模型的复杂性,还可以提升预测的准确性;
(2)针对航煤10%馏出温度预测时,将关键敏感变量、敏感变量和通过机理筛选的辅助变量分别用于PLS、SVM 和LWKPCR 3种建模方法,结果均显示使用关键敏感变量集合建模的预测效果最好,不仅验证了所提方法的有效性,还同时证明了所提方法对不同的建模方法均适用,具有较好的通用性;
(3)分别采用本文所提分步约简的变量选择方法、文献[19]所提方法和基于互信息的变量选择方法构建基于LWPLS的航煤10%馏出温度预测模型,结果显示使用本文所提方法建立的预测模型均方根误差最小,预测效果最佳。