APP下载

基于非线性回归分析的颜色与物质浓度辨识

2018-10-17年福耿

山东化工 2018年18期
关键词:组胺回归方程线性

年福耿,黄 辉

(海军士官学校,安徽 蚌埠 233012)

1 问题1模型建立与求解

1.1 问题一模型的建立

判断颜色读数和物质浓度之间的相关关系.可建立基于Pearson简单相关系数为基础的相关性检验模型。

1.1.1 Pearson简单相关系数

计算样本Pearson相关系数r;

样本Pearson相关系数r的数学定义如下:

r=1n∑n=i=1)xi-Sx)(yi-Sy)

(1)

式1中,n为样本量,xi和yi分别为两变量的变量值。说明简单相关系数式n个xi和yi分别标准化后的积的平均数.

Pearson 相关系数r的取值介于-1~1之间,具体取值的绝对值越接近1说明相关度越高.

1.1.2 可决系数的拟合检验

可决系数 是自变量 和因变量 的简单相关系数r的平方.可反映回归方程所能解释的变差比列(摘自《统计分析与SPSS的应用》第四版),其计算公式如下:

(2)

由式2可知, 的取值在0~1之间, 值越接近1,说明回归方程对样本数据点的拟合优度越高。

1.2 问题一模型的求解

1.2.1 Pearson简单相关系数证明

利用SPSS 软件将组胺、溴酸钾、工业碱、硫酸铝钾和奶中尿素在不同浓度下与各色度的取值做相关性分析,可得到Pearson相关系数的值和显著性水平p的值.本文以组胺为例。

表1 组胺相关性分析

由表1可知,组胺浓度与蓝色数值的相关系数为-0.972,由于其显著性值0.000小于给定的显著性水平0.01,则拒绝两总体无显著关系的假设.从相关系数可以看出,蓝色数值与组胺浓度负相关,相关程度为高度相关,即一定程度上蓝色数值越小,组胺浓度越大。

同理可知,绿色数值与组胺浓度负相关且高度相关;红色数值与组胺浓度负相关且高度相关;色调数值与组胺浓度负相关且高度相关;饱和度数值与组胺浓度正相关且高度相关。

通过计算可得组胺、溴酸钾、工业碱、硫酸铝钾和奶中尿素与各颜色数值的相关系数,如表2所示。

表2 各颜色数值的相关系数

表2是各种溶液颜色数值与浓度之间的相关系数,可见溶液颜色与浓度之间相关度是比较高的。

1.2.2 可决系数 的拟合检验

首先,利用SPSS 软件绘制五种物质浓度值与蓝、绿、红、色调、饱和度数值的散点图,利用散点图进行线性拟合处理,得到各散点图直线拟合的 值.本文以组胺为例,如图1所示。

图1 组胺各颜色数据散点及直线拟合图

组胺浓度与蓝色数值的R2=0.946>0.64;组胺浓度与绿色数值的R2=0.994>0.64。

组胺浓度与红色数值的R2=0.876>0.64;组胺浓度与色调数值的R2=0.96>0.64。

组胺浓度与饱和度数值的R2=0.931>0.64。

将五个 求均值,均值为0.942 ,说明将组胺数据进行线性拟合和时,拟合程度为94.2%,从而论证组胺的颜色读数和物质浓度之间相关性较高。

同理可得溴酸钾、工业碱、硫酸铝钾和奶中尿素与各颜色数值的 值和均值,如表3所示。

表3 各物质与各颜色值的相关系数

1.3 建立评价准则

通过研究Pearson相关系数和可决系数和数量可得到如下准则:

准则一:Pearson 相关系数的绝对值越大,且能通过显著性水平检验,数据越优;

准则二:可决系数 数值越大,数据进行线性拟合度越高,数据越优;

准则三:数据量越大,即检验次数越多,拟合度越准确,数据越优。

根据建立的数据评价原则,本文对五种数据分别进行相关系数比较、可决系数比较、数据量比较,可得到三种排名.为了避开三种标准下的排名冲突,本文通过三类排名之和比较五组数据的优劣.排名合计值越小,数据越优.具体情况如表4所示。

表4 评价原则排名合计

通过该表的排名名次求和,名次求和越小越好,所以可得组胺的数据最好,而五组数据从优到劣的排序为组胺、溴酸钾、硫酸铝钾、奶中尿素、工业碱。

2 问题二模型的建立与求解

2.1 问题二模型的建立与求解

2.1.1 多元线性回归模型建立与求解

以红色、绿色、蓝色、饱和度、色调为自变量,物质浓度为因变量,用SPSS软件对其进行回归分析.首先,进行五种颜色数值与浓度的线性回归分析,依据多元线性回归模型,建立本文线性线性回归模型:

y=β0+β2r+β2g+β3b+β4s+β5h

经过SPSS软件分析,得出问题二的线性相关回归模型为:

y=5063516-5.96r-26.2g+8.36b-9.905s-15.159h

利用线性回归模型可以求解出检查数据的浓度对应的回归计算浓度,如表5所示。

表5 多元线性回归解得浓度值

回归结果分析:

五种颜色数值共同作为自变量时R2为0.900,说明二氧化硫浓度有90%受这几个颜色数值影响。

验证回归式显著性的F值是3.590,Sig.=0.38>0.05,显著符号是“*”,则说明模型受误差因素干扰太大,没有通过检验,所以回归效果不好。

2.1.2 多元非线性回归模型建立与求解

由于多元线性回归模型效果不好,所以建立多元非线性回归模型:

y=w0+∑ni=1qixi+∑ni=1pix2i

注:w0为常数项,q为一次变量系数,pI为二次变量系数,n为自变量数量。

本文二氧化硫的颜色数据为五维,结合多元非线性回归模型建立五维的二氧化硫回归分析模型:

y=β+β1r+β2r2+β3g+β4g2+β5b+β6b2+β7s+β8s2+β9h+β10h2

经过SPSS软件分析,得出二氧化硫多元非线性回归方程为:

y=52494.39656+5.06846r-0.04568r2-33.51444g+0.18322g2+96.35998b-0.28502b2-864.77807s+3.14512s2+6.36228h-0.00901h2

利用二氧化硫非线性回归方程可以求解出,检验数据的浓度对应的回归计算浓度值,如表6所示。

表6 多元非线性回归解得浓度值

从表6可以看出,多元非线性回归模型求解的结果 ,比多元线性回归模型的结果 大.因此,所建立的非线性回归模型要优于多元线性回归模型,可以利用多元非线性回归模型表示颜色读数和物质浓度的关系.

2.2 误差分析

2.2.1 平均相对误差模型的建立

一般来说,相对误差更能反映理论值的可信程度.为了检验上文中模型的可行性与可靠性,本文建立相对误差分析模型:

αi=│Si-Li│Si×100% 由于题中所给出的数据中有多种浓度,所以本文取所有相对误差的平均值作为模型的最终误差,建立平均相对误差模型如下:

2.2.2 平均相对误差模型的求解

将多元线性和非线性回归的计算数据带入评价相对误差模型,由于计算相对误差时需要除实际数据,而实际数中有浓度为0的数据,所以对于浓度为0的数据只求平均误差,进行对比评价.结果如表7所示。

由表7可见当浓度为0时,非线性回归的误差要小于线性回归的误差。

对于其他非0浓度数据,可以利用评价相对误差模型计算平均相对误差,来评价模型优劣,计算得出结果.多元线性和非线性回归模型的平均相对误差分别为34.6%和11%,可见多元非线性回归模型效果较好。

表7 0浓度数据绝对误差分析

3 问题3模型的建立与求解

3.1 数据量对模型的影响

本文对同种物质的不同组浓度数值与颜色数值,用非线性回归模型求解,通过对不同组物质浓度的非线性回归方程的可决系数 及所求得的平均相对误差相比较,探索数据量对模型的影响。

本文将二氧化硫浓度分为三组,分别为六种二氧化硫浓度、五种二氧化硫浓度、四种二氧化硫浓度,具体分组见表8。

表8 数据量的选择方案

利用问题二模型,用SPSS软件分别求出六种浓度、五种浓度、四种浓度的非线性回归方程及R2值,不同数据量和的SPSS输出结果,各方程如下:

六种浓度的非线性回归方程:

y=-26530.85338-301.1942r+1.04870r2-15.11929g+0.10741g2+11.49582b-0.04834b2+704.78935s-2.61041s2+4.16098h+0.1317h2

五种浓度的非线性回归方程:

y=-57787.31738-144.88254r+0.50553r2-163.94082g+0.78356g2+8.99396b-0.02992b2+1103.95843s-4.05614s2+16.68831h-0.06937h2

四种的浓度非线性回归方程:

y=-26530.85338-301.61942r+1.04870r2-15.11929g+0.10741g+11.49582b-0.04834b2+704.78935s-2.61041s2+4.16098h+0.01317h2

再用非线性回归方程计算三组不同种浓度的数值对应的理论浓度,并用Excel计算平均相对误差.三种不同数据量情况下的误差系数及R2值如表9所示。

表9 数据量对模型的影响

对结果进行分析可得,随着浓度种类的减少,即数据量减少, 值增大,模型的准确性增高。但由于数据变少,没有数据的浓度回归模型计算所得结果与实际相差较大所以造成最后的平均相对误差增大。

3.2 颜色维度对模型的影响

对同种物质的不同颜色维度与物质浓度,用非线性回归模型求解,通过对不同颜色维度得出的非线性回归方程的可决系数 及所求得的平均相对误差相比较,探索颜色维度对模型的影响。

本文将颜色维度分为六维颜色维度、五维颜色维度、四维颜色维度、三维颜色维度,具体内容见表10。

表10 维度的选择方案

最后,用SPSS软件得出四种维度下的非线性回归方程及 值,不同维度的SPSS输出结果,各方程如下:

三维颜色维度非线性回归方程:

y=10770.64172-209.28194r+0.709332r2-38.11511g+0.17376g2+72.36017b-0.20102b2+5.60757g-0.02878h2

四维颜色维度非线性回归方程:

y=52494.39656+5.06846r-0.04568r2-33.51444g+0.18322g2+96.35998b-0.28502b2-864.77807s+3.14512s2+6.36228h-0.00901h2

五维颜色维度非线性回归方程:

y=54.286.55996-1880.64040r-0.92992r2-411.52973g-0.29355g2-685.60944b-0.09269b2-887.96192s+3.22375s2+5.08980h+0.00157h2+6848.44956l+1.14721l2

六维颜色维度非线性回归方程:

用非线性回归方程计算四种维度的各颜色数值对应的理论浓度,再用Excel计算四种颜色维度的浓度的平均误差系数.最后分析四种不同维度下的误差系数,及判定系数R2,具体结果如表11所示。

对结果进行分析可得,随着颜色维度的增加模型的误差系数减小, 值越大,模型的准确性越高,但精度提高较少。

表11 不同维度对模型的影响

猜你喜欢

组胺回归方程线性
渐近线性Klein-Gordon-Maxwell系统正解的存在性
采用直线回归方程预测桑瘿蚊防治适期
线性回归方程的求解与应用
线性回归方程要点导学
儿童医院门诊口服抗组胺药应用情况分析
走进回归分析,让回归方程不再是你高考的绊脚石
二阶线性微分方程的解法
吃鱼谨防组胺中毒
评价3种抗组胺药治疗慢性特发性荨麻疹的疗效
基于线性正则变换的 LMS 自适应滤波