基于多元线性回归模型运用Matlab软件实现的研究与应用
2018-06-13黄玉
摘 要:多元线性回归模型是一种常用的数学应用模型,它反映了多个自变量与函数之间的线性关系,本文运用Matlab软件确定模型参数来得到回归方程,然后通过此回归方程分析变量之间的相关关系,并给出实例分析过程。
关键词:多元线性回归模型;Matlab;实现
1 引言
多元统计分析是数理统计的一个分支,考察和分析大量数据的结构和特征,从中提取主要而准确的信息,能帮助我们正确认识事物客观存在的统计规律。它不仅能够把隐藏在大规模原始数据群体中的重要信息提炼出来,而且能够把握住数据群体的主要特征,从而得到变量间相关关系的数学表达式,利用概率统计知识对此关系进行分析,以判别其有效性。
2 Matlab软件在统计应用上的地位非常重要
Matlab软件作为具影响力、活力的科学计算软件,其统计功能已直追任何其他专用的统计软件,Matlab软件统计工具箱几乎包括了数理统计方面主要的概念、理论、方法和算法。再加上Matlab操作简单、语言简洁、具有强大的数据可视化能力以及良好的开放性等优点,现已是国内外众多统计学者喜爱的分析数据工具。本文就Matlab软件在多元线性回归模型中的应用进行研究,结合实例分析过程。
3 實例应用
例1 已知表1数据中分别给出了5种物质在不同浓度下的颜色读数,其中三基色B、G、R,色调H、饱和度S随着浓度的变化而变化。讨论5组数据并判断这些数据是否能够确定读数和物质浓度之间的关系,并根据做出的关系制定出一些准则来评价这5组数据优劣。
3.1 组胺浓度的数学建模及数据优劣分析
下表1所示为组胺浓度与颜色读数原始数据:
以组胺物质浓度等级划分,共有10组数据,将第1组数据(浓度为100ppm)作为待检验数据,以2-10组数据作为拟合数据。以物质浓度
作为因变量,以颜色读数(B、G、R、H、S)为自变量,进行“多元线性回归拟合”。通过调用MATLAB软件中的regress函数拟合得到相关拟合回归系数(表2):
即得到的5元1次方程为:
将第1组数据(35,64,109,11,72)代入上式得: =100.2484ppm,得到此时的绝对误差为 δ=100.2484-100≈0.25,引用误差为γ =0.25/100=0.25%(量程0-100ppm)。
同理可得,改进MATLAB程序实现循环处理,依次将第2到第10组数据作为待检测数据,建立数学模型,并进行绝对误差和引用误差统计如下表3:
从以上表4统计中分析,平均引用误差 =1.49%,其最大引用误差为 =3.92%,因此附件给出的组胺物质浓度与颜色读数的数据质量比较好。
3.2 其它物质浓度的数学建模及数据优劣分析
对于其他物质浓度,按照上述的建立的数学模型进行重复建模并分析,通过统计得到分析数据如下表5:
(1)数据优劣分析:
从所建立的数学模型,以平均引用误差 大小作为考量数据优劣的准则,从这5组数据中,数据优劣程度依次为:组胺>溴酸钾>奶中尿素>硫酸铝钾>工业碱。
(2)原因分析:
组胺、溴酸钾、奶中尿素这三个物质在样本参考数据的预测范围内,平均引用误差 相对较小,参考本模型的数据优劣评估准则,判定为数据质量较高。工业碱和硫酸铝钾平均引用误差 相对较大,从模型分析可得,其主要原因是这两种物质的样本数据,一是浓度范围较窄(工业碱物质浓度范围:0-11.8ppm, 硫酸铝钾:0-5.0 ppm),并且其颜色读数的精度与分辨力都较低。
(3)结论:
①这5组数据中组胺、溴酸钾、奶中尿素基本上可以反应出颜色读数和物质浓度之间的关系。工业碱和硫酸铝钾的样本数据不能反应数据的物质浓度和颜色读数之间关系。
②其中组胺、溴酸钾、奶中尿素数据质量较高;工业碱和硫酸铝钾样本数据质量较低。
本文结合实例,可以知道Matlab软件对于多元统计分析的作用重大,它因为自身的优良运算性能和优势特点,不仅可以更好的完成分析计算的工作,更重要的是提高了对于多元统计分析的理解能力。
作者简介:
黄玉,女,壮族,广西贵港人,讲师,研究方向:概率论与数理统计.