基于主成分分析下结合差值的回归分析建模方法
2020-10-27戴洪峰
摘要:数学建模的过程离不开数据的处理,针对大数据的处理有很多简洁有效的典型方法。本文结合主成分分析基础上对收集的数据进行分析,通过对指标数据的处理,结合Excel数据分析,对结合差值的回归分析建模方法进行了说明。
关键词:差值;数学建模;回归分析;质量监测
大数据伴随信息化社会的发展越来越凸彰顯出它存在的重要性。2019年的全国大学生数学建模竞赛专科组题目一个是关于超市的“薄利多销”策略研究,另一个是“空气质量监测”分析,都是基于大数据下的数学建模问题。处理大数据往往有很多典型的方法,解决的思路也具有明显的代表性。下面以“基于大数据处理下空气质量监测的校准”为例,阐述这一类数学模型问题中的一个具体解决方法——结合差值的回归分析方法。
一、模型分析
就本题的价值意义来讲,空气质量监测从现实角度来说对环境保护有着重要的作用。分析国控点与自建点的监测数据之间的差异性,便于更好地改进监测设备,更准确的监测数据,从而为建设更好空气质量服务。
分析自建点数据与国控点数据进行探索性分析,采集主成分数据并按照每个月份来计算 、 、 、 、 、 和气象参数温度、湿度、风速、气压、降水量的均值,通过对比可以得出自建点监测值与国控点的检测值存在差异性。然后对造成这种差异的因素进行分析,对其差异利用两者监测数据差值表示,然后将差值与各个气象参数如风速、压强、降水量、温度、湿一一进行对比,检测它们的变化程度。因为差值的大小反映的是在某一因素影响下的变化的大小,对于数据的校准来说具有代表性,所以结合差值对各项指标变化进行比较,通过散点图的方式分析两者总体趋势,了解他们是否存在相关关系,最后结合图像与相关系数进行分析解答。
二、模型的求解方法阐述
下面以此题中的 为例,从建模求解的角度进行方法阐述。
通过自建点与国控点 的差值不难通过描绘散点图,求得线性回归函数,如图1。
自建点与国控点的 的差值在不断减小,说明自建点的数值越来越趋于标准的国控点数值,而在这种情况下风速没有变化,如图2。
说明自建点与国控点之间的 的差值不是由于风速造成的,所以风速不会影响自建点的电化学气体传感器,风速不是导致自建点与国控点形成差异的因素。自建点与国控点 的差值和压强之间关系如图3。
在自建点和国控点 差值不断减小的情况下,压强也在不断降低,说明自建点与国控点 差值与压强呈正相关。压强越高 的差值越大,自建点的数值不断远离标准国控点的数值,对自建点的电化学气体传感器影响越大,压强越低对自建点的电化学气体传感器越小,对自建点越有利。所以,压强是导致自建点数据与国控点数据造成差异的因素。
自建点与国控点 的差值与温度比较中,自建点与国控点 PM2.5 差值在不断减小的过程中,温度的数值是在不断增加的,如图4。
因此,自建点与国控点 的差值与温度呈负相关,说明了温度影响了自建点微型空气质量检测仪,温度影响了自建点化学气体传感器,可以得出温度是导致自建点与国控点造成差异的影响因素。
在自建点与国控点 差值不断减小的过程中,再依次对降水量、温度的变化进行分析,可以得出类似的结论:降水量不是导致自建点与国控点差异的因素;温度是导致自建点与国控点造成差异的影响因素。相关系数表现如下:
基于主成分下的数据处理,采用结合差值的回归分析方法进行数学建模思路清晰,简洁明了,结合图像进行分析,便于精细观察直观易懂。由于数据采集本身随机性的特点,此类方法在精确度上难免存在误差,但仍然掩饰不了此类方法本身具有的简洁性和有效性。
参考文献:
[1]冷建飞等.多元线性回归统计预测模型的应用[J].统计与决策.2016(4)
[2]刘萍.空气质量评价方法研究[J].《环境保护与循环经济》.2018(7)
[3]王丽娜等.空气质量时空变化特征分析研究[J].环境科学与管理.2019(7)
[4]任汤磊.环境空气检测数据分析及处理方法研究[J].生物化工.2017(6)
作者简介:戴洪峰(1981.02-),男,汉族,山东淄博,讲师,数学教师,研究方向:高校理论数学;教育教学理论。