APP下载

数据处理方法在数学建模竞赛中的应用

2015-03-02王增波等

软件导刊 2015年1期
关键词:数学建模数据处理

王增波等

摘要:在归纳数学建模竞赛历年试题求解方法的基础上,从数据分析、插值与拟合、数据仿真和回归分析4个方面总结了数据处理方法和数学软件在数据建模竞赛中的应用,可为数学建模中合理选择数据处理方法提供参考借鉴。

关键词:数学建模; 数据处理; 数学软件; Matlab; SPSS

DOIDOI:10.11907/rjdk.143753

中图分类号:TP434

文献标识码:A 文章编号文章编号:16727800(2015)001020002

0 引言

数学建模通过数学语言对实际问题进行简化、抽象和描述,建立一个可以求解的数学模型,利用计算机软件对该数学模型进行分析和求解,并对求解出的结果进行分析和检验,最终找到解决实际问题的方案。在数学建模过程中,大量实验数据需要处理,需要利用计算机软件来辅助快速整理和分析,这一过程即为数据建模中的数据处理。必须利用一定处理方法从实验数据中提炼出其内在规律,甚至可以把表面上看起来毫无关联的数据联系在一起。

在模型建立初期,通过一定数据处理方法可以分析出问题所描述的模型变量之间的关系,形成初步计划。部分模型可以利用统计方法从大量的实验数据中直接建立,例如回归分析法和时序分析法等。实际建模中,亦可直接利用实验数据估计出模型参数值,或利用数据进行模型检验,用所建立模型计算理论值与实际数据之间的误差。数据处理是建模的关键,直接影响数学建模的效率和结果。本文着重介绍常用数据处理方法及数学软件在数学建模竞赛中的具体应用。

1 数据分析

一般来说,数据建模收集和提供的原始数据绝大多数都是以Excel文件的形式保存,Excel软件具有数据排序、筛选、有效性、分类汇总、内部函数计算等诸多功能,可用来对数据进行初步处理,如按关键字排序、按值或范围筛选数据,按类汇总,计算最大值、最小值、频数、方差等,还可以利用其强大的绘图功能绘制散点图、曲线图、直方图,对数据的发展趋势进行观察分析。

2 插值与拟合方法

在建模竞赛中进行数据处理时经常会用到数据插值和数据拟合方法。如1998年美国赛A题中的生物组织切片用到三维插值方法;1994年国赛A题在计算山体海拔高度时也用到了数据插值方法;2001年国赛中血管三维重建问题用到了数据插值和数据拟合方法;2003年国赛“非典”问题用到数据拟合方法观察数据走向并进行处理;2004年国赛饮酒驾车也是一个拟合问题;2005年国赛雨量预报的评价用到了插值计算;2006年国赛B题艾滋病疗法的评价及疗效的预测问题也用到了数据拟合方法;2011年国赛中的城市表层土壤重金属污染问题也用到插值与拟合方法。

拟合问题通过实验数据确定某已知函数的参数或寻求某个近似函数,使所得到的近似函数与已知数据有较高的拟合度。如果在确认数据有误差的前提下不要求近似函数通过所有的数据点,只要求得出一定程度上反映数据变化规律的近似函数即称为数据拟合。数据插值是根据已知数据点的实验数据按照某种插值方法确定未知数据点的数据。

(1)数据插值。当受实验条件限制以及实验数据量不足,且已有数据可信时,通常利用函数插值方法可插值出两数据点之间的一系列数据点,所绘制的数据曲线会严格地经过每一个实验数据点。所选用插值函数的类型不同,逼近的效果和光滑程度也有所不同。常用的插值方法有: lagrange插值、分段线性插值、Hermite插值和三次样插值等,这些插值都是分段插值。Matlab中提供的功能函数可实现分段插值而不需要编制函数程序,如:interp1(一维插值)、interp2(二维)、interp3(三维)、intern(n维) ,其中一维和二维插值用得最多。一维插值函数的格式为:yi=interp1(x,y,xi,'method'),其中(x,y)为插值节点,xi为被插值点,yi为在xi处的插值结果,默认情况下插值方法为分段线性插值,nearest为最邻近插值,linear为线性插值,spline为三次样条插值,cubic为立方插值。值得注意的是,所有插值方法中要求x必须是单调的,并且xi不能超过x的取值范围。二维插值函数的格式为:z=interp2(x0,y0,z0,x,y,method)。

(2)数据拟合。对于较复杂的问题,可以直接使用实验数据进行建模,找出因果变量之间的数量关系,从而对未知情形进行预测,所组建的模型称为拟合模型。通过拟合模型主要将实验数据误差控制在一定范围内,使用数学表达式从数量上近似表达因果变量之间的关系。组建拟合模型需要通过对有关变量的实验数据进行观察、分析,选择恰当的拟合函数。拟合模型大致可分为线性拟合、多项式拟合和曲线拟合。在Matlab中可通过函数polyval()和lsqcurvefit()来实现,在spss中通过菜单和对话框操作可同时选用多种模型实现拟合度对比。为确定合适拟合模型,一般先做散点图观察数据的分布情况再确定模型的选取。

3 数据仿真

数学建模中离不开计算机仿真,其中随机性模拟是常用算法之一。数学建模中的数据仿真主要有数学仿真和计算机仿真。数学仿真以数学方程式为基础,在一定假设条件下用数学式来模拟被仿真对象。利用计算机对系统的数学模型进行试验,称计算机仿真。通过计算机仿真方法可改变被仿真系统的结构和参数,方便实现对模型的分析。计算机仿真方法中蒙特卡罗算法较常用,该算法又称随机性模拟算法。

首先利用随机函数对所研究的实际问题生成随机抽样产生样本,再对样本值进行观察、统计分析,最后求出所研究问题的参数。例如全国大学生数学建模竞赛1997年A 题“零件参数设计”问题,题目中每个零件都有不同的标定值和容差等级,要求解零件的最优组合方案。如利用一个复杂的公式,从108 种容差中选取方案,得到问题的解非常困难,只能通过计算机仿真方法求解。其中的一种方法就是通过随机性模拟搜索最优方案,在每个零件的可行区间按照正态分布随机选取一个标定值和一个容差值,通过蒙特卡罗算法仿真出大量的方案,并从中选取一个最佳方案。

4 回归分析

回归分析在数学建模竞赛中用得较多,例如国赛2005年A题“长江水质的评价和预测”、2006年的“Hiv病毒问题”、2008年的“大学学费问题”和2011年A题“城市表层土壤重金属污染分析”中都用到回归分析。回归分析是研究一个因变量与一个或多个自变量之间线性或非线性关系的一种统计分析方法。回归分析通过规定因变量和自变量来确定变量之间的因果关系,建立回归模型,并根据实测数据来估计模型各参数,然后评价回归模型能否很好地拟合实测数据,并根据自变量作进一步预测。

回归分析方法理论基础成熟,它根据采样数据来确定变量与变量之间的定量关系,反映出统计变量之间的数据变化规律,并建立出变量间定量关系的数学模型,进行数据变化趋势预测。它是一种准确把握自变量对因变量的影响方向和影响程度的有效方法,在经济、金融、医学、自然科学和社会科学等领域有广泛应用,在数据建模竞赛中也常用到。回归分析主要有线性回归、曲线回归、Logistic回归、非线性回归等。可以作回归分析的软件有Excel、Matlab、SPSS、Eviews、Sas、Systat等,其中使用得最多且最容易掌握的软件当属SPSS。

5 结语

数据处理在数学建模竞赛中发挥非常关键的作用,合理选择数据处理方法能提高数据分析的准确性。借助相关数学软件实施数据处理可大大提高数学建模效率。

参考文献:

[1] 王庚,王敏生.现代数学建模方法[M].北京:科学出版社,2006.

[2] 姜启源,谢金星,叶俊.数学模型[M].第三版.北京:高等教育出版社,2003.

[3] 陈胜可. SPSS统计分析从入门到精通 [M].第二版.北京:清华大学出版社,2013.

[4] 胡良剑,孙晓君. MATLAB数学实验[M].北京:高等教育出版社,2006.

猜你喜欢

数学建模数据处理
认知诊断缺失数据处理方法的比较:零替换、多重插补与极大似然估计法*
ILWT-EEMD数据处理的ELM滚动轴承故障诊断
数学建模中创造性思维的培养
基于希尔伯特- 黄变换的去噪法在外测数据处理中的应用
基于POS AV610与PPP的车辆导航数据处理