Matlab的统计工具箱在统计学教学中的应用
2018-01-29王中旺金哲植
王中旺+金哲植
摘 要 統计学是应用数学的一个分支,主要通过利用概率论建立数学模型,收集所观察系统的数据,进行量化分析、总结,做出推断和预测,为相关决策提供依据和参考。它被广泛地应用在各门学科之上,从物理学到社会科学,到人文科学,甚至被用来工商业及政府的情报决策之上。随着数字化的进程不断加快,产生的数据量越来越大,因此,在统计学的教学中,数据分析软件的使用是个必然趋势。
关键词 Matlab 统计学 工具箱
中图分类号:G424 文献标识码:A DOI:10.16400/j.cnki.kjdkx.2017.12.044
Abstract Statistics is a branch of Applied Mathematics, mainly through the use of probability theory to establish the mathematical model, the observation system to collect data, quantitative analysis and summary, to make inferences and prediction, provide the basis and reference for the relevant decision-making. It is widely used in a variety of subjects, from physics to social sciences, to the humanities, and even to industry, commerce and government intelligence decisions. With the acceleration of the digital process, the amount of data is increasing. Therefore, the use of data analysis software is an inevitable trend in the teaching of statistics.
Keywords Matlab; Statistics; toolbox
0 引言
目前,在统计学的教学过程中,使用的数据分析软件种类很多,例如SAS,R,SPSS,Matlab 等,各式各样的软件在教学过程中的使用,极大地提高了课堂效率和计算的准确度,但是,选择使用的软件种类也尤为重要。如果选择的软件过于专业化,会增加非统计专业的学生学习统计学的难度,影响课堂上的学习效率;如果选择的软件过于简洁,忽视了处理的过程,不利于学生对知识点的记忆和理解。[1-2]笔者认为Matlab软件非常适用于统计学的教学过程,尤其是统计工具箱的使用,不需要编程基础,操作简洁,只要求学生对统计学的知识有一定的理解,能够设置相关参数即可。[3]
1 Matlab统计工具箱在教学中的应用
1.1 概率分布
随机变量的统计行为取决于其概率分布,而分布函数常用连续和离散型分布。统计工具箱提供20种分布。每种分布有五类函数,分别为:概率密度(pdf);累积分布函数(cdf);逆累积分布函数(icdf);随机数产生器;均值和方差函数。
1.1.1 生成随机数
随机数在统计学中,很多的计算机随机模拟实验中会用到,是实验进行的关键。例如生成一个或多个服从二项分布的随机数:
>>binornd(10,0.7)
ans=6
>> binornd(10,0.7,2,4)
ans =
9 5 8 5
9 7 7 6
1.1.2 概率密度函数和累计分布函数
对于实验而言,如果知道了该实验的概率密度函数或者累计分布函数,也就意味着掌握了实验的全部信息。通过计算机画某个分布的概率密度函数或者累计分布函数,会使学生对该分布有一个直观的印象,同时加深理解。
在Matlab中,求标准正态分布的密度函数及累计分布函数:
>>x=-4:0.01:4;y=normpdf(x,0,1);z= normcdf(x,0,1);subplot(1,2,1);plot(x,y,'k');
>>axis([-4,4,-0.1,0.5]); subplot(1,2,2);plot(x,z,'k'); axis([-4,4,-0.1,1.1]);
1.2 参数估计与假设检验
1.2.1 参数估计
在很多的实际问题中,都会使用到参数估计,区间估计的方法使用得更多。理论联系实际,通过与学生共同探讨实际问题,会激发学生的学习兴趣,同时也能够让学生更好地理解抽象的理论知识。
有这样的一个实际问题,在一家饮料加工厂,生产出来的罐装饮料的体积服从正态分布,其均值为550ml,方差为2,现收集到20个随机样本,求95%的置信区间。利用Matlab统计工具箱中的normfit函数,进行计算:
>>r=[552.0972,551.3214,555.0175,552.1269, 552.3138, 550.106,547.4232,549.2576,548.4844,48.8721,551.1103,548.8864,48.2098,549.1813,549.6782,550.8187,548.0947,550.6346, 550.156,552.6488]'
>> [mu,sigma]=normfit(r)
mu =550.3220 sigma =1.8931endprint
从而可得95%的置信区间。
1.2.2 假设检验
假设检验的方法众多,对于已知的信息不同,构造的统计量也有所不同。通过一个实际的例子,运用Matlab统计工具箱,解决该问题。
某车间用一台包装机包装葡萄干,包好的袋装葡萄干的重量是一个随机变量,它服从正态分布,当机器正常运行时,其均值为0.5kg,标准差为0.015,某日开工后为了检验包装机器是否正常,随机的抽取所包装的9袋,称其重为(单位:kg):
0.497,0.506,0.518,0.524,0.498,0.511,0.52,0.515,0.512
问机器是否正常?
提出假设::=0.5;:≠0.5
>>X=[0.497,0.506,0.518,0.524,0.498,0.511,0.52,0.515,0.512];
>>[h,sig,ci,zval]=ztest(X,0.5,0.015,0.05,0)
结果显示为:
h=1 sig=0.0248 ci=0.5041 0.5210 zval=2.2444
结果表明:h=1,说明在水平 =0.05下,可拒绝原假设,即认为包装机工作不正常。
1.3 回归分析
回归分析是统计分析的重要组成部分,用回归分析方法建模是一种常用的有效方法,但是在计算的过程中会涉及到大量的算术运算,如果不使用软件,在課程教学中会耽误进度,以及影响计算的准确率。[5]
案例:对以下数据进行回归分析,
X=[143,145,146,147,149,150,153,154,155,156,157,158,159,160,162,164];
Y=[88,85,88,91,92,93,93,95,96,98,97,96,98,99,100,102]
Step1:输入数据。
>> x=[143,145,146,147,149,150,153,154,155,156,157,158,159,160,162,164];X=[ones(16,1),x];
>> Y=[88,85,88,91,92,93,93,95,96,98,97,96,98,99,100,102];
Step2:回归分析及检验。
>> [b,brint,r,rint,stats]=regress(Y,X)
% b为的估计值,brint为回归系数的区间估计,r为残差,rint为残差的置信区间,stats为用于检验回归模型的统计量。
得结果:b=-16.0730 brint=-33.7071 1.5612
0.7194 0.6047 0.8340
stats=0.9282 180.9531 0.0000
即 =-16.073,=0.7194;的置信区间为[-33.7017,1.5612]。的置信区间为[0.6047,0.834];r2=0.9282,F=180.9531,=0.0000,我们知道<0.05就符合条件,可知回归模型=-16.073+0.7194成立。
Step3:残差分析,做残差图。
>>rcoplot(r,rint)
Step4:预测及作图。
>>z=b(1)+b(2)*x
>>plot(x,Y,'k+',x,z,'r')
2 开展随机模拟实验,激发学生学习兴趣
统计学作为应用数学的一个分支,必然涉及到很多的数学知识,对于很多数学基础不太好的学生,失去了学习统计学的兴趣。其实,部分学生没有学习统计学的兴趣,也跟老师课堂授课风格有关系,传授知识太过于理论化,缺少实践教学。太过于严肃的课堂氛围,使学生感到有压力,会对该学科失去兴趣。授课老师应当加强与学生的互动,利用Matlab工具箱,可以适当的开展随机模拟实验,老师向学生演示,也可以邀请学生共同参与。
例如,进行抛硬币的随机模拟实验,验证当试验次数足够多,频率趋近于概率。当然,进行实验时,不要求学生掌握编写的程序,重在让学生参与其中,重在让学生观察实验现象。这样既可以增加学生的学习积极性,又可以让学生加强对知识点的理解及记忆。
3 结论与讨论
本文针对统计学的部分内容,演示了Matlab统计工具箱的一些具体操作步骤,得到了一系列相应的计算结果和强大的的作图分析功能,大大地方便了老师对繁杂过程的教学演示。Matlab统计工具箱具有强大的统计分析能力,在统计学教学过程中,要重视对Matlab统计工具箱的使用,更好地将统计学教学与Matlab统计工具箱相结合。
*通讯作者:金哲植
项目基金:吉林省教育厅“十三五”科学技术研究(吉教科合字[2016]第248号)
参考文献
[1] 金哲植,刘光华.R与SAS的集成在统计学教学中的应用研究[J].科教导刊,2013(24).
[2] 尹永学.自由开源软件在高等教学中的应用[J].高教视窗,2009:156-157.
[3] 陈彦光.基于Matlab的地理数据分析[M].北京:高等教育出版社,2011.
[4] 姜启源,谢金星,叶俊.数学模型(第四版)[M].北京:高等教育出版社,2011.
[5] 余娟.Matlab在高中数学回归分析中的应用[J].软件导刊(教育技术),2008(5).endprint