APP下载

电子表格中的沙粒

2009-08-28

数据 2009年8期
关键词:参数估计因变量直方图

邓 力

现如今,统计学基础教程几乎都搭上了Excel的便车,至于用这款便车运载论文课题等研究成果的,更是多得数不过来。Excel在作数据分析时很灵便,但美中不足的是含有小小沙粒。这沙粒如果不拨弄出来,也会搞得人很不爽,以下是其中三颗。

■ 第一颗沙粒

从回归分析中挑出来的

在众多模型中,回归模型以其赫赫老牌和经世济用而威风不倒。自从有了电脑,回归预测中那些个线性模型,尤其是非线性模型,也由让人望而生畏而变得可亲可近了。

话说预测模型(yc)的构建,是靠因变量(y)和自变量(x)的实际资料来支撑的。这y和yc不是一码事,y表示因变量的实际值,yc表示因变量的预测值。但在输出结果中,却将y和yc弄混了,把原本为yc=a+bx的,误写成了y=a+bx。而要将误写的y改为yc,方法很简单,只要拖黑选定并右单击y,选择“数据标志格式”,在弹出的对话框里,勾选下标,再选择“确定”按钮就可以了。

■ 第二颗沙粒

从统计图中拨弄出来的

在什么山头唱什么歌,柱形图适合离散变量的资料,直方图适合连续变量的资料。在图表向导里头的图表类型中,柱形图排名第一,而直方图却被“省略”掉了。没有办法的办法是,根据所需急要,只好将柱形图演变成直方图了。

图1是一个柱形图,图2是一个直方图,图2是在图1的基础上打造出来的。为什么要来这么一番改造,原因很简单。直观来看,图1显示的是运动员身高的人数分布,身高是连续型变量,用柱形图来表示,显然不合适;由于连续变量的相邻组限是重叠的,所以,各柱子之间应该是零距离。

将柱形图(图1)改造成直方图(图2)的做法是:第1步,将各柱形之间的间隔调整为连续的,即右单击柱形图中的任意一个柱子,选择“数据系列格式”,在弹出的对话框中,选择“选项”选项卡,将“分类间距”调整为0,再选择“确定”按钮;第2步,将横轴标注的刻度改为连续的区间,即双击横轴,将字体颜色改为白色,将字体背景颜色改为透明,这样就将横轴上原有的数值隐藏起来了,接着,在文档中键入数值“1.801.902.002.102.202.30”,再将这些数值“复制——选择性粘贴——确定”到电子表格的相应位置,右单击文本框并选择“设置对象格式”,在“颜色与线条”选项卡中选择线条颜色为白色,然后选择“确定”按钮;第3步,将直方图和文本框进行组合。好,如此这般,一个活脱脱的直方图就出现了。

■ 第三颗沙粒

从回归输出中挑拨来的

有人打趣说,用电脑进行回归分析还真不错,点击之间,输出一大片,写个文章什么的,这结果占的空间大,给的信息多,一眼瞧上去还挺学术,说不准还能唬人呵呵。是啊,简单实用,还能促成论文字数的达标,顺带还可以唬一唬人,可不咋地,美呀!大家追捧回归分析,热情有增无减,从教材到杂志,从理论到实践,由来已久。回归分析很风光,这里不想继续美言,而是想说一说其他,叨咕一下洋货Excel的不是。

用这款软件进行回归分析,操作步骤如下:“工具”→“数据分析”→“回归”→“确定”,然后在回归的对话框里,填上相关的信息,选择“确定”按钮。为了突出此行的目的──找沙粒,表中只列出了输出结果的框架,而省去了用实例所输出的数字。

表1就是回归输出的结果,表2是在表1基础上修改的结果。

在表1中,随手拢来几颗小沙粒,排列摆弄如下:

一是中英文夹杂。也知道这款软件是飘洋过海来的,但大伙儿使用的是翻译过来的中文版。显然,这英译汉还不到位,好些洋文还在其间抛头露面,比如,SUMMARY OUTPUT、Multiple R、R Square、Adjusted R Square、Coefficients、Intercept等;好些英文缩略语也在其间探头探脑,比如,df、SS、MS等。

二是门类没列全。这是从输出结果的结构来看的。输出的结果由三部分组成,也就是三张表格,即回归统计、方差分析和参数估计。但参数估计这张表并没有列明标题,没头没脑的,让人一见就愣神儿。

三是表格不规范。既然输出的结果是以表格的形式呈现的,自然就得遵守制表的规矩,要注意上基线、下基线和细线的位置,注意交叉线条的有序出没等。当然,使用者各取所需,有撷取其中一二的,有略作调整后全盘照搬的,但不管怎样,输出结果要一步到位。

四是缺省了负号。输出结果中,相关系数一律为正,这显然脱离了实际。相关系数有正有负,正如世间有男有女一样,缺一不可。相关系数的符号,指明了相关变量的方向。两变量的关系,如果是同升或同降的,就为正相关,符号为正;如果是一升一降或一降一升的就为负相关,符号为负。如果说把负相关的结果显示为正相关的,那么怎么也说不过去。

同时,表述也有不准,比如,在方差分析列表中,回归分析应为回归离差。另外,还存在重复多余的问题,比如,在参数估计列表中,既有Lower95%和Upper95%,又有下限95.0%和上限95.0%,显然,其中一组,多此一举。

其实,回归输出结果的列表中,如果还增加两张表,可能会更受欢迎。这两张表,一张是三项检验表,即列出相关系数、回归系数、回归方程的检验结果与文字说明;一张是预测结果表,即直接列出预测模型、个别值的区间预测值、平均值的区间预测值。要知道,回归输出虽好,但个别值和平均值的区间预测等,还要靠纯手工操作,这实在是太累人。

总之,回归输出的结果还可以并且也应当输出更养眼的结果。

(作者单位:湖南长沙大学)

猜你喜欢

参数估计因变量直方图
调整有限因变量混合模型在药物经济学健康效用量表映射中的运用
基于参数组合估计的多元控制图的优化研究
用直方图控制画面影调
偏最小二乘回归方法
谈谈如何讲解多元复合函数的求导法则
基于部分相关的LFM脉冲全参数估计
浅谈死亡力函数的非参数估计方法
浅谈死亡力函数的非参数估计方法
例析频率分布直方图
精心设计课堂 走进学生胸膛