有趣的图表示法构建丰富的直观教学实践
2015-05-30李亚杰
李亚杰
[摘 要]图表示法使资料的呈现方式更直观、更形象,可以帮助研究者对资料进行探索性分析。对于学习统计学的大学生来说,从图形来认识统计学,能极大增强学生的学习兴趣。可以引导学生选择现实数据进行探索性数据分析,通过统计图形的直观展示,进行案例教学。
[关键词]统计图形 探索性数据分析 教学
[中图分类号] G642 [文献标识码] A [文章编号] 2095-3437(2015)03-0112-02
一、引言
1962年美国著名统计学家约翰·图基提出探索性数据分析(Exploratory Data Analysis),是指对数据的认识可以通过作图、制表等手段来探索结构和规律的方法,其研究成果被翻译成中文版书籍《现代外国统计学优秀著作译丛:探索性数据分析》。统计图表示法使资料的呈现方式更直观、更形象,借助这些工具可以使研究者对资料有较深的印象,同时利用这些作图方法,可以帮助研究者对资料进行探索性分析,有助于进行更为专业的定量分析,形成合理结论。
统计图形领域有大批卓有成就的研究者,他们为统计图形的发展做出了很多贡献。例如Edward Tufte (1992,2001),人称“数据达芬奇”,是统计图形和信息可视化领域的领军人物,曾在耶鲁大学里教授统计、信息设计、界面设计等课程。Chernoff(1973)提出著名的脸谱图来表示多变量数据,Wainer and Thissen (1981)将其应用在公司财务分析方面。贝尔实验室的Cleveland (1985,1993)等,以S语言为基础,偏重于高维和动态的图形展示,尤其是Cleveland在数据可视化和统计图示方面提出了很多原创图形。Friendly and Denis (2001)给出一份关于统计图形的非常详尽的历史总结资料,其中整理、记载了自17世纪至今数百年历史中较有影响力的统计图形。
如今实际工作者已认识到统计图形的直观易懂优势,饼图、直方图、折线图、箱线图等简单的统计图形使用比较普遍,但是由于实际问题的复杂性,在对统计图形的使用上并不能随心所欲,即使有创造新图形的思路与想法,也受统计软件所限。即使在学术界,统计图形的价值也没有被充分体现出来,例如我们来看这样的事实,谢益辉曾在2008年做出统计图形使用情况的调研,他以国内统计学方面的核心期刊《统计研究》在2006年12月至2007年11月期间(12个月)的所有论文作为调研对象,去除非学术研究论文后,挑选论文总数168篇,发现其中使用表格的为136篇论文(占比81.43%),使用统计图形的论文63篇(占比37.72%),若将使用示意图(非统计图形)、条形图和折线图(简单统计图形)的论文除外,使用其他统计图形的论文仅剩9篇。[1]这样的情况让我们深思,“图形无用武之地”应该怎么办?一方面要把现有的更多的有用的统计图形介绍给不同层次的大众,例如“从娃娃抓起”的统计学图形教育,同时引导大众集思广益创造新图形。另一方面在统计图形的软件实现上做简单化推广,例如充分发扬R软件在制图上的优势,制作简单易学的R软件图形使用手册,推荐给大众。
在中国统计教育学会的网址上列有“全国中小学生统计图表设计邀请赛”的通知,“从娃娃抓起”的统计学图形教育是比赛的初衷。该网站上面还列有“台湾地区统计图竞赛情况介绍”等内容,根据台湾辅仁大学谢邦昌教授提供的资讯,宝岛台湾组织统计图表大赛跨越两个世纪,早在1988年,台湾地区统计学社负责人参访日本的过程中,对日本组织统计图表比赛情况进行了调研。返台后,该社商有关行政部门同意并获配合,从1989年起逐年组织此项赛事,到2009年共举办了20届。
二、认识统计图形
统计图是结合统计指标与美术设计的创意表现,透过色彩分明的图像及独特的构思布局,令人第一眼就想要亲近它,进而探寻它所传达的讯息,因此毫无疑问地,统计图是呈现统计结果最为通俗、易懂的方法。在实际应用中会接触到大量的数据,若数据只以数字形式出现,会给人造成繁杂无序的印象,难以令人观察到统计量间的关系和数据本身的统计性质。而图示法恰恰具有形象具体、简明生动、一目了然的特性,并可以表示多个现象间的对比关系及依存关系,可以揭露总体的性质,可以检查计划或进程的执行情况。
现有的统计图形有饼图、直方图、条形图、茎叶图、箱线图、散点图、雷达图、玫瑰图、气泡图、QQ图、脸谱图、冰状图、谱系树状图、矩阵图、关联图、条件密度图、等高图、条件分割图、一元函数曲线图、Cleveland点图、星状图、颜色等高图、四瓣图、颜色图、马赛克图、散点图矩阵、三维透视图、因素效应图、平滑散点图、调和曲线图、棘状图、带状图、向日葵散点图、符号图、热图、交互效应图、生存函数图、分类与回归树图、小提琴图、地图、平行坐标图、二元箱线图,等等。
例如下面的图形就是根据某问题给出的脸谱图,可从不同的脸形、微笑表情给出结论。脸谱图被誉为“最浪漫的统计图形”,该图是1973年统计学家赫尔曼·切尔诺夫在美国统计协会杂志上发表的文章里给出,该文章的题目为《The Use of Faces to Repre-sent Points in k-Dimensional Space Graphically》,脸谱图将多维数据附在脸部特征之上帮助研究者找出数据模型、类别和关系,这种方法现被称为切尔诺夫脸谱图(Chernoff Faces)。我们要认识到,现有的图形也不是尽善尽美的,还需了解其适用性、优缺点,不断改进。不同图形的特点不一样,例如散点图绘制较为简单,可以最直观地读取数据,但难以反映大于三个变量间的关系和数据本身的性质;轮廓图部分克服了散点图的缺点,但是数据庞大后会有些许混乱;雷达图也是在少量数据参与分析时,结果显示的才会比较清楚;脸谱图作为较为新颖的统计图,主要优点是将量化的数据形象人脸化,有一定的趣味性,但以丧失数字本体为代价,势必难以反映统计细节。
在统计类课程、概率系列课程的教学中,可以引导学生从以下几个方面进行统计图形的研究。
(1)对现有的统计图形做综述,梳理出各种统计图形的名称、方法、优缺点等。为了把图形提到“统计分析”“统计建模”的高度,就要“知其源”,即搞清楚现有统计图形的来龙去脉,包括该图形对数据的要求、相关统计量的计算、图形的构造与组合机制、该图形中的参数含义、不同图形的类比和对比,掌握图形基础元素的软件使用,即图形中的点、线、边、颜色、文本等的绘制,从而为“根据新问题创造新统计图形”提供方便的解决方案。
(2)针对实际问题利用统计图形做直观解释。或许有人会认为“图形往往代表着简单”,然而“直观”与“简单”是不同的概念,统计图形的首要作用是直观展示信息,列宁在《哲学笔记》中,把“直观”作为人类认识活动的起点,一幅优秀的统计图形背后也许隐藏着重要的信息和规律,这些信息和规律并不“简单”。可以引导学生找出感兴趣的社会热点问题,用多个现有统计图形展示问题;也可以让学生自己自由发挥设计图形,并对图形反映的信息做出解释,找到“看不见的手”——规律。
(3)培养学生进行探索性研究,引导学生给出一种新的统计图形研究方法。如果对调研问题的情况几乎一无所知,那么研究就要从探索性研究开始,可以充分发挥统计图形的直观展示作用。针对调研问题,在深入了解统计图形的基础元素、构造之后,可以寻找多种现有图形的共性进行认识、提炼、抽象,从而给出更适合调研问题的新统计图形,这样反复认识和抽象的过程也是真正精通统计图形的过程。
(4)选择一种优秀的统计软件为制图工具(例如R、SPSS、SAS)是学习统计图形的必经之路,选择的主要准则:统计计算功能齐全,统计元素易于控制,图形类型多种多样。另外,可以进一步去了解绘制高质量图形的图形系统,例如base graphics(基础图形系统)、grid(网格图形系统)、lattice(Deepayan Sarkar开发)、ggplot2(R中新颖的数据可视化包)等。
(5)对各种统计图形从模型方法方面进行研究。在应用中要想合理使用模型,就要清楚模型的假设前提、计算原理、图形展示、结果解释等。常见的统计模型有线性回归模型、方差分析模型、分类数据模型和列联表、主成分分析和因子分析模型、聚类分析模型、判别分析模型、对应分析模型、多维标度分析模型、时间序列模型、混合效应模型、生存分析模型、非参数回归模型、空间统计学模型、稳健回归模型、广义线性模型、数据挖掘和机器学习模型等[2],掌握适当的模型才能够清楚区分统计图形运用的条件和场合。
三、结束语
历史上极富影响力的统计图都融入了前人的智慧与艺术,最早的统计图形是“地图”,著名的南丁格尔“玫瑰图”,Charles Joseph Minard的“拿破仑1812远征图”,这些图形在当时具有重大社会价值。尽管不可能每幅统计图形都能达到那样的重大效果,但我们要认识到“统计图形在揭示特殊现象或规律上的功能是数据本身不能替代的”。所以对现有统计图形进行梳理,并开发出新的统计图形处理庞杂的数据,从而获得独特而全面的信息与视角显得意义重大。
统计图形利用人的视觉系统,在传递信息上直观、迅速、易懂,进行图形分析需要具备一定的观察力,可从观察数据的分布状况、异常点、线性或非线性关系等入手,“因地制宜”是处理数据的最佳方法,从而由图形角度去洞察到数据反映的规律或揭示的异常现象。
[ 注 释 ]
[1] 谢益辉.统计图形和模拟视角下的模型理论解析[D].北京:中国人民大学统计学院,2010.
[2] 吴喜之.统计学:从数据到结论[M]北京:中国统计出版社,2004.
[责任编辑:覃侣冰]