基于Tableau的商业数据可视化的分析
2018-04-25王欣玉
王欣玉
摘要:Tableau是一款定位于数据可视化的智能展现工具,可以用来实现交互的、可视化的分析和仪表板应用,从而帮助企业快速地认识和理解数据,以应对不断变化的市场环境与挑战。简便、快速地创建视图和仪表板是Tableau最大的优点之一,本文主要内容为介绍Tableau的数据基础,学习实现利用Tableau快速创建基本的视图,通过一个案例展示Tableau创建、设计、保存视图和仪表板的基本方法,以此来供相关人士参考与交流。
关键词:Tableau;商业数据;可视化
引言
数据可视化于上个世纪五十年代左右出现,最出名的代表是计算机创造出了图形图表,1987年,布鲁斯·麦考梅克等撰写的《科学计算可视化》加快了可视化技术的发展,第一次将科学计算中的可视化称之为科学可视化。20世纪90年代初期,出现了信息可视化。目前将科学可视化与信息可视化都归为数据可视化。数据可视化是信息时代人们对于逻辑思维形象化需求的产物,在数据呈现爆炸增长,社会快速发展的潮流中,数据的处理是很重要的一个研究方向,其中数据可视化的研究是数据处理重要的一个方面,本文借助Tableau软件,利用某商场的全球商业数据进行可视化研究,为数据可视化的进程增添了部分理论依据。
一、数据可视化的好处与优点
数据可视化是数据领域一个重要的分支,目的是“让数据说话”,展现数据之美。好的图表会说话,好的图表可以抓住用户的心。信息时代让人们的生活节奏加快,人们每一天都变得匆忙,时间被碎片化,甚至没有多少时间完整看完一段文字。文字的力量是有限的。只有借助可视化,信息才能高效地传播。数据可视化是数据领域一个重要的分支,目的是“让数据说话”,展现数据之美。好的图表会说话,好的图表可以抓住用户的心。在当今信息时代,信息出现了“泛滥”与“过载”,人们每天都受到各种信息的“轰炸”。当我们打开网页或手机APP时,首先进入我们视野的就是各种弹出的广告信息。这些信息从内容到形式,都经过了精心设计。我们走在大街上,映入我们眼球的则是满大街的广告海报,还时常有人站在街边向路人派发传单。我们不仅仅只从书上看到了可视化的图表,还从海报、信息图、PPT、数据产品、大屏等获取到了大量的可视化信息。能够让人们快速的得到所需要的数据信息[1]。
二、数据可视化的发展
数据图表是最常用的可视化元素,除柱形图、条形图、饼图、环形图、线图、散点图、面积图、雷达图、K线图、地图等基本图表外,现在也出现了更多新式的图表,如山峰图、雷达图、气泡图、热力图、漏斗图、树图、箱形图、瀑布图、河流图、词云图、仪表盘、南丁格尔玫瑰图、旭日图、和弦图、桑基图、3D图,等等。另外,智慧的人们也常常创意性地将各种图表混搭,例如地图和饼图、散点图、柱形图等搭配使用。由于技术的发展,实时数据采集、实时数据传输以及实时数据计算得以实现,人们终于得以欣赏到数据的灵动之美。以前人们只能看到事后数据形成的分析结果,看到的是数据的过去式,领略的是数据的静态之美。而现在,通过实时计算及数据可视化,人们可以知道“当前时刻发生了什么”,看到了数据的变化,看到了数据的动态之美。数据可视化在设计上更注重用户体验了由“信息泛滥”引起“信息过载”,从而导致“信息焦虑”。无论是风格、元素、配色、文字、交互上还是细节上,人们的可视化作品都越来越注重用户的视觉体验,希望能让用户一目了然,不多花一点儿时间去理解。在设计风格上,从3D拟物化到简洁扁平化再到拟物扁平化的发展变化,也在不断地为用户“做减法”[2]。
三、数据可视化的数据分析与来源
(一)数据来源
数据的来源是利用某商场的全球销售的数据,这部分数据包含的字段多,数据量大,符合数据可视化研究的基本条件,因此选择商业数据作为数据可视化研究的基础数据[3]。
(二)数据处理与分析
Tableau软件对数据的处理之前需要对数据进行简单的处理,综合商业数据的数据特点,主要采用三种数据处理的方法,分别是数据插值、数据拟合和SOM算法。在进行可视化分析的过程中,要注意数据拟合数据拟合是用连续曲线近似地刻画或比拟平面上离散点组所表示的坐标之间的函数关系的一种数据处理方法[5]。用连续的函数来分析离散的数据的一种常规的数据处理的方法,在科学研究或者实际生产过程中,可以把观测或者实验得到的数据对(xi,yi)(i=1,2,...,m),其中xi各不相同,对应的yi也各不相同,人们希望有这样一个函数能够经过实验所得的这些点数据,至少无限逼近这些点数据,从而达到一种拟合的效果,我们把这个通过这些点或者无限逼近这些点的这个函数成为拟合函数。得到拟合函数以后,可以对数据中的异常值或者缺失值进行剔除或者填充,这个数据处理的方法,在数据可视化的过程中显得尤为重要。实现多维数据可视化的方法是把一个高维空间的数据信息通过降低维度的方法达到能够可视化的目的,SOM算法主要是实现降低维度的运算,低维数据的空间可以分为若干个规格网格部分,规格网格要表示高维数据的信息,为了实现着这个目标,可以假设低维空间的网格由大约M个单元构成,单元j都有一个与高维信息维数相同的原型矢量,該单元在网格中的位置rj是固定的。SOM的训练过程实际是调整原型矢量数据的过程,可以通过训练得到原型矢量对应到低维空间,从而低维空间表示高维的信息。SOM算法是自组织神经网络的相关知识,在训练权值和阈值的过程中实现降维的对应法则,为数据可视化的维度变化提供算法支持[4]。
四、结束语
数据可视化的研究在利用了Tableau作为软件平台,同时借助于数据插值算法,数据拟合算法,和SOM神经网络算法的基础上对数据进行可视化,可以从图片的形象化视角来理解抽象的逻辑化视角数据,用户可以通过图片、表格等直观明了的角度看待数据,及时为正确的决策提供有力的建议和指导,在一定程度上促进了经济的发展和社会的和谐稳定。
参考文献:
[1] 陈明. 大数据可视化分析[J]. 计算机教育, 2015(5):94-97.
[2] 曾悠. 大数据时代背景下的数据可视化概念研究[D]. 浙江大学, 2014.
[3] 任永功, 于戈. 数据可视化技术的研究与进展[J]. 計算机科学, 2004, 31(12):92-96.
[4] 吴健生, 王仰麟, 曾新平,等. 三维可视化环境下矿体空间数据插值[J]. 北京大学学报(自然科学版), 2004, 40(4):635-641.
(作者单位:天津理工大学信息安全)