APP下载

利用数据可视化技术提高编目数据传播的效率

2016-01-29张从珍毛国良李冬圣蔡玲玲赵英萍杜迎春武有文

华北地震科学 2015年4期
关键词:数据可视化图形

常 亮,张从珍,毛国良,李冬圣,蔡玲玲,赵英萍,杨 锐,杜迎春,武有文

(河北省地震局,石家庄 050021)



利用数据可视化技术提高编目数据传播的效率

常亮,张从珍,毛国良,李冬圣,蔡玲玲,赵英萍,杨锐,杜迎春,武有文

(河北省地震局,石家庄050021)

摘要:指出了利用文字或数字方式展示地震编目数据的缺陷,通过逐步分析引出了数据可视化技术在信息传播速度、全面性方面的优势,通过气泡图、堆叠式条形图、箱线图、折线图、三维散点图进行多角度的可视化数据展示,体现了数据可视化技术在地震编目数据传播中的直观性和高效性。

关键词:数据可视化;图形;编目数据集

0引言

地震编目数据是测震台网产出的最主要的地震资料[1],广泛用于预报、震情监视、科研等工作[2]。不论是地震科研还是撰写报告,经常需要对多组数据集进行比较并从中找出某些规律,通常会采用文字或数字方式来展现,在数据量较小时这种方式容易被接受,当数据量很大时这样的方式就不再有效率可言了。如何才能直观地实现大量数据的对比展示呢?根据专家研究发现,人眼对于可视符号的感知速度比对数字或文字快多个数量级,使用图形数据展示可迅速从数据中发现模式和规律[3]。

人眼对于颜色、图形等有形有色的东西比较敏感。数据可视化技术就是借助计算机软件将原本可以用文字、数字描述的东西以图形方式展现,并且利用图形的颜色、形状等信息表现不同维度的数据。在计算机图形学技术初期,人们只是用一些简单的图形来描述数据,随着云计算、大数据挖掘等数据处理技术的发展,简单的图形学已经无法满足需求,数据可视化技术随之应运而生。数据可视化不仅要传播信息,还要考虑新颖性、高效性,利用不同的场景提高信息传播能力,要充分考虑到受众目标、使用方式等因素[4]。根据上述概念,可以想象数据可视化不仅仅是用图形展示数据,还要让图形更美观,更简洁、更准确。

1编目数据展示的发展历程

1.1 列表方式

人们对信息的认识从文字或数字方式开始,通常会使用表格方式(表1),表中展示了2008年的编目信息(限于篇幅仅列5条为例),表中描述了每条地震的时、空、强等信息,根据这些信息可以大致了解到测震台网在某段时间内的数据产出情况。在做数据分析或研究时通常需要找出数据的某些规律,数据量较小时,似乎能看出规律,但数据量很大时则很难在短时间内找到规律,这样的原始数据列表信息传播速度较慢。

表1 2008年1月河北台网地震编目数据表

1.2 统计分析方式

表1的列表方式无法让人一目了然,即使是长期从事地震编目的工作人员也不能立即看出规律。之后人们对这样的数据进行统计分析,得出一些基本信息,比如:地震数量、最大震级、地震分布状况等,这样的统计结果要优于原始数据列表,但依然存在一些问题。它给出数据集的极值、总量或平均值,但无法描述数据的整体分布状况,所以统计分析方式也无法全面的传播信息。

1.3 可视化方式

如果采用可视化方式,利用一张图形就能清晰描述数据整体分布状况(图1)。图中最下面的横线是正常值中的最小值,最上面的横线是正常值中的最大值;中间方框的下部是下四分位数,方框中间的粗横线是中位数,方框的上部是上四分位数;最大值与最小值之外的那些点属于离群点,它们与绝大多数的值相距较远。从图1中可以看出该组数据中正常值的最大值大约是ML2.5,正常值的最小值大约是ML-0.8,中位数接近ML1.0,所有值的最大值是ML4.7(图中最上面的那个点)。有一点需要注意,对于本图来说正常值中的最大值并不是所有值中的最大值,所有值中的最大值应该是那些离群点里最上面的一个点。

图1 震级值箱线图

2可视化技术展示数据

2.1 数据集整体状况的展示

报告中,通常在开篇使用总结性的语言描述整体状况,诸如“1月发生地震多少次,2月发生地震多少次 …… ,其中最大地震为某月的某次地震”。这样的描述完全可以用气泡图来表示,气泡图属于三维图,可以同时表示月份、数量和最大值3个数据项。图2显示的是2014年河北省地震编目数据,从图中可以看到,全年震级最大的地震是9月的ML4.7地震;地震次数最多的月份是10月,将近170次;地震次数最少的是7月,少于100次。这样的图形完全可以将整体状况描述清楚,即使没有文本说明也能让人一目了然。

图2 2014年河北省地震编目数据气泡图

2.2 数据集总量与占比的对比展示

想要横向比较各年度地震总量,一般会采用直方图或柱状图,通过图形的高低能看出数据总量的差异;想要纵向比较每年各震级区间与地震总量的占比,一般会采用饼图,通过图形所占面积的大小能得到各部分所占的比例。如果既想横向比较数据间的总量,又想纵向比较数据内的占比,可以采用可视化技术中的堆叠式条形图。如图3所示,该图中的每个矩形的高度就是表2中每年度的地震总数,每个矩形内部又分出4个不同的区域,分别代表不同震级区间的地震数量,颜色最深的代表ML1.0~1.9地震数量。从图3可以看出每年的地震主要都集中在ML1.0~1.9震级区间内,而2010年的地震数量明显多于其他年份。

表2 2008—2012年首都圈地区地震活动统计表

图3 年度地震总量与震级区间数量堆叠式条形图

2.3 多组数据集数据分散状况比较

在对比多组数据集时,如果只是对比数据集的总量和最大值并不能反映这些数据集本质的差异,如果两者的总量和最大值一致,则无法反映一组差异很大的数据集。假如有2组表示震级的数据(表3):

表3 2组震级数据

虽然2组数据的最大值都是ML2.3,而且每组数据的总量都是8个,但明显可以看到组1中的数据比较分散,既有ML1.0以下的地震,也有ML1.0~2.0之间的地震,还有ML2.0以上的地震,而组2中的地震几乎都集中在ML1.8~2.3之间。单纯用数据总量和极值无法对上述2组数据做出准确的描述,而用箱线图就能清楚地看出不同数据集中数据的分散状况。将12个月的震级数据绘制到1张图上(图4),通过对比能够直接看到每个月震级的分布状况。全年地震最小值出现在2月和11月,小于ML-0.5;全年地震最大值是9月的ML4.7;9月的下四分位数小于ML0.5,是全年中最低的,这意味着该月有25%的地震震级在ML0.5以下;全年大多数月的中位数在ML1.0附近,只有9月和12月的中位数在ML0.7左右,表明9月和12月的地震有一半在ML0.7以上;5月的上四分位数超过ML1.5,为全年最大值,这意味着该月有25%的地震震级在ML1.5以上。

图4 震级数据箱线图

2.4 多组数据集趋向走势的展示

当需要对一些统计信息进行描述时,经常会用到如表4所示的方式。表4描述了2012—2014年河北台网每月处理的地震个数(包括首都圈地区及本省行政区边界外30 km内的所有地震)。单独看这些数字时很难立即在大脑中产生对比结果,但使用折线图(图5)后就能看到一个清晰的趋势。

表4 2012—2014年河北台网每月处理的地震个数统计

图5 2012—2014年每月地震数量折线图

2.5 多组数据集个体三维分布的描述

由表1虽然可以看到地震震中的经纬度,但通常只有长期从事地震编目分析工作的人较容易通过经纬度的值在大脑中形成地震的大致位置,其他人员很难构建出这样的虚拟图,而采用散点图方式则可以很鲜明地将所有地震发生的位置展示在图上,但是这个图是平面的。地震发生位置是由经纬度及深度来描述的,那么就需要用三维散点图来展示(图6)。图6 为2014年1月的部分地震数据做出的三维图,从图中可以看出震源深度最深的地震接近16 km,最浅的在4 km左右;地震在经度上主要集中在114.0°E ~118.5°E之间;地震在纬度上主要集中在37.0°N ~40.0°N之间。

图6 2014年1月地震编目数据三维散点图

3结束语

通过上述5种不同的可视化图形,分别展示了数据集的整体状况、数据集总量与占比、数据分散状况、趋向走势、及个体三维分布状况。这5种可视化技术都能满足信息传播的高速性、直观性、准确性,特别是当数据量比较大时,可视化数据分析比文本数据分析更具优势。可视化数据不仅可以为专业人员服务,而且对于非专业人员来说也能从图形中看出一些规律,它扩大了数据的传播范围,降低了数据的接收难度。以上可视化数据图均采用R语言生成,R语言由Ross Ihaka和Robert Gentleman开发[5],它具有数据分析与绘图功能。

致谢:本文所用测震编目数据是河北省地震局测震台网全体编目、值班人员在一年中辛勤工作完成的,在此向台网所有编目、值班人员表示感谢!

参考文献:

[1]常俊,赵曦,姬建中.基于Oracle的地震数据共享方案设计及数据库实现[J].地震地磁观测与研究,2011,32(5):143-147.

[2]王兰兰,杨晶琼,张雪玲,等.技术进步是提高编目质量的关键[J].地震地磁观测与研究,2008,29(4):105-107.

[3]陈为,沈则潜,陶煜波,等.数据可视化[M].北京:电子工业出版社,2013:2.

[4]Julie Steele, Noah Iliinsky.数据可视化之美[M].祝洪凯,李妹芳,译.北京:机械工业出版社,2011:7-9.

[5]李诗羽,张飞,王正林.数据分析:R语言实战[M].北京:电子工业出版社,2014:5.

乔子云,罗娜,张国苓,等.河北大柏舍台深井与浅层地电阻率观测对比分析[J].华北地震科学,2015,33(4):49-53.

Visualization Technology Improves the Efficiency of

Seismic Catalog Data Transmission

CHANG Liang, ZHANG Cong-zhen, MAO Guo-liang, LI Dong-sheng,

CAI Ling-ling, ZHAO Ying-ping, YANG Rui, DU Ying-chun, WU You-wen

(Earthquake Administration of Heibei Province, Shijiazhuang 050021, China)

Abstract:This paper points put the defects of using texts or numbers to display data, and then states the advantage of data visualization technology in information transmission speed and comprehensive through multi angle data displaying by bubble plot, stacked bar plot, line plot, box plot, 3D scatter plot. The visualization and high-efficiency of visualization technology in catalog data transmission are shown.

Key words:data visualization; data set; catalog data

作者简介:乔子云(1965—),女(汉族),河北大名人,高级工程师,主要从事电磁分析和地震预测研究工作.E-mail:qzy@eq-he.ac.cn

基金项目:国家自然科学基金(41274079);震情跟踪定向工作任务(2015010403)

收稿日期:2015-04-20

doi:10.3969/j.issn.1003-1375.2015.04.008

中图分类号:P315.391

文献标志码:A

文章编号:1003-1375(2015)04-0045-04

猜你喜欢

数据可视化图形
移动可视化架构与关键技术综述
大数据时代背景下本科教学质量动态监控系统的构建
可视化:新媒体语境下的数据、叙事与设计研究
我国数据新闻的发展困境与策略研究
基于R语言的大数据审计方法研究
数图形
分图形
找图形
图形变变变
图形配对