基于R 语言与BDP 的地震数据可视化
2024-01-10杨丽佳陈新房汪世伟
杨丽佳,陈新房*,汪世伟
(防灾科技学院,河北三河)
1 数据可视化的发展
数据可视化真正追溯其根源,可以把时间往前推10 个世纪,其发展大致经历了10 世纪的填补空白、14-17 世纪拉开帷幕、18 世纪的初露锋芒、19 世纪的黄金时代、20 世纪的稳步发展以及21 世纪的日新月异6 个时期。如图1 所示,是目前最久远的数据可视化图像,其中包含了很多现代统计图形元素:坐标轴,网格,时间序列。
图1 10 世纪数据可视化作品
进入21 世纪以来,计算机技术获得了长足的进展,计算机图形学,高分辨率高色深还原度的屏幕应用越来越广泛,数据可视化的需求也正在变得越来越强烈。数据可视化进入一个新的黄金时代[1]。
2 什么是数据可视化
数据可视化是指将大型数据集中的数据以图形图像形式,并利用数据分析和开发工具发现其中未知信息的处理过程。其基本思想,是将数据库中每一个数据项作为单个图元元素表示,大量的数据集构成数据图像,同时将数据的各个属性值以多维数据的形式表示,可以从不同的维度观察数据,从而对数据进行更深入的观察和分析[2]。
数据可视化可以帮助人们在大量的数据中快速发现重要的信息。使得人们更容易地对比数据之间的差异和相似之处。有利于更好地理解数据之间的关系和规律。交互式地探索数据,并得出结论。更容易地与他人分享数据[3]。
3 地震数据可视化
目前已经有许多数据可视化工具,主要包括入门级工具(Excel)、信息图表工具(Google Chart API、D3、大数据魔镜)、地图工具(Modest Maps、Leaflet、Quantum GIS)、时间线工具(Timetoast、Xtimeline、Timeslidey) 和高级分析工具(Processing、R 语言[4]、Python[5]、Weka 和Gephi)等。
本文利用R 语言与BDP(Business Data Platform)商业数据平台对中国地震台网提供的近一年3.0 级以上地震进行可视化处理[6-7]。
3.1 爬取数据
实验中使用八爪鱼工具爬取中国地震台网近一年3.0 级以上地震信息。网址为:http://www.ceic.ac.cn/speedsearch?time=5,进行循环爬取,爬取数据共计997 条。
3.2 数据预处理
按照中国的经纬度范围对数据进行初步筛选。同时将纬度、经度、深度三列数据转换成数字模式。
筛选出纬度在4°~53°、经度在73°~135°的数据。剩余802 条数据,数据集名称为earthquakeqx.xlsx,如表1 所示部分数据。
表1 earthquakeqx.xlsx 部分数据
3.3 基于R 语言的数据可视化
在安装了依赖包的基础上,加载依赖包,在VMware Workstation 环境中centos01 节点上操作[8]。
对各省份在过去一年中的发震次数进行统计,运用R 语言将参考位置限定于中国,进行数据过滤:data1<-subset(data,grepl("北京|天津|河北|山西|内蒙古|辽宁|吉林|黑龙江|上海|江苏|浙江|安徽|福建|江西|山东|河南|湖北|湖南|广东|广西|海南|重庆|四川|贵州|云南|西藏|陕西|甘肃|青海|宁夏|新疆|香港|澳门|台湾",data$position))
统计各省份发震次数制成条形图,如图2 所示。
图2 全国各省份近一年发生3.0 以上震级频次
3.4 使用BDP 绘制地震数据分析图
将清洗后的数据导出:
使用ftp 将这两个文件导出到window系统中。
(1) 绘制地震等级分布图
打开网址https://me.bdp.cn,打开数据分析工具-BDP 个人版,注册并登陆。
这里使用清洗后的data.xlsx 数据,绘制地震等级分布,如图3 所示。可以看出,新疆,四川,台湾,西藏是发震分布最多的四个地区。
图3 近一年地震分布
(2) 绘制地震发生词云图
绘制出全国各省份近一年地震发生词云图,如图4 所示。同样看出,四川,新疆,台湾,西藏是出现频率最高的四个词语。
图4 词云图
(3) 地震发生季度图
如图5 所示,绘制出季度图。第三、四季度出现强震的几率更大,西南、西北、台湾发震频繁且震级较大,深度较深,所以建议大家如果以后在这些区域发展要注意防震减灾。
图5 近一年各个季度各省份最大地震
(4) 时间动画
应用BDP 可以进一步进行分析,制作过去一年中发震地区震级分布的时间动画。如图6 所示,显示了2022 年9 月20 日发生地震位置的动画页面。https://me.bdp.cn/api/su/C6D7R9LO 可以浏览完整动画。
图6 一年中发震地区震级分布的时间动画
结束语
本文首先介绍了大数据可视化的历史发展过程、定义及作用,在此基础上,利用R 语言和BDP 对地震数据进行可视化处理。经过可视化分析,尽管目前还不能十分准确地找到地震发生的规律,不过已经通过对比分析,了解了地震高发地的分布以及震级的分布,为防灾、减灾、救灾工作提供了数据支撑,为开展工作进行决策提供支持,为减少人们的生命财产损失提供了一定保障。地震预测是一项十分复杂的工作,面对地震的到来,唯一要做的就是沉着应对,不抛弃,不放弃。