大数据可视化方法及挑战研究
2020-05-23雷雁茹
【摘 要】在当今世界,一切都是以数字方式记录的,从我们的网上冲浪模式到我们的医疗记录,我们每天都在生成和处理数十亿字节的数据。大数据将在生活的各个领域带来变革,但是仅仅处理和分析这些数据是不够的,当数据被可视化表示时,人脑往往能更有效地找到模式。数据可视化和分析在各个领域的决策中发挥着重要作用,它还在可视化领域带来了新的机遇,代表了通过可视化手段解决大数据问题的创新思维,但实时或静态地可视化如此庞大的数据量是一个相当大的挑战。在这篇文章中,我们讨论了为什么大数据可视化是最重要的,有什么相关的挑战,并回顾了一些大数据可视化工具。
【关键词】大数据;可视化;交互式
1 引言
近年来,大数据已经成为所有行业(包括学术界、信息技术公司和政府)感兴趣的话题。由于物联网、我们环境中的传感器以及所有离线记录(如我们的病史等)的数字化等因素,数据增长率在几年内呈指数级增长。大数据已经在如此短的时间内证明了它对这个世界的重要性,以至于今天几乎所有的信息技术和非信息技术公司都在存储他们生产的所有数据。
如今,企业努力只存储大量数据,而以有意义的方式分析、解释和呈现数据是以后的想法。大数据的主要挑战在于捕获、存储、分析、共享、搜索和可视化数据。大数据分析的一个主要方面是我们可以在巨大的数据集中找到有趣的模式,但实际上分析的结果通常是原始数据,通过这些数据很难解释任何事情。但是如果这些数字被直观地表示出来,那么我们的大脑就更容易找到有意义的模式并据此做出决定。
数据可视化当然不是新事物;它已经存在了几个世纪。数据可视化是传达信息和表示复杂事物的简单快捷的方法。我们人类适应于在我们看到的一切中寻找模式。由于数据以如此巨大的速度增长,传统的数据呈现方式已经过时。与传统数据相比,大数据的特点是5V,即大容量、高容量、高多样性、低容量和高价值。实际的挑战不仅仅是处理如此巨大的数据量,而是处理高度多样化的数据。数据的高度多样性和不确定性缩短了应用程序的响应时间,因为它不仅要处理传统的结构化数据,还要处理半结构化和非结构化数据。
2 大数据可视化所面临的挑战
当遇到非常大的数据集时,传统的可视化工具已经达到了极限,这些数据正在不断发展。虽然有一些传统可视化方法的扩展,但它们落后了数英里。可视化工具应该能够以尽可能低的延迟为我们提供交互式可视化。为了减少延迟,我们可以采用这样一些方式对数据进行处理,使用预先计算的数据;并行化数据处理和渲染;使用预测中间设备。
大数据可视化工具必须能够处理半结构化和非结构化数据,因为大数据通常具有这种格式。人们认识到,为了应付对于如此大量的数据,需要大量的并行处理,这在可视化方面是一个挑战。并行算法面临的挑战是将问题分解成独立的任务,使它们能够独立运行。
大数据可视化的任务是识别有趣的模式和相关性。我们需要仔细选择要可视化的数据维度,如果我们缩小维度以降低可视化程度,那么我们可能会失去有趣的模式,但如果我们使用所有维度,我们可能会发现可视化过于密集,对用户无用。例如:“给定常规显示器(130万像素),可视化每个数据点会导致过度绘图、重叠,并可能淹没用户的感知和认知能力。
由于大数据量大、规模大,很难可视化。目前大多数可视化工具在可扩展性、功能性和响应时间方面的性能都很低。已经提出了不仅使数据可视化而且同时进行处理的方法。这些方法在模型中使用Hadoop和存储解决方案以及R编程语言作为编译器环境,图1显示了这种模型的轮廓。
还有一些重大的大数据可视化问题,比如,视觉噪声:数据集中的大多数对象彼此之间过于相关。将它们分开变得非常困难;信息丢失:为了增加响应时间,我们可以降低数据集的可见性,但这会导致信息丢失;大图像感知:即使在实现了期望的机械输出后,我们也受到了物理感知的限制;图像变化率高:如果图像变化率太高,就不可能对数字做出反应;高性能要求:在静态可视化过程中,与要求更高性能的动态可视化相比,这一因素可能被忽略。
3 大数据可视化的工具
针对上诉所说大数据可视化的各种问题,开发人员开发出了各种工具来帮助我们解决上述问题。可视化必须具备的最重要的特性是它应该是交互式的,这意味着用户应该能够与可视化进行交互,当鼠标悬停在可视化上时,可视化必须显示相关信息,放大和缩小面板应该在那里,如果我们选择数据的子集或超集,可视化应该在运行时自我调整。我们回顾了一些最流行的可视化工具。
3.1 Tableau
Tableau是以商业智能为重点的交互式数据可视化工具。Tableau提供了非常广泛的可视化选项。它提供了创建自定义可视化的选项。它快速灵活。它主要支持从亚马逊极光到Cloudera Hadoop和Salesforce等各种服务器的所有数据格式和连接,用户界面直观,图表种类繁多,对于简单的计算和统计,不需要任何编码技能,但是对于大量的分析,我们可以在R中运行模型,然后将结果导入Tableau。根据我们需要执行的任务,这需要相当多的编程技能。
3.2 微软电力商业智能
电力商业智能是一个强大的基于云的商业分析服务。可视化是交互式和丰富的。智能商务包括3个元素,智能商务桌面、服务(SaaS)、应用。每项服务对我们都是可用的,这就是为什么它使电力商业智能变得灵活和有说服力。有了60多种类型的源代码集成,开发人员可以在几分钟内开始创建可视化。
3.3 Plotly
Plotly也叫Plotly.ly是用python和Django框架构建的。它可以执行的操作是分析和可视化数据。它对用户是免费的,但功能有限,我们需要购买专业会员的所有功能。它可以在线创建图表和仪表板,但也可以在Ipython笔记本、jupyter笔记本和panda中用作离线服务。不同种类的图表是可用的,如统计图,科学图表,三维图表,多轴,仪表板等。Plotly使用了一个名为“网络绘图数字化仪(WPD)”的工具,它可以自动从静态图像中获取数据。
4 结论
在大数据的世界里,每一个信息都以这样或那样的方式至关重要,我们依靠视觉信息来找到有用的模式。但是传统的可视化方法跟不上数据的速度和数量,我们需要這样的工具来处理大数据的所有特征,并在不牺牲性能和响应时间的情况下为我们提供结果。在本文中,我们确定了大数据可视化为什么重要,以及与此相关的挑战和问题是什么。我们还注意到可视化的交互性是最重要的,好的可视化工具应该产生交互式可视化。我们还研究了人们如何提出新的系统来应对这些挑战。
参考文献:
[1]Jin X,Wah BW,Cheng X,and Wang Y,“Significance and challenges of big data research,” Big Data Research,2015 Jun 30;2(2):59-64.
[2]夏德宏.JAVA数据可视化设计与实现研究[J].电子世界,2021(06):178-179.
[3]王好平,王超.基于数据可视化的海图销售实时监控系统设计与实现[J].航海,2021(02):55-57.
作者简介:
雷雁茹,2001出生,汉族,研究方向:大数据开发。
(作者单位:西南科技大学城市学院)