计算机大数据可视化与可视分析存在的问题及方法
2022-03-31白富强
白富强
(晋中职业技术学院 山西省晋中市 030600)
随着计算机技术和信息技术的发展,大数据已经成为人们日常生活中最重要的信息源,从人们生活的各个方面体现出大数据时代大数据背景下对人们进行信息处理的巨大优势,但是大数据也在一定程度上存在信息滞后和错误判断等问题,所以研究人员也越来越关注如何将大数据信息以一种高效地方式呈现给受众,让人们更好地了解大数据。而计算机大数据可视化分析则是通过计算机技术对大量、高维度、多样化和不确定数据进行分析,将数据以图形化或表格、图形化文本等形式进行可视化表达,为人们提供更为准确、高效和直观的数据信息,使人能够更好理解和掌握这些大数据,为决策者提供参考依据。
1 数据可视化概述
数据可视化是指利用计算机技术将有关数据以图形的形式表示出来,并使之可读、可感、可理解的过程。数据可视化是大数据时代对人们处理和分析复杂数据的一种重要方法。“可视”并不是一种可见的东西,而是一种“可理解”的意思,即把复杂、抽象的数据转化为具体的、容易传播、交流和研究的过程。可视化技术是将数据转化为图像呈现在大众面前,更侧重于技术的实施和算法的优化,涉及到计算机图形学、计算机仿真学等诸多方面,可以说,可视化技术是数据可视化的基础。可视化的表现方式有很多,它可以将复杂的数据转化为更清晰的图形,这并不是单纯的视觉,而是听觉、嗅觉、触觉等感官,再加上互动技术,可以让使用者在互动中了解数据。同时,可视化技术也可以通过合理地利用诸如心理学等的知识来展示数据的深层含义。数据可视化过程可以视为一个以数据流为主线的流程,它包含着数据采集、清洗、数据库技术、可视化、最后再回到数据采集,如图1所示。
图1:数据可视化流程图
2 计算机大数据可视化存在的问题
2.1 高维数据出现遮挡
大数据的可视化,其数据的处理,一般都是基于Hadoop平台。在Hadoop 中,有很多大数据可视分析的算法,比如特征选择、特征提取、分类器等。为了使计算出的Hadoop分析结果更加直观易懂(通过图表),常常会用到一些可视化工具。但是高维数据(如矩阵)会出现遮挡情况。这种情况通常会导致结果的准确性和精确度降低,对决策人员造成困扰,也可能造成大数据可视化分析结果混乱[1]。
2.2 拓展性不强
大数据可视化分析的拓展性弱的原因有很多,最主要的是以下几个方面:(1)对于数据类型没有一个明确而清晰的定义与规定。(2)对于“数”字和“图”字等非结构化数据类型的分析,其产生和使用都具有一定的特殊性。
(3)在进行数据可视化与分析时,并不是将所有大数据都进行一种可视化处理即可[2]。
(4)如果要对多个不同性质的数据进行整合和挖掘分析的话,就需要针对不同类型的数据建立相应的可视化模型来处理。
2.3 信息缺少
对于可视化来说,信息缺失是最让人头疼的问题。因为如果缺少数据,那么就无法进行可视化了,从而无法进行分析。另外,如果缺少数据是一种非结构化的,信息较为贫乏的数据,那么也就没有办法用一种高效且有效的方式来对其可视化。对于大数据来说,可视化是必不可少的一项工作。由于信息缺失给可视化带来了很大的困难,同时也给了可视化人员一个很大的挑战,如果能够对数据进行有效的描述,那么可视化是有可能成功的。
2.4 图像变换过快
图像变换的速度会直接影响到视觉效果的展现,造成数据丢失或者图像出现扭曲等现象。图像变换过快的原因主要是图像变换过程中对数据进行了大量处理,比如图像的增强、分割等。在这个过程中,需要耗费大量的时间,如果没有足够的计算能力则无法满足快速变换的需求。
2.5 性能优势不明显
虽然可视分析的性能问题很常见,但其原因却各不相同。性能低是大数据可视分析面临的最大问题之一,它主要是由两方面原因造成。首先,由于数据可视分析系统是一个大系统,而且需要处理成千上万条的数据集,这就意味着系统的运行时间和处理时间非常长。其次,由于数据可视分析系统需要从多个数据库中提取或查询数据,所以性能低会导致在进行数据挖掘和分析时速度慢或出错。这些问题不仅会影响到用户对数据可视化和可视分析结果的满意程度,而且还将严重影响到系统性能指标的正常发挥。
3 大数据可视化分析方法
3.1 特征值分析法
在大数据时代,由于数据量的增大,数据的类型、数据的种类以及数据之间的关系都发生了改变。为了分析和解决这样的问题,需要对这些数据进行处理,使其能够更加直观地展现在人们面前。由于传统计算机技术缺乏足够的分析能力,所以要采用多种可视化手段对数据进行观察和分析。对于复杂多变的多维图像来说,一般使用多维空间来表示图像信息,这样才能更好地展现信息。通常要用到特征值分析法来实现多维图像表达[3]。特征值分析法是一种比较简单实用的可视化方法,通过对多维图像进行特征值分析,可以有效地提高图像分析和处理能力。
一般来说,在进行可视化研究时通常使用二维数据表来显示信息。为了更好地实现数据可视化和信息传播,还需要将可视化工具加入到数据表中。为使人们能够更加直观地对各种可视化工具加以应用,可以在可视化工具中加入特征值分析功能。常见的特征值分析方法有主成分分析法、空间频率分析法、小波变换分析等。主成分分析法是将多维图像转化为二维图形展示出来,二维数据可视化图如图2所示。
3.2 原位交互分析法
在对计算机数据进行分析时,要根据其具体特点选择合适的可视化工具。原位交互分析法主要是指计算机可视化过程中,通过对数据、图表的简单分析,可以对所要反映的信息进行定位和分析。原位交互分析法与大数据处理方法具有相似之处,它都是在对数据进行处理时结合了可视化技术,实现了数据在可视化展示中的作用。原位交互分析法首先是在对已有数据处理时将其作为原始数据集,然后把原始数据集转换成可视化图形展示出来。原位交互分析法中所用到的工具如Data Analyzer 等工具,通过这些可视化工具可以很方便地进行相关操作。
此外,人们还可以通过使用不同的可视化工具实现对其进行操作与分析。比如我们把可视化分析的目的和对象划分为:目标对象与过程、目标对象或结果。而从可视化分析所要处理的问题来看可以分为可视对象与问题、可视对象或结果、可视化技术。通过使用各种可视化工具可以实现对目标事物进行处理,从而对其进行可视化表达。例如,通过使用图表来表示一种事物时就可以把其所处的状态图呈现出来。
3.3 可视化分析算法
数据可视化的目的是为了让人们更好地了解数据,并根据数据的特征,分析其趋势和变化情况,为决策提供依据。由于数据量较大,可视化研究必须利用多种可视化技术,使之能够更好地进行研究分析,可视化技术的主要技术及内容见表1。
表1:数据可视化主要技术
通常情况下,对计算机可视化问题进行分析时都会用到一些简单的算法。目前比较常用的可视化算法有:直方图统计分析、聚类分析和多元统计。这些方法都可以将不同分类的数据转化为相应种类的图表,并对这些图表进行可视化展示。直方图将同一类别中不同指标(如资产总额、固定资产等)间相互关系抽象出来,聚类分析能有效地表示不同指标之间的关联关系,多元统计则可以将同一类别中不同分类(如社会成员总数、企业数等等)内的各种变量及其数量用一个可视化表来展示。在进行聚类算法时,通常要用到一种算法来实现,这就是聚类算法。聚类算法是通过一定的数学运算产生若干个相似的结点组成一个簇来实现的。由于聚类过程是一个由许多步骤构成的复杂过程,所以我们无法用计算机直接实现对该过程进行处理和仿真。在实际应用中,一般可以将其应用于多分类问题、预测问题等方面。例如,在预测问题中将不同类别中所有类别数据进行合并以及将多个类别中数据分布规律进行研究处理等都会用到聚类算法,而利用聚类分析方法进行聚类时,往往需要先对数据样本进行初步判断和筛选,如果数据比较集中时则要利用分类方法、相关分析法、统计方法等来对数据分布规律进行研究讨论等。此外还可以用一个数学模型来表示两个类之间存在一定关系的多变量聚类结果之间关系式:
(1)表示该聚类是由n 个变量构成[4]。
(2)表示某一分类在m 种情况下与n 个变量之间存在某种联系,这种关联可能包括:与n-1 种情况不同,n-2 种情况也可能不同。聚类算法是一种非常有效的可视化分析方法。
由于计算机本身所具有地处理能力比较有限且存在着很多限制因素无法满足于对数据进行处理与分析时需要使用到多种可视化算法或可视化工具等需求,因此对其进行优化也是当前研究中需要解决的重要问题。优化算法分为两类:基于数据和基于模式两种方式。由于在实际应用中往往会遇到大量不同类型、不同数量级的原始数据或样本需要处理与分析时可以使用两类优化算法:一是最小二乘法。二是主成分法。这两种方法分别以不同形式出现在各种领域中,如线性回归等。优化算法有多种形式:一类是基于主成分分析法。另一类是基于降维方法、主成分分析法、神经网络法和模糊聚类技术等。由于这些方法具有简单、快捷及计算量小等特点可被用于解决大数据计算问题中。
3.4 概率分布法
在计算机大数据分析中,由于每个行业对数据的要求不同,所以各个可视化工具需要实现不同的功能。因此,人们在可视化分析时要充分考虑数据集内每一个元素的分布情况及整体结构,这样才能更好地掌握可视化分析的效果。通常来说,一种典型的数据可视分析方法是对某一区域进行分析。这种方法利用数学公式和数据集对特定区域内某一元素的分布情况加以描述。例如,利用聚类原理对用户在某时间内与特定用户之间的互动次数进行分析,可以得出每小时内与特定用户互动次数多的用户类型,进而分析出该地区人口结构、经济状况等。
概率分布法可以用来实现对海量数据集内所有元素进行处理与可视分析。概率分布法是通过使用数据集数据计算模型或矩阵来确定数据集中各元素分布情况与总体结构、各元素之间相互关系及相互之间关联关系;然后根据数据集分布情况及整体结构及关联关系,利用计算公式进行可视化效果检验;最后根据统计误差对可视化效果进行判断。
3.5 并行计算法
并行计算是指多个进程之间进行的信息传递和处理,这些进程通过并行模式来实现相互协作。在过去很长一段时间内,对大规模数据进行处理都是通过单节点来完成的,这种处理方式效率较低、无法适应现代社会发展中的需求。并行计算可以将单个数据变成一个多个节点,这样既能有效地提高计算速度,也能避免出现数据混乱现象。并行计算是指采用一个或多个处理器或存储器作为核心处理器。在并行数据处理中通常会有多个CPU 共同进行数据运算,所以为了更好地完成计算机大数据可视化与可视分析任务,就需要采用多个处理器或存储器来实现并行式运算。由于计算机的运算速度在很大程度上决定了大数据可视分析的速度,所以在进行计算机大数据可视化分析中应该尽量选择高性能处理器。在实际应用中,需要注意以下几点:
(1)应根据数据类型对计算机进行合理配置。
(2)应该尽量使用相同数量或者相同性能的处理器或存储器,以提高计算机的整体性能[5]。
(3)可以在多块内存中并行操作,避免出现内存不足问题。
(4)应注意CPU 资源的分配,防止CPU 负荷过重而导致整体性能下降。
3.6 相关性算法分析法
相关性算法分析法是指通过相关性算法对数据进行分析,然后根据相关系数计算出两个图形的相似度,并用相似度高的图形来表示两个图形。相关性算法的应用范围很广,包括了统计、金融等各个领域,主要有均值回归法和最小二乘法。
在统计方面,相关性算法可以用于处理数据之间的多重相关性以及时间相关性。例如,可以对样本数据进行时间序列和样本量进行相关性分析。最小二乘法可以用于对概率进行相关性计算及可视化,其中最小二乘法主要用于处理多项式、多个数组或线性等概率的求和。均值回归法是指将样本的均值、标准差以及偏差相比较,从而得出结论:最小二乘法可用于处理多项式、多个数组或线性等概率。
此外还有其他常用的相关性算法。在金融领域中,使用相关性算法时需要根据计算出相关系数的图形进行计算。在对数据进行相关性分析之前,首先要确定数据中存在哪些信息,其次确定哪些信息对预测有重要意义或有意义,并将这些数据与已知的信息建立关系,最后根据预测结果做出合理地预测。在统计学中可以采用主成分分析法、判别分析或聚类分析等方法。在金融领域中,相关性算法不但可以应用于数据特征筛选、分类等工作中,还可以应用于对数据进行降维、排序和分类等工作中。通过这几种方法可以完成对复杂数据处理过程中相关系数计算。除此之外,还可以结合线性相关系数、回归系数以及最小二乘法。当两个图形之间存在一定的相关性时,可以将其绘制在一张地图上。
3.7 大数据存储法
大数据存储法主要是将数据存放在磁盘或者磁带上,并将数据按照一定的方式进行排列、存储,以便进行相关操作。对于大数据处理的数据类型,一般分为文本型和非文本型。对于文本型的数据是指可以被计算机读取、处理并具有一定意义的数据,可以通过语言描述其内容。在这种类型当中,我们需要使用到文本处理工具来将这些信息中所包含的信息进行表达、加工并存储在硬盘或者磁带上。文本型的数据是非特征型的数据,需要用到专门使用到计算机中的工具进行分析和计算[6]。而对于这种非特征型的数据可以直接通过数据库等工具来对其数据进行存储和处理,不需要进行专门处理。这种类型的算法也称为非结构化算法。对于非特征类型数据采用的算法有:分块、合并、分布、聚合、分表等算法,这些算法都可以应用到计算机上来进行操作,因此在实际应用中都是可以使用到的。如果采用了分块或者合并等方法来处理非特征型的数据时则可以对其存储方法做一些改变,例如:将非特征型数据分块或者将非特征型数据合并等方法,在具体运行起来时则需要对其存储方式做一些改变。此外还有其他几种非特征信息类型,如文本信息类型、音频信息类型等,如果采用了分块和合并等算法将非特征型数据分成不同部分储存也是一种不错的办法或者选择。
3.8 网络流分析法
该方法利用了网络流分析法来处理数据,可以有效地将数据信息展现出来,并且在计算机的支持下可以对数据进行实时地分析[7]。网络流分析法是对数据库中大量的数据,利用网络流的方法去探索数据库中的变化规律。该方法主要是对数据库中不断变化的值以及相关值之间的联系进行比较,从而了解数据库中信息变化的原因,也能从中发现数据之间存在差异和规律。随着信息技术在人们生活当中越来越广泛地应用,对于大数据库也进行了越来越多的数据分析,从而得到各种结果。该方法是通过对大量网络日志以及电子邮件等相关资料进行分析,得出一系列关于这些文件的特征。将收集到的网络日志信息转换成表结构图形式并保存起来。通过该方法在图中找到对应数据值以及相关特征。该方法一般采用多层次结构图进行表示,在每一层次上都能够反映出数据之间存在何种联系,以此可以将整个数据库进行连接起来并加以处理从而了解到数据库中出现了哪些变化等。该方法采用基于流的方法得到数据库中一些数据变化规律后再利用这些规律与其他相关联的网络信息进行比较,从而得出结果,具体如表2所示。
表2:2019年-2021年珠海A 股上市公司资产总额TOP10 多层次数据表
3.9 用户界面与交互设计法
根据使用者的具体需求,对可视分析方法进行设计,以实现可视分析目标。为了提高可视化分析效率,需要对大数据进行处理、存储与展示。目前很多软件都提供了可视化插件,这些插件可以实现更多的数据管理与分析功能,提高用户体验和使用效率。在用户界面设计方面,需要根据大数据的特点对可视化设计进行适当调整。在设计中要明确所要展现的重点数据、展示方式和展示结果等情况。目前的可视化软件都提供了一定数量的可视化插件,这些插件可以在可视化过程中实现不同目标,还可以对特定指标进行可视化分析。为了提高大数据可视化分析效率和用户体验度,应在选择插件时综合考虑其功能、效率、兼容性以及成本等方面。
3.10 不确定性的量化
在数据可视化中,通过建立可视分析模型进行数据描述和表示,可以为不确定性的量化提供一个基本框架。可视化研究中一个非常重要的问题是如何对不确定的变量进行描述和表示,因为它可以帮助人们更好地理解这些变量。对这个问题的最常用的方法是使用统计方法来定量描述数据的不确定性或者相关性,例如,常用的统计指标包括P(t)、R(t)和Z(t)。在分析中,为了便于数据分析,通常需要对不确定性进行量化。这里给出了一个比较常见的用于度量各种不确定性变量之间关系的数学公式:其中a 是常数,r 是随机数;a′是给定条件下R (t)与Z (t)的比值。在这种情况下r 与a 的关系被称为指数r。如果定义了一个新随机数s,我们可以用公式来计算它在R (t)和Z (t)中对应的值。这个公式称为统计距离[8]。
3.11 领域资源库、框架以及工具
在一个大型的数据仓库中,会包含很多数据源,并且会有很多数据。所以说我们需要一个基于领域的建模资源库。领域建模资源库一般包括领域特征、应用分析模型以及相应技术等。在可视化分析工具方面,可以使用可视化分析工具来实现可视化效果的显示以及与其他技术的结合使用。可视化分析技术也是有很多工具可供选择的。我们可以使用Jetson Text 这样的可视化工具来实现对大量数据的实时监测以及展示,也可以使用Pycharm 等其他可视化方法来实现对数据流进行显示与统计分析。在一些行业中,还可以利用一些开源软件或者是框架进行相关研究。比如在一个大规模数据仓库中,除了能够建立一个庞大系统之外,还需要具备快速建模、快速部署和持续迭代等特点。
4 结语
随着计算机技术的发展,数据可视化分析逐渐成为大数据时代分析工具的主流,这也是数据可视化技术应用于企业大数据分析的重要基础。通过分析大数据可视化,可以将数据中蕴含的信息呈现出来,对其进行分析和解读。在大数据时代,大数据可视化技术具有很强的实用性,不仅可以辅助人们解决数据信息管理中存在的问题,还能帮助人们更好地认识信息数据。但是由于其专业性较强,需要专业人员才能实现良好地操作。因此,相关工作人员在对大数据可视化技术进行分析和研究时,应该要注意加强这方面能力和素质的培养,从而为大数据可视化技术的发展提供帮助。推动我国计算机数据可视化研究工作进一步发展,为我国企业在大数据可视化领域的发展带来新机遇。