APP下载

云计算下的大数据

2015-05-30陈宇辉

环球市场信息导报 2015年11期
关键词:集中式数据量计算技术

陈宇辉

随着云计算、物联网等计算机技术的兴起,各类智能移动终端设备不断被研发,互联网数据量大大增加,而“大数据”是指增长迅速、规模巨大且与传统数据处理架构不相适应的信息数据,通过对其进行数据分析,人们可以从中发现有价值的相关信息。本文主要深入分析云

计算下的大数据处理技术。

大数据“4V”特征

数据量巨大 (Volume Big)。就目前而言,大数据的数据储存量已高达PB级别,部分已达到ZB级别,其储存容量比传统数据库大好几倍,因此,大数据的数据量被称为“超量数据”。由于量变过程最终会导致质变产生,随着海量数据的增长速度不断加快,传统数据技术必然无法满足巨大数据量的管理和存储需求。

数据类型多样 (Variable Type)。大数据还具有数据类型多样的显著特点,大数据中包括大量结构化数据、半结构化数据和非结构化数据等,这些数据一般以图表、文本、视频、语音、动态数据、传感器数据、移动终端数据等形式存在,且多样数据间的关系也十分复杂。

数据价值高、密度低 (Value High and Low Density)。在大数据的处理分析过程中,很可能需要同时处理一部分没有意义的数据,经过大量的没有意义的数据分析处理,才有可能会得出无意义数据中所包含的那一部分高价值数据,进而得出高价值的数据分析结果。

数据具有动态性 (Velocity)。科学技术的飞速发展,促使计算机、传感器设备、移动终端设备、的数据搜集频率和上传速度不断加快,导致大数据中包含的各类数据无时无刻都在实时更新和增加,即大数据中的数据信息具有显著的实时动态性。

大数据与云计算的关系

云计算技术是指根据按需分配的原则通过集中式远程计算机数据资源池向终端用户提供强大而廉价的计算服务技术。作为一种数据处理技术,云计算技术具有如下特点:① 从物理方面分析,数据资源池对终端用户是完全透明的,用户可根据自己所需从资源池中获取相应数据;② 云计算技术可以为各行各业提供优质的规模化计算服务,而且其服务能力具有重大发展潜力;③ 云计算技术应用部署迅速便捷,能根据终端用户对服务方式和服务质量的要求进行定制,具有强大的弹性伸缩能力;④ 用户可轻易获取云端数据,同时可实现资源共享,数据使用成本低。

纵观现今各种计算机数据处理技术,云计算技术可谓是目前最大型的信息数据存储、传输和处理平台,它能为大数据处理提供优质服务,是大数据处理的必然之选。首先,云计算可以为大数据提供接近“无限”的存储空间,数据处理速度快速,可满足大数据的超大容量存储要求和复杂数据分析处理需求,而这一点正是传统数据存储方式无法实现的。其次,云计算技术注重数据的计算处理,而大数据正是需要强大的数据处理能力,因此,云计算能满足大数据的需要,促进云计算的数据处理类型的多样化发展。

云计算下的大数据分析过程

数据采集。大数据的采集过程是整个数据分析过程的重要基础,目前,互联网技术的发展日新月异,随着各种终端设备的不断普及,数据产生速率越来越高,数据产量也日益增多,数据间关系变得更为复杂,唯有全面提高数据采集速度和精度才能满足大数据的处理需求。

数据处理与集成。大数据的处理与集成是对采集到的数据进行一定的格式化处理、去噪处理和进一步的集成存储处理。由于采集到的数据具有多样化,且各类数据的结构也不统一,对后续的数据分析进行有一定阻碍。因此,需要对数据进行处理,将无效数据预先去除,提高后续数据分析的可靠性和精度。

数据分析。完成对数据的采集和初步处理后,必须对数据进行分析,以得出大数据中的重要价值。数据分析过程的对象是经初步处理与集成的具有统一格式的数据,该过程能够根据用户所需的数据应用需求和价值体现方向进一步对原始样本数据进行深入处理和分析。

数据解释。数据解释是指对分析后得出的数据结果进行解释并向用户展现,在数据处理过程中,对数据结果的解释是指需要进行大数据分析的用户能够直观了解分析结果的过程。传统的数据分析结果显示方式通过文本方式体现的,但由于数据量的迅速增加,传统数据分析的结果也变得越来越复杂,传统的数据显示方法根本无法满足这样的大数据分析结果展示,而大数据中的可视化技术则能够有效解决这一问题。

云计算下的大数据处理关键技术分析

采集技术。事实上,数据的采集方式有两种,包括集中式和分布式,从灵活性考虑,分布式较集中式好;从全局性考虑,集中式较分布式好。基于云计算的大数据采集对象一般为组织系统内部及各自相互独立组织系统间的各类数据,而云计算恰好具备数据并行处理的显著特点,因此,大数据通过云计算可以采用混合式采集方式实现数据的高效采集。

具体工作原理为:大数据在组织系统内部应用集中式数据采集方式,并以组织系统内部的数据配置中心服务器作为集中式数据的注册机构,全面实现组织内部数据的存储和共享。而在各自相互独立组织系统间,基于云计算的虚拟化技术、集群技术等在各自相互独立的组织系统中心服务器内通过分布式采集方式对数据进行采集、对接和共享。由于大数据中包含多样化数据,在应用云计算技术的前提下,采用分布式采集方式时,也可以依靠云计算的超强扩展性同化数据池内的数据信息,再进一步对数据实行分类存储。

存储技术。信息爆炸时代下的数据具有超大体量、复杂、离散的特点,使得传统数据存储方式已无法满足大数据的存储要求。首先,在数据容量方面,单结点的数据库无法满足每日呈几何速度增长的数据量;在运行效率方面,也无法达到大数据的分析处理效率要求。其次,传统数据库采用的是按行存储方式,需要大量存储空间,虽然能为用户提供大容量数据的索引和视图,但在实际操作应用中,需花费大量时间。

云计算技术采用的是列式存储方式,不仅可以区分数据的不同属性,还能根据数据的不同属性将其单独存放。云计算技术这种存储方式能让用户在投影数据时,只需查询到其属性列就可以准确查找数据位置,全面提升系统处理量和处理效率。另一方面,这种存储方式还可以按照数据属性对其进行列式存储,若相邻列数据相似性很高,系統就会对其进行进一步压缩,全面提高数据压缩率,有效节约存储空间。

挖掘技术。数据挖掘技术则是一种基于联机分析的技术,它能从海量数据库中精确提取出数据中的隐含价值信息,并利用多媒体系统表达各数据信息间的规律、概念及模型特性。基于云计算的大数据挖掘采用的是分布式并行挖掘技术,对比各类数据串行方式,该技术借助机器集群对分布式系统中的并行任务进行拆分,再将经拆分后的各个任务分别交由到不同的机器去进行进一步处理,真正实现对大数据的规模性处理,节省数据分析处理成本和时间。

可视化技术。基于云计算的可视化技术可将经挖掘技术处理后的有价值信息进行具体化,将数据及与数据相关的信息直观全面地表示出来。可视化技术就是指应用图像表示手法将存储空间的数据库信息表现出来,同时采用其他分析方法进一步获取图像中的隐含未知信息。可视化技术不仅可以对非空间数据进行多维度的图像显示,还有利于数据图形的直观表现,让用户能更好地挖掘和理解数据信息,有效提高数据检索效率。

总之,在信息技术发展的大力推动下,基于云计算的大数据分析已逐步成为有效解决大数据问题的有效手段,为体现大数据海量信息所累积的高效价值,在全面部署云计算下的大数据分析平台时,必须充分考虑系统硬件、计算机网络、应用软件等各方面的集成,全面发挥云计算技术的优质性能,确保大数据分析具备高效性和准确性。

(作者单位:中共哈尔滨市平房区委统战部)

猜你喜欢

集中式数据量计算技术
《计算技术与自动化》2022年总目次索引
基于大数据量的初至层析成像算法优化
计算Lyapunov指数的模糊C均值聚类小数据量法
高刷新率不容易显示器需求与接口标准带宽
宽带信号采集与大数据量传输系统设计与研究
基于云计算技术的FLAC3D软件计算平台的研发
光伏:分布式新增装机规模首次超越集中式
组串式、集中式逆变器的评估选定浅析
《物探化探计算技术》2016年1~6期总要目
接触网隔离开关集中式控制方案研究