APP下载

基于云计算的大数据分析

2018-12-21翟顺诚河南大学计算机科学与技术

数码世界 2018年9期
关键词:分布式编程服务器

翟顺诚 河南大学(计算机科学与技术)

1.引言

大数据极大推动了云计算的发展。印度学者认为,大数据将大大促进印度生产率的提高,因为它不仅影响软件行业,还将影响公共服务行业,如健康、行政和教育等各行业。据麦肯锡全球研究院估计,全球产生的数据每年以40%的速率递增,到2020年,数据量将是2009年的44倍。这些数据来自于传感器收集到的天气数据、社交媒体上的各种帖子、数字照片和视频、商业交易记录、移动电话的GPS信息等。大数据超出了传统数据的存储和计算,必须寻找更新的技术,云计算使得巨大的计算能力变得更加容易获得。

2.云计算平台

云端是指服务不在本地,可以指服务器,和普通的服务器不一样,云端的服务器的资源是共享的,一旦某个服务器不能承受,将会把任务分配给其他服务器。

云计算网络有两个任务,将资源池变成一个虚拟资源,然后连接所有位置的用户到这些资源。云计算的服务平台包括几个层次:基础设施即服务(IaaS)、平台即服务(PaaS)和软件即服务(SaaS)。IaaS是消费者通过Internet可以从完整的计算机基础设施获得服务。例如:硬件服务器租用。

现今商业化的云计算平台主要分为几大类:

(1) 微软 Windows Azure的主要目标是为开发者提供一个平台,帮助开发可运行在云服务器、数据中心、Web和PC上的应用程序。技术特征是整合其所用的软件及数据服务,使用.NET开发技术,运用大型应用软件技术,以Azure平台提供服务。

(2)Google 技术特征是存储以及运算水平扩充能力,使用平行分散技术 MapReduce、BigTable、GFS等,提供Google AppEngine和应用代管服务,使用Python、java语言进行开发。

(3) IBM 其技术特征和微软相似,核心技术主要是网络技术,分布式存储,动态负载等,该平台主要提供虚拟资源池,还有企业云计算服务整合方案。

(4) Oracle 提供软硬件弹性虚拟平台,核心技术主要以Oracle的数据存储技术,Sun开源技术,提供EC2上的Oracle数据库,Oracle VM等。

(5) Amazon其主要优势之一是能够以根据业务发展来扩展的较低可变成本来替代前期资本基础设施费用。提供EC2、S3、Simple DB、SQS等服务。

3.大数据的主要特征

大数据又称巨量数据集合,指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。IBM提出大数据具有5V特点:Volume(大量)、Velocity(高速 )、Variety(多样)、Value(低价值密度 )、Veracity(真实性 )。大数据特点:(1)数据类型较多,大数据有多种数据源组成,绝非单纯某种数据,且随着数据格式及来源日渐丰富数据类型会进一步膨胀(2)数据规模十分庞大,总体容量至少在10TB左右(3)数据真实性十分高,当前一些新类型数据不断兴起,传统数据源逐渐被取代,数据更新速度快,因此必须提升系统安全性,保证数据在使用和存储过程不受影响(4)大数据规模十分庞大,传统数据处理模式已经无法满足时代发展的需求,需求新的处理系统具有快速高效处理信息,可满足大数据时代信息需求。云计算是是新一代信息技术的核心所在,云计算作为计算资源的底层,支撑着上层的大数据处理,而大数据的发展趋势是,实时交互式的查询效率和分析能力,Google有一篇技术文章中的话:“动一下鼠标就可以在妙极操作PB级别的数据”,真的是极其高效快速。

4.基于云计算的大数据技术

分布式数据存储结构,由三部分组成:客户端、元数据服务器和数据服务器。客户端用于发送请求和存储数据,元数据服务器用于处理客户端请求,数据服务器用于数据同步和存储文件数据,将数据储存在不同的物理设备中,摆脱了硬件设备的现实,同时扩展性更好,能够更加快速、高效的处理海量数据,更好的相应用户需求的变化。

大规模数据管理,主要采用的技术是Dynamo技术,其利用的是DHT的数据储存方式,因此没有热点,这样,各点的数据存储量和访问压力就呈现出负载均衡的优势。另外BigTable技术是谷歌建立在GFS和MapReduce之上的一个大型分布式数据库,实际上是一个庞大的表,其规模超过1PB,能够将所有数据作为处理对象。

虚拟化技术,核心技术,为云计算提供基础架构层面的支撑。

编程模式,MapReduce技术是谷歌设计的一种编程模式,适合应用在大规模数据集的并行处理当中,一般要求大于1TB云计算MapReduce的编程模式能够有效地利用云计算的资源。云计算旨在通过网络把强大的服务器计算资源方便地分发到终端用户手中,同时保证高效、简捷、快速的用户体验。在这个过程中,编程模式的选择至关重要。

云计算平台管理,需要具有高效调配大量服务器资源,使其更好协同工作的能力,能够方便地部署和开通新业务、快速发现并且恢复系统故障、通过自动化、智能化手段实现大规模系统可靠的运营。现在最流行的基于云计算的大数据处理平台是Hadoop,Hadoop最初只与网页索引有关,迅速发展成为分析大数据的领先平台。Hadoop是一个能够对大量数据进行分布式处理的软件框架,以一种可靠、高效、可伸缩的方式进行数据处理,能够处理 PB级数据。

信息安全,在云计算体系中,涉及到很多安全方面的问题,安全对于云计算下的体系至关重要,如前不久有家创业公司存放在腾讯云上的精准注册用户以及内容数据全部丢失,并且不能恢复,造成公司平台全部停运的状态,基于云计算的特性,可靠性达到99.99%,上述事件的发生概率为十亿分之一,但是每年也都有云服务商出现”宕机”的现象,因此即使云计算有很强大的稳定性,也要做好信息安全的保证并进行数据备份。

猜你喜欢

分布式编程服务器
编程,是一种态度
元征X-431实测:奔驰发动机编程
编程小能手
纺织机上诞生的编程
浅析分布式发电对电力系统的影响
PowerTCP Server Tool
BlackJumboDog
2018年全球服务器市场将保持温和增长
基于预处理MUSIC算法的分布式阵列DOA估计
分布式并联逆变器解耦电流下垂控制技术