基于大数据和云计算平台与应用
2021-11-20范月祺陈炯
范月祺 陈炯
(山西职业技术学院 山西省太原市 030006)
1 概述
随着科技的发展和进步,互联网技术也得以迅速发展,而且互联网不仅操作简单、联系迅速,而且所覆盖的信息较为全面逐渐成为人们日常生产和生活中不可获取的一部分。互联网的应用不仅有效的改变了传统人们之间联系的方式,而且还在一定程度上加快了人们的生活节奏并将人们带入到一个全新的信息时代。作为时代发展的产物,大数据的发展为人类的生产和生活带来了极大的便利,各个领域的日常工作、运转等都是依托于大数据网络技术的应用。而且计算机网络技术本身就是一门综合性加强的技术,其的应用不仅涉及到计算机技术而且还涉及了通信、密码等过学科。另外,之所以计算机网络技术得以普及发展最为根本的原因就是它的自由性,只要用户连接到任意网络就可以随心所欲的找到自己想要的信息数据,进而方便人们获取信息并为企业创造可观经济利益。而云计算则是与大数据应用相互依存的,虽然大数据技术可以高效的完成对信息的收集、处理等,但是由于在此过程中试单机系统,而要处理大量的信息势必会给系统带来巨大负担,为此,通过云计算平台则可以有效的弥补此类问题,而且随着科技的进步,云计算以及大数据平台的应用逐渐成为计算机发展的核心技术。
2 云计算、大数据的产生背景
从2013年思科在视觉网络指数中关于全球互联网流量所做出的统计可以看出,全球互联网的使用效率正在以爆炸式增长方式进行增长。而且此增长速度不仅仅指的是速率上的增长,譬如,仅2007年要比2002年的全球互联网流量增加二十倍之多,而且其流量基数也十分庞大。面对如此大的流量数据,大数据概念也由此得以提出。而对于云计算此概念而言,美国国家标准与技术研究院则称,其在使用过程中是按照使用量进行付费应用的,用户可以借助网络技术实现信息数据存储、应用服务等。除此以外,大数据这一概念并非是单一的某项技术,而是多种技术的融合,简而言之,大数据指的是在某时间内常规软件无法对内容进行获取、管理以及分析的数据集合。IBM 将大数据这一概念定义为四个V,分别指的是多样化(Variety)、大量化(Volume)、价值(Value)以及快速化(Velocity)。而云计算与大数据技术又是相辅相成的,如果数据被称作资源的化,而大数据、云计算则是对这些资源进行存储的平台。云计算作为一种应用模式,其核心技术主要包括数据处理技术,而大数据则是对数据资产进行盘活,进而使这些数据更好的为国家、企业、个人等服务,这也是云计算的最终目标。
3 大数据和云计算平台的重要性
3.1 能够对数据进行有效的管理
通过大数据以及云计算平台可以将对海量数据按照某种规律或者原则将其进行划分,并通过计算机技术的不同处理,将不同类型、不同行业以及复杂程度不同的数据进行相应的细化处理。通过对海量数据的分类化处理,不仅可以有效的按照数据特点进行处理,而且还可以提升数据的应用效率。由此此种数据处理方式可以满足不同类型的数据收集和处理,为此可以极大满足人们的不同需求,而且还可以确保数据的准确以及价值,确保整个平台的安全稳定运行。另外,在大数据以及云计算平台的应用中,为了更好的提升数据的有效管理,还可以构建一个信息系统,从而将某行业内部数据进行分类统一保存,从而便于后续的使用。
3.2 能够为信息安全提供绝对保障
能够高效的处理大量、复杂且多元化的信息,作为大数据、云计算平台的优势特点,所以在应用过程中可以极大的提升数据的安全性,从而为数据的存储和应用提供一个较为安全的稳定环境,有效的避免数据泄露造成的经济损失等。当平台接收到来自外部信息数据时,首先就会对信息的来源安全进行合理判断,而对于那些无法进行判断或者无法确定是否合法的数据则会强制关闭或者禁止其进行相关操作。对于来源合法的数据则通过保密且安全的操作处理,进而确保数据信息的完整和安全。对于企业或者个人而言,信息的安全显得尤为重要,而通过大数据以及云计算平台的应用不仅可以对不同行业的信息数据进行分开保密的处理,而且还可以确保信息不被外来盗取,从而确保信息的绝对安全。
4 云计算、大数据平台的主要技术框架
4.1 Hadoop简介
简单来讲,Hadoop 就是一个可以对大量数据进行分析和处理的开源软件框架。而且其除了可以对大量的数据进行处理外还具有一定的扩展性,为此,其在2008年成为了Apache 的顶级项目之一。而且随着科技的进步,Hadoop 也得到了广泛的应用,从2006年亚马逊首个使用该系统的运行商,到目前的的阿里巴巴、腾讯以及微软等各大企业都应用了属于自己的Hadoop 平台,Hadoop 的优势作用逐渐凸显出来,并得以迅速发展。
Hadoop 系统是由多个组件而组成的。其主要包括Flume、Sqoop、Zookeeper、HDFS、MapReduce、HBase、Pig、Hive 以 及Ambari 等。其中,Flume 主要是对海量数据进行收集、整合以及传输的系统;Sqoop 则主要完成对数据的转移;Zookeeper 则帮助整个系统提供配置维护以及分布式同步等功能;而分布式文件系统HDFS 以及MapReduce 则是整个系统的核心组件;HBase 则是完成对非结构化的数据进行扩展存储;Pig 可以帮助用户在不熟悉JAVA等编程规则时进行相关代码的编写;Hive 将系统的数据库作为基础架构,为用户提供一种SQL 的查询语言;Ambari 则是系统集群的监控工具。
4.2 Spark简介
与Hadoop 不同,Spark 系统可以基于内存算法来快速来完成对数据的分析及处理。2010年加州伯克利大学开始了对此项目的研发,起初该系统仅是由六十三个Scala 语言来进行编程操作的。而到2014年,随着Spark 优势作用逐渐凸显出来,其也被Apache列为重要的研发项目之一。由于Spark 是依托于内存计算来完成对数据的处理所以其对于数据的处理效率要比Hadoop MapReduce 的处理效率高百倍及以上。而且,与Hadoop 相比,此系统可以支持多种接口,譬如,Java、Python 等编程语言,所以极大的方便了用户的使用。
在此开源系统中,Spark 系统中的Apache Mesos 可谓说是中低层资源管理部署平台,而Tachyon 的应用则有效的实现了对数据的存储,而其他项目的应用譬如,数据库查询工具、大规模近似查询、机器学习项目、图片处理以及一些平台支持的工具,如任务服务器和前端编程语言SparkR 等等,则主要通过Spark 平台的基础上来实现各项功能的。另外,该系统还可以与亚马逊AWS 或者Hadoop等数据和云计算项目联合应用,譬如,其与Hadoop YARN 集群管理平台的构建等。
5 基于大数据和云计算平台的应用
5.1 Hadoop的应用
对于Hadoop 的应用,国内知名的企业主要有百度、阿里巴巴、腾讯以及华为等。以下将具体进行阐述:
(1)百度。作为搜索巨头公司,百度主要通过语义分析来实现对海量数据的搜索功能,并且可以精准的通过搜索关键字来完成精准的匹配。通过Hadoop 数据处理平台,百度平均每天可以完成的数据处理量可达20 PB。Hadoop 在此过程中则主要被应用在网页的分析、日志的存储分析、在线广告的点击以及用户推荐等;
(2)阿里巴巴。阿里巴巴可以说是我国目前最大的一个电商平台,而且其也是我国第一个使用Hadoop 平台来处理相关数据信息的企业。从2008年开始,阿里巴巴旗下的淘宝就开始依托Hadoop 平台构建云梯研究。作为全国最大的Hadoop 集群之一,云梯的应用不仅可以有效的满足淘宝对海量数据分析的要求,而且其数据容量也较大,并且目前其正在以每天255 TB 的速度进行增长;
(3)腾讯。作为国内互联网行业的领军企业之一,腾讯业务也逐渐由最开始的QQ 覆盖为社交网络、电子商务、在线游戏等各类网络服务。腾讯不仅仅依靠自主研发的台风云计算平台来完成对批量数据的处理和分析外,还通过Hadoop 技术来进行网页分析或者数据挖掘等一些特殊问题。而且腾讯通过台风与Hadoop 技术的有机融合,不仅仅发挥了Hadoop 技术优势,而且还在一定程度上提升了对数据资源的利用效率;
(4)华为。在2013年6月华为推出了首个国内运营云平台,截止到目前,该平台所签署的ISV 数量已经超过三千多家。另外,华云数据电商云的开发也极大的吸引了电商的入驻,由此也在一定程度上促进了华云数据平台的应用和发展。截止到2014年3月,华为又推出了自主研发的第四代云计算产品。
5.2 Spark的应用
随着大数据时代的到来,大数据技术也被广泛的应用在各行各业中,尤其是互联网公司在广告以及业务推荐方面,更是通过大数据技术来进行相关数据分析、定向投放等,而且还可以大数据来对系统的应用情况以及热点点击等进行分析。而Spark 的应用则可以为有效的满足计算量加大且效率要求较高的场景。
5.2.1 腾讯
作为应用Spark 技术最早的企业之一,腾讯广点通通过利用Spark 处理数据的优势,并依靠“数据+算法+系统”作为应用目标,极大的促进了对数据的实时采集以及对系统的实时预测,从而可以满足每天上百亿的点击量。通过应用Spark Shark 中日志数据的快速查询功能,可以有效的发挥对日志数据的席查询功能,而且其使用性能要比Hive 高达2 到10 倍,如果在应用上内存表,其将比Hive 高达百倍以上。
5.2.2 Yahoo
Yahoo 通过应用Spark 技术,有效的完成了Audience Expansion算法。该算法作为广告中有效寻找目标的最主要算法之一,其首先可以根据用户观看广告且购买产品的客户进行沟通交流,然后以此为基础在进行新用户的开发,并有针对性的进行广告投放。通过Spark 集群的应用,可以有效的实现客户的寻找以及即席查询。
5.2.3 淘宝
在传统的阿里搜索广告的业务中,其主要是通过使用完全属于自己知识产权的MapReduce 程序以及Mahout 程序来实现对目标客户的相关算法,但是由于两个程序无论是在效率还是代码的维护方面均无法满足广告投放需求,由此严重阻碍了阿里对目标客户的广告投放效率。而淘宝通过基于内存算法的Spark 技术应用,不仅可以解决多次迭代的计算机算法,而且还可以高效处理较为复杂的算法等。并且通过对Spark Graphx 的应用,还有效的解决了淘宝商家生产线的问题,譬如基于随机游走的用户属性传播等问题。
5.2.4 优酷土豆
通过Spark 的应用,首先可以有效的提升交互查询效率,对于模拟广告的投放计算效率也得到明显提升,而且通过机器学习等算法的应用,极大的降低了网络传输以及数据落地等问题。
总而言之,作为时代发展的产物,大数据的发展为人类的生产和生活带来了极大的便利,各个领域的日常工作、运转等都是依托于大数据网络技术的应用。而且计算机网络技术本身就是一门综合性加强的技术,其的应用不仅涉及到计算机技术而且还涉及了通信、密码等过学科。另外,之所以计算机网络技术得以普及发展最为根本的原因就是它的自由性,只要用户连接到任意网络就可以随心所欲的找到自己想要的信息数据,进而方便人们获取信息并为企业创造可观经济利益。而且在大数据与云计算在应用过程中也是相辅相成的,通过两者的应用不仅可以有效提升大数据与云计算技术的使用价值,而且还可以有效的促进我国信息化水平的提高。