APP下载

大数据平台建设关键技术研究

2019-02-13滕长青

数字通信世界 2019年12期
关键词:虚拟化总线数据挖掘

滕长青

(黑龙江省电信公司,哈尔滨 150000)

1 引言

目前,大数据作为最先进的计算机应用技术之一,已经得到了许多学者的研究和追踪,并且在应用中引入了很多先进技术,比如企业服务总线、MapReduce、虚拟化和人工智能等,这些都可以提高大数据在能源、金融、工业、教育、旅游、军事、航天等领域的普及性,大数据已经上升到了国家战略,也得到了国家法律政策、经济政策、人力政策的支撑,因此未来将会实现多平台建设,进一步提高大数据服务能力[1]。

2 大数据平台建设应用现状

大数据平台已经在许多领域得到广泛应用,取得了显著的成效。大数据平台建设包括以下几个关键组成部分,分别是选择平台操作系统、构建Hadoop 集群、数据整合和预处理、数据存储、数据挖掘和分析,进一步提高了大数据应用效能[2]。

(1)选择平台操作系统。目前常用的操作系统包括RedHat、Centos 或者Debian,这些都可以作为底层平台操作工具,具有较强的可扩展性,能够支持数据处理。

(2)搭建Hadoop 集群。Hadoop 是一个软件平台,其可以运行大数据处理软件,最核心的技术为MapReduce,能够将大量的计算机组成一个集群,实现海量数据分布式计算。Hadoop 吸引了很多商业公司研发和设计,已经构建了各种开源组件,包括Sqoop、Hbase、和Spark 等。

(3)数据整合和预处理。大数据集成的资源非常多,比如文件日志、关系数据、对象数据等,这些有结构性数据也有非结构性数据,因此在把数据整合在一起时需要进行预处理,以便能够利用企业服务总线进行通信传输,提高数据的一致性和可靠性。数据预处理可以利用Impala、SparkSQL 和HiveSQL 等工具[3]。

(4)数据存储。大数据平台最重要的功能就是存储。数据存储可利用HBase 和Kudu 等存储管理工具,建立一个生态存储圈,不断地提高大数据平台的存储和管理水平,还可以降低访问延迟,提高数据分析能力。

(5)数据挖掘和分析。大数据存储的资源非常多,这些资源通常是无序的、杂乱的,虽然采取了一定的组织原则,但是人们利用数据也非常复杂,因此引入数据挖掘和分析功能,可以提高数据利用的时效,缩短数据处理时间。数据挖掘和分析引入了人工智能技术,比如BP 神经网络、贝叶斯算法、支持向量机和K-means 算法等。

3 大数据平台建设关键技术

3.1 企业服务总线技术

企业服务总线能够支持大数据平台实现对异构系统的兼容,这也是实现数据共享的重要功能。企业服务总线支持异构环境中的服务和消息,基于事件进行有效的交互处理,能够跨系统实现数据集成,利用各种通信传输协议实现服务功能。企业服务总线也是一个组件,可以利用可视化装配技术,实现大数据平台的消息加载、传输和交互。

3.2 MapReduce 技术

MapReduce 是一个为大数据平台提供并行处理的计算模型,更适用于集群平台高性能计算,允许数以亿计的节点进行分布式集群,可以实现分布式操作服务。MapReduce 提供一个庞大的、设计精良的并行计算软件,自动化地完成计算任务,分配大数据存储空间资源,实现数据分布存储、通信和容错处理。MapReduce 能够提供一个简单的、便捷的程序设计方法,更有利于程序员进行编程和处理。

3.3 虚拟化技术

虚拟化技术包括软件虚拟化和硬件虚拟化。大数据平台引入的虚拟化技术多属于硬件虚拟化技术,能够引入轮转方法、分片方法和多任务操作处理方法进行操作,实现对存储空间、CPU、通信带宽的利用,进一步提高计算机硬件设备的共享服务能力。虚拟化可以共享和扩展物理存储空间,确保多用户共享CPU 或通信带宽资源,基于按需服务机制实现大数据平台操作。虚拟化已经成为大数据平台的发展方向,引入了很多的虚拟化工具,最常用的工具为VirtualBox、XenServer、OpenVZ 和CloudStack 等,提升了大数据平台的资源利用率。

3.4 人工智能技术

人工智能可以辅助大数据平台实现数据分析和挖掘功能,也是提升大数据利用效率的重要技术。人工智能可以实现文本数据、图像数据、视频数据处理,进一步提高数据组织和发现能力,同时将结果输出到显示器上,实现可视化的操作服务。人工智能也是当前计算机重要技术之一,提高大数据平台服务处理效能,保证大数据平台的处理速度和自动化水平。

4 结束语

大数据平台作为一种数据存储、管理、共享和服务场所,未来将会引入更加先进的技术,比如深度学习、虚拟现实、增强现实等,提高各类型数据组织和处理能力,进一步改进数据操作服务性能,具有重要的作用和意义。

猜你喜欢

虚拟化总线数据挖掘
探讨人工智能与数据挖掘发展趋势
数据挖掘技术在打击倒卖OBU逃费中的应用浅析
基于OpenStack虚拟化网络管理平台的设计与实现
对基于Docker的虚拟化技术的几点探讨
一种基于CAN总线的误码测试方法
浅析虚拟化技术的安全保障
H3C CAS 云计算管理平台上虚拟化安全防护的实现
CAN总线并发通信时下位机应用软件设计
基于CAN总线的水下通信系统设计
宝马F02车总线系统