云计算技术下大数据分析平台的设计与开发
2023-08-22李浩
李 浩
(中国电子科技集团公司第三十九研究所,陕西 西安 710065)
0 引 言
目前,云计算技术是国际网络产业中的热门技术之一,其诞生标志着以低成本为核心的超级计算机服务的时代已经来临。云计算技术全面构建了新一代互联网计算资源,为互联网上的大部分高层数据处理系统提供必要的支持,不论是大数据和人工智能,还是其他各种应用,都离不开云计算所提供的基础建设。对职业人员而言,核心是理解云计算技术,文章将以通俗的语言剖析云计算技术及其业务形态,并简要介绍了云计算和大数据、人工智能之间的联系,以期帮助读者理解云计算技术下大数据分析平台的具体设计。
1 大数据与云计算的概述及其特征
1.1 大数据
大数据是抽象概念,并没有完整定义。目前,有关网站对大数据的定义为一个用于数据采集、管理以及处理,并分析数据集的软件。与曾经的“海量”数据相比,如今的数据流量已经以几何级数的速度增加,并融合了采集、分类、处理等多元操作,使得人们可以从中发现更多的内在信息。大数据具有以下特征。
(1)大容量。随着大数据的发展,目前企业数据规模已经接近艾字节(Exabyte,EB)级数量。
(2)多元化类型。过去常常使用结构化数据,其在存储上有一些优点。例如:组件程序之间可以更好的协同工作,共享同一个文件夹;数据可以通过磁盘文件系统统一管理。目前,图像和视频等数据正逐步发展为非结构特点[1]。同时,由于数据种类的差异,处理信息的技巧有了更高的要求。
(3)价值密度过低。多数数据具有较高的固有价值,而大数据本身并不具有较高的价值密度,因此处理海量信息可以得到更多具有实际作用的数据。
(4)高速化。与传统的数据挖掘方法相比,大数据技术对数据的处理要求更高,因此处理数据的效率对决策效果产生直接影响。具体应用时,应该基于数据的特征选择处理形式,或有效整合各种数据,显示对应的结果。
1.2 云计算
此外,云计算的显著特征是规模庞大、虚拟化以及可扩展。其服务种类包括以下3 项:一是可以在服务结束后,打包各种基本的资源,如Amazon EC2/S3 云服务、硬件设备等,并将基础设施提供给用户使用;二是能够将抽象的信息物质化,为使用者创造一个类似于谷歌Enjine 软件的运行平台;三是针对性的软件,例如Salesforce online CRM 软件可以包装一些特殊的功能。
对于云计算机理而言,可以使用Web Services 作为使用者互动界面的存取界面,实时获取使用者的需求;使用服务目录作为使用者的服务清单。该系统的管理接口可以有效调度现有的资源,确保网络的负荷平衡[2]。
2 大数据分析平台概述
2.1 数据的整合管控
设计研发大数据分析平台的过程中,首先要考虑的是如何有效地存储数据。由于大数据技术的特性,需要以分布式的体系架构为基础,构建一个能够满足用户多元化、个性化需求的分析平台,从而实现数据采集与处理的多样性。构建分布式文件系统时,除利用好系统中已有的各种资源之外,可以利用其他的一些可靠方式来检测数据信息,以便能够满足用户多元化的要求。由于大数据中存在大量的信息数据以及各种形式的文件图片,且大量的信息存量都属于半结构、非结构类型,为有效地处理这些信息数据,需要构建一个性能可靠的存储模块。目前,相关行业还没有标准化描述键值、图表类型的数据存储,因此此处构建的存储模型包含了该类型的数据存储,用数据库的方法管理键值和图表数据,从而满足现代的互联网技术的要求。同时,与常规方式的数据库建设相比,该模型省去了申请应用过程,有着显著的优点。
2.2 数据的收集与存储
互联网技术快速发展的背景下,将会产生越来越多的汇集数据,因此要想提高数据采集和存储的效率,就必须高效跟进数据发展。使用远程内存访问协议技术,可以明显提高数据计算的效率和品质,同时可以有效处理存储需求耗费过大的问题。满足应具备规范的数据采集方法比较丰富,通过构建数据流处理系统,可以提高数据采集的效能,从而有效减少成本,最大限度地体现信息的价值[3]。
2.3 云计算架构
大数据分析平台集云计算、分布式、存储等多种能力于一身,提高了信息数据的处理速度和质量。云计算数据处理一体化平台的体系架构分为3 部分:一是顶层,其作用是接口子系统处理工作流;二是中层,其作用是数据预处理;三是数据中心层,其作用是数据存储。
3 云计算技术的大数据分析平台设计与开发
3.1 软件结构
一个Segment 主机通常会有多个节点,采用互联网技术整合、连接Segment 主机、Master 主机以及相应的数据库。整个系统的运作中,各存储节点没有发生任何的数据交互,相应的工作状况也通常独立,因此只能利用Master 的有关功能,让整个Segment 主机与其数据库之间建立起信息交流,且所有的应用程序都要利用Master 主机设定的权限,顺利存取有关数据信息。各节点在Segment 服务器中的运转有着同样的工作任务,通过网络媒介将各节点高效地联系在一起,从而构成一个完整的服务器系统。
3.2 网络结构
非交互的信息平台体系结构中,为使该体系能够在线操作数据,需要对数据库、主机存储区域网络(Storage Area Network,SAN)/共享硬盘、硬盘SAN/网状通道(Fibre Channel,FC)网络进行特殊设计。该设计方式适合于小型的信息数据查询。在非交互数据平台的运作体制下,可以将客户的信息询问要求划分为多个过程,并在一个完整的簇中进行统一的分析和计算,客户的所有信息和数据要求都可以在基于因特网的高带宽运作体制中迅速地得到满足。该架构不仅结构简单,而且独立节点和硬盘之间都有一条可以让所有节点单独工作的高速信道,为高效、高质量地处理数据提供强大的数据支撑和安全保障。完全共享性架构如图1 所示。
图1 完全共享性架构
3.3 IaaS 模式
基础设施即服务模式(Infrastructure as a Service,IaaS)中,用户不必为其所需要的基础设备支付高昂的费用,可以以租赁的形式,利用云计算服务商提供的服务器、存储资源、网络资源等,自行设定操作系统以及安装运行软件。此外,IaaS 云具有以下7 项基础特性。
(1)资源抽象。资源抽象模式可以高效地分配和管理网络中的资源流向。
(2)资源监控。监测整个网络资源,可以确保网络底层的设备高效运转。
(3)负载管理。控制申请负载,不仅可以提高应用程序对紧急事件的反应能力,而且可以提高系统资源的利用率。
(4)数据管理。云计算中,IaaS 模式最根本的需求就是数据的完整性、可靠性以及可管理性。
(5)资源部署。将资源从创造到利用的全部过程实现自动化。
(6)安全管理。IaaS 安全管理的首要目的就是要确保合法存取、保留IaaS 架构及其所提供的资源。
(7)计费管理。基于精细的收费管理方式,方便用户更加灵活地应用资源[4]。
3.4 身份认证与数据审计
该项技术的原则是通过使用多层次的分类方式,管理隶属于平台的身份信息,加密信息权限的接入设定。当数据操作员存取使用者的信息时,该技术可以使系统自适应记录,并快速处理。工作人员可以解析操作痕迹,以确保使用者在存取数据时的安全。
访问安全技术的存储审计通常包含2 项流程:一是在访问接入用户大数据平台前,必须进行接入认证,即一般性证书颁发机构(Certificate Authority,CA)认证技术,该技术是较核心的网络信息保护部分,只有经过认证的访问者才可以使用该架构系统;二是进入该平台的安全体系后,使用者需要通过认证进入监测模块,平台系统以用户的身份和授权的有关情况为依据作出响应,确定用户能否获得某种资源。进入监测模块也具有多元的认证方法。其中,双因子主要指利用加密和数字证书、数字签名、指纹虹膜等特性中的2 项相融合的方法,来完成对用户的身份认证方法,是目前最简单、最容易实现的一种身份认证技术。
本系统采用口令机制实现对技术的授权与登录操作,并通过双因子身份认证登录大数据分析平台。同时,以计算机网络作为中介的新型互联网技术,利用数据行为审核分析机制,分析用户的接入纪录和权限,并利用数据库审计的方法,高效地即时记录互联网上的数据库活动,进而提升数据库的运行行为的规范化以及审核工作的整体性。此外,功能完善的数据库信息系统在遇到风险异常的情况下,会自动开启告警,并迅速地阻断危险行动。通过数据库审计,可以从内部和外部2 方面强化对数据库网络信息的行为记录,从而更好地提高数据库信息资产的安全性,该行为机理是对审计用户进行数据访问与解析的一种有效方式。
4 大数据平台的优势
4.1 节点镜像
在云计算融合于大数据分析平台应用阶段,Master 主机将保存最原始的信息,每个节点上的Segment 主机功能是保存用户图片,通过镜像技术处理多个差异性Segment主机,进而保存镜像数据。因此,如果Segment 服务器在运行过程中发生故障,那么负责镜像数据保存的Segment 服务器可以将自己保存的镜像数据恢复到原来的数据库系统中,从而有效保障数据安全[5]。
4.2 私有性
为保障平台的安全稳定运行,服务器的选择应当标准。为保证系统的运转效果,本次设计使用的是X86 的公开结构个人计算机(Personal Computer,PC)服务器。该服务器有着十分显著的优点,不仅可以迅速、安全地分布存储数据,而且可以高效、稳定地统一处理海量数据,甚至能够出色解决复杂棘手的输入/输出(Input/Output,I/O)问题。
4.3 外部表的快速加载
可以通过利用外部表进行比较简单的处理来更新数据流结构化查询语言(Structured Query Language,SQL),该处理具有很大的优势,可以进行平行加载,加载的最高速度通常可以达到4.5 TB/h。
5 结 论
随着我国互联网信息技术的飞速发展,大数据技术已经在各产业领域得到了广泛应用,而随着新技术和新方案的不断涌现,以大数据为中心的制造服务也不断推向市场。文章分析阐述了云计算技术构建的大数据分析平台的可用性,尝试建立了一套分析平台,该平台可以有效、精准地处理结构复杂、关联度高的信息数据,同时该设计方式可以很好地处理拍字节(Petabytes,PB)级的数据,为提高信息资料的处理效率和准确度提供了有力的保障,对建设基于云计算的大数据分析平台的企业而言是一个极佳选择。