APP下载

超融合架构的大数据虚拟仿真实验平台建设研究

2020-09-02罗剑

软件导刊 2020年8期
关键词:实验平台虚拟化技术

罗剑

摘 要:为了更好地开展大数据实验教学与研究,提高大数据实验课程质量,克服传统大数据实验建设弊端,基于KVM技术与超融合架构设计一种新的大数据虚拟仿真实验平台建设方案。该方案将计算和存储融合在X86单一物理节点中,分布式存储成本低,提高了IO性能,具有开放兼容、易于扩展,方便维护、高可用等特点。该大数据虚拟仿真实验平台能够简化大数据实验平台环境搭建,提高教学实验效率。基于该平台可以定制各种实验环境,通过弹性分配计算资源,保障实验教学环境稳定运行。

关键词:大数据实验;KVM技术;超融合架构;实验平台;虚拟化技术

DOI:10. 11907/rjdk. 201606 开放科学(资源服务)标识码(OSID):

中图分类号:TP319文献标识码:A 文章编号:1672-7800(2020)008-0151-05

Abstract: In order to better carry out the teaching and scientific research of big data experiment, improve the quality of big data experiment course, improve the disadvantages of the traditional big data experiment construction, based on KVM technology and Hyper-converged infrastructure, a new big data virtual simulation experimental platform construction scheme is designed and it integrates computing and storage into the X86 single physical node, distributed storage costs are low. The scheme improves IO performance, has open compatibility, and it is easy to expand, maintaine and of high availability and so on. By using this big data virtual simulation experimental platform, it can simplify the construction of big data experiment platform environment and improve the efficiency of teaching experiment, and under this platform, various experimental environments can be customized, and the scientific resources can be allocated flexibly to ensure the stable operation of the teaching environment.

Key Words: big data experiments; KVM technology; HCI; experimental platforms; virtualization technologies

0 引言

伴随着新一轮科技革命与产业变革,人才培养模式也实现了转型升级。2018年,教育部首批认定了612个新工科研究与实践项目,积极探索“新工科”建设新理念,组建了包括大数据在内的项目群,深入推进新工科建设[1]。由于大数据技术具有多学科交融性[2-3],很多专业都开设了大数据相关课程,或对已有专业课程体系进行升级[4],各高校在积极推进大数据专业建设的同时,也逐步开展大数据实验室建设,以满足大数据实践型、复合型人才需求[5]。

大数据实验教学与研究对计算机硬件、软件、数据等都有很高要求,传统的单一伪分布式、多机集群模式等实验室已无法满足大数据新型技术应用要求,有高校通过使用Docker容器技术减少实验成本,提高教学实验便利性[6-7]。Docker技术是基于容器的虚拟化技术,其严格意义上并不算是虚拟化技术,只是进程隔离和资源限制,它虽然具有轻量级启动快等特点,但本质上依托于内核,因此所有内核漏洞都是Docker的弱点。KVM虚拟实验环境支持多种操作系统,能应对不同实验需求,同时KVM虚拟出的实验环境拥有独立的操作系统和进程管理机制,与真实生产环境相匹配[8]。而基于Docker容器实验环境的唯一优势是启动快,因为所有容器共用宿主机的Linux操作系统,实验场景受限,并且Docker容器没有独立的操作系统,学生实验环境相互影响不利于教学稳定进行。

建设现代化的大数据教学实训实验室不仅要求其硬件配置高、建设成本低,更要求其能够满足高校顺利开展各类大数据实践课程教学需要,并为之提供系统的教学、实验、实训支撑环境[9]。为此,本文从技术架构角度探討如何建设一个成本低廉、教学方便、教研一体、维护简单、管理高效的大数据虚拟仿真实验平台。

1 大数据实验平台现状及问题

大数据实验室建设是开展大数据技术实验的基础,很多高校都高度重视,建设了各种实验平台。实验平台主要采用如下几种模式[10-11]。

(1)单机伪分布式模式。学校采购大量高性能PC机,1人1机,在单PC机内的虚拟机上部署大数据实验环境,以单机模拟分布式开发环境。这是一种伪分布式实验环境,与企业实际生产开发环境区别较大,并且这种模式不能兼容大数据生态体系所有组件,学生毕业进入企业后无法快速适应企业真实开发环境。

(2)多机集群模式。学校采购大量高性能PC机,将学生分组并开展试验,如3人3台PC分为一组,将这3台PC组网建立1主2从的集群,然后在该集群中布署大数据分布式实验环境。这是一种标准的分布式实验环境,其优势是模拟企业真实生产环境,学生能迅速适应;其劣势也非常明显,由于分组完成实验,学生分工操作实验体验完整度不高,知识体系实践不完整;并且,分布式集群环境配置复杂容易出错、实验环境容易被破坏、维护成本高。

(3)虚拟仿真模式。学校建立云计算数据中心,利用虚拟化技术,以少量高性能服务器虚拟大量实验集群,按需分配给学生,学生同时拥有多套集群进行实验,且每个学生的实验环境相互隔离、互不干扰;简化实验环境搭建过程,学生能够高效完成实验,又能确保某个实验环境被破坏后对其他人不会造成影响,学生端通过一键重启功能即可重新拥有一套新集群;大幅度节省硬件和人员管理成本投入,提高教学实验效率。

随着国家、高校对大数据应用型人才培养的关注和重视,大多高校都开始加大投入力度,积极改造实验环境。近年来,虚拟仿真模式的实验环境已显现出其优势,逐步成为云计算、大数据、人工智能等新兴专业教学实验环境的主流方式。

2 大数据实验平台架构与虚拟化实现

2.1 大数据虚拟仿真实验平台组成

一个完善的大数据实验平台,包括如下部分:①硬件设备:提供能满足实验资源需求的硬件产品,如服务器、交换机、路由器、UPS电源、机柜等;②软件平台:提供满足教学实验要求的软件平台,如虚拟化云平台、镜像管理平台、虚拟仿真实验平台、科研平台、竞赛平台等;③实验组件:提供满足大数据实验要求的常用组件,如Linux、Java、MySQL、Python、ETL工具、Sqoop、Hadoop、Spark、Hive、HBase、Zoomkeeper、Kafka、Numpy、Pandas、Matplotlib等;④实验资源:提供配套的大数据实验手册、实验指导视频、实验素材、企业仿真实训项目、生产级实验数据等;⑤技术支持:提供平台相关的技术支持服务,支持远程、现场、网络等多种方式的技术支持与运维。

大数据虚拟仿真实验平台的基础为私有云管理平台,基于主流开源云平台OpenStack Mitaka而研发。云平台采用Docker技术,将OpenStack组件如Nova、Cinder等均封装于容器中,实现了OpenStack组件的弹性伸缩、灵活调度,且不影响业务的滚动式在线升级。其结构如图1所示。

云平台包含虚拟资源管理系统、云端资源监控系统、镜像仓库管理系统等子模块,通过这些模块实现对网络、存储、计算等资源的统一管理和调度,并对外提供标准的API接口,方便应用对资源进行动态按需调度,提升资源利用效率。

2.2 大数据实验平台超融合架构

大数据虚拟仿真实验实验平台架构采用超融合基础架构(HCI),实现在同一套单元设备中不仅具备计算、网络、存储和服务器虚拟化等资源和技术,还包括备份软件、快照技术、重复数据删除、在线数据压缩等元素。而多套单元设备可以通过网络聚合起来,实现模块化的无缝横向扩展,形成统一资源池。随着高校生源规模扩大和自身业务增长,可实现“积木堆叠式”弹性扩容,按需升级。

使用超融合架构减少了实施和管理难度,后期无需专门的SAN存储维护人员维护系统,提高了用户数据中心资源利用率,减少了设备能耗成本,能够更好地发挥SSD硬盘性能,扩展也更方便。使用HCI还能提供更高级别的硬件容错,当某一控制器发生故障后,可保证应用系统不停顿,确保稳定性。该系统无须停机便可无缝地添加其它超融合节点,从而线性地提高系统性能和数据存储。用户数据均有双份副本、超融合分布式文件系统、多节点并行,即使在整个节点发生故障的情况下,分布式文件系统也能很快自动完成数据重建,并恢复到容错状态[12]。

2.3 大数据实验平台虚拟化实现

实验平台虚拟化可以采用Docker技术和KVM技术,Docker技术是基于容器的虚拟化技术,严格意义上并不算作虚拟化技术,只是进程隔离和资源限制,它具有轻量级、快速就绪、弱安全等特点。KVM指基于Linux内核(Kernel-based)的虚拟机(Virtual Machine)。KVM最大的好处就在于它与Linux内核集成,因此速度很快[13-14]。KVM相比于容器的一个较大优势在于可以使用不同的操作系统或内核,而Docker容器仅支持Linux。采用KVM虚拟化技术,底层支持融合架构,可以将计算、存储和管理服务部署在同一台节点上,提高资源利用率。

从高校实验平台应用场景看,采用KVM虚拟化技术更为主流。KVM虚拟的实验环境支持多种操作系统,能应对不同实验需求,同时KVM虚拟出的实验环境拥有独立操作系统和进程管理机制,与真实生产环境相匹配。而基于Docker容器的实验环境,其唯一优势是启动快,原因在于所有容器共用宿主机的Linux操作系统,实验场景受限,并且Docker容器没有独立操作系统,学生实验环境相互影响不利于教学稳定进行。

3 大数据虚拟仿真实验平台建设

3.1 硬件与网络建设

虚拟仿真实验平台硬件主要由多台高性能超融合服务器、万兆光纤交换机、标准42U机柜以及UPS不间断电源组成。按照同时最大并發学生数核算硬件配置。实验室按照50个学生同时并发进行实验,每个学生按照1主2从的配置则需要3台虚拟机,50个学生共需要虚拟机的数量为150台,假设单台虚拟机配置为2个CPU、 4G内存、数据盘50G,则50人同时并发所需资源是CPU为300vCPU、内存为600G、磁盘为7.5TB,为保障数据安全性,磁盘采用2副本机制,则实际应配备总容量为15TB。

云平台管理网络从逻辑上看一共分为5种,分别是IPMI网络、管理/业务网、集群网、存储网和租户网。租户隔离采用VLAN方式,因此物理交换机仅需支持VLAN,并为不同网络创建对应VLAN即可,平台网络拓扑架构如图2所示。

3.2 软件平台建设

软件配置方面,大数据虚拟仿真实验室整体解决方案是应提供完善的实验管理平台及实验组件。软件平台主要分为虚拟仿真云平台和大数据实验平台。虚拟仿真云平台提供物理硬件虚拟化、仿真实验集群、资源调度监控等底层核心支撑,大数据实验平台提供大数据教学科研、实验实训、实验教学管理等业务支撑。大数据虚拟仿真实验软件平台结构如图3所示。

虚拟仿真云平台主要有虚拟资源管理、镜像管理、监控管理等功能,可以对云主机进行远程管理和网络管理。配置虚拟防火墙以保护内部网络,具备根据用户业务需求动态调整计算资源的能力;具备回收站功能,包含回收站内资源恢复功能;支持页面制作镜像,支持ISO、qcow2、raw格式的镜像文件,支持Windows、Linux不同版本的操作系统镜像,并提供实验平台所需的各类镜像;能够查看物理主机和云主机使用情况,具备资源监控功能,具备对集群、数据库等具体服务监控功能,具备自动告警功能等。

大数据实验实训平台分为实验端和管理端。管理端为大数据相关专业师生提供教学实训相关管理功能,包括实验环境创建、课程管理、课程选课、教务排课、集群资源管控、教学数据管理等。实验端提供大数据教学实训实验功能,包括实验集群一键创建、实验操作台、实验手册、实验视频、实验数据集等实验资源访问。

3.3 实验资源建设

大数据实验课程应基于真实的企业实践经验,提供丰富的项目实训案例,并结合高校各专业实际情况进行行业数据研究,旨在培养实用型人才的项目实践能力。大数据虚拟仿真平台实验资源建设主要包括实验案例手册、实验指导视频、行业实训项目、生产级脱敏数据等。

实验资源应满足大数据课程实验教学,包括但不少于以下核心实验:云计算IaaS、PaaS、SaaS、OpenStack部署、Docker容器部署、分布式文件系统(HDFS)、YARN、MapReduce、HBase、Hive、MongoDB、Zookeeper Sqoop、Spark、Kafka、Storm、Pig数据流处理与分析、数据分析与数据挖掘、Mahout数据处理与分析、ETL、Linux、大数据原理、云计算、Python数据分析及可视化、Python网络爬虫、R语言、NoSQL等实验[15]。

实验平台还提供大数据行业案例与项目案例,例如电商行业大数据分析、互联网热点舆情大数据分析、搜索引擎日志案例分析、精准营销用户画像案例分析、金融行业贷款风险评估案例分析、交通大数据案例分析、在线教育平台大数据分析等典型应用。

4 基于实验平台的教学实施

大数据虚拟仿真实验以大数据虚拟仿真实验平台为基础,通过API接口连接,系统模拟真实生产环境,使学生平滑接入工作岗位。为丰富实训教学,提供大数据前置课程试验、在线考试、可视化分析等多种功能。教师可以根据大数据学习科目制定相关实训课程教学计划,管理本学期所有学习资料和教学计划并予以发布,学生在课程任务发布后便可进入系统预习实验内容。实验过程中,教师会给每位学生配置实验环境,并配备全套教学指导;实验结束后,学生需提交实验报告,教师批改发布后,学生即可查询成绩明细,并预习下一次实验内容。学生可通过Web浏览器与远程终端接入实验平台。

(1)通过Web浏览器接入实验。学生在使用大数据实验实训平台时,首先通过Web登录页面,启动教师分配给自己的容器资源,然后根据在线实验指导书按步骤开展实验,实验完成后上传作业,由教师批改打分。

(2)通过远程终端接入操作。学生通过远程终端开展安装维护类实验,在本地计算机进行实验分析与开发,然后打包上传到虚拟服务器,也可通过远程终端直接在虚拟服务器上完成。如果使用Unix/Linux系统,可直接通过SSH命令登录服务器进行操作;如果使用Windows系统,可任选一种终端工具,例如Putty、SecureCRT等。

5 结语

大数据虚拟仿真实验平台架构采用超融合一体化解决方案,在计算存储融合、软件定义、运维自动化等技术的综合应用上,高校能够以最小初始成本快速实现IT基础设施“云化”。超融合架构在成本、实用、安全、稳定等方面,均较传统架构更具优势。在高校实验实训平台这一应用场景,超融合基础架构运维成本低、扩展方便,能够为教研活动提供良好保障。

利用KVM技术,以少量高性能服务器虚拟大量实验集群,学生同时拥有多套集群开展实验,且每个学生的实验环境相互隔离、互不干扰,既有利于学生高效开展实验,又能确保某个实验环境被破坏后不会对他人造成影响。学生通过一键重启功能即可重新拥有一套新集群,既大幅度节省硬件和人员管理成本,又可提高教学实验效率。

通过大数据虚拟仿真实验平台建设,从教学、实践、科研等多方面保障大数据应用型人才和复合型人才培养。基于大数据虚拟仿真实验平台提供企业真实生产实验环境和生产数据,提升学生动手操作和项目实践能力,解决多专业下大数据实验教学中的实验资源共享问题,使得学生所学技能与企业人才需求无缝衔接,进一步提高产学融合成效。

参考文献:

[1] 吴爱华,杨秋波,郝杰. 以“新工科”建设引领高等教育创新变革[J]. 高等工程教育研究,2019,37(1):1-7.

[2] 周傲英,钱卫宁,王长波. 数据科学与工程:大数据时代的新兴交叉学科[J]. 大数据,2015,1(2):90-99.

[3] 贺文武,刘国买,刘建华. 新工科专业育人共同体与学习共同体构建研究——以数据科学与大数据技术为例[J]. 教育评论, 2018,34(8) :46-51.

[4] 陳洁,张文翔. 大数据视角下计算机科学与技术专业建设探究[J]. 软件导刊, 2016,15(10):185-187.

[5] 郭克华,桂劲松,张祖平. 新工科背景下高校新专业建设思路探索与实践——以数据科学与大数据技术专业为例[J]. 计算机教育, 2018,16(7):27-31.

[6] 王敏. 基于Docker的数据科学虚拟化实验平台构建[J]. 实验室科学, 2019,22(3):104-107.

[7] 毅应,刘亚军,琰俞. 利用Docker容器技术构建大数据实验室[J]. 实验研究与探索, 2018,37(2):265-267.

[8] TESFATSION S K,KLEIN C,TORDSSON J.Virtualization techniques compared[J]. Cloud Computing,2018:145-156.

[9] 欧卫华,夏道勋,张仁津. “数据科学与大数据技术”专业实践教学体系构建研究[J]. 软件导刊, 2018,17(5):107-109.

[10] 朱正国. 大数据实验教学平台实验综述[J]. 电脑知识与技术,2018,14(11):163-165.

[11] 李馥娟. 大数据实验室建设与应用研究[J]. 实验技术与管理,2018,35(5):243-246.

[12] 马国胜,刘小艳,马敏. 超融合架构私有云服务平台的设计与实现[J]. 电脑知识与技术, 2019,15(20):275-277.

[13] 崔泽永,赵会群. 基于KVM的虚拟化研究及应用[J]. 计算机技术与发展, 2011,21(6):108-112.

[14] 温荷,万里. 基于KVM的云桌面虚拟化实验设计[J]. 实验技术与管理,2016,33(5):132-134.

[15] 廖军,张毅,王成良,等. 高校大数据实验室建设体系研究与分析[J]. 实验技术与管理, 2018,35(11):241-244.

(责任编辑:孙 娟)

猜你喜欢

实验平台虚拟化技术
生物医学工程专业创新人才培养策略