高校实验室云桌面数据存储方案的探索与实践
2022-09-07通讯作者王曜晖李妍君
张 翅,唐 谦(通讯作者),王曜晖,李妍君,卢 阳
(遵义医科大学 贵州 遵义 563000)
0 引言
随着教育行业逐步信息化,高校实验室对数据存储的技术需求日益增高,高校实验室在各类国家级考试与多种日常教学情景中的切换和使用存在操作便捷度低、技术实现难度较高等难题,对高校实验室数据存储能力提出更高要求[1]。据文献统计,目前市面上应用较为主流的存储方式有传统存储、分布式存储、云存储等,但国内许多高校机房依然采用传统存储方式,存在数据不落地、数据副本遗失、计算与存储介质分离等问题[2]。因此,为更好地满足当前高校实验室使用需求,可采用传输速率更快、数据可靠性更高的存储架构,提升高校实验室场景的兼容度,解决传统存储系统成本高、模式单一等问题。
1 数据存储技术分类及对比
1.1 传统存储系统
传统存储主要指硬件厂商的SAN和NAS存储,由控制器搭配磁盘组对外提供文件服务,存储性能与出厂时控制器的数量、配置等密切相关[3]。在数据可靠性方面,传统存储主要依靠RAID技术进行保护,该技术故障域相对有限,若有硬盘损坏,很可能就导致数据丢失,恢复过程无法控制且速度较慢;其维护工作对于普通使用者来说相对专业,通常由厂家负责完成;在扩展性方面,主要受限于控制器性能,一般只能扩展到PB级,不过传统存储技术已在生产环境中检验了几十年,就其稳定性而言,是值得肯定的[4]。
1.2 分布式存储系统
分布式存储是通过分布式存储软件将若干个服务器的内置硬盘组合成一个大的存储空间,对外提供文件、对象、块存储服务。在性能上,随着服务器台数增加,其IOPS、数据吞吐等参数可以远超出传统存储;在数据副本可靠性上,分布式存储容错率高,且恢复较快,恢复过程可以控制,慢速恢复的情景下甚至可以同时进行业务操作,互不影响;分布式存储可横向扩展,一般可扩展至EB级[5],见图1。
1.3 云存储
云存储是一种线上存储方式,主要分为公有云、私有云和混合云3类,具备虚拟化、智能配置、海量存储、强拓展性、低成本、低能耗等特点[6]。相较传统存储专用的硬件架构,云存储的设计遵从SOA原则,消除了单点存储等劣势,且扩展性可到PB级以上,理论上没有扩展上限。云存储无需购买专用设备或是租赁存储介质,计费使用,用户按需购买,即买即用,快速交付。
2 高校数据存储技术需求
高校实验室进行日常教学的技术前提就是提供稳定、高效的存储基础,合理的存储方式有利于顺利开展教学活动、提升使用体验、流畅切换各类考试情景等,在日常管理和故障维护方面更是可以节约大量的时间精力,以下几个方面为比较重要的存储技术需求[7]。
2.1 云桌面分布式存储
桌面云构建了一套高集成度的桌面架构,借助自动化备份和集中式运维,简化终端硬件管理,使故障恢复时间从传统的几小时缩短至几分钟,无需担心因客户端故障或丢失导致工作中断。学校的数据和应用程序均存储在数据中心,即便设备发生故障或丢失,管理员依然可以从其他设备登录,并快速衔接中断的工作[8-9]。传统模式核心数据及办公文档分散存储于每台终端上,硬盘故障或误操作易导致重要文件丢失。随着终端数量越多,其数据丢失风险越大,分布式存储则可以规避该问题,最大限度地保护数据[10-11]。
2.2 SSD缓存技术
SSD缓存技术可利用SSD+HDD磁盘混合实现,包括1块SSD硬盘和多块SATA/SAS硬盘,其中SSD的IO性能较高,作为缓存盘,用于缓存学校经常访问的热点数据[12];机械硬盘的IO性能较低,作为数据盘,用于存储学校虚拟机和个人数据。一体化服务器的缓存命中率高于60%,这样就可以实现以较低的成本获得非常高的IO性能,提升桌面启动速度和操作流畅度[13]。
2.3 数据安全性
引入分布式虚拟存储技术,使用双副本方式保障数据安全。桌面云具备前端、传输端、后端多层次的安全存储体系,包括多种认证方式、传输层加密、数据硬盘加密等加密方式,有效防止数据泄露,规避软硬件故障所导致的数据丢失等问题[14-16]。分布式存储的全集群架构设计,使主机和硬盘均有冗余机制,能够实现故障自动迁移,以确保桌面业务稳定运行。
3 存储性能测试
学校云平台使用过程中可负载近600台终端,本次测试以云机房和传统独立终端实现软硬件及使用环境为基础,对存储性能的重要参数进行了实机测试。
3.1 测试方法
运行tometer程序,选中Worker1,勾选DiskTargets标签页下Targets列表中的裸磁盘作为测试目标盘;在DiskTargets标签页下设置测试目标盘的扇区数量(一个扇区512字节)。由于新挂载的裸磁盘里面没有数据,为了保证读IO测试准确,需要优先按照1M顺序写的模型进行数据预写入,否则测试时可能会从底层虚拟化系统内存返回数据,导致读IO偏高。按如下顺序进行测试:
512B_ 100%Read:0%random
512B_ 75%Read:0%random
4K_ 100%Read:0%random
4K_ 75%Read:0%random
16K_ 100%Read:0%random
4K_ 75%Read:0%random
32K_ 100%Read:0%random
32K_ 75%Read:0%random
3.2 部分测试结果
3.2.1 测试参数:512B_ 100%Read:0%random
该参数下传统终端平均响应时间约为云桌面的2.32倍,最大读取响应时间约为云桌面的20倍,每秒传输量约为云桌面的1/37,见表1。
3.2.2 测试参数:4K_ 100%Read:0%random
该参数下传统终端平均响应时间约为云桌面的4.39倍,最大读取响应时间约为云桌面的31.05倍,每秒传输量约为云桌面的1/70,见表2。
3.2.3 测试参数:32K_ 75%Read:0%random
该参数下传统终端平均响应时间约为云桌面的5.62倍,最大读取响应时间约为云桌面的26.05倍,每秒传输量约为云桌面的1/95,见表3。
3.3 测试结论
虚拟桌面系统需要合理的存储子系统设计,以支撑操作系统和用户环境的负载[17-18]。通过表2可以看出,传统终端的最大读取响应时间与云平台的差距最大可达31倍,表1和表3平均响应时间和传输量对比可观察出,测试负载越大,传统终端短板越明显,传统终端数据存储及传输缓慢,容易造成数据丢失;虚拟桌面存储系统可以较为充裕地满足云平台的存储吞吐能力,满足平台各类系统的正常运行条件,辅以高效、便捷、易扩展的虚拟存储架构,极大地提升了用户侧的综合体验,达到了预期效果。
表1 512B_ 100%Read:0%random测试表
表2 4K_ 100%Read:0%random测试表
表3 32K_ 75%Read:0%random测试表
4 分布式存储在高校云机房建设中的应用
学校云机房主要搭设了虚拟仿真系统和国家级考试平台两类应用场景,在每种场景下根据不同的具体使用环境又分设了不同的系统配置和模板,可根据需求切换使用。这两类场景对数据的实时存储速度、数据完整度、数据恢复能力等都有着很高的要求,分布式存储技术可在这类应用场景下对数据安全提供保障。
4.1 虚拟仿真教学应用系统
虚拟仿真实验教学系统是高校培养学生实验、实践和创新能力的重要平台,该系统在遵义医科大学得到了广泛应用。对于在教学实践过程中存在的数据存储量大、存储速率低下、存储数据易丢失等问题,可利用云桌面分布式存储系统,让学生流畅体验模拟交互,满足操作过程中多人协作的数据需求,在教学过程中实时产生的数据,通过分布式存储技术存放于不同的云主机内,使数据的存储更加安全、高效。
4.2 国家级考试应用平台
该校国家级考试应用平台包含全国计算机等级考试系统、全国司法考试系统、全国CET4/6英语考试系统。对比传统独立终端,在云桌面VDI架构下,学生端数据不保存在本地,而是存于云端数据中心,通过本地局域网,考试系统在服务器中划分虚拟磁盘空间用于存放用户数据,提升数据稳定性。每一个考生终端的实时数据,也通过分布式存储技术存储于云计算主机内,所以可能出现的任何学生端的网络异常、物理故障等,都不会对数据存储造成影响,从而保障考试的正常进行。
5 结语
通过分布式存储,可以满足不同的需求场景,容量随需可扩,资源弹性扩展,架构无性能和容量瓶颈,数据存储安全可靠,切换场景快速高效[19-20],提升了高校实验室资源利用率,在实际使用和管理上也更加便捷,是一种行之有效的高校实验室整合解决方案。