基层广电RAID阵列的运行维护
2021-08-31李世鹏
摘要:本文简要阐述RAID磁盘阵列在基层區县融媒体节目制作部门的使用现状,结合本部门RAID阵列数据存储工作实践,谈谈我们对如何做好磁盘阵列维护运行、数据存储方面的一些思考。
关键词:RAID 数据存储
背景:
当今广电科技发展日新月异,网络化、信息化技术在广播电视融媒体领域的应用也日趋深入普遍,摄、录、编、播、传、存、显各个环节都已经实现了高清化、数字化,这里面“存”这个环节一直在后台运行,平时不受关注,一旦损坏却影响巨大。而对存储的主要设备RAID的运行维护,对基层广电技术人员而言是个巨大挑战,据了解从RAID开始进入区县基层广电部门,目前大多已进入故障高发期,本文就这一课题展开讨论无疑拥有很强的现实意义。
一、RAID基础知识
1.1 RAID的定义及常见使用方法
RAID 即独立磁盘冗余阵列,其实就是用多个独立的磁盘组合在一起形成一个大的磁盘系统,从而实现比单块磁盘更好的存储性能和更高的可靠性。按照组成磁盘的不同管理模式提供不同的存储容量、数据校验容错、数据读写性能。
常见外置RAID磁盘阵列使用方法有以下两种:
1、小型桌面应用一般采用6盘位及以下磁盘阵列盒、硬盘阵列盒通过雷电或USB接口直连一台主机,也可以共享出来供局域网其他机器作为一个大容量存储使用,组成级别一般选择RAID 5。
2、再大一些规模的RAID阵列使用,比如20台非编的在线编辑或中心级别的媒资存储,要求阵列存储容量更大,数据安全性更高,一般采用12盘位以上,RAID 6级别的阵列,阵列通过FC光纤直连到非编网络核心交换机,供所有终端使用。
1.2 RAID的常用组成级别
RAID 0:
亦称为带区集,把多块硬盘连接在一起而组成一个容量更大的存储设备。处理数据时把数据分块并且同时读写入组成RAID的磁盘,从而大大提高I/O速率。RAID0没有冗余或错误修复能力。
RAID 1 :
也称为磁盘镜像,2n块硬盘只能提供n块硬盘的存储容量。每一个磁盘都具有一个对应的镜像盘。只要不是一组镜像硬盘同时损坏不影响存储数据安全。
RAID 3:
使用一个专门的独立磁盘存放所有的校验数据,而在剩余的磁盘中以与RAID0相似的方式分割并读写数据,即可视为“RAID3=RAID0+校验盘”。
RAID 5:
在运行机制上,RAID 5和RAID 3完全相同,也是由几个数据块共享一个校验块。RAID 5和RAID 3的最大区别在于RAID 5不是把所有的校验块集中保存在一个专门的校验盘中,而是分散到所有的数据盘中。硬盘的利用率为n-1。
RAID 6:
与RAID 5相比,RAID 6增加了第二个独立的奇偶校验信息块。两个独立的奇偶系统使用不同的算法,即使两块磁盘同时失效也不会影响数据的使用。
二、本单位RAID磁盘阵列使用概述
2.1 本单位在线编辑RAID阵列的软硬件配置
1、3U机架式,冗余电源,单控制器设计,控制器可快速替换,阵列控制器FC光口直连非编核心交换机;
16块西数ST3000NM0033企业级硬盘(支持热插拔);
4个RJ451000M以太网口,支持多种网口聚合方式;
RAID0,1,3,5,6,10,50,JBOD(支持全局动态热备盘);
管理方式支持链接扩展柜进行扩容;
支持10台非编,每台两层的GVHQ/HQX(1920x1080)文件的实时在线编辑。
2、系统采用安全的嵌入式Linux内核,可有效防止病毒及木马攻击,并具有多网口聚合、断电保护、QOS网络带宽管理,与非编终端组成了资源共享的网络编辑组群。其灵活的扩展性,便捷的文件交互、严格的分级权限管理为中心各制作部门提供了安全、高效的网络协同工作平台。
2.2 本单位在线编辑RAID阵列几年来的的运行情况
1、2015年系统购入时,初始阵列中16号盘位为热备盘,其他15块盘组RAID6,实际可用硬盘容量为13*3=39T。
2、2019年国庆假期间阵列告警,值班人员重启后停止告警,节后登录系统发现16号盘状态为在线,2号、8号盘状态为废弃,阵列状态为降级。联系厂家远程指导换两块同规格企业级硬盘,阵列经过3天的数据重构恢复正常,8号盘状态变为热备盘,数据未受任何损失。替换下的硬盘格式化后挂到办公电脑上正常工作至今。
3、2021年3月,阵列未告警,记者反映登录不了在线编辑系统,技术人员检查发现3、11、12号硬盘指示灯亮红灯,系统进入保护状态。关机插拔故障盘后3号盘亮绿灯恢复正常,11、12号盘仍然亮红灯,联系厂家远程指导处理故障恢复正常。但这一次故障彻底给我们敲响了警钟,深刻认识到存储数据的宝贵,必须引以为戒,查找单位还有哪一些技术系统存在隐患,哪一些技术系统我们还不了解掌握。要先摸出个底来,分门别类采取相应措施堵塞漏洞,让单位技术保障能力上一个新台阶。
三、阵列使用实践心得:
综合两次阵列故障处理过程,我们经过学习分析,得出以下观点:
1、磁盘阵列对组成阵列的磁盘要求严苛,一有不符合标准的硬盘出现,就会踢出阵列,启用热备盘进行硬盘重构,再出现坏盘而又没有及时换盘,阵列就会降级,数据安全性大为降低。直至出现阵列崩溃数据丢失的灾难性后果。
2、故障及时发现对解决问题极为重要,除了注意系统报警外,还要定期登录巡查,观察阵列状态,以防告警部分被关闭或故障出现的不告警。
3、保证同规格或高规格企业级硬盘的常态冷备,及时替换保证阵列中热备盘正常工作。
4、阵列工作3、4年后或阵列中出现过坏盘,就要引起技术维护人员的高度重视。
5、数据流磁带、光盘、离线硬盘等模式作为重要数据的异地异态勤备份,将大大提高存储数据的安全性。
四、结束语
据了解,目前很多基层广电部门的技术维护大都由传统广电的老技术人员承担,高水平的专业计算机人才很少能充实到区县基层一线,对磁盘阵列这类高价值设备,学习维护又有一定风险的领域确实有较高门槛,存在本领恐慌,但现实情况又要求我们正确面对,加强学习,勇于承担起这份挑战。希望此文能对行内同事们有所帮助,笔者水平有限文中不当之处敬请大家指正为谢。
作者简介:
李世鹏(1972,11——),男,汉,籍贯:山东省济南市莱芜区,工程师,学历:大专,研究方向:广播电视工程。