清华大学图书馆集中存储系统的规划与实施
2008-10-30窦天芳张成昱陈武张喜来
窦天芳 张成昱 陈 武 张喜来
摘要介绍清华大学图书馆集中存储系统的规划和实施经验。分析了不同的数字化资源对存储系统的需求,并详细阐述了清华大学构建集中存储系统的思路、技术方案和实施过程。还就应用中遇到的问题进行了进一步的阐述并给出建议。
关键词数字化资源存储虚拟存储集中存储SAN ISCSI多路径冗余
1、引言
数字化信息资源作为图书馆馆藏的重要增长点正在迅猛发展,数字馆藏对存储空间的需求不断膨胀。与此同时,存储技术也蓬勃发展,存储的应用模式也发生了关键性改变——存储系统逐渐从主机系统中剥离出来,与网络技术融合成为独立的技术领域。可以说,存储系统和主机系统一样已经成为数字图书馆建设中不可或缺的基础设施,对存储系统的规划和持续投入已经成为每个图书馆必须面对的问题。
图书馆的建设经费并不充足,特别是在基础设施的投入方面更可谓捉襟见肘。往往是集中一次财力购买了高性能的存储设备,而无缘进一步的保修与扩容。本次清华大学图书馆存储系统建设得到CALIS的支持,按计划该建设项目于2006年底前完成规划并开始实施。而在此之前,图书馆很多业务系统已经因存储空间告急而不得不推迟数据的更新。因此,本次规划除了要满足当前迫切需要增加的存储容量以外,还要探索一个高效实用的存储架构,该架构除了要具有灵活的可扩展性外,还必须考虑到对前期存储设备的投资保护和数据的集中管理。
本文详细介绍清华大学图书馆集中存储架构的规划过程,包括需求分析、技术方案和实施概况等内容,以期和同行交流。
2、需求分析
本节主要是对清华图书馆现有的数字化资源及其服务状况进行梳理,明确不同的数字化资源类型对存储容量、性能及数据完整性等方面的需求。
2.1数字化资源分布及数据量
清华大学图书馆的数字化资源主要包括:外购的数字化资源、自建的数字化资源、单机版光盘资源、应用系统的运行日志及归档信息等内容。
外购的数字化资源是数字化学术资源的主要组成部分。通常,只有在本地建立镜像站点会考虑将数字化学术资源存放在本地,而本地存放什么类型的数据——是检索平台、全文、文摘、索引,要根据购买时的协议来约定。例如,EI VILLAGE只在本地提供检索平台和文摘信息,索引则存放在美国服务器上远程调用;而SDOS、CSA Illumin、ACM Digital Li-brary、中国期刊网等数据库则将检索平台、索引、全文等内容全部存放在在本地提供镜像服务。作为CALIS学术资源镜像基地,清华大学图书馆拥有20多个镜像站点,其中5个学术资源的镜像站点都需要本地存储的支持,综合考虑其现有的数据量和数据增长速度,这部分资源需要增加的存储空间在14TB左右,这其中包括因剔除老旧设备而必须迁移出来的2TB数据。
清华大学图书馆的自建数字化资源主要有:清华大学博硕士学位论文,基于中美百万册书计划而加工制作的电子图书,数字化的特色馆藏等内容。其中基于中美百万册书计划的电子图书总数据量达到5TB;超过11万册的数字化馆藏图书的数据量达到3TB,这些都需要新增存储空间来支持。
单机版光盘资源主要包括:随印刷本图书到馆的光盘资料和与清华大学人文地理相关的单机版光盘。一直以来,这些资料作为馆藏的重要组成部分被大量收藏,而随着这种单机资源的逐渐增多,我们也考虑在本次建设中提供相应的空间对此类资源进行集中保存和管理。
需要保存的日志和需要归档的文件很多,在清华大学图书馆运行的服务器已经超过100台,运行日志及web访问日志相当可观。考虑到资金的因素,本次规划根据保存的重要性只选择其中的部分内容进行保存和归档,主要包括:邮件服务器中的全部邮件、文件服务器中的部分文件、主页服务器的web访问日志等内容。
总体看,上述数字化资源对存储容量的需求总量在32TB左右,所需容量的分配比例分别为45%、30%、20%、5%。
2.2存储性能
清华大学图书馆的数字化资源类型和服务方式各不相同,采用单一的技术和产品用于不同类型的数字资源存储是不明智的。因此梳理不同的业务系统对存储性能的需求非常必要。
单位时间内的读写频次和数据流量是决定存储性能的重要指标。我们选择了数字资源的服务方式、访问量和运行范围等因素来综合考虑不同的业务系统对存储性能的需求。通常,提供web访问的业务系统,I/O密集,且多为并发应用,其对存储系统的性能要求较高,用于归档备份的业务系统对存储性能的要求较低;对同一个web应用系统,索引的访问量要高于全文的访问量,在调研馆业务系统的访问量时也欣喜地发现很多业务系统都有详细的统计数据,而这个数据就作为我们考虑性能需求的重要指标;数字资源的运行范围和读取频次密切相关,服务范围广的业务系统通常读取频次较高,以CSAILLUMINA为例,该数据库为全国30家高校提供检索服务,年检索次数达500多万次,日平均检索次数约为1.5万次,这样广的服务范围要从最底层的存储开始在各个环节保障其访问性能。
当然,业务系统对存储性能的需求又是一个相对的概念,对上述影响性能的因素判定并没有一个通用的标准依据。我们只是通过分析不同业务系统对存储性能的需求,最终确定三种级别的性能需求:最优、较优、一般,并因此明确了不同级别的存储设备和容量分布。
2.3数据完整性方面
从数据保存的重要性看,自建资源最具保存价值和意义。无论是外购资源还是单机版光盘资源在出版商的手中必定还留存一份数据,而自建的数字化资源是最有特色的,有些就是世界上独一无二的数字化资源,在对存储系统进行规划的同时要考虑到对这部分数据进行备份和归档,保证自建资源的数据完整性。
综上,数据量庞大、数据类型复杂是图书馆数字资源的总体特点。因为数字化资源类型各异,其对存储性能、容量、数据完整性等方面的要求也不尽相同。要想利用有限的经费既保证海量数字资源的存储空间又满足部分业务系统的高性能I/O访问,必须处理好大容量与高性能之间的矛盾,处理好不断扩容与管理一致性之间的矛盾。因此采用大量的不同级别的存储设备共同构建一个集中存储的系统架构是本次规划的主要指导思想。
3、存储技术分析与方案的规划
4年前,清华大学图书馆就曾对存储系统的建设进行规划并付诸实施。当时的规划中已经考虑到:存储系统是一个系统工程,在系统构建时要充分考虑可扩展的需要,通过技术手段对各种级别的存储设备进行统一部署和集中管理。遗憾的是,当时“集中管理”更多地体现在概念上,而稳定成熟的产品尚显稀缺,用户在制定实际应用方案时受到很大限制,最终也只是完成了基于SAN的存储系统建设。但是在本次方案构建时,注意到当前的存储技
术及产品丰富、成熟,适合不同层次的存储需求。不再迁就技术而牺牲需求,可以更多地从需求的角度选择所需的存储技术和产品。
需要的存储架构应该满足图书馆复杂业务环境对存储空间的需求和对存储性能的需求;存储架构的逻辑结构要简单,便于集中管理;存储架构要融合多种存储技术,投入合理,便于灵活部署。
3.1基于FC的SAN是存储系统的主体
直到今天,仍然有人将SAN与FC的概念混淆。事实上,FC作为一种光纤通道协议诞生于1994年,正是这种FCP(Fiber Channel Protocol)催生了SAN的概念。更确切地说,SAN应该是一种存储架构,是独立于LAN的专用的存储网络。其通过FC Switch/HUB建立起服务器与存储设备之间的连接,通过FCP完成网络中的数据传输。
基于FC的SAN存储架构实现了数据的高速传输、共享和便利管理。在目前的技术条件下,基于FC的SAN仍然是选择高性能存储的首选架构。在集中存储系统中,以FC为基础的SAN仍然是系统的主体,用于保证关键业务的数据存储和应用。
但是前端主机接入基于FC的SAN的成本是昂贵的。搭建基于FC的SAN有三个必备设备:HBA卡、FC交换机和光纤存储设备。HBA卡安装在前端服务器上,与光纤交换机连接,光纤交换机连接前端的服务器与光纤存储设备(即使不是全光纤的设备也要增加SCSI-FC的Bridge来转换)。每一种设备的投入都是相当可观的。特别是和普通以太网交换机相比,光纤通道交换机的价格大约是它的10倍。HBA卡也较普通的以太网卡贵出许多。普通的PC Server如果想增加存储空间,几乎要投入与主机系统相当的资金。因此必须考虑在FC SAN的基础上,应用其他技术来降低存储系统的接入成本。
3.2选择ISCSI和虚拟化设备来降低接入成本,增加架构的灵活性和扩展性。
接入成本包括前端服务器的接人成本和后端存储设备的接入成本。
NAS架构和基于ISCSI的IP SAN的架构均可以降低前端接入的成本。NAS架构基于CIFS/NFS协议完成数据传输,基于ISCSI的IP SAN要依赖于专有的客户端软件(如:ISCSI Initiator)完成数据传输。两种架构下前端服务器都是通过以太网卡和现有的以太网环境使用网络存储设备,但是在传输性能上,ISCSI协议明显要优于CIFS/NFS协议。
我们曾经就基于上述两种技术的产品进行过测试,针对同一种类型的文件(平均文件大小:1MB)的一组测试结果如表1所示,可看出ISCSI传输速度最快,这也和ISCSI协议本身的优势契合。
早在ISCSI协议正式成为IETF标准(2003年2月11日)之前,很多硬件厂商就开始推出支持ISCSI协议的产品,如:IBM推出的IP Storage 2001(2001年),Ciseo推出的SN5420(2001年)。近几年操作系统提供商也开始针对ISCSI协议提供Initiator。这一切都使得基于ISCSI协议的存储产品更加便于实施。据IDC预测,2003年至2008年,ISCSI整个市场的年增长率将达到170.5%。甚至有专家直接称2006年为存储的ISCSI年。
节约后端存储设备的成本只能依赖于存储虚拟化。存储虚拟化是一个大概念,本文中虚拟化主要指网络层和存储设备层的虚拟。通过一个虚拟化设备(软件)对多品牌、多层次的存储设备统一管理,将异构的存储设备整合成一个存储池,统一划分虚拟卷提供给前端使用。虚拟化技术既方便利旧又方便择新。目前的虚拟化产品很多,市场上推出的比较成熟的产品有:美国飞康公司的IPSTORE,Store-Age公司的SVM(Storage virtual manager),IBM公司的SVC(Storage virtual controller),以色列SANRAD公司的V Switch存储管理器等。
基于节约成本的考虑,很多虚拟存储设备厂商就将ISCSI协议与虚拟化技术融合在一起,比如以色列SANRAD公司的V Switch存储管理器。这些技术和产品可以为我们选择灵活的接入方案及降低接入成本提供很好的参考。
在实际规划中,我们将选择融合了ISCSI和虚拟技术的存储管理器作为集中存储系统的一部分,通过它来管理一些旧有的SCSI盘阵和性价比高的ISCSI盘阵,通过ISCSI协议给对性能要求不高的主机系统分配存储空间。这样既可以增强主机接入的灵活性又能为今后的扩容增加可选余地。
3.3多路径冗余设计保证重要业务的高可用。
重要的业务不仅需要服务平台的支持,同样需要存储系统的支持。对重要的业务系统,从存储设备到交换机,从交换机到服务器包括存储设备内部均应该采用多路径冗余的设计。
多路径冗余避免数据传输环节的单点故障,很大程度上保护了业务的连续性,可以实现正常工作状态的负载均衡和故障时的路径切换。通常多路径冗余靠软件来实现,如EMC的power path软件,HP的MPIO软件。
对于面向全国提供7×24小时服务的服务系统而言,规划中必须考虑多路径冗余的设计结构。
3.4选用合适的硬盘,保证足够大的存储空间。
串行ATA(SATA)是由Intel、IBM、Dell、APT、Maxtor和Seagate公司共同提出的硬盘接口规范。2001年,Seagate发布了Serial ATA 1.0标准,正式宣告了SATA规范的确立。SATA诞生以来就成了高容量,低成本的代名词。随后FATA(FC ATA)技术出现,将昂贵的FC接口装在廉价的ATA驱动器上,作为FC环境下SATA的替代。同容量的FC硬盘比FATA/SATA盘贵出5~10倍。表2是上述3种磁盘性能参数的比较。
目前,多数SAN主流厂商已经支持SATA/FA-TA与FC混插技术,所以FC驱动器和FATA驱动器可以共存于一个系统中,形成两层存储。我们在本次项目的规划过程中将选择部分SATA/FATA硬盘来降低成本,增加容量。可以考虑将最重要的或者对性能要求更高的数据存放在FC硬盘中。其他的存放在SATA/FATA硬盘上。当然,无论是哪种类型的硬盘都会通过全局Hot Spare和RAID等技术来保障数据的安全性。
综合上述分析,清华大学图书馆集中存储系统的建设方案得到进一步明确。图1是具体方案的拓扑图。
其中光纤存储中FC硬盘的容量不低于9TB,整个光纤存储的裸容量不低于45TB。
最终的存储方案是经过多年对存储技术跟踪和理解的基础上形成的,综合考虑了管理、经费、实用等多种因素。该方案体现了不同的存储设备在同一个存储架构中和平共存的思想。重要的是在有限的经费面前,该方案能够最大限度地获得存储容量,同
时也能保障高性能的数据传输。因为方案应用了虚拟存储技术,整个方案可以更好地控制成本,保护投资,更适合图书馆资源的访问特点,同时为部署资源共享、备份、扩容等任务提供了灵活的框架。
4、存储方案的实施
上述方案经教育部审批并在教育部主持下完成方案的招、投标工作。最终选定的满足需求的产品如下:SAN主体部分的存储设备选用HP EVA8000光纤盘阵,裸容量为58.5TB,通过HP StorageWorks4/16 SAN Switch为主机提供基于SAN的存储空间;SANRAD的V Switch3000作为集中存储管理器用于管理不同级别、不同厂商的磁盘阵列,为前端主机提供基于ISCSI的存储空间。
HP EVA8000是企业级存储设备,提供高安全的磁盘管理方案,提供最多168盘,高达84TB的存储空间,有很好的扩充性。V Switch3000提供2个SCSI设备口、2个FC设备口、4×1GB的以太网口,可以通过以太网交换机增加接入的ISCSI设备和前端主机的数量。
4.1实施准备
2006年11月底,开始针对这个方案进行存储系统的实施。实施前的准备工作包括环境的准备和相关软件及配置文档的准备。
环境的准备有:明确实施过程中要接入集中存储系统的服务器、服务器的操作系统及内核版本、服务器接入集中存储架构中的方式、服务器端允许接入的时间、机房的物理环境等;
相关软件的准备有:根据实施服务器的操作平台,准备不同的HBA卡驱动程序、不同版本的ISCSIinitiator、多路径冗余软件及其配置文档等。
4.2应用情况
集中存储系统实施以来,极大地缓解了存储压力,提高了服务器端接人的灵活性,同时有效地保证了全国镜像服务器的访问效率。截止目前,已经有13个业务系统接入到这个集中存储中来,其中有10个主机通过SAN方式使用存储空间,3个主机通过ISCSI协议使用存储空间(部分接人情况见表3)。2台旧有的SCSI/FC设备通过虚拟交换机接入到集中存储系统,形成统一的存储池,为归档或备份主机提供存储空间,在这个系统工程中,不同级别的存储设备和谐共处,不同特点的业务系统各取所需。
5、应用中的一些问题
由于受软件和现实环境的限制,在实际应用中也遇到各种各样的问题,主要有以下两个方面:
1)ISCSI应用的局限性。ISCSI的优势在于不改变现有的网络环境,主机端可方便地接入到集中存储系统。但是存储的效率和稳定性也会过多地依赖网络环境,网络病毒的大肆传播将对存储的效率造成很大影响。目前,我们考虑将依赖公网进行数据传输的方案逐渐调整到搭建一个数据传输的私网,尽量净化数据库传输的网络环境,在最大程度上保障I/O的稳定性和传输效率。
2)免费的多路径冗余软件仍然存在局限。出于高可用等因素的考虑,我们选择部分主机以多路径冗余方式接入集中存储系统,采用HP的多路径冗余软件HP MPIO管理。基于Windows平台的MPIO(Mutipath Input/Output)方案最早由Microsoft提出,主要是使用冗余的物理路径组件在服务器和存储设备之间创建逻辑“路径”以保障系统的高可用性。很多存储厂商包括HP,在windows平台下的MPIO软件都是基于Microsoft的MPIO软件进行封装的,免费提供给用户使用。由于厂商本身对该平台下MPIO软件的投入较少而使得该软件应对复杂环境时显得力不从心,从而最终导致windows平台下多路径冗余方案的失败。
6、结语
当今时代的图书馆既是数字化信息资源的服务者,也是海量数据的管理者。集中存储系统在清华大学图书馆的成功部署也说明:面对日益复杂的存储需求,融合多种技术和产品为一体的集中存储管理方案是应对图书馆复杂需求的有效方式,也必将促进数字化内容的收集,整理及深层服务。