电信运营商发展云存储业务的网络问题探讨
2010-06-27陆小铭曹维华余勇昌
陆小铭,曹维华,余勇昌
(中国电信股份有限公司广东研究院 广州 510630)
1 引言
随着云计算概念在国内的兴起,三大运营商先后提出了自己的云计算项目,如中国移动的“大云”计划,其主要目标是为了满足IT支撑系统发展和提供互联网业务和服务的需要;中国联通推出了“互联云”的概念,其目的是要把网内的IDC实现互联和资源共享;中国电信则是联合了在云存储领域有成功经验的EMC,以Mozy为原型推出了“e云”云存储业务。云存储既可以为云计算提供存储能力,也可以单独成为一种服务。e云业务就是面向公众客户和企业客户的定位于数据备份的云存储业务。
云存储业务是通过IP网络为个人和企业提供服务的,所以,网络质量对用户的业务体验有着直接的影响。电信运营商有必要分析在何种网络环境下能实现较好的业务体验,同时如何利用自己可控的网络部署和优化云存储的组网,从而实现用户体验的提升,促进云存储业务的发展。
2 云存储定义及技术
云存储是在云计算概念上延伸和发展出来的一个新的概念,它是指通过集群应用、网格技术或分布式文件系统等功能,将网络中大量各种不同类型的存储设备通过应用软件集合起来协同工作,共同对外提供数据存储和业务访问功能的一个系统。从根本上来说,云存储是一种实用型服务,它可以为众多用户提供一个通过网络访问的共享存储池。从业务交付方式看,云存储与SaaS服务有些类似,所不同的是云存储所提供的是存储管理和服务。云存储池是可以灵活调整的,可以很轻松地扩展或根据客户需求定制。
云存储是存储技术的集大成者,主要涉及了组织架构、数据优化、安全管理等三大方面的技术范畴。
云存储利用了现有的存储虚拟化、集群存储以及SAN+NAS等技术。从架构上看,云存储可以借助存储虚拟化技术构建庞大的存储池,屏蔽底层存储差异,从而对外提供一致的服务。目前,云存储系统结构模型主要由存储层、基础管理层、应用接口层和访问层等4层组成。
·存储层:它是云存储最基础的部分。存储设备可以是FC光纤通道存储设备,可以是NAS和iSCSI等IP存储设备,也可以是SCSI或SAS等DAS存储设备。
·基础管理层:基础管理层通过集群、分布式文件系统和网格计算等技术,实现云存储中多个存储设备之间的协同工作,使多个存储设备可以对外提供同一种服务,并提供更好的数据访问性能。
·应用接口层:不同的云存储运营单位可以根据实际业务类型,开发不同的应用服务接口,提供不同的应用服务。
·访问层:任何一个授权用户都可以通过标准的公用应用接口来登录云存储系统,享受云存储服务。云存储运营单位不同,云存储提供的访问类型和访问手段也不同。
云存储同时需要具备重复数据删除、压缩和其他形式的数据优化手段,在备份、归档和主存储上减少现有数据的总容量,并且使数据也得到最大程度的优化。
安全、基于策略的管理等也是云存储应该具备的能力。云存储应该能实现数据加密传输、冗余备份,并可以对免费用户或付费用户采用不同的存储策略,从而实现服务的差异化,包括存储速度、数据管理、存储容量等。
3 云存储业务分析
3.1 云存储业务分类
根据用户连接云存储方式的不同,云存储可以分为公有云存储和私有云存储。
如果用户通过Internet连接到云存储池,则属于公有云存储的概念。如亚马逊的Simple Storage Service(S3,简单存储服务)、EMC的Mozy、中国电信的e云等。目前,公有云存储业务还可以根据面向客户的不同细分为以下两类。
·面向企业用户的公有云存储业务:如亚马逊的S3服务,其特点除了宣称的可靠性、扩展性更好之外,最大的特点是面向开发,并提供了丰富的接口,开发者可以把它当作一个在线存储解决方案,而不仅仅是一个独立的网络应用,因此比较适合增值业务商向客户提供互联网增值业务(如视频分享、在线游戏、SNS等)。该类业务一般会按存储容量按月收费,同时还会根据传输数据量收取一定的带宽使用费。
·面向公众用户的公有云存储业务:如Mozy、Dropbox、e云等,该类业务以面向个人客户为主,当然也会有专门针对企业级用户的方案(主要是增加了管理、统计和分析功能),但其最大的特点是以数据的存储备份为主,并不提供应用开发的接口。该类业务一般会向用户提供一个免费的存储额度,如果要增加容量则要收费,或者企业级应用也要收费。另外,还有一些应用,如纳米盘、Mofile等,则是以文件分享为主,其共享文件在存储池存储的时间长短与下载次数有关,下载得越多,存储时间越长。
如果用户通过Intranet连接到云存储池,则属于私有云存储的概念。私有云存储通常建立在一家公司的防火墙后面,需要用到该公司所有或授权的硬件和软件,所有的企业数据都保存在公司内部并完全由内部IT员工控制。目前,私有云存储已经有比较成熟的技术方案,如直接连接 存 储 (direct access storage,DAS)、附 网 存 储 (network attached storage,NAS)、存储区域网 (storage area network,SAN)等。
3.2 云存储业务定位
云存储作为一项互联网增值业务,可以由专门的增值业务商提供,也可以由电信运营商提供,相比较而言,电信运营商拥有很多先天的竞争条件以及无可比拟的资源优势。
·网络资源优势:云存储是依赖IP网络存在的业务,IP网络的质量是决定存储速度的关键因素,目前,国内绝大部分的网络资源都由运营商掌控,因此,由运营商提供云存储业务比较容易保证业务体验。
·IDC资源优势:电信运营商还控制着大量的托管机房业务,这为运营商快速部署分片区的云存储数据中心提供了极好的基础。
·良好的用户信任感:电信运营商作为老牌的企业,用户对其有比较好的信任感。
·牌照问题和内容审计:云存储可能会面临业务牌照的问题,同时也存在“内容审计”的潜在要求,电信运营商在这两方面都有独特的优势。
目前是云存储的发展初期,云存储还不能安全可靠地处理那些需要一直保持快速网络连接的交易文件或数据库,因此云存储并不适宜参与到网络交易过程。同时,对于数据分享功能,内容难以管理和控制,将不可避免地遇到审计问题。因此建议云存储业务定位于个人和公司的数据备份、归档和灾难恢复,有条件尝试数据分享功能(如只对企业内用户开通)。
对于企业用户,可以结合MPLS VPN业务推动云存储的发展。企业开通MPLS VPN业务的目的是为了方便地组织企业内部网络。但在开展MPLS VPN业务过程中发现,对于地区跨度比较大的电路,由于分支机构距离总部的网络时延比较大,如中美越洋电路的网络时延甚至超过200 ms,此时数据传输的速率就会一直维持在一个较低的水平,导致用户投诉不断。对此,可以采用云存储满足企业用户的数据存储和传输问题。
对于公众用户,建议着眼于移动互联网用户,由于无线信道不可避免带来的长时延、丢包以及资源的有限分配,云存储的速度肯定不会很高,所以只适合备份少量的数据,可以结合移动互联网增值业务来推广云存储业务,如备份手机通信录、日程计划、照片、视频等。
3.3 云存储业务的应用分析
3.3.1 业务流量模型分析
在大多数的BS架构下的网络应用,如HTTP、FTP、网络视频等都是以下行为主的非对称模型,因此,作为电信服务的宽带接入方式,都是按照此类模型设计的,如ADSL、EV-DO、WCDMA等。而云存储应用作为一个特例,无论是在初始数据备份阶段,还是在以后日常数据备份阶段,都是以上行流量为主。
同时,由于云存储业务注重数据的安全性和完整性,因此在数据的上传和下载过程中,需要采用加密技术和校验技术,这样必然要求增加相应的数据包头和校验帧,从而增加了带宽的消耗,在一定程度上影响数据备份速度。
以下对e云业务进行测试分析。测试方法是采用特定大小的文件进行备份,通过WireShark软件抓包并分析。从分析结果得知,目前e云是由位于上海IDC机房的云存储池提供的业务,对外只提供惟一一个地址,通过负载均衡技术将存储任务分配到云存储内的若干台磁盘服务器内。
客户端和存储云之间采用TCP的传输层协议,所传输的数据采用了SSL加密。表1对备份文件大小和实际数据传输量进行了比较。
由此可见,由于采用了数据加密,数据包头和校验等需要额外的开销,由此造成的备份过程中传输的数据流约为原始备份文件的1.4倍。
表1 备份文件大小和实际数据传输量的比较
3.3.2 云存储速率测试及分析
在足够的出口带宽(155 Mbit/s)的情况下,选择在不同网络时延(不同的网络时延取决于当时数据传输所经的路径)的情况下进行测试,测试结果如下。
如图1所示,在双向时延为26 ms,丢包率为10-3级别的网络情况下,备份存储10 MB大小的文件需要约12 s,平均速率约为8 Mbit/s。
如图2所示,在双向时延为75 ms,丢包率为10-3级别的网络情况下,备份存储10 MB大小的文件需要约25 s,平均速率约为4 Mbit/s。
以上情况可视作企业用户采用e云业务时所可能遇到的情况,由此可见,e云业务作为典型的TCP应用,其传输速率和网络时延、丢包率有着重要的关系,实际测试结果也比较符合TCP吞吐率的计算公式(见式(1)):
其中,TPT为吞吐量,MSS为最大段尺寸,RTT为往返传输时延,P为丢包率。
如图3所示,如果采用EV-DO上网卡作为接入方式进行备份,由于无线资源的共享使用特性,备份存储5 MB大小的文件需要长达700 s的时间,平均的存储速率只有60 kbit/s。
以上是公众用户在使用e云业务的典型情况,由此可见,3G上网用户受限于共享性质的无线接入带宽,其应用速率更低,用户的接入线路部分成为云存储业务的瓶颈,ADSL用户也会遇到同样的问题。
4 影响云存储业务的因素以及应对策略
云存储是与IP网络密切相关的业务,对于用户而言,云存储在使用上面临的最大瓶颈就是数据备份速度问题,下面分析了影响云存储业务的因素并提出了应对策略。
网络可用性:直接影响云存储业务的可用性。该问题主要取决于网络的健壮性,现网主要通过设备和路由冗余实现。
用户的接入带宽:会影响存取数据的速度,影响业务体验,取决于用户采用的接入技术。从目前的情况看,公众用户大量采用ADSL和3G上网的方式,数据上行速度并不会很高,只能依靠提升用户的接入速度解决。而对于租用专线的企业用户,可以在业务路由器和云存储IDC多开一条高速直通链路(如图 4所示),确保企业用户访问云存储的速度,而企业访问Internet的速度还是按照所购买的带宽来进行。
网络时延和丢包率:这两者会直接影响到存取数据的速度,建议RTT应低于50 ms,丢包率应低于0.1%。网络时延一般和线路的传输距离相关,因此存储云可以采用二级网络结构(如图 5所示),数据IDC可以分区部署,通过负载分担和就近接入的方式把数据预存储在本区的数据IDC,各个数据IDC通过MPLS VPN网络实现互联,数据在完成本地备份之后,选择在闲时进行数据的整合,包括冗余数据删除、压缩和磁盘整理等工作。
减少数据传输量也是提升业务体验的重要手段,采用增量备份方式也可减少数据的重复传输,同时,在采用专用客户端的情况下,可以在数据备份前做压缩和加密,取代传输过程中的SSL加密,减少传输开销。
在数据初始备份阶段,受限于连接云的网络连接能力,企业与云存储之间GB、PB以上数量级数据的上传就已经是一个很大的挑战。所以,在初次备份时,可以采用物理迁移的方法,也可以提供从云存储节点到企业用户的临时专线连接,从而完成大量数据迁移到“云”里。在初始备份之后,日常数据的备份可以采用增量备份的方式,从而降低网络带宽压力以及提高数据备份速度。
5 结束语
可靠的网络和良好的部署方案是开展云存储业务的重要保证。电信运营商同时拥有网络和IDC资源,在开展云存储业务中处于优势地位。在发展云存储业务的时候,一方面要考虑存储数据的压缩和优化,另一方面要考虑优化网络组织,从而实现较好的业务体验,同时也需要面向不同的客户为云存储找准业务定位,结合主营业务去进行有针对性的推广,才能取得应有的效果。
1 Jitendra Padhye,Victor Firoiuy,Don Towsley,et al.Modeling TCP throughput:a simple model and its empirical validation,www.sigcomm.org/sigcomm98/tp/paper25.pdf
2 冯翔.电信运营商的云计算战略.通讯世界,2009(5)
3 李磊,王金伦,王薇等.电信运营商发展云计算的安全问题剖析.信息安全与通信保密,2009(10)
4 冯丹.网络存储关键技术的研究及进展.移动通信,2009(11)
5 邓仲华,喻越.云环境下的信息服务等级协议研究.图书与情报,2009(4)
6 陈康,郑纬民.云计算:系统实例与研究现状.软件学报,2009(5)