云计算发展态势与关键技术进展*
2015-11-01徐保民倪旭光北京交通大学计算机与信息技术学院北京100044
文/徐保民 倪旭光北京交通大学计算机与信息技术学院 北京100044
云计算发展态势与关键技术进展*
文/徐保民倪旭光
北京交通大学计算机与信息技术学院 北京100044
近年来,随着信息技术的突破和数据科学的崛起,云计算引起了产业界、学术界和政府部门的高度关注。文章简要阐述了云计算的产生背景与面临的问题,探讨了云计算的虚拟化技术、编程模式、数据存储管理、节能技术、云计算安全、资源调度等若干关键技术的研究进展,并对云计算的发展态势提出了自己的看法,如:云计算的标准化、云计算的未来属于PaaS、混合云将成用户首选、图应用作为一种云服务等。
云计算,数据科学,大数据
DOI 10.16418/j.issn.1000-3045.2015.02.005
1 云计算的由来与面临的问题
早在20世纪60年代,美国科学家约翰·麦卡锡(John McCarthy)就提出将计算能力作为一种公共设施提供给公众,使人们能够像使用水、电那样使用计算资源。
针对此问题,可以通过将所有的计算资源集中起来,采用类似“效用计算”和“软件即服务”的分布式计算技术为人们提供“随需随用”的计算资源。在此背景下,用户的使用观念会发生彻底的改变,即从“购买产品”到“购买服务”转变,因为他们直接面对的不再是复杂的硬件和软件,而是最终的服务。用户不需要拥有看得见、摸得着的硬件设施,也不需要为机房配置专门维护人员等,只需要把钱汇给服务的提供商,就会得到所需的服务。
伴随着互联网技术的发展和普及,特别是Web2.0的飞速发展,各种媒体数据呈现指数增长,逐步递增的海量异构媒体数据以及数据和服务的Web化趋势使得传统的计算模式在进行大数据处理时,其表现有些力不从心,新的问题不断涌现。比如传统计算模型至少在以下两个方面已经不能适应新的需求:一是计算速度上受限于内核性能和个数;二是待处理数据量受限于内存和磁盘容量。对此,人们很容易想到,能否将数量可观的计算机连接起来以获得更快的计算速度、更强大的处理能力和存储能力。这种朴素的解决方案可以追踪到分布式计算模式出现之时,只是当时的应用领域仅限于科学计算。
针对上述构思的解决方案,在谷歌(Google)、亚马逊(Amazon)等著名IT企业大力推动下,为实现资源和计算能力的共享以及应对互联网上各种媒体数据高速增长的势头,提出了一种以数据为中心的新的商业计算模式——云计算(Cloud Computing)[1]。
云计算并不是一个全新的概念。它是并行计算、分布式计算和网格计算的发展,或者说是虚拟化、效用计算、软件即服务等概念混合演进并跃升的结果[2]。云计算为人们描绘出了一个诱人的蓝图。在云环境下,通过虚拟化技术建立的功能强大的、具有可伸缩性的数据和服务中心,为用户提供足够强的计算能力和足够大的存储空间。在任何时间和任何地点,用户只要拥有一个可以上网的终端比如手机,就可以访问云,实现随需随用。为了实现这一宏伟蓝图,诸多关键性的技术或理论问题亟需解决[3],比如支撑云计算的是大规模的集群计算系统,当系统规模增大后,可靠性和稳定性就成为最大的挑战之一;云计算在发展过程中也会面临着各种挑战,比如在云计算环境下,绝大多数应用软件和数据信息都被转移到了云服务提供商的云数据中心,而最终享受云服务的用户对其所操作和产生的数据的物理存在状态是完全未知的,因此,如何确保用户数据的安全性和云服务提供商不泄露用户的隐私是云计算所面临的挑战之一。所有这些都是云计算真正普及所必须解决的问题。
2 云计算关键技术研究进展
云计算是一种以数据为中心的数据密集型计算模式,它是多种分布式计算技术及其商业模式演进的产物。
2.1虚拟化技术
虚拟化技术由于其在提高基础设施可靠性和提升资源利用效率等方面的巨大优势,应用领域越来越广泛。特别是新兴起的云计算,更需要虚拟化技术的支撑。
虚拟化技术的起源最早可以追溯到1959年,克里斯托弗(Christopher Strachey)发表了一篇名为“Time Sharing in Large Fast Computers”的学术论文[4],这篇文章被认为是虚拟化技术的最早论述。此后的十几年,虚拟化技术走过了初始发展阶段。20世纪60年代,国际商业机器公司IBM为其大型机发明了一种虚拟机监控器技术。20世纪70年代后,IBM、HP和SUN等公司将虚拟化技术引入各自的高端精简指令集服务器和小型计算机中。由于不同厂商的产品和技术不能很好地兼容,使得虚拟化技术的发展进程有所减慢。1999年,威睿(VM-ware)公司提出了一套以虚拟机监控器为中心的软件解决方案,这套方案在全虚拟化模式中使PC服务器平台实现虚拟化。这是x86架构上的第一款虚拟化商用软件。虚拟机技术从此进入个人计算机领域并重新得到快速发展。2003年,采用最新半虚拟化技术实现的开源虚拟监视器Xen推出,并在数据中心用户群体中流行开来。Xen的推出使得虚拟化技术的研究和应用更加普及。在2005年和2006年,两大CPU生产商英特尔(Intel)和超微半导体公司AMD对硬件进行修改,分别推出支持硬件虚拟化技术的产品。这项技术改变了x86架构对虚拟化支持的效能,x86架构由此成为了虚拟化技术发挥作用的重要平台之一。
随着云计算的兴起,虚拟化技术走进了一个全面鼎盛的发展时期。虚拟机技术是云计算系统中的核心关键技术之一,它是可以将各种计算及存储资源充分整合和高效利用的关键技术。通过虚拟化手段将系统中的各种异构的硬件资源转换成为灵活统一的虚拟资源池,从而形成云计算基础设施,为上层云计算平台和云服务提供相应的支撑。但是,虚拟化技术也会引入比物理主机更多的安全风险,因为同一物理主机上的虚拟机之间可以不经过防火墙与交换机设备相互访问。因此,使用虚拟技术的云计算平台须向其用户提供安全性和隔离保证。目前,已有很多研究者针对虚拟化系统和虚拟化管理的安全问题进行探讨[5],有学者提出基于嵌套虚拟化技术的可信基构建方法、基于现有硬件特性的安全监控和基于高权限虚拟机的数据隔离机制,为可信云服务提供了新的途径[6]
2.2编程模式
高性能计算机的发展促使高效能程序设计环境的产生与发展。然而,基于传统并行编程模型的高效并行程序的编写并不容易。同时,随着领域中数据量高速的增长,传统并行计算编程模型在处理大数据集时也存在性能瓶颈。针对上述2个问题,Google公司研发了一种新的并行编程模型MapReduce。作为一种解决方案,MapReduce计算模型有效地解决了传统算法处理大数据集时的性能瓶颈问题,同时它以易使用和易理解的方式简单高效地解决了传统并行计算编程效率不高的问题。
伴随着应用范围的扩大,MapReduce的不足越来越明显。很多学者进行了相关的研究,对MapReduce进行了改进。改进的MapReduce模型[7],对Map和Reduce过程进行了优化;适应多核的MapReduce并行编程支撑平台HPMR[8]。针对MapReduce计算框架不适合迭代计算和交互式计算的问题,加州伯克利大学的研究者开发了一个基于内存的计算框架Spark[9],它将数据尽可能放到内存中以提高迭代应用和交互式应用的计算效率。针对MapReduce不适合进行流式计算、实时分析等问题,人们开发了实时性要远好于MapReduce的计算框架Storm[10]。
研究者还针对多核、多处理器等不同平台实现了MapReduce模型。比如为了在多核平台上高效地执行程序,斯坦福大学的科尔比(Colby)等人实现了一个基于多核平台的MapReduce的系统Phoenix[11]。针对GPU,香港科技大学与微软使用英伟达(NVIDIA)公司的CUDA技术在GPU上实现的一个MapReduce系统Mars[12]。
2.3数据存储管理技术
云计算系统底层需要大数据的存储支持,才可以对外提供云存储服务。云存储克服了传统存储系统在容量和性能扩展上存在的瓶颈,以其扩展性强、性价比高、容错性好等优势得到了业界的广泛认同。
为保证用户所存储数据的高可用和高可靠,云计算的分布式文件系统多采用冗余的存储方式,即为同一份数据存储多个副本,比如Google的GFS和阿帕奇(Apache)的HDFS都是采用三副本来保证数据的冗余。这是一个简单有效但不是最优的方法。针对此问题,研究者一直在探讨能否使用类似的策略在不降低存储可靠性的前提下降低存储副本数目。比如二代Google分布式文件系统Colossus[13],即GFS2中使用里德-所罗门擦除码(Reed Solomon Erasure Code)来实现成本更低的可靠存储。微软的Azure平台采用擦除码技术来降低存储成本[14]。脸书(Facebook)在开源Hadoop的基础上实现了一套基于擦除码的RAID方案。实验表明,对同样的数据,此方案能够节约25%—30%的HDFS集群的存储空间[15]。
由于云计算对大数据的读操作频率远大于数据的更新频率,因此,云计算的数据管理通常会采用分布式列存储技术。列存储模型最大的特点是方便存储结构化和半结构化数据,方便做数据压缩,对针对某一列或者某几列的查询应用有着非常大的I/O优势。当前比较典型的基于列存储模型的分布式数据存储系统是Google公司的Big-Table和Apache的HBase。
2.4节能技术
在云计算环境中,数据中心是云计算硬件架构底层的独立计算单位。数据中心的基础设施通常由数以万计的计算机构成,随之而来的一个亟待解决的问题是数据中心巨大的能源消耗。针对此问题,国内外学者及相关机构已经对诸多节能技术进行研究,很多降低能耗的方法被提出。
(1)组件级的节能。目前对于计算机系统组件的设计追求的目标是使得这些组件能够按使用率成比例的消耗能源,即存储系统中的缓存、内存以及磁盘等没有使用的部分不消耗或只消耗很少的能量。组件级的节能主要包括CPU组件节能和存储组件节能2种形式。早期解决服务器级能耗问题的主流技术是动态电压和频率缩放DVFS(Dynamic Voltage and Frequency Scaling)方法。其核心思想是通过动态调整CPU的电压和频率,使其能动态适应负载的变化,进而实现节能。基于DVFS的节能技术都是利用物理机CPU的空闲时间来降低能耗。对于云数据中心,人们对共处一个物理机内的虚拟机的能耗更感兴趣。显然,基于DVFS的节能技术不能直接应用于引入虚拟化技术的云数据中心[16]。
(2)服务器整合。通过虚拟化技术进行节能已有一些早期的研究。研究方法主要是通过虚拟技术如虚拟机动态迁移机制进行服务器整合,使一些物理机处于空闲状态,然后通过使其处于休眠或关机状态,达到节能效果。如沃纳(Werner)等人[17,18]从能耗的观点出发探索使用虚拟化技术进行服务器整合的优点。更进一步,一些研究者对采用虚拟化技术的集群系统如何通过动态配置方法进行能耗优化进行了研究。如维尼修斯(Vinicius)等人[19]针对虚拟化集群,提出了一个考虑关停资源代价、采用服务器整合策略实现节能的算法。Kusic等人[20]提出基于有限先行控制(Limited Lookahead Control)优化策略来指导服务器整合。
(3)数据副本管理。MapReduce的开源实现Hadoop的分布文件系统HDFS默认地对每个数据项保持3个副本。三副本意味着300%的高昂设备运营费用。这种典型的超额配置保证在资源需求高峰期间能维持数据的可用性。斯坦福大学的研究表明[21]:通过改变数据副本放置策略可以有效节省系统能耗。如阿穆尔(Amur)等人[22]针对MapReduce集群提出一个将数据项以倾斜方式放置数据副本的策略,这样就有可能通过关闭不含数据项的部分节点实现节能。Pinheiro等人[23]通过把原始数据和冗余数据分开存放到不同节点上达到节能目的。Chen等人[24]提出了一个基于超图的副本存储优化节能算法。另外,不同的数据副本放置策略会对系统性能产生一定影响。比如内德利科(Nedeljko)等人[25]通过修改Hadoop的任务调度和数据块分配算法,使得任务调度与数据副本位置相互感知,进而达到节能效果。
(4)节点启动与关闭。与数据副本管理策略和服务器整合技术紧密相关的另一关键技术是节点启动与关闭策略。研究表明:可以通过减少在线节点数量实现节点数量与能耗之间的最佳折中[26]。目前,关于节点管理策略的研究思路主要是采用机器学习等理论进行决策,使不常用的节点处于低能耗或关闭状态来节能。如:采用基于Bellman方法决策何时让一些节点进入睡眠状态来节能[27]。Berral等人[28]提出的一个能量感知的节点启停算法,该算法在保证最大性能前提下,利用系统行为信息和学习模型预测系统能耗量及CPU负载,进而改进任务调度决策。约瑟夫(Josep)等人[29]提出从资源、能耗和负载行为中直接学习的机器学习方法进行能耗管理和自适应的任务调度。针对MapReduce集群,卡尔多索(Cardosa)等人[30]指出通过动态重定位虚拟机,使在线节点数量保持最小。即使空闲节点最多,然后使空闲节点处于不活动状态而达到节能。
2.5云计算安全
伴随着云计算的快速发展,越来越多的企业或个人将数据托管到云端。但是云计算所具有的诸如虚拟化、可伸缩等特性使得传统的安全技术无法完全保证用户托管到云端中的数据的安全,安全事件屡见不鲜,导致很多人抱着观望和谨慎的态度看待云计算。目前,云计算的安全问题已成为阻碍推广云计算的障碍之一。
(1)云计算安全标准组织及其进展。对云安全研究最为活跃的组织是在2009年的RSA大会上宣布成立的一个非盈利性组织云安全联盟(Cloud Security Alliance,CSA)[31]。该组织专注于云计算的安全体系及安全标准等领域。其在2009年12月发布了一份云计算服务的安全实践手册《云计算安全指南》,该指南总结了云计算的技术架构模型、安全控制模型以及相关合规模型之间的映射关系。在2011年11月发布了第3版的云计算服务的安全实践手册《云计算关键领域安全指南》。该指南从架构、治理和实施3个部分、14个关键域对云安全进行了深入阐述。重点讨论了当企业部署云计算系统时面临的安全风险并且给出相应的安全建议。在当前尚无一个被业界广泛认可和普遍遵从的国际性云安全标准的形势下,该指南对业界有着积极的影响。美国市场研究分析公司甘特纳(Gartner)在2008年发布了一份研究报告《云计算安全风险评估》[32]。该报告指出云计算服务对使用者来说,面临着特权用户的接入、可审查性、数据位置、数据隔离、数据恢复、调查支持以及长期生存性等潜在的安全风险问题。2010年,欧洲网络和信息安全研究所(European Network and Information Security Agency,ENISA)从企业的角度出发分析云计算可能带来的好处及安全方面的风险。ENISA发布的云计算安全白皮书Cloud Computing Information Assurance Framework[33]指出:云计算系统的使用会带来诸如数据处理和保护的不透明性等安全问题。
(2)云计算安全关键技术。针对云计算面临的安全挑战,国内外研究者对云计算安全的一些关键技术进行了相关研究。研究主要集中在[34]:(1)加密数据处理。用户数据应以密文形式存储在云端中,如果能够直接在密文上进行计算,则有利于保证数据安全和用户隐私。目前关于密文处理的研究主要集中在基于密文的检索与处理。比如,2009年IBM研究员开发了一种完全同态加密方案,该方案使得云应用在不解密数据的状态下处理数据[35]。若该技术进入实施阶段,就可解决云中数据在整个生命周期内的加密问题。再如微软公司2009提出的Cryptographic Cloud Storage[36]中实现了基于密文的检索、基于属性的加密机制、数据持有性证明等技术。(2)数据隐私保护。云中数据隐私保护涉及数据的整个生命周期。Roy等[37]在云中数据的生成与计算阶段引入集中信息流控制和差分隐私保护技术,防止计算过程中非授权的隐私数据被泄露,并支持对计算结果的自动解密。Bowers等人[38]针对云中数据的存储和使用阶段,提出一种基于客户端的隐私管理工具来支持用户控制自己的敏感信息在云端的存储和使用。(3)可信云计算。将可信计算技术引入云计算,以可信赖方式向用户提供云服务是云计算发展的必然趋势。Santos等人[39]提出了一个可信云计算平台。通过此平台可以为用户提供一个密闭的箱式执行环境,确保用户虚拟机运行的安全性。Sadeghi等人[40]认为可信计算技术可以解决外包数据的机密性和完整性问题。沈昌祥[41]认为,引入可信根和信任传递概念到可信云计算框架,可实现对云服务的完整性度量和验证。(4)云安全体系与技术框架。Zissis等人[42]提出了一种结合公钥基础设施、轻量目录访问协议和单点登录等技术的云计算解决方案。该方案引入可信的第三方提供安全认证,并根据云计算系统分层的特性,分别给物理层、基础设施即服务、平台即服务、软件即服务提供安全认证。冯登国等人[43]提出一个包含云计算服务体系和云计算安全标准及测评体系两大部分的云计算安全框架。这个框架可以为用户的安全目标提供技术支撑。
整体上讲,国内外关于云计算安全问题的研究刚刚起步,虽然很多的组织和机构都在积极地对云计算的安全问题进行分析和研究,但主要是CSA以及微软、谷歌等组织与机构所给出的对云计算安全问题的描述和关于云计算安全问题的初步解决方案。比如微软为云平台Azure配置一种称为“Sydney”的安全计划,帮助用户在服务器和Azure云之间交换数据,以解决虚拟化带来的安全问题。
2.6资源调度
资源调度[44]的目的是实现作业与资源的优化匹配,把不同的作业以较合理的方式分配到相应的节点去完成。由于分布环境中各节点的运行速度、主机的负载、网络通讯的时间等是动态变化的,因此资源调度是一个非常复杂的NP问题。
(1)基于经济学的调度。云计算的商业运营模式,使得其经济因素成为作业调度系统重点考虑的调度指标。Buyya等人[45]首次提出面向市场的云计算体系结构和面向市场的资源分配和调度方法,该体系结构通过资源分配器实现资源使用者与资源提供者之间的协商,来保证资源优化分配。You等人[46]提出一种基于市场机制的云资源分配策略,并设计一个基于遗传基因的价格调节算法来处理市场的供需平衡问题。徐保民等人[47]模拟市场经济中的有关资源公平分配的原则,提出一个基于伯格模型的资源公平调度算法。
(2)以服务质量为中心的调度。服务质量QoS(Quality of Service)是衡量用户使用云计算服务满意程度的标准。研究基于QoS的调度通常以最小完成时间或最优跨度等为目标。目前已有很多基于QoS的研究。比如Abdullah等人[48]研究了基于可划分负载理论(Divisible Load Theory)旨在减少整体作业处理时间的调度问题。针对Hadoop,Polo和Kc等人[49,50]根据作业的运行进度和剩余时间动态调整作业获得的资源量,以便作业尽可能地在截止时间内完成。
(3)以资源利用率为目标的调度。云计算区别于单机虚拟化技术的重要特征是通过整合物理资源形成资源池,并通过资源管理层实现对资源池中虚拟资源的调度。另外,云计算采用的商业理念及成熟的虚拟化技术使得它的资源管理呈现不同特性。比如:针对如何分配和迁移虚拟机到物理主机的问题进行研究,提出的一种优化总动态调度时间的资源调度方法[51]。从约束的QoS资源分配问题出发,引入博弈论,给出了一个公平的资源调度算法[52]。对分布系统,特别是云计算系统,提出了一个利用博弈论进行资源管理的具有较好本地响应时间的算法[53]。
3 云计算发展趋势
从技术的角度来讲,我们相信云计算未来主要呈现如下几个发展趋势。
3.1云计算的标准化
工信部电信研究院标准所副所长何宝宏博士表示:“全球参与云计算标准化工作的企业和组织有很多,很多企业和组织为云计算成立了专门的部门,虽然非常‘热闹',但是成果并不是特别多,只有少量的标准得到广泛认可。”这主要是由于云计算还处于不断发展阶段,业界各方很难达成共识。正如俗话说“无规矩不成方圆”,因此,要实现云计算真正的产业化并步入平稳发展阶段,必须制定统一的技术标准和运营标准。确保云计算平台的互操作性以及云服务的可移植性和互操作性,即应优先制定云服务提供商之间的接口标准以及云服务提供商与用户之间的接口标准。
值得一提的是,由中国重点参与的2项云计算国际标准《信息技术-云计算-概述和词汇》、《信息技术-云计算-参考框架》已正式发布。这2项国际标准的发布标志着云计算国际标准化工作进入了一个新的阶段。
3.2云计算的未来属于PaaS
云计算的3种服务模型即基础架构即服务(IaaS)、软件即服务(SaaS)和平台即服务(PaaS)正在快速演变。由于企业对软件开发和维护所投入的时间和资金有限,导致SaaS原地停留。IaaS为用户提供灵活性和自主权的同时,增添了复杂性。另外,IaaS可能无法通过门户提供系统实时编制(Orchestration)能力。PaaS屏蔽底层的硬件基础架构,为用户提供覆盖软件全生命周期中需求分析、设计、开发、测试、部署、运行及维护各阶段所需的工具,降低用户进行应用程序开发的技术难度及开发成本。因此,有理由相信,更多的中小企业将会在未来的几年采用PaaS云。PaaS将是云计算的最终目标。在一个通用、可移植的平台上进行SaaS或私有软件的开发,将有助于打破基础架构的禁锢,并能使应用更具可移植性、健壮性和可扩展性[54]。
3.3混合云将成用户首选
随着云计算成为主流,企业采用云计算已经成为了必然的选择。目前,大多数企业采用的是公有云或私有云,以满足不同的需求。
私有云意味着用户连接的是本地资源。尽管它缺乏灵活性和价格昂贵,但是对于某些IT部门比如需要处理各种规章制度的组织来说,私有云不可或缺。公有云意味着用户需要连接外部的由云服务提供商提供的服务。公有云的使用在计算领域掀起了一场革命。
目前,既使用私有云服务用于某种目标,又可以使用公有云用于其他目的的混合云已成为企业关注的焦点。混合云不仅是一个可定制的解决方案,而且其架构结合了私有云(可信、可控、可靠)和公有云(简单、低成本、灵活)的优势。因此,未来真正被跨国的云服务提供商视为爆发点的应该是混合云市场。
3.4图应用作为一种云服务
运行高端图形应用程序通常需要大量的硬件设施,但云计算是不断变化的。随着新兴的面向云的图形技术的兴起,终端用户将可以在云端运行图形密集应用。
1 IBM.Google and IBM announced university initiative to address internet-scale computing challenges.[2007-10-8]http://www-03. ibm.com/press/us/en/pressrelease/22414.wss.
2刘鹏.网格计算与云计算.[2009-10-10]http://www.chinacloud. cn/show.aspx?id=2117&cid=17.
3 Armbrust M,Fox O,Griffith R et al.Above the Clouds:Berkeley View of Cloud.www.eecs.berkeley.edu/Pubs/TechRpts/ 2009/EECS-2009-28.pdf,Technical Report,Feb.2009.
4 Strachey C.Time sharing in large fast computers.International Conference on Information Processing,1959,336-341.
5 Zhang F,Chen J,Chen H et al.CloudVisor:retrofitting protection of virtual machines in multi-tenant cloud with nested virtualization.In Proceedings of the Twenty-ThirdACM Symposium on Operating Systems Principles.ACM,2011,203-216.
6 Luo S,Lin Z,Chen X et al.Virtualization security for cloud computing service.International Conference on Cloud and Service Computing,IEEE,2011,174-179.
7周锋,李旭伟.一种改进的MapReduce并行编程模型.科协论坛,2009,2(11):11-12.
8郑启龙,王昊,吴晓伟等.HPMR:多核集群上的高性能计算支撑平台.微电子学与计算,2008,25(9):21-23.
9 Apache SparkTMis a fast and general engine for large-scale data processing.http://spark.incubator.apache.org/.
10 http://storm-project.net/.
11 Ranger C,Raghuraman R,PenmetsaAet al.Evaluating MapReduce for multi-core and multiprocessor systems.IEEE 13th international symposium on high performance computer architecture,2007,13-24.
12 He B,Fang W,Luo Q et al.Mars:a MapReduce rramework on graphics processors.17th international conference on parallel architectures and compilation techniques.2008,260-269.
13 Schneider D,Hardy Q.Under the hood at google and facebook.Spectrum,IEEE,2011,48(6):63-67.
14 Huang C,Simitci H,Xu Y et al.Erasure coding in windows azure storage.In Usenix annual technical conference,2012,15-26.
15 Sathiamoorthy M,Asteris M,Papailiopoulos D et al. Xoring elephants:novel erasure codes for big data. VLDB endowment,2013:325-336.
16 Wang Y,Deaver R,Wang X.Virtual batching:request batching for energy conservation in virtualized servers. 18th international workshop on quality of service,IEEE,2010,1-9.
17 Vogels W.Beyond server consolidation.Queue,2008,6(1):20-26.
18 Nathuji R,Schwan K,SomaniAet al.VPM tokens:virtual machine-aware power budgeting in datacenters. Cluster computing,2009,12(2):189-203.
19 Petrucci V,Loques O,Mossé D.Adynamic configuration model for power-efficient virtualized server clusters. 11th brazillian workshop on real-time and embedded systems,2009,2.
20 Kusic D,Kephart J O,Hanson J E et al.Power and performance management of virtualized computing environments via lookahead control.Cluster Computing,2009,12(1):1-15.
21 Leverich J,Kozyrakis C.On the energy(in)efficiency of hadoop clusters.ACM SIGOPS operating systems review,2010,44(1),61-65.
22Amur H,Cipar J,Gupta V et al.Robust and flexible power-proportional storage.1stACM symposium on cloud computing.ACM,2010,217-228.
23 Pinheiro E,Bianchini R,Dubnicki C.Exploiting redundancy to conserve energy in storage systems.In ACM sigmetrics performance evaluation review,2006,34(1):15-26.
24 Chen X,Xu B.Storage optimization for energy-saving based on hypergraph in cloud data center.International journal of database theory and application,2015,8(4).
25 Vasić N,Barisits M,Salzgeber et al.Making cluster applications energy-aware.1st workshop onAutomated control for datacenters and clouds.ACM,2009,37-42.
26 Goiri I,Julia F,Nou R et al.Energy-aware scheduling in virtualized datacenters.international conference on cluster computing,IEEE,2010,58-67.
27 Kamitsos I,Andrew L,Kim H et al.Optimal sleep patterns for serving delay-tolerant Jobs.1st international conference on energy-efficient computing and networking,ACM.2010,31-40.
28 Berral J L,Goiri Í,Nou R et al.Towards energy-aware scheduling in data centers using machine learning.1st international conference on energy-efficient computing and networking,ACM,2010,215-224.
29 Berral J L,Gavalda R,Torres J.Adaptive Scheduling on Power-aware Managed Data-centers Using Machine Learning.12th International Conference on Grid Computing.IEEE Computer Society.2011.66-73.
30 Cardosa M,SinghA,Pucha H et al.Chandra exploiting spatio-temporal tradeoffs for energy efficient mapReduce in the cloud.Technical report TR 10-008,university of Minnesota,April 2010.
31 Cloud security alliance.https://www.cloudsecurityalliance.org/.
32 Gartner.Assessing the security risks of cloud computing. www.gartner.com/id=685308.
33 European network and information security agency,cloud computing information assurance framework. http://www.enisa.europa.eu/activities/risk-management/ files/delivera-bles/cloud-computing-information-assurance-framework/at_download/fullReport.
34冯登国,张敏,张妍等.云计算安全研究.软件学报,2011,22(1):71-83.
35 Gentry C.Fully homomorphic encryption using ideal lattices. international sympoisium on theory of computing.New York:Association for computing machinery,2009,169-178.
36 Kamara S,Lauter K.Cryptographic cloud storage.14th int'l Conf.on financial cryptograpy and data security.Berlin,heidelberg:Springer-Verlag,2010,136-149.
37 Roy I,Setty S T,KilzerA et al.Airavat:security and privacy for MapReduce.7th usenix symp on networked systems design and implementation,2010,297-312.
38 Bowers K D,JuelsA,OpreaA.Proofs of retrievability:theory and implementation.TheACM workshop on cloud computing security,New York:Association for computing machinery,2009,43-54.
39 Santos N,Gummadi K P,Rodrigues R.Towards trusted cloud computing.Proc.of the workshop on hot topics in cloud computing.San Diego,2009.
40 SadeghiAR,Schneider T,Winandy M.Token-based cloud computing:secure outsourcing of data and arbitrary computations with lower latency.Int'l conf.on trust and trustworthy computing.Berlin:Springer-Verlag,2010,417-429.
41云计算安全框架的分析.[2014-07-28].http://www.e-gov.org.cn/ wangluoanquan/news004/201407/151107.html.
42 Zissis D,Lekkas D.Addressing cloud computing security issues. Future generation computer systems,2012,28(3):583-592.
43 Feng D G,Zhang M,Zhang Y et al.Study on cloud computing security.Journal of software,2011,22(1):71-83.
44 Xu B,Wang N,Li C.Acloud computing infrastructure on heterogeneous computing resources.Journal of computers,2011,6(8):1789-1796.
45 Buyya R,Yeo C S,Venugopal S et al.Cloud computing and emerging IT platforms:Vision,hype,and reality for delivering computing as the 5th utility.Future generation computer systems,2009,25(6):599-616.
46 You X,Xu X,Wan J et al.Ras-m:resource allocation strategy based on market mechanism in cloud computing.fourth china grid annual conference.2009,256-263
47 Xu B,Zhao C,Hu E et al.Job scheduling algorithm based on berger model in cloud environment.Advances in engineering software,2011,42(7):419-425.
48Abdullah M,Othman M.Cost-based multi-qoS job scheduling using divisible load theory in cloud computing.Procedia computer science,2013,18:928-935.
49 Polo J,Carrera D,Becerra Y et al.Performance-driven task coscheduling for mapreduce environments,network operations and management symposium,2010,373-380.
50 Kc K,Anyanwu K.Scheduling hadoop jobs to meet deadlines. IEEE international conference on cloud computing technology and science,2010,388-392.
51 Hermenier F,Lorca X,Menaud J M et al.Entropy:a consolidation manager for cluster.The international conference on virtual execution environments.2009,41-50.
52 Wei G,VasilakosAV,Zheng Y et al.Agame-theoretic method of fair resource allocation for cloud computing services.The journal of supercomputing,2010,54(2):252-269.
53 Londoño J,BestavrosA,Teng S H.Collocation games and their application to distributed resource management.http://www.cs. bu.edu/techreports/pdf/2009-002-collocation-games.pdf.Technical report,2009.
54技术评论:云计算三大模式间的界限日趋模糊.[2011-03-10]. http://www.sharpcloud.cn/article-1053-1.html.
徐保民 北京交通大学计算机与信息技术学院副教授。2000年获中科院计算技术所计算机应用技术博士学位。主要从事云计算、大数据处理等方面的研究。International Journal on Computer Science and Information Systems编委。以第一作者身份在分布式计算、云计算等领域发表SCI和EI论文20余篇,合著《计算机支持的协同工作》专著1部,独立编著《云计算解密:技术原理及应用实践》专著1部,软件著作权4项。E-mail:bmxu@bjtu.edu.cn
Xu Baomin,Associate Professor in School of Computer and Information Technology,Beijing Jiaotong University,China.He received his Ph.D.degree in Computer Science in 2000 from Institute of Computing Technology,Chinese Academy of Sciences.His research interests include big data processing and cloud computing.Dr.Xu currently serves on the editorial board of“International Journal on Computer Science and Information Systems”.He first authored nearly 20 SCI or EI indexed papers,and also co-authored the textbook“Computer Supported Cooperative Work”and chiefly edited“Cloud Computing Decryption:Principles andApplication of Technology”.He has 4 software patents.E-mail:bmxu@bjtu.edu.cn专家、国家“十五”863计划/“十五”攻关计划信息安全重大专项总体专家组成员、中国电子政务标准总体组成员、全国信息安全标准化委员会成员、国家保密局保密技术顾问专家组成员、国家“863”计划信息安全产业化东部基地专家组成员。1965年5月出生,江西省九江人。主持/参加国家“863”、国家自然科学基金、国家科技攻关计划等科研项目30余项。发表论文250余篇,申请国家发明专利31项(11项已授权),申请软件版权7项,编著书籍4部,制定行业标准/规范3项,入选国家“百千万人才工程”,获国家科技进步奖二等奖1项,国防科技奖三等奖1项,省部级科技进步奖4项。E-mail:lijh888@sjtu.edu.cn
Li Jianhua,a professor and doctoral supervisor of Shanghai Jiao Tong University(SJTU),Ph.D.,an information security technology scientist.He is also the president of College of Information Securityof SJTU and director of National Engineering Laboratory for Information Content Analysis Technology,and director of Shanghai Key laboratory of integrated management of information security technology research.He successively acts as a leadingor management expert of information security expert groupin“863”program andChina's e-government standards.He is also a standing member of national information security standardization committee,member ofConfidential technology Advisory Panelof the State SecretsAgency andpanel members ofInformation Security Industrialization Base in the East China in“863”program.He has presided and participated more than 30 projectsgranted by“863”program and National Natural Science Foundation of China(NSFC),etc.He has published over 250 academicpapers,4 textbooks,7 software copyrights,31national invention patents with 11 certifications,Hiswork is also approved by high level awards,such asone Second Reward of National,one Third Reward of National Defense Science and Technology Progress,andother provincial and ministerial awards of Scienceand Technological Progress.E-mail:lijh888@sjtu.edu.cn
Development Trend and Key Technical Progress of Cloud Computing
Xu Baomin Ni Xuguang
(School of Computer and Information Technology,Beijing Jiaotong University,Beijing 100044,China)
As a new pattern of business computing,cloud computing is the development of grid computing,parallel computing,distributed computing,etc.Its ultimate goal is to regard computing,service,and application as a kind of public facilities whichare available to the public.Cloud computing is internet based distributed computing model where for enabling convenient,on-demand network access to a shared pool of virtual resources and providing an elastic computing services.Users can enjoy the service even he knows nothing about the technology and the professional knowledge in this field.Cloud computing will bring a fundamental change in working methods and business models. So,cloud computing is often regarded as the third revolution of IT industry,following the personal computer revolution and the Internet revolution.With the breakthroughs of information technology and the rise of data science,cloud computing has attracted great attention from industries,academia,and governments.Government vigorously promotes the development of cloud computing and the innovation of cloud computing technology and applications through pilot demonstration and other activities.For example,in 2012,the Ministry of Science and Technology of China released the first ministerial-level cloud plan“12th five-year special plan of China cloud science and technology development”.It has an important significance for speeding up the cloud computing technology innovation and industrial development.IT giants have invested heavily in the layout of the cloud service and are committed to the research and application of advanced cloud computing technologies. Such as,in 2011,Baidu officially opened its cloud computing platform.It will continue to open IaaS,PaaS,and SaaS cloud platforms.Services provided by Baidu include cloud storage and virtual machines,application execution engine,intelligent data analysis and event notification service,network disk,open API,etc.Researchers focus on key technology breakthroughs,which solve some key science and technology issues,in cloud computing.For example,the key mechanism of cloud computing is to dispatch the computing tasks to resource pooling.It enables a variety of applications to gain computing power,storage,and a variety of software services according to their needs.To solve this problem,Xu et al.proposed for the first time an algorithm of job scheduling based on Berger model.The algorithm establishes dual fairness constraint to judge the fairness of the resources allocation in cloud computing.The paper firstly introduces the background of cloud computing and problems faced by cloud service provider and cloud.There are a number of underlying technologies and services that make cloud computing possible.Some of the most important technologies are resource management,resource scheduling,virtualization technology,programming mode,energy-saving technologies,and data storage management technology.These technologies are also explained in the paper.Meanwhile,many latest research results on these technologies are introduced and discussed in detail.Such as,the energy consumption has become the most important problem in cloud data center based on MapReduce framework.In this paper,we introduce the latest research work from four aspects of component level energy-saving,server consolidation,data replica management,and node startup and shutdown.Our latest research results are also introduced,namely,a hypergraph-based power saving algorithm based on data replica strategy in Hadoop.The algorithm has certain advantages such as fault tolerance and availability of data blocks.The energy efficiency is better than CS-k algorithm in the same operating environment.The paper also draws out the possible future research directions on some key technologies,such as cloud security technology and cloud resource scheduling.Finally,this paper discusses the hottest development features of cloud computing and helps the readers to understand the new trend developments in cloud computing.
cloud computing,data science,big data
国家发改委、工信部云服务开放平台示范项目
(P01704),国家自然科学基金项目(61370060)
修改稿收到日期:2015年2月28日