开放科学云联邦:产生背景、应用架构及关键技术①

2022-02-27温亮明李跃鹏张丽丽黎建辉

高技术通讯 2022年11期

温亮明李跃鹏张丽丽黎建辉③

(∗中国科学院计算机网络信息中心北京 100190)

(∗∗中国科学院大学计算机科学与技术学院北京 100049)

0 引言

自亚马逊发布AWS(Amazon Web Service)云服务平台以来,商业界就进入了云计算时代。私有云、公有云、混合云等不同的云资源利用方式层出不穷,商业公司、科研机构以及政府部门等单位部署了大量的云数据中心为目标客户提供不同形式的服务,工业界和学术界也围绕云计算技术展开了大量研究。目前,主流的云服务模式主要有平台即服务(platform as a service,PaaS)、软件即服务(software as a service,SaaS)、基础设施即服务(infrastructure as a service,IaaS)等[1],这些云服务模式虽然为工业界和学术界提供了巨大支撑,但在开放科学场景下凸显出一些资源应用瓶颈,如资源供给中心化、资源内容分散化、资源处理片段化、资源调度成本高昂化,对现有的云服务模式进行变革势在必行。这里所提及资源不仅包括传统的中央处理器(central processing unit,CPU)、内存、网络带宽、磁盘、虚拟机(virtual machine,VM)、镜像等云计算资源,还包括科学数据、期刊文献、专利文献、学位论文、政策报告、网络词条等科技资源,甚至包括仪器设备、软件工具、科学思维、技术方法等非常规资源。

在新科研范式下,云联邦模式通过联邦软件和机制将多个科学云服务平台联合起来,合作的云服务提供商(cloud service provider,CSP)对等共享科研资源,按时和可扩展地提供应用程序服务,在可变的工作负载、资源和网络条件下创建一个计算环境来支持资源的动态扩展或收缩,具备了更好的性能优势和效益优势[2]。然而,现有云联邦相关研究仍存在研究数量较少、理论研究匮乏、研究主题分散等不足,与此同时,开放科学的兴起也对云服务的资源分类、资源描述、使用范围、服务模式、服务成效等提出新的需求。

本文立足开放科学大背景,分析科研基础设施的新变革,梳理开放科学云和云联邦的发展脉络,从概念定义、应用场景、应用特点、逻辑架构、关键技术等方面对开放科学云联邦(Open Science Cloud Federation,OSCF)进行系统介绍,期望为相关研究提供参考借鉴。

1 开放科学与科研基础设施

1.1 开放科学概述

文献[3]认为开放科学是一种知识生产机制,科学家可以据此获得已经累计的知识并将其扩展传承。文献[4]认为开放科学是关于知识自由发展与传播的各种阶段的总称。文献[5]认为开放科学是一种以开放性为特征的科学文化,在此文化的浸染下科研人员可以最大范围交流分享研究结果。文献[6]认为开放科学就是使发现过程中的一切事物可以充分开放获取,并允许他人在现有的工作基础上进一步发现。文献[7]认为开放科学背后的思想是在所有利益相关者的积极参与下,使科学信息、数据和输出被更广泛地访问和更可靠地利用。文献[8]认为除了最终研究成品之外,研究人员分享他们在研究过程的每个元素,以促进研究人员之间合作的一种新型科研方式,它能够促使科研人员自发地开展新的虚拟合作研究。

纵观上述各种概念论述可以看出,开放科学并非是一个完全创新的概念,其与多种科研要素和科研活动有着千丝万缕的关系。虽然不同学者对开放科学的表达方式和侧重点不同,但开放科学的概念内涵始终围绕自由、开放、合作、平等、共享等特点而展开。

1.2 开放科学背景下科研基础设施的变革

随着开放科学进程不断推进,不同学科领域的共性需求更加密集,建设以海量数据资源为基础、以通用算法模型为核心、以超强计算能力为支撑的信息化基础设施成为现实所需,科学家们设想构建一种软硬件兼容的平台来整合已有的科研资源,开放科研基础设施理念由此诞生[9]。所谓开放科研基础设施,是指将实验室、大科学装置、科研数据中心、科研信息化平台、科学计算网格等基础设施进行开放共享[10]。图1 展示了部分国家或地区在开放科研基础设施方面的行为举措。

图1 开放科研基础设施代表性举措

科研基础设施虽然为科研资源开放集成和多边合作提供技术架构和平台工具,但在新的时代背景下,开放科学对科研基础设施的资源状态、资源供给、资源处理、资源关系、操作方式等提出了新的要求。(1)资源状态FAIR 化:人工智能技术的效用发挥需要随需随用、无处不在、无缝连接式的科研资源供给作为支撑,云计算固有的管理边界需要云间无缝融合且可互操作,因此科研资源在流通过程中要易于被人或机器可发现(findable)、可访问(accessible)、可互操作(interoperable)和可重用(reusable)[11]。(2)资源供给联邦化:科研用户对多样性且不可替代的资源实例需求在不断提升,单一的资源供给显然已不能满足全局需求,需要将物理上分散的科研资源联合起来,形成逻辑上集成的科研资源网络体系,资源由各机构自主管理和维护,联邦系统提供统一的资源索引目录[12]。(3)资源处理集成化:科研工作者对科研平台的功能需求不再局限于基本的数据存储与共享,未来的科研处理平台应该朝着多功能融合化趋势发展,将是一个集存储、计算、共享等多种功能于一体、满足纷繁复杂的技术标准、系统间实时交互的融合型系统[13]。(4)资源关系生态化:世界各国正在积极倡导全民参与、共同构建一个具有正向反馈机制的、互惠互利的开放科学生态体系框架,每个参与者通过某种特定关系与其他开放性网络进行连接,这种竞合机制最终促进开放科学生态系统完成自我“进化”[14]。(5)资源操作云端化:2020 年全球新型冠状病毒肺炎防控期间的实践已经表明,在面对突发重大公共卫生事件时,通过云端进行科研资料传输、联邦分析、成果共享、交流讨论十分必要且具有一定可行性,资源开放共享与跨域协作创新将成为社会新常态[15]。

1.3 开放科学云的出现

随着开放科学对资源操作云端化处理的需求不断加快,以开放科学(数据)云为代表的开放科研基础设施开始出现。2009 年,美国率先发起了开放科学数据云(Open Science Data Cloud,OSDC)项目,这是一个提供科学数据集资源存储、共享和分析的数据科学生态系统,研究人员可以存储科学数据,访问补充公共数据集,创建、共享和定制虚拟机。2015年10 月,欧洲网格基础设施(European Grid Infrastructure,EGI)、GÉANT、欧洲数据基础设施(European Data Infrastructure,EUDAT)、欧洲研究图书馆协会(Association of European Research Libraries,LIBER)和欧洲科研开放获取基础设施(Open Access Infrastructure for Research in Europe,OpenAIRE)等5家科学组织联合发布开放科学云声明,阐述了合作伙伴对开放科学云的组织、可持续发展和治理方面的愿景,声明了欧洲开放科学云的目标导向。2016年,欧洲正式启动“欧洲云计划”,借助云的理念将欧洲现有的信息化基础设施、数据资源、云战略和高性能战略成果等联合起来,形成一体化的信息化基础设施环境。在“欧洲云计划”的带动下,“欧洲开放科学云(European Open Science Cloud,EOSC)”作为其重要组成部分开始部署,170 万欧洲科研人员和7000 万领域人士可跨境、跨领域实现科研数据的访问、存储、管理、分析和再利用。2017 年12 月,中国启动“中国科技云(China Science and Technology Cloud,CSTCloud)”工程建设,当前可面向众多学科领域提供计算服务、存储服务、网络服务、平台社区、科学软件、运行维护、数据信息、安全认证等服务内容,已为多个重大科研项目提供支撑服务,初步显现出“科研专有云”、“开放云”、“全球合作云”特征。欧洲委员会于2018 年3 月提交的EOSC 计划路线图指出,将在自愿原则基础上,把现有的科研云基础设施整合为一个可以向全欧洲提供服务的云结构基础设施联邦,帮助欧洲在科学数据基础设施方面获得全球领先地位。

与PaaS 模式和SaaS 模式相比,开放科学云属于IaaS 模式的典型代表,其以提供计算资源、存储空间、网络带宽等硬件资源为主要功能[16],用户可以采用即用即付的方式租用基础设施资源。然而,随着边缘侧对“大连接、低时延、大带宽”的云资源需求更加旺盛,这些中心化的云服务模式在扩展性、负载均衡、服务效能等方面逐渐显现出局限性,云服务提供商已难达到承诺的服务质量(Quality of Service,QoS)水平且难以满足动态型的资源请求。

2 开放科学云联邦的发展与探索

2.1 云联邦的出现

为了突破当前PaaS、SaaS、IaaS 模式的技术瓶颈,必须对现有的云服务模式进行改造,设想将具有不同专业和标准化服务的云进行聚合,云服务商通过协作来构建基于云的体系结构,而创建联邦型的云服务环境也许是可行途径之一。2009 年,欧洲第七框架计划(7th Framework Programme,FP7)率先提出了联邦云(Federation Cloud)构思,设想实现跨地域、跨管理域、跨服务、无边界的资源移动,在此基础上构建了第一个完全开源的联邦云平台——OpenNueblua。2011 年,欧洲核子研究组织(European Organization for Nuclear Research,CERN)发起了EGI 联邦云项目并制定了联邦云框架,用户可通过EGI 的集中管理工具对全球科研资源进行统一访问。同年,文献[17]提出了“云联邦”的定义,认为云联邦是一种具有互操作性特征的服务聚合,通过地理分布方法来应对性能和灾难恢复挑战,通过云联邦可将部分任务外包给更具成本效益的群体来完成。文献[18]认为云联邦是将2 个或多个云服务环境互连在一起的方法,一个CSP 可将科研资源批发或出租给另一云提供商,根据提供商之间的特定协议,这些资源将成为买方的临时或永久扩展性资源。2017 年,文献[19]提出了云联邦即服务(Cloud Federation as a Service,CFaaS)思想,认为云联邦可以透明地实现云客户端与云之间的通信,可以实现服务抽象层(service abstraction layer,SAL)以简化客户端通信,云/云服务可以选择支持SAL 以促进其服务的联邦。此外,美国国家标准与技术研究院(National Institute of Standards and Technology,NIST)于2020 年发布了云联邦系统参考架构概念模型[20]。由此可见,云联邦是一种按照特定协议将私有云、公有云和混合云中2 个或多个CSP 逻辑组合的生态系统,实现资源功能互相调用动态扩展的协作型、分散型云计算服务环境。云联邦使CSP 突破了资源数量限制,允许根据需求变化将资源外包给其他提供者、将免费资源租给其他提供者或关闭未使用的节点,为分布式云资源服务的动态性、扩展性、可靠性和效能性管理提供了一个实用平台[21]。

2.2 开放科学云联邦的探索

面对开放科学云的发展困境,结合云联邦的应用优势,科学家在探索构建开放科学云联邦的可能性。2019 年10 月,CSTCloud 提出了建设“全球开放科学云(Global Open Science Cloud,GOSC)”构想并于2020 年6 月与EGI 基金会正式签署合作协议,双方共同推动中欧跨洲际开放科学云的协作与联邦服务,围绕共建“全球开放科学云”的远景目标开展培育与示范工作。尽管开放科学云联邦已进行了初步探索,但对其概念未有明确定义,本文认为开放科学云联邦是一种为满足科研活动的特定需求和规则要求而制定的、可扩展的开放型、虚拟化、服务型云际交互平台。加入开放科学云联邦系统的节点通过身份验证后即可访问不同的系统资源,其由存储和管理数据的基础架构、传输数据的高带宽网络、用于处理数据的计算设备等3 个相互依赖的核心元素组合而成。图2 给出了开放科学云联邦的概念模型。

图2 开放科学云联邦概念模型

开放科学云联邦的共享理念在各个领域具有通用性,这为云联邦在科学研究领域的实践探索提供了一种虚拟化的云际互联协作环境,此环境集成了多种科研资源,横跨多个利益相关者,应用场景和应用特点也更加符合科学研究需求,研究人员将能够处理大量科研资源并共享其科学成果,同时改善知识获取途径,从而提高创新能力。与传统的中心化开放科学云平台相比,开放科学云联邦模式在资源供给、服务质量、治理机制等方面均体现出一定优势,表1 展示了2 种方式的异同之处。

表1 开放科学云联邦与中心化平台的比较分析

3 开放科学云联邦的应用及架构

3.1 开放科学云联邦的应用场景

立足开放科学发展需求并结合开放科学云联邦的概念架构,本文认为开放科学云联邦有以下典型应用场景。(1)算力共享:当科学计算任务无法由单个科研机构独立完成时,可将科学数据拆分成若干模块,根据不同计算中心的负载状态将分片数据传输给最优计算中心执行计算[22]。以大型强子对撞机(large hadron collider,LHC)为例,其每秒钟会采集到的PB 级对撞实验原始数据被切分成块后通过LHC 计算网格分发到全球40 多个国家的170 个数据中心进行计算分析,分析结果按照处理层级分布式存储在计算网格中的数据中心。(2)多任务计算:多任务计算是同时满足高性能计算(用最短的时间完成某一项科学计算任务)和高通量计算(在同一时间内尽可能完成多个计算任务)的一种计算方式[23]。例如某研究所常规配置的数据中心的响应速度难以满足对大规模人群队列基因组数据进行快速精准分析,这就需要科研机构根据负载与其他计算中心进行动态合作,实现高性能与高通量的科学计算任务。(3)联邦学习:联邦学习是指原始数据不离开本地节点但将科学计算所需算法、软件及运行环境传输给联邦成员,联邦成员对本地数据计算处理后将中间结果提供给外部机构进一步处理[24]。例如联合国可持续发展目标(sustainable development goals,SDGs)的计算分析过程中各国家的详细人口数据在本地留存但算法共享,共同训练机器学习模型,最后再将模型训练结果回传给联邦中心。(4)云功能集成:云集成指科研用户或机构将多个异构云平台中的部分资源合并形成一个新的云平台,当某科研机构申请科研项目时,共同参与单位可以根据需要提供相应的资源,项目内资源可统一访问管理[25]。例如国家重点研发计划“科学大数据管理系统”项目将27 所高等院校/科研院所的不同学科领域的数据进行研究并形成统一的数据集成系统。(5)云平台拓展:云扩展是指通过借租其他单位或公有云资源对其自身资源进行扩展以解决单个科研机构在处理某些复杂的科学任务时在存储、传输、计算等方面存在明显瓶颈[26]的问题。例如科研机构A需要在短时间内完成海量科学数据的存储和分析,租用商业云服务商B提供的云空间进行数据备份,调用超级计算中心C提供的算力进行高性能计算,待项目结束后即终止使用B、C提供的服务。

3.2 开放科学云联邦的应用特点

根据开放科学云联邦的应用场景,可以将开放科学云联邦的应用特点归纳为云际交互、跨越平台、动态可变、负载扩展、分布共治5 个方面。(1)云际交互:开放科学应用部署运行在不同科研机构的云服务平台之上,科学应用的计算与存储资源均位于不同位置,联邦系统集成了各类系统资源,为用户提供统一服务,不同云服务平台之间进行协议通讯和资源交互传输。(2)跨越平台:既支持各层次(IaaS、PaaS、SaaS)的跨平台计算,也支持各操作系统(Windows、Unix、IOS、Linux)的跨平台交互,计算资源由不同格式的VM、容器或分布式计算节点提供,数据资源以分布式的数据库、接口、磁盘等形式提供。(3)动态可变:联邦系统的构成层次分为核心层和松散层,松散层的成员数量相对动态可变,可随时加入或退出,联邦成员的服务需求与资源供给亦具有不确定性,当某一机构的服务资源不足时可随时调用另一机构资源。(4)负载扩展:很多科学应用场景中系统所需处理的计算任务量具有不可预知性,如果不及时响应就可能错过科学发现的关键机会,联邦系统提供了灵活的资源扩展机制,可根据系统负载动态地扩展与激活联邦成员。(5)分布共治:联邦成员均主动加入并了解联邦的建设目标,同意并履行联邦运行规则,同时对系统的决策运行进行共同管理,成员可以加入开放科学云提供资源服务,也可以从科研人员对其服务的使用中获得收益。

3.3 开放科学云联邦的逻辑架构

从概念定义、应用场景、应用特点可知,开放科学云联邦是网络、计算、数据、软件、工具、应用、规则等科研元素的综合生态体,图3 刻画了开放科学云联邦系统的逻辑架构。

图3 开放科学云联邦逻辑架构图

逻辑架构主要由云平台层、科学资源层、资源协调层、应用协调层、科学应用层等构成。云平台层互联了现有的开放科研基础设施(如EOSC、CSTCloud、AOSP、ARDC、MOSP、ESCAPE 等),它们与科学资源层之间进行交互映射;科学资源层主要汇聚了各类开放科学数据并集成了现有流行的云端操作软件工具包(如Git、Hadoop、HPCC、MongDB、DMPTool 等);资源协调层主要实现对异构资源的标准化封装和组织管理,如资源存储、资源查询、资源索引、资源映射等;应用协调层主要实现对服务应用的标准化抽象和云间操作,如资源排序、资源调度、资源交互、资源交易、使用计量等;科学应用层主要支持云联邦在具体科研场景中的落地应用,如联合国可持续发展目标、人类基因组计划、“一带一路”倡议等。不同层级之间通过特定的协议规则进行交互,如科学资源层与资源协调层之间通过FTP、HTTP、UDP 等协议实现资源传输,资源协调层与应用协调层之间通过SASL、SSL、TLS 等协议保障资源安全,在遵循服务水平协议(service level agreement,SLA)和QoS 要求的前提下应用协调层与应用层通过应用程序接口(application programming interface,API)实现服务调度。

4 开放科学云联邦的关键技术

4.1 联邦身份认证授权

开放科学涉及诸多利益相关者,各利益相关者身份复杂、需求各异。开放科学云联邦系统要想正常运行,必须首先对众多利益相关者的身份属性和行为权限进行约束,只有具备特定身份并验证通过的用户、机构才被允许加入联邦系统并共享资源。认证授权的基本流程如下[27]:首先通过OAuth 协议实现所有通信实体之间的身份验证并同步信任,然后通过预配机制实现应用程序服务器、授权服务器以及客户端之间的信任建立,最后引入token 实现跨组织的应用程序资源联邦。在具体的身份认证环节,使用完全哈希验证、Menezes-Qu-Vanstone(FHMQV)协议和AES-256 算法实现单点登录(single sign on,SSO)身份验证,用户在访问来自多个CSP的各种服务或从同一服务提供者访问多个服务时,仅需要对一次云服务使用者(cloud service customer,CSC)进行身份验证即可。但这种单一登录身份管理方案无法解决多个参与者的身份验证,核心身份验证协议(Caucus)引入了多方计算(multi-party computation,MPC)思想[28],将每个参与者看作联邦系统的子集,对于加入云联邦系统的节点,CSC 可以直接从CSP 处获得服务而无需要求它们分别与每个CSP 再进行身份验证。通过云联邦认证授权,不仅可以判断参与者的身份真伪,还可以判断这些参与者能够对云资源执行哪些操作[29]。在联邦层中,确定用户是否可以访问请求私有云或联邦中其他云中的服务资源;在本地云层,确定用户是否可以以其数据库中存在的本地用户身份访问请求私有云中的资源;在云之间,确定不同云是否能够接受来自同一联邦中其他云的请求,或创建针对其他云的请求。

4.2 联邦节点信任感知

开放科学云联邦的最终目的是将诸多利益相关者聚合,实现不可信环境下科研资源的可信交互,但不同利益相关者之间缺乏预先存在的信任关系是影响QoS 的因素之一。为了确保各类关键和敏感资源的安全性,必须在将云CSC 的请求从一个CSP 传递到另一CSP 之前就评估和建立起信任机制[30]。博弈论被认为是构建开放科学云联邦信任机制的经典理论:基于博弈论方法的CSP 分类机制将各类资源参数的可信赖特征确定为合作要素,任何希望破坏联邦的不信任成员都将被移除,这解决了异构云中CSP 的信任识别问题[31]。基于信任合作博弈理论的新型云联邦形成机制使得CSP 可以选择利润最大化/成本最小化来动态地形成信任联邦[32]。联合博弈的可信云联邦方案通过考虑客观和主观因素来评估其他CSP 的可信度,与贝叶斯推理集成的Dempster-Shafer 理论用于没有先验交互的信任值计算[33]。联邦图游戏也被引入来模拟CSP 之间的合作[34],享有较高信誉的CSP 组织成服务联邦,在降低联邦成本的前提下确保联邦参与者获得最高利益并保证联邦在执行应用程序时具有较高的可靠性。集成了多种技术的信任管理系统TrustyFeer 允许根据使用对等方的信誉和SLA 的主观逻辑意见来评估其他对等方的可信度[35],帮助可信赖的通信伙伴互相查找,在降低不符合SLA 的服务百分比以及提升交换服务的成功率方面具有更强的鲁棒性。通过建立信任机制,云提供商可以快速评估彼此之间的信任度,从而使参与者以可信任和可靠的方式共享其科研资源。

4.3 联邦资源迁移调度

将开放科学云联邦资源从一个CSP 到另一个CSP 的迁移对于负载均衡处理、运营维护、电源管理、VM 故障排除等都至关重要,这种迁移应用不仅限于单个CSP 之间,而且存在于不同的云平台API之间,需要一系列复杂的操作流程,因为它包含许多具有不同标准、规则和协议自治的CSP。静态迁移方法利用可信计算技术实现异构云之间的可信联邦,使用远程认证协议来实现VM 迁移[36]。动态迁移方法使用VM 作为联邦容器,在计算和通信成本的约束下,实现高层体系结构(high level architecture,HLA)负载均衡[37]。综合迁移法则根据网络容量构建分析评估模型,可实现多VM 的顺序迁移和并行迁移[38]。针对关键任务程序迁移,利用联邦系统中资源的高可用性来定义SLA,提前预订重新配置计划和根据监视的参数授予和分配必要的资源,针对预测失败概率较大的属性则自动优化服务级别从而动态地重新配置云基础架构。集成化的迁移软件也为云联邦资源迁移提供了可能,以FIWARE Lab 为例,其由多个联邦管理工具和组件构成[39],可以最大程度地自动化服务供应并实时获取与所供应服务生命周期相关的所有信息,具备了跨云服务无缝部署、资源利用监控、资源与数据结构聚合等能力,已在17 个欧洲云基础设施中应用部署。综合而言,无论选择哪种迁移策略,都是迁移成本和利润导向之间的博弈,博弈模型的效用函数取决于利润和迁移成本,理想的情形是在提高云资源可移植性和服务独立性的同时实现利润最大化和迁移成本最小化。

4.4 联邦资源精确匹配

开放科学云联邦参与者和资源环境具有异构和动态属性,而且物理分布的私有云资源具有异质性,在面对防火墙和网络地址转换协议时通常难以发现,因此如何在动态环境下规划、调整和调度云资源以满足用户多样化的服务需求成为云服务环境必须解决的问题。针对平面动态云联邦(Horizontal Dynamic Cloud Federation,HDCF)平台的复杂性资源分配问题,基于博弈论的多目标优化算法实现了HDCF 环境下云提供商(cloud provider,CP)之间的交互以及对应用程序全生命周期的动态管控[40]。首先,使用云模型将定性概念转换为定量值;其次,根据多准则评估信息计算提供者和需求者的满意度,初步识别出合格的资源;然后,基于扩展理论在单个云内部及不同云之间建立双层异步规划模型,引入高优先级队列定义不同云的贡献份额;最后,根据个别应用程序的需求调整份额相对权重,在云联邦中选择最佳的资源组合。代理机制在资源匹配中应用广泛[41],云经纪人(Broker)综合考虑服务质量、服务请求分发和服务历史等因素,将服务请求发送给联邦中的所有CSP,依据各种负载条件对多个私有CSP 的服务进行匹配和组合,CSC 在提出下一个服务请求之前消费服务并清算所有债务。在此基础上衍生出的智能代理机制中引入冲突自动解决协商框架——选择、匹配、协商和扩展(SMNE)协议[42],Broker 可以“远程”提供有关云资源状态的各类信息,CSP 和CSC 之间无需直接接触甚至无需间接接触即可完成资源交互。

4.5 联邦资源动态优化

随着使用率的增加和工作负载的不可预测性,某些服务可能变得不再可用,但又可能会出现新的服务。开放科学云联邦系统的成功很大程度上取决于CSP 能否在其SLA 中兑现对用户的承诺,其挑战之一是如何在异构环境中将动态资源分配给资源请求流,最大化实现资源优化[43]。基于整数线性规划的启发式算法将云联邦形成框架抽象为一个多目标优化问题,试图在保持QoS 与联邦成员利益平衡的同时最大化联邦利益[44]。针对服务级别协议冲突问题[45],在联邦体系结构的协调层中使用基于市场的分布式仿真方法来协调各实体,能够以最少的SLA 违规来实现资源供应。针对云资源动态扩展问题[46],多代理框架Elastic-JADE 允许本地Java 代理开发框架平台在负载较重的情况下使用Amazon EC2 资源自动地按比例放大和缩小。针对资源调用效率问题[47],基于地域组法定人数制度(geographic group quorum system,GGQS)的混合算法使用混合协议将基于地域组的广播与基于法定人数的多播相结合,提高了事件分发服务中云间的互操作性。针对系统消耗问题[48],“偏斜度”概念被用来度量服务器多维资源利用中的不均匀性,根据应用程序需求动态分配数据中心资源,较好地组合了不同类型的工作负载并提高了资源的整体利用率。针对云需求预测问题[49],使用泊松-伽马吉布斯采样器的马尔可夫链蒙特卡洛模拟器确定每种类型的VM 实例化请求的到达率,借助到达率确定传入实例化请求的最佳VM 位置,实现了对未来资源需求的随机预测。针对服务可靠性问题[50],联邦容错系统被建模为一个多目标的优化问题,优先级故障管理算法根据CPU 温度来锁定联邦中故障。

5 结论

开放科学时代,传统的中心化平台模式已难以满足更加自由、开放、合作、平等、共享的科研服务需求,云联邦是开放科学云服务模式的必然选择。目前,开放科学云联邦因具备云际交互、跨越平台、动态可变、负载未知、分布共治等特点,已在算力共享、多任务计算、联邦学习、云功能集成、云平台拓展等科研场景中开始应用。与通用型云联邦技术相比,开放科学云联邦关键技术具有以下若干鲜明特点。(1)开放科学云联邦的身份认证授权面向更广泛的科研群体,有别于传统的云联邦系统仅对CSP、CSC、Broker 的身份进行认证授权。(2)开放科学云联邦的资源节点信任感知的粒度更加细碎,除了对传统的参与角色身份信息进行确认之外,还包括对资源安全、角色声誉、参与收益等进行感知确认。(3)开放科学云联邦的资源迁移调度更加考虑迁移成本和效率之间的均衡,而传统的云联邦迁移或仅注重迁移成本,或仅注重迁移效率。(4)开放科学云联邦的资源精准匹配讲求资源的个性化、动态化、精准化匹配,为此可能会牺牲时间效率或匹配成本,而传统的云联邦则注重对通用化、静态化资源的模糊适配。(5)开放科学云联邦的资源动态优化更加注重复杂科研环境下断点型资源需求的优化,而传统的云联邦资源优化更多注重对规律性商业活动云资源的优化。

不可否认,场景和技术双驱动型的开放科学云联邦还处于早期阶段,仍有诸多问题需要解决。例如,如何从逻辑上映射联邦云数据中心中托管的虚拟资源,如何以安全的方式交换数据以使云只能访问允许的外部资源。未来研究可从以下方面入手,虚拟化引擎之间的互操作性实现、云联邦环境工作负载和VM 行为评估建模、联邦分布式环境中实体资源信息的精确预测等。