云计算环境下基于数据关联度的海洋监测大数据布局策略＊

2015-03-19黄冬梅随宏运赵丹枫杜艳玲

计算机工程与科学 2015年11期

黄冬梅，随宏运，贺琪，赵丹枫，杜艳玲，苏诚

（1.上海海洋大学信息学院，上海201306；2.国家海洋局东海信息中心，上海200136）

1 引言

“空天地底”海洋立体观测技术的飞速发展，使得高精度、高频度、大覆盖的多模态海洋数据［1］呈几何级数爆炸式增长。此外，海洋监测数据具有多学科交叉性、海洋数据获取手段和数据格式复杂化、数据种类多样化等特性，是典型的大数据。对于获得的海洋监测大数据，如何有效地进行存储和布局是日后研究人员合理使用和分析海洋大数据的基础。

数据布局策略主要解决如何合理地将海量数据布局到合适的数据中心的问题。随着大规模数据存储系统体系结构的发展，数据布局策略从设计目标到应用环境发生了很大的改变，并应用于多种存储系统中。如在传统的RAID 机制中，运用分条技术将数据分成多个条带单元，以每个条带单元为单位将数据分布在多个磁盘上以提高读/写速度［2］。在P2P系统中，通过分析数据的可用性，将文件作为数据存储［3］的基本单位对数据进行布局。然而，由于海洋监测大数据［4］自身具有特殊的性质，使得传统的布局策略在对海洋监测大数据布局时缺乏实用性。例如，在对海洋大数据进行监测时，监测点数据的分布呈分散性，不同监测点对应不同的领域。同时，一些用户在执行某特定监测任务时，将集中应用某些监测点，从而产生监测点之间的关联。因此，在对海洋监测大数据布局时应适当考虑监测点间的关联度。此外，监测点内海洋数据的属性繁多，在这些属性之间也存在着潜在的联系，故需进一步考虑监测数据间的关联度。

随着科学技术与海洋监测设备技术的不断发展，海洋的数据量已发展到PB、EB 级甚至更大级别，成为名副其实的大数据。此外，海洋监测过程中，每个数据都呈分散性，传统的集中式数据布局策略对海洋监测大数据具有一定的局限性，这使得如何将关联紧密的海洋监测大数据合理地布局在同一数据中心，有效地减少响应时间显得十分重要。因此，本文采用云环境下的分布式存储模式对海洋监测大数据进行布局，提出云计算环境下基于数据关联度的海洋监测大数据布局策略。通过分析云环境下的数据中心容量以及海洋监测数据、监测点和监测任务之间的关联，利用具备超大规模、高可扩展性等特点的云计算环境来实现海洋监测大数据的存储。

2 相关工作

本节首先阐述了现有的数据布局策略［5～9］，分析各个策略的布局效果；然后介绍了目前关于云计算环境下的数据管理方法［10～18］；最后介绍当前针对云计算环境下的海洋数据布局问题的相关研究，指出其局限性。

数据布局主要解决如何合理地存放数据的问题。在分布式计算中，针对数据布局的问题进行了很多研究。文献［6］从数据密集型计算中负载均衡性方面，提出了在特定环境下实现负载均衡的数据布局方法，有效地提高了并行性。文献［7］提出一种基于释放和重构的数据布局策略，使得在超大规模的解空间中尽快找到更加接近全局最优的数据布局方案，有效地减少了数据的传输代价。文献［8］采取将一致Hash方法和聚类算法相结合的方法，按照设备的权重大小进行聚类，同时按照类别分配区间对数据进行布局，减少了对存储空间的消耗。文献［9］从节能方面介绍了一种适于连续数据存储的节能数据布局方案，通过关闭部分处于空闲状态的磁盘达到数据布局过程中节能的效果。上述工作分别从负载均衡性、数据传输代价、存储空间和节能不同的角度对数据进行布局。然而，在当前大数据时代，上述研究把更多的注意力放在提高存储设备性能上，忽略了海洋监测大数据之间的关联性，尤其是对于如何根据海洋数据关联性进行数据布局的研究较少。

近年来，大数据技术的发展为海洋信息化开辟了新的研究途径与产业化的新思路。随着面向海洋的大数据管理与布局技术不断地发展，云计算受到了众多国内外研究者的关注。文献［15］认为云计算环境由多个分布的数据中心组成，并利用云计算环境，从跨数据中心数据传输、数据依赖关联和全局负载均衡三个方面，提出一种三阶段的面向数据密集型流程应用的数据布局策略，有效地降低了跨数据中心数据传输的时间开销。文献［16］模拟混合云计算模式，针对科学工作流数据，从跨数据中心时数据移动的时间开销和产生的传输费用方面对数据进行布局，提出了一种优化的数据布局方法。文献［17］以红十字会组织物资采购的例子，提出了在云计算环境下对隐私数据和非隐私数据的布局方法。这些学者针对一般数据进行了高效的布局，但是海洋监测大数据不同于一般数据，有其自身的特点［18］，在监测任务、监测点和监测数据间存在着一定的关联。因此，面对具有特殊性质的海洋监测大数据，在进行布局时还需要考虑数据本身存在的特性。

综上所述，文献［19～24］从多角度研究了数据布局方法以及云计算环境下数据管理策略，在通用数据上具有显著的效果，但是对于海洋监测大数据间潜在关联性分析的研究较少，数据布局的同时易丢失海洋监测大数据原有的特色。针对此问题，本文将在考虑海洋监测大数据自身特点的基础上，综合考虑监测任务、监测点和监测数据三者之间的关联度，研究云计算环境下更加适合于海洋监测大数据的布局策略。

3 基本定义

本文主要研究云计算环境下的海洋监测大数据布局问题。云计算环境由多个分布式数据中心组成，每一个数据按照合理的数据布局策略［25～28］存储在数据中心内，每一个监测任务按照用户需求调用所需的数据。云计算环境下的数据存储、海洋监测数据和监测任务之间的关联如图1所示。

Figure 1 Dependency map of data storage，marine monitoring data and applications图1 数据存储、海洋监测数据和监测任务之间的关联图

定义1（云计算环境）云计算环境由多个分布式数据中心组成，数据中心集表示为DC，每个数据中心dci∈DC，可表示为一个三元组〈IDdc，λ，f〉。其中，IDdc是数据中心的标识符；λ是存储数据时数据中心的使用百分比，它是数据中心负载的一个阈值，用于保证各个数据中心负载均衡；f是数据中心的个数。

定义2（海洋监测数据集）海洋监测数据集表示为D，每个数据di∈D，可表示为一个四元组〈IDd，si，pi，ui〉。其中，IDd表示海洋监测数据的标识符，si表示海洋监测数据的大小，pi表示海洋监测数据di所属的监测点，ui表示海洋监测数据的属性。

定义3（监测任务集）监测任务集表示为T，每个监测任务ti∈T，可表示为一个三元组〈IDt，pi，A〉。其中，A表示监测任务ti在监测点pi处所监测的属性集。

4 基于关联度分析的数据布局策略

为了实现同一数据中心内的每个数据之间具有较高的关联度，不仅需要考虑数据中心存储容量λ的值，还需要考虑监测点间和监测数据间的关联度。对于这两个标准，本文优先考虑海洋监测点间和监测数据间的关联度。首先，通过分析云计算环境下海洋监测过程中监测任务、监测点和监测数据之间的关联，得出监测点间的关联矩阵、监测数据间的关联矩阵、监测数据全局关联矩阵；然后，运用键能算法BEA（Bond Energy Algorithm）［29］将关联矩阵转换为聚类矩阵；最后，通过非重叠划分算法［30］对聚类后的矩阵进行划分，形成N类子数据集，使得每类子数据集中各个数据间具有较高的关联度，并根据数据中心的存储容量进行布局。

4.1 关联度定义

4.1.1 监测点间的关联度

研究人员在执行海洋数据监测任务前，首先需要确定监测点的信息，然后对监测点进行数据采集。在对数据布局时，如果仅以单一监测点数据为基准进行布局，将会忽略监测点之间存在的潜在相关性，使得有关联的几个监测点本应存储在同一数据中心，却被存储到不同的数据中心内，导致用户在执行某项监测任务时需要访问多个数据中心，造成不必要的时间消耗。因此，本文通过分析监测任务与监测点间的关联度，计算同时应用两个监测点的监测任务个数，构建两监测点之间的关联矩阵。当某些监测点常常被多个监测任务同时应用时，便把他们归为一类。

被归为一类的监测点可以同属某单一领域，也可属于不同领域，例如监测区1内的监测点都属于物理海洋领域，而监测区2内的监测点既有属于物理海洋领域的监测点，又有属于生物生态领域的监测点，虽然含有不同领域的监测点，但是他们之间有着潜在的、隐藏的内在联系。

定义4（监测点间的关联度）设Tpi表示对监测点pi进行监测的监测任务；Tpj表示对监测点pj进行监测的监测任务；i，j＝1，2，…，n；n表示监测点的个数。两点间的关联度由同时在监测点pi和pj进行监测的任务个数总和得出，则监测点pi和pj之间的关联度Iij为：

4.1.2 监测数据间的关联度

各监测点的海洋数据属值繁多，包括经度、纬度、温度、湿度、盐度、大气压、萤光度等，在这些监测数据的属性之间也存在着一定的联系，如由物理知识可知大气压值与温度值有密切的关联。因此，在对海洋监测大数据进行布局时，除了考虑监测点间的关联度，还需要考虑监测数据间的关联度。但是，由于不同监测点拥有不同的属性集，如在p1点监测的数据属性包括u0、u1、u3、u4，而在p2点监测的数据属性包括u1、u3、u5、u6、u7，这使得在以数据属性关联度为基准进行布局时难以分辨数据来源。因此，在数据布局时将属性值和监测点进行对应，构建形如的对应监测数据（注，简称为监测数据），表示监测点pi处的第k个数据，其中，k＝1，2，…，N；N为监测点pi处的数据个数。对于每个监测数据，通过计算同时应用两个数据的监测任务个数构建两监测数据间的关联矩阵。

4.1.3 监测数据全局关联度

Iij反映了监测点间的关联度，Sij反映了监测数据间的关联度，但是单独考虑某一关联度，较难很好地从整体角度反映数据之间的紧密程度。例如，在监测过程中应用pr处数据di的频数为5，应用ps处的数据dj的频数为20，从数值上可看出dj比di的使用量高，但是对于监测点pr的任务个数为15，监测点ps的任务个数为100，则在平均频率上数据di较高。因此，需综合分析数据布局中监测点间的关联度和监测数据间的关联度。

定义6（监测数据全局关联度）全局关联度反映了监测数据间的整体紧密程度，可由监测数据关联度与监测点间关联度的比值得出。此处，由于比值较小不利于计算，为了便于数据处理以及保证程序运行时收敛加快，利用f（·）函数将其归一化处理［31］，并取不大于其值的最大整数作为监测数据的全局关联度，即：

其中，r对应数据di所在的监测点，s对应数据dj所在的监测点。

4.2 海洋监测大数据的聚类

4.2.1 关联矩阵的建立

通过分析监测点、监测任务和监测数据之间的关联（见表1），利用公式（1）～公式（3）得到监测点间的关联矩阵I图、监测数据间的关联矩阵S图和全局关联矩阵IS图（见图2）。

Table1 Dependency table of monitoring points，monitoring applications and part of the monitoring data表1 监测点、监测任务和部分监测数据之间的关联表

Figure 2 Correlation matrixes图2 关联矩阵

4.2.2 聚类矩阵的建立

将关联矩阵转换为聚类矩阵旨在使矩阵中相似的元素聚集在一起，本文利用BEA 算法将关联矩阵转换为聚类矩阵。BEA 算法［29］是应用于分布式数据库系统中表的垂直划分算法，它通过对矩阵中的行和列不断改变和排列，使聚集在一起的元素具有较高的相似性。通过BEA 算法将得到的三个矩阵I、S、SI分别做行列变换运算，转换后的聚类矩阵I′、S′、和SI′如图3所示。

Figure 3 Converted clustering matrixes图3 转换后的聚类矩阵

4.2.3 海洋监测大数据的划分

为了使划分后的每类子数据集中各个数据之间具有较高的关联度，而与其余数据集内数据具有较低的关联度，需对聚类矩阵中的数据进行划分。本文利用非重叠划分算法［30］，计算dp值，如公式（4）所示。当dp取最大值时，记录此时对应的划分点h的值，这时的划分点h将聚类矩阵划分为两个不重叠的数据子块，依次递归地划分直到满足数据中心的存储容量λ为止。

由图3可以发现，根据非重叠划分算法，聚类矩阵被划分为三个数据块，数据块1由监测点p1组成，数据块2由监测点p3和p6组成，数据块3由监测点p2、p4、p5和p7组成。

4.3 海洋监测大数据的布局

云计算环境下基于监测数据关联度的海洋大数据布局过程描述如下：

输入：监测任务、监测点、海洋监测大数据；

输出：海洋监测大数据的布局方案。

主要步骤：

步骤1 初始化云计算环境下的数据中心个数f、存储容量λ；

步骤2 根据公式（1）～公式（3）计算数据集内各监测点间的关联度、监测数据的关联度和监测数据全局关联度；

步骤3 构建关联矩阵I、S和监测数据全局关联矩阵SI；

步骤4 通过BEA 算法使得矩阵中的相似项聚集在一起，形成聚类矩阵I′、S′和SI′；

步骤5 以各类数据中心间关联度低、数据中心内数据关联度高为标准，利用非重叠划分算法划分聚类矩阵，将具有较高关联度的数据划分为一类子数据集；

步骤6 判断划分后各子数据集合的容量是否满足数据中心的存储容量λ。如果满足，则将该子数据集分配到相应的数据中心，否则，转到步骤5。

步骤7 根据步骤6，输出海洋监测大数据的布局方案。

5 实验与分析

仿真实验平台配置为酷睿四核处理器，2.8GHz，6GB内存，采用开源的Openstack云计算管理平台，在云计算环境下对海洋监测大数据布局。经过调研得知，某国家海洋局某监测中心有监测点8个，每个监测点有7～10个监测数据属性，选用相关的600个监测任务作为实验数据集，如表2所示。实验选用五折交叉验证法，随机选择80%的数据集作为训练集，剩余作为测试集，通过数据传输速度、用户访问数据的响应时间和算法运行时间来评估算法的执行效率。

Table 2 Part of the monitoring missions supplied by a monitoring center表2 监测中心提供的部分监测任务列表

为了说明本文提出的策略能有效地减少数据传输次数，实验将其与数据随机布局策略（简称Random 策略）进行比较。其中，IRM 表示以监测点间关联度为标准时的布局策略，DRM 表示以监测点数据间关联度为标准时的布局方策略，MRM表示以监测数据全局关联度为标准时的布局策略。

如图4所示，随着数据集数量的增加，对应的跨数据中心数据传输次数呈明显上升趋势，然而，由于本文提出的IRM、DRM 和MRM 策略根据监测点和监测数据间的关系将相关度大的数据集放置到同一数据中心，在一定程度上降低了数据传输次数，因此IRM、DRM 和MRM 在数据传输次数上明显少于Random 策略，且具有一定稳定性。

图5反映了每50个监测任务的响应时间对比图。从图5中可看出，MRM 策略在响应时间方面优于其他方法。其中，Random 方法的响应时间最长，原因在于对数据布局是该方法忽略了海洋数据的特点，降低了响应效率。IRM 和DRM 的响应时间相近，而MRM 具有明显的优势，较IRM 和DRM，MRM 布局策略能够较快速地响应监测任务，具备高效数据布局的特点。当监测任务量提升时，效果尤为显著。

Figure 4 Comparison chart of data’s transfer numbers图4 数据传输次数对比图

Figure 5 Comparison chart of data’s response time图5 数据响应时间对比图

虽然MRM 在图5中响应时间最短，但由图6可以明显看出，随着数据集个数的增加，四种算法的运行时间有明显的变化，本文提出的三种策略在运行时间方面明显优于Random 策略。其中，IRM的计算量相对较少，尤其是当数据集超过50的时候，IRM 算法运行时间最短，具有快速数据布局的特点，虽然DRM 的计算量较大，但算法的运行时间与其他策略相差不大，仍可接受。

为了进一步分析本文提出的方法在各类型海洋数据上的布局效果，将数据集分为六个类别进行数据响应时间对比，分别是：大气化学、海洋气象、走航皮温、海表温盐、海洋营养盐和海水叶绿素。从图7中可以发现，对于大气化学类别，响应时间相差不大，基本保持一致。但是，对于海洋气象、走航皮温、海表温盐、海洋营养盐和海水叶绿素，Random 方法的响应时间最长，IRM 和DRM 的响应时间相近，而MRM 具有明显的优势，较IRM 和DRM，MRM 布局策略能够较快速地响应监测任务，具备高效数据布局的特点。原因在于：海洋监测数据不同于一般数据，有其自身的特点，Random方法忽略了数据之间的关联性。由此可见，面对真实的海洋大数据，本文方法在布局时具备较强的泛化能力和高可扩展性。

Figure 6 Comparison chart of running time图6 运行时间对比图

Figure 7 Comparison chart of data’s response time for different categories of marine data图7 不同类型的海洋数据响应时间对比图

因此，对于海洋监测大数据的布局，当用户需要快速运行算法时，可采用快速布局策略IRM；当数据存储容量充足时，可考虑快速布局策略IRM和高效布局策略MRM。而数据容量有限时，由于IRM 得到的子数据集容量较大，无法很好地满足数据中心的容量限制，可使用高效布局策略MRM。

6 结束语

大数据技术的发展为海洋信息化开辟了新的研究途径与产业化的新思路。本文提出了一种云计算环境下基于监测数据关联度的海洋大数据布局策略，取得了较满意的实验结果。本文主要贡献有：

（1）针对海洋监测大数据具有海量、异构、强数据关联的特点，以及在监测过程中，监测数据呈分散性的情况，采用云环境下的分布式存储模式对海洋监测大数据进行布局，充分利用云计算超大规模、高可扩展性等特点满足海洋监测大数据的存储管理要求。

（2）综合考虑了监测任务、监测点和监测数据之间的关联度，从海洋监测点间的关联度、监测数据间的关联度和监测数据全局关联度三个角度对海洋监测大数据进行布局，在数据中心存储均衡的情况下，很大程度上降低了用户访问海洋监测大数据的响应时间。

然而，在布局过程中数据副本的延时响应问题呈现逐步上升的趋势，下一步工作将进一步探索云计算环境下布局海洋监测大数据时的数据副本布局技术。

［1］ Petes L，Diamond J，Fisher B，et al.Ocean management challenges，adaptation approaches，and opportunities in a changing climate［M］∥Oceans and Marine Resources in a Changing Climate.Washington：Island Press/Center for Resource Economics，2013：140－155.

［2］ Park K，Lee D H，Woo Y，et al.Reliability and performance enhancement technique for SSD array storage system using RAID mechanism［C］∥Proc of the 9th International Symposium on Communications and Information Technology，2009：140－145.

［3］ Caron S，Giroire F，Mazauric D，et al.P2Pstorage systems：Study of different placement policies［J］.Peer－to－Peer Networking and Applications，2014，7（4）：427－443.

［4］ Herlihy D R，Matula S P，Andreasen C.Swath mapping data management within the national iceanic and atmospheric administration［J］.The International Hydrographic Review，2015，65（2）：1.

［5］ Kameda H，Li J，Kim C，et al.Optimal load balancing in distributed computer systems［M］.Incorporated：Springer Publishing Company，2011.

［6］ Song Jie，Li Tian－tian，Yan Zhen－xing，et al.Load－balanced data layout approach in data－intensive computing［J］.Journal of Beijing University of Posts and Telecommunications，2013，36（4）：76－80.（in Chinese）

［7］ Zhang Tian－tian，Cui Li－zhen.A data placement strategy based on relaxation and reconstruction for scientific workflow applications［J］.Journal of Computer Research and Development，2013，50（suppl）：71－76.（in Chinese）

［8］ Chen Tao，Xiao Nong，Liu Fang，et al.Clustering－based and consistent Hashing－aware data placement algorithm ［J］.Journal of Software，2010，21（12）：3175－3185.（in Chinese）

［9］ Liu Jing－yu，Zheng Jun，Li Yuan－zhang，et al.Hybrid SRAID：An energy－efficient data layout for sequential data storage［J］.Journal of Computer Research and Development，2013，50（1）：37－48.（in Chinese）

［10］ Yao W，Lu L.A selection algorithm of service providers for optimized data placement in multi－cloud storage environment［M］∥Intelligent Computation in Big Data Era.Berlin：Springer Berlin Heidelberg，2015：81－92.

［11］ Calder B，Wang J，Ogus A，et al.Windows azure storage：A highly available cloud storage service with strong consistency［C］∥Proc of the 23rd ACM Symposium on Operating Systems Principles，2011：143－157.

［12］ Maia G，Guidoni D L，Viana A C，et al.A distributed data storage protocol for heterogeneous wireless sensor networks with mobile sinks［J］.Ad Hoc Networks，2013，11（5）：1588－1602.

［13］ Yan Lin，Xing Jing，Huo Zhi－gang，et al.A survey on storage architectures and core algorithms for big data management on new storages［J］.Computer Engineering ＆ Science，2013，35（5）：20－27.（in Chinese）

［14］ Wang Yi－jie，Sun Wei－dong，Zhong Song，et al.Key technologies of distributed storage for cloud computing［J］.Journal of Software，2012，23（4）：962－986.（in Chinese）

［15］ Zheng Pai，Cui Li－zhen，Wang Hai－yang，et al.A data placement strategy for data－intensive applications in cloud［J］.Chinese Journal of Computers，2010，33（8）：1472－1480.（in Chinese）

［16］ Ma Fei.Data placement strategy research for scientific workflow in hybrid cloud computing［D］.Hefei：Anhui University，2014.（in Chinese）

［17］ Zhang Peng，Wang Gui－ling，Xu Xue－hui.A data placement approach for workflow in cloud［J］.Journal of Computer Research and Development，2013，50（3）：636－647.（in Chinese）

［18］ Xie Peng－fei，Sui Wei－na，Tao Guan－feng，et al.Cloud computing in the marine environment monitoring［J］.Marine Environmental Science，2013，32（4）：576－580.（in Chinese）

［19］ Majeti D，Barik R，Zhao J，et al.Compiler－driven data layout transformation for heterogeneous platforms［C］∥Proc of Euro－Par 2013：Parallel Processing Workshops，2014：188－197.

［20］ Wildani A，Miller E L，Adams I F，et al.PERSES：Data layout for low impact failures［C］∥Proc of 2014IEEE 22nd International Symposium on Modelling，Analysis ＆Simulation of Computer and Telecommunication Systems （MASCOTS），2014：71－80.

［21］ Zhao Wei，Zhuo Wei，Li Zhan－bo，et al.A novel data exchange architecture based on cloud computing［J］.Computer Engineering ＆Science，2013，35（8）：15－19.（in Chinese）

［22］ Wei L，Zhu H，Cao Z，et al.Security and privacy for storage and computation in cloud computing［J］.Information Sciences，2014，258（10）：371－386.

［23］ Heath M A，Coker K T，Viraraghavan P.Data storage device overlapping host data transfer for a write command with inter－command delay：U.S.Patent 8，631，188［P］.2014－01－14.

［24］ Liu C，Chen J，Yang L T，et al.Authorized public auditing of dynamic big data storage on cloud with efficient verifiable fine－grained updates［J］.IEEE Transactions on Parallel and Distributed Systems，2014，25（9）：2234－2244.

［25］ Jenkins J，Zou X，Tang H，et al.RADAR：Runtime asymmetric data－access driven scientific data replication［C］∥Proc of the 28th International Supercomputing Conference，ISG’14，2014：296－313.

［26］ Yang K，Jia X.An efficient and secure dynamic auditing protocol for data storage in cloud computing［J］.IEEE Transactions on Parallel and Distributed Systems，2013，24（9）：1717－1726.

［27］ Barsoum A F，Hasan A.Enabling dynamic data and indirect mutual trust for cloud computing storage systems［J］.IEEE Transactions on Parallel and Distributed Systems，2013，24（12）：2375－2385.

［28］ Anjos J C S，Carrera I，Kolberg W，et al.MRA＋＋：Scheduling and data placement on MapReduce for heterogeneous environments［J］.Future Generation Computer Systems，2015，42：22－35.

［29］ McCormick Jr W T，Schweitzer P J，White T W.Problem decomposition and data reorganization by a clustering technique［J］.Operations Research，1972，20（5）：993－1009.

［30］ Song H，Yin Y，Sun X H，et al.A segment－level adaptive data layout scheme for improved load balance in parallel file systems［C］∥Proc of the 2011 11th IEEE/ACM International Symposium on Cluster，Cloud and Grid Computing，2011：414－423.

［31］ Sun X，Shi L，Luo Y，et al.Histogram－based normalization technique on human brain magnetic resonance images from different acquisitions［J］.Biomedical Engineering Online，2015，14（1）：73.

附中文参考文献：

［6］宋杰，李甜甜，闫振兴，等.数据密集型计算中负载均衡的数据布局方法［J］.北京邮电大学学报，2013，36（4）：76－80.

［7］张甜甜，崔立真.基于释放和重构的科学工作流数据布局策略［J］.计算机研究与发展，2013，50（suppl）：71－76.

［8］陈涛，肖侬，刘芳，等.基于聚类和一致Hash 的数据布局算法［J］.软件学报，2010，21（12）：3175－3185.

［9］刘靖宇，郑军，李元章，等.混合S－RAID：一种适于连续数据存储的节能数据布局［J］.计算机研究与发展，2013，50（1）：37－48.

［13］严林，邢晶，霍志刚，等.面向海量数据存储的Erasure－Code分布式文件系统I/O 优化方法［J］.计算机工程与科学，2013，35（5）：20－27.

［14］王意洁，孙伟东，周松，等.云计算环境下的分布存储关键技术［J］.软件学报，2012，23（4）：962－986.

［15］郑湃，崔立真，王海洋，等.云计算环境下面向数据密集型应用的数据布局策略与方法［J］.计算机学报，2010，33（8）：1472－1480.

［16］马飞.混合云环境下科学工作流数据布局研究［D］.合肥：安徽大学，2014.

［17］张鹏，王桂玲，徐学辉.云计算环境下适于工作流的数据布局方法［J］.计算机研究与发展，2013，50（3）：636－647.

［18］解鹏飞，隋伟娜，陶冠峰，等.云计算与海洋环境监测［J］.海洋环境科学，2013，32（4）：576－580.

［21］赵伟，卓伟，李占波，等基于云计算的一种新的数据交换架构［J］.计算机工程与科学，2013，35（8）：15－19.