APP下载

基于云计算的数据存储和挖掘研究

2020-05-28郑小乐

价值工程 2020年12期
关键词:数据存储云计算数据挖掘

郑小乐

摘要:云计算环境下的数据存储和挖掘有别于传统的数据存储和挖掘技术,更注重分布式数据环境的设计和网络对数据的协调传输能力。数据挖掘在云环境下的数据模型的好坏直接决定了数据挖掘的效果质量。

Abstract: Data storage and mining in a cloud computing environment is different from traditional data storage and mining technologies, and more attention is paid to the design of distributed data environments and the ability of networks to coordinate data transmission. The quality of data mining in a cloud environment directly determines the quality of data mining.

关键词:云计算;数据存储;数据挖掘

Key words: cloud computing;data storage;data mining

中图分类号:TP311.1                                      文献标识码:A                                  文章编号:1006-4311(2020)12-0202-02

0  引言

随着互联网技术的不断发展,海量数据出现爆炸式的增長,海量数据的存储和使用成了互联网发展的关键技术。大量的、动态增长的、非关系型的数据使得传统的数据存储和处理技术不再适应,如何从海量的数据提取和挖掘有用的数据信息知识,传统的数据挖掘技术也无法满足要求,因此当前需要一种能够存储海量数据的云存储技术和大数据挖掘来应对当前数据存储和增长的挑战。然而当前通用的数据存储和挖掘模型尚少,虽然有些企业有自己的解决方案,但是系统存在着不可移植性,如何在云计算环境下实现可靠的数据存储、清洗、抽取、聚合等相关数据挖掘步骤,成了亟需解决的关键技术问题[1]。

1  传统存储和云计算存储

传统的数据由于其量小,固定,并且是非动态的增长,所以存储起来比较简单,一般是存储在单一的存储介质和物理位置上[2]。数据的应用和存取也大多是现场使用或是通过网络访问单一处的存储介质,在处理技术上不复杂,只要扩大存储介质的容量和网络流量,就可以很容易的实现数据的调用和处理。对少量的数据也可以通过软盘、光盘、U盘等各种移动存储介质实现数据的灵活移动,而对大多数据来讲,主要是存储在物理硬盘上,所以传统的数据存储技术的发展和物理存储介质的发展是分不开的,只要扩大物理存储介质的容量就可以提高传统数据的存储能力,和网络的处理能力没有多大关系。

而当数据发展到大数据时代,单一的物理介质很难满足数据的存储,所以云计算存储和传统的存储有着比较大的区别,除了存储方式上有很大的区别外,在运算方式上也有着根本的转变。云计算下的存储是通过复杂的网络系统,通过分布式处理系统将数据存储在不同位置,不同存储介质上,所以云计算下的存储技术的关键点不再是物理存储介质容量的扩大,而是如何通过网络将分布在不同位置的数据进行有效的传统和组合,这是传统存储技术无法实现的问题。同时,云计算存储设备也不再仅仅是计算机系统中的各类硬件设备、储存设备等,而是各种能够存储信息的设备所构成的一个复杂的云系统,个人手机、网络设备等都有可能成为云计算存储因子。由此可以看出云计算存储的关键不是存储介质(存储介质基本没变),而是如何将分布在云中的数据组织和调用起来。

2  云计算储存技术中的核心要素

云计算的存储是指如何将数据存储在云端并且为用户提供良好的服务,用户在存取数据的时候并不知道数据存储位置,也不知道数据是如何进行调用的,而存储数据的管理人员或是软件设计者将数据存储的位置、调用方法、提供服务的先后顺序都设计在分布式管理系统中,对用户来说是透明的,用户只要通过授权验证就可以使用这些云端的数据。

2.1 云计算存储中的介质层

云计算的存储按照不同的功能分为四个层次,介质层、访问层、接口层和管理层。由于云计算的数据最终存储地址仍然是存储介质,所以存储介质仍然是云计算存储中最为基础的部分。现在的存储设备也多了很多,比如FC、NAS或是采用DAS技术的存储设备,这些设备可以分布在不同的物理位置,当数据被调用的时候,通过云计算的数据调用算法,从不同物理位置或设备中提取数据,不同存储设备之间通过互联网进行信息沟通,形成完整的储存设备管理系统。

2.2 云计算存储中的访问层

存储在介质层中的数据可以供用户进行访问,但是不是任意用户都可以访问任何数据的,只有通过授权的用户才能够通过访问层访问云计算存储系统,所以云计算存储中的访问层对数据的安全起着一定的作用,本层给用户通过标准的接口进行存储和访问。在实际使用的过程中,不同单位可以通过设计自己的访问层接口,因而会造成不同使用单位之间的接口不统一,从而各单位之间存储的云数据交流会出现障碍,给云计算存储的数据管理上带来一定的困难。

2.3 云计算存储中的应用接口层

应用接口层是一个综合功能的设备来实现的,相对比较灵活,在本层中需要通过网络的接入、用户的认证和系统对用户授权的管理,在当今市场中,有各种可以提供此功能的设备,用户可以根据需要选择合适的应用接口。为了提高云计算存储的效率,可以根据不同的应用接口开发出各不相同的云存储应用。

2.4 云计算存储中的基础管理层

本层是云计算的存储和调用的最核心的层次,数据管理者可以在本层次制定数据访问和调用的最好的解决方式,为了能够让云端数据提供更好的服务,需要对各存储设备中的数据和提供服务的顺序提供最为合理的服务。如何协调各设备中的数据和传输关系着数据存储设备和网络能否提供优质的服务,也决定了数据的稳定和流畅性,在基础管理层的设置好坏,决定了云计算数据是否能够提供良好的服务。在本层上管理人员也可以进行数据安全的设置,比如对各存储的数据进行云端加密,这个加密是对存储过程和存取过程的加密,不是对数据进行加密,可以保证数据结构的完整性。

3  云计算数据中的数据挖掘技术

数据挖掘技术是指将存储设备的数据进行有效提取和分析,从而能够将数据中隐藏的数据规律表达出来。传统的数据挖掘技术主要是通过聚类分析、回归分析等技术进行处理,但是在云计算存储的数据中,这些传统方法难以应对复杂而庞大的数据信息,动态增长和非结构化的数据也让传统的方法无能为力。因此在云计算环境下,需要通过新的数据挖掘机制来实现对分布式的数据处理,同时需要结合用户、企业的要求来设计新的数据挖掘系统。

3.1 云计算环境下数据挖掘模型的建立

云环境下因为数据是海量的,所以数据挖掘的核心问题是提高数据并行的能力,而在分布式数据环境下提高数据处理的并发能力和数据存储能力,最关键的因素是建立数据挖掘的模型。数据挖掘的模型主要实现三个功能,数据存储和处理、数据挖掘、数据信息反馈,分别有三个层次来实现:服务层,运算层,用户层。服务层的主要功能是实现数据的存储和并行处理,这一层是基础层,是保证数据挖掘能够正常进行的关键层次,保证数据的安全、可靠、实用性等,同时为了避免数据丢失,本层还负责数据的冗余存储功能。

运算层的主要功能是数据挖掘算法的实现,主要进行数据预处理和数據挖掘算法的实施,通过对大量数据进行预处理和网络并行的运算,完成对数据的分类、数据转换、数据清洗、数据抽取等数据挖掘步骤,通过数据预处理工作,完成数据挖掘的必要步骤,提高数据挖掘质量和效率。

用户层的主要功能是发布数据挖掘指令,控制数据实施,并将最终的结果反还给用户,是数据挖掘可视化层面的信息传递层。

3.2 云计算环境下数据挖掘算法

在云环境下的数据挖掘模型建立好的前提下,数据挖掘算法的好坏直接决定了数据挖掘结果的有效性。目前常用的算法有sprint、sliq、cart等,每一种算法都有其优越性,同时可以对这些算法进行并行设计。目前,数据量依然在不断增加的过程中,数据挖掘工作也要不断地发展,在这样的状态下,想要对数据进行有效处理,就要结合不同行业特色,设计出更具个性化的数据挖掘算法机制,让数据性和安全性得到进一步提高[3]。

4  结语

在互联网越来越发达的今天,各行各业的数据量在不断的增加,传统的数据存储和挖掘方式已经不适应于今天的云计算环境,为了更好的利用数据我们应该提高云计算数据的存储能力和数据挖掘能力,提高数据的服务性,真正做到数据为我所用。

参考文献:

[1]HILBERT  M. Big  Data  for  Development:  A  Review  of Promises  and  Challenges[J] Development  Policy  Review, 2016,34(1):135-174.

[2]吴红姣.计算机网络安全存储中云计算技术的运用[J].电子技术与软件工程,2019(15).

[3]崔辰.云计算技术下海量数据挖掘的实现机制[J].微型电脑应用,2019(4):129-131.

猜你喜欢

数据存储云计算数据挖掘
基于并行计算的大数据挖掘在电网中的应用
实验云:理论教学与实验教学深度融合的助推器
一种基于Hadoop的大数据挖掘云服务及应用
基于GPGPU的离散数据挖掘研究