基于云计算的大数据挖掘内涵及解决方案研究
2019-02-13平金珍班娅萌
王 茜,平金珍,班娅萌
(石家庄信息工程职业学院,石家庄 050035)
所谓的大数据挖掘技术,其实就是从海量数据信息中进行有价值信息提取的技术。伴随着物联网、云计算等技术的发展,数据信息复杂程度不断提高,采用传统数据挖掘算法已经无法实现数据实时挖掘。基于云计算模式建立大数据挖掘体系架构,需要结合大数据特征实现相关技术集成,达到有效实现数据挖掘的目标,继而使大数据挖掘技术优势得到充分发挥。
1 基于云计算的大数据挖掘内涵
云计算实际就是建立在网络基础上的超级计算模式,能够借助分布式计算机和互联网提供计算或存储等服务。采用云计算,用户能够从不同应用平台登录数据中心,实现数据存储、下载或计算分析。该种模式带有虚拟化的特点,具有较强的可拓展性,能够实现数据分布式存储和并行计算。在云计算模式下实现大数据挖掘,需要构建融合多种计算模式和存储模式的体系架构。根据功能,可以将架构划分为支撑平台层、功能层和服务层。在平台层,可以为大数据挖掘分析提供丰富资源,为数据分析和存储提供支持,运用云计算相关技术及工具实现大数据处理,提供丰富云环境[1]。
借助云环境,不仅可以获得数据和软硬件资源,也能实现数据预处理和分析。功能层负责结合用户需求进行挖掘工具调用,实现数据智能化分析。服务层需要采用可视化等技术实现数据处理结果的展示,为用户提供服务。现阶段,基于云计算的大数据挖掘体系通常存在功能少的问题,无法满足用户多样化需求,因此需要针对用户大数据挖掘需求提出科学解决方案。
2 基于云计算的大数据挖掘解决方案
2.1 平台解决方案
结合大数据挖掘体系架构可知,平台层是实现大数据挖掘与分析的关键环节。采用Hadoop 平台,能够为多功能大数据挖掘体系架构的实现提供支持。从结构上来看,Hadoop 平台包含数据源、大数据挖掘平台、用户层三个部分,数据源为复杂处理对象,由结构、半结构和非结构数据组成。在大数据挖掘平台上上,包含各种计算模式,面对实时数据可以提供多种分析与挖掘功能。用户层可以提供系统认知与接受服务,实现数据信息交互。Hadoop 以HDFS、MapReduce 和HBase 为核心,能够快速运行,并且具有较高扩展性和容错性,能够实现数据批处理和流处理,增强数据流的可伸缩性。但采用Hadoop 难以进行拥有复杂关系的图数据处理,无法为内存计算提供支持,因此需要融入并行计算PowerGraph 等工具,促使数据处理和查询速率得到提高。
2.2 数据预处理
采用Hadoop 平台进行数据预处理,不同于传统数据挖掘,无需采用既定ETL 等驱动方法实现静态数据处理,而是能够根据数据变化进行技术的选用,实现动态数据预处理。具体来讲,就是采用多模式实体识别、远程自动采集融合、数据流实时处理等各种技术获得更强迭代计算、并行计算等能力。在数据传输迁移期间,采用Sqoop 等流式计算技术完成数据流同步处理,使数据能够得到即时处理。而大数据的处理不关注因果联系,只是根据数据间的关联关系进行数据处理,因此更能增强数据预处理的实时性。
2.2 数据存储管理
以往数据挖掘需要采用行存储方式,利用关系数据库系统进行多维数据模型、结构化数据等各种数据的存储,数据将被随机存储。由系统内部进行存储模式定义,导致数据存储相对被动,缺乏可扩展性,并且无法实现数据灵活管理。采用大数据挖掘技术,主要采用列存储或行存储模式,能够对结构和非结构数据进行存储。采用该种数据存储管理方法,能够使数据得到灵活存储管理,增强体系可拓展性。为保证数据一致性,同时对关系数据模型进行兼容,需要采用Spanner 系统,为同步跨数据中心复制提供支持。采用不确定关系模型进行数据存储,能够对动态数据进行直接存储。
2.3 数据计算分析
在数据计算分析方面,过去采用集中批处理方式。针对大数据,需要实现多种计算模式相融合,完成数据分布并行处理。面对多维、立体、海量数据,可以实现云平台和数据挖掘平台功能融合,促使平台分析能力和分布式并行计算能力得到增强。集成R 分析软件,能够整合传统和现有挖掘算法。在对动态图数据进行计算时,需要采用数据管理系统进行低延迟查询。针对数据流,需要运用滑动窗口模型实现概率维度索引,完成数据单次近似连续分析。实际查询数据的过程中,需要采用PigLatin 等相应查询语言,能够实现数据灵活查询。
2.4 数据挖掘展示
对采用数据挖掘算法处理得到的数据,还要进行展示。过去采用的挖掘技术仅能展示出简单数据结果集,所以只适用于数量小、关系简单的情况。针对大数据挖掘得到的信息,需采用文字、报表和可视化图形等各种方式进行模型效果展示。能够采用的图形包含饼状图、散点图、GainLift 图等,受I/O 限制,难以对多维、海量和动态数据间的联系进行反映[2]。采用人机交互方式,能够采用图像、动画等方式增强数据解释直观性,达到较好的可视化效果。现阶段,能够采用的可视化技术包含聚类分析可视化技术、宇宙星球图、标签云等,需要采用并行算法实现数据并行处理,完成高效原位分析,获得协同可视化效果。
3 结束语
大数据作为新兴事物,目前依然未能得到较好的挖掘处理。在云计算基础上,针对大数据挖掘体系架构存在的问题提出相应解决方案,采用Hadoop 平台丰富体系功能,能够实现数据信息实时处理,为用户提供有效信息资源。实际采用该方案时,需要结合数据预处理、存储、分析计算和展示需求进行技术的合理应用,继而取得良好大数据挖掘效果。