基于Hadoop分布式架构的数据挖掘与服务系统设计
2019-05-14贾丽杜浩赵一鸣梁孝彬吴思
贾丽 杜浩 赵一鸣 梁孝彬 吴思
摘要:随着信息化技术和终端智能的迅猛发展,需要处理的数据呈现数据量大、非结构化等特点,使数据的存储、挖掘成为当前亟待解决的问题。本文基于Hadoop分布式架构设计了一套数据挖掘与服务系统,有效实现数据的分布存储、处理及深度挖掘,发挥数据的内在价值。
关键词:Hadoop;数据挖掘;分布式
中图分类号:TP311.13 文献标识码:A 文章编号:1007-9416(2019)02-0176-03
0 引言
未来数据存储规模及处理技术的发展趋势为,数据规模上,呈现指数级增长,PB级的数据存储需求在大型单位中日益增多;在数据类型上,大量非结构化数据需要被进一步处理;处理速度上,需要满足万次/秒的查询需求,并在实现以上功能的基础上保持高可靠性及高分析效率。一直以来,大规模的数据被毫无逻辑的堆砌在存储系统中,数据本身价值往往没有被深入挖掘。随着大数据技术的兴起和发展,数据的价值正在逐步体现。
1 数据挖掘现状及不足
1.1 内部数据利用价值低
大部分大中型单位在企业自身信息化建设过程中,通过ERP、CRM、SCM、BI等信息系统实现了业务数据和产品数据的收集存储,积累了大量的数据。而在通过数据挖掘提升产品性能或业务能力方面进展相对滞后,往往更借助于通过互联网或第三方数据来了解外部技术及业务发展,未能实现举一反三。相比互联网或者第三方数据,企业内部的数据与单位的属性、需求、任务、应用直接相关,其深层的价值更高。据统计,亚马逊近30%的收入来自于基于大数据相似度分析来推荐产品。
1.2 非结构化数据难以有效应用
按照产生主体分,企业数据较少一部分产生于企业应用(关系型数据库中的数据、数据仓库中的数据),更多的是人产生的数据(设计文档、图纸文件)及机器产生的数据(传感器数据、多媒体数据、RFID数据)。非结构化的信息占据了企业数据的一大部分,其中包含如三维模型、多媒体资料、表格数据、电子邮件、富文本文档(RTF)、Web网页数据、即时消息等,这些数据大多为装备(或产品)设计过程产生数据、使用过程中数据、测试数据、产品的使用说明、产品使用者在使用过程中反馈的报告等,涉及到不同数据源、不同格式及不同业务。分析非结构化数据的前提是能够采集、存儲、解析,其处理方式与基于关系型数据库的结构化数据处理方式有显着的差异[1]。
1.3 数据可视化管理要求越来越高
通过所见即所得,可以更快的发现、定位、解决问题,提高运行效率;管理科学化,变被动为主动,实现精细化管理,进一步丰富管理手段;集中化减少现场值守人员、可远程管理维护,降低了人力投入;直观显示能耗状况及能源消耗分布,可降本增效,增强了控制能源消耗。一旦实现可视化,所呈现出的数据,是以前站在现实机房都是无法看到也无法感受的。越来越多的管理者提出了数据可视化的需求,因为这些采用不同的颜色、图像逐一展现的表达,将为提高工作效率、降低成本、加强管理提供帮助。
2 未来数据挖掘技术的发展趋势
2.1 数据存储规模增大
数据存储面临的问题是当前硬盘采用的垂直磁记录技术推出多年,已经“老态龙钟”。尽管该技术可以将大量信息压缩进很小的磁盘空间,不过还是没有办法再提升数据存储密度。目前的大数据主要存储于由标准软硬件组成的传统磁盘存储阵列,同步性能差,效率低下。随着数据量的攀升以及随之而来的对于信息处理的需求增加,大中型单位将不得不战略性地思考如何长远地管理数据[2]。
2.2 数据处理计算技术涌现
大数据处理有以下三个基本的解决途径:
(1)降低计算复杂度。当数据规模增长到PB级时,现有的线性或多项式复杂度的机器学习和数据挖掘算法将花费难以接受的时间开销。利用传统的SQL语言实现一次PB级大数据的复杂查询有可能需要几个小时甚至引起系统崩溃。因此,需要寻找新的复杂度更低的算法。
(2)降低数据量级。在保证精度的前提下,利用样本数据抽样来完成数据的处理。
(3)并行处理。在一个大规模平台上完成数据的分布式存储和并行计算,既解决了数据的存储问题,也具有较高的计算效率。
2.3 数据挖掘计算模式突出
随着大数据处理应用需求急剧增长,更加优化的计算模式和工具平台被不断推出。目前主要有基于Hadoop的性能提升及混合式大数据计算模式。一方面,Hadoop已发展成为目前最主流的大数据处理平台,Hadoop结合虚拟化技术、云计算技术的应用促进了其性能的提升,增加了其对不同问题的适用性。另一方面,采用混合计算模式,如MapReduce与GPU-CUDA的混合,或MapReduce 集群与OpenMP/MPI的混合等[3-4],解决了对不同类型、不同特性的数据计算应用需求。
3 数据挖掘与服务系统总体架构设计
结合业务数据特点,数据挖掘系统采用基于Hadoop分布式的分层结构,整个架构分为五层和两个体系,即基础设施层、服务层、应用层及用户层,信息安全体系和运营管理体系,如图1所示。
(1)基础设施层。基础设施层包括系统的基础硬件、Hadoop存储、虚拟化及资源池化、自动化资源调度和管理等模块。其中,系统基础硬件包含网络、服务器、存储等以及系统配套硬件;Hadoop存储包含元数据服务和数据存储服务;虚拟化与资源池化层包含对服务器、存储及网络的虚拟化处理,通过云平台,对外提供运行环境;资源调度和管理自动化实现物力资源和虚拟资源的监控,提供自动化部署、弹性扩展、负载均衡、动态迁移、按需供给等功能,是实现云计算的核心。
(2)服务层。服务层提供基于Hadoop平台的软件支撑服务,包括数据的查询、浏览、统计、分析、决策等。提供云状态服务,可以根据用户需求进行功能的定制、裁剪及扩展。以图形、表格和虚拟化相结合的方式,直观、准确、动态地展示业务部门各个方面的信息,实现数据资源状况“一览无余”。
(3)應用层。应用层是基于Hadoop平台对外提供的终端服务,即数据挖掘服务,可以划分为基础应用和专业服务。基础应用即统一的门户登录、统一接口等功能,专业服务主要指的是通过关联分析、分类分析、聚类分析、序列分析、偏差检测分析、实时预测分析、模式相似性分析等挖掘算法来实现业务数据的最大价值化。
(4)用户层。用户层即本系统的各类使用者,主要包括部门领导用户、各项业务用户及系统管理用户。
(5)信息安全体系。信息安全体系在物理环境、数据信息,网络安全、应用安全等方面制定了严格的安全策略,确保数据不会被篡改、攻击、丢失。
(6)运营管理体系。运营管理体系为系统的正常运行提供管理流程接口及业务数据支撑。
4 软件功能设计
本系统基于Hadoop的分布式架构来实现数据的挖掘与服务,系统整体分为Hadoop模块、数据存储管理模块、数据预处理模块、数据网络挖掘模块及可视化综合管理模块,如图2所示。
Hadoop主要核心由两部分组成,即HDFS分布式文件系统和MapReduce并行计算框架。通过HDFS来实现对分布式存储的底层支持,并通过MapReduce运行框架来实现并行运算。因此针对部门装备生命周期相关的数据,应先进行特定的规则筛选,并将筛选整理后的结果以Hadoop的文件格式存储至分布式文件系统中[5]。
数据存储管理模块,是针对各部门现有数据,采用hadoop分布式架构构建的部门数据管理系统,此系统对装备生命周期数据赋予时间信息,使部门或集团数据形成高效的自动关联机制,从而实现海量业务数据快速有效的组织与管理。
数据预处理模块执行设备数据清理、数据集成等操作,将噪声数据处理掉,为数据挖掘过程准备结构良好、格式标准的数据。
数据挖掘模块结合数据挖掘应用服务需求,利用聚类分析算法中的K-means算法,SPRINT并行算法等,建立面向应用数据的多维度深度关联模式,利用数据多维关联模型的目标关联、网格编码关联、时间关联、事件关联等,实现数据之间的多维度、多层级深度关联,为面向应用的数据高效服务保障奠定基础。
可视化综合管理模块在一定程度上把分立系统的不同功能有效地组织起来,结合服务化设计思想和信息安全等先进技术实现数据及应用层面的集成,为用户提供一个统一的应用服务功能入口。实现系统用户权限管理、日志及监控管理、数据资源管理及可视化调度、网络管理等功能。
5 系统设计优势
5.1 高性能
采用Hadoop架构平台,可以实现类型复杂、数量庞杂的数据不同深度不同层次的数据挖掘,处理维度更加广泛,而且数据挖掘结果可以通用接口提供给其他应用。Hadoop集群具有高可扩展性,随着集群规模的增长,其计算能力也随之成倍增长。
5.2 高可扩展性
Hadoop架构是在计算机集簇间动态分配数据并完成并行计算任务的,这些集簇可以扩展到上万台节点来完成海量数据的存储,并且各个节点之间可以动态地迁移数据确保平衡,处理速度快,扩展性强。
5.3 成本效益
传统的数据存储与分析中心在数据量增大时,往往是通过硬件的扩容、服务节点的增加来实现,往往成本较高且规模庞大。而Hadoop可以通过扩展其存储空间来完成数据存储,以很低的成本来完成高可靠的存储及高容错性的数据计算,降低用户的经济成本。
5.4 多维度、多深度关联性
Hadoop体系中的HBase非常适合于非结构化数据存储,HBase中没有表与表之间关联查询,可快速将现有业务数据进行有效关联,并构建动态索引大表,使海量数据实现深度关联。
6 结语
本文基于Hadoop分布式架构设计了一套数据挖掘与服务系统,可实现海量结构与非结构数据的采集、存储、处理及深层次挖掘,为数据的高效组织、管理及利用提供了有效的技术途径。
参考文献
[1] 柏秋云.大数据的价值与挑战[J].科技信息,2013(17):479.
[2] 孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013,50(1):146-169.
[3] 李建中,刘显敏.大数据的一个重要方面:数据可用性[J].计算机研究与发展,2013,50(6):1147-1162.
[4] 曹小阳.基于云计算的大数据挖掘内涵及解决方案研究[J].数字技术与应用,2017(11):108-112.
[5] 袁春园.基于Hadoop云计算平台的数据挖掘分析[J].信息与电脑(理论版),2015(15):58-59.
Design of Data Mining and Service System Based on Hadoop Distributed Architecture
JIA Li,DU Hao,ZHAO Yi-Ming,LIANG Xiao-bin,WU Si
(China Academy Of Launch Vehicle Technology,Beijing 100076)
Abstract:With the rapid development of information and intelligent terminal technology, the data needed to be processed has grown enormously. How to store and mine the massive data become more essential at present. This article solves the problem of massive data storing, sharing and mining by building cluster system on the basis of Hadoop,and can bring the intrinsic value of data into play.
Key words:Hadoop; data mining; distributed architecture