云计算技术下海量数据挖掘的实现机制
2018-05-31张菁
张 菁
(池州职业技术学院,安徽 池州 247000)
大数据时代的网络发展,云技术不断完善。本研究提出了一种云计算技术下的海量数据挖掘技术,结合海量数据挖掘的需求情况,做好资源的动态性分配,实现海量数据的高效能设计,进而在云计算数据挖掘平台上,挖掘价值性高的数据。
1 云计算及其相关技术
1.1 基于云计算的一种开源框架Hadoop
Hadoop是Apache中的一种计算机开源框架。上层结构,是在计算机任务的分布中结合Map/Reduce模式使用,实现普通机器的超大集群并发的过程。底层结构,主要是结合分布式文件的HDFS系统,通过高容错性以及吞吐量,并结合较低的成本应用,实现海量文件在普通机器集群上存储。这种Hadoop有着较快的更新速度,也有着较为广泛的应用。其是一种可扩展性相对较好的基于分布式云计算框架的应用,同时也有着一定的经济实用性,可靠性较高。
1.2 大数据处理的基础运用
(1)云环境的应用。大数据在云环境中的合理应用,不仅要通过结合组成因子间的架构体系,也要结合对因子间大小问题抽象性处理的相关架构体系,对成员的权限、公用资源进行处理,实现事件和活动的积极处理。在成员权限的处理过程中,主要是在数据流的划片和分级操作处理数据流的系统过程中,对相应的权限进行赋予。在公用处理资源时,注重云环境下信道的处理,并在信令和指挥处理机制的应用中,实现的数据处理。共同处理资源时,结合云环境中使用的处理信道,实现处理活动过程中的信息发送。在全部动态行为的接收过程中,实现对处理进度的根本描述。在指标的集合过程中,对各个因子间的行为进行根本上的协调和应用。
(2)大数据处理。应用系统的根本建设,是要做好融合式架构结构的合理应用。在客户/服务器架构的应用中,服务器主要是实现整个应用系统的一种管理和控制。在调度的过程中,实现相关程序逻辑数据的应用。客户端往往是在用户交互的输入和输出中,结合客户端服务器发出的请求对相关的任务进行完成。在实际的架构应用中,融合式的协同有着简单性的基本特点,但在实际的维护过程中,对服务器依赖性相对较强。
(3)分散式的架构应用。在系统的相关控制管理过程中,通过节点的协同控制,注重客户段模块的分散。在系统自治的实现过程中,本着灵活性和开放性的基本特点,做好数据分布存储,实现各个系统的独立处理。混合式结构在实际的应用中,通过数据信息的一致性维护,做好用户管理和信息的全面转发。
2 云计算技术下海量数据挖掘技术
现代化数据挖掘算法往往需要大量的训练过程,并做好相关数据的统计,实现求解以及模型参数的优化。海量数据中的数据挖掘,是一种分布式并行的,基于大量分布式基础数据挖掘的算法。Bhadurietal的研究表明,在对详尽的并行数据挖掘提供算法的过程中,需结合关联规则的学习分类方法,做好聚类以及流数据挖掘。
对于分布式书挖掘中的中间件库而言,其中的Mahout作为一种开源性的可扩展分布式数据挖掘,其中间件库的实现过程,实现聚类分类以及协同过滤的应用,将进化编程数据挖掘算法实现。结合高效性的运行和 Hadoop云计算的基础框架,做好云计算海量数据有效挖掘和应用,降低成本,并注重高性能的实现,全面实现电子商务的可扩展性。
3 实例分析云计算技术下海量数据挖掘的实现机制
3.1 搭建Hadoop云计算集群
Hadoop分布式云计算环境是基于高性能计算机系统,结合命名节点的形式,即Namenode。其中数据节点主要有12个,即Datanode,其中各个数据节点采用 6路四核刀片的形式。通过Linux操作系统 Redhat5.5系统结构,使用 Hadoop版本模式,注重分布式环境的部署,启动后台进程,并运行相关例程,启动集群进而实现计算的过程。
3.2 体系架构
(1)基于云计算技术下海量数据挖掘系统体系架构,如图1所示。
(2)分布式文件系统层。主要是结合Hadoop HDFS实现高可靠的分布式数据文件存储功能。在电子商务平台海量数据的分布存储过程中,实现多台计算机集群处理,并做好文件的有效性分块存储,实现容错自动分块复制功能。这种平台上的HDFS节点管理,主要是对文件系统的名字空间进行负责。在客户端文件的访问中,实现数据节点数据存储的应用,对客户端读写请求及时处理,并做好数据块的有效性创建及删除,实现数据块的基础复制。在HDFS上层分布式的计算层应用中,提供数据输入,并结合中间结果,实现数据载体,充分发挥可伸缩性的优势,在业务系统的联系阶段,实现分布式文件系统的有效性管理以及访问。
图1 云计算技术下海量数据挖掘系统体系架构
(3)分布式计算层。在MapReduce相关模式的应用里,结合分布式并行计算模型,做好数据的有效性挖掘,尽可能的结合任务分布式的形式,实现数据节点的合理调度计算,并做好海量数据的有效性处理和分析。在数据中间层,实现聚类分类的协同过滤数据挖掘算法。这种应用过程允许扩展,可对电子商务平台中的Mahout算法库进行定制,实现平台应用层业务的相关需求分析。结合服务形式,实现应用层的基础调用和分析。这种云计算平台中的Hadoop应用,将云计算中的中间件进行协调和整合。通过平台应用层的相关分析,利用基于竞价参考形式的原材料信息分析模式,实现商业智能分析,结合智能搜索.将此模式运用到电子商务中,满足电子商务的业务需求。
4 结束语
在基于Hadoop云计算技术应用下,电子商务海量数据挖掘系统的构建,及商业智能分析系统的应用,对于电子商务业务的应用发展有着积极作用,同时也能将企业商业价值提高,将企业忠诚度提高。基于Mahout技术在云计算平台Hadoop上应用,往往注重资源的整合,在云计算中间件的基础应用阶段,将平台的扩展功能实现,促进电子商务应用全面发展,并为现代化物联网的应用和发展提供高性能的动态性平台。
[参考文献]
[1] 杨波.基于云计算的作战数据存储系统研究 [J].现代电子技术,2013,(19):12-14,19.
[2] 陈旭文,黄英铭.海量视频点播系统的云计算技术与建模实现 [J].现代电子技术,2013, (14):10-12,16.
[3] 张树凡,吴新桥,曹宇,等.基于云计算的多源遥感数据服务系统研究 [J].现代电子技术,2015,(3):90-94.
[4] 丁岩,杨庆平,钱煜明,等.基于云计算的数据挖掘平台架构及其关键技术研究[J].中兴通讯技术,2013,(1):53-56,60.