基于分布式思维的云计算数据挖掘平台设计
2017-07-12任新社陈静远
任新社+陈静远
摘要:在云计算背景下,海量数据信息相互影响,对原本的关联规则形成冗余干扰,导致当前以线性思维为主导的挖掘平台受到冗余干扰的影响,挖掘效率低下。为此,在分析传统方法弊端的基础上,提出了基于分布式思维的数据挖掘平台设计方法。为了解决冗余干扰问题,设计了一种冗余消除算法,以计算区域之间的相似度,形成分布式挖掘关联。试验结果证明,这种分布式数据挖掘平台可达到数据搜索简单、快速,且降低成本的目的。
关键词:云计算;分布式思维;分布式系统;数据挖掘
DOIDOI:10.11907/rjdk.171008
中圖分类号:TP319
文献标识码:A 文章编号:1672-7800(2017)006-0094-03
1 线性思维下数据挖掘平台存在的问题
当今,每天数十亿用户的各种操作产生了海量数据信息,对这些信息的存储、处理分析与数据挖掘成为互联网的主要技术问题。当前的大型数据挖掘平台设计主要以线性数据关联规则挖掘算法为理论依据,对海量数据下的数据库中的知识进行智能化发现,是一种基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等各种技术的一系列决策过程[1-3]。
当前以线性思维为主的数据挖掘平台设计流程包括数据准备、数据挖掘、结果表达3个阶段。数据挖掘平台设计的具体步骤为:①问题定义。清晰问题、确定目标,是数据挖掘的关键一步。因其结果的无法预测性,要求挖掘人员熟悉对应的知识,使领域专家和用户明确搜索需求;②数据准备。分为数据选择、预处理和数据转换3个步骤。为提高挖掘质量,需要对数据进行再加工,根据模型处理数据;③数据关联。根据不同的数据特点和用户需求选择挖掘算法,然后选择参数和模型,最后由智能工具完成挖掘任务。通过以上分析可以看出,在线性思维下,所有关联规则均建立在一个区域内,规则为内部规则,导致关联规则建立过程不断充满最优化计算过程,效率大幅降低。
2 分布式数据挖掘平台构架设计
为了解决传统线性平台中的问题,提出一种基于分布式思维的数据挖掘平台设计方法,其架构如图1所示。
3 分布式数据挖掘平台相关软件算法设计
为解决传统的分布式数据挖掘平台的冗余干扰问题,设计了一种冗余消除算法,以对传统的数据挖掘平台设计进行优化。
3.1 冗余消除算法设计规则
冗余消除算法主要是为了消除云计算下海量数据对关联规则形成的冗余干扰。相关算法作为数据挖掘算法的一种,已被广泛应用于商业化推荐系统上。
冗余消除算法类别可分为:①基于用户的算法。根据用户的所有浏览轨迹及喜好进行评分,找出评分接近该用户的其他用户喜好进行相互推荐;②基于项目的算法。将所有用户对物品A的喜好程度作为向量,计算A与同类物品的相似度。
3.2 协同过滤相似度计算方法
以用户搜索为例,如图3所示。查全率和查准率囊括了用户对搜索广泛性和准确性的需求,据此可将数据分成推荐和不推荐。
4 实验分析与系统测试
试验环境采用4台相同配置的计算机搭建Hadoop集群,集群设备配置为:CPU为core i7-2450M 3.0GHz,操作系统为Ubuntu14.0,Hadoop 2.6.0,内存16GB,硬盘500GB。服务层的Java语言如表1所示。
4.1 实验数据集评测标准参数设计
实验选择的数据集是云计算下bookcrossing图书社区278 850个用户对271 397本图书进行的评分。评分包括显式和隐式两种方式,由Cai-Nicolas Ziegler使用爬虫程序从该图书社区采集而来。实验的评测标准除了前文提到的查全率和查准率,还使用覆盖率和平均流行标准进行评测。覆盖率标准用来描述长尾物品的发掘能力,平均流行度标准用来评测项目的新颖性,它们的公式分别为:
观察实验数据发现,查准率和查全率在相似度为5~40时呈上升并逐渐放缓的趋势,在K=40时达到最大。
引入本文算法后,查准率和查全率的指标值相差不大。查准率和查全率变化曲线如图4所示。
实验结果显示,覆盖率随着相似度K值增加而逐渐减少,减弱速度也逐渐放缓。平均流行度则随着K值变化逐渐增加,增加速度也逐渐放缓。通过实验分析发现,引入降权的改进算法中,流行度与覆盖率相较于传统平台表现一低一高,说明算法的改进提高了挖掘平台的准确程度,间接证明了推荐算法发掘数据的能力得到提升。而在适当的相似度值下,改进算法的查准率和查全率均优于传统算法。
5 结语
随着互联网信息技术的发展,对海量信息的处理是人们当前面对的最大挑战。本文针对大数据存储和处理挖掘的问题提出了构建基于云计算的分布式数据挖掘平台,使用bookcrossing数据集,在云计算平台上分别按4个指标对传统算法与引入降权的改进算法进行比较,得到改进算法发掘“长尾”项目的能力优于传统算法的结论。
参考文献:
[1]杨勇,董振江,陆平.具备云计算特性的业务交付平台及其关键技术研究[J].中兴通讯技术,2011,10(5):51-60.
[2]李改,李磊.基于矩阵分解的冗余消除算法[J].计算机工程与应用,2011,17(30):4-9.
[3]黄创光,印鉴,汪静,等.不确定近邻的协同过滤推荐算法[J].计算机学报,2010,33(8):1370-1376.
[4]樊凌.云环境下大规模多媒体数据特征重构挖掘方法[J].软件导刊,2016,15(6):176-178.
(责任编辑:黄 健)