基于分布式思维的云计算数据挖掘平台设计
2022-12-18王哲,赵爽
王 哲,赵 爽
(铁法煤业集团大数据运营有限责任公司,辽宁 铁岭 112700)
引言
云计算技术应用价值较高,具有灵活性的特点。但海量数据之间会产生相互干扰,影响了既定的关联原则,需要提出一种基于分布式自适应的云计算数据挖掘算法,提高挖掘精度,改善传统算法中存在的问题,完善仿真实验性能[1]。
1 线性思维下数据挖掘平台存在的问题分析
目前,我国处于信息化时代,使用互联网、移动设备端查询信息会产生较多浏览痕迹、数据等,如何存储、处理及挖掘数据是重要的技术问题。线性数据关联规则挖掘算法是数据挖掘平台设计的理论基础,需要运用智能化方式处理数据库中的信息,运用可视化技术、统计学知识、数据库技术、模糊识别、深度学习、机器学习和人工智能等多种领域的知识解决一系列的决策问题。
以线性思维为主的数据挖掘平台的设计流程主要包含结果表达、数据挖掘及准备数据三个过程。数据挖掘平台的建立主要分为三个步骤,首先,应确定平台建立目标及搜集信息的方向,为寻找数据挖掘渠道、数据处理方式做铺垫。实验结果具有不可预测性的特征,技术人员需要熟练掌握相关知识,使得相关领域的用户及专家明确搜索需求。其次,需要做好数据准备工作,主要包括选择数据、预处理数据和转化数据三个关键步骤。可以通过对数据的再加工策略提高数据挖掘质量,通过分析数据的种类,运用数学模型进行数据重建对比。再次,需要建立数据之间的关联性,通过对比分析得到多组数据的共同点,结合用户浏览信息、实际需求及潜在需求,使用算法寻找特定的模型,创建数据挖掘模型。利用智能化工具完成最终的挖掘任务。由此可见,在线性思维情况下,选择某组数据进行测试时应尝试所有可能的方式,该组数据适宜的关联规则在计算过程中逐渐与原本的关联规则违背,在寻求最优化解决方案时,计算效率较低。
2 分布式数据挖掘平台结构设计分析
云计算互联网平台主要有两个参与主体,包括云和端,可以摆脱原有架构的局限性,简化网站操作人员及访问人员的操作步骤,创造出更大价值[2]。
2.1 内容分发网络实现云计算的技术流派
分配内容网络能够避免受到互联网中可能会对数据传输稳定性造成影响的缓解,筛选出核心内容,将其传递到核心节点中,提高内容传输过程的稳定性。从商业角度出发,CDN 即批发即零售带宽及柜机资源的过程。为了降低系统的压力值,需要在互联网的节点处添加新资源,使得CDN 厂商能够从此处承包,也可以从各地IDC 处用优惠的价格批发各种资源,再用零售价格卖给用户,利润空间较大。分配内容网络能够有效突破性能平静,确保分发内容的稳定性与可靠性。
2.2 DNS 网关级别的超级代理
为了管理大量网站信息,云计算平台可以通过DNS 的智能切换技术,在使用较为普遍的CS 结构两侧使用智能化技术,提高操作过程的智能化水平,优化操作结构,缩短操作反应实践,创建出新一代的云计算互联网应用平台。此外,运用云计算的方式可以创建出DNS 服务器集群,具有较大使用价值。
2.3 网站访问日志分析
每个网站都会自主管理自己的日志访问记录信息,需要提升其规范性。通常情况下,一条标准日志的标准形式为“源地址—访问时间—访问形式—网址名称—访问类型—浏览器类型—操作系统内容—目的操作地址”。可以创建出一个数据仓库,在其中存放所有网站及用户的访问信息,完成数据挖掘任务,革新分配内容形式。网站会分析用户的网络行为特点,制定出相应的查询及反馈模式,增强数据结构性能,提高系统工作效率。
2.4 网站内容的动态分发
除了超级大网,普通网站性能会随地域特点产生变化,可以根据用户所处地理位置信息将内容分配到代理处。在完成分配任务之后,会基于云计算的方式部署互联网,访问最近的地址,缩短用户的访问等待时间,提高用户使用互联网的效率。
2.5 根据用户行为进行智能调度
数据仓库中储存着大量的用户行为特征信息。超级代理的架构将用户的行为特点作为搜索索引,避免运用DNS 解析用户访问过程,只有经过多次跳转之后才可以访问目标网站。网络用户访问网站具有固定性,总数量较少,可以将其操作行为作为重要依据,设计出智能调度和分配机制,提高访问速度,增强网站的最大承受能力,丰富网站功能,给用户带来良好的体验感[3]。
3 分布式数据挖掘平台中相关软件算法设计分析
冗余消除算法可对数据进行分类处理,消除传统算法中数据挖掘平台信息存在多余、种类繁杂或无关性、干扰性较强等情况,优化传统算法下建立的数据挖掘平台的不足之处。
3.1 冗余消除算法的设计规则分析
冗余消除算法能够消除在云计算方式下由于数据关联性而产生的冗余干扰,在商业化推荐系统中具有重要价值。首先,基于用户的冗余消除算法需要对用户的日常浏览信息进行收集,判断用户个人需求并进行评分,使得同等分值之间的用户需求共享推荐。其次,基于相互的冗余消除算法会将所有用户浏览商品、购买商品次数作为判断其对商品的喜好程度,并推荐类似商品,计算该商品种类中,用户喜好商品与其他的相似程度。
3.2 协同过滤相似度计算方法
使用向量模型计算出数据的相似程度,计算出向量之间的距离,根据远近成都判断相似度高低。为了判断关联程度,可以计算出两个向量的相关关系。对于稀疏性较高的用户,该矩阵的精确程度较低,难以达到理想效果,可以运用余弦相似度算法解决此类问题。
3.3 冗余消除过程设计
若计算结果较为相似,可分析数据的计算过程及初始数据是否存在相似部分,给每个变量分配一定权重,设置调和参数。平均绝对误差是衡量用户实际数值和测量值之间的绝对误差水平,是重要的冗余消除算法评判标准之一。命中率标准包括查准率和查全率,网络数据分为推荐和不推荐两个部分。以用户搜索查找商品为例,搜索引擎中输入的是全类商品或精准到某品牌、某款式,代表着该用户对于同类商品的需求程度和该种商品的喜好,反映其对于数据查找的广泛性和搜索精准性的需要,依据此可选择是否推荐同类商品,若精准性需求较高,则不建议推荐。在选择算法的过程中,可积极引入新式算法降低权重,提高数据挖掘平台的精确度,使其分析数据能力提升。
4 结语
互联网信息技术处于不断发展过程中,如何处理海量数据信息是重大难题。可以基于大数据处理技术建立起数据处理与挖掘平台,使用bookcrossing 数据集进行测试,运用奖券的方式改进传统算法模型,增强改进后算法的计算能力,使其贴合现代社会需求,更加便捷化、智能化。