大数据平台聚类分析系统的设计
2022-09-09符春
符春
(长沙民政职业技术学院 湖南省长沙市 410004)
近年来,受众需求日益多元化,要想实现供需平衡,实现低成本、高效率的大数据平台应用目标,务必落实聚类分析系统优化工作,从而缩小服务范围,确保提供的服务内容与大数据平台聚类分析系统需求相对应。基于此,高度重视大数据平台聚类分析系统的设计,与时俱进创新设计思路、调整设计方案,结合系统实际需求选择适合的设计方案,最终优化大数据平台聚类分析系统设计效果。
1 大数据的技术类型及特征
大数据概念从字面来看,即无法通过陈规操作技术处理,只能借助先进技术处理的数据。从应用层面进行概念分析,即用于处理海量数据的高新技术的总称。大数据技术属于现代化数据现象,它是信息网络技术发展的产物,形成的新数据现象。大数据技术类型与特征分析如下:
1.1 技术类型
大数据自身包括结构化、非结构化两种,其中大数据技术多样化,技术类型丰富,如Hadoop 技术、Hive 技术、Spark 技术等,这有利于完善技术生态,还能为技术实践提供可靠支持。不同大数据技术在功能、特点等方面存在差异,所形成的数据集能够为决策制定提供参考,更好地服务于生产生活,推动社会进步。
1.2 技术特征
大数据技术具有数量多、种类多、快速处理、低价值密度等特征,对于多量性,以PB 级单位统计日志数据,所采集、存储、计算的信息量和数据量巨大;对于多种类,即数据信息以图片、视频、日志等形式展示,满足数据信息高效利用需求,增强大数据技术适用性;对于快速性,从数据快速增长、数据转型升级等方面表现,数据时效性得到保证后,能够提高数据参考价值;对于低价值密度,指从巨大数据量中提取价值信息,应以较高时间成本和经济成本为代价,并在机器算法的支持下提取价值信息。
当前,大数据技术日趋成熟,且已形成完整化、操作性强的数据处理方案。大数据技术快速发展的同时,大数据技术更加丰富,大数据技术实用性显著增强。虽然大数据不再属于新兴技术,但大数据热度较高,如聚类分析系统设计环节仍需要大数据技术支撑。基于此,本文围绕大数据平台分析聚类分析系统设计要点。
2 聚类分析系统基本介绍
聚类分析指的是,确定定性标准,明确划分依据,据此完成数据对象到子集的细分任务。进一步分析可知,物理、抽象的数据对象集合转变为相似类或者簇,基于此,高度相似性的对象会被纳入同一簇,相似性偏低的会被分为不同簇。概括而言,聚类的目的是缺乏传统经验的状态下,以数据的相似性为依据,将庞大的数据聚合至各个簇或者类中,目的是保证同一簇中数据特征的相似性,以及不同簇中数据特征的差异性。下文从聚类分析系统内容和类型两方面进行介绍,掌握该系统出现的背景、作用,为系统设计拓展思路。同时,具体分析AP 算法、K-Means 聚类、Mean Shift 聚类、CLIQUE 算法,为后续实验比较起到铺垫作用,确保聚类分析系统设计工作有计划、有目标地进行,确保划分聚类算法在聚类分析系统设计中有效应用。
2.1 内容
聚类分析系统是大数据时代发展的产物,聚类分析系统在需求引导下进行任务创建、系统设计、系统应用,使系统的服务效用最大化彰显,实现系统稳定运行、有效投用。当前,聚类分析系统用于数据挖掘、数据对比,从中提取相似特征,为群集、分类提供依据。随着数据需求的显现,聚类分析系统实践目的明确化,当聚类分析需求与聚类分析系统实践相对应,能够挖掘数据价值,最终制定合理化、科学化决策。
2.2 分类
从聚类算法视角来看,算法分类不同,所以聚类目标存在差异,聚类分析系统应用范围不尽相同。常见AP 算法、K-Means 聚类、Mean Shift 聚类、CLIQUE 算法,K-Means聚类即所输入数据点与聚类中心点的距离最小化,具有性能强、计算速度快、结果分布良好、结果参考价值高等优点;Mean Shift 聚类的目标倾向于密度聚类目标,其操作步骤即根据兴趣区域内数据密度变化,得知中心点漂移向量,之后移向中心点,通过迭代运算进入密度区,所输入数据均经过上述步骤;CLIQUE 算法通过预设阈值将网格单元分为稀疏类、稠密类。除此之外,还包括划分聚类方法,典型算法为KM 划分聚类算法,它在规模化数据处理中发挥作用,即围绕簇质心进行明确、更新,同时,被处理数据存储到缓存区域、外存区域,使聚类处理工作有效进行。
3 大数据平台聚类分析系统流程及需求
聚类分析系统基于大数据平台进行应用,在此期间,应快速、有效突破数据价值挖掘的瓶颈,对此充分利用高科技信息手段制定决策,据此优化聚类分析系统,提高该系统实用性,使聚类分析系统基于大数据平台实现功能优化、创造性应用的良性循环。大数据平台聚类分析系统利用计算机高新技术手段对数据信息进行深度挖掘,计算分析获得需要的、有效的数据信息辅助决策。本系统借助大数据平台在海量数据处理方面具备一定优势,以大数据平台为基础,设计并实现聚类数据分析系统,满足数据源数据采集、数据存储、数据预处理,以便将数据转变成计算机可识别形式,与此同时,运行系统计算分析数据,对结果可视化。
3.1 系统流程
用户选择并确定聚类样本,接下来获取行为向量,并分析行为向量的间距,据此判断用户相似度。向量获取后,针对向量降维,之后算法聚类,得出聚类结果。参照核心指标进行离线大数据计算,得出cluster 核心指标,并可视化展示。最后由用户落实人工二次标注,通过聚合计算再次可视化展示。大数据平台聚类分析系统流程优化,能够快速、准确捕捉系统需求,为系统设计指明方向,真正提高系统有效性。此外,还能为日后大数据技术与聚类分析系统融合奠定基础,实现前瞻性预测、准确决策。
3.2 系统需求
大数据平台聚类分析系统的应用,以需求为导向,同时根据系统应用需求进行系统优化,更好地满足新时代发展需求,确保大数据平台聚类分析系统价值化应用。网络信息时代到来后,用户的网络浏览足迹不同,不同足迹对应不同行为,这是人群聚类的前提条件。对于策略制定者来说,能够根据聚类分析结果分层制定发展战略,更好地满足人群需求,使大数据平台聚类分析系统供需平衡。当确定系统目标群体时,需要工作人员协作,并且细化聚类人群条件,在信息提取、成本控制等方面做足充分准备。对此,选定人群、K 值聚类、直观掌握聚类分布情况、聚类数量标注、聚合分析、自由调度。
具体分析系统需求,根据大数据平台聚类分析系统应用流程进行需求定位,即逐层分析展示环节、调度环节、计算环节、聚类环节的系统需求。展示环节大数据平台聚类分析系统功能包括登录界面账号及密码输入,根据用户登录后的操作行为进行人群划分,掌握不同用户的操作要点,根据足迹信息定位用户需求。其中,大数据平台聚类分析系统能够自动化操作,如聚类分析、聚合、聚类计算、展示等,一定程度上减少人为工作量,为后续调度功能需求定位起到铺垫作用。接下来,响应界面展示请求,并针对聚类任务调度分析,更好地满足用户需求。大数据平台聚类分析系统的任务调度,从调度频次、调度能力等方面进行衡量,对此设置权限控制体系,人群条件、存储条件等合理化设置,且任务流程优化,全面掌握聚类任务执行情况。大数据计算期间,以数据集、结果集为依据,根据用户具体需求进行计算。计算功能效用发挥时,充分利用聚类系统资源,增强系统拓展性、稳定性,从而保证大数据计算准确性,实现低成本、高效维护等目标。大数据平台聚类分析的过程中,基于用户直观获取需求、页面展示需求适当降低维度,更好地满足用户需求。
4 大数据平台聚类分析系统设计
网络信息时代到来后,大数据技术动态创新,这为大数据平台聚类分析提供技术支撑。为动态掌握用户需求,使大数据平台聚类分析工作价值化落实,应精心设计系统,通过发挥系统优势科学制定发展决策。大数据平台聚类分析系统的设计工作包括架构设计、详细设计,当设计工作具体落实,最大化彰显功能效用。
4.1 架构设计
聚类系统功能架构设计期间,设计人员优化架构,提高系统操作的便捷效能,并为系统维护提供条件,确保系统合理化、有效化应用。架构包括聚类任务架构、标注及聚合架构,得出指标数据,用于分析用户行为。员工登录后,显示并确认身份信息,接下来存档,为后续自动登录省去复杂步骤。聚类任务构建、编辑等操作规范化进行。设计后的聚类任务包括名称、次数、权限等,基于标注展开后续分析。除了系统功能架构精心设计外,系统技术架构设计仍要具体化,最大化发挥技术优势,即展示环节、调度环节、聚类环节、计算环节的技术支撑,具体设计要点如下:
展示环节技术设计要点,即用户与界面交互,包括聚类任务展示、聚类结果展示,设计过程中细致分析用户行为,通过数据获取、数据传递,在界面展示设计阶段提供新的思路,从而展现具有美感的系统界面,为用户带来良好体验。调度环节技术设计要点,技术架构设计期间,动态获取调度请求,据此优化数据、整合数据,通过用户与调度系统交互,提高系统运行效率,顺利完成人机交互任务,为人群聚类提供便利条件。算法聚类模块的技术设计,基于K-Means 聚类分析,围绕用户设置的K 值聚类分析,将相似特征的聚为一类,得出数据信息,为后续计算提供依据,得到计算指标。计算环节技术设计要点,即围绕数据仓库体系调整计算方式,根据预设层级顺利计算,得出准确的计算结果。
4.2 详细设计
大数据平台聚类分析系统包括多个模块,围绕具体模块进行设计,保证系统的实用性。聚类分析系统设计期间,通信方案的设计工作必不可少。
对于展示通信方案与调度通信方案的具体设计,需要设计人员创新思想、改变方法,在数据信息传输、信息设备接收等方面做足准备,保证信息安全性。为提高数据信息的参考价值,运用以太网数据连接方式,实现数据信息完整获取、安全传输、有效利用。通信过程中,系统针对信息请求逐一回应,虽然请求主体多元、请求内容多样,服务器仍会按照时间序列给予应答。为避免通信请求被篡改,基于HTTPS 协议完成通信,顺利实现数据传输任务;SSL 协议、TLS 协议分别在数据通信中提供支持,助力于聚类分析系统的模块设计。HTTPS 设计环节,数据传输遵循一定步骤,包括网址获取、网址登录,接下来申请数字证书,保证信息完整性和真实性。服务器根据需求变化显示详细信息,使大数据聚类分析系统有效运行。通信双方传输数据的过程中,通过对称加密保证数据信息安全,丰富用户体验。
对于调度通信方案与计算通信方案的具体设计,需要设置目录,根据人群聚类情况向目录传递信息,从而展示聚类任务执行情况。聚类分析系统用于大数据平台,为彰显系统的积极作用,在调度通信方案与计算通信方案的设计环节周期性检测目录,根据检测结果调整设计方案,更好地指导系统实践,服务于大数据平台建设与运行。调度通信方案设计阶段封装接口,目的是全过程掌握实例状态,并动态优化流程。除此之外,借助消息队列进行通信,信息传输者与接收者约定好数据格式,指定特定的key,同时,参与者高度重视数据信息,动态掌握信息情况。
对于调度通信方案与计算模块通信方案的具体设计,设计人员既要掌握交互需求,又要准确计算,顺利完成计算任务。在这一过程中,应事先规划,并拓展思路,实现数据信息共享。设计期间,遵循便捷化、易操作等原则,调整计算逻辑,根据协议内容顺利完成数据信息传输。
4.3 设计目标
从功能性目标、非功能性目标两方面进行分析。对于功能性目标,包括云计算环境、面向服务开放式体系架构、多源异构数据集成、数据云存储管理、Web 分析建模、数据融合处理、结果可视化、数据质量监控、资源调度与管理等具体设计。其中,环境设计期间,云计算环境包括云存储、云资源调度与管理、云计算编程模型、云计算执行引擎等,支持全流程分布式并行与开发。架构设计期间,针对插件式开发与数据集成进行具体设计,创设满足拓展需求的系统环境。数据集成设计期间,围绕系统数据集成接口与采集接口集成进行精心设计。管理设计阶段,基于常用操作(数据快速查询、数据索引和数据提取等)完成云存储及管理设计。Web 分析建模设计目标,即建立数据建模系统,基于数据分析模型实现在线编辑。融合处理设计目标,主要围绕音频、视频、结构化等数据系统化处理,基于大数据分析环境,尊重场景差异,客观分析数据分析反馈质量需求。结果可视化设计目标,以网页结合、可视化工具运用等方式展示分析结果数据。数据质量管控设计目标,动态优化数据监管体系,充分利用监管数据,据此实现系统操作化操作、稳定性运行。资源调度与管理设计目标,即数据间紧密联系。对于非功能性目标,目的是实现数据交互共享、系统协作、服务创新、数据质量优化的目标。
4.4 总体设计
(1)分析数据来源。大数据技术在各行业广泛应用,聚类分析系统设计的首要步骤,即设计受众数据来源,这是数据分析、决策制定的关键。
(2)设计受众数据来源特征。当前数据信息量丰富,为保证数据实时性、高价值等需求,在设计环节把握受众数据来源特征。
(3)系统各模块设计。数据采集模块、数据存储模块、数据分析模块、结果可视化展示模块具体设计。
5 实验分析
5.1 基于UCI数据集的聚类实验
为证明上述设计具有实用性,围绕UCI 数据集的数据信息展开聚类实验,其中规模、属性维度、类别数的数据集信息归纳为:bupa、haber-man、iris、diab-etes、hayes-roth、heart-statlog、page-blocks 的规模分别 是350、300、148、765、155、274、5362;属性维度分别是4、3、5、7、6、12、11;类别数分别是2、2、2、3、2、1、4。评价指标选为F-Measure 和T,当运用AP 算法和KM 算法时,聚类结果如表1 所示。
表1 :AP 算法和KM 算法的聚类结果对比
分析表格数据可知,AP 算法bupa、haber-man、iris、diab-etes、hayes-roth、heart-statlog 的F-Measure 指标分别为0.6338、0.5021、0.5938、0.6337、0.4523、0.6423,相对而言,低于KM 算法数据集的F-Measure 指标,KM 算法bupa、
haber-man、iris、diab-etes、hayes-roth、heart-statlog、pageblocks 的F-Measure 指标分别为0.6754、0.5574、0.7033、0.6436、0.5623、0.5884、0.7758。AP 算法bupa、haberman、iris、diab-etes、hayes-roth、heart-statlog、的T/s 指标分别为2.4841、2.0147、0.5796、11.6395、0.7023、1.5697,KM 算法数据集各项T/s 指标为0.0028、0.0042、0.0041、0.0074、0.0023、0.0064、0.0965,时间明显减少。
本文基于大数据平台设计聚类分析系统,划分聚类方法的数据集F-Measure 指标——bupa、haber-man、iris、diabetes、hayes-roth、heart-statlog、page-blocks 分别是0.6615、0.7255、0.7435、0.6650、0.5756、0.6632、0.8265,高于KM 算法数据集F-Measure 指标;T/s 指标——bupa、haberman、iris、diab-etes、hayes-roth、heart-statlog、page-blocks分别是0.0031、0.0039、0.0045、0.0078、0.0028、0.0067、0.0989。可见本文算法在速度指标方面,与KM 算法的速度相当。
综合来看,UCI 数据集上的大数据平台聚类分析系统设计具有实用性和有效性,日后设计工作能够以此为借鉴,进一步优化聚类分析系统,真正为决策合理化、科学化制定提供依据。
5.2 基于大数据集的聚类实验
在大数据集上分析聚类分析系统设计的聚类效果,数据集规模控制在2500 之内。从上述算法比较中可知,AP 算法的时间长、伸缩性差,所以在大数据处理方面的利用率较低。基于此,比较分析KM 算法和文中聚类分析系统划分聚类方法,表2 围绕F-Measure、T/s 进行比较。
表2 :KM 算法与本文方法的对比实验
分析表格数据可知,本文算法的F-Measure 均达到1.0000,KM 算法的F-Measure 小于1;KM 算法的T/s 指标在0.0654 和55.2364 之间,本文算法的T/s 最小为0.1908,最大为143.8062。KM 算法在大数据平台聚类分析系统设计中虽然有良好性能,但个别数据的F-Measure 指标和T/s 指标未显示。相对比而言,本文算法的实用性较强,其聚类效果良好,使聚类分析系统价值化应用。
6 结论
综上所述,大数据时代悄然而至,在这一时代背景下,聚类分析系统的实效性被提出较高要求,从系统设计角度切入,通过分析设计需求,掌握架构设计和技术设计要点。并以实验方式证明本文算法用于大数据平台聚类分析系统设计的实用性,为日后算法推广奠定基础,最终提高聚类分析系统利用率,更好地服务于决策制定和经营管理。放眼长远,大数据平台聚类分析系统动态改进、全面优化,需要设计人员创新思路、调整方法,最大化发挥聚类分析系统优势。