APP下载

机器学习算法在数据挖掘中的应用研究

2019-04-19

数字通信世界 2019年3期
关键词:商圈类别数据挖掘

郭 皓

(河南联通,郑州 450000)

数据挖掘技术能够促进社会的科学技术快速发展,增强人们对信息处理的能力,在信息化时代中发挥着不可替代的作用,不仅能降低数据管理成本,也能增进彼此沟通的效率。但数据挖掘技术因自身的数据处理能力受到影响,导致数据分析也越加困难,尤其是在面对海量数据信息时,数据挖掘技术就显得相当吃力。机器学习算法作为一门交叉学科,利用计算机模拟人类行为,自动获取新的知识和技能,并且对原有的知识结构体系进行改进与优化,机器学习也是人工智能的核心功能,可以保证计算机的智能发展,将机器学习算法在数据挖掘中进行应用能够比常规的BP神经网络诊断模型具有更好的准确率,且诊断率也会更高。

1 数据挖掘技术

随着移动终端的普及,手机用户时间序列的手机定位数据,映射到现实的地理空间位置,即可完整、客观地还原出手机用户的现实活动轨迹,从而挖掘出人口空间分布与活动联系的特征信息。通过机器学习,结合特有的一些特征,通过大数据倒入识别出来的有用信息,对用户数据关键信息进行识别,并自动归类,比如基于位置信息等类似归类。例如从不同纬度,比如基于位置信息可以有效总结出:地区发展情况,用户偏好区域,不同商场用户行为各自特点,用户主要居住区域分布,这些信息能提供给政府、商场运营者、房地产商、投资者一定的参考价值。在现阶段,我国的移动应用以及相关服务正在不断的发展与完善,目前全球已经逐渐进入到大数据时代。根据相关调查资料显示,2015年全球大数据技术的市场规模增长率将达到31.7%,大数据的市场发展规模高达115.9亿元,增速超过30%。

例如在研究基于基站定位数据的商圈分析这一案例时,主要的目标如下:

(1)对用户的历史定位数据,采用数据挖掘技术,对基站进行分群。

(2)对不同的商圈分群进行特征分析,比较不同商圈类别的价值,选择合适的区域进行运营商的促销活动。

项目分析建模过程如下:

(1)从移动通信运营商提供的特定接口上解析、处理、并滤除用户属性后得到用户定位数据。

(2)以单个用户为例,进行数据探索分析,研究在不同基站的停留时间,并进一步地进行预处理,包括数据规约和数据变换。

(3)利用已完成的数据预处理的建模数据,基于基站覆盖范围区域的人流特征进行商圈聚类,对各个商圈分群进行特征分析,选择适合的区域进行运营商的促销活动。

本例设计工作日上班时间人均停留时间、凌晨人均停留时间、周末人均停留时间和日均人流量作为基站覆盖范围区域的人流特征。结果如下:

(1)对样本数据进行数量级规约,使用离差标准化方法(图1);

(2)使用scipy中的层次聚类方法对数据进行聚类,画出谱系聚类图(图2);

(3)使用sklearn中的层次聚类方法对数据进行聚类,并将分类结果画出来(图3,4,5)。

由图分析可知,图1的商圈类别为商业区,图2的商圈类别为住宅区,图3的商业类别为工作区,商圈类别一的人流量大,在这样的商业区有利于进行运营商的促销活动。

2 改进BP神经网络的方式

为了能够提高BP神经网络的整体运算性能,必须要加强对遗传算法的染色体结构和遗传算子进行优化自适应交叉变异概率以及自适应等相关的内容,可以保证BP神经网络的结构和初始权重得到提升。首先将染色体的结构设计进行优化,把染色体的基因分成上下两层结构,并且上层结构为控制基因,下层结构为参数基因。另外要恰当的选择算子,由于遗传型BP神经网络算法进行优化与改进,这样就要求算子的选取必须要按照常规是硬直的比例算法来选取,寻求局部最优。自适应交叉变异的概率设计能够保证BP神经网络的结构和初始权重得到更加的平衡[3]。

3 结束语

本文对机器学习算法中人工神经网络算法在数据挖掘中的实际应用情况进行了深入的研究,并且改进常规遗传算法的方式来增强对数据挖掘的整体质量,保证了数据挖掘处理的实际效果。

猜你喜欢

商圈类别数据挖掘
打造世界级文旅窗口 构建千亿级黄金商圈
机器学习在商圈运用管理中的应用
探讨人工智能与数据挖掘发展趋势
数据挖掘技术在打击倒卖OBU逃费中的应用浅析
壮字喃字同形字的三种类别及简要分析
农产品电商圈的“乌托邦”
西夏刻本中小装饰的类别及流变
商圈档案
多类别复合资源的空间匹配
中医类别全科医师培养模式的探讨