APP下载

数据挖掘中机器学习的应用

2019-11-30周旭

电子技术与软件工程 2019年7期
关键词:经纬度栅格正方形

文/周旭

随着互联网时代的发展,互联网数据量剧增,催生了关于数据研究的很多个方向,其中,数据挖掘就是关于数据处理的新方向。数据挖掘是关于数据和信息决策的前沿方向,从实质上看,数据挖掘就是指在数据中发现隐藏的,人们事先不知道的,但是又具有潜在价值的信息的过程。目前,数据挖掘在商业领域的应用比较广泛,有专家曾经指出,数据挖掘在21世纪将是企业商业成功与否的关键因素。数据挖掘是一个比较复杂的过程,一般来讲,数据挖掘首先要分析数据的选择,之后对数据进行清理,将数据之间的差异清除掉,具体包括数据清洗、数据集成等,再进行数据建模,通过模型的反馈,选择出最佳的数据特征,最后得出科学的结论,对数据进行分析,得出科学的结论来指导商业行为或者辅助科学研究。

1 机器学习的发展历程及应用领域

机器学习的最早发展是20世纪50年代,主要是神经模拟和决策理论技术,到70年代关于机器学习的研究才逐渐多起来,成为了人工智能单独的一个研究领域。当前,关于机器学习的研究已经进入到自动化以及模式识别等领域,从理论研究逐渐开始了实践应用,而且取得了很好的成就,在商业领域的广泛应用就是很好的证明。比如在金融行业、零售行业等,金融分析员通过数据挖掘建立的预测模型,对引起市场波动的因素进行分析分类,提高市场风险预警能力。在零售行业中,销售人员通过数据挖掘建立的模型了解潜在客户人群,了解客户的需求是什么,根据需求调整产品销售策略,提高市场份额。

2 机器学习在数据挖掘中的特性

以商业数据库为例,如果数据的验证过程不严谨的话,就会出现一些错误的数据。此外,因为数据来源渠道不同,会导致存在数据缺失的情况,由于数据的属性也存在不同,数据编码标准的不同,可能会导致无法对所有的数据属性进行分析。还存在数据的大小不等,所以在对不同类型的数据类型进行分析方面,机器学习还存在不足。对于数据挖掘的预测精度是一个重要的方面,机器学习的预测精度一般情况下会低于训练数据的预测精度,所以提高对真实数据的预测精度也是机器学习的一个特性。此外,结果的可解释性也是机器学习的一个重要特性,由于终端用户的知识水平不同,所以需要对数据进行预处理工作,让用户便于理解。机器学习的特性如表1所示。

3 基于机器学习的GSM网络定位

3.1 定位问题建模

以支持向量机定位方法为基础,将需要定位的区域栅格化,之后在定位区域内采集一种测量报告。定位移动终端的话,需要借助计算来接收测量报告,对报告的相似性进行度量,来判断待定位移终端的栅格,应用机器学习来对这一问题进行解决。

3.2 采集数据和预处理

仿真数据采集来源于一个周边长为8km的正方形区域内,四个不同的时间段路测得到的四批数据,用线测得到三批数据作为训练数据,为了保证机器学习定位方法的有效性,将第四批数据进行筛选,在周围10m内,把含有前三组训练的路测数据删除。之后,以不同的时间段为依据,合并相同通话中的相邻的定位数据,这样可以减少定位数据量,提高定位的精度。

3.3 以基站经纬度为基础的初步定位

用机器学习对移动终端进行定位,复杂程度比较高,计算的复杂程度与待定位区域的面积呈正比关系,区域面积越大,回归模型以及分类会更复杂,函数的计算也就越复杂,因此,机器学习在进行移动终端定位的过程中,区域面积越大,计算越复杂,耗费的时间更长。利用基站的经纬度进行初步定位过程:首先将待定位区域边长为8km的正方形划分为1km的小正方形栅格,通过对定位数据集的数据进行定位操作,以基站经纬度为基础,对基站的1km边长的正方形栅格进行计算,初步获取定位区域。

3.4 以向量机为基础的二次定位

初次定位后,选一个边长为2km的正方形,划分为两级栅格来支持向量机定位,两级支持的方式,使数据计算复杂程度降低。在实践中,对于定位精度的影响主要是正方形的栅格,栅格划分的越小,定位的精度就会越高,第一级支持向量机定位,在选择正方形栅格时,要考虑第二级的栅格大小,把两级的分类问题总数最小化,保证在最小的定位阶段对总量进行计算。

3.5 以K-近邻法为基础的三次定位

在二次定位之后会有一个经纬度输出,以经纬度为基础,对几百米内的正方形区域进行选择。因为以向量机为基础的定位法误差在百米以内,所以待定数据实际的经纬度可能在以二次定位结果为中心的数百米正方形区域内。之后进行定位模型训练,将8km正方形中的训练数据进行集中合并,可以减少运算次数。最后对分类样本进行定位,以K-近邻法为基础,对合并之后的训练数据进行计算,之后同二次定位的数据继续合并,对某一相似的特征以及距离进行计算,得到三次定位的最后结果。通过三个阶段的定位法得出的结果分析,定位速度及精度有了很大的提高,是GSM网络户外移动终端定位的最优方案。

4 结束语

数据挖掘技术在社会发展中随着科学技术的不断进步而发展,近年来发展迅速,应用领域不断扩大。机器学习在数据挖掘中的应用具有重要的意义,以GSM网络户外定位问题为例,介绍了以机器学习为基础的定位方法,大大提高了定位的精度,缩短了定位时间。

猜你喜欢

经纬度栅格正方形
基于邻域栅格筛选的点云边缘点提取方法*
剪正方形
剪拼正方形
拼正方形
拼正方形
基于经纬度范围的多点任务打包算法
澳洲位移大,需调经纬度
不同剖面形状的栅格壁对栅格翼气动特性的影响
基于CVT排布的非周期栅格密度加权阵设计
动态栅格划分的光线追踪场景绘制