APP下载

大数据在移动出行中的应用

2019-05-05

福建质量管理 2019年8期
关键词:滴滴数据挖掘建模

(山东工艺美术学院公共课教学部 山东 济南 250000)

引言

“分享经济”是通过大数据技术以及互联网技术进行资源配合,整和重构资源所诞生的一种全新商业模式,降低了消费者的购买成本和提高了生产效率。随着分享经济的兴起,将会使商业和社会带来翻天覆地的变化。从15年滴滴打车与快的打车的合并,再到16年滴滴收购Uber,移动出行巨头——滴滴出行,为人们的城市交通出行带来了巨大的变化。滴滴出行作为移动互联网背景下“分享经济”的领军人物,它利用GPS、移动互联网、大数据等技术,充分利用了闲置的交通资源,使出行更加高效便捷,解决了紧张的交通资源,节约了人们等车的时间,使人们的出行方式由普通的打车变为了现在利用互联网智慧出行,推动了互联网和传统产业的创新融合。

移动出行平台发挥了“分享经济”的低成本优势,它们通过运营管理,有效地解决了信息不对称,通过技术手段,连接了车主和乘客,并且对每个人都有信用记录,在交易平台上给出一个清晰透明的价格,使服务顺利达成,原本闲置的资源被利用起来,释放了分享经济的低成本优势。

近年来,随着通讯技术的发展和空间定位的普及和应用,我国大多数车上都安设了GPS系统,通过GPS的定位功能,产生了大量车辆连续性的时间和空间的轨迹数据,这些数据获取的成本低,覆盖范围广,拥有动态特性,使得这些数据成为研究人们出行的新数据来源。

一、中国移动出行应用分析

(一)移动出行应用市场分类

目前,我国移动出行应用主要有专车、打车、拼车和租车四种类型,这使人们出行选择多种多样,也满足了各个年龄阶段、各个地域以及各个阶层的需求,表1显示了四种移动出行的代表应用及其主要特点。

表1 移动出行市场主流软件及其特点

2016年下半年移动出行应用排名如图1所示,滴滴出行的市场份额和用户活跃度远高于其他应用,其原当然离不开各大公司背后强大的资金支持以及技术支持。而更主要的是,滴滴出行与快的打车合并后,又收购了Uber中国,其业务拓展速度非常之快,占据了中国超过75%的市场用户。而其经常采取的补贴战略,更是吸引了一大批消费者。

图1 移动出行领域榜单

图2 各专车应用的活跃用户量及启动次数

从图2中可以看出,滴滴出行APP占据了绝大部分市场份额,活跃用户数量以及启动次数远远高于其他几个专车应用。从图1-3中可以看出,在日均活跃用户量、日均启动次数和日均使用时长上看,占据领先地位的是Uber和神州专车。

(二)用户行为分析

用户选择出行软件的时候,往往考虑以下几个因素:首先,在价格方面,用软件打车的价格是否合理,是否比打普通出租车要便宜。其次,是否能及时到达自己所在的地点。因此商家为了留住顾客,经常采取一些补贴优惠政策,使价格方面尽量让人们接受,甚至用白菜价吸引那些潜在的客户,再利用其便捷的优点,使潜在客户发展为长期客户。随着注册的车主越来越多,打车也越来越便捷,打车的人也变得越来越多。因此打车的效率和速度就提高了。

如图3显示的人均行为,我们可以得出人均启动次数和人均使用时长最多的是滴滴出行,其次是Uber和神州专车。

图3 人均行为分析图

(三)用户构成分析

移动出行类应用的主要用户主要集中在20-30岁以下的青年人士,这些年轻人对互联网接触了解的较多,并且乐于尝试新型的出行方式。而41岁以上的人群只占了10%的份额。

从使用的领域来看,一线城市的市场份额占据了50%以上,这与一线城市人群有较高的收入水平有关系,他们的出行频次也比较高。而随着年龄的递增,收入档次的提高,移动出行用户数量逐渐减少,其原因主要有以下两点:一是我国高收入者占总人口的比重较小;二是高收入者一般有自己的汽车。随着移动出行应用的普及,将会有更多的年轻人进入这个市场,也会逐步有中年人士放弃自己开车而选择专车和拼车,这将是绿色出行,实现节约能源的第一步。

二、大数据挖掘理论综述

近年来,在我们生活在互联网海洋的每时每刻,都会产生海量的数据。而面对这些海量的数据,人们的肉眼和手工方法很难去处理这些数据并发现其中的价值,在这些数据的海洋中,人们急切需要更有效的方法来处理这些数据来获得有用的知识。数据挖掘正是在这种强烈需求的背景下应运而生的,为我们从大量数据中提炼出有价值的只是提供了可行有效地方法。

高校承载的社会服务功能,在实现精准扶贫、促进乡村振兴应发挥作用,为更好的输出高水平的农村电商人才应该构建相对权威标准的人才培养体系,包括培养目标、培养模式、课程体系、实践教学体系、评价体系等,并加强农村电商师资培养的师资、教材和其他资源的建设。高校建立相关的研究所等来深入研究农村电商发展的实际问题,助力农村电商发展。

(一)大数据挖掘技术的概念

数据挖掘结合了多个领域的技术,如人工智能、概率学、数据库技术、机器学习等。数据挖掘是在不完全的数据信息中,去除噪声、重复数据、不一致数据,发现那些对人们有价值的信息。数据挖掘技术还可以用于预测信息,发现数据之间的规律,推测出将来可能的行为。

数据挖掘也往往用来解决商业的实际问题,首先从商业角度理解问题,将这些问题转化为数据,对这些数据进行建模,然后对模型进行评估,最后发布模型得出目标结果。

(二)大数据挖掘的过程

数据挖掘的整个行程是为了发现在最初的数据中,所隐含着的对我们有价值的信息,所以在进行数据挖掘前,我们首先要知道,我们要解决的问题是什么以及想达到什么样的目的。只有这样将问题和目的结合起来才能得到我们想要的结果。数据挖掘的过程分为以下几个阶段:数据预处理、数据挖掘和模型最终效果的评估。

1.大数据预处理

我们刚开始收集的原始数据往往具有复杂和多样等特性,为了将这些最初的数据转化为我们最终需要的数据,我们要对数据进行一些处理,使原本不完整的数据变得完整,使数据变得一致起来。我们要对数据进行清洗来消除数据的噪声和重复的观测值。数据预处理过程又分为以下四个子阶段:

数据清理:数据清理包括消除数据的噪声、填补那些遗缺的数据,使数据变得平滑起来。车辆轨迹数据存在的主要问题是轨迹点经纬度坐标越界和异常的轨迹点,需要对这些异常数据进行处理。

数据选择和分析:是指在大量的数据中取出一些相关数据,在不损失有效信息的情况下,对数据的范围进行合理的选择,以减少不必要的时间浪费。

数据变换:是指通过离散化、平滑处理以及标准规则化处理等方法,将数据变化成适合进行数据挖掘的形式。

其中对GPS测数据的数据剔除方法我们可以使用莱茵达准则法和罗曼洛夫斯基准则,这种GPS载波相位差分技术的运用,极大地降低了如卫星相关误差及电离层折射延迟、对流层折射延迟等主要误差源的影响。为了尽可能可靠地提高GPS定位的精度,必须对测量数据进行粗差剔除。

(1)莱茵达准则

(2)罗曼洛夫斯基准则

Pα=(1-α)和t分布的自由度v=n-2确定tg值。若被怀疑并提出的测量值确属于含有过失误差,则剩余误差满足|vg|≥tgs,即将该测量值剔除是正确的;反之若不满足上式,则说明该测量值并不敢有过失误差,应重新将其列入观测列,并重新估算标准差。

2.大数据挖掘

数据挖掘是为了在初始不规则的数据中发现对我们有用的信息,数据挖掘的模式有两种,其中一种是描述性模型,用特征化分析、聚类分析、关联分析等方法描述数据的一般特征,再用数学统计模型对隐含在这些数据中的信息进行解释;另一种是预测性模式,通过分类、孤立点分析、回归等方法,在预测和推断这些数据。

3.模型最终效果的评估

在数据挖掘阶段之后,挖掘到的数据是需要我们进行分析的,要用恰当的评价标准来衡量结果的正确与否。

(三)数据挖掘的方法任务及分析

数据挖掘有两种方法类型,一种是统计型的,常用的方法包括聚类分析和相关性分析,这种类型旨在发现数据中藏匿的一般规律。另一种类型是机器学习类型,它通过大量的数据样本得到模型,然后对未知的样本进行预测。本论文使用的是第二种类型,通过乘客和司机的出行数据,对乘客和司机的历史行为进行分析。这种结合了概率学、人工智能、数据库等技术的综合性方法,减少了只在单个分析方法中的缺点和不足,将多重分析方法的优势结合起来,更好的分析数据得出结论。下面介绍四种数据挖掘任务。

1.预测建模

预测建模有回归建模形式和分类建模形式,它们通过提取数据的普通模式来预测未来的变化趋势。回归建模的函数模型是连续的,可以用线性回归的方式来解决许多问题,而通过变换,我们也可以将许多非线性问题转化为线性问题来解决。分类建模是预测离散的数值。这两种建模形式都是预测问题。分类和回归预测的经典方法有决策树、贝叶斯、支持向量机、人工神经网络、组合学习方法和K邻域。

2.关联分析

关联分析方法是为了发现数据集中的关联性和相关性。但是,在海量的数据中要发现它们的联系要耗费大量的时间和资源,同时,发现的这些相关性也会有偶然的情况和错误的情况,为了解决这两个问题,在关联分析中,要使用规则的支持度和置信度,使得去除那些偶然出现的规则,得到最可靠的信息。利用关联分析的算法主要有FP-growth和Apriori等。

3.聚类分析

聚类分析是一种没有监督的方法,它通过合理划分那些未标注的样本,对不同类别使用显式或隐式的方法进行描述,层次方法、划分方法、基于网络的方法等都是聚类分析的主要方法。

4.异常检测

异常检测的目的是为了发现那些特征明显不同于其他数据的对象,从而避免将正常的观测对象标记为异常数值。异常检测在公共损失检测、网络攻击、疾病的不寻常模式、医疗处理等方面都有重要作用。

猜你喜欢

滴滴数据挖掘建模
“滴滴”上的叮咛
探讨人工智能与数据挖掘发展趋势
联想等效,拓展建模——以“带电小球在等效场中做圆周运动”为例
滴滴断臂求生?
“厉害了,我的国”之滴滴打车
基于PSS/E的风电场建模与动态分析
不对称半桥变换器的建模与仿真
基于并行计算的大数据挖掘在电网中的应用
一种基于Hadoop的大数据挖掘云服务及应用
滴滴Uber 大战