APP下载

基于决策树的移动互联网用户付费意愿分析与预测

2017-08-28张晨阳张浩川

无线互联科技 2017年15期
关键词:决策树意愿预测

张晨阳,余 荣*,张浩川

(广东工业大学 自动化学院,广东 广州 510006)

基于决策树的移动互联网用户付费意愿分析与预测

张晨阳,余 荣*,张浩川

(广东工业大学 自动化学院,广东 广州 510006)

针对开放移动互联网下难以识别和跟踪潜在用户,无法提供更具个性化服务的状况,文章在传统决策树分类器的基础上,提取用户基础数据特征,引入感知模型分析处理用户行为数据,提出一种基于决策树的移动互联网用户付费分类预测方法。该方法强化用户感知对付费行为的影响,利用决策树建模进行分类并最终作出付费预测,根据模型结果探究付费影响因素,从运营者角度思考如何提高用户的付费意愿。

移动互联网;感知理论;付费预测;决策树

1 互联网产业现状

日前,广州市地铁“花生WiFi”一经推出,即受到千万出行者的追捧。由此可见,信息网络全面深入地融合人与人、人与物以及物与物之间的现实物理空间与抽象信息空间,并向无所不在的泛在网络(Ubiquitous Network, UN)方向演进[1]。以此为契机,移动互联网提供商给用户提供免费WiFi,当获得很大的访问量的同时,WiFi即作为移动互联网系统的入口,能够产生大规模的用户流量。多数人受WiFi引流而来,并非目的明确地搜寻具有某种功能的系统应用,造成移动互联网借以推出的收费模式难以被用户所接受。

上述问题反映出当下互联网产业现状,能够借助互联网的特性短时间集聚大量用户,但流失率高、转化率低使得行业迫切需要获得每一位用户的付费可能性,进而提供更具针对性、个性化的服务带来更高效益。利用直观明了的算法,帮助我们分析得出影响用户付费的因素,根据这些信息来指导我们的策略制定工作,让网站功能直达用户痛点,或者采取其他能够有效增加用户付费意愿的策略[2]。此处,运营商所构建的移动互联网系统,给予每位用户试用机会,并能随时根据用户意愿向付费版或更高级系统升级。互联网系统可以很方便的借助OAuth开放授权方式,获得用户微信或其他账号数据用以开通使用权限,并将由此获得的用户信息收集、记录,明确哪些用户选择成为付费用户,具有较高付费意愿。

通常,网站直接询问用户个人信息的答卷鲜有问津,为了避免这种情况并尽量减少用户的工作量,我们决定从服务器的日志中收集这些信息,比如:用户来源、用户基本属性以及浏览过的网页,等等。假设我们收集到了这些数据,并且将其填入一张表格中,其结果如表1所示。

表1 用户基本信息及行为表(节选)

2 移动互联网用户付费意愿分析与预测

2.1 理论模型分析与构建

本文建立感知模型对移动互联网用户付费意愿的影响因素进行深入研究,最后使用决策树算法对影响因素与付费意愿间的相关关系进行挖掘及预测,首先建立感知理论模型如下。

2.1.1 感知有用性和感知易用性

感知有用性与感知易用性因素是技术接受理论(Technology Acceptance Model,TAM)[3]中的基本因素,均可影响付费意愿,感知易用性是指用户在使用新系统时感知到的难易程度,感知有用性是指用户感知到的使用移动互联网对自己的有利程度[4]。TAM模型认为若用户能够使用较少的时间掌握新信息系统也就是用户花费的时间成本少而收益相对较高时,用户就更倾向于使用这种系统。针对本移动互联网系统,此处我们以用户首次进入到网络覆盖环境到用户关注的时间间隔作为有用性特征,同时,以用户关注到首次接入互联网的时间间隔作为易用性特征。

2.1.2 感知兼容性

兼容性是Rogers教授提出的创新扩散理论中的一个因素,它是指用户使用新的信息系统与社会现有的价值观念及当前需求的一致性[5]。若某互联网系统不能够满足用户消费需求或与其生活方式不匹配,那么该互联网系统则无法满足兼容性特征,从而影响用户的付费意愿。随着便携智能设备的渗透率在各年龄层的提高,用户在移动网络的基础上能够使用移动WiFi网络,增强了用户对移动互联网的付费倾向,带来的流量消耗即作为影响用户付费意愿的感知兼容性特征。

2.1.3 感知风险

感知风险理论由哈佛大学学者Bauer首次提出并运用在市场营销领域中[6]。之后国内外的许多学者在对此理论进行研究时发现,感知风险理论可以被运用在多个领域用来解决许多不同问题;文鹏等[7]将感知风险因素与技术接受模型结合,探寻微信用户使用意愿的影响因素,研究发现感知风险因素与用户使用意愿呈负相关关系,即存在感知风险情况下,削弱用户的购买意愿。在移动互联网环境下,用户可能感知到的财务、隐私、安全等方面的风险及威胁,因此以是否获得用户授权作为感知风险特征。

2.1.4 人口统计特征

人口统计变量包括被调查者的性别、地区、对移动互联网的认识及等基本情况。李长城等[8]在构建移动网络用户使用意愿影响因素模型时均将性别、地区等人口统计特征变量加入其中,通过实证分析证实个别人口统计特征的确与用户付费意愿有显著相关性。

图1 移动互联网用户付费意愿模型

除以上特征外,用户在移动互联网环境下,获取移动互联网运营商所提供的服务内容及站点信息,留下大量蕴藏用户偏好的日志信息,经过数据清洗及必要的整理,同时将系统采集到的各种环境信息进行关联,能够为后续分类预测所用。

因此,在本文所构建的移动互联网用户付费意愿影响因素模型中,同时引入上文中提到的感知有用性、感知易用性、感知兼容性、感知风险,包括人口统计因素,来对模型加以完善。

2.2 决策树建模

2.2.1 决策树的引入

和大多数分类器不同,决策树能够给予我们直观且易于理解的推导过程,甚至可以由if-then的语句来简单表示。

在构建理论模型后,代入提取到的数据设计用户特征表,通过分类回归树(CART)[9]的算法,首先构造出根节点,通过表2中的所有观测变量,从中选出最合适的变量对数据进行拆分,并通过结果数据的分解来推测用户意图。

对合适变量的选取,即需要一种衡量数据集合中各种因素的混合情况,根据经验,这里我们选择以熵作为度量标准。为此,我们需要求出整个群组的熵,同时利用每个属性的取值拆分出新群组,并继续求出拆分所得到群组的熵。我们取当前熵与新群组经过加权平均后的熵之间的差值,作为信息增益(Information gain),从中选出信息增益最大的属性,作为每个新生节点的最佳拆分属性,对分支的拆分及树的构造过程不断持续下去,即以递归方式构造树,而当某节点拆分所得信息增益不大于0时则停止,最终构造出整棵树。

表2 基于感知理论模型设计用户特征表(节选)

2.2.2 决策树的剪枝与优化

通常上述训练过程会带来过度拟合的问题,也就是说变得过于针对训练数据。并且在有些时候,一棵经过训练的决策树过于“繁茂”,知识过多,或者说得到的规则集合过大。

对其加以改进,如在前述构造好的整棵树上,对具有相同父节点的一组节点进行检查,消除多余的节点使得熵的增加量小于指定的阈值,则进行剪枝操作,有效避免过度拟合的情况。剪枝后,可以得到一棵相对简洁的决策树,较少的规则使得在进行分类预测时,决策树效率更高[10]。

同时,用户并非使用系统全部功能的情况下,对于用户行为数据缺失,可以通过为所在节点赋予权重的方法,对各分支对应的结果值进行加权统计,计算观察数据对于数据项是否属于某个特定分类的概率。对缺失值的样本赋予该属性所有属性值的概率分布,即将缺失值按照其所在属性已知值的相对概率分布来创建决策树[11]。

2.2.3 决策树的显示

决策树能够实现分类时执行推理过程的可视化表达,使得我们能够直观地看到隐藏在推理过程背后的逻辑,是决策树的一大优势。根据上述决策树生成结果,从树的根节点开始,以递归的方式,绘制当前节点,并计算子节点的位置,然后以此循环。如图2所示,Ture分支总是位于右侧,那么按图索骥能够很容易地追踪推断的过程。

3 实验结果和分析

本文选取的数据来源于广东工业大学智能信息研究所项目实际采集数据,经过整理抽样取出2 500条用户样本数据,为了检验决策树模型的准确程度,将其分为两部分,前80%的样本作为训练样本数据,用来进行决策树模型的构建,剩下的20%样本数据作为测试样本数据,用来检验决策树的准确性。

图2 用于预测移动互联网用户付费的决策树(局部)

通过决策树分类我们得到了移动互联网用户付费意愿的预测规则,现在对上述分类规则进行检验。通过样本准确性表(见表3)可看出,经过训练后,决策树的正确性为91%,即该模型可91%的正确率判断用户付费的付费意愿;对于测试数据集,该模型对于500份测试数据的预测准确率为83.2%,错误率为16.8%。分析可以看出,该决策树模型的预测准确率较高,可根据提取的感知模型对用户付费意愿进行预测。

表3 决策树模型准确性

4 结语

为了更好地提取用户行为数据特征,以及用户付费意愿的预测规则,本文提出了一种感知理论分析模型,然后运用决策树分类方法进行移动互联网用户付费预测的分析与研究。在实现用户行为特征提取与模型建立中,通过感知理论建立用户感知行为分类规则,增加了用户感知重要因素作为决策树模型的输入变量,并将用户付费意愿作为输出变量,引入到决策树中得到移动互联网付费意愿的预测规则,对提高分类预测的准确度具有积极影响。

通过上述规则,可以挖掘出各影响因素间更为具体、深入的关系,通过探索数据之间的关联模式,挖掘大数据中所蕴含的信息,借助相关关系取代因果关系,即只需知道“是什么”,而不需知道“为什么”,帮助企业寻找有用信息,进而帮助企业制定更为详尽的销售计划与营销策略,对于迅速占领市场、划分目标人群具有非常重要的现实意义[12],也是大数据分析的价值所在。

[1]LEE C S, LEE G M, RHEE W S.Smart ubiquitous networks for future telecommunication environments[J].Computer Standards and Interfaces, 2014(2):412-422.

[2]西格兰.集体智慧编程[M].莫映,译.北京:电子工业出版社,2015.

[3]DAVIS F D.Perceived usefulness, perceived ease of use and user acceptance of information technology[J].Mis Quarterly, 1989(3):319-340.

[4]谢晓文.移动支付用户使用意愿分析与预测研究[D].北京:北京交通大学,2017.

[5]罗杰斯.创新的扩散[M].辛欣,译.北京:电子工业出版社,2016.

[6]BAUER R A.Consumer behavior as risk taking[J].Dynamic marketing for a changing world,1960(21):389-392.

[7]文鹏,蔡瑞.微信用户使用意愿影响因素研究[J].情报杂志,2014(6):156-161.

[8]李长城.第三方移动支付用户接受影响因素研究[D].北京:邮电大学,2015.

[9]BREIMAN L, FRIEDMAN J, OLSHEN R, et al.Classi fi cation and regression trees[J].Biometrics,1984(3):358.

[10]李泓波.决策树剪枝研究[J].计算机时代,2016(2):2-3.

[11]巩固.决策树算法中属性缺失值的研究[J].计算机应用与软件,2008(9):242-244.

[12]何军.大数据对企业管理决策影响分析[J].科技进步与对策,2014(4):65-68.

Analysis and prediction of willingness to pay for mobile networks users based on decision tree

Zhang Chenyang, Yu Rong*, Zhang Haochuan
(Automation School of Guangdong University of Technology, Guangzhou 510006, China)

In view of the situation taht due to open mobile network is dif fi cult to identify and track potential users, which cannot provide more targeted services, based on traditional decision tree classi fi er, this paper extracts feature of user data and introduces the perception model to analyze users’ behavior data processing, a classi fi cation method for mobile Internet users’ pay classi fi cation based on decision tree is proposed.This method strengthens the in fl uence of user perception on cost behavior, and uses decision tree modeling to classify and makes fi nal payment prediction, to think how to improve the users’ willingness to pay from the operator point of view.

mobile Internet; perception theory; payment forecast; decision tree

张晨阳(1993— ),男,安徽阜阳,硕士研究生;研究方向:物联网,智能交通,数据挖掘。

*通信作者:余荣(1979— ),男,广东潮州,教授;研究方向:车联网。

猜你喜欢

决策树意愿预测
无可预测
选修2-2期中考试预测卷(A卷)
选修2-2期中考试预测卷(B卷)
一种针对不均衡数据集的SVM决策树算法
决策树和随机森林方法在管理决策中的应用
充分尊重农民意愿 支持基层创新创造
基于决策树的出租车乘客出行目的识别
交际意愿研究回顾与展望
基于肺癌CT的决策树模型在肺癌诊断中的应用
Chatterbox—Willingness意愿