数据驱动下消费者购买互联网理财产品意向预测方法
2017-03-06程成赵华陶伟
程成+赵华+陶伟
摘要摘要:随着我国居民收入的不断提高及理财意识的不断增强,消费者对互联网理财需求越来越多,但目前关于消费者购买互联网理财产品影响因素以及购买意向预测的研究还很少。为了准确挖掘消费者购买理财产品的影响因素,并在此基础上对购买意向进行预测,首先依托消费者购买理财产品数据,运用主成分分析法挖掘其中潜在的、有价值的消费者信息;然后使用PCA对网络进行降维,将主成分模拟到BP神经网络中建立购买互联网理财产品预测模型;最后对预测进行实证分析。分析结果显示构造的PCA-BP神经网络预测模型训练样本结果准确率达83.61%,测试样本准确率达80.12%,具有较好的泛化能力和预测精度,可用于对消费者购买理财产品进行分析和预测。
关键词关键词:数据驱动;PCA;BP神经网络;互联网理财
DOIDOI:10.11907/rjdk.162523
中图分类号:TP319文献标识码:A文章编号文章编号:16727800(2017)001010804
协会2013年度科学技术研究指导性计划项目(MTKJ2013-366); 中国科学院网络数据科学与技术重点实验室开放课题 (CASNDST201405);山东科技大学创新团队项目 (2015TDJH102)
作者简介作者简介:程成(1993-),女,山东临沂人,山东科技大学信息科学与工程学院硕士研究生,研究方向为机器学习;赵华(1980-),女,山东泗水人,博士,山東科技大学信息科学与工程学院副教授、硕士生导师,研究方向为智能信息处理;陶伟(1992-),男,山东临沂人,山东科技大学信息科学与工程学院硕士研究生,研究方向为智能信息处理。0引言
随着GDP的增长,国民财富呈现递增趋势[1]。居民收入的增长促进了居民储蓄存款的增加,为互联网理财提供了坚实的物质基础。据中国银行业理财市场年度报告, 2015年,银行业理财市场累计兑付客户收益8 651.0亿元,比2014年增长1 529.7亿元,增幅21.48%。银行业金融机构实现理财业务收益约1 169.9亿元,理财产品为客户带来了丰厚的回报[2]。
互联网理财是一种新颖的理财产品,相较于传统的金融理财,互联网理财具有理财成本低、流动性强、投资门槛[5]崔振辉,李林川,赵承利,等.基于ARIMA的电力视频流量分析和预目前,互联网理财产品种类繁多,如何在纷繁的理财产品中选择和购买一个适合自身的理财产品是消费者面临的主要问题。对于企业,在数据驱动背景下,利用客户数据可以预测消费者购买互联网理财产品意向,增强各企业互联网理财产品竞争力,并可根据数据对企业互联网理财产品进行优化。
客户行为预测研究很多,大多数使用决策树进行预测[5],但对影响消费者购买理财产品因素未进行解释和说明。本文通过对已有理财产品购买相关数据进行挖掘,采用主成分分析法挖掘其中的影响因素,构造了基于神经网络的理财产品购买预测模型。
1互联网理财产品预测模型与架构
对消费者购买理财产品需求进行预测和分析,需要去寻找潜在的有用信息,因而需要充分挖掘数据,发掘影响消费者购买互联网理财产品的各种因素以及影响因素之间的关系。本文基于主成分分析法(Principal Component Analysis, PCA)和人工神经网络(Artificial Neural Network, ANN)理论,构建了互联网理财产品购买意向预测模型。人工神经网络理论是从信息处理的角度对生物神经网络的抽象和描述,其中BP(Back Propagation)神经网络具有较高的容错能力和自学习能力,可高效并行处理数据。因此,本文采用BP神经网络对相关数据进行分析和预测,模型架构如图1所示。
预测流程:①收集样本数据,并进行数据预处理;②对影响消费者购买互联网理财产品的多种因素进行分析,并使用主成分分析法从中选取主要因素;③运用人工神经网络原理,以家庭为单位建立一个预测理财产品模型;④通过挖掘和调查一定数量的样本数据,训练神经网络从而找到合适的参数;⑤将训练好的神经网络模型用于理财产品预测,得到预测结果,对消费者是否购买提供参考意见。
图1消费者购买互联网理财产品预测模型及架构2基于PCA的理财产品影响因素分析消费者对理财产品的需求和购买行为是多元化的,影响消费者购买互联网理财产品的因素也是多样化的,这和消费者的消费意识、经济条件都有一定关系。从收集信息的角度出发,考虑因素越多越可以避免重要信息的丢失。在挖掘影响消费者购买互联网理财产品的种种因素数据中,发现部分因素之间存在交叉和影响,这使得在神经网络信息空间维数较大且输入变量较多,导致神经网络的结构变得复杂,且网络训练负担过重、时间过长。然而,如果输入信息空间维数较小且变量过少,网络训练将容易陷入局部极小点,也可能导致预测精度无法达到要求。只有从众多影响因素中找出一组合适的输入数据才能有效解释影响消费者购买理财产品的因素关系,对消费意向做出准确预测。为此,首先从所有的影响因素中抽取主要的影响因素,继而基于这些主要因素建立购买意向预测模型。所以,本文采用主成分分析法对影响购买意向的主要成分进行选取,剔除影响力弱的指标。分析步骤如下:
(1)样本数据获取及预处理。本文从互联网理财平台获取了150条消费者购买理财产品的相关数据。
抽取初始影响因素。本文通过两种方式获取初始影响因素:一是样本数据中记录的消费者相关属性;二是通过专家访谈和查阅文献。最终获取以下12个初始因素:年龄(X1)、性别(X2)、婚姻状况(X3)、学历(X4)、职业(X5)、家庭存款(X6)、月收入(X7)、居住条件(X8)、有无汽车(X9)、出生地(X10)、居住地(X11)、理财信息获取渠道(X12)。
影响因素量化。上述影响因素有些是数值型属性,但很多是非数值型属性,比如性别、婚姻等。为了方便后续处理,首先给每个非数值型属性制定一个对应的数值型。比如男对应0,女对应1,已婚对应1,未婚对应0等等。
(2)建立样本集矩阵(Fij)150×12,其中150表示获取的样本数据个数,而12表示最初的影响因素。
(3)求得每一影响因素的均值,假设每一个影响因素记为Xi=(xi1,xi2,...,xi150),则均值Xi=∑150j=1xij150,i=1,2,...,12。
(4)计算每两个影响因素之间的协方差cov(Xi,Xj)=∑150k=1(xik-Xi)(xjk-Xj)149,建立协方差矩阵C150×150=(cij,cij=cov(Xi,Xj))。
(5)计算协方差矩阵的特征向量和特征值,根据特征值的排序选择出主成分因素。
经过上述筛选过程,选择了其中7个因素作为消费者购买理财产品的影响因素,见表1。
3基于BP神经网络的理财产品预测3.1人工神经网络
人工神经网络是对生物神经系统的信息处理机制进行抽象、简化与模拟。大量神经元在人工神经网络中并行互联,从而连接构成人工神经网络。神经网络本质是要获得误差函数的最小值,以调节网络权值[7]。学习过程要一直进行,直到网络输出的误差降低到所设定的误差精度或是运行到设定的学习次数为止。
表1影响消费者购买理财产品因素影响因素指标内容年龄18~25岁25~35岁35~45岁45~55岁55岁以上婚姻状况未婚已婚学历大专及以下本科硕士博士家庭存款1万元以下1~5万元5~10萬元10~50万元50万元以上职业类型[6]名类专业、技术人员国家机关、党群组织、企事业单位负责人办事人员和有关人员商业工作人员服务型企业工作人员农林牧渔劳动者生产工人、运输工人和有关人员不便分类的其他劳动者居住条件出租房单位公房私人住宅(20m2/人)私人住宅(<20m2/人)有无汽车无车有车图2所示的神经网络模型I-J-1网络,为含有两层隐含层的BP网络结构图。第1层隐层为I中任一神经元用i表示,第2隐层为J中任一神经元用j表示,输出层为P,其中神经元用p表示。wmi表示为输入层与第1隐层的网络权值,wij表示为第1隐层与第2隐层的网络权值,wjp表示为第2隐层与输出层的网络权值。θi表示为第1隐层节点的阈值;θj表示为第2隐层节点的阈值;θp表示为输出层节点的阈值。
根据以上分析,得到消费者购买理财产品意向的人工神经网络图的预测模型如图2所示。
在正向传播过程中,输入样本数据要经过逐层的隐层结点计算,最终在输出层得到输出结果。输出结果和期望设定值进行比较后得到误差,误差再经输出层通过网络的连接反向传播,修改连接权值和阈值,以达到网络学习的误差不断减小。
3.2基于BP算法的消费者购买理财产品意向预测方法
本模型算法包括两个阶段:
(1)对影响消费者购买理财产品的影响因素采用主成分分析法,剔除影响力弱的指标。
(2)在对影响消费者购买理财产品的诸因素进行分析的基础上,建立BP神经网络模型。
具体步骤如下:①利用专家访谈和文献调查法,构建影响消费者购买理财产品的因素集合,并收集样本数据;②利用主成分分析法对影响因素进行选择,剔除影响力弱的指标。构建影响消费者购买理财产品的因素体系,从而得出用作神经网络输入的维度;③对所有影响消费者购买理财产品因素的数据进行标准化处理,选择训练样本数据和测试样本数据;④对训练样本数据按BP神经网络算法进行网络训练;⑤判断网络输出的误差,降低到所设定的误差精度或是运行到设定的学习次数。如果是,则学习过程终止,若否,返回步骤④,继续学习;⑥将测试样本数据输入到训练好的BP神经网络模型中,使用训练结果对该模型效果进行评价,如果模型效果显著,则可用作影响消费者购买理财产品预测;⑦将影响消费者购买理财产品因素的测试样本数据,按指标输入到效果显著的训练好的BP神经网络中。结合模型输出结果,进行影响消费者购买理财产品因素的进一步分析。
4实例分析
1988年Cybenko就指出,当各节点采用Sigmoid型函数时,一个隐含层就足以实现任意的判决分类问题,两个隐含层则足以表示输入图形的任意输出函数[9]。所以对神经网络将在隐含层中采用Sigmoid型函数和线性函数。以互联网理财网站中客户基本信息数据为例进行分析,选取150组有效信息,将各组影响因素进行标准化处理。BP神经网络是一个非线性系统,权值的初始值设置可被认为是神经网络结构中最重要的一部分[10]。每个神经网络都需要选取合适的初始权值和阈值,一般情况下权值和阈值的初始值随机在(-1,1)之间选取。本文构建3层BP神经网络,输入层为7个神经元,隐含层为10个神经元,输出层为1个神经元,学习率设定为0.5,动量因子为0.9,目标误差为0.01,迭代次数设定为300。采用100组数据作为训练数据,50组作为测试数据。图3为BP神经网络模型预测结果,预测情况如表2所示。考虑到初始权值选取对预测结果的影响,表2中的结果为训练10次得到的平均值。测试结果中训练样本结果平均准确率达到83.61%,测试样本平均准确率达80.12%。由此可知本神经网络模型具有较好的泛化能力和预测精度,可用于对消费者购买理财产品意向进行分析和预测。
结语
互联网理财是一个新兴领域,它将传统理财行业与互联网结合,企业可以通过挖掘和调查互联网理财产品客户数据,对消费者客观因素进行分析,通过预测得到消费者理财产品购买意向。本文使用PCA和BP相结合的方法进行了预测和分析,经实例验证该方法可行,是互联网理财预测新颖而又简便的方法。但该系统还存在一些难题:由于调查数据较少,不足以形成对消费者情况的完全准确预测,这需要进行更深层次的探索。
参考文献:
[1]中华人民共和国国家统计局统计年报[EB/OL].http://www.stats.gov.cn/tjsj/
[2]中国银行业理财市场年度报告(2015)[EB/OL]. http://www.chinawealth.com.cn/zzlc/sjfx/lcbg/20160226/620139.shtml
[3]纪崴. 理财市场的竞争与发展[J]. 中国金融, 2015(18):9396.
[4]胡增永. 互联网理财与传统银行理财业务比较研究[J]. 财会通讯, 2014(32):46.
[5]RUTKOWSKI L, JAWORSKI M, PIETRUCZUK L, et al. The CART decision tree for mining data streams[J]. Information Sciences an International Journal, 2014, 266(5):115.
[6]王月凤. 最新劳资业务实用知识手册[M].北京: 中国劳动出版社, 1995(12):548549.
[7]李从刚, 童中文, 曹筱珏. 基于BP神经网络的P2P网贷市场信用风险评估[J]. 管理现代化, 2015, 35(4):9496.
[8]BHATT A K, PANT D. Automatic apple grading model development based on back propagation neural network and machine vision, and its performance evaluation[J]. Ai & Society, 2013, 30(1):4556.
[9]G CYBENKO.Continuous valued neural networks with two hidden layers are sufficient[R]. Technical Report,Tufts University, Medford, 1988.
[10]GAXIOLA F,MELIN P,VALDEZ F,et al.Generalized type2 fuzzy weight adjustment for backpropagation neural networks in time series prediction[J].Information Sciences,2015,325(3):159174.
責任编辑(责任编辑:杜能钢)