基于金融大数据的个性化推荐技术研究
2018-08-30唐向红彭超陆见光
唐向红 彭超 陆见光
摘要: 随着金融大数据的出现和发展,各种理财产品和贷款项目的种类和数量都爆炸式的增长。如何有效地针对客户推荐提高推荐成功率成了关键问题。针对这一问题,文章提取代表客户兴趣、相应组群和相关项目的特征,然后利用神经网络进行预测,从而达到了个性化推荐的目的。实验结果表明:所建模型能有效地进行个性化推荐。
Abstract: With the advent and development of financial big data, the types and quantities of all types of wealth management products and loan projects have exploded. How to effectively recommend for customers to improve the success rate of the recommendation has become a key issue. To solve the problem,we extract features which represent customers interests, corresponding groups and related items,and ultilize the neural net to predict to achieve the goal of personalized recommendation. The experiment result shows that the model can effectively acomplish the personalized recommendation.
關键词: 金融大数据;个性化推荐;数据
Key words: financial big data;personalized recommendation;data
中图分类号:TP391 文献标识码:A 文章编号:1006-4311(2018)20-0203-03
0 引言
随着大数据时代的到来,各行各业的运营模式发生了巨大的变化。在大数据时代,金融业也随着时代产生了一些根本性的变化,人们可以更好、更多地利用数据对信息进行管理,对管理方式进行创新。金融平台正进行着一场数据服务的变革,其中最凸显的一项技术服务就是个性化推荐技术。针对不同的消费者的不同属性,提供相对应的个性化服务[1]。这解决了客户对于琳琅满目的商品难以选择的问题,增加了用户对金融平台产品的兴趣度,使金融平台有了更多的机会提高产品的成交量,吸引了更多的用户群体,也减少了平台的运营成本[2]。
根据个性化推荐模型的特点来说,个性化推荐方法通常分为基于规则的推荐、基于内容的推荐、基于协同过滤的推荐三种基本的方法[3]。 基于规则的推荐以关联规则挖掘方法为核心,通过从大量的客户购买商到客户的购买模式,结合客户的历史购买行为,产生对目标客户的推荐列表。基于内容的推荐通过分析客户已购买产品或已评价对象的特征获取相应客户的兴趣描述,通过比较客户与产品或对象之间的相似性实现推荐。基于协同过滤推荐是寻找与目标客户相似的客户集的购买产品或评分情况来预测目标客户对产品的购买兴趣或评分,以此来进行推荐。基于规则的、基于内容的以及基于协同过滤的推荐算法由于自身算法的特点,在实际应用中都存在相应的缺陷,所以对于如今的个性化推荐系统一般都是由这三种推荐方法混合而成的推荐模型。
通过了解,大多数个性化推荐系统中所用到的数据都是通过个性化信息服务应用的相关技术来提取得到的[4],其中提取的方法和推荐模型的建立都是比较复杂耗时的。针对这点文章提出了一种更为可靠高效的推荐模型。其中对数据和特征的选择和提取更为方便。我们使用MySQL数据库进行数据的筛选,得到我们想要的数据;再从新的数据链表中提取我们所需要的特征;最后通过调试神经网络的参数,训练并建立好预测模型。通过实验数据的表明,新生产的个性化推荐模型的推荐质量有更好的表现。
1 个性化推荐模型的建立
1.1 个性化推荐模型特征的提取
相对于大多数基于大数据的个性化服务应用的主要技术,如数据挖掘技术、协同过滤技术等都需从客户对项目的浏览情况、对项目的评分或其他可代表客户对项目兴趣的数据用来分析[5],作为特征建模。这些数据的收集、处理一般都是比较复杂和耗时的。针对这个问题本次实验选用的特征是比较方便收集和表示的。
1.1.1 用户类型特征的选取
平台对于所有用户一般有一个分类的管理。分类的方法一般是平台按某种算法对用户进行分类,或者是用户自己选择自己适合的类型。这些类型数据经过分析可以反应出用户的某种购买特征,对于个性化推荐是十分重要的。
1.1.2 用户购买特征的选取
参考用户以往的购买记录也是对个性化推荐系统十分有价值的。用户以往的购买记录往往包含着用户一直以来的购买习惯和兴趣项目,所以对用户购买项目的数据进行提取和分析,将得到很多重要的信息。通过对比其他个性化推荐方法,也涉及用到这类数据进行特征的提取。
1.2 预测模型的选择
鉴于本次实验所需预测的关系比较直观,该个性化推荐方案使用BP神经网络来进行兴趣项目的预测。
BP神经网络模型[6]:
BP神经网络是当前功能强大、理论体系完善的一种机器学习算法,也是人工神经网络中使用最广泛的神经网络模型。
BP神经网络一般层数较少、网络结构较为简单。其中每个(除输出层的神经元)神经元可以连接多个神经元,每个连接通道都对应着连接权系数wij和偏置参数bij。通过对神经网络的训练,也即是对wij和bij的调整来使神经网络的输出能达到预期的目标值[7]。
2 实验方法和过程
本次实验使用Prosper贷款平台数据进行研究分析,找出用户感兴趣的项目类型,以此作为依据给用户推荐。其中涉及数据的选择与提取、特征的提取、训练和预测及实验等环节。
2.1 数据的选择与提取
我们拿到的Prosper贷款平台的数据①是xml格式的大文件,不方便读取和操作;所以我们使用MySQL数据库对原始数据进行读取和数据的拆分。原始数据的读取得到的信息非常杂乱,而对于本次个性化推荐方案,我们只需从数据中选择能代表用户兴趣的原始数据来做分析。最后提取了5个数据链表用于后续实验。
5个数据链表如表1。
2.2 特征的提取
对已提取的數据进行特征的提取,为后面预测模型的输入做准备。
其中筛选出具有200个项目以上(更具代表性)的用户作为样本,样本特征的提取主要是从5个已提取的数据链表中提取,得到3个特征。其中的3个特征分别是:
2.2.1 用户所在组的类别特征
客户一般会在平台新建用户的时候,选择自己感兴趣的组(一个组一般有一个或者多个感兴趣的类别),所以组的信息中有代表用户兴趣的特征。
该特征的表现形式是(9,1)的向量,因为组里包含的类别信息最多9个。
2.2.2 用户参与项目的类别特征
这一特征的信息包含的是用户以往参与平台各个类型项目的数据统计。
项目类别总共有20个,所以以(20,1)的向量表示该特征。
2.2.3 用户感兴趣项目类别;(选择了用户参加项目数量前三名的类别作为用户感兴趣的的项目类别,其余的为不感兴趣的类别)。
预测模型主要针对这一特征进行判断,判断用户是否对该项目有兴趣。
该特征表示的是20个项目类别的其中一个,采用(1,1)的向量表示。
2.3 实验结果与分析
本次实验的目的是使用购买项目多的用户数据进行训练,来预测项目少的用户的兴趣类型。
通过MySQL数据库对数据的整理,得到的可训练样共3000个,抽取2400个作为训练样本,600个作为测试样本,实验每次100个样本输入模型,预计训练2000次(查准率趋于稳定,自动结束本次训练)。使用交叉验证的方式进行实验。
根据个性化推荐方案模型预测的结果,分析该推荐系统的推荐质量。
选用的分析指标有:
2.3.1 查准率[8]
该指标表明预测模型对客户的个性化推荐与客户兴趣的相关性。
2.3.2 迭代时间
该指标表明模型训练所耗时间。(主要针对客户数据更新时,模型的重新建立所需消耗资源的体现)
本文主要以查准率和迭代时间表示个性化推荐系统的推荐质量,并使用了交叉验证保证其可靠性。
通过图3、图4,我们可以计算出:
5次模型训练的查准率 =[0.96173042,0.96333331,
0.96333331,0.96333331,0.96327209]
5次模型训练的(达到最高查准率的)迭代时间= [2.7099998,8.81200004,
9.95000005,3.18400002,6.27800012]
5次模型训练的平均查准率=0.96300,平均训练时间=6.186800,平均迭代次数=149.600。
其中考虑到神经网络训练中加入了dropout函数,其函数的随机性对训练影响,我们选用了多次模型训练中耗时最长的一次实验作为参考,根据数据分析,可以看到个性化推荐模型的推荐质量较为理想,其查准率高达96.3%,训练时间最长也不超过10s。较短的训练时长对于个性化推荐系统以后的模型更新也是非常方便的。
本次实验由于选择了更具代表性的特征进行训练,通过不断调参的神经网络,训练出的预测模型在查准率和迭代时间两个指标上更为良好。
3 结语
随着大数据时代的到临,各行各业信息过载将越来越凸显。如何根据用户个人习惯来找出用户的兴趣特征进行个性化推荐是一个重要的研究领域。本文是针对Prosper贷款平台数据的个性化推荐方案,解决购买项目少、兴趣特征不明显的用户的个性化推荐问题;并且还具有模型训练快速,推荐质量高的特点。
还需要说明的是,该方案仅是依据实验中所提的3个特征,对于用户而言还有其他数据中隐含着代表用户兴趣特征的数据可供使用。利用更多类型的数据有可能会提高个性化推荐质量,这可以在日后工作中进行钻研和完善。
注释:
①原始数据参考网址:https://www.prosper.com/Downloads/Services/Documentation/ProsperDataExport_Details.html。
参考文献:
[1]乔岚.基于大数据技术的个性化推荐系统的设计与实现[J].信息与电脑(理论版),2017(21):70-72.
[2]胡一.基于大数据的电子商务个性化信息推荐服务模式研究[D].吉林大学,2015.
[3]叶红云.面向金融营销问题的个性化推荐方法研究[D].合肥工业大学,2011.
[4]韩莉.大数据时代的个性化推荐技术分析[J].晋中学院学报,2016,33(03):74-77.
[5]马相春,钟绍春,徐妲.大数据视角下个性化自适应学习系统支撑模型及实现机制研究[J].中国电化教育,2017(04):97-102.
[6]周志华.机器学习[M].北京:清华大学出版社,2016:97.
[7]戚德虎,康继昌.BP神经网络的设计[J].计算机工程与设计,1998(02):47-49.
[8]余力,刘鲁.电子商务个性化推荐研究[J].计算机集成制造系统,2004(10):1306-1313.