基于评论情感倾向和神经网络的客户流失预测研究
2018-07-24安海岗
冯 鑫,王 晨,刘 苑,杨 娅,安海岗
(1.河北地质大学,河北 石家庄 100086; 2. 航天恒星科技有限公司,北京 0500031;3.石家庄市第二职业中专学校,河北 石家庄 050000)
0 引 言
在通信市场竞争角逐之下,初入市场的42家MVNO的业务发展也不平衡,用户量多则达数百万,少则月增量仅数十用户,几近亏损。大多数移动网络虚拟运营商由于缺乏运营管理经验面临用户增长缓慢且客户流失严重的双重问题。部分研究表明新用户的开发成本远比存留客户的挽留成本要多[1],因此帮助移动网络虚拟运营商识别潜在流失客户是值得关注的问题。客户流失预测问题的研究大体可分为三类:客户流失影响因素、预测模型及挽留研究。客户流失预测的方法通常是识别其影响因素去构建预测模型,预测出潜在流失客户,并对其制定相应挽留策略[2]。基于已有研究本文将从客户满意度、忠诚度、服务质量及口碑传播四方面考虑,运用BP神经网络预测流失客户并提出针对性挽留措施及建议。
1 国内外研究现状
1.1 移动网络虚拟运营商研究现状
移动网络虚拟运营商指没有自己的无线网络设施,通过向传统运营商购买网络接入容量的方式,再进行转售业务的新型通讯网络运营商(Mobile Network Virtual Operator, MVNO)[3]。目前对MVNO的研究主要集中在发展困境、策略及业务模式等三个层面。肖清华等从MVNO发展初期必须要解决规模用户以及规模化转化为收入的问题入手提出其业务创新的必要性[4]。也有部分学者认为,与传统运营商相比MVNO无需投资昂贵的基站硬件而避免了大规模资金投入[3]。MVNO的成本主要来自网络容量租赁,且平均成本取决于用户数量,故初期必须大力发展用户来降低平均成本[5]。已有研究多较为宏观,微观量化研究较少,故本文利用文本挖掘和BP神经网络对其客户流失进行预测以期对其发展提供量化的决策依据。
1.2 客户流失预测研究现状
本文将客户流失定义为:现有客户对产品发生情感变化选择放弃继续购买或使用该服务或产品[6]。目前国内外学者对研究客户流失问题的关注点在客户流失影响因素、模型构建以及挽留研究等方面。
1.2.1 客户流失的影响因素研究现状
客户流失影响因素主要有:服务质量、客户满意度、客户忠诚度及口碑传播四方面,而服务质量是决定因素[7,8,9]。多数学者从消费数据出发研究客户对运营山的满意度和忠诚度情况,满意度情况多从拨打客服次数、人工服务、GPRS业务、通话时长等方面进行;忠诚度情况多从用户是否使用该运营商以外的运营商服务、联系人是同个运营商的比例、转网次数和转网意愿等方面进行[10]。但因消费数据保密性强,单从已有数据较难得到满意结果。此外也有通过调查问卷了解用户对运营商满意度、服务质量的评价、忠诚度情况,但因调查问卷的局限性可能导致分析结果不全面。以往研究鲜有通过用户情感去分析客户流失问题的,在线评论能最直接体现用户对购买和使用该产品的情感,通过识别评论特征与客户流失之间的关系能够有效预测客户流失。
1.2.2 评论特征对客户流失影响研究
从评论角度研究客户流失问题,主要集中在满意度方面,即对评论文本分为积极与消极两类[11]。积极情感客户是高满意度客户,有低流失风险,且传递正向积极的口碑,而消极情感客户是低满意度的客户,有高流失风险。还有学者利用在线评论去研究客户忠诚度,认为在线评论有用性与客户忠诚度之间存在正相关[12]。而评论内容特征及评论者特征,评论者特征包括专业性、等级、名声地位等都对在线评论有用性有较强影响[13]。因此,本文通过在线评论特征去探索客户流失是具有理论基础与意义的。
1.3 情感分析技术研究现状
因中文的复杂性,国内情感分析研究起步较晚,常用情感倾向性分析有词级、语句级和篇章级。文本情感值计算方面,有基于情感词典和语料库的两种计算方法:周爱武等提出了基于How Net 词典的情感倾向计算[14];邵其武等用知网词典建立计算语料库中的基准词表,计算查询词的情感倾向[15]。目前知网的词典已比较完整,只缺乏一些新兴的非规范用词或网络用词等,但在词语相似度辨别准确度较差,特别是在处理句子级文本时误差较大。除计算相似度外,有人提出在情感分析的基础上,从短语角度分析情感性[16];Turney 提出了简单模式匹配分析,将特定的短语进行模式匹配后进行情感性分析,研究效果尚可[17],其核心是将特定词语分成消极和积极两类后再与原文本匹配。
2 评论文本的采集与预处理
2.1 评论文本采集
对MVNO筛选发现,京东的评论文本量大且内容丰富,涉及产品及服务等多方面。评论包含商品整体评价、名称,内容、时间、星级、用户名、地点、来源、热门标签几部分。因此选取部分京东MVNO的电信手机卡号类商品,抓取其评论信息含:评论内容、会员等级、星级、点赞、回复数等字段,时间跨度2016.10-2017.04,共10000余条。
2.2 评论文本预处理
2.2.1 基于知网How net情感词典的分词
知网词典的语料库虽已经相对完善,但一些新兴的网络用词与非规范化用词未被收录,需要在知网情感词典的基础上,添加部分与电信词汇相关的、评论文本词频较高的、非规范化用词,达到基本的分词需求,添加的部分词汇含电信词汇:先锋卡,磅礴卡,号段 激活,实名认证等,以及网络用词:给力 杠杠的 棒棒的 抓狂 无敌等。
2.2.2 评论文本停用词过滤
为提高分词准确率,在将停用词忽略后使用ICTCLAS对评论文本进行中文分词,该方法基于分词词典进行字符串匹配实现分词,结果如表1。
表1 分词结果示例
3 文本特征选择及情感分类
分词后不能把每个词都作为特征来研究,这样计算负荷较大且低频词研究价值较低,因此用文本特征选择来降维。
3.1 基于情感词典的文本特征选择
特征选择需找出代表性且与研究内容相关性强的词语,去除相关性差的,可通过情感词典标注感情词对整体情感进行分类来提高效率[18]。知网词典已将情感词分为积极与消极两类,积极情感有:喜欢,满意和赞赏等,消极情感有:后悔,不满意,大失所望和价高等,只需将评论文本中的代表性情感词与知网词典匹配作为基准词即可。情感特征词可反映客户购买和使用该产品的满意程度,通过特征选择降维后也便于后续的情感分类处理。
3.2 基于布尔算法的情感分类模型
情感分消极和积极,用布尔算法构建情感分类模型,将每个用户评论表示为文档数据集D= {d1,d2,d3,…,dn},而将抽取的特征项表示为集合V={t1,t2,…,tp}。数据集D作为文档,数据集V作为查询,各自为一组词构成,查询数据集是否在文档中只有两种可能:出现和不出现(1或0表示)。以京东商城移动网络虚拟运营商手机卡号用户评论为例,见表2。
表2 京东用户评论文本情感分类示例
4 基于BP神经网络的客户流失预测模型建立流程
4.1 BP神经网络理论
神经网络通常含输入层、输出层及隐藏层。若未得到期望输出,表示实际输出值与期望输出值存在误差,然后误差原路返回,通过不断修改各层神经元权值至误差最小[19]。增加层数可降低误差,但会增大训练时间与复杂度。因此本文选取三层 BP神经网络来构建MVNO用户的流失预测模型。
图1 神经网络结构示意图
隐含层节点数的确定无固定计算公式,一般由大量实验寻找最佳节点数,已有研究发现最佳个数一般频繁出现在如下区间内,如公式(1)所示:
(1)
4.2 模型数据准备
数据源于2016.10-2017.04京东运营商手机卡用户的在线评论,将评论星级、会员等级、点赞数作为输入层的变量,将评论内容情感分类的布尔数值作为输出层的变量。数据预处理包括:删除有缺失值样本和去掉重复数据。
将建模数据分为两个分布相同的互斥数据集。输出变量含评论星级、会员等级、点赞数。评论星级A1和会员等级A2均分为5级,用数值1到5表示。点赞数A3用布尔数值表示,点赞为1,反之为0。输出变量以情感布尔数值表示,积极为1,消极为0。由公式(1)计算最佳隐含层节点数区间为[2,12],并采用试错法找到其最优个数。首先,将数据按照70%、15%、15%分为训练集(training set),验证集(validation)及测试集(testing set);其次,运用newf构建BP神经网络,其中,隐藏层和输出层的传递函数分别为purelin和tansig;网络训练和取值学习分别是trainlm和tranlm;最大训练次数、学习速率初始值和训练目标精度分别设置为1000、0.1、0.001。
4.3 BP神经网络的训练
由上述过程,得预处理的数据预处理和基本的神经网络结构,经多次网络训练后,当输入层神经元个数为 4,隐含层节点数为 10时,模型训练时间较短且效果最好。得到理想的神经网络模型,其误差在8.5026e-08左右,小于模型构建时所设的误差精度0.0001,说明该训练误差在实验设定的误差要求内,见误差收敛图2。
图2 BP神经网络训练误收敛图
5 实验分析及结论
为了判定流失情况以及评估流失预警分界线,随机抽取部分样本观察预测结果。BP神经网络的输入层到隐藏层的估算权值(Whi)和隐藏层到输出层的估算权值(Wjh)分别如表3和表4所示,评论特征与客户流失的相对强度值(Yji)如表5所示。
表3 输入层到隐藏层的权值Whi估算表
表4 隐藏层到输出层的权值WJh估算表
表5 评论特征与客户流失的相对强度Yji表
由表5可知:评论星级、会员等级、点赞数对客户流失影响较大,即评论星级、会员等级越高,点赞数越多,客户流失的风险越小。评论星级较高一般意味着客户对企业的情感是积极正向的,其满意度和忠诚度也相对较高。会员等级越高的用户其转网的沉没成本也越高,因此流失风险较小,但其一旦流失企业的损失也较大,因为这部分顾客的价值也较高,这是因为在京东商城星级和客户消费金额是正相关的。因此当出现会员等级较高,但评论星级较低的情况,也就意味着高价值客户存在流失风险,这时企业应当积极挽留。对应地,会员等级低和评论星级低的客户流失率较大,这部分属于低价值并且满意度和忠诚度不高的群体,企业应当酌情挽留。回复数对客户流失也有影响,由于大部分评论的回复都属于消极的口碑传播,企业应当加强售后管理,鼓励这部分消费者传播正向积极的口碑,从而预防客户流失。
从表6可知客户流失的分界线在0附近,当流失度大于0时,判定为未流失,小于0时,判定为流失。被判定为流失的客户,其流失意向并非不可逆转,若采取适当的手段,加强与此类用户的沟通,提升服务,是有可能挽留住的,尤其是前文提到的客户等级较高但有流失倾向的客户。
表6 客户流失预测验证表
由模型预测结果可发现流失用户常为两种。第一种是评论星级高而评论内容消极的用户。此类用户评论星级高,但是满意度却很低。这是由于用户在购买过程中,由于物流体验及客服服务相对较好,就会抛开产品本身的问题,给商家好评。这类客户属于被动流失型,是由于产品本身不能满足自身的需求而发生流失。这类客户追求较高的商品品质,当其他供应商提供更好品质的商品时,这类客户往往就会转网流失。对此类客户,应当在商品质量上进行提升,才可以获得挽留。第二种是会员等级低的用户。会员等级不仅是一个人消费能力的体现,而且是一个客户稳定与否的体现。此类用户的忠诚度较低往往追求价格低廉的商品,可以通过推荐性价比较高的套餐或有吸引力的合约计划来挽留。
此外,点赞数与回复数高而内容消极的客户传播的是负面的口碑,也会在一定程度上影响客户流失,企业对于这类用户应当及时作出官方的回复,及时表示歉意给其购物带来的不便,树立良好的售后形象,降低客户流失的风险。点赞数与回复数高且内容积极的用户传播的是正向的口碑,在一定程度上可以吸引更多的潜在消费者,对于此类用户,应当酌情采取鼓励政策,使其发表更好的评论内容。
总之,运营商可由模型输出的流失度来判定客户流失风险,对具有流失倾向的用户采用客户挽留、价值提升等策略,以减少用户流失的比例。对于不具有流失倾向的用户也需要不断关注其发展动态,从而保障运营商能够以最少的成本保留更多的客户资源。