APP下载

基于马尔科夫链的电子商务信用风险预警模型构建

2016-10-11王兴芬教授北京信息科技大学计算机学院北京信息科技大学信息管理学院北京000

商业经济研究 2016年17期
关键词:马尔科夫店家卖家

■ 胡 斌 王兴芬 教授(、北京信息科技大学计算机学院、北京信息科技大学信息管理学院 北京 000)

基于马尔科夫链的电子商务信用风险预警模型构建

■ 胡斌1王兴芬2教授(1、北京信息科技大学计算机学院2、北京信息科技大学信息管理学院北京100101)

为解决电子商务交易过程中信用风险的问题,本文针对卖家信用构建了一套预警模型。通过对卖家数据收集、清洗、构建风险预警指标体系并建立基于马尔科夫链的预警模型,进而利用相关样本进行实验分析,结果显示其预警效果良好,具有一定的实际应用价值。

电子商务信用风险指标体系预警马尔科夫链

引言

电子商务信用问题已经成为电子商务的瓶颈,如何对卖家进行信用评估和风险预警是电子商务亟待解决的问题。徐峰(2003)、薛有志(2012)、Xiao B(2011)以及Wang HC等(2010)从店铺相关、商品相关、交易过程相关、服务相关和评价人相关五个方面出发构建C2C电子商务商家信用指标。但是他们都没有考虑到评价真实度和促销活动等因素。张韵君等(2011)通过分析网络交易特点和消费者对商品的感知,从消费者感知角度将商家的信用指标分信息、态度、配送、承诺、价格、质量、数量等。赵妍(2010)通过调查问卷的形式从商家和消费者两方面建立信用度指标。信用评价模型的构建方法,国内研究者也提出了很多方法如模糊理论(周华玲,2010)、时间衰减(张宇等,2011)、静态(罗玲,2013)和动态(曾令强等,2012)信用构造等方法。但是这些研究选取的因素过于宽泛,根据自己特定研究而选取,不具有普遍性,而且物流等第三方不确定因素纳入信用指标使得商家处于一定劣势。

在预警方法方面,目前主要的研究思路是采用专家打分方法确定风险因变量,然后构造一些静态指标,如好评率、与实际预期相符程度等构造指标体系(李迎林,2013、汪鑫,2011),进而将样本分为训练集和测试集构造预警模型并加以验证(余乐安,2012)。支慧(2015)通过选取 40 家同类型企业利用其数据,采用因子分析法和 Z-Score 预警模型来构造电子商务信用风险预警模型。在Web应用方面,有的学者利用马尔科夫对用户的上网行为进行预测以及预测用户的浏览模式(班志杰等,2009)。马尔科夫链模型有成熟的数学基础,在股票预测、环境质量预测、市场经济预测中都有广泛的应用。

电子商务预警模型构建

(一)电子商务预警模型整体流程图

本文将马尔科夫链模型应用在现代电子商务领域中实现对卖家的信用风险预警功能,给消费者更加安心的消费环境。本文所构建的电子商务风险预警模型的具体建立流程如图1所示。

(二)数据采集及预处理

1.数据采集及数据表的建立。现代电子商务数据量已经达到TB级别甚至PB级别,所以要分析网络零售商的大量数据就需要采用分布式大数据处理技术。本文中采用Hadoop集群对在线零售商的销售数据进行提取,采用httpclient、jsoup等技术对网页的HTML中相关数据进行提取。本文中提取的数据分为五类,分别为:卖家信息、卖家店铺动态评分、卖家服务情况、卖家信用评分、卖家评论。其中卖家信息中又包括二级子类:卖家所在区域、销售商品类别、商品单价、卖家注册时间、卖家库存数量。卖家店铺动态评分中包括商品与描述相符度、卖家服务态度、卖家发货速度。店铺服务情况分为:本月评价退款速度、退款率、纠纷率、处罚数。卖家信用评价分为:好评数、中评数和差评数。然后将这些HTML数据信息存入数据库中,根据提取数据以及相关文献调研,本文建立可能影响卖家信用的数据如表1所示。

2.评论真实度语义分析。为了更加准确地对店家信用风险进行评估,本文将对店家评论数据进行语义分析,即判断出消费者给出的评论是否和给出的评分一致。从而判断出消费者是否对本次购物真正的满意。本文将数据库的评论数据提取关键词和语气词,并且将这些关键词以及语气词与词库中的关键词和语气词进行对比。判断评论和实际给出的评分的差距,并且给定从1到5,五个不同的度量值,1表示评论和评分不一致,5表示评论和评分一致。处理过程如下:取数据库中一条评论数据如图2所示,情感词库如图3所示,最后经过处理得到分词结果和真实度得分如图4所示。将本月所有评论的得分取平均值作为该月商品评论真实度的值。

图1 预警模型流程图

图2 数据库中评论

图3 情感词库

图4 处理结果

图5 权重训练结果

3.关键因素选取。根据提取出来的数据进行分析可以看出,卖家店铺的动态评分几乎相似,各个店家的商品相似度、服务态度以及发货速度评分都分布在4.6-4.9之间,很难区分出好坏,因此本文将其不列入评分体系内。根据相关文献及数据分析,最终选取关键因素为:卖家月销售数量、本月平均退款速度、本月退款次数、本月纠纷次数、本月处罚次数、好评数、中评数、差评数、评论真实度量值、当月是否有促销活动。

4.关键因素权值计算。销售数量、退款速度、退款次数、纠纷次数、处罚次数、评论真实度,需要计算各个指标权重。本文采用神经网络对权重进行训练,开始手工设置数据项的权值,然后采用单层神经网络对权值进行训练,算法如下:

初始化权重wi和阈值θ。

激活。通过输入x1(p),x2(p),…,xn(p)以及期望输出yd(p)来激活感知器。在迭代p=1上计算激活函数的输出:

这里迭代p表示提供给感知器的第p个训练实例,n为感知器输入的数量,公式(2)为阶跃激活函数。

权重训练。修改感知器权重:wi(p+1)=wi(p)+|wi(p),其中Δwi(p)为迭代p上的权重校正。通过delta感知器学习规则计算权重校正,如公式(3)和(4)所示:

e(p)是误差,当其为正时,就需要增加感知器输出y(p);当其为负时,就要减少感知器输出y(p)。每个感知器对总的输入X(p)的贡献为xi(p)+ wi(p),由此可知,增加或减少权重wi(p)可以增加或减少输出y(p)的值。α是学习速度,是一个小于1的常数。yd(p)表示在迭代p中的期望输出,y(p)为在迭代p中的实际输出。

迭代。迭代p加1,回到步骤2,重复以上过程直到收敛。

图5为权重训练结果,由此可见销售数量、处罚次数和评论真实度的权值较大,这些都是消费者比较重视的,符合实际情况。

5.特殊情况处理。现代电子商务发展迅速,网络零售商的销售策略变得更多,在网上进行促销活动如“双十一”、“双十二”等各大电商的促销活动以及一些平时非平台性质的促销活动。这些促销活动都会使得店家的销售数据变得很高,有的店家在这些活动中就会以次充好,用低价换取高销售量和高好评数。这些活动大多是带有风险的,因为这些数据会对消费者以后购买产生一些误导。所以本文将考虑这些促销活动的特殊情况,使得本文给出的信用指标更加符合现代电子商务的发展。

6.信用值计算。其中,好评、中评、差评的积分策略可以依然采用淘宝网的策略。记为公式(1):S1=0.1*好评数+0*中评数+(-1)*差评数。根据权重值,记公式(2):S2=0.11*销售数量-0.03*退款速度-0.06*退款次数-0.08*纠纷次数-0.17*处罚次数+0.55*评论真实度。特殊情况记为公式(3):S3=(-0.1)*(销售数量-好评数)*是否有促销活动。公式(3)适当为有促销的月份进行浮动调节。最后店家的总信用评分记为S=S1+S2+S3。

(三)基于马尔科夫链的预警模型

1.数据指标的处理。本文统计了10家3C数码卖店共118条数据,根据计算得知所有卖家的信用值多分布在[10,400]区间内,只有顶级卖家的信用值在400以上。对比卖家的当月的信用度和经过计算的得分最后给出风险等级的划分如表2所示。

本文选取北京某3C数码店家4月份的交易数据为例进行计算:销售量为2222次,纠纷退款4次,纠纷率为0.18%,退款次数389,退款率为17.52%,处罚次数0次,平均退款速度是2.98天。好评数1021个,中评数2个,差评数2个,该月是否有促销活动为否,评论真实度为5。根据上述数据即可以求出4月份店家的信用指数为182。根据分类该卖家在2014年1-10月的信息进行统计分类得到分类情况,如表3所示。

2.马尔科夫链模型的建立。马尔科夫过程是一种常见的随机过程,如果一个系统包含有限个状态,则下一个状态只与它当前状态有关而与前一个状态无关,也被称为马尔科夫链的无后效性。马尔科夫过程根据状态的连续与否分为状态连续的马尔科夫过程和状态不连续的马尔科夫过程即离散马尔科夫过程。时间离散同时状态也离散的马尔科夫过程称为马尔科夫链。马尔科夫链可以反映风险状态的转移概率Pij。Pij表示从风险等级i转移到风险等级j的概率。

表1 可能影响卖家信用的因素

表2 风险等级的划分

表3 月份的风险等级分类

表4 店家10个月的数据

表5 第11个月的风险等级预测

表6 预测数据与真实数据对比

其中pn1+pn2+…+pnk=1。基于状态转移矩阵,可以得到每个状态转移概率的最大结果,从而利用其进行预测。每个风险等级状态都呈现有限和可数的状态x1,x2…,xt,而且每一个月的风险等级从xik到xjk+1的概率转换只取决于当前月份跨度k。在本文中风险等级分为五级即五个状态,每个月的风险根据其值分别分布在五个状态中。

其中Pij(m)表示的是风险等级集合xi中月份经过m个月的跨度转化到风险等级xj中的月份的概率。ni表示风险等级i状态中包含月份的个数。Nij(m)表示风险等级i中月份经过m个月的跨度变化最终转换到风险等级j中月份的次数。

实证研究

(一)预警模型初始化

利用表3中的分类数据,对店家前10个月的数据进行建模,并对模型进行测试。选取的店家数据如表4所示。

其中等级1的月份为1、2、4;等级2的月份为3;等级3的月份为5、7;等级4的月份为6;等级5的月份为8、9、 10。根据公式(5)和公式(6),建立五个状态转移的概率矩阵。由于实验数据具有一定局限性,所以计算时应遵循如下规则:一是如果状态集合中元素为0,则将集合元素最多的状态赋值为1,如果多个集合元素相同则赋均值;二是如果状态集合中的月份加上转移跨度超过集合中月份上限则将该行最后一列赋值为:,其中p为矩阵中当前行相应列的概率值。此规则不会影响到数据原有的统计特性,所以对结果不会产生很大影响。以下为计算得出的转移矩阵:

(二)风险等级预测

本文利用第6-10个月的数据去估算第11个月的风险等级。需要知道前5个月的初始状态和第11个月的跨度,如表5所示。

最后第11个月的状态中状态5的值是最高的,所以将11月的风险等级划分到第五级中。

(三)回归测试

为了证明模型的准确性,利用已知的数据进行测试。用1-5月的数据去预测第6个月的风险等级,依次类推,测试6-10月的风险等级。具体情况如表6所示。

本文测试了几十家店家,根据实验测试表明,改进后的马尔科夫链模型的预测准确率很高,其中出现2种情况会导致预测结果偏差:第一个是店铺得分过于接近两个等级的临界点,可能是因为等级划分较粗糙导致;第二个为店家数据波动较大,因为马尔科夫链模型特性导致了错误发生。模型虽然有一定的误差,但是整体的精准度很高,具有一定的实际应用价值。

结论

本文针对电子商务网站中卖家的信用构造了一套符合当代电子商务发展趋势的信用评判指标,在指标中加入了评语相符度和是否有促销活动等以往研究没有考虑但是对信用影响很大的指标。并且将马尔科夫链模型引入到电子商务领域中,构造了一个具有预警功能的模型。实验证明,利用本模型可以很好地对店家的信用风险进行预警,可以在消费之前将风险降到最低,具有一定的实际应用价值。

1.徐峰.基于顾客集合的C2C电子商务商家信用模型研究[J].绍兴文理学院学报,2013,33(9)

2.薛有志,郭勇峰.C2C电子商务卖家的竞争战略研究:基于淘宝网的分析[J].南开管理评论,2012(5)

3.Xiao B,Benbasat I.Product-related deception in E-commerce:a theoretical perspective[J].MIS Quarterly,2011(11)

4.Wang H C,Doong H S,Foxall G R.Consumers’intentions to remain loyal to online reputation systems[J].Psychology & Marketing,2010(9)

5.张韵君,陈伟.基于消费者感知的C2C电子商务信用评价模型研究[J].商业时代,2011(11)

6.赵妍.C-C 电子商务中的信用风险和信用评级方法研究[D].北京邮电大学硕士论文,2010

7.周华玲.基于模糊理论和时间帧的C2C动态信用评估模型[D].山东理工大学,2010

8.张宇,朱卫祥.基于时间衰减和交易信息加权的动态电子商务信任模型[D].浙江理工大学, 2011

9.罗玲.基于模糊综合评价法的C2C电子商务二阶段信用评价模型[J].现代商业,2013(28)

10.曾令强,肖萍.电子交易平台多元综合信用评价的研究与实现[J].广东石油化工学院学报,2012(22)

11.李迎林.C2C电子商务动态信用评价模型[D].首都经济贸易大学硕士论文,2013

12.汪鑫.基于退货评价的C2C电子商务信用评价模型改进研究[D].江苏科技大学,2011

13.余乐安.基于最小二乘近似支持向量回归模型的电子商务信用风险预警[J].系统工程理论与实践,2012(3)

14.支慧.电子商务信用风险的预警指标体系构建[J].科技展望,2015(1)

15.班志杰,古志民,金瑜.Web预取技术综述[J].计算机研究与发展,2009,46(2)

北京市教委科技重点项目“电子商务平台交易纠纷规避的若干支撑技术研究”(KZ201411232036);国家自然科学基金项目“网络零售交易风险动态评估及预警研究”(71571021)

TP302.2

A

猜你喜欢

马尔科夫店家卖家
基于叠加马尔科夫链的边坡位移预测研究
买家秀和卖家秀
基于改进的灰色-马尔科夫模型在风机沉降中的应用
不会吃蟹腿的买手 不是好卖家
遇上了行家
多地查缴“牙签弩” 央视:仍有店家偷偷卖
付款不及时卖家将房卖出,能否解除购房合同?
卖家注意,这15种曾经风靡一时的经典玩具千万别卖!
马尔科夫链在教学评价中的应用
基于马尔科夫法的土地格局变化趋势研究