APP下载

数据挖掘在移动电子商务的应用及探索

2011-03-11张玉忠李云杨豪杰方艾

电信科学 2011年6期
关键词:数据挖掘个性化电子商务

张玉忠,李云,杨豪杰,方艾

(中国电信股份有限公司广东研究院 广州 510630)

数据挖掘在移动电子商务的应用及探索

张玉忠,李云,杨豪杰,方艾

(中国电信股份有限公司广东研究院 广州 510630)

目前,电子商务的发展面临着业务与盈利模式同质化、忠诚用户少、服务个性化程度低、用户发展渠道单一等困难,为最大程度地挖掘客户价值、满足用户的服务个性化需求,电信运营商应充分发挥自身特点,建立用户统一视图,通过数据挖掘技术,实施用户细分策略,全方位地量化用户综合价值,提高用户感知,增加用户黏性,促进电子商务特别是移动电子商务向服务差异化的趋势发展。

综合价值;RFM模型;客户生命周期理论;个性化服务;协同过滤

1 前言

目前的电子商务面临着激烈竞争:根据艾瑞2010中国电子商务年度发展报告数据,全年交易规模达4.8万亿元人民币,同比增长33.5%;市场参与主体的多样化将会更加明显,平台化和品牌化将是未来的主流,开放与共赢将成为整个互联网经济的主旋律。上述发展特点的结果必然造成未来电子商务业务与盈利模式同质化现象突出,产品和服务既各有特色又相互交叉重叠。

另一方面,手机终端特别是智能3G手机终端的兴起与普及,正逐步改变客户对信息获取的实时性、个性化等要求。丰富的“移动”元素的介入,使得移动电子商务的发展面临着更多难题,同时也提供了更多的机遇。移动时代的电子商务呈现出如下特征。

首先,用户属性、消费能力、行为偏好、话务行为特点、社会关系网络等传统的多源数据整合已相对稳定和成熟,精确的移动位置定位信息、多样化的终端类型、可靠的信息安全机制等移动元素的获取逐步开放,因此可以构成一个全方位、立体的用户统一视图,从而更全面地综合描述用户特征。移动终端相对于PC终端来说,其本身携带信息的准确性、自由性、个性化更加明显,对用户特征的描述也更加稳定,因此移动电子商务是一个基于互联网又超越互联网的综合应用。

其次,打造一个良性协作并持续发展的产业链及商业模式,促进移动电子商务的可持续发展。电信运营商、软件提供商、手机终端商、银行支付、物流配送等移动电子商务领域的产业链上下游基本形成,分工界面逐步清晰化。产业链的各参与方只有紧密合作,才能打造一个良性的生态环境。

再次,大力推广具有移动特色的创新/微创新产品,用丰富的产品培养用户的移动电子商务使用习惯。丰富的信息获取窗口如购物、美食、股票、天气、旅行、影视、新闻、航班、音乐、游戏、广告等“衣食住行乐”有助于诱导用户进行电子商务。但由于受制于复杂的终端类型和屏幕尺寸限制,过多的信息反而会干扰用户对信息的获取,因此个性化的信息定制和信息推荐是非常必要的。

因此,在激烈的竞争格局和丰富的“移动”元素背景下,数据挖掘技术在应用于移动电子商务时面临着历史数据更多、个性化用户需求更高、信息反馈实时性更强等诸多特点。中国电信需要紧抓“移动”要素,充分发挥综合信息服务商的优势,融合数据挖掘的解决方案,多渠道分类用户特征,用服务的差异化来支撑用户需求的个性化,培养用户的使用习惯,打造优质的用户体验,增加用户使用的粘性,打造和发展一个具有综合应用能力的移动电子商务生态体系,进一步巩固其智能管道主导者地位,向个性化的用户细分、差异化的产品提供、前瞻性的业务探索、开放性的共赢合作等目标迈进。

本文立足于电信运营商的角度,结合过去一年在“号百客户精确营销”支撑项目的工作成果,从多源数据整合、潜在用户挖掘、服务等级细分、服务个性化以及未来发展趋势等几个方面,试验和探索数据挖掘技术在为用户提供个性化的3A(anytime anywhere anyservice)移动电子商务应用过程中的价值和特点。

2 多源数据整合

多源数据整合是数据挖掘的基础,但海量数据对ETL(extraction transformation loading)过程、分析汇总、智能挖掘等带来巨大的性能瓶颈问题。过去只能通过单方面提高主机处理能力、修正或改进算法等有限的方式改善这一问题,而云计算(cloud computing)的出现为该问题的解决提供了一种相对较好的方案。例如在“号百客户精确营销”支撑项目中,通过采用开源社区的hadoop分布式并行计算框架和cloudbase数据仓库软件(如图1所示)的系统架构,基于4台廉价的PC Server即可处理每月的数据:50亿条话单记录、0.8亿条CRM资料、0.2亿条业务数据。试验证明,该分布式处理框架的处理性能是同样配置的单机处理能力的10倍以上,而且处理能力是可以光滑水平扩展的,在数据量增加的情况下,通过追加机器的方式即可线性增加该平台的处理性能。

图1 分布式计算框架

3 潜在用户挖掘

中国电信拥有数量巨大的高度可信的用户资源与用户资料,同时还拥有众多的黄页广告用户资源和成熟的营销渠道,这是中国电信的优势和核心之一。如何充分发挥其优势,针对移动电子商务产品的特性,如何全方位、多维度地描述和分类用户的行为特征,并根据存量用户的特征挖掘更多的潜在用户,促进用户量的大幅度提升?在“院线通”、“电话QQ”、“健康顾问”等产品的初期推广阶段,通过用户细分、协同过滤等技术手段提取潜在用户名单,再通过电话外呼和短信推送后,业务访问量和营销命中率都取得了较好的效果。

(1)用户细分

图2 客户全景视图

中国电信作为综合信息服务提供商,特别是号百业务的长期积累和发展,汇聚了大量的商家行业分类信息和客户增值业务订购信息。海量的历史数据经云计算平台整合处理后,得到综合的多渠道的用户话务行为、网络浏览记录分析、移动位置服务信息、兴趣偏好分析、消费能力的客户全景视图(如图2所示),并把这些分析结果动态地记录在用户行为知识库。以“114”话务数据为例,用户的查号需求携带了兴趣关键字、商家名称等信息,较长时间的用户历史数据积累,结合号百的商家信息库数据,即可在行为知识库里面较准确地记录下用户的兴趣偏好等信息。行为知识库在移动电子商务发展的不同阶段,可以通过不同的数据挖掘模型和算法,得到用户的分类和聚类,实现精确营销和市场宣传,快速准确地积累用户。

用户行为知识库的用户全景数据,还可以有多种分类方法:如按数据变化特点分为静态、动态、衍生数据;按详细程度可分为综合、细分数据(如美食家类型的用户可以根据菜系、价位、时间段等做进一步的深度分析);按复杂程度可分为单维标签、综合标签数据(如根据智能业务费用在用户ARPU值的占比高、高级智能终端、年龄段在25~35岁、兴趣较广泛等单维标签组合成“时尚达人”的综合标签)等。

(2)口碑营销

原始用户积累到一定程度后,可以借鉴病毒营销的模式,向其周围传播产品,辐射和发展更多的客户,主要的技术手段有挖掘种子用户、圈子用户、社交网络分析等。口碑营销主要用于在避免对用户过多干扰的前提下,以少量的人力、物力辅助市场认知度的提升。

(3)协同过滤

协同过滤(CF)的本质是根据其他用户的喜好来预测目标客户可能的喜好,常用的相似度有基于用户和基于项目两种;相比传统的基于内容分类过滤的方式,CF在开源社区有很高的活跃度,但在用户活跃度低的场景下需要处理稀疏矩阵等难题。

4 服务等级细分

根据数据库营销研究所Arthur Hughes的研究,用户消费属性有3个重要维度[3]:消费近度R、消费频率F、消费金额M,这3个维度多方位地描述了用户价值的全景视图,是衡量用户价值和用户创利能力的重要工具和手段,是用户多维度合成的综合价值,为用户服务的个性化和分级化提供了较全面的参考依据。综合价值C的计算见式(1):

其中,C表示RFM 3个维度的综合价值打分,W表示RFM 3个维度的权重比例。该式的C和W计算方法根据业务特点的不同可以有很大的差异性。在号百的商旅业务试验中采用了如下方法解决上述问题。

·RFM的取值在很多建模过程中采用用户原始值的方式,由于每种原始值的取值范围通常差异很大,因此分箱值的范围很难指定。使用用户RFM价值分别与其对应的平均值相除的方式来消除量纲,从而方便人工调整分箱值。

·权重系数W使用线性回归计算的方式得到,而不是套用经验,具体过程如下:首先根据业务需求挑选少量典型记录,其次要求业务人员对这些记录按照RFM业务规则分别打分,最后用线性回归算法求出W的取值。

经该过程处理后,较大程度地提高了商旅红名单的准确率,具体实现如下。

(1)消费近度 R

R指用户最近一次使用号百服务至当前日期的时间间隔。不同的业务可以使用不同的周期,根据商旅业务的特点,可以采用月做单位,在同一个单位之内的R具有相同的大小。

RX按照业务等级数目的不同,定义不同的等级门限阈值,不同级别的离散值计作CR,CR的取值范围是1~NR的自然数,NR是等级数目,CR越小表示用户最近一次业务使用时间距当前日期越久。

(2)消费频率 F

根据业务特点,统计用户使用业务的总频次F。计算所有F的平均值F,F/F的结果计作FX。FX按照业务等级数目的不同,定义不同的等级门限阈值,不同级别的离散值计作CF,CF的取值范围是 1~NF的自然数,NF是等级数目,CF越小表示用户使用电子商务的频度越低。

(3)消费金额 M

根据业务特点,统计用户使用业务的总消费额度M。计算所有M的平均值的结果计作MX。MX按照业务等级数目的不同,定义不同的等级门限阈值,不同级别的离散值计作CM,CM的取值范围是1~NM的自然数,NM是等级数目,CM越小表示用户使用电子商务的消费额度越低。

(4)权重系数 W

权重系数要根据不同的业务特点甚至不同的业务发展阶段和市场策略来调整,如何调整RFM三者的权重值需要采用科学的方法进行分析。为使RFM的综合价值结果与决策人员的判断尽最大可能地一致,可以采用如下方法:提供少量典型的样本数据CR、CF、CM给决策人员,由决策人员给每一个样本数据打分CI;根据样本数据CI和CR、CF、CM,采用线性回归的方式计算权重 WR、WF、WM。

最后,根据式(1)可以计算每个用户的可量化的综合价值CI,用户的综合价值可以直接应用于用户的等级分类,如根据“二八定律”,可定义Top 20%的用户为VIP用户,为这些用户提供更加优异、全面的差异化服务。

5 服务个性化

服务个性化是互联网业务改善客户体验的重要途径之一,它可以很大程度地提高客户黏性。在“商旅用户出行分析”专题中,通过用户话单的分析,结合GIS信息模型,得到CDMA网移动用户在几个月内的出行轨迹、(可能的)出行工具,该结果在商旅订房订票业务中成功应用:坐席在下一次与用户交互的过程中,通过弹屏的方式显示用户的兴趣偏好、消费能力、(可能的)差旅目的地等综合信息,帮助坐席在最短时间内快速定位和满足用户的需求,缩短交互时间。个性化主要体现在交叉业务营销、精确实时推荐、客户生命周期营销与维系方面。

交叉营销的一个经典场景就是沃尔玛的 “啤酒和尿布”故事,通过不同产品订购分析,在浩如烟海却又杂乱无章的数据中挖掘出数据之间的关联性,从而在套餐组合、产品推荐、用户聚类、用户行为预测、购物篮分析等方面提供统计的依据。目前的商业数据挖掘软件可以提供比较成熟的算法,如Apriori、GRI等,这些算法的结果可以根据自定的支持度和置信度阈值,结合模型评估及调整,最终形成健壮性、可伸缩性、预测准确性都符合业务要求的模型。

精确实时推荐是指通过分析用户以往的历史记录,在合适的时间,以合适的工具向用户推荐用户感兴趣和相关的信息。目前,互联网存在大量的类似业务,如Google和百度的搜索广告、音乐网站的歌曲推荐等,其实质都是在大量用户历史数据的分析基础上做改善用户感知、预测用户行为的应用,第一时间把用户可能感兴趣的产品首推给用户,起到“Don't Make Me Think”的效果。

客户生命周期理论[4]是指从企业与客户建立业务关系到完全终止关系的全过程,是客户关系水平随时间变化的动态发展轨迹,可分为考察期、形成期、稳定期和退化期等4个阶段。在客户生命周期的不同阶段,成本投入和利润回报率是不同的,需要根据不同的阶段特征提供相应的个性化服务,进行不同的战略投入,获得更多的客户价值,特别是在退化期,要考虑如何利用流失预警的方式提前进行用户维系工作,最大程度地延长客户的生命周期。

6 未来发展

在相当长的一段时间内,信息获取仍然是诱导和培养用户使用移动电子商务习惯的重要途径。因此,内容丰富的、个性化的信息提供渠道与移动电子商务产品的结合是移动电子商务产业链发展环节的粘合剂,也是催化剂。

另外,移动电子商务特别注重用户体验的自由性,也就是用户可以随时随地地使用所需业务。要实现该目标,除了需要大量的用户历史行为数据、丰富的产品做支撑外,还需要高速、海量的数据处理能力来支撑,有效地融合物联网理念和云计算技术可以有助于推动这一目标的实现。例如用户上传所感兴趣产品的一张图片,后台系统可以根据图像识别技术快速反馈不同卖场的相同产品以实现价格比较等。目前,云计算技术还有待完善,产品多停留在概念上,离商业化还有一定的距离,特别是与数据挖掘相关的商业工具在与云计算的结合方面落后于开源社区。

1 2010年中国电子商务年度数据发布.http://ec.iresearch.cn/html/131667shtml

2 RFM模型-MBA.智库百科.http://wiki.mbalib.com/wiki/RFM%E6%A8%A1%E5%9E%8B

3 客户生命周期理论.http://wiki.mbalib.com/wiki/%E5%AE%A2%E6%88%B7%E7%94%9F%E5%91%BD%E5%91%A8%E6%9C%9F%E7%90%86%E8%AE%BA

4 杨震,陈晓勤.电信企业开展个性化信息服务的研究.电信科学,2009,25(10)

5 汪树东,柯卫,董亚楠.移动支付平台建设实践与探索.电信科学,2010,26(9)

Application and Exploration of Data-Mining into e-Commerce

Zhang Yuzhong,Li Yun,Yang Haojie,Fang Ai
(Guangdong Research Institute of China Telecom Co.,Ltd.,Guangzhou 510630,China)

For the present,e-commerce business is confronted with such challenges as homogeneous profit pattern,customer churn,tenuous loyalty,single channel etc,to satisfy personalized customers and maximize the profits,the telecom sponsor will benefit from providing customer with classification,levelized service by data-mining solution.

comprehensive value,RFM model,customer life cycle model,personal service,collaborative filtering

2011-04-28)

猜你喜欢

数据挖掘个性化电子商务
探讨人工智能与数据挖掘发展趋势
坚持个性化的写作
《电子商务法》如何助力直销
新闻的个性化写作
电子商务
基于并行计算的大数据挖掘在电网中的应用
上汽大通:C2B个性化定制未来
关于加快制定电子商务法的议案
跨境电子商务中的跨文化思考
一种基于Hadoop的大数据挖掘云服务及应用