基于社交网络分析的高影响力客户识别模型算法
2014-09-22谭丽丽
谭丽丽
【摘 要】基于通信运营商社交网络数据量巨大、产生速度快、交互速度快、数据结构多样和分析复杂的特点,结合传统结构化数据的分析,提出了一种高影响力客户识别的模型,并应用于客户套餐购买过程中,得出了6个月内高影响力客户比随机客户推荐成功率平均提升4.8%、绝对量提升29倍的效果。
【关键词】大数据 社交网络 客户识别
1 前言
目前大数据和云计算两个概念是很热门的话题,业界逐步开始区分大数据和云计算。前者主要是指业务问题、创新机会和技术平台;后者主要是指按需付费、资源动态调配、自服务的商业模式[1]。互联网、社交网络、传感器、科研、金融正在产生越来越多的数据,联合国于2012年7月10日在纽约总部发布了一份大数据政务白皮书《大数据促发展:挑战与机遇》,总结了各国政府如何利用大数据更好地服务和保护人民[2]。美国政府推出了“大数据”战略,媲美于当年克林顿政府时代的信息高速公路计划,奥巴马希望借助大数据来将美国经济带出泥潭,从基础建设到IT硬件、软件、网络,最后到数据[3]。
运营商每天产生10TB+话单、30TB+上网日志和100TB+信令数据,对大数据的需求主要集中在Analytics
(分析)和使用方面。大数据驱动市场营销、驱动成本控制、驱动产品和服务创新、驱动管理和决策的创新、驱动商业模式的创新。智能终端、交互渠道、用户生成内容、传感器、社交媒体等多种方式产生的新型非结构化/半结构化数据(大数据),在通信运营商中,与传统结构化数据和分析方式整合后将创造巨大的价值。通过基于客户位置数据、网络日志数据和社交网络数据,对客户的消费行为、交往圈、流失情况和欺诈情况进行分析,提高了客户的忠诚度和保有率,既带来了相当数量的收入贡献,又挽回了巨大的损失。
2 社交网络大数据特点分析
大数据带来更强的竞争力、更快速的分析。应用数据分析的价值在于获得比竞争对手更全面、更多样化的信息以及更多发现,其中可能蕴含制胜的关键。企业的差异化能力依赖于数据分析,分析竞争成为企业的基础战略。数据分析几乎可以提升所有的商业过程,包括产品、价格、流程、销售、客户、人力、收购等。
数字化运营和数据分析成为每个运营商的基本能力,传统的数据及分析如CRM系统中的客户信息(通话、交易记录;广告效果;账户信息;营销预算、花费数据等),可以一定程度地反映一些信息,但已不再能给出重要的洞察和发现,尤其是面对竞争的时候。未来5—10年没有人会记得电信业,因为每件事情都基于数据,而不是基于通信。通信价值的逐渐下降有可能使得10年后大家都不知道什么是通信公司,成功的电信运营商将会成为大数据公司[4]。来自社交网络/媒体行为和邮件数据、移动搜索的内容、有效的客户生活信息及个人属性、位置信息、漫游记录、建筑数据和智能设备等的大数据构建了用户行为分析的基础,其中社交网络数据由于社交网络营销正成为企业采用的一种新的营销方式而显得尤为重要。
社交网络数据的特点体现在:
(1)数据量巨大(Volume),包括海量信令信息(位置更新/开关机/网络质量)、海量互联网行为数据(DPI/URL/社交媒体/关键词)、海量话单信息(语音话单/短信话单/CDMA话单)、M2M数据等;
(2)产生速度快(Velocity),如互联网/信令数据秒级到毫秒级的生成记录;
(3)交互速度快,业务上需要能够对数据实时访问和处理;
(4)数据结构多样(Variety),包括文本信息/互联网网页/投诉文本/短信文本、WAP日志/Web日志、用户行为内容、客户语音/营业厅影像/票据、传统结构化数据等;
(5)分析复杂(Complexity),如大数据交互式分析、移动互联网背景下的客户行为分析、复杂结构数据的关联整合、复杂负载类型的管理等[5]。
3 基于社交网络分析的高影响力(种子)
用户识别
如何利用社交网络分析提升营销能力是通信企业面临的一个重要问题。移动通信网络组成一个有效的社交网络,但通信企业在社交网络分析和营销方面还存在如下不足:
(1)企业营销:企业在衡量客户价值时没有考虑客户的影响力价值,营销时关注客户购买产品的潜在需求,没有考虑客户对产品的营销传播能力;
(2)客户信息:数据仓库存储以客户个体属性信息为主,很少涉及客户之间的关系属性,特别是从通信网络中提取的社交网络特征;
(3)分析模型:在构建传统分析模型时,没有把客户间的相互影响以及客户关系和影响随时间变化的趋势考虑进来。
3.1 社交网络分析概述
电信行业、传媒产业借助社交网络分析,通过客户的通话数据、微博连接,能够识别出这部分“影响者”。社交分析并不是分析单一用户的通话记录和微博信息,而是分析各用户所处的社交网络。社交网络分析是从大数据量中识别客户行为模式的技术,是一种无监督模型,其目的在于了解虚拟网络或一个小群体中现有客户的行为,建立客户间关系的全貌,用于指导企业的社交网络营销[6]。社交网络分析关注网络的静态分析和动态分析两个层面,具体如下:
(1)静态分析:提取网络指标,对网络特征刻画,识别网络群组;
(2)动态分析:网络如何随时间推移进行扩散,影响其他节点。
从电信CDRs(Call Detail Records)数据可以提取各种社会网络,如语音通话网络(客户A拨打或接收客户B的语音通话)、短信网络(客户A发送或接收客户B的短信)、彩信网络(客户A发送或接收客户B的彩信)、电子邮件网络、飞信网络、移动互联网、社交媒体等。
客户在扩散活动如产品推广活动中,能够接触更多的客户,并且可以影响到更多的关联客户跟他们采取同样的行为或参加一样的营销活动,因此客户影响力是附属于具体营销活动或营销问题的,藉此可以进行流失应用和新业务推荐分析。流失应用是通过社交网络分析识别流失客户中的有影响力客户,判断与之关联的哪些客户可能跟随流失,从而改善客户维系工作流程;新业务推荐是通过社交网络分析识别对某些新产品或业务推广的有影响力客户,进而影响与之关联的客户也跟随购买同样的产品或业务,从而降低营销运营成本并提高效益。endprint
3.2 社交网络分析模型构建
首先,构建客户影响力模型指标体系,见表1。所有指标一般采用最近4个月的平均值,另外需要对异常值进行剔除,对极端值按照客户行为平均值进行平滑处理。
其次,建立客户影响力模型计算方法。其中,去话和来话对通信企业的价值不同,去话的影响力和价值高于来话,去话与来话的收入折算系数为12.215。为消除量纲的影响,所有指标除以变异系数进行标准化处理,二阶中心度的影响力较一阶中心度低一级,做开平方根处理,单次通话时长做同样的处理。根据已发生事实调优客户影响力计算公式,如客户影响力指数没有与具体业务问题进行关联,即在客户流失问题中有影响力客户在捆绑套餐营销中不一定有影响力,因此需要根据具体的业务问题对客户影响力指数的指标及权重进行调整。
3.3 模型应用结果
筛选基础目标客户:抽取用户近3个月的交往圈信息和互联网访问内容信息,剔除移动互联影响力较弱的用户队列,即:剔除近3个月相互主动联系次数不超过N次的用户;剔除上网行为匹配度低的交往用户(近3个月内没有使用相同业务或不满足访问内容一致性、相同内容/应用访问时间、时长一致性等);计算每对用户间的互联边权重(强联系是指语音联系;弱联系是指信息联系,如短信、彩信、飞信、飞聊、邮件等;虚联系是指其他无显式的互联,如微博粉丝、通信录好友、集群网成员等)。计算次数时要求客户彼此之间有互联,如彼此有语音主叫、彼此有发送信息、彼此加对方为好友,否则联系值为0。剔除权重低于全网均值的互联边,如某群体之间的平均互联边权重约为28,则剔除后社交网络的互联边数量从7亿条降至1.2亿条,可大大减少计算量。
(1)选择购买套餐的前100名最具有影响力客户和随机100名客户,观察这两组客户的关联客户在随后6个月内的套餐办理数和办理率,结果如图1所示。这表明有影响力客户影响关联客户随后购买套餐的数量和比例都高于随机客户的影响,且初始月份之后,影响力有逐渐增强的趋势,而随着时间再继续向前,影响力又逐渐变小。
(2)以客户间的通话时长作为关系强度的衡量。如图2所示,本网一对客户之间的月平均通话时长为6.5分钟;选取前100名有影响力客户,他们与其关联客户之间每个月平均通话时长达到24.6分钟;观察有影响力客户与6个月内受影响购买套餐的关联客户之间的通话时长,最先受影响购买套餐的关联客户与初始有影响力客户的通话时长最长,随着月份的增加呈逐渐下降的趋势,这表明与初始有影响力客户联系越多的客户越最先受到影响。
在套餐推广过程中引入基于社交网络分析的高影响力客户识别模型算法,可以明显看出有影响力的套餐购买客户能够带动更多的客户跟随购买。随着时间的推移,有影响力客户与随机客户对管理客户的影响比较越明显,推荐成功率、推荐绝对数均随时间推移有显著增加,具体如表2和表3所示:
本次推荐的套餐价格为88元,根据三年内的统计数据,套餐的平均使用周期为12个月,将社交网络分析的高影响力客户识别模型算法仅用于100名客户就为运营商增加242.35万元的收益,有效地解决了运营商在企业营销中充分挖掘客户对产品的营销传播能力,提取客户之间的关系属性,将客户间的相互影响、客户关系和影响随时间变化的趋势在构建分析模型时充分地考虑进来。
4 总结
大数据时代的运营商将具备前所未有的深度洞察能力,各类客户数据、交互数据将通讯行业的商务智能从传统分析带到了更广阔的空间,全球众多运营商目前正在实施大数据。未来运营商将有更多的模式来经营大数据资产,包括租售数据模式、租售信息模式、数字媒体模式、数据使能模式等,各种模式背后也将催生出更多的产业[7]。
参考文献:
[1] 移动Labs. 应区分云计算和大数据两个概念[EB/OL]. (2012-12-28). http://labs.chinamobile.com/mblog/52251/191948.
[2] 王萌. “与数俱进”:联合国发布大数据政务白皮书[EB/OL]. (2012-07-12). http://www.ctocio.com/ccnews/7370.html.
[3] 大数据蕴含大价值[EB/OL]. (2013-07-21). http://www.doc88.com/p-2961680194630.html.
[4] 维克托·迈尔-舍恩伯格,肯尼思·库克耶. 大数据时代[M]. 盛杨燕,周涛,译. 杭州: 浙江人民出版社, 2012.
[5] 吴增海. 社交网络模型的研究[D]. 合肥: 中国科学技术大学, 2012.
[6] 肖云鹏. 在线社会网络用户行为模型与应用算法研究[D]. 北京: 北京邮电大学, 2013.
[7] 赵正永. 大数据专题讲座心得体会[N]. 陕西日报, 2014-02-11.★endprint
3.2 社交网络分析模型构建
首先,构建客户影响力模型指标体系,见表1。所有指标一般采用最近4个月的平均值,另外需要对异常值进行剔除,对极端值按照客户行为平均值进行平滑处理。
其次,建立客户影响力模型计算方法。其中,去话和来话对通信企业的价值不同,去话的影响力和价值高于来话,去话与来话的收入折算系数为12.215。为消除量纲的影响,所有指标除以变异系数进行标准化处理,二阶中心度的影响力较一阶中心度低一级,做开平方根处理,单次通话时长做同样的处理。根据已发生事实调优客户影响力计算公式,如客户影响力指数没有与具体业务问题进行关联,即在客户流失问题中有影响力客户在捆绑套餐营销中不一定有影响力,因此需要根据具体的业务问题对客户影响力指数的指标及权重进行调整。
3.3 模型应用结果
筛选基础目标客户:抽取用户近3个月的交往圈信息和互联网访问内容信息,剔除移动互联影响力较弱的用户队列,即:剔除近3个月相互主动联系次数不超过N次的用户;剔除上网行为匹配度低的交往用户(近3个月内没有使用相同业务或不满足访问内容一致性、相同内容/应用访问时间、时长一致性等);计算每对用户间的互联边权重(强联系是指语音联系;弱联系是指信息联系,如短信、彩信、飞信、飞聊、邮件等;虚联系是指其他无显式的互联,如微博粉丝、通信录好友、集群网成员等)。计算次数时要求客户彼此之间有互联,如彼此有语音主叫、彼此有发送信息、彼此加对方为好友,否则联系值为0。剔除权重低于全网均值的互联边,如某群体之间的平均互联边权重约为28,则剔除后社交网络的互联边数量从7亿条降至1.2亿条,可大大减少计算量。
(1)选择购买套餐的前100名最具有影响力客户和随机100名客户,观察这两组客户的关联客户在随后6个月内的套餐办理数和办理率,结果如图1所示。这表明有影响力客户影响关联客户随后购买套餐的数量和比例都高于随机客户的影响,且初始月份之后,影响力有逐渐增强的趋势,而随着时间再继续向前,影响力又逐渐变小。
(2)以客户间的通话时长作为关系强度的衡量。如图2所示,本网一对客户之间的月平均通话时长为6.5分钟;选取前100名有影响力客户,他们与其关联客户之间每个月平均通话时长达到24.6分钟;观察有影响力客户与6个月内受影响购买套餐的关联客户之间的通话时长,最先受影响购买套餐的关联客户与初始有影响力客户的通话时长最长,随着月份的增加呈逐渐下降的趋势,这表明与初始有影响力客户联系越多的客户越最先受到影响。
在套餐推广过程中引入基于社交网络分析的高影响力客户识别模型算法,可以明显看出有影响力的套餐购买客户能够带动更多的客户跟随购买。随着时间的推移,有影响力客户与随机客户对管理客户的影响比较越明显,推荐成功率、推荐绝对数均随时间推移有显著增加,具体如表2和表3所示:
本次推荐的套餐价格为88元,根据三年内的统计数据,套餐的平均使用周期为12个月,将社交网络分析的高影响力客户识别模型算法仅用于100名客户就为运营商增加242.35万元的收益,有效地解决了运营商在企业营销中充分挖掘客户对产品的营销传播能力,提取客户之间的关系属性,将客户间的相互影响、客户关系和影响随时间变化的趋势在构建分析模型时充分地考虑进来。
4 总结
大数据时代的运营商将具备前所未有的深度洞察能力,各类客户数据、交互数据将通讯行业的商务智能从传统分析带到了更广阔的空间,全球众多运营商目前正在实施大数据。未来运营商将有更多的模式来经营大数据资产,包括租售数据模式、租售信息模式、数字媒体模式、数据使能模式等,各种模式背后也将催生出更多的产业[7]。
参考文献:
[1] 移动Labs. 应区分云计算和大数据两个概念[EB/OL]. (2012-12-28). http://labs.chinamobile.com/mblog/52251/191948.
[2] 王萌. “与数俱进”:联合国发布大数据政务白皮书[EB/OL]. (2012-07-12). http://www.ctocio.com/ccnews/7370.html.
[3] 大数据蕴含大价值[EB/OL]. (2013-07-21). http://www.doc88.com/p-2961680194630.html.
[4] 维克托·迈尔-舍恩伯格,肯尼思·库克耶. 大数据时代[M]. 盛杨燕,周涛,译. 杭州: 浙江人民出版社, 2012.
[5] 吴增海. 社交网络模型的研究[D]. 合肥: 中国科学技术大学, 2012.
[6] 肖云鹏. 在线社会网络用户行为模型与应用算法研究[D]. 北京: 北京邮电大学, 2013.
[7] 赵正永. 大数据专题讲座心得体会[N]. 陕西日报, 2014-02-11.★endprint
3.2 社交网络分析模型构建
首先,构建客户影响力模型指标体系,见表1。所有指标一般采用最近4个月的平均值,另外需要对异常值进行剔除,对极端值按照客户行为平均值进行平滑处理。
其次,建立客户影响力模型计算方法。其中,去话和来话对通信企业的价值不同,去话的影响力和价值高于来话,去话与来话的收入折算系数为12.215。为消除量纲的影响,所有指标除以变异系数进行标准化处理,二阶中心度的影响力较一阶中心度低一级,做开平方根处理,单次通话时长做同样的处理。根据已发生事实调优客户影响力计算公式,如客户影响力指数没有与具体业务问题进行关联,即在客户流失问题中有影响力客户在捆绑套餐营销中不一定有影响力,因此需要根据具体的业务问题对客户影响力指数的指标及权重进行调整。
3.3 模型应用结果
筛选基础目标客户:抽取用户近3个月的交往圈信息和互联网访问内容信息,剔除移动互联影响力较弱的用户队列,即:剔除近3个月相互主动联系次数不超过N次的用户;剔除上网行为匹配度低的交往用户(近3个月内没有使用相同业务或不满足访问内容一致性、相同内容/应用访问时间、时长一致性等);计算每对用户间的互联边权重(强联系是指语音联系;弱联系是指信息联系,如短信、彩信、飞信、飞聊、邮件等;虚联系是指其他无显式的互联,如微博粉丝、通信录好友、集群网成员等)。计算次数时要求客户彼此之间有互联,如彼此有语音主叫、彼此有发送信息、彼此加对方为好友,否则联系值为0。剔除权重低于全网均值的互联边,如某群体之间的平均互联边权重约为28,则剔除后社交网络的互联边数量从7亿条降至1.2亿条,可大大减少计算量。
(1)选择购买套餐的前100名最具有影响力客户和随机100名客户,观察这两组客户的关联客户在随后6个月内的套餐办理数和办理率,结果如图1所示。这表明有影响力客户影响关联客户随后购买套餐的数量和比例都高于随机客户的影响,且初始月份之后,影响力有逐渐增强的趋势,而随着时间再继续向前,影响力又逐渐变小。
(2)以客户间的通话时长作为关系强度的衡量。如图2所示,本网一对客户之间的月平均通话时长为6.5分钟;选取前100名有影响力客户,他们与其关联客户之间每个月平均通话时长达到24.6分钟;观察有影响力客户与6个月内受影响购买套餐的关联客户之间的通话时长,最先受影响购买套餐的关联客户与初始有影响力客户的通话时长最长,随着月份的增加呈逐渐下降的趋势,这表明与初始有影响力客户联系越多的客户越最先受到影响。
在套餐推广过程中引入基于社交网络分析的高影响力客户识别模型算法,可以明显看出有影响力的套餐购买客户能够带动更多的客户跟随购买。随着时间的推移,有影响力客户与随机客户对管理客户的影响比较越明显,推荐成功率、推荐绝对数均随时间推移有显著增加,具体如表2和表3所示:
本次推荐的套餐价格为88元,根据三年内的统计数据,套餐的平均使用周期为12个月,将社交网络分析的高影响力客户识别模型算法仅用于100名客户就为运营商增加242.35万元的收益,有效地解决了运营商在企业营销中充分挖掘客户对产品的营销传播能力,提取客户之间的关系属性,将客户间的相互影响、客户关系和影响随时间变化的趋势在构建分析模型时充分地考虑进来。
4 总结
大数据时代的运营商将具备前所未有的深度洞察能力,各类客户数据、交互数据将通讯行业的商务智能从传统分析带到了更广阔的空间,全球众多运营商目前正在实施大数据。未来运营商将有更多的模式来经营大数据资产,包括租售数据模式、租售信息模式、数字媒体模式、数据使能模式等,各种模式背后也将催生出更多的产业[7]。
参考文献:
[1] 移动Labs. 应区分云计算和大数据两个概念[EB/OL]. (2012-12-28). http://labs.chinamobile.com/mblog/52251/191948.
[2] 王萌. “与数俱进”:联合国发布大数据政务白皮书[EB/OL]. (2012-07-12). http://www.ctocio.com/ccnews/7370.html.
[3] 大数据蕴含大价值[EB/OL]. (2013-07-21). http://www.doc88.com/p-2961680194630.html.
[4] 维克托·迈尔-舍恩伯格,肯尼思·库克耶. 大数据时代[M]. 盛杨燕,周涛,译. 杭州: 浙江人民出版社, 2012.
[5] 吴增海. 社交网络模型的研究[D]. 合肥: 中国科学技术大学, 2012.
[6] 肖云鹏. 在线社会网络用户行为模型与应用算法研究[D]. 北京: 北京邮电大学, 2013.
[7] 赵正永. 大数据专题讲座心得体会[N]. 陕西日报, 2014-02-11.★endprint