APP下载

基于大数据的电信领域用户服务模型与数据融合策略研究*

2014-09-29高永梅琚春华鲍福光

电信科学 2014年7期
关键词:营业厅轨迹特征

高永梅,琚春华,鲍福光

(1.杭州职业技术学院 杭州310018;2.浙江工商大学 浙江310018)

1 引言

近年来,各国政府高度关注大数据的研究和应用,2012年美国政府投资2亿美元开展 “大数据研究和发展计划”,欧盟投入1亿欧元建设科学数据的基础设施。中国计算机学会等组织也多次组织关于大数据的学术讨论会。在科学界,大数据的研究也得到了高度重视,国际顶级的学术期刊《Science》、《Nature》等相继出版了关于大数据研究的专题期刊。

随着信息技术在电信领域长期而广泛的应用,各电信企业已拥有海量的用户信息和业务数据。智能手机的普及,移动互联网的迅猛发展,给电信行业带来了新的革命,产生了大量的互联网访问、社交媒体等数据。2012年,Eric Hsueh-Chan Lu 等构建了 MCE(mobile commerce explorer)框架,挖掘并预测了移动用户的运动轨迹和购买趋向[1],Tzung-Shi Chen等人创建了UMBPs挖掘方法,研究移动用户的移动行为模式[2]。2010年,张芸等人通过改进的N-gram预测模型有效预测了用户的行为倾向[3]。2013年,陈娜等人构建了基于Hadoop的BSS大数据平台,为大数据背景下的个性化消费定制提供了支持[4]。

电信企业决策的正确与否依赖于如何从不同来源、不同渠道的数据中提取到有价值的信息,如何科学地管理和合理开发这些内部和外部信息资源,这也是增强企业竞争力、吸引更多用户的关键所在。运营商对海量数据进行有效挖掘和分析,能更精准地掌握用户需求及特征,从而更加高效地为电信用户推荐适合他们的服务,定制与用户相适应的消费产品。

2 电信领域数据特征分析与用户服务模型构建

电信领域数据能够折射出用户的很多特征,CRM系统中存储了用户的姓名、性别、职业、地区等基础信息,BOSS(business&operation support system)中详细记录了用户的通话、短信、流量等消费行为和消费清单,微博、微信等社交平台折射出用户的人际交往、时尚特征、生活轨迹,互联网访问轨迹反映了用户的兴趣、爱好、购买意愿等。

基于电信领域的用户行为分析、提取用户特征是精准营销[5]、个性化推荐[6,7]的前提。针对电信领域用户的精准营销应建立在了解用户的兴趣、爱好、社会影响力、文化层次、年龄阶段等的基础上,对用户进行个性化业务推荐,需要了解用户的业务偏好、消费习惯等。

从电信领域考虑,构建用户特征模型,如图1所示,以便开展精准营销和个性化服务。

针对电信领域的用户,本文对用户基本兴趣特征信息做了如下定义。

定义1 (用户)用户是指在某电信营运商处注册的且能被唯一识别的用户。在电信营运商注册的用户集合定义为用户集 U={u1,u2,…,uN}。

定义2 (自然特征)用户基本属性集是用户已知存在的多种特征因素的集合,包括性别(gender)、年龄(age)、职业(occupation)、婚姻状态(marriage)、城市(city)、教育程度(education)、专业(major)和收入(income)等,定义用户背景集为 :UBE={gender,age,occupation,marriage,city,education,major,income,…}。

定义3 (影响力特征)用户影响力特征指的是该用户所处用户群和经常联系的朋友圈与移动人际网络,包括通话时间最长的联系人 (long-time contact)、最常联系的人(contact)、飞信朋友圈(Fetion)、微信朋友圈(WeChat),这些因素都会影响该用户的相关行为和偏好。定义影响力特征为:INF={long-time contact,contact,Fetion,WeChat,…}。

定义4 (电信特征)电信特征指的是用户已经启用或者曾经使用的电信业务和活动,包括用户级别、业务偏好、在网时间、月移动网络流量、月短信量和通话时间等。定义用户电信特征为:TBS。

定义5 (生活轨迹)用户生活轨迹指记录用户的活动位置和位置情景,包括出差位置、旅游偏好等位置情境。生活轨迹位置情境定义为一组非空属性集Si={Si1,Si2,…,Sim},每个属性 Sij(j=1,2,…,m)都有一组属性值Sij={Sij1,Sij2,…,Sijr};对于推荐过程中的时刻t,Si都唯一具有一个属性值相应地,在时刻t,情境对象Si都具有特定状态在不同的推荐位置下,影响电信用户行为的因素是不同的[8]。

定义6 (用户行为特征集)指用户通过移动网络进行的网络行为和偏好,包括移动阅读、常见网页、关注品牌、常用应用和购买评价等。UIC表示电信用户在通过移动网络访问的资源进行分类后的兴趣内容集合:UIC={P1,P2,…,Pl}∪{L1,L2,…,Lm}∪{C1,C2,…,Cn}={UIC1,UIC2,…,UICm},其 中 ,P表示应用的一个组件频道,L表示相关链接,C表示标签内容,UIC是采用概念分层方法分类生成的兴趣内容,则有对应的兴趣概念集:∑={σx|1≤x≤Z},埚UIC|→σx,σx为兴趣内容特征概念,|→表示兴趣内容到特征概念的映射关系。

从系统学角度考虑,移动用户模型包括输入、处理和输出等部分,其中输入部分主要包括显性数据和隐性数据[9]。显性数据是用户在电信运营商处自行注册留下的相关信息,包括用户基本特征(注册名、出生日期、性别、学历、职业和所在城市等)和电信业务特征(用户级别、业务、在网时间和月消费量)等;隐性数据是电信用户通过移动网络进行的各种活动和行为数据,包括影响力特征(通话时间最长的联系人、最常联系的人、飞信朋友圈、微信朋友圈)、生活轨迹和文化特征等。

电信移动用户模型构建框架如图2所示,由用户兴趣本体获取、修正和用户群的组建3部分组成。其中,电信移动用户兴趣本体获取涉及用户的基本特征、电信业务特征及其领域本体的构建等;电信移动用户兴趣模型的修正是根据用户的生活轨迹、文化特征和影响力特征等业务行为来升级本体,实现用户兴趣本体的学习更新;用户群则通过众多电信移动用户兴趣本体的相似度计算来获得,从而组建的。

根据用户的兴趣情境信息,在构建用户本体情境中,将用户情境划分为用户个体情境、用户环境情境以及用户设备情境。本体通常采用层次概念树的形式,用户情境的某一元素就是通过树中的每个节点来表示的,即构建情境本体树。用户情境采用形式化的描述模型可做如下定义。

定义7(用户情境)用户情境UserContext=(UPC,UEC,UDC),其中UPC表示用户个体基本情境,UEC表示用户环境情境,UDC表示用户设备情境。UPC表示为:UPC=(UIC,UBE,TBS);UEC 表示为:UEC=(daytime,location),daytime 表示用户网络行为所处的时间,location表示用户网络行为所处的位置或IP地址;UDC表示为:UDC=(hardware,software),即用户的软硬件设备。

情境相似度指的是两个用户之间的情境相似度,用于用户情境聚类,从而进行用户相似推荐。设G为当前用户情境本体树CT1中的某个非子节点,G有N个子节点G1,G2,…,GN,G′为与 G 相对应的历史用户情境本体树 CT2的节点,则G与G′的相似度为:

其中,Σwi=1,wi为第i个子节点的权重。

对于两个概念Gi′与Gi之间的相似度,本文采用基于Levenstein编辑距离的字符串相似度计算式[10]:

其 中 ,ed(Gi,Gi′)就 是 Gi与 Gi′之 间 的 Levenstein 编 辑距离。

用户情境相似度的算法思路:比较当前用户情境模型与历史情境模型的相似度,即根据本体模型的层次关系,通过对子层节点概念属性相似度的计算,回推其父节点概念属性的相似度,直到求出根节点概念属性的相似度。

具体算法步骤如下。

输入:当前用户情境CT1和历史用户情境CT2

输出:用户情境相似度CTSim(G,G′)

步骤 1 设 CTSim(G,G′)=0。

步骤2 取出CT1中的某个概念Gi,如果存在转入下一步,否则结束。

步骤3 在CT2中找出与Gi对应的概念Gi′,如果存在转步骤4,否则转回步骤2。

步骤4 循环计算G与G′所有子节点Gi与Gi′的相似度 CTSim(G,G′)+=wi×CTSim(Gi,Gi′),得到综合相似度。

3 基于Hadoop的电信大数据处理框架

电信领域的数据可分为内部数据和外部数据,内部数据主要来自CRM系统的用户数据、BOSS的业务数据以及用户通过各种电子渠道留下的访问轨迹,外部数据涉及用户在移动互联网、公共社交平台等方面的访问及社交媒体数据。可大体上将电信运营商能获取的数据分为以下六大类:

·消费行为数据,用户在电信运营商各业务系统中产生的消费记录数据;

·访问行为数据,用户通过运营商的短信营业厅、网上营业厅、掌上营业厅等渠道进行消费查询、业务办理等行为产生的访问轨迹;

·用户信息数据,用户的自然属性,如性别、职业、年龄、入网时间、ARPU值等;

·业务类型数据,电信运营商提供的业务,如基础类、套餐类、通信类、商务类等;

·公众平台数据,用户在各种公众平台留下的痕迹,如微博、微信等社交媒体数据;

·上网轨迹数据,用户使用手机访问互联网的痕迹。

对以上电信领域的海量数据进行采样,仅仅采用普通的数据库存取方式,在性能上是远远不能满足需求的。为更好地满足性能需求,需要采用分布式的存取方式。而Hadoop是一个开源的、可进行分布式计算的分布式系统基础架构,也是目前应用最广泛的云计算框架。它以数据处理量大、可靠性高、成本低、效率高和扩展灵活等优势,赢得了市场的认可。MapReduce和HDFS(Hadoop distributed file system)是Hadoop技术体系两个主要的核心组件,HDFS是一个分布式文件系统,适合构建于普通的廉价计算机集群之上,MapReduce是一个编程模型和软件构架,能够在计算机集群上编写并行化程序,对大数据进行快速处理[11]。Hadoop技术体系中还包含很多其他非常实用的技术,如HBase是一个分布式的数据库,它是一个面向列的开源数据库,适合于非结构化的大数据存储;ZooKeeper用来维护Hadoop集群的配置信息、命名信息等,是一个分布式应用程序协调器,能提供分布式锁同步功能和群组管理功能。结合电信领域数据特点以及Hadoop分布式架构,构建如图3所示的电信领域数据采集与存储架构。

3.1 数据采集层

数据采集层主要是通过不同的传输协议和API从各个数据源采集移动用户的相关数据。网上营业厅、掌上营业厅等供用户自助服务的电子渠道,可采用HTTP获取用户的访问轨迹;短信营业厅、热线电话IVR(interactive voice response,互动式语音应答)、CRM系统和BOSS为电信运营商内部系统,这些系统一般都提供了对外的API,可以利用这些接口获取用户数据;微博、微信等社会公共平台为丰富平台的各类应用,提供了开放性的API,以便吸纳第三方用户开发的精品应用,可以通过此接口从公共平台获取相关信息;移动用户通过智能终端访问互联网时,网关是流量必经之地,在网关处可以获得用户访问互联网的所有痕迹。

3.2 数据存储层

数据存储层负责将上一层发送过来的数据进行分类与整合,并将这些数据存储在非结构化的分布式数据库(HBase)中。将CRM系统中获取的数据存储在用户信息数据集中;将从网上营业厅、短信营业厅、掌上营业厅、IVR中获取的数据存储在访问行为数据集中;将BOSS中获取的数据存储在消费行为数据集和业务类型数据集中;将微信、微博等公共平台获取的数据存储在公共平台数据集中;将互联网访问轨迹存储在上网轨迹数据集中。再对各类数据集进行挖掘分析,生成特征库和索引库,方便业务服务的挖掘,这部分内容将在后面进行详述。同时该层还负责将数据内容存储到分布式文件系统中。

3.3 文件存储层

文件存储层基于HDFS,它主要是一些计算机集群节点,包含存储控制节点 (namenode)、数据存储节点(datanode)和集群监控节点3类。namenode是HDFS的管理者,管理文件系统的命名空间,维护文件系统的元数据,同时,该节点还保存了文件与数据块在datanode中的对应关系。Hadoop为了避免因namenode出现故障而影响整个系统的运行,设计了secondary namenode作为namenode的同步备份节点。datanode是HDFS存储数据的节点,datanode有很多,它会定期向namenode汇报所存储的数据块列表,方便使用者直接获取数据。集群监控节点主要负责监控各节点的工作是否正常,一旦出现故障立即做出相应的处理。

4 电信业务数据融合与服务挖掘应用

4.1 网上营业厅和掌上营业厅的数据融合与业务服务挖掘

网上营业厅和掌上营业厅是电信运营商为方便用户查询话费余额、账务清单、业务套餐、话费充值等业务而开发的电子服务渠道,通过分析用户在网上营业厅和掌上营业厅的点击行为,可以发现用户的消费趋向[12]。通过在网上营业厅和掌上营业厅网站内植入JavaScript代码,跟踪鼠标点击行为,并通过HTTP提交给Web服务器,经过数据存储接口存储到访问行为数据集中,同时将访问记录写入索引库。通过对访问行为数据集进行分析挖掘,得到用户电信特征:如经常进行余额及消费清单查询的用户为消费敏感型,近期经常查看套餐业务的用户为新业务尝试型等,根据用户特征设置相应的个性化服务,如图4所示。

4.2 短信营业厅与IVR数据融合与业务服务挖掘

短信营业厅是电信运营商通过短信向用户提供服务功能的渠道,移动用户可以通过发送短信进行话费查询、业务办理等操作,随时随地,方便实用。而IVR是电信运营商通过语音提供服务功能的渠道。电信运营商拥有短信营业厅和热线电话的存储数据库,同时热线电话有通话日志(calllog),用户通过短信营业厅和IVR进行业务咨询或办理带有明确的目的性,能够准确反映用户近期的动态。所以对短信营业厅和IVR的数据进行分析更具有针对性,通过API从短信营业厅、IVR数据库和calllog中提取数据,经过数据存储接口存入访问行为数据集,同时将数据索引存入索引库。获取的数据多为文本信息,为提取有用信息,需对获取的文本信息进行关键词提取、词性标注及中文切分词处理,最后将获取的特征信息存入特征库,根据用户特征制定个性化服务策略,如图5所示。

4.3 CRM与BOSS数据融合与业务服务挖掘

电信运营商的CRM系统积累了大量的用户信息数据,BOSS内存储了运营商的业务服务产品类型以及用户消费的详细信息。CRM系统和BOSS作为电信运营商的内部系统,数据真实可靠,对这些数据进行有效挖掘,对用户消费行为进行细分,按照用户消费行为的各个指标对用户进行分类,用户的消费指标可设定为消费金额、消费类型、消费时间、消费频率、在网时间等。数据采集处理过程及个性化服务与推荐如图6所示,通过内部API获取用户信息及消费数据,经过数据存取接口分别将数据存入用户信息数据集、业务类型数据集和消费行为数据集,同时将用户信息索引、业务类型索引和消费行为索引存入索引库,再采用改进的k-means聚类[13]等算法对用户进行细分,提取特征存入特征库。提取用户的性别、年龄、地区等存入用户自然特征库;根据用户消费情况提取用户电信特征存入电信特征库,如夜间大流量型、多语音业务型、多短信业务型、增值业务型等;根据用户漫游情况提取用户的生活轨迹,如省内出差型、省际出差型、国际出差型等。根据用户的自然特征、电信特征和生活轨迹特征,进行套餐推荐等个性化服务。

4.4 微博、微信等公众平台数据融合与业务服务挖掘

随着互联网和智能终端技术的飞速发展,越来越多的人们通过社交网络进行各种社会活动,在线社交平台成为真实人际关系在互联网上的重现,能够折射出用户的兴趣、爱好、影响力、消费趋向等特点。最近得以迅猛发展的微博、微信等社交平台,拥有海量用户及其用户留下的信息,从这些海量数据中挖掘有价值的信息,实现精准营销和服务推荐,也是各大运营商所期待的。微信中的朋友圈、微博中的粉丝数量真实地体现了该用户的影响力,微博、微信中发表的文字、语音等内容包含用户的生活轨迹、兴趣爱好、品牌趋向等特征。

数据采集处理过程及个性化服务与推荐如图7所示:微博、微信等第三方社交平台,大多提供了API技术,通过外部API获取用户粉丝情况、关注情况、朋友圈以及发布的文字信息、语音信息等,经过数据存取接口将数据存入公共平台数据集,同时将信息索引存入索引库。将接收到的语音信息通过转换工具转换成文字,连同获取到的文本信息,使用文本聚类算法,提取用户的影响力特征、品牌特征、文化特征、生活轨迹等,分别存入相应的特征库,并根据用户特征挖掘相应的服务与推荐。

4.5 互联网访问数据融合与业务服务挖掘

图6 CRM/BOSS数据采集与服务挖掘应用

图7 微博、微信等公众平台数据采集与服务挖掘应用

随着智能手机的普及、网络的优化,越来越多的用户通过手机访问互联网。用户通过手机访问互联网的数据是海量的,而网关是所有用户流量必经之地。所以,用户访问互联网的数据可以在网关处采集。记录用户访问的互联网地址URL,使用爬虫器获取该地址的页面内容,然后使用文本聚类算法提取特征信息,存入特征库。数据采集处理与服务推荐过程如图8所示。

5 结束语

通过数据采集和融合方法,获取电信领域海量数据,包括用户基本特征数据、用户行为数据、用户偏好特征数据、电信特征数据、社交影响力特征数据以及用户生活轨迹等,并经过处理形成特征库,根据融合的数据构建电信移动用户服务模型,为电信运营商后续运营决策和套餐制定与推荐提供支持。

(1)消费定制

根据构建的电信移动用户服务模型,进行短信定制、套餐定制、彩铃定制、信息服务定制、音乐定制、新闻定制和行业信息服务的定制等营销决策。定制消费可以涵盖移动电信相关信息服务,消费群从个人、家庭到团体,可以涵盖不同区域、不同职业、不同领域以及不同年龄段的用户。

(2)个性化推荐与城市交叉推荐

个性化推荐服务在电商已有一些应用,如“你可能喜欢……”、“购买了这款物品的人还购买了……”等之类的挖掘推荐。电信运营商的产品和服务更具有针对性和情境移动等特点,根据移动网络的特点和位置情境的要求,电信移动用户的推荐更具有灵活性和真实性,因此移动网络的个性化推荐能够发挥更大的效能。同时,结合相似电信移动消费群体的特征和偏好,进行城市间的交叉业务推荐,进而将成功的营销和方案推广到其他相似用户群,提升绩效。

图8 上网轨迹数据采集与服务挖掘应用

(3)精确营销

精确预测用户的需求,根据用户的浏览记录,点击流来做预测,构建动态的移动用户兴趣模型,可采用规则引擎技术来实现。

1 Lu E H C,Ying J J C,Chen H S,et al.Simulation framework for travel trajectory generation and mobile transaction modeling.Proceedings of International Conference on Information Security and Intelligence Control(ISIC),Yunlin,Taiwan,China,2012

2 Chen T S,Chou Y S,Chen T C.Mining user movement behavior patterns in a mobile service environment.IEEE Transactions on Systems,Man and Cybernetics,Part A:Systems and Humans,2012,42(1)

3 张芸.智能空间中情景感知的系统模型和预测研究.北京邮电大学硕士学位论文,2010

4 陈娜,徐歆壹,宋红兵等.基于Hadoop的电信BSS大数据平台建设研究.电信科学,2013,29(3)

5 杨军.基于移动通信客户行为分析的精确营销策略研究.电子设计工程,2012(8):141~143

6 余肖生,孙珊.基于网络用户信息行为的个性化推荐模型.重庆理工大学学报(自然科学),2013(1)

7 严隽薇,黄勋,刘敏等.基于本体用户兴趣模型的个性化推荐算法.计算机集成制造系统,2010(12):2757~2762

8 胡慕海.面向动态情境的信息推荐方法及系统研究.华中科技大学博士学位论文,2011

9 琚春华,鲍福光.基于情境和主体特征融入性的多维度个性化推荐模型研究.通信学报,2012,33(9A):17~27

10 何娟,高志强,陆青健.基于词汇相似度的元素级本体匹配.计算机工程,2006,32(16):185~187

11 琚春华,邹江波,张芮等.基于MapReduce技术的并行集成分类算法.电信科学,2012,28(7):40~47

12 薛立宏,张云华,曹敏.移动互联网运营关键问题及商业模式探讨.电信科学,2009,25(5):11~17

13 左国才,周荣华,黎自强.改进k-means算法在电信CRM客户分类中的应用.计算机系统应用,2012(11)

猜你喜欢

营业厅轨迹特征
轨迹
轨迹
如何表达“特征”
不忠诚的四个特征
高速公路ETC网上营业厅的设计与实现
轨迹
抓住特征巧观察
银行自助营业厅智能应用解决方案
进化的轨迹(一)——进化,无尽的适应
供电营业厅服务数据整合及管理应用