APP下载

基于客户移动互联网行为的信息价值挖掘应用

2014-04-15中国电信股份有限公司江苏分公司互联网与增值业务运营支撑中心胡仲刚汪敏娟

江苏通信 2014年1期
关键词:页面聚类客户

中国电信股份有限公司江苏分公司互联网与增值业务运营支撑中心 胡仲刚 汪敏娟

基于客户移动互联网行为的信息价值挖掘应用

中国电信股份有限公司江苏分公司互联网与增值业务运营支撑中心 胡仲刚 汪敏娟

在分析移动互联网高速发展和用户需求的基础上,重点阐述了移动互联网用户行为的信息价值挖掘流程和关键技术,并对其在个性化内容推荐、精准业务营销、定向广告投放和业务能力开放等4个方面应用进行了探讨。

移动互联网;行为分析;信息挖掘

为帮助用户快速找到自己感兴趣的内容,需对用户移动互联网访问行为进行挖掘分析。移动互联网数据具有数据量大、数据结构复杂、数据内容分散等特点,为了从浩如烟海的数据中提取出有效信息,需借助有效的数据挖掘技术,采取合适的数据挖掘策略。通过从用户、终端、产品等多个维度进行挖掘分析,确定用户的兴趣偏好并形成客户画像。再根据具体的营销任务,通过针对性的营销手段,快速将合适的内容推送给合适的用户,从而实现移动互联网精细化运营的目标。

1 技术实现

1.1 信息价值挖掘流程

基于客户移动互联网行为的信息价值挖掘是一项复杂的工程,需采集并整合处理用户基础信息、网络流量信息、用户访问内容和用户终端信息等,对数据进行关联分析和挖掘,提供具有价值的商业和服务信息,并应用于业务运营。如图 1 所示,相关流程可划分为数据采集、分析挖掘和业务应用3个部分。

1.1.1 数据采集

从IT(信息技术)系统获取用户基础信息,通过DPI(深度包检测)系统从分组域网络获取用户的上网行为数据,从终端信息采集系统获取用户终端和业务支持能力信息,通过搜索引擎爬虫获取用户访问网页内容。从数据源采集到的数据具有流量大、报文格式复杂等特点,不能直接进行处理,需要先进行清洗和预处理,转换为标准、精简、有效的数据。

1.1.2 分析挖掘

从数据采集层获取有效数据,将用户的真实身份、网络流量和访问网页内容进行对应,通过相关模型和算法进行有效的数据挖掘。具体可从以下维度进行:

访问偏好分析:根据用户访问的URL(统一资源定位),对基于HTTP(超文本传输协议)形式的页面进行语意分析和内容分类,确定客户的访问兴趣偏好。

搜索偏好分析:将公共、行业、典型门户站内等搜索引擎进行分类,构成搜索兴趣偏好,通过搜索变量解析,挖掘出搜索的关键字。

应用偏好分析:分析安卓和iPhone的下载行为,分析用户使用各种应用的次数、时长、流量等信息。

专题偏好分析:通过对非文本形式的音乐、视频、下载、游戏、阅读和图片等信息的挖掘,通过对文本形式的房产、汽车等信息的挖掘,确定客户的专题兴趣偏好。

行为特征分析:在客观行为分析的基础上,挖掘客户各种偏好的忠诚度、访问频度、上网习惯、流量分布及沉默规律等。

1.1.3 业务应用

实现目标客户挖掘,对外提供能力输出,为具体运营和营销提供决策支持。具体包括:

目标客户提取:根据客户的自然属性、终端构成、上网行为、兴趣偏好等提取目标客户。支持营销主题、客户特征、客户规模等多种条件提取方式。

应用接口:构建开放的支撑平台,提供标准化的API(应用程序接口),帮助第三方系统根据用户喜好推荐相应的内容。

1.2 关键技术

1.2.1 垂直搜索引擎

垂直搜索引擎是信息价值挖掘的重要内核之一。与综合搜索引擎相比,垂直搜索引擎的信息服务模式有所变化,它更加注重信息的专深性,克服了综合搜索引擎信息查准率低、有用信息含量低等不足。垂直搜索引擎实现了网页信息的结构化抽取,是一种搜索质量更准确、相关性更复杂的搜索引擎。其主要技术特点如下:

结构化:专业的结构设置,使信息更加准确和清晰。

个性化:根据专业结构,建立最合理的索引,快速定位内容变更。

专业性:开发针对非传统文本内容的分析,如文本文件下载、音频视频软件的头文件信息分析,能够将非主流媒体的信息进行提取。

功能性:优化对新增行业的快速接入模式。

目前,用户移动互联网行为除了文本信息以外,还有大量非文本信息,如听音乐、看视频、读小说、玩游戏等非文本形式,无法通过页面URL挖掘。垂直搜索引擎能很好地解决以上问题,可以实现对音乐库、视频库、下载库、游戏库、小说库、图片库、阅读库、房产库、汽车库等专题信息的实时维护更新。

1.2.2 人工智能分析

人工智能分析是信息价值挖掘重要内核之二。用户访问移动互联网内容爬取(crawling)后,是通过人工智能分析模型来进行处理的。具体包括:

无效页面过滤:在一个网站中,存在很多如广告、导航页面、功能页面、提示页面等没有实际主题的页面,需预先进行过滤。一般来说,对具有特定特征的无效页面系统将自动过滤,对没有特定特征的页面采取人工设置过滤的方式进行过滤。

页面垃圾过滤:在页面中,除了主题内容以外,还有一些诸如广告条、页面美化等非主题信息,这些内容如果也参与到分词中提取关键词将会造成很大的偏差。因此,需要在分词前对页面进行清洗,以保证清洗后的部分只有具体的主题内容。

页面内容分析:将页面内容过滤成有效的、可利用的真实数据后,分析出信息的标题、元信息和正文,并进行切词及剔除虚词,获取整篇内容的关键词条,为内容分类提供基础数据。根据知识库和专家规则库及预先设置好的类别,进行内容的分类处理。通过自动学习机的自学功能来发现知识,实现知识库和专家规则库的自动优化。

1.2.3 内容聚类分析

内容聚类分析是信息价值挖掘重要内核之三。对经过内容分析的页面进行聚类分析,把若干相似度高的内容聚类成一组,然后分析各组内容的相同与不同信息。

目前,聚类算法主要有两种,一是以G-HAC等算法为代表的层次凝聚法,另一种是以K-means算法为代表的平面划分法。其中,前者是最为常用的聚类方法,他能够生成层次的嵌套聚类,并且准确度高,但在每两个聚类合并时,需要全局的比较所有聚类的相似度,确定适当的阀值,计算出最佳效果。

内容聚类在客户访问过的内容中,挖掘出相同的内容或类似的内容,形成内容类别,再结合客户基础信息、页面访问信息等生成客户画像。

1.2.4 行为分析模型

行为分析模型是信息价值挖掘重要内核之四。在进行人工智能分析和内容聚类分析时,需通过建立相关的行为分析模型来实现。主要有:

文本挖掘模型:基于训练语料库,通过一定的模型训练算法,构造文本智能分类模型。把构造完成的文本智能分类模型保存到数据库中,对文本内容进行分词分析,根据已训练好的分类模型进行内容分类。

用户应用偏好模型:根据用户使用各类应用的情况进行分析,通过应用知识库识别应用,计算用户应用兴趣偏好模型。

用户搜索偏好模型:主要根据用户在主流的搜索网站的搜索情况进行分析。分析用户搜索主流搜索网站的搜索记录,对用户的搜索内容进行分类记录,计算用户搜索兴趣偏好模型。

用户浏览行为聚类模型:根据选择的聚类分析指标,利用上面提到的聚类挖掘算法对客户进行分群。聚类指标可自主选择,模型输出包括:每个客户群的客户数、百分比、各项指标的分布情况等。

数据关联分析模型:根据用户的基础信息、终端信息和访问的网页内容进行关联分析,找出其中的关联关系,用于针对性营销。

移动互联网用户行为分析是真实的、客观的、多维度的分析,其准确度取决于行为分析模型。

2 业务应用

目前,基于客户移动互联网行为的信息价值挖掘,结合业务发展需要,可以开展个性化内容推荐、精准业务营销、定向广告投放和对外能力开放等业务应用。

2.1 个体客户的个性化内容推荐

针对个体客户,从用户、终端、产品等多个维度进行分析,生成客户画像。根据多维度的客户画像,提供个性化的门户页面,针对性地进行内容推荐。同时,通过客户行为分析反馈客户特征变化,形成闭环营销系统。具体流程见图 2。

如用户访问业务门户时,为其推荐合适的游戏、应用、视频等。根据用户的兴趣偏好推荐合适的内容,有利于增加用户黏性,降低流失率。

2.2 群体客户的精准业务营销

针对群体客户,在客户画像基础上,通过建立营销活动挖掘模型,实现特定业务精确受众群体的客户挖掘。在具体业务推广时,可以按照营销主题、客户特征、客户规模等多种条件提取目标客户,实施精准营销,进而达到“提高效率、降低成本、减少投诉、增加效益”的目的。具体流程见图 3。

精准营销可以基于多种方式,如营业厅实体渠道、外呼营销,以及传统的短信、彩信和WAP(无线应用协议)推送等。对营销活动效果进行评估,将营销成功的客户与挖掘的兴趣偏好客户进行对比,找出存在的问题,为再次营销提供修正方案。

2.3 媒体客户的定向广告投放

定向广告投放是运营商根据客户的兴趣偏好,向商家的目标客户群进行广告推送的行为。它是一种基于用户行为挖掘分析的精确广告投放,通过策划数据挖掘维度锁定用户群,由传媒公司策划广告创意,对目标用户群进行广告投放,为后向广告商提供个性化差异化服务。下面以挖掘具有房产、汽车等兴趣偏好的客户进行定向广告投放为例,如表 1 所示。

结果表明,基于用户行为的定向广告投放成功率为普通投放效果的几百倍,既节约了资源,又达到良好的投放效果。定向广告投放能精准的将广告信息投放给最合适的移动用户群体,对开展移动互联网后向经营、探索新兴商业模式等有重要意义。

2.4 合作伙伴的业务能力开放

开放已经成为移动互联网时代的潮流。在国外,Facebook平台上的第三方应用数量已超过24 000个,每天有超过40万人的开发者围绕这个平台做开发应用。在国内,新浪微博、腾讯、百度、盛大、开心网等相继开放互联领域的API,力求在网民中为自己塑造开放平台的形象。构建开放的支撑平台,提供标准化的API,帮助第三方系统根据用户喜好推荐相应的内容,可以有效地实现资源整合、信息共享和业务协同。

3 结束语

随着移动互联网的迅速发展,流量经营成为运营商创新发展的核心。深化流量经营的一个重要手段是用户访问信息的挖掘与分析。通过对移动互联网中各项数据进行挖掘和分析,能够对用户的使用行为、兴趣偏好、发展趋势等进行全面了解,进而开展针对性营销和提供个性化服务,再通过客户行为分析反馈客户特征变化,从而形成良性的闭环营销体系。如何高效地对用户移动互联网行为进行挖掘,充分发挥智能管道的优势,实现精细化的业务运营,是未来探索的一个重要方向。

猜你喜欢

页面聚类客户
刷新生活的页面
为什么你总是被客户拒绝?
基于DBSACN聚类算法的XML文档聚类
如何有效跟进客户?
基于高斯混合聚类的阵列干涉SAR三维成像
做个不打扰客户的保镖
一种层次初始的聚类个数自适应的聚类方法研究
23
自适应确定K-means算法的聚类数:以遥感图像聚类为例
网站结构在SEO中的研究与应用