APP下载

大数据环境下移动用户画像的构建方法研究

2020-05-19张宇阮雪灵

中国信息化 2020年4期
关键词:画像节点标签

张宇 阮雪灵

移动用户在使用移动网络过程中都会留下自己的痕迹,包括:静态信息、动态信息以及它们之间关系的信息等,企业可以凭借用户画像来提取真实用户的行为特征以及兴趣特征,以便为群体划分、广告投放、产品营销等工作提供依据。目前,用户画像已成为学术界、广告界以及互联网界的热门话题,将大数据技术与用户画像构建进行有效结合,发挥大数据算法优势,不仅可以达到有效的内容服务和产品营销效果,还可以为产品研发带来有效的技术参考。

一、 大数据环境下移动用户画像的构建过程

(一)数据平台整理

数据指标梳理一般来源于系统之前保存的日志记录系统,可利用Sqoop将HDFS进行导入。如果Sqoop系统暂时无法导入,还可以利用代码来实现导入,即利用Spark当中的JDBC与数据库当中的Cache进行有效连接,同样可将HDFS进行导入。在HDFS导入之后,就需要利用Hive进行编写,并依照业务逻辑将ETL进行有效拼接,确保移动用户能够对应上各种用户标签数据,进而生成对应的源表数据,不仅能够更好的操作用户画像系统,还有利于后续利用不同规则来生成标签宽表。

(二)数据平台计算

目前,数据平台应用越来越方便,只要通过系统管理员就可以申请资源以及注册服务。但是在处理离线业务时往往还是需要应用到Hadoop,而Hadoop的实际封装函数较为单一,只有Map以及Reduce,还欠缺其他的封装函数,仍需进一步提高实际开发效率。首先,在计算框架的选择过程中,可采用Spark以及Hadoop。其中,Spark的基本作用主要有两点:一是能够对数据处理以及规则数据进行筛选过滤,并依靠Scala进行编写,使Spark代码能够有效提交至对应的系统当中,二是能够对SparkSQL进行有效服务,有效启动Spark与前台应用进行有效连接。Hadoop的基本作用则是对标签数据进行合理打分,并根据过滤算法以及其他推荐算法对各种数据进行综合评分。其次,在计算框架完成之后,还要利用到MongoDB当中的内存数据,主要用来对单个用户进行有效的实时查询。在此过程中,可对Spark数据进行实时梳理,再将标签宽表进行有效的数据格式转换,使标签宽表能够顺利导入到MongoDB当中,接着将前台应用于MongoDB进行有效连接,从而实现单个标签的有效展现。最后,在标签展现结束之后,可利用MySQL对应用标签规则的具体存储以及页面信息的具体展现进行优化,再利用Cache元数据对其他数据进行有效整合,从而与HDFS当中的真实数据进行有效处理。

(三)数据平台应用

经过前期的数据平台整理以及数据平台计算之后,已经生成了一个有效的标签大宽表。在此之后,前台应结合业务逻辑将各种标签进行勾选,并有序完成标签求和以及标签剔出等操作。在此过程中,由于SQL当中的聚合函数以及多表关联类似于Hadoop中两种内容,分别是MapReduce以及Shuffle,这就容易出现内存溢出的情况,反而有利于定位实际客户数量,并能提高客户标签分析效率,使产品营销策略更为精准。

二、大数据环境下移动用户画像的构建技术

(一)分布式计算技术

目前,移动用户画像构建的主要平台包括Spark以及Hadoop。其中Spark主要属于基于内存计算方法的分布式计算框架,可有效增强数据处理的有效性和实时性,并提高了容错性以及可伸缩性,有利于将Spark充分部署在硬件当中,以此构成一个集群。借助分布式计算法可将分布式存储数据进行有效读入,并将任务有效分发到关键节点当中进行快速计算,还可将磁盘数据充分读入到内存中,并将中间结果有效保存到内存中,有利于快速进行迭代运算。同时,Spark还具有处理速度快、易用性强、容错率高、兼容性强以及计算范式多等诸多优点,在移动用户画像构建中使用较为广泛。而Hadoop则是由HDFS以及Hive等元素组成,但实际运用中HDFS系统作用最为显著,可有效存储集群内部的所有存储节点文件,以此有序执行程序中的重要引擎。

(二)样本标注技术

移动用户画像构建使用的数据样本有着显著的海量性,并且涉及到的数据领域和种类较多,通常将人工标注以及自动标注进行有效结合。其中,自动标注主要是依照样本的具体特征值以及某个关键词进行的标注,如:根据行业的显著关键词进行标注。自动标注还可以通过半监督方式对一些样本进行标注,再对剩下未标注的样本进行有效地分类训练。现阶段,常见的自动标注方法包括:自动训练法、多视角算法以及图论方法等。而人工标注则是通过专业技术人员自行对行业关键词进行的手工分类和标注,标注效率低,但是准确性高,可以避免机器标注带来的领域歧义性、分词不合理等问题,具体应用通常是结合自动标注共同进行。此外,在样本标注之后,还会涉及到文本语义理解这一内容。目前,自然语言理解属于我国人工智能的难點,也是实现智能语音交互以及人机对话的关键核心,在用户画像处理过程中,某些应用场景往往需要处理大量的文本,需要对这些自然语言进行充分有效地理解。现阶段,常见的文本语义理解方法包括RNN模型以及LSTM模型等。

(三)机器学习技术

机器学习技术可有效对移动用户进行分类,如:贝叶斯网络以及随机森林等方法,本文以移动商务环境下“孕妇标签”为例,阐述基于大数据深度学习建模的具体过程。首先,将移动用户在各个品类中的实际购买行为作为基本模型训练特征,并对这些品类进行有效划分,以此挑选出与孕妇标签显著契合的品类,如:孕妇装、营养品、高跟鞋以及彩妆等商品,并根据某些品类的实际购买行为进行筛选,以此挑选出训练正负样本。例如,根据移动用户在各个品类中的实际购买次数进行分析,如果跟孕妇标签相契合的品类购买次数达到3次以上,如孕妇装以及营养品等,则标识为正样本;如果跟孕妇标签相违背的品类购买次数超过3次以上,如高跟鞋以及彩妆等,则标识为负样本。经过有效标识,可提供模型训练必备的特征数据,从而构造一个最为初始的网络模型,以此观察网络模型是否能够进行自我学习。由于孕妇标签对于时间具有较强的敏感性,在构造网络模型过程中应注意时间维度的影响。例如,在半年前有过购买孕妇类产品的移动用户,如果在最近一到两个月都没有再买孕妇类产品,反而开始购买母婴类产品,则表明这类移动用户已经不再是孕妇了,此时应去除掉这类移动用户的孕妇标签,而是加上宝妈标签,并将其归纳到宝妈标签中进行观察。

三、大数据环境下移动用户画像构建的实施

(一)精准识别移动用户

移动用户识别作为画像构建的第一步,具有至关重要的意义。其主要目的是为了更好的区分移动用户以及单点定位。目前,移动用户的识别方式较多,包括注册ID、注册手机号以及微博等途径,但随着移动用户越来越趋向于使用手机APP,而手机号注册的意愿越来越低,如今新浪微博、微信、QQ以及抖音快手等第三方登录已成为当代企业最佳的移动用户识别选择。

(二)动态追踪移动用户的具体行为轨迹

轨迹追踪作为画像构建的第二步,能够有效确认移动用户在各种情境下所产生的访问轨迹,以便提供后期的各种优质服务。目前,移动用户在网络平台中的行为动态追踪可分为三个维度,分别是情境、媒体以及路径。其中,情境主要涉及到访问设备以及访问时段,可有效掌握移动用户的时间、位置等各种动态信息;媒体主要涉及到移动用户在某个时间段实际访问的媒体,包括:资讯类媒体、游戏类媒体、社交类媒体、音乐类媒体、小说类媒体以及视频类媒体等,可有效了解移动用户的媒体喜好;路径主要涉及到移动用户进入媒体的路径以及离开媒体的路径,如:搜索进入、打开APP、直接关闭以及站内跳转等各种方式,可有效了解移动用户的具体站内行为以及具体站外行为。经过轨迹追踪这一环节,一方面可优化流量运营模式,减少媒体的流量运营开支,另一方面可掌握不同页面的投放频次,减小对移动用户服务的负面效应。

(三)根据静态数据评估移动用户价值

评估价值作为画像构建的第三步,可为后续工作提供参考。在获取相关的静态数据之后,应对移动用户人群进行因子分析以及聚类分析。例如,在产品设计过程中,通常都是根据移动用户的使用动机以及使用行为进行相应的划分;在媒体营销过程中,则通常都是根据移动用户的消费形态进行相应的分类。一般来讲,静态数据主要涉及到移动用户的人口属性、生活属性、商业属性以及消费属性四个方面。目前,静态数据的获取方式较多,但最为常见的获取方式则是数据挖掘。如果数据十分有限,还应结合定性分析以及定量分析加以处理。其中,定性分析主要涉及到小组座谈、用户深访以及日志法等方式,基本策略就是根据开放性问题来了解移动用户的实际心理需求,以此达到刻画移动用户特征的目的。定量分析主要涉及到问卷调研的方式,基本策略就是加强对后期定量数据的建模以及分析,并根据封闭性问题来掌握移动用户的实际分布规律,以便更好的對定性假设进行有效验证。

(四)移动用户群体的优先级排序

优先级排序作为画像构建的第五步,直接决定了画像构建的落地效果,其本质上就是媒介的一种组合策略。一般来讲,组合策略可根据频率高低、市场规模、收益情况以及竞争优势进行考虑,并结合移动服务领域的实际情况进行相应的排列组合。特殊情况下,画像构建流程通常在前面四个环节就已经结束,但增加优先级排序这一步骤可有效提高画像构建的实际质量和效果,在画像构建过程中具有重要的领域实用价值。

四、大数据环境下移动用户画像的应用

(一)新浪微博移动用户画像的应用

新浪微博将每一位移动用户都视为一个网络节点,网络节点具有发布、传播及消费信息等功能。其中,少数移动用户侧重于能力节点,有着发布优质原创消息的作用,并能够充分利用社交网络将有效信息进行快速传播。大部分移动用户则侧重于消费节点,主要作用就是消费信息且传播信息。从新浪微博平台的传播方式来看,可以充分发挥能力节点的作用,使其从原创信息传播中有效提升自身对于网络的实际影响力,有利于能力节点打造属于自身独特的品牌,以此促使其他节点去消费能力节点的原创信息。这种传播方式的优势就是引导消费节点在消费信息的基础上开发其自身兴趣,使其能够对同类消息进行消费,以此增强能力节点的实际活跃度。由此可见,加快优质信息的传播速度是未来发展的首要任务,充分挖掘具有发布原创信息作用的能力节点,并为这些能力节点贴上相应的能力标签,可有效促进后续工作的开展质量。例如,新浪微博在移动用户注册环节中,已将移动用户的基础信息转化为静态数据,包括移动用户的实际年龄、具体地域、粉丝数、实际性别以及关注数等内容,但由于这些数据信息关联性较弱,还不足以明确定义特定群体的用户画像,为了进一步精确用户画像,新浪微博开展兴趣话题,将对同一类话题感兴趣的移动用户聚集到一起,并引导这些移动用户针对兴趣话题展开讨论,以此获取这类移动用户群体的基础信息。就可以有效提取这类移动用户群体的标签,构建这类移动用户群体的用户画像,可为后期精准化服务提供良好的支持作用。

(二)数字图书馆移动用户画像的应用

目前,我国数字图书馆的移动用户数据主要包括两个部分:实名数据以及行为数据。其中,实名数据主要涉及到图书馆管理系统中储存的移动用户注册信息以及借阅信息等内容,而行为数据主要涉及到APP平台访问、APP平台借续、APP平台咨询、网站系统登录、网站系统下载以及网站系统阅读等内容。然而,不论是实名数据还是行为数据主要都储存在多个系统当中,并且这些系统之间较为独立,再加上这些数据之间也欠缺一定关联性,这就需要在构建用户画像之前做好各个系统之间的数据整合工作。例如,数字图书馆根据现有的服务内容进行设计,将图书馆APP、微信平台以及一卡通等不同系统之间的数据进行有效整合,针对注册数据来判断移动用户的具体属性特征,针对借阅数据、阅览数据以及检索数据来判断移动用户的具体行为特征,再通过用户属性特征以及用户行为特征共同构建出移动用户画像的基础数据来源,以此提高数字图书馆的用户管理和服务质量。

五、结语

通过构建移动用户画像的研究,内容服务提供商可以给用户提供动态、精准的个性化服务,极大提高移动用户的满意度。因此,企业应从精准识别移动用户、动态追踪移动用户的具体行为轨迹、根据静态数据评估移动用户价值、定义移动用户的具体标签等环节做好大数据技术的应用,提高移动用户画像构建的准确性和可靠性,充分发挥移动用户画像的最大价值。随着我国移动用户数量的增长,移动用户对于动态化和精准化服务的需求日益强烈,基于大数据的移动用户画像的方法和技术将会在未来经济发展中发挥重要作用。

作者单位:武汉纺织大学管理学院

基金项目:教育部人文社会科学青年基金项目“普适个性化内容推荐的方法研究--基于知识管理和服务过程建模的视角”项目编号:15YJC870031

猜你喜欢

画像节点标签
基于移动汇聚节点和分簇的改进节能路由算法
CAE软件操作小百科(48)
基于点权的混合K-shell关键节点识别方法
画像
画像
让衣柜摆脱“杂乱无章”的标签
科学家的标签
科学家的标签
莫尼卡的画像
画像背后藏着活人