贝叶斯网络在用户兴趣模型构建中的研究
2016-08-13王庆福
王庆福
(辽宁行政学院,辽宁 沈阳 110161)
贝叶斯网络在用户兴趣模型构建中的研究
王庆福
(辽宁行政学院,辽宁 沈阳 110161)
用户兴趣模型对于用户画像的刻画至关重要。用户画像是用户在互联网中的身份证,完整地构建用户画像能够相对明确地知晓用户需求,这对于互联网时代提升用户体验非常重要。众所周知,电商购物、新闻视频推荐等众多领域都需要清晰地刻画用户画像,根据用户的兴趣定向推荐相关内容。
用户画像;兴趣模型;内容推荐
互联网时代对内容信息的精细化已经越来越明确,传统的信息粗分类的组合方式已经逐渐淡出人们的视野。信息粗分类方式目前以门户网站(新浪、搜狐)和一些信息分类网站(58、赶集网)为主要形态。在信息粗分类的基础上衍生了大量的垂直内容型平台,今日头条以咨询内容推荐为依托已经在国内拥有非常大的用户群,今日头条是区别于传统的门户新闻类网站,传统的门户新闻类网站需要承载太多的内容,而且以热门推荐为主要方式,今日头条则以个性户的推荐方式为主,根据用户的兴趣特点构建内容聚合流。不仅在新闻推荐这一领域,其它领域也不断衍生出大量的垂直细分频道。淘宝作为国内最早从事互联网电商的平台,淘宝的分类非常广,从服装、虚拟充值到票务,大量的分类信息在淘宝上都能够找到对应的分类,随后出现以京东为主的电子类产品购物平台以及后来主打女性购物平台的蘑菇街和美丽说。可见,随着社会分工越来越精细化,在互联网时代中也同样需要各个领域作精细化分类。
用户画像作为用户在互联网中的身份证就说明了用户的一切。从传统行业到互联网行业,无不希望能够精准地构建用户画像,这意味着清晰地掌握了用户需求,就能够精确地为用户提供所需要的服务。用户画像中一个重要的组成部分是用户兴趣,用户兴趣处于实时变化中,用户的一些静态信息基本上处于不变或者长期稳定的状态,用户的性别和年龄信息、用户的居住地信息以及用户的学历信息等都非常稳定,因此用户画像的关键是构建用户的兴趣模型。贝叶斯网络作为用户兴趣模型构建重要模型,本文主要针对贝叶斯网络在用户兴趣构建的应用展开研究。
1 贝叶斯网络
贝叶斯网络作为机器学习中重要算法,通过将事件中各个状态构建为网络中各个节点,各个状态之间的转换概率则转变为节点之间的边连接权值,对贝叶斯网络中各个节点之间的边连接权值进行训练学习,这便构成了贝叶斯网络。
1.1 贝叶斯定理
贝叶斯定理就是概率论中的条件概率,如公式1所示:
对公式1进行变化可得公式2。
根据两个变量的规则变化,推广到多边量上,可得公式3:
1.2 贝叶斯推断
贝叶斯推断是在贝叶斯定理的基础上进行变形,P(A)就是先验概率,是事件B发生之前A事件的概率。P(A|B)是后验概率,是事件B发生以后发生事件A的概率。
1.3 朴素贝叶斯法
朴素贝叶斯方法是在贝叶斯定理和贝叶斯推断的基础上进行条件独立性假设,通常用来进行分类。为什么要进行独立性假设呢,其实就是为了简化计算。因为涉及两个条件以上的条件概率时计算公式。在构造朴素贝叶斯结构图时如果事件是条件独立的P(A|B,C)=P(A),可以进行简化。
1.4 贝叶斯网络
朴素贝叶斯方法要求各个事件条件独立,这个要求在实际场景中很难真实存在,于是就有了贝叶斯网络,贝叶斯网络不像朴素贝叶斯要求那么高,各个事件之间不必是条件独立的。贝叶斯网络主要包含了条件概率表和网络结构图。通常贝叶斯网络的难点在于如何构建贝叶斯网络,因此对于贝叶斯网络的研究也包含了结构学习和参数学习两个方面。贝叶斯网络结构如图1所示。
图1 贝叶斯网络结构
2 用户兴趣模型构建
简而言之,用户画像是根据用户社会属性、生活习惯和消费行为等信息而抽象出的一个标签化的用户模型。构建用户画像的核心工作即是给用户贴“标签”,而标签是通过对用户信息分析而来的高度精炼的特征标识。除去“标签化”,用户画像还具有的特点是“低交叉率”,当两组画像除了权重较小的标签外其余标签几乎一致,那就可以将二者合并,弱化低权重标签的差异。
用户的兴趣一般都是基于一定的环境,所以既要考虑到不同的划分角度,又要考虑到不同时间段内用户兴趣的转移。如现有的用户短期兴趣模型和长期兴趣模型,以及混合兴趣模型,将用户的兴趣划分成相应的等级,根据权值进行度量。兴趣的转移可以通过对比不同时间窗口内用户浏览内容的关键字聚类的结果得出。
数据是构建用户兴趣标签的核心。用户兴趣标签主要依赖3类数据。
第一,用户数据。静态用户数据:用户相对稳定的信息,主要包括用户的自然属性,商业属性等方面数据。这类信息,自成标签,如果企业有真实信息则无需过多建模预测,更多的是数据清洗的工作。动态信息数据:用户不断变化的行为信息,用户搜索了什么商品,浏览了哪个页面,赞了哪条微博消息,发布了积极或消极的评论,这些都是互联网上的用户行为,将成为用户兴趣标签中偏好特征和消费特征的主要依据。
第二,商品数据。客观商品属性:商品功能、颜色、尺寸等具体数据。主观的商品数据:包括商品的定位、风格的因素。商品的数据可认为是商品的标签数据,需要和用户的标签进行关联。
第三,平台数据。平台数据是指用户和商品交互的平台,用户获取信息的平台,用户购买商品的平台,用户发布评论的平台等。不同的平台对于用户兴趣的贡献度各有不同,精准的定位平台信息能够帮助提升用户兴趣的准确度。
有了上述3类数据之后,需要根据用户行为构建相应的数据模型产出标签和权重。每一次用户行为可以详细描述为:什么用户,在什么时间,什么地点,发生了什么事。
从上述建模方法中,可以简单勾画出一个用户行为的标签权重公式:标签权重=时间衰减(何时)×网址权重(何地)×行为权重(做什么)。
通过数据建模,企业可以有效地为能覆盖到的用户打上标签,之后结合渠道信息和商品信息,企业可根据需求定向地选择数据挖掘的方法输出结果,在营销决策中,可能得到的结论例如“具有标签a的人中购买了商品A”“购买商品B的用户同样会对商品A感兴趣”“商品A的购买人群主要集中于渠道c”等等,这些信息将直接指导企业完成营销决策。在这个过程中常用的算法包括聚类和关联规则等,这些算法的核心逻辑可以认为是利用现有事实对未来进行预测的过程。构建流程如图2所示。
图2 用户画像构建流程
用户画像中主要任务是对用户兴趣标签的刻画,通过对用户的行为进行建模,用户的行为并未呈现单方面的有向性,并且用户行为大多相互之间存在关联性,这对于采用贝叶斯网络进行分析非常合适,用户各个行为之间构建有向连接,边连接上权值表示各个行为之间关联性,通过训练数据对整个模型进行迭代训练。
用户画像的分析刻画非常重要。第一,精准营销,分析产品潜在用户,针对特定群体利用短信邮件等方式进行营销;第二,用户统计,比如中国大学购买书籍人数TOP10,全国分城市奶爸指数;第三,数据挖掘,构建智能推荐系统,利用关联规则计算,喜欢红酒的人通常喜欢什么运动品牌,利用聚类算法分析,喜欢红酒的人年龄段分布情况;第四,进行效果评估,完善产品运营,提升服务质量,其实这也就相当于市场调研和用户调研,迅速下定位服务群体,提供高水平的服务;第五,对服务或产品进行私人定制,即个性化的服务某类群体甚至每一位用户(个人认为这是目前的发展趋势,未来的消费主流)。比如,某公司想推出一款面向5-10岁儿童的玩具,通过用户画像进行分析,发现形象=“喜羊羊”,价格区间=“中等”的偏好比重最大,那么就给新产品提供这类非常客观有效的决策依据;第六,业务经营分析以及竞争分析,影响企业发展战略。
3 结语
本文主要分析了用户画像在当前互联网垂直频道细分中重要性,结合贝叶斯网络在用户画像中重要组成部分-用户兴趣标签构建中应用展开研究。贝叶斯网络能够实现数据全局合理优化的作用,贝叶斯网络将用户行为特征映射为网格中各个节点之间转换权值,提取分析用户兴趣标签。
[1]张平,刘三阳,朱明敏.基于人工蜂群算法的贝叶斯网络结构学习[J].智能系统学报,2014(3):325-329. [2]王巍.基于云参数贝叶斯网络的威胁评估方法[J].计算机技术与发展,2016(6):1-5.
[3]高晓光,陈海洋,史建国.变结构动态贝叶斯网络的机制研究[J].自动化学报,2011(12):1435-1444.
[4]慕春棣,戴剑彬,叶俊.用于数据挖掘的贝叶斯网络[J].软件学报,2000(5):660-666.
[5]王辉.用于预测的贝叶斯网络[J].东北师大学报:自然科学版,2002(1):9-14.
Research on User Interest Model Construction Based on Bayes Network
Wang Qingfu
(Liaoning Academy of Governance, Shenyang 110161, China)
User interest model is essential for the user portrait depicts.User portrait is the Internet ID card of user, which completely builds user portrait to relatively clear awareness of the needs of users, and it is very important to improve the user experience in Internet age. As we all know, shopping, news video recommendation and other areas are required to clearly portray the user portrait, according to the user's interest oriented recommendation related content.
user profile; interest model; content recommendation
王庆福(1979— ),男,辽宁沈阳,本科,讲师;研究方向:计算机网络与数据库技术。