APP下载

基于群体特征推荐的视听娱乐商家互动营销服务

2024-12-12林剑宇

电脑知识与技术 2024年29期

关键词:大数据;兴趣特征;互动营销;营销自动化;分布式存储

0 引言

线下视听娱乐行业历经数十年的发展,已成为各个年龄层人群的娱乐消费选择。视听娱乐商家的消费群体日益多元化,用户特征的不同衍生出更多的消费需求,如家庭聚会、商务接待以及团建活动等。因此,如何更好地为消费者提供娱乐服务,以及如何更有效地满足商家开展营销活动,成为行业亟待解决的问题。

随着移动互联网技术的飞速发展,传统营销逐渐迈向线上与线下融合的互联互通时代,媒体向用户传达的营销信息日益趋向个性化[1]。为应对娱乐视听商家的营销挑战,公司作为中国最大的线下聚会娱乐增值服务运营商,经过对消费场景的深度洞察和技术研究,提出并实现了基于群体特征推荐的互动营销服务方案。该方案不仅提升了用户的娱乐消费体验,还通过增强消费过程中的互动,显著改善了商家的营销效果。

1 基于群体推荐的互动营销

在传统娱乐视听领域,商家通常依赖音视频播放系统来推广营销活动,这些系统包括点歌屏、电视屏和点单屏等。然而,这些屏幕在用户交互方面存在局限性,尤其在收集和分析用户行为数据方面。由于缺乏对用户行为和偏好的有效捕捉,商家的营销策略往往呈现出单一且普遍的传播模式,难以实现个性化营销。

基于群体特征推荐的视听娱乐商家互动营销服务方案,依托于用户行为大数据,借助协同过滤算法模型(定义:一种经典的推荐算法,其核心思想是通过分析用户之间或物品之间的相似性来预测用户可能感兴趣的内容并进行推荐),预测同一包间内的消费群体特征。随后,将群体特征与商家平台的营销活动资源匹配,最终通过视听娱乐场景内的点歌屏、电视屏、手机端等多种终端屏幕有效向用户传播信息,以实现商家预期的营销活动效果。

如图1所示,本文互动营销平台包含数据采集、数据存储、数据挖掘、场景应用和营销后台五个核心模块。

在数据采集方面,采用线上与线下结合的多种方式,全方位采集用户的行为数据。线下数据采集主要通过互动设备在场景内实施,涵盖点歌屏幕操作和麦克风音频记录,以便从这些数据中提取用户的性别、年龄等关键人口统计特征。而线上数据采集则侧重利用移动设备端的个人行为日志,通过数据分析技术深入挖掘用户的独特兴趣和偏好。此外,本方案还将业务日志文件与来自互联网第三方平台的数据进行聚合,以支持后续的数据分析和用户行为模式的数据扩展。

在数据存储方面,平台部署了Hadoop大数据分布式集群,以优化对大规模用户数据的高效处理与存储,并确保对高并发海量数据分析的完美支持。为进一步提高存储性能,平台整合了HBase技术,以实现对大规模稀疏数据集的快速随机读写访问。此外,通过将Storm与MySQL的创新融合,平台能够同时满足实时计算与离线计算的存储需求,确保数据处理的灵活性和高效性。

在数据挖掘方面,服务分为基础数据处理的ETL (提取、转换、加载)服务和标签特征计算。ETL服务主要采用海豚Dolphin框架,便于管理各项计算任务,并清洗过滤得到多层的数据仓库。在标签特征服务中,建立统一的用户标识库,关联用户在不同数据域中的数据集合,并通过标签规则对数据进行标签化,进而基于协同过滤等算法形成群体属性的特征标签。

基于上述数据流框架,平台进一步构建了基于数据挖掘和群体特征的场景应用,包括为单个用户提供的歌曲推荐,以及为包厢群体进行消费推荐和内容推荐等服务。

最后,在营销后台采用RTB(实时竞价)实时营销内容模式,将群体画像特征与营销资源标签相匹配,结合CTR(点击率)预估来匹配最佳点击率的营销活动,并将商家的营销活动推送至手机端、电视屏等显示设备。由于推荐数据来源于用户的兴趣和群体的画像,经过精准推荐计算后所投放的内容更能吸引用户关注,从而获得显著的营销效果和投放效率。

2 群体推荐模型研究和实践

基于群体特征推荐技术的互动营销方案中,本文采用多种算法模型组合,主要包括基于兴趣相似度的协同过滤推荐模型和基于K均值算法的群体分类模型(定义:一种广泛使用的无监督聚类算法,其主要目的是将数据集划分为K个簇,使得每个簇内的数据点尽可能相似,而不同簇之间的数据点尽可能不同),以精准挖掘同一包间内消费用户的共有特征,并进一步匹配最适合的营销活动。同时,为解决营销资源存储问题,本文提出了一种创新的资源分布式共享技术,旨在实现设备之间的资源互通共享。

2.1 基于兴趣相似度的协同过滤推荐模型

本文提出了一种改进的协同过滤算法,该算法基于视听娱乐商家包厢用户的使用场景,通过计算用户与内容之间的兴趣相似度[2],并引入用户使用频次作为行为深度因子,从而提升推荐算法的精准度,旨在为包厢用户推荐他们最感兴趣的内容。

本系统首先构建了一个统一用户标识(Union-ID) ,用于实现不同交互设备和业务系统之间每个用户行为信息的识别和关联。为确保系统能够兼容手机号码、微信 OpenID、硬件设备 ID、证件号码等多种用户标识数据源,数据存储层选择采用 HBase 组件作为用户数据库。HBase 是一个高性能的列式数据库,其优势在于数据列可以充分扩展,并支持千万级海量数据的处理。因此,系统将数据库的 RowKey 作为Union-ID 的统一标识符,并建立二级索引以便于快速查询,使任何用户标识源均可快速定位到其对应的Union-ID。如果两个标识源具有关联性,则将它们合并至同一 Union-ID。

在包厢场景中,每个用户的行为类型较为广泛,包括歌曲点唱记录、超市商品购买记录、会员个人信息、社交网络互动等。数据采集模块负责对这些用户行为数据进行清洗和预处理,为每种行为建立相应的特征分类。

针对已经识别的包厢内用户,本文使用协同过滤算法中的皮尔逊系数算法模型,计算用户兴趣特征与内容标签之间的相似度评分,以预测用户对每个关联内容的兴趣程度。皮尔逊系数算法充分考虑用户的平均评分和标准差,作为评分依据,有助于消除不同用户之间评分习惯的差异,使相似度计算更加准确。此外,在皮尔逊系数协同过滤推荐算法的基础上,本文进行了改进,加入了用户的行为深度参数Rk,表示用户对某一内容的互动次数,从而解决了在行为数据极少情况下的局限性。通过这种改进,推荐算法能够更为精准地捕捉用户的真实兴趣,提高包厢用户的满足度和互动效果。

通过对数据库中所有用户和已知内容进行算法模型匹配,形成用户-内容的兴趣特征评分矩阵。举例而言,假设某用户点唱了迈克·杰克逊的歌曲,如果其他用户对其代言的商品的兴趣度评分为3,这表明对该商品的兴趣较大;反之,如果其他用户对啤酒商品的兴趣度评分仅为1,则说明两者之间的关联性较弱。而对于喜欢购买摇滚乐的用户,其他用户对啤酒的兴趣评分较高,这显示出两者之间存在较强的关联性。

通过算法模型形成的评分矩阵如图2所示,其中一个包厢内存在多个用户,表格中的数字表示每个用户对每个内容的兴趣评分。具体而言,符号Cn表示包厢的编号,符号un 则表示每一个用户。包厢与用户之间存在一对多的关联性,意味着该用户当前处于相应的包厢中。符号In代表每个内容,从而形成经过算法模型预测的每个用户对每个内容的兴趣相似度。

兴趣相似度的数值范围为 0 到 10 的整数,数值越高代表兴趣越大,而数值越低则表示兴趣较小。基于兴趣相似度的协同过滤推荐模型,能够使营销后台快速预测每个用户最感兴趣的内容,进而向屏幕端和手机端推送相应的内容素材资源。

2.2 基于K 均值算法的群体分类模型

与传统应用程序的推荐机制不同,视听娱乐商家的场景中存在多个用户。如果仅为单个用户推荐内容,其他用户可能并不感兴趣,从而导致推荐效果的下降。为了解决该问题,本文提出了一种改进的 K 均值算法群体分类模型。该算法在传统 K 均值聚类算法的基础上,引入了簇内聚类质量指标,以实现不同群体分类之间的效果比较,从而找出包厢内最接近的群体类别,并进行感兴趣内容的匹配。

K 均值聚类算法是一种广泛应用的聚类分析算法,能够高效地将数据样本划分为K个预定簇群,使同一簇群的数据样本尽可能相似[3]。在本文涉及的包厢应用场景中,用户数量范围通常在 1 到 20 之间。考虑到数据的稀疏性,各类别的特征在再聚类时所采用的 K值均不超过 3。

通过对用户特征进行聚类,系统能够分析出用户的共同兴趣,例如,他们可能都喜欢同一明星,或者对酒水感兴趣。此外,系统还可以推算出包厢消费场景,如生日派对、同事团建、夕阳团等。为了进一步提升推荐效果,本文对系统进行了优化改进。在分析包厢潜在的共同兴趣序列后,将每个兴趣特征选出的中心距离度量作为簇内聚类质量指标,并根据该指标的数值进行排序,从而选出优先级较高的兴趣特征。

同时,为了解决冷启动和数据稀疏性问题,在系统初始化时预设了多种场景对应的兴趣特征,以确保每个包厢都能获得最佳的营销效果。这种方法不仅提高了推荐的准确性,也增强了用户体验,使得每个用户在包厢内都能享受到更符合其兴趣的内容和服务。

2.3 互动设备资源分布式共享技术

随着视听娱乐商家的互动设备品质不断提升,从标清到高清,再到4K品质,营销内容的容量也随之增大,存储空间和下载速度将对互动效果造成制约。如果将视频提前下载存储到设备,容易造成单一设备的存储空间溢出。此外,同一网络内的营销内容较为相似,多台设备又会对存储造成浪费。

本文提出了一种互动设备资源分布式共享技术,该技术将已下载的元数据(定义:营销后台配置的图片或视频资源文件)存储于网络中的某一台设备节点,其余设备节点通过存储节点链查找到资源对应节点的位置,并完成网络内部的快速下载[4]。并且,为了防止单一元数据存储节点过于繁忙,方案还设计了空间优先的主副元数据存储节点方案。

如图3所示,本技术方案通过构建元数据的主副存储节点,下载元数据并生成节点链,最终将节点链同步到各设备节点,以支持元数据的下载和共享。在同一个视听娱乐商家的所有机顶盒设备节点构成的存储网络中,当存储网络中的某个设备节点接收到元数据时,它会立即下载元数据文件到设备的存储空间,此时该设备节点被称为存储网络中的主存储节点。

在元数据下载完成后,主存储节点会在同一网络中搜索其他空间最优的设备节点作为副存储节点,并将元数据及其签名(sign) 一同备份至副存储节点。这样,在存储网络中就形成了两个存储节点,共同承担单节点文件共享的传输压力。

每个元数据在下载和备份到这两个存储节点后,会新增一个节点信息到网络的元数据节点信息链。这个节点信息包括文件标识、签名(sign) 、节点位置和校验码等,元数据节点信息链会保存所有可共享的元数据信息。每次更新后,元数据节点信息链将同步到所有设备节点[3]。

所有设备节点的元数据下载优先搜索节点信息链中已存在的资源,优先通过主副两个存储节点进行下载;如果该资源不存在,才会从营销后台直接下载。这种方法明显改善了存储网络中各节点的存储空间,并加快了元数据的下载速度。

3 群体推荐模型实验效果

目前,已有多家视听娱乐商家签约并接入该互动营销服务。为了验证本方案中提出的改进协同过滤算法的推荐准确度,采用平均绝对误差(MAE) 作为评估标准。MAE的原理是计算预测值与用户实际值之间的平均差值,MAE越小,说明推荐的准确度越高[5]。

为验证系统在人群数量k 不同情况下对推荐准确度的影响,取k 的范围在 10 到 80。实验结果如图4所示,随着人群数量的增加,MAE 越小,推荐度越高。此外,与传统协同过滤算法相比,本方案在不同人群数量下,通过加入用户的使用频次来改进算法,推荐准确度逐渐提高,并始终优于传统协同过滤算法。这一结果表明,改进方案有效提升了推荐系统的性能,为用户提供了更精准的内容推荐。

4 总结与展望

综上所述,本文分析了视听娱乐商家在营销内容中面临的一些难题,并提出了一种基于群体特征推荐的互动营销服务方案。通过对商家营销过程的深入分析,提出了改进的协同过滤推荐算法和 K 均值群体分类算法模型。这些方案能够根据用户和人群特征进行分类,并优化元数据存储效率,从而提供个性化和高效的营销服务。

未来将进一步优化算法和模型,分析更多音视频异构数据源,以提高算法的推荐准确度。同时,提升系统的可用性和可靠性,以助力视听娱乐商家获得更好的运营效果,促进娱乐消费行业的发展和进步。通过不断的技术创新和应用实践,期待为这一领域带来更多的机遇与挑战。