基于用户兴趣的IPTV广告精准投放算法
2017-07-10牛森
牛 森
(上海交通大学安泰经济与管理学院 上海 200030)
基于用户兴趣的IPTV广告精准投放算法
牛 森
(上海交通大学安泰经济与管理学院 上海 200030)
当前消费者的需求呈现差异化、个性化和多样化,精准地细分市场,定位和分析目标消费者的需求和行为特征,从而对目标消费者进行针对性的产品和服务信息宣传,可大大提高广告的精准度,节省广告费用,同时使得受众的干扰最小化。针对如何根据不同用户的兴趣偏好投放IPTV广告,提出一种基于用户行为的精准投放算法。该算法根据节目之间的相似性构建用户的行为特征以研究用户的兴趣偏好,通过考虑用户的差异性以及偏好的变化,改进了传统的广告投放模式,并在实际数据集的仿真实验中验证了该算法的有效性。
个性化 行为特征 偏好 差异性
0 引 言
广告,即“广而告之”,它的目的在于引起注意,唤起人们对商品的需要,潜移默化中引导顾客了解这些商品的企业并博得好感,诱发消费行为从而获得利益。电视广告是一种以电视作为传播媒介的广告,兼有视听效果并运用语言、声音、文字、形象、动作和表演等综合手段进行传播,是电子广告的一种常见形式。一般电视广告是由专门的广告公司制作,然后向电视台购买播放时长。电视以其强大的传播力和影响力,成为人们日常生活中的重要组成部分,是人们了解信息、享受娱乐的重要途径。然而传统电视广告的投放由于没有目标,成本高,生命周期短,难以估计发行量,其中有很大部分被“浪费”掉,不能很好地使需要的人知道,难以达到其预期的效果。相关研究也表明,少于20%的观众对广播电视上的广告满意,事实上,大多数观众甚至会厌烦某些广告,认为其破坏他们看电视娱乐的心情[1-2]。
个性精准化推荐系统是计算机科学人工智能领域从20世纪90年代发展出来的一个重要方向,是根据用户的信息需求和兴趣等,将用户感兴趣的信息或产品等推荐给用户,从而避免用户被动地接受一些并不感兴趣的内容,干扰用户的正常使用。相对于传统模式,它充分考虑用户之间的差异性,通过研究用户的兴趣偏好,进行个性化计算,发现用户的兴趣点,从而引导用户发现自己的信息需求,其不仅能为用户提供个性化的服务,还能和用户之间建立密切关系,让用户产生依赖。
随着数字技术、网络宽带技术、移动互联网技术和卫星通信技术的迅猛发展,IPTV系统技术陆续开始被世界各大电信运营商大规模采用和部署,IPTV也叫交互式网络电视,是利用宽带网的基础设施,以家用电视机或计算机作为主要终端设备,集互联网、多媒体、通信等多种技术于一体,通过互联网络协议(IP)向家庭用户提供包括数字电视在内的多种交互式数字媒体服务的崭新技术,相对于传统广播电视媒体,IPTV拥有明显的点播、互动、回看和海量存储的优势,更加注重交互性和互动性,为实现电视广告个性精准化提供了基础。在我国,近几年随着国务院公布了“三网融合”的政策,IPTV业务的区域市场、用户市场空间在不断扩大,同时广告商们也意识到传统的营销模式不仅费用高而且效率低下,难以维持下去,开始将目光聚焦到IPTV上。
对于个性精准化推荐,目前已有一些比较成熟的方法,如基于内容推荐、协同过滤推荐和基于关联规则推荐等。针对电视广告的个性精准化推荐,一些研究者们也提出自己的方法,大部分都是通过构建用户特征,发掘用户兴趣与偏好,以此实现个性精准化的广告投放。Ha等[3]就以用户的社交网络信息构建用户特征,结合用户对广告商品的评价,实现对用户个性精准化广告的推荐,然而通过用户的基本信息去构建用户特征并不容易,因为用户的信息并不容易获取。Kim等[4]就尝试通过归一化距离和内积法推断估计用户的年龄、性别和职业等信息构建用户特征,并以此实现对用户个性精准化广告的投放。而当有一些用户基本信息可获取的时候,则可提高广告的命中率。Lim等[5]提出可先根据已知的用户年龄和性别信息对用户进行分类,结合用户对电视节目类型的观看偏好和观看时间推断用户特征,从而实现对用户个性精准化投放广告。Lekakos等[6]综合考虑用户的生活方式和用户之间的相似性,根据相似用户的生活方式预测用户的偏好,提出一种基于用户生活方式以实现个性化广告投放的方法,而针对基于电视、宽带和手机的使用情况得到的多源用户特征。Kodialam等[7]使用拍卖模型选出一系列广告并最优化其投放次序从而实现广告的个性精准化投放。
综上所述,目前的IPTV广告精准化投放主要是从用户的基本信息出发,发掘用户的兴趣偏好,实现广告的个性精准化投放。但用户的基本信息并不容易获取,即使已知,亦不能保证其能有效反映出用户的兴趣偏好。而用户的观看记录却能直接反映用户的偏好,很少从用户的历史记录信息中发掘用户的偏好,究其原因可能是目前获取的数据量太少,但随着技术的进步与IPTV市场的扩大,这一问题也将随之解决。本文试从用户的历史记录中构建用户特征,发掘用户的兴趣偏好,提出IPTV广告精准投放算法。
1 行为特征模型构建
1.1 算法概述
算法思想如下:由于大部分用户一般只选择观看少有的几个节目,亦是互联网数据的长尾分布,但并不意味其不喜欢其他节目,所以在构建用户特征时需要考虑节目之间的相似性。首先估计出不同节目之间的相似度,进而计算用户的行为特征,并根据其对用户进行分类,然后计算不同用户群的用户对投放到不同节目上广告的偏好,最后根据用户的观看记录和广告商的要求提出一种高效的广告投放算法使得用户和各广告商达到实用性和利益性最优的平衡。
1.2 相似度算法
相似度,即计算个体间的相似程度,相似度度量的值越小,说明个体间相似度越小,差异越大。通过计算节目之间的相似性,可以有效解决数据稀疏性的问题,即用户只在少量的节目上有记录,如果不考虑节目之间的相似性,则计算用户的行为特征亦是有偏差的,因为未充分考虑用户的兴趣偏好。在这里,本文采用协同过滤推荐方法[8]中定义两物品间的相似性去计算节目之间的相似度:
(1)
1.3 用户行为特征模型
用户基于自身需求或者兴趣爱好等观看节目,观看的历史记录可以反映用户最近的行为特征信息,通过分析这些行为特征,筛选出比较相似的用户以及差异较大的用户,根据用户的行为特征向不同类的用户推送不同的内容,可提高广告的精准度和命中率。而考虑到数据稀疏性的问题,本文通过考虑节目之间的相关性,构造如下公式来计算用户的行为特征:
(2)
式中,Pui表示用户u对节目i的偏爱程度,N(u)是用户u观看节目的集合,S(i,K)是和节目i最相似的K个节目的集合,wji是节目j和i的相似度,ruj是用户u对节目j的兴趣。
1.4 用户分类
根据用户行为特征模型,需要对相似行为特征的用户进行聚类,目前已经有诸多的聚类算法,为了简化起见,本文采用的是较为经典的K-means聚类算法。设定待聚类的用户个数为n,人群聚类目标个数设为,然后将n个用户聚合成为个人群子类,并且使所得到的人群子类满足:同一人群内用户的行为特征较相近,不同人群间用户的行为特征差异明显。聚类使得每个簇中的数据点之间最大程度的相似,而不同簇中的数据点最大程度的不同,从而发现数据集中有效的信息。
K-means算法在本文中的具体应用步骤如下:
1) 随机选取I个用户的节目偏好度作为初始均值,计算其余用户的节目偏好度与该均值的距离,将其指派给与其距离最小的聚类人群。
2) 选择均方误差MSE作为聚类判度函数:
(3)
式中,M为类别i中用户的节目偏好度,Ci表示类别i中用户的集合,Ai为类别i的节目偏好度均值。
3) 计算更新后每类人群节目偏好度的统计平均值以及每个用户的节目偏好度与更新后均值的距离,将其指派给与其距离最小的聚类人群,从而更新聚类,并且计算每类的均方误差。
4) 重复步骤3),直至聚类判度函数收敛时停止。
1.5 用户群偏好模型
对于不同的用户群,用户的行为特征具有明显差异,所以不能一概而论地对用户进行投放广告,应先分析不同用户群的行为特征,并计算在不同用户群下各节目与广告之间的相似度,从而在各用户群中选择与投放广告相似度较大的节目上进行投放,达到效益最大化。根据以上算法,构造如下公式来计算不同用户群下各节目与广告之间的相似度:
(4)
结合用户行为特征模型,可以得知类别i对节目j的偏爱程度pij,即:
(5)
式中,Ni为类别i的用户总数,ci表示类别i中用户的集合。所以类别i的用户对投放在节目j上的广告k的偏爱程度qijk,即:
(6)
2 精准投放算法
在已知不同用户群的用户对投放在不同节目上的广告的偏爱程度qijk,结合各广告商的要求以及用户的历史观看记录,可通过构建最优化模型求解出广告的最优精准投放算法。其中,假设xijk为投放在用户群i下节目j上广告k的次数,Ak为广告k需要投放的总次数,Bij为用户群i观看节目j的总次数,i=1,2,…,I;j=1,2…,J;k=1,2,…,K,则模型如下:
(7)
而在未考虑用户差异性以及节目与广告之间的相似性时,广告的投放算法可用如下优化模型来表示:
(8)
只考虑到节目与广告之间的相似性时,广告的投放算法可用如下优化模型来表示:
(9)
对比以上3种优化模型,可以发现式(7)是较优于式(8)和式(9)的,即基于用户行为的广告投放算法可以改善用户的观看体验以及提高广告的效率。但以上模型均假设了用户对广告的偏好不会随着其观看次数而改变,而根据经济学中著名的边际效用递减规律可知,用户在观看一定数量广告后对广告的偏好程度会随着其观看次数的增加而递减,故本文尝试定义用户偏好的变化情况:
(10)
式中,f为在(n0,+∞)上的非增有界函数,且f(n0)=qijk,n0为一阈值。从而,构造考虑了用户偏好变化的广告投放算法:
(11)
可以看出式(11)更符合实践。由于该问题中用户的偏好是受模型中的决策变量的影响,所以该优化问题已不是一个简单的线性整数优化问题,得到的结果可能是一个局部最优解,而不是全局最优解。但该模型的现实意义更加重要,即在考虑用户的兴趣偏好时,不能简单地将其作为一常量,因为其会受其他因素的影响,而本文只着重考量观看次数对其的影响。
3 仿真实验
本文通过对上海市某公司IPTV用户进行分析以阐述算法的实现。该数据集是用户在2013年3月的历史记录,涉及955 908个用户,191个节目频道,共产生103 099 638条观看记录。
通过统计用户观看的频道数,可以看出大部分用户只是选择观看少量的频道,如图1所示,因此在计算用户行为特征时,需要考虑频道之间的相关性。但在计算频道相关性时,发现由于用户观看频道较分散,得到频道之间的相似度均较低。同时鉴于频道的不稳定性,即可能出现频道中断的情况,本文选择考量频道的种类这一大类,同时IPTV运营商已对相应的频道进行归类,共分为:财经,电视剧,电影,纪实,少儿,生活时尚,体育,卫视,新闻综合以及娱乐10大类。在统计用户观看频道的种类数后,如图2所示,可以看出大部分用户只选择3~4个种类的频道,从而在计算用户行为特征时,本文也选取与频道种类最相似的前4个种类。
图1 IPTV用户观看频道的频数图
图2 IPTV用户观看频道种类的频数图
通过之前定义计算频道节目之间的相似性公式,可得到频道种类之间的相似性,如表1所示。
表1 频道种类相似矩阵
根据用户行为模型计算用户对频道种类的偏爱程度:
(12)
式中,pui表示用户u对频道种类i的偏爱程度,N(u)是用户u观看频道种类的集合,S(i,K)是和频道种类i最相似的K个频道种类的集合,这里K取4,wji是频道种类j和i的相似度,ruj是用户u对频道种类j的兴趣,这里以用户u观看频道种类j的频率来表示。
由以上的行为特征属性,对用户进行简单的分类,共分为3大类,从表2可以看出:第一类用户较偏爱纪实类和体育类频道,属于偏男性类频道,第二类用户较偏爱电视剧、电影、生活时尚、卫视、新闻综合以及娱乐这些较休闲类的频道,而第三类用户较偏爱少儿类频道,可能与其家庭结构有关。在对10大频道种类进行因子分析降维后,选取前2个因子,如表3所示,可以看出因子1主要反映的是财经、电视剧、电影、生活时尚、卫视、新闻综合以及娱乐但排除少儿类因素后用户的行为特征,而因子2则主要反映的是纪实以及体育类但排除财经、电视剧、少儿和生活时尚类因素后用户的行为特征。结合三类人群的不同特点,可以得出第一类人群在因子1上的表现较好,第二类人群在因子2上的表现较好,而第三类人群则在因子1和因子2表现均不好,如图3所示。
表2 IPTV用户不同人群对各频道种类的偏爱程度
表3 因子载荷矩阵
图3 IPTV用户人群在前两个因子上的分布
由于广告数据的缺乏,在以下的分析,本文假设对于不同人群下节目频道种类与广告之间的相似性已知。首先,本文考虑了5类广告的投放,其投放次数相等,且总投放次数为用户的历史观看记录和,根据式(7)可得5类广告在各人群不同节目种类的分布,如图4所示。
图4 各广告在三类人群不同频道种类的分布
可以看出,对于不同用户群,广告的投放分布呈现不同的趋势,而对于同一用户群内,在不同的频道种类上,广告的分布也有较大的差异。同时也可以看出广告在频道种类上的极端效应,即在同一频道种类上,不同广告的投放数量差距很大,可能是由于用户在频道种类上对不同广告的兴趣偏好不同导致的。也就是说,广告的投放只会选取与其兴趣偏好较大的一些频道种类上,会导致偏爱观看该类频道种类的用户过多的接受相关广告的投放,可能产生相反的效果。在考虑用户偏好变化的情况下,即式(11),得到5类广告在各人群不同节目种类的分布,如图5所示。
图5 用户偏好变化情况下各广告在三类人群不同频道种类的分布
可知在同一人群内,广告较均匀分散在不同频道种类上,避免了广告在频道种类上的极端效应。也就是说,该结果不会受用户偏好极值变化的较大影响,具有一定的稳健性,而在上一模型结果中,可能会出现由于用户偏好某一极值的变化,导致结果出现较大变化,这一性质在用户偏好估计出现偏差的情况下尤为重要。
4 结 语
本文针对IPTV广告投放问题提出了一种高效的基于用户行为的算法。该算法通过用户的历史行为记录构建用户特征属性,从而发掘用户的兴趣偏好,并基于此实现广告的个性精准化投放,同时考虑了观看次数对用户兴趣偏好影响的情况,以更好地拟合实践。本文通过对现实数据进行分析以阐述算法的实现,发现广告的投放在不同兴趣偏好的人群上呈现不同的趋势,且在同一人群内,在不同频道上的分布也是不同的。也就是说,广告的投放确实需要考虑用户和节目频道的差异,验证了本文考虑观点的必要性。在对比考虑用户兴趣偏好变化的情况后,发现广告较均匀地分散在不同人群的不同频道种类上,避免了广告在频道种类上的极端效应,使结果具有一定的稳健性,进一步证明本文提出算法的有效性。
但在以上的算法描述以及实证研究中,也可以看出该算法存在一定的不足。在考虑用户观看节目频道次数时,本文只是简单的用历史观看次数去估计未来观看次数,对于这方面的内容,在未来的研究方向上可通过构建一系列的时间序列模型以预测未来的观看次数来解决;而考虑用户兴趣偏好变化的情况时,在确定变化发生的阈值以及偏好变化的曲线时,也只是简单地统计描述和一些主观判断,在后期的研究中可通过研究调查不同用户群下用户的偏好变化情况,以使得偏好变化曲线更加符合实际;同时后期也可以考虑一些广告播放机制的约束,如有竞争性质的同类广告不能同时投放给同一用户,或者某类广告只投放给具有某种用户特征属性的群体。
[1]MothersbaughDL,BestRJ,HawkinsDI.ConsumerBehaviour:BuildingMarketingStrategy[M]. 2007.
[2]IMedia(2001).Userrequirementscapturing.Deliverable1.3,InformationSocietyTechnologies(IST)ProjectiMedia,EuropeanCommission[OL]. [2004-01-20].http://imedia.intranet.gr.
[3]HaI,OhKJ,JoGS.Personalizedadvertisementsystemusingsocialrelationshipbasedusermodeling[J].MultimediaToolsandApplications, 2015, 74(20): 8801-8819.
[4]KimM,KangS,KimM,etal.TargetadvertisementserviceusingTVviewers’profileinference[M]//AdvancesinMultimediaInformationProcessing-PCM2005.SpringerBerlinHeidelberg, 2005: 202-211.
[5]LimJ,KimM,LeeB,etal.AtargetadvertisementsystembasedonTVviewer’sprofilereasoning[J].MultimediaToolsandApplications, 2008, 36(1-2): 11-35.
[6]LekakosG,GiaglisGM.ALifestyle‐BasedApproachforDeliveringPersonalizedAdvertisementsinDigitalInteractiveTelevision[J].JournalofComputer‐MediatedCommunication, 2004, 9(2): 00-00.
[7]KodialamM,LakshmanTV,MukherjeeS,etal.OnlineschedulingoftargetedadvertisementsforIPTV[C]//INFOCOM, 2010ProceedingsIEEE.IEEE, 2010: 1-9.
[8]LindenG,SmithB,YorkJ.Amazon.comrecommendations:Item-to-itemcollaborativefiltering[J].InternetComputing,IEEE, 2003, 7(1): 76-80.
AN ACCURATE DELIVERY ALGORITHM FOR IPTV ADVERTISEMENT BASED ON USER INTEREST
Niu Sen
(AntaiCollegeofEconomicsandManagement,ShanghaiJiaoTongUniversity,Shanghai200030,China)
The current consumer demand for differentiated, personalized and diversified. The problem is how to accurately segment the market, position and analyze the target consumer demand and behavioral characteristics, thus targeting the target consumer product and service information which can greatly improve the accuracy of advertising, saving advertising costs, while minimizing the interference of the audience. Thus, an accurate delivery algorithm based on user behavior for how to deliver IPTV advertisements according to different user’s preferences is proposed. The algorithm constructed the behavioral characteristics of the user according to the similarity between the programs to study the user’s interest preferences, improved the traditional advertising mode by considering the difference of users and the change of preferences. The validity of the algorithm was verified by the simulation experiment of the real data set.
Personalization Behavioral characteristics Preference Difference
2016-07-25。国家自然科学基金项目(71531010,71401104)。牛森,硕士生,主研领域:数据分析与运营优化。
TP18 TP393
A
10.3969/j.issn.1000-386x.2017.06.040