主流媒体算法的破茧之路
——以总台算法在央视频的应用为例
2022-11-19梅剑平,王乐
近年来,算法推荐在商业媒体平台中获得巨大成功,对信息传播的作用日益凸显。但商业媒体算法以追求流量为目标,一味迎合用户喜好,不可避免带来信息茧房、内容低俗化等问题。主流媒体承担着引领导向、成风化人等职责使命,无法照搬商业媒体算法,必须建立符合主流媒体特点的先进算法技术。总台算法建立内容感知能力,自动感知当前部署的宣传内容和精品内容,通过多模态混合推荐技术与用户喜好内容灵活融合,让算法驱动思想性、艺术性和商业性的协调统一。
一、主流媒体算法的必要性和突破性
(一)用主流价值导向驾驭算法是时代和国家发展的必然需要
2019年1月25日,在十九届中央政治局第十二次集体学习时,习近平总书记明确指出:“我们要增强紧迫感和使命感,推动关键核心技术自主创新不断实现突破,探索将人工智能运用在新闻采集、生产、分发、接受、反馈中,用主流价值导向驾驭‘算法’,全面提高舆论引导能力。”
近年来,总台在新媒体建设的过程中积极研发总台算法,并将其纳入总台“十四五”科技发展规划和媒体深度融合发展三年行动计划中。2021年,总台算法率先在总台两大旗舰新媒体平台之一的央视频上线应用,取得良好效果,未来将逐步向全台新媒体推广。
(二)主流媒体对于信息茧房的纠偏作用
“信息茧房”的概念最初是哈佛大学教授桑斯坦在2006年出版的《信息乌托邦》一书中提出的,其含义是,受众出于天性偏向关注自己熟悉或喜欢的信息,久而久之,形成个人的信息壁垒,好像作茧自缚。
在算法日益普及的当下,人的注意力被引导线索、社会关系和奖励因子牵引影响,其背后是媒体平台这一推手。算法如一味投受众所好,则更容易加剧信息茧房现象。商业媒体平台往往仅根据用户喜好这样的单一维度参数,不断强化同类信息投送;与之相对,打破信息茧房,将内容导向与用户喜好有机融合,则是主流媒体平台所追求的。
此外,相比于商业媒体对于信息质量甄别门槛较低,易于陷入低俗化误区,主流媒体平台是优质内容的信任背书。主流媒体算法需要从海量内容中筛选出优质的精品内容进行推荐,使得这些内容展现在受众眼前,得到更广泛的传播。
智媒体时代,主流媒体算法担负了更重大的社会责任。一方面,要在持续供给优质精品内容的同时,向用户主动推荐更具公共价值的信息,尽可能地矫正用户“偏食”,打破信息茧房;另一方面,要在吸取商业算法可行经验的同时,形成具有多维度价值取向的新算法,从借鉴到超越,实现破茧成蝶。
二、总台算法的特点及其应用
平台算法对于信息筛选与展现方式起到决定性的作用。自2021年开始在央视频平台应用以来,总台算法持续优化信息的呈现方式,兼顾信息环境均衡,帮助用户突破信息茧房,促进更良性、更多样的内容生态形成。
(一)算法体系:可用、可管、可控
总台算法平台的整体方案由引擎系统、算法工作台、算法测试系统和知识结构四部分组成。这四部分的闭环结构形成了独特的运行机制,实现了总台算法的可用、可管、可控。(见图1)
推荐引擎是进行数据处理与推荐计算的核心系统,通过大数据与人工智能技术驱动优质内容与用户精准匹配,是算法推荐的“发动机”。总台算法的推荐引擎基于深度学习模型建立技术框架,其中,多路召回、多目标学习等是关键模型,模型的多样化有助于避免过于单一的考量维度窄化筛选范围。多路召回综合了用户兴趣、宣传引导、共性热点等多种因子进行粗排序;多目标学习兼顾播放次数、播放时长、曝光次数、完播率、用户留存等多指标变化,避免陷入对一个或几个指标的片面追求。此外,推荐引擎中还设入重排模型,对于粗排和精排进行纠偏,保证黄金池、精品池节目必须占据一定的曝光率。
图1
图2
算法工作台,是总台算法区别于商业媒体平台的重要应用创新,是打通媒资系统的枢纽,如同 “驾驶舱”。算法工作台具有智能运营辅助功能,推荐引擎关键环节的模型在此封装为预设的算法规则,经由算法工作台发出控制信号调用算法规则,从而干预算法推荐的运行过程。目前,总台算法工作台可为运营人员提供账号和视频内容两个维度的干预能力,可以对推荐结果进行人工强干预,以弥补机器只能识别标签和点击量,而无法准确判断内容价值的弊端。此外,算法工作台不仅能够对总台算法实际效果进行跟踪和比对,还聚合了微信、微博、抖音、快手、头条、B站等商业平台热门内容,为热点运营提供参考。
AB-test算法测试系统是算法效果验证系统。首先基于算法测试系统使客户端用户分流为实验组和非实验组用户,抽取一部分样本通过随机方式分流给策略A和策略B,得出量化数值进行对照。A/B测试对照实验主要观测用户类指标、播放类指标、曝光类指标这三大类28项指标(含11项重点指标)。通过对比人均播放、停留、曝光这些数据指标,评判各个版本的效果优劣,从而支撑运营策略和算法策略调整。
内容大数据和用户大数据是总台算法的“底盘”,对总台的节目内容和用户画像进行数据化关联,使内容和用户特征与数据紧密“纠缠”在一起,形成知识结构。对内容而言,在创作阶段、传播阶段、画像阶段和运营阶段,会相应产生推荐曝光数据、热度画像、内容元数据、标签数据、标准化数据等。在用户画像方面,从地理位置、设备信息、生命周期、社会属性、内容偏好、形态偏好、行为心理等维度被赋予各种标签元数据。这些数据是算法推荐的重要基础。(见图2)
(二)持续优化:实现精准、智慧、灵活的个性化
从算法学习的角度看,总台算法比商业媒体平台算法更为复杂。对于商业媒体算法,提升流量是唯一目标,通过以“投其所好”为目的的内容推荐,快速获取用户流量,滚雪球式做大数据,再以大数据喂养算法,不断进行算法迭代。而总台算法的参照系有主流价值、艺术价值、商业价值三条坐标轴,这种升维跃迁,是对算法的巨大考验。
好的算法不仅要精准,更要兼具灵活性、预测性和多元性。这不仅对于打破信息茧房具有意义,更是充分理解并考虑到了人性中共存的矛盾。如,用户在某个时段内偏好相对稳定,而时过境迁,偏好又发生了转移或扩展;用户虽然喜欢被“熟悉”与“满足”包围,但也需要“奇遇”和“惊喜”,去开拓视野发现世界的多面。总台算法以小步迭代、人机协同、分众分类等方式,逐步接近理想目标。
1.小步快跑,不断优化
总台算法通过不断测试、小步迭代实现学习、成长,进而达到大规模稳定应用的目标。
上线以来,总台算法经历了从V1.0、V1.1、V1.2到V1.3的四次迭代升级。总台算法在央视频平台上的建设,首先在央视频影视板块开始应用,然后逐渐推广到综艺、音乐、少儿、动漫、汽车、美食、文史、纪录、法治等10个垂直内容板块。在垂类板块积累了应用经验之后,再在央视频首页上线,替换原有的首页推荐逻辑。目前,每天有5%的央视频首页用户被选中成为总台算法的使用者,他们的使用数据将成为对照数据,为总台算法的进一步优化提供依据。
下一步,总台算法将逐步实现垂类和首页的全覆盖,并向全台新媒体平台推广。目前围绕总台算法建设,总台正在研究制定融媒体大数据标准,为建设总台的融媒体用户画像仓库,支持总台算法的全面应用打下基础。
2.人机协同,融合价值
算法本身只是一种先进的技术,但算法的设计者和运用者天然带有价值立场,因而算法背后的导向决定了内容推荐的价值取向。总台算法将主流价值植入算法之中,使算法推荐与主流媒体的运营紧密协同,为算法掌舵,以导向驾驭算法。
混合编排是央视频应用总台算法的一大特色。客户端整合宣传内容与算法推荐内容两个内容流,将两种内容打散混合,实现价值导向均衡。运行流程包括三个环节:一是首次的算法初始化,选择“主品类”或“主账号”模式,配置品类,配置账号;二是日常的混合编排,人工编排节目并固定位置,其余交给算法;三是偶尔的内容提权或屏蔽,宣推的内容加入黄金池提权,对不宜的内容通过标签批量屏蔽或单个屏蔽。
随着总台算法在央视频平台的各个业务板块逐步铺开,针对版权长视频、feeds流(短视频信息流)、直播等业务形态分别进行了推荐引擎的细化拆分,使得每项业务更有针对性。在直播推荐上更注重共性热点,在短视频推荐上更注重兴趣选择,在版权长视频推荐上则以精品内容为主,争取用户对剧集的连续收看。“短带长”是总台算法的一个特色功能,对于二次创作的短视频,通过AI能力关联上对应的电影、电视剧、综艺节目,便于用户的关联播放。
总台算法组合使用多样性打散、特征工程和冷启动模块,一旦察觉用户的兴趣过度收敛,适当插入正能量内容和陌生领域内容,对新的兴趣点进行试探和引导。
3.分众匹配,分类关联
总台算法基于用户洞察和内容感知,实施用户分众化匹配和不同节目类别的分类关联。
用户分众化是个性化推荐的前提,总台算法首先基于兴趣、地域、生命周期等特征维度对受众进行人群划分,然后按照分类热点内容进行推荐匹配。如,对追剧分众用户推荐正在追的剧目,对防疫重点地区受众推荐当地最新疫情动态,对央视精品栏目受众推荐更多的类似精品栏目等。这一策略可以在受众行为数据尚不够多的冷启动阶段,发挥基础作用,而接下来就可以根据用户的进一步点播浏览动作判断其兴趣,进行个性化推荐服务。
图3
图4
总台算法对主题宣传、精品节目和个性化节目实行不同的分类算法,并尽量兼顾各个类别之间的比例平衡。对于重大主题宣传类节目,采用内容感知算法,即按照主题选取通过台内审核的报道内容,作为种子节目,建立“节目—节目”的直接关联,训练学习出更多的相关节目,推动宣推铺开。对于总台精品节目的分类算法,则添加受众喜好这一因子,在第一阶段分众推送之后,根据受众反馈信息,筛选出最受欢迎的100个左右精品节目,作为种子训练学习出更多的相关节目,精准扩大精品节目库。同时,在不同节目类别之间实行多赛道混合推荐算法,按照“宣推、精品、个性化”三个赛道分别计算、召回,再在各个赛道间进行均衡混合,实现主流价值、艺术价值和商业价值内容的有机融合。
(三)技术赋能:央视频多项指标显著增长
自总台算法在央视频逐渐铺开以来,影视、综艺、少儿、音乐等10多个业务板块播放次数、播放时长、次日留存等指标均呈现较大程度增长。近半年统计数据显示,播放时长增长幅度最为明显,在综艺、动漫、少儿、音乐、文史等垂类实现翻番,即增长超过100%,而在影视、纪录、法治等板块增长也超过60%。播放次数和次日留存指标在动漫、音乐、综艺、少儿等板块增长最为明显,其中,动漫板块播放次数增长达到72%,音乐板块播放次数增长49%。次日留存在动漫板块增长达40%,综艺板块增长也接近40%。(见图3)
2022年4月以来,总台算法在央视频首页也获得了较好应用效果。无论是在算法推荐位范围内,还是将算法推荐与人工编排相混合,对比算法组和对照组,在曝光人均VD(播放时长)、曝光人均VV(播放次数)、CTR(点击通过率)、UTR(用户转化率)、人均曝光次数、完播率等各项指标,算法的运用均带来不同程度提升。(见图4)
三、挑战及展望
持续不断优化完善总台算法,是总台作为主流媒体的职责所在,也是媒体融合的实际需求。当前,主流媒体算法依然面临着许多挑战,在提高数据资源数量和提升技术发展水平等方面还有较大的增长空间。首先,必须尽可能做大内容资源和用户数据。大数据是滋养算法成长的重要“原材料”,也是实现精准推荐的前提。如今,商业平台通过用户生成内容形成海量内容库,相比之下,主流媒体的节目内容资源更显“少而精”。其次,主流媒体平台的用户规模与商业媒体平台相比尚存在一定差距。因此,主流媒体应尽可能生产出更多优质产品、丰富产品样态,扩大内容资源池。第三,打出内容感召、有效宣推的组合拳,吸引更多用户进入平台,形成人气聚集的良性循环。
应持续提高技术自主创新能力,使主流媒体的算法技术水平具备强大的竞争力。优化信息识别精度,考虑为节目内容打更多、更细分的标签,让产品画像更精准,更准确地匹配到不同类型、不同偏好的用户。持续升级算法技术,继续推进算法工作台新增数据统计工具、用户画像展示等功能开发,进一步研究推进知识图谱等相关技术应用,推进扩充搜索环节周延内容、优化搜索结果相关功能,以技术赋能提升用户体验。