互联网信息分发机制研究
2022-03-24于书亚
于书亚
摘要:随着技术的发展,互联网时代的信息分发机制已与传统媒体时代大有不同。网络媒体平台替代传统的大众媒体机构成为信息流动的重要中介渠道。传统媒体时代的被动“受众”向互联网时代的“信息用户”转变,个体拥有了更多的信息自主选择权。技术的高速发展使传播环境从传统的“一对一”发展成为“多对多”的信息爆炸时代,为解决内容消费痛点,社交性分发机制、搜索引擎式分发机制以及算法型分发机制纷纷应运而生并各自瓜分占领数字空间的内容分发渠道。
关键词:分发机制 衍变 人机共治
互联网平台多样的内容分发机制提升了信息-用户的传播效率,更好的满足了个体用户对信息的个性化需求,于此对应的是,传统媒体机构日益失去了内容分发的主动权,面临生存和发展的危机,其内容生产和分发模式的深度变革迫在眉睫。在流量和连接逐渐富余的时代,主流媒体如何在互联网上建设有效的分发手段,建立“优质内容-用户”的直接传播关系、削弱平台的控制力,发挥其优质内容资源的最大价值,并建设独立自主可控的新兴媒体平台,将成为推动媒体融合背景下转型发展的重要方向。
基于此,本文试图通过梳理互联网内容分发机制的发展历程,对智媒时代下信息分发方式的机制原理进行深入研究,探究主流媒体在互联网化的过程中如何解决信息分发的问题。
一、信息分发机制与算法型信息分发
传统媒体时代,信息的生产和分发都是一体的,都由媒体机构完成。新闻的分发是粗放式、普适性的。由记者与编辑完成新闻采编,并藉由媒体自身的传播渠道完成内容的发布,发布过程体现“群体式推送”的特征。由于受到主观条件和客观条件的限制,此时广义上的“内容分发”难以进行细致的拆分,更加偏向于“发布”的概念,即重视媒体单向的传播过程。而狭义的“分发环节”一般是指在报刊室将报刊、杂志等内容传递到读者手中的这一环节。如果细化“分发”环节,强调的正是信息内容传播至个体的这一过程。
信息分发是在新媒体时代下产生的新现象。强调的同样也是媒体和平台通过信息的发布和推送,最终收集到用户的注意力。本文所界定的信息发布的概念沿用此描述。信息分发包括人工分发和机器分发两种类型,前者包括媒体在新媒体平台上进行信息发布和用户转发,后者是指应用算法、机器等技术在新闻聚合平台上将信息内容精准推荐给用户。
本文探讨的信息分发机制是指,互联网时代以来,信息分发成为相对独立的传播环节。平台或机构如何将信息内容传播至个体的精准匹配的过程。互联网的信息分发机制不只是简单地将新闻报道放置于“网络版面”上,而是依据不同平台特征,不同终端设备,不同使用场景下,采取不同的分发方式,从而更快实现“信息——人”的传输。由于这是在技术的助推下得以实现的,因此信息分发机制的发展进程始终紧密围绕技术手段的进步。
本文所界定的信息分发机制聚焦于两点:(1)完成了“信息——人”的完整传播闭环,精准适配个人的信息需求;(2)从“信息”到“人”的过程中各个环节相互作用的过程,并依托算法最终达成精准分发。
算法分发机制是一种以算法为信息发布机制的核心技术,用以实现信息的自主推送,通过对大数据的整理和汇聚,并依据特定的程序自动抓取相关内容进行录入、分析、排序、标签化,并根据对用户标签的分析进行针对性的分发,将用户与内容进行准确匹配,为用户提供优质服务,最大程度实现用户的个性化需求。
在当前的信息环境中,随着技术的高速发展,算法以其强大和高速的数据处理能力介入到多种的信息交互过程中。因此本文探讨的算法型的信息分发机制不仅局限于个性化推荐引擎式的信息分发,同样也包括搜索引擎式的信息分发和社交式的信息分发。
二、互联网信息分发机制的衍变
在我国,互联网出现以前的信息内容的生产和分发是由国家垄断,国家掌握着广播、电视台、报社、出版社等分发渠道。互联网时代带来信息生产和分发的进一步剥离,平台成为信息分发的主要渠道。传统媒体自建网站发布自己的新闻,门户网站、搜索引擎成为了重要的信息发布平台,它们并不直接生产新闻,而是获取传统媒体所生产的新闻并在自己的平台上进行发布。之后,社交分发成为新的分发机制,各类服务类平台也获得了信息分发的能力。人工智能时代,算法分发占据信息分发体系的龙头地位,使网络时代所出现的各类新闻分发平台进入新纪元,信息分发平台和用户平台在一定程度上是重合的,即是新闻发布平台,也是用户接受平台。依据其主导力量的不同,并结合互联网技术发展阶段,笔者将信息分发机制的历史衍变分为“依据人工力量为主的分发机制”和“以算法为核心的分发机制”两种模式进行梳理,它们各自具备不同的分发逻辑、技术手段和意义。
(一)人工分发
1.列表分发:分类索引,用户拿取
由传统媒体时代沿袭而来的编辑式分发机制仍然在互联网崛起的当今时代占有一席之地,所谓的“编辑式分发”是指,“通过人工筛选和编辑,并基于受众的共性需求向所有用户分发相同的内容。”在Web1.0时代,此类应用信息的列表式分发的平台主要表现为门户网站,门户网站也被视为中国传统媒体触网发展的第一轮数字化转型。肇始于上世纪九十年代,众多传统报刊开始尝试在互联网上建立自己的门户网站,专业的编辑按照一定的标准将信息进行取舍,并最終按照不同的版块呈现在统一的媒体平台上,取舍和选择信息的依据主要基于平台定位、信息内容特质、用户需求等。当前,此类门户网站包括两类,一是传统媒体的新闻门户网站,如人民日报、新华社等,二是互联网的新闻门户网站,如腾讯新闻、新浪新闻、网易新闻等。
随着移动互联网时代来临,大多数传统门户网站的转型突出表现为以传统新闻门户网站向移动端“挪移”。目前,我国大多数的新闻资讯APP仍采用“列表分发”的信息分发模式。由专业编辑统一设定媒体的栏目分类、更新频率、内容审核标准等,编辑按照一定的标准将信息的重要性、显著性进行把关并统一设定排序,所有用户最终接收到的内容在统一的界面之上都是相同的。
总的来看,这种信息的列表式分发呈现具有显著的特点:第一,其内容通常是广泛而全面的,覆盖社会各个层面、各个领域,以头部内容为主;第二,分发主要依靠编辑的把关能力,对技术依赖性弱,界面频道设定为不同分类的信息资讯,供用户自行选择感兴趣的内容分栏获取或自行搜索获取信息;第三,内容生产受分发影响小。信息内容多数为传统媒体内专业的采编团队自行创作或转载主流媒体的新闻内容,选择内容的标准则由专业编辑统一把关,突出强调新闻价值性和显著性。
2.社交分发:订阅关注、社交传播
伴随大量互联网用户的广泛介入和网络带宽的提升,互联网服务能力的进一步提升,起始于BBS衍生出的社区论坛,每个用户都可以自行建站,并与其他个体直接产生关联。WEB2.0的概念开始被提出,用户主导产品服务的时代来临,并诞生了一批基于此种理念设计的社交产品,如Facebook、Reddit、YouTube等。由于信息的发布方式发生了根本性的转变,信息的分发方式也随之产生改变,一种基于XML的全新协议RSS被广泛运用。不同于门户网站的分发方式,RSS允许网站向用户推送其最新摘要,当其运用于个人博客上时,便成为了一种全新的订阅服务,即RSS集合阅读器。这种阅读器是完全个性化的,用户所接收到的信息内容完全由用户自己的订阅列表决定。这一技术带来了内容分发划时代的变革。换言之,在WEB1.0时代,用户接入互联网获取信息的最快捷路径是通过聚合信息的门户网站或搜索引擎,而在WEB2.0时代,用户则可以直接通过订阅或关注的用户列表获取信息。
随着移动网络的普及,信息的生产和分发权力下放至普遍个体,越来越多的人成为移动媒体的稳定用户,社交也越来越成为信息生产与传播的主要动力。随着移动媒体的影响力不断扩大,以社交为主的信息分发方式也逐渐成为主流。援引皮尤研究中心的数据,美国成年人中有超过70%的用户每日通过社交媒体获取新闻,在我国,则表现为微博、微信的一时火爆,我国通过社交媒体获取新闻内容的人口比例高达八成。据2021年1月数据,微信日活达10.9亿,微信朋友圈日活高达7.8亿,微信公众号日活达到3.9亿。可见,社交式分发仍然是当前内容分发格局中主流方式之一。
社交式分发方式是指,社交好友通过好友关注、点赞、转发、评论等行为所实现的信息的传播。首先需要在用户之间建立一种社交性连接,再通过社交媒体中介渠道进行内容的分发。如微博始终将自身功能定位于“打造基于人际关系的信息生产和集散开放中心”,鼓励使用该平台的用户随时随地分享和获取身边的新鲜事儿。当你在微博上与朋友互相关注,或关注了特定圈层的名人、网红等,你在此平台上所浏览到的内容维度便被划定。每位博主的每一条动态、好友之间的私信等都可被称为它的社交分发。又例如号称“打造我国最大社交生态系统”的微信平台,其内容分发的主要窗口是朋友圈、群组聊天、微信公众号等。微信更加强调在熟人社交的强关系链基础上进行信息分发和传播。
社交式分发机制对传播逻辑的改变是颠覆式的。在这种分发机制下,信息的传播首次变为“千人千面”,每个用户不再被动地统一接收单一的信息内容,而是通过自己的社交圈和兴趣爱好拥有了个性化的内容消费。正如“世上没有两片完全相同的叶子”一样,也没有两个人的“朋友圈页面”或“微博首页”是完全一致的,因为每个人都拥有独特的社交结构和自身属性。另外,社交式分发强调传播过程中的“去中心化”,每个用户都可以藉由自己的社交关系链条完成信息的接收与分发。信息的分发权由专业的记者与编辑让渡到了每个普通受众,每个人都可以成为社交关系链中内容分发的中心。与此同时,这也激活了大众传播时代被闲置的一些“长尾”内容。
社交式的分发机制下,用户所接收的内容广度和质量都更多由其自身选择决定。一方面,信息的内容丰富程度由用户的社交广度所决定,关注更多的用户即可带来更多的内容;另一方面,内容的价值由社交关系链的质量决定,用户也可以选择关注特定圈层的名人,来弥补单一熟人社交分发中可能出现的同质化和圈层化的缺陷。
社交式分发机制下的内容价值更多由社交互动来评定。如微博热搜和公众号“10w+”的爆款文章,都是由内容的互动指标为内容增值,使其能够进行更广泛的裂变传播,进而成为“热门微博”展示在微博平台的公共榜单首页,或成为“爆款文章”在朋友圈引起疯狂转发。这不可避免的带来了诸多病症,诸如虚假新闻、低俗取向、营销网文、鸡汤文章等,此类为获取更多互动指标的“无效信息”和内容生产源过多从而导致的“信息超载”使得基于社交关系的内容分发质量不断降低。当前,Facebook、微信、微博等社交平台都建立了相应的人工和技术审核制度来完善社交式的信息分发生态。
(二)算法分发
“算法”是计算机领域中的一种定义,指的是一系列解决问题的指令,代表着用工程和系统的方法来解决问题的某种策略。算法式分发机制即是指,利用编程技术来解决信息精准分发问题的一种机制。2016年,算法式信息分发内容已经超过资讯信息分发市场的50%,它意味着算法式分发已成潮流。“算法式分发”之所以在社交式分发成为主流的分发机制后应运而生并得以广泛应用,一方面是由于算法本就与大数据、人工智能等概念强相关,能够处理海量、几乎无上限的信息量,恰好解决了信源爆炸导致的信息超載等问题,同时更好的激活了以往小众长尾内容的活力。另一方面,算法通过对社交式分发机制进行快速的重组和排序,再次优化信息的推荐结果。总的而言,算法型分发能够最大限度实现对于海量信息价值的重新评估和有效适配,更加精准的满足了用户需求。目前,无论是新闻客户端,还是社交媒体等平台也纷纷引入算法,介入到信息分发中。算法式分发无疑成为信息爆炸时代实现人与信息更好更快的匹配的更优解法。因此,本文在之后所讨论的互联网信息分发机制也定位于最具分发效率的“算法型信息分发机制”。
依照用户主动性的维度进行划分,应用算法的主流分发机制主要包括两种,分别是搜索引擎式的信息分发和个性化推荐引擎的信息分发。
1.搜索引擎:用户搜索、算法调度
搜索引擎作为一种信息检索技术,是信息传递过程中的一种渠道,伴随着技术进步而产生,带有独特的媒介属性。总的来说,一方面,信息社会的压力为搜索引擎的出现提供了时代背景,另一方面,技术的不断进步也是搜索引擎发展的必要条件。至今,搜索引擎仍然是网民使用最多、最紧密的互联网信息服务项目之一。在互联网浩瀚如海的信息资讯中,搜索引擎犹如导航灯塔一般,帮助用户在信息海洋中开辟出一条清晰的检索路径,以便我们更快找到所需信息。
搜索引擎式的信息分发肇始于WEB1.0时代。从技术范畴来讲,搜索引擎共历经三代发展:第一代以Yahoo搜索引擎为代表,主要依靠人工输入数据并进行目录式搜索和信息接收,很快,人类不再简单满足于这种方式;第二代搜索引擎以Google和百度为代表,用户键入不同的关键词并进行搜索,搜索引擎后台则根据不同的算法规则由机器进行信息的快速检索、调取、匹配和排序、分发,这大大提高了信息分发的效率;第三代搜索引擎转向基于自然语言搜索,而非单一关键词的匹配方式,让搜索引擎更加“智能”,读懂用户所需。但从本质上而言,其分发机制仍旧需要依靠算法的支持,才能实现对海量数据的即时获取与重组,并对用户查询内容作出准确快速的响应。
搜索引擎式的信息分发过程一般原理分为三步,分别是:(1)抓取网页→(2)建立索引数据库→(3)搜索内容的排序呈现,并引导用户按照得到的搜索结果进一步搜索下去。
当前搜索引擎式信息分发最典型的应用,国外是Google,国内则是百度搜索。其原理是从互联网提炼抓取各个网站的内容及超链,建立索引数据库,在用户检索关键词时依据一定的算法和数据库中的索引词进行匹配运算,并根据算法按照一定的排列顺序给用户提供检索服务。Google和百度都拥有自己的检索程序,能够自己采集并建立网页信息数据库,当用户进行相关内容的搜索时,能够利用算法快捷直接地从自身的索引数据库中直接调用,并将信息精准分发至用户手中。这个过程类似于在智能词典中检索查字的过程。
搜索引擎式信息分发有以下特征:
第一,信息源包括所有互联网上的网页信息。第二,搜索引擎式信息传播中的信息需求者不仅仅是被动接受,而是主动参与到传播过程中,在搜索引擎数据库建立之后,用户通过“关键词”介入到信息传播过程中,从某种意义上说,“搜索引擎使用者”或“信息需求者”更加适合。第三,搜索引擎式信息分发过程呈现层次化的特点,从初试建立数据库抓取的信息到后台程序匹配呈现的信息,再到用户实际会选取的需求信息,其信息量级逐层递减,但信息的价值含量逐层增加。搜索引擎的信息分发是在信息需求方主动参与的基础上动态呈现。第四,搜索引擎不仅只是作为传播渠道的一种中介载体,而是承担了信息整合与分发的全部工作,通过借助算法整合海量信息资源,并选择突出或屏蔽某些要素的信息内容、确定信息呈现排列顺序,并潜移默化地影响用户的信息接收。在这种信息分发机制下,用户更具有主动性,按照所需选取信息、及时反馈。
搜索引擎式信息分发机制开启了信息的“完全私人订制”时代。由于其技术工作原理,搜索引擎是一种完全由使用者主导的信息获取技术,为用户形成了一种“我想看的完全是我自己想看的”的狀态(理想状态下),在此之前,任何其他媒介都无法实现这种信息分发。
2.推荐引擎:个性分析、精准匹配
推荐引擎系统最早被应用于电商领域,在大数据技术的不断发展下,逐渐被应用于各种领域。推荐引擎式信息分发机制以今日头条、一点资讯为代表的资讯应用为里程碑,发展势头日益高涨,逐渐成为信息资讯市场的颠覆性力量。
推荐引擎式的信息分发机制颠覆了传统的内容生产与推送一体的模式,彻底分离了内容的生产与分发。按照个体不同的信息需求,为用户提供定制化的信息推送。
算法推荐引擎一般包括“用户模型、内容模型、推荐过程”三部分。
用户模型反映的是用户的相关信息,基于算法对用户的特定数据进行描述。如年龄、地域、性别、阶层、爱好,通过大量收集用户数据、内容偏好、阅读行为等标签生成用户画像,从而勾勒出一个用户的个性化特征。同时,基于人工智能的算法技术还具有机器深度学习的能力,通过对使用者的行为进行一段时间的跟踪,能够适时调整对用户兴趣的识别结果,极大的提升了信息分发和用户需求之间的传播效率。
内容模型是指对内容数据进行标签化、建模、分类和排序。通过提取内容特征,拟定相似函数以便最大程度上和用户特征进行匹配。推荐内容的精准度和内容模型的数量是正比关系。内容模型越多,推荐精准度越高。通过算法对互联网上海量的内容进行精确的筛选,根据平台的既定标准对信息的质量进行研判,根据“关键词、热度、时效性、转载、原创度”等指标进行判定,满足用户对内容时效性、显著性、趣味性等因素的需要。一般而言,需要经历“重复标识——内容筛选——内容质量标识——时效判别——关键字提取分类”几个环节。信息内容可以根据用户画像标记多个不同标签,多个标签形成一组反映用户兴趣的标签集合,每个标签使用的频次则与用户的兴趣程度成正比。
推荐过程就是利用大数据将获取到的用户信息依据不同的算法应用于不同的环境中形成推荐内容。基于不同的算法模型得出的推荐策略,结合用户反馈和平台规则,获得最终的推荐列表。
推荐引擎的分发机制实现了通过编程技术,在内容和用户之间架起一座桥梁,大数据不再仅仅是海量信息的简单堆叠,而是有序、有类的有效信息精准到达用户。借助网络爬虫技术和算法技术,个性化推荐引擎能够实现信息的精准分发,使具备定向属性的标签化信息适配用户个性化需求,这与报纸、电视等传统媒介机构形成鲜明对比。推荐引擎在当前的信息分发渠道上形成垄断之势。
推荐引擎式信息分发更加强调算法的主导地位,相比于人工式分发而言,不需大量专业人才或庞大的社交网络作为基础,算法能够更加简便迅捷、也更加了解用户的个性化需求。而相比搜索引擎式分发而言,推荐引擎式的分发机制打破了用户“主动获知”的局限,从横向上帮助个体拓宽了当前的眼界和认知范围。同时,这类信息分发机制能够满足用户在“被动”情景下的信息需求。你无须思考和行动,你感兴趣的信息便会自动的到达你的面前。
三、互联网信息分发机制技术原理:以“算法”为核心
随着信息技术的进一步发展,web3.0时代加速来临,以“算法”为核心的信息分发机制成为解决内容生产与用户信息需求适配这一矛盾的重要工具。算法型信息分发在一定程度上决定着信息流向以及用户对于信息内容的关注度。
(一)推荐引擎式分发机制:以“今日头条”为例
在中国,今日头条是推荐引擎式信息分发机制的代表。今日头条将自身定位为一款“基于数据挖掘的推荐引擎,自身不生产内容,运转核心是一套由代码搭建而成的算法”。据公开数据显示,今日头条2019年6月的月活跃人数达到2.9亿,仍在继续增长。推荐引擎仍是当今信息环境中重要的分发工具。而今日头条的核心分发逻辑则是通过“算法”进行内容的海量聚合和精准分发,以多元内容吸引用户留存。
1.内容生产路径:内容聚合与审核
内容的来源是内容分发的重要前提。今日头条将自身定位与“新闻搬运工”式的内容聚合类平台,颠覆了传统传播逻辑下的内容分发机制。其内容聚合主要来源于三个渠道,一是和平台有合作协议的内容生产源,二是平台利用爬虫自主抓取到的所有信息资讯,另外,一些个体用户主动向平台提供原创内容。(如表2)
不同来源的相似话题将会在系统中统一被标注为同类标签,如来自媒体①的内容A、B、C,来自媒体②的内容B、C、D,来自媒体③的内容A、C、D……以此类推,这些不同的内容标签也将被用于后续的个性化推送过程中。
内容质量审核也是尤为重要的一环,包括机器的自动审核和人工审核两部分。机器审核通过系统标注关键字词,自动拦截部分不符合平台推送原则的信息内容。审核包括标题长度、错别字、价值取向、图片、文字、视频、音频等各种类型的内容。机器审核会将相关违规信息标注出相应的颜色,转入下一步的人工审核。人工审核包括初审——复审——终审三个环节,环环相扣,层层把关,确保平台推送内容的质量,也为个性化的推送分发打下铺垫。
2.个性化分发路径:推荐系统适配用户需求
个性化推荐的分发机制其核心在于算法。算法原理本质上是拟合一个用户对内容满意度的函数,即Y=F(Xi、Xv、Xc)。
内容、用户和环境分别是三个基本变量。在今日头条的分发机制中,主要包括四种基本算法,分别是:基于文本的算法(给用户推荐与其浏览记录匹配的资讯)、基于用户的算法(相似矩阵用户浏览过的资讯推荐)、基于关联规则的算法(着重用户和资讯本身的联动逻辑)和基于场景的算法(包括地理位置、时间段等)。总的来说,这四种算法的核心都是“贴标签”。今日头条通过机器识别、人工编辑和用户自身提交信息等方式建立的标签体系,并将“内容标签”与“用户标签”“平台标签”进行交叉验证,更好地实现内容——用户的精准分发。这种分发过程包含四种环节要素:系统分析、内容分析、用户分析及评估分析。
(1)系统分析
系统分析是为了实现用户、场景及信息更加精准的匹配。一方面,用户在建立个人档案时和行为特征、兴趣特征等数据帮助建立对于用户的分类。另一方面,按照“优先链接机制”对聚合而来的信息内容进行分类、标签化处理,摘要提取以及LDA主題分析等。在此过程中,场景分析也是极为重要的一环,带有“场景标签”的信息能更好击中用户的实时需求。场景式的分发常常糅杂在内容、用户的推荐方式中,从地理位置、时间、网络状况、天气及状态等方面进行场景分类。用户和环境的特征和信息的标签一旦匹配,就可以进行资讯的分发,符合用户此时此刻想要看到的信息内容。
今日头条的个性化推荐模型依靠四类特征来实现内容、用户与环境的匹配,分别是:第一,相关性特征,也就是将用户的属性和内容进行相似评估;第二类是环境特征;第三类是内容热度特征,在平台冷启动时能更有效地将信息分发给普遍的用户;第四类是协同特征,通过分析不同用户之间的兴趣、圈层相似度,拓宽其算法模型的自我学习能力,一定程度上可以缓解信息茧房。
(2)内容分析
如何将丰富的信息分发到对此可能感兴趣的特定用户面前,首先需要对这些内容进行智能分析和标签化处理。内容分析包括文本、图片和视频分析三类,由于“今日头条”最为代表性的分发内容仍是新闻资讯类,因此着重研究文本分析。
内容的“标签”化处理是基础的一环,主要依靠的算法技术是基于内容的推荐(content-based recommendation)。最重要的是进行文本特征的提取,语义标签和隐式语义标签,如关键词、主题等。时空特征是“标签化”的重要考量因素,应用基于新热特征推荐,即基于全局内容的时效性、热度进行推荐。如最新消息的实时推送,体现着时新性;又如来自深圳的最新交规对于北京本地的用户意义不大。
另外,用户查看完相关内容后,也将被打上和文本关键词一致的用户标签。当你看完一篇有关“NBA”的文章,系统之后也会继续为你推送相关的资讯。
内容分析在整个个性化分发过程中主要起到几点作用:(1)用户兴趣建模,内容的“标签化”可以有效地匹配用户兴趣建模,解决一部分推荐系统冷启动的问题。(2)帮助内容推荐,与系统分析一起,能够将与用户和环境匹配度更高的信息分发给用户。(3)生成频道内容,不同的标签内容进入不同频道,如“娱乐”内容进入“娱乐频道”,“学术”内容进入“学术频道”。
(3)用户分析
用户分析同样也是推荐系统的基础环节之一,通过对用户进行画像建模,所有信息分发将基于用户的个人兴趣为起点,并以用户的实际或潜在信息需求为落点。算法将根据用户的兴趣图谱、用户社会关系链图谱、用户历史行为偏好等规则定制个性化内容并进行个性化分发。
用户分析首先需要进行用户的虚拟身份建模,其技术手段包括:基于爬虫技术、数据库及个人信息档案(包括性别、年龄、职业、教育信息、兴趣爱好等)、基于追踪用户历史行为的推荐算法(点击、浏览、转发、评论、页面停留时长等)。当用户采用“第三方登录”时,也能向其他平台直接快速链接到用户的个人信息以及兴趣图谱(也被称为“投靠原则”),这有助于摆脱算法冷启动的困境。
用户分析另一部分是基于用户的协同过滤(Collaborative Filtering Recommendation),通过机器模型进行数据评估和机器学习预测用户的兴趣类属和场景化还原(也被称为用户冷启动)应用赌博算法(bandit algorithm),给具有相同社会属性的用户推送同类资讯。
另外,用户分析可以与内容分析进行交叉比对,分析用户所浏览到的信息中不同标签之间的联系,并根据一定的社会网络算法进行加权计算,并依据用户的历史使用行为不断迭代用户“标签”,并继续影响后续推荐内容的调整。这一环节是算法型信息分发机制的关键,直接影响到信息分发的精准度,并有效挖掘用户的潜在需求。
(4)评估分析
评估分析是推荐系统的最后一个环节,即通过分析用户满意度来评估这个系统的推送效果。这一环节主要通过统一的评估测评师进行使用满意度的调研,以及分析平台的日活、月活数据等得到。评估系统的存在进一步促进推荐系统在內容的分发达到更好的效果。这一环节的存在意味着,算法分发并非意图将决策权全部交由机器,人工力量仍能不断的进行纠偏、设计、监督并且进行算法模型的维护和管理。
(二)搜索引擎+社交式分发机制:以“知乎”为例
“信息爆炸的互联网汪洋大海中,有价值的信息始终是稀缺的”,知乎的诞生正是源于这样的初心。从问答起步,知乎历经八年成长为一个综合性的知识内容平台,目前涵盖话题综述25万多个,问题总数2700万多个,共计1.2亿个回答内容,月活290亿,打出了“有问题,上知乎”这句口号。通过个性化推荐和搜索功能,知乎通过打造全网个性化分发社区平台,缩短了用户和内容之间的距离,缓解了用户信息过载的压力。
知乎在内容的分发方面,主要由推荐、热榜、圈子、话题、关注这几大板块,不同的板块呈现的内容各有侧重,所运用到的分发规则也有所区别。
知乎是基于虚拟社区,用户之间通过提问和回答的形式进行交谈、建立社会联系并形成互动的网络平台。由上表可见,知乎的核心功能都离不开底层技术架构和算法在内容分发方面的重要作用。因此本章节选取“知乎”作为算法式信息分发机制的典型案例,来剖析它是如何搭建起成熟的“搜索”+“推荐”一体化的问答分发机制。
1.内容生产:多元内容生产者,算法调节社交分发
知乎这款产品的核心就是1个问题+N个回答的问答社区模式,共包含了三种不同类型的连接:一是人和人之间的连接,二是人与内容之间的连接,三是内容与内容自身的连接。在内容生产路径的更新迭代中,同样也引入了算法作为重要的工具,不仅加强了平台的社区黏性,更进一步促进知乎的社交式分发的有效实现。
(1)早期:KOL入场积累优质内容池
优质的内容离不开用户的优质输出。知乎早期以邀请机制限定用户数量,吸引李开复、雷军等知名意见领袖下场答题,引来大量相似圈层的优质用户,积累了大量优质答案,逐渐形成了精英社区的文化氛围。在这一阶段,内容的分发仍然遵循传统社交分发的分发机制。
(2)中期:威尔逊算法激活社交生产与分发
2013年,知乎开放权限,吸引了大批的年轻互联网人入驻,知乎社区开始充满各种大开脑洞的提问与回答。但此时一些抖机灵、内容价值低的答案也陆续出现,并依靠其内容本身的传播特性获得更多的点赞和关注,导致部分用心答题的答主对平台失去热情。同时,一些大V开始在答题区内拥有马太效应,新用户的回答往往会排在后位,导致新人的曝光率难以提高,答题区内一家独大。在此阶段,如何维护问答社区的内容输出质量,保持良好的用户粘性,成为了知乎需要改进的方向。于是,知乎开始引入了威尔逊算法进行内容的随机分发,以此来加持社区的用户粘性。
威尔逊算法所控制的答案排序大致有如下规律:
①所有用户看到的排序是相同的;
②获得点赞会使回答排序升高,获得反对会使回答排序降低;
③某个领域下的优质回答将提升该发布用户在此领域下的投票权重;
④某个领域下的高权重用户投票对内容整体排序影响力更高,此类用户的回答排序也会更加靠近回答前端;
⑤使用匿名身份投票或答题时,不会计算用户的权重。
用户在某个领域下的投票权重,是基于其在该领域内相关话题下的点赞数、反对数、没有帮助数共同决定的。但该算法不对用户计算全局权重,即用户的权重在每个领域下的值不可通用,在某个区域内提高权重的最好方法就是在该领域的相关话题下输出优质答案。
威尔逊算法的导入,有效地减小了知乎大V的马太效应,为一个更加公平客观的社区环境提供底层技术架构,调动了新用户的参与积极性,进一步促进了人和人的连接。
(3)后期:推荐系统刺激用户创作欲望
为了让用户快速看到自己感兴趣的提问,并且激发用户的创作欲望,知乎在内容分发上从两个方向进行了布局,从而促进内容生产的加强,分别如下:
问题提出
问题提出是一个从用户的查询中识别出意图,发现知乎现在还无法满足的意图,引导用户进行提问,并根据用户的意图生成合理的问题的过程,得到提问和描述后,后台的卷积神经网络模型会从知乎超过二十五万个话题中选择出最匹配的话题,进行话题的推荐和绑定。
问题路由
问题路由是如何分发问题以让合适的用户看到问题、激发他们的创作欲望。这是一个典型的机器学习排序(Learning to Rank)模式:先在众多用户中通过召回定位合适的范围,然后通过 Pointwise/Pairwise/Listwise 等排序方法,找出最有可能接受邀请以及最有可能产生优质回答的用户进行推荐,或让用户选择委托系统进行邀请。问题路由在其中起到的作用就是提升匹配精准度和效率。
通过这两种推荐系统的调节,一方面,在用户无法通过搜索精准的获得内容时,该用户会成为平台的下一个提问者,进而通过“1个问题”连接到“N个用户+N个回答”。 另一方面,用户在接收到“提问”时,就成为了内容的生产者,而内容的标签也会和用户的标签更新绑定,成为其协同内容的分发新变量。从某种角度来看,这种算法的调节进一步强化了人与人、人与内容、甚至是内容与内容的连接。
2.分发路径:算法推荐+用户主动搜寻;推荐系统:算法式分发,既精准又多样
知乎首页信息流的个性化推荐应用的正是知乎的推荐系统。不同用户在不同时间、不同场景打开的知乎首页都是完全不同的。
受访的知乎技术工程师表示:“我们的信息流推荐框架叫水晶球,一个基于多策略融合的多源内容推荐系统,之所以叫这个名字,是希望能够通过这个系统得以一窥用户想要看到什么内容,然后推荐给他”。
四、启示与思考
(一)算法型分发机制仍存隐忧
1.当前流行推荐算法固有缺陷
在“算法分发”成为互联网新闻资讯的主要分发方式的背景下,算法模型的“默认设置”掌管着复杂系统。这种默认设置的内容和特征取决于设置的设计者,而用户又常常因为改变默认设置所需要的成本(知识、时间、精力等)而放弃修改。一般而言,这种“默认设置”更多衡量信息内容的热度价值,即“点击率”。這也就意味着默认设置是预设设置的人用于操纵系统和影响使用者的工具。从本质上来说,从“编辑分发”到“算法分发”是新闻资讯服务内置默认设置的一种调整。这意味着无论用户如何选择,或是不选择,其结果都是接受系统选择的结果。人们自主选择信息的权力被不断挤压,仅剩下在不同机构提供的算法之间选择。而目前几种主流的算法模型都存在着相应的特点和不同的调整方向。
社交关系型分发机制中应用的算法规则难以有效应对前文提到的问题,即用户社交关系链复杂前提下过多内容生产源所带来的“信息超载”。另外,对亲密社交关系的长期加权很容易使用户陷入相对封闭的同质化社交圈。算法对亲密社交圈的识别可以帮助用户进行高效信息筛选,但是势必会促使大范围的交往变成私人领地内部的互动,并阻碍新的社交关系形成和维持。在宏观层面上,这种对社交关系的强调会进一步加剧圈层的分化,不同圈层建构出迥异的群体认同和社会感知,社会割裂成一个个隔绝甚至对立的回声室,社交平台无法通过高效的信息传播和意见送达实现社会整合功能,本应具有公共属性的社交平台变得碎片化。
兴趣加权算法模型依赖系统内整个用户历史数据库作为其推荐系统的原料,当数据严重稀缺时,会存在冷启动(这里所谓的冷启动是指对于某APP的新用户,算法系统缺少其历史数据,难以通过算法准确了解和把握其需求的状况)差、推荐精准度下降等问题。加入基于模型的推荐可以有效地解决这一问题,通过算法根据训练集数据学习得出一个复杂的模型,来预测用户感兴趣的信息,提升预测的准确度,但存在建模复杂的缺陷。
另外,兴趣加权算法可以推荐用户更愿意阅读的内容,提高用户的粘性。但是相比推荐系统在购物、音乐等领域的应用,其在信息分发中的应用需要更加严格的审视。如今,互联网成为人进行社会感知的重要信息来源,基于兴趣推荐的算法介入会使符合用户头脑中主观期待的信息有更大概率被呈现,传统大众传播时代的非个性化的信息环境变成“投其所好”式的定向投放,信息价值观发生偏向,大众传播的教育、整合功能可能有所减弱。不同用户接触的资讯信息必然存在明显的差异,且生活环境、生活方式差异越大的群体之间的信息结构差异也就越大。长此以往,这种资讯消费模式的发展和固化将导致 “知识鸿沟”和“信息鸿沟”的扩大,并进一步带来社会群体之间的深度隔离和社会群体的分化。
2.算法型分发机制下的内容“流量经济”
“流量经济”这一概念最早是孙希有2003年提出,指的是“依靠人才、信息、知识、资金等要素资源的流动带来经济效益的一种行业业态”。内容的“流量经济”是指,在当今的互联网信息环境中,用户的点击、阅读、浏览行为为平台带来的价值转化。在此模式下,信息内容是吸引和留存用户的载体,媒体为了获得更大的商业价值,必须以更符合用户个人兴趣的内容来吸引他。
通过信息选择的或然率可知,平台为了获取更多的用户,一方面需要通过不断优化分发技术,促进信息的分发效率,降低受众“费力的程度”,而以算法为核心的分发机制恰是性价比最高的最优解。另一方面,娱乐化、碎片化、情感性的内容在单位时间内的阅读难度更低,更易引起受众兴趣,得到更广泛人群的接受。因此,算法本身作为一套数学公式,虽然是不带有任何立场的。但算法分发机制的背后实则蕴含着其使用者的价值选择和利益取向。在算法型分发机制下,为了抓住用户的眼球,会出现低俗化、娱乐化、同质化内容大量充斥,标题党层出不穷,内容质量参次不齐等问题的出现。这正是算法分发机制过于迎合用户个人兴趣所导致的内容泛流量化。
3.算法型分发机制加重“信息茧房”
信息分发机制的历史发展进程中,越来越符合媒体去中心化、社交化的内容生产与分发趋势,传播逻辑转向传受一体化,发展至算法为核心的信息分发机制,受者本位成为信息分发的根本核心。但过度迎合受众兴趣的算法型信息分发机制,正越来越加重“信息茧房”。这也是众多学者在探讨算法技术所可能引起的负面问题中最为广泛提及的一点。
“信息茧房”假说最早由凯斯·桑斯坦提出,他认为,在信息传播中,公众习惯只注意自己选择的内容和使自己感到愉悦的信息,久而久之,公众就桎梏于“蚕茧”一样的信息茧房中。事实上,信息茧房在传统媒体时代就已经存在,只是随着算法分发技术的普遍应用,这一现象变得尤为突出。信息茧房并非由算法技术一手造成,而是人性的弱点。技术的发展让个人拥有更强的主动选择权,人们更加主动倾向于接受自己喜爱的信息内容,逐渐导致用户的视野受限。在这样的分发机制下,同质化的信息内容将个体包裹起来,形成密不透风的茧壁,个体受困其中却不自知。
但算法型分发机制对用户并没有造成单纯负面的“茧房”效应。从技术而言,正如今日头条所应用算法推荐技术中的协同特征。即通过分析不同用户之间的相似性,依靠机器自我学习能力逐渐提高算法推荐模型的优化迭代,有可能破除“茧房”。例如,A用户平时喜欢浏览体育、财经和社会新闻,B用户喜欢体育和社会新闻,那么系统也会尝试给B用户推送财经新闻。这样做,部分程度上可以帮助解决所谓算法狭窄的问题。
另一方面,算法型的信息分发机制有利于用户避免选择信息接触和认知不协调的心理机制。当用户需求被推荐算法精准捕捉并适配内容时,个体用户的内容需求可以被直接满足,活跃用户还可以使用搜索引擎和社交功能来拓展主题以及观点范围,获得更广的信息资源。因此,算法型分发机制在无形中可能会使得“信息茧房”得以强化,但并不是唯一原因。用户的媒介素养、技术素养、信息接受习惯等都可能会导致“信息茧房”的加深。更重要的不是探讨算法分发机制是如何使“茧房”加重,而是如何从算法优化、用户自身、媒体担当等方面去反思如何打破“茧房”的禁锢。
(二)新型主流媒体建设算法型分发机制的启示
从传统的“人工列表式”信息分发模式,到社交媒体的“UGC-社交分发”模式,再到以算法为核心的推荐引擎和搜索引擎的分发模式。互联网信息分发机制的变迁既反映出传媒技术的不断进步,也体现了传播逻辑的不断改变。分发机制的变迁和发展对新型主流媒体的建设有着重要的启示作用。可以从目前发展成熟的互联网信息分发平台的分发机制中得出对新型主流媒体在互联网化的过程中建构有效的分发手段、加强信息分发的渠道建设得出几点启示。
1.理解“分发”,实现由受众到用户的理念转型
传统媒体时代,报刊的“分发”指的是报刊室将报刊、书本、杂志派送到读者手中的那一环节,强调的是“to C”的最终一环。媒体互联网化的初始阶段,媒体对于互联网上的信息分发概念停留在内容的“网络版”刊登,即内容的发布,此类的发布机制仍然带有浓重的单向度传播烙印,受众只是在被动的接受信息内容。
但随着传媒的发展和技术的进步,媒体权力不断下移,普通大众拥有了普遍的媒介接近和媒介使用权利,受众的主动性逐渐突出,并逐渐朝向“用户”转型,拥有信息选择甚至信息生产的主动权和能动性。“算法型信息分发机制”实质上贯彻的正是用户优先的理念,一切信息分发以用户的个体需求和信息习惯为导向。实现从“受众”到“用户”的理念转型,是媒介信息环境变化背景下建设有效的信息分发机制的基础。按照“使用与满足理论”,受众在进行信息消费时是带有明确的主观目的性。因此,新型主流媒体应对受众的主观能动性和真实、个性化的信息需求基于足够的重视,将“受众”视为“用户”,一切的信息生产和分发行为都以大众的需求為导向。这种理念的创新是一切技术和制度创新的驱动力量。
2.理解“技术”,优化算法机制和模型
算法作为互联网信息分发链条中的核心技术,根据个人爱好为用户定制内容并进行分发。在此传播环境下,新型主流媒体更应加强对算法的基础常识。并根据用户数据和内容的数据不断优化算法分发机制,建立更加全面、科学的算法模型来分析用户的兴趣内容,增进数据的匹配度,并提升算法的透明度。推荐引擎、搜索引擎和智能社交式分发机制都可以为主流媒体打造互联网上有效的分发手段提供可借鉴的技术思路。
(1)推荐引擎式分发机制
新型主流媒体建设分发机制的前提首先在于,深刻理解数据是算法分发机制的核心要素。推荐引擎式的分发机制核心就在于数据的获取和匹配。为了实现信息内容和用户的精准适配,首先需要获取用户数据和内容数据。用户数据分析包含用户的兴趣特征分析、用户身份特征分析和用户的网络历史行为特征分析。目前而言,通过建立流式计算框架来进行用户标签的数据处理是今日头条更高效率的做法。其流程如下:通过实施处理用户数据,并在收集一定量的用户数据后通过机器的自我学习不断动态更新用户的兴趣模型,其使用的范围更广、效率更高,能够解决大部分用户的数据跟踪推送。
内容数据的机器处理则包含两个环节,首先利用LDA(Latent Dirichlet Allocation)主题分析生成模型,对信息内容按照词、主题和文档进行分类,并将每篇单独内容按照不同的概率和不同主题的形式进行发布。接下来,使用基于深度神经网络模型来进行文本的情感分析,从文字中识别出读者对于特定内容的主观意见、情绪等,从而进行符合人类情感态度的内容分发。
在用户数据和内容数据的标签化完成后,推荐引擎式分发需遵循两种匹配逻辑:
一是为用户找到他的内容,依托用户数据完成跟踪推送。依托于用户数据分析后利用算法模型预测用户可能感兴趣的信息内容,并分别将部分用户的数据作为训练集和测试集,依次进行模型的评估测试,得到模型的准确率。简单来讲,用户基数越大,用户数据越丰富,推荐算法模型的预测正确率越高,推荐的信息内容更加精准。
二是为内容找到它的用户,内容标签精准集中目标用户。对于已经标签化的信息内容,通过分发和用户反馈来对推送模型进行评估和修正。同时,用户的行为数据也会影响内容分发算法的自我迭代,例如用户最近关注体育类文章,机器学习会大批量自动抓取和生成相关的内容,有关体育的文章也会被优先推送至用户。为了能够使内容标签精准集中目标用户,需要使用协同过滤算法对用户的兴趣进行深度挖掘。
归根到底,用户的兴趣图谱精细化和内容标签的多元化处理分类是完成两种匹配逻辑的必要前提。
(2)搜索引擎+社区问答式分发机制
一方面,新型主流媒体要发挥资源优势,加强在算法分发技术上的探索和运用。在搜索方面,加强机器对用户语义的识别能力,精准洞察用户需求,实现快速响应、智能响应。换言之,新型主流媒体建设搜索引擎式的分发机制,首先需要有多元、专业的信息资源库存作为储备,并以完善科学的搜索响应系统架构提供技术底层支持。
另一方面,利用协同算法聚合内容,丰富社区式问答分发功能,延伸分发触角,扩大影响力。部分主流媒体平台只停留于“用户提问-相关回答”这一单一环节,当用户在平台搜索某个问题,平台跳出一篇新闻的报道,整个搜索过程便终止了。用户有相关的疑问时,在平台提出问题,等待后台编辑或其他网友的解答后,问答过程也终止了。新型主流媒体分发平台可以借鉴“社交式分发”的逻辑,为其分发机制注入社交基因。如知乎平台利用算法快速实现对用户检索内容或其问题的自动识别和分类呈现。新型主流媒体客户端无须做到对于问答内容的面面俱到,但可以充分发挥平台的权威性和专业性,在满足用户头部新闻内容的需求同时,满足用户对于新闻信息的深度需求。例如对某一重点事件的报道可由专业编辑根据新闻发展分为“背景探析——时间进行中——长尾讨论”不同阶段,并在不同阶段结合算法分发技术吸纳更多用户的关注和参与。背景探析部分可设置立足于新闻事件的专业问题,介绍新闻的相关背景并邀请到用户参与事件的讨论。在新闻不断的发展变化中,发挥时效优势,在恰当时机再次提出问题,包括新闻后续的讨论和延伸方向,可以邀请到“专家观点+草根用户解读+组织机构发声+事件当事人现身说法”等不同主体共同参与新闻报道,从不同角度挖掘信息价值,从问答互动中挖掘报道素材和角度,并将优质的长尾内容纳入到新一轮的信息生产与分发环节中,形成分发——再分发的完整闭环。这些功能的实现需要强大的数据处理能力和机器响应能力,对于不同信息内容进行“标签”设定,并将平台专业化内容+优质问答内容进行筛选-聚合-排序-呈现,并依据用户画像进行协同话题的推荐和分发。
总的来说,头部的新闻内容成为最主要的流量入口,其分发算法中提高时效性、重要性、显著性等新闻价值要素的权重,满足用户基础的信息需求。同时,开拓尾部新闻问答的分发空间,满足用户信息个性化需求。这需要新型主流媒体不仅局限在头部内容的分发层面,也需要对“原生信息”视为素材,吸引用户的点赞或评论,进一步利用“再加工的信息材料”,提炼引导观点,扩大影响力。由专业编辑+机器算法将这些长尾内容进行筛选及重新聚合、排序、审核、分类呈现。并发挥专业编辑把关、撰写、整合的能力,提高长尾内容的整体质量,这些长尾内容也可以和头部内容进行组合分发,使新闻报道更加完整、全面。
新型主流媒体客户端应与“知乎”等移动新闻客户端的问答式平台形成功能区别,以自身优势的资讯权威力和优质新闻资源吸引更多用户,捕捉他们对于信息的深度需求,不仅仅局限于头部新闻内容的分发,而是吸纳更多长尾的信息问答内容,与互联网平台媒体形成差别,找到自己独特的生态定位,在网络分发渠道占据一席之地。
在 Feed 流的推荐场景下,用户都是越来越“懒”的,大部分用户希望及时不通过不进行繁琐的操作,也能得到非常精准的推荐结果。这也是“水晶球”的信息流推荐框架意图达到的分发效果。当用户来到知乎的推荐页面时,线上模块的部分分为召回、排序和重排三个阶段,并最终将返回的推荐结果展示给用户,形成了我们所看到的千人千面的信息流页面。
其中,“召回”主要是将尽可能“大而全”地将所有用户可能感兴趣的内容都提取出来,根据用户的历史行为表现(即用户画像),确定数十个推荐队列,或者说数十个“召回源”的召回比例和召回数量。推荐队列是一个个含有特定标签的内容合集。有些队列里内容性质相似,比如热点新闻队列、视频队列。还有的队列与用户行为紧密相关,比如关注的人队列、搜索关键词队列。这一模块主要采用的技术包括:对图文内容、视频内容的基本的识别和画像,對用户的画像,以及图文内容和视频内容里面的实体识别以及关联。
紧接着,“Ranking”会基于用户可能感兴趣的程度对所召回的全部内容进行重新排列,力图更加“精准”的关联用户兴趣,一般基于时间顺序、线性加权等规则。Ranking模块借鉴了Facebook的Edge Rank算法,加入了用户亲密度的参考维度,并在最近的优化版本Global Ranking中采用了深度学习模型、DNN(即深度神经网络技术)等,能够快速处理高达几十万的话题量级,DNN 可以在一百毫秒内对数百条召回内容完成打分和排序过程,决定推送给用户的内容。
最后,“Reranking”则会根据平台规则或业务需求,对推荐物料再次加工,如给视频、图文内容进行一定的提权;又如将相似内容隔离开避免话题堆砌感等,最终将推荐的内容分发至用户。
知乎的推荐系统针对这一需求持续进行优化,比如:在召回环节,引入更多根据用户的行为来召回内容的方式;在排序环节,把用户的各种行为,以及内容的各种标签都引入进来,并通过 DNN 神经网络进行排序。
(3)推荐系统分发规则
为完成精准又多样的个性化分发,在系统架构的底层支持下,知乎的分发规则应用的主要就是基于内容和用户的协同过滤。
协同过滤(Collaborative Filtering)就是基于邻域的算法,即使用某人的行为behavior来预测其它人会做什么。
基于用户的协同过滤是指根据用户对物品的偏好,找到相似的用户,然后向当前用户推荐相似用户最喜欢的物品。其主要权重是用户标签之间的相似重合系数,预测目标用户对相似物品的喜好程度,最后展示出最符合其预期的内容推荐给他。
如图(表4)所示,用户A喜欢内容1、内容3,用户C喜欢内容1、内容3、内容4,从用户的偏好行为数据中可以观察到,用户A与用户C拥有相似的内容喜好,于是系统会优先将内容4也推荐给用户A。
同时,基于内容的协同过滤规则也不尽相同,但它主要参考的是内容1与内容2、内容3……的相似程度,并根据用户画像,将内容推荐给当前用户。
内容分类呈现结构化的特点。知乎的各个频道、分类、话题都是对内容的一种分类。单个回答或文章来说,包括数值特征(如内容长度、点赞量、浏览量等)、内容类型(关键词、话题ID)等。
内容理解不仅为匹配奠定基础,同时也是知乎进行分发规则设定的另一种表现形式,即流量分发,其代表产品就是知乎的热榜。以热榜为代表的流量分发方式,可以引爆一些话题。
除了基础的用户自然属性画像以外,知乎更加重视用户的行为画像,如用户搜索行为、点赞数、用户评论数等统计特征。你在知乎的每一次关注、点赞、分享、评论、收藏,甚至某个回答的停留时长,都是你的一次行为标签。平台对不同的行为标签有不同的权重,例如评论的权重大于点赞。多元的用户标签用于建立用户画像系统。
为了达到更好的分发效果,知乎并没有单纯使用以上其中一种作为单一的分发规则。通过进一步的相似度计算,完成二者的协同过滤。
因此,当你打开知乎首页,看到给你推荐的那些内容,都是基于你过往的搜索、浏览、点赞、评论等行为标签计算得来的,你的每一个动作,都是在为自己可能接受到的信息投票。
3.搜索分发:精准切中用户需求
知乎打出“有问题,上知乎”这一口号。用户主动获取内容是知乎主要的内容分发形式,分为搜索和提问两种形式。知乎作为一个大型的中文问答社区,有超过四千万的提问和超过两亿条回答,其中蕴含了丰富的知识、经验和见解,知乎搜索是帮助用户快速获取信息,找到答案的重要途径,随着媒介的升级,搜索结果的形式也不在局限于图文,视频解答也越来越多。
知乎首页的问答内容依据“搜索算法”一系列的识别、匹配和排序后,将结果呈现在每个用户的眼前,而推荐的依据则在于不同用户的关注和搜索行为。
搜索,是用户获取信息,找答案最方便快捷的方式。在知乎,一次用户搜索会经历 Query 解析、召回、排序多个环节。用户输入 Query 之后,首先要进行 Query 解析,生成查询 Query Tree 和语义表示向量。之后进入多队列的召回模块,召回阶段从召回方式上说可以分为倒排召回和向量召回,在这一环节会筛选出前400的文档进入到排序阶段。排序阶段又分为精排和重排序两个环节,精排阶段通过模型对多召回源的文档进行统一打分,之后将 Top16的文档送入重排序模型进行位置的微调,最终呈现给用户。排序作为最后整个过程一环,对用户的体验有最直接的影响。
(三)新型主流媒体建设信息分发机制的创新思考
1.算法优化:主流价值观驾驭的优质算法分发
对主流媒体而言,算法的广泛应用是把双刃剑。一方面,算法能够为承担主流价值传播的主流媒体赋能,提升新闻生产能力与信息分发的精准度;另一方面,算法分发依据的逻辑规则也对主流意识形态带来冲击和影响。如何在算法广泛应用的时代背景下牢牢掌握网络舆论场上的主动权话语权,是主流媒体面临的一大挑战。
从国内典型的信息精准推送平台的实践看,新型主流媒体实现精准分发需要包含以下环节:其一是建立内容数据库来聚合海量信息;其二是建立用户数据库来记录用户身份和行为数据;其三是建立标签体系,标注内容信息与用户数据,以便于匹配和调用二者;其四是确定规则,寻找相应算法,建立数学模型,开发计算机程序;其五是利用大数据训练算法程序。总的来说,就是基于信息内容标签来预测用户不同场景下的信息需求,完善分发算法的标签体系,不断丰富其算法标签中的内容要素,使标签体系更加贴近用户的需求和个人偏好,以提高分发的适配度和传播效率。
更重要的是,作为主流媒体,将主流价值观作为标签纳入到算法的取值和分析过程中,这是为实现社会公共利益的最大化所必要完成的。从社会维度看,社会主义核心价值观是当今社会的主导价值观,包含了国家、社会和公民层面的价值要求,其应当成为新型主流媒体算法机制建构的重要指导。从专业维度看,包含“真实、准确、客观、公正”等在内的职业理念和操作准则,与强调“党性和人民性统一”等原则的马克思主义新闻观,正在当下共同影响和规范着我国的信息传播实践。新型主流媒体的算法设计应充分体现主流价值观,并将深入探索满足社会成员个人的信息需要与促进其与社会一体化之间的辩证关系,以此为基础提升算法分发的科学性。通过全面地分析把握用户本质的信息需求,建立更加科学的算法规则,可从以“点击量”为主要参考因素的模式,转变为着力体现新闻内容的“重要性”的“社会化”标准。在这一标准的基础上,新型主流媒体将能够重点突出主流价值观在信息分发环节中的把关作用,实现个人信息选择和社会公共利益的最大平衡。为此,新型主流媒体需搭建相应权重和算法函数关系指导信息推荐中的“内容评级”和“用户画像”机制,建设起新型主流媒体平台的精准推送能力。
其一,在用户层面,充分体现信息对于用户个人的“重要性”。移动传播体系中的信息分发效果,依据主流价值观作出的判断是否能够广泛传播,社会是否能够在这样的信息底层上达成共识,最终都取决于用户的点击打开和阅读播放。这一过程中,可借鉴今日头条、知乎等商业平台算法分发机制规则设定中对于用户需求、社交关系的权重分配,具体分析用户个人的信息需求特征,精准推送相关信息。
其二,在内容层面,以主流价值指导内容数据库建设和内容审核及评级。移动传播时代的信息传播是个人化传播,而用户个人的需求是多元且丰富的。用户不仅需要新闻等公共信息,更需要各类娱乐资讯、生活资讯和自我表达的空间。互联网技术提供了这样的可能性。因此,新型主流媒体平台需要比自己以往和比互联网商业平台在更大范围内聚合各类信息和数据,并建立具有更多维度的科学的标签体系,并在此基础上,通过对各类资讯的科学评估,包括内容与社会主流价值观的一致性等,来进行分发内容的把关,在一个品类丰富、高质量的内容数据库的基础上建构精准推送能力。
2.人机共治:建立分层分级“把关制度”
人工编辑在选择新闻信息时候有基本的价值判断标准,而算法技术虽然可以帮助快速筛选信息内容,提升分发效率,但缺乏更加专业化的判断能力,因此突出“人工编辑”在新闻价值观方面的引导,可以改善算法机械化的弊端,增强信息的价值含量,又可以使算法在深度学习中更加“懂”人。完成“工具理性”和“价值理性”的适配和相互促进。
一是在内容生产和分发方面,建设独立于算法系统外的人工编辑预估系统,由有丰富编辑、审核经验的传统专业媒体团队,从新闻价值等角度预判用户的偏好,并将其预判的结果和机器的预测结果进行协同化计算处理,动态调整用户画像,并动态调整信息的分发权重。而不只是单纯凭借机器对用户历史浏览行为数据的跟踪来进行用户标签集的创建,通过相应的算法机制适配,保障用户获得更加全面、均衡的信息。这样或能更好、更精准的实现用户数据和内容数据的精准匹配,提升信息分发的效率。同时,利用人工智能和数据库相结合的方式,结合心理学建模,加强平台自动化进行内容审核和管控的力度,加强对虚假信息、泛娱乐化信息的甄别与控制,沉淀更多优质信息资源。加强人工干预和算法自动分发机制的配合,在某种程度上有助于平台能够进行不同类型素材的输入,降低了内容同质化趋势,保证信息内容的多元化。同时也能弥补算法难以判断内容价值倾向的弊端,保证分发的内容具有一定的新闻价值。
二是动态调整不同类别新闻分发的权重,实现硬资讯和软资讯之间的平衡,实现社会信息需求和个人信息需求之间的平衡,保证个人在获取个人兴趣内容之外也能获得其他方面的信息内容。一定程度上能够帮助用户更好的扩展其内容接触面,拓展兴趣点,甚至引导用户主动搜索更加多元化的信息内容,避免信息茧房。
三是恪守公正、真实的原则,利用技术手段通过对信息分发路径各个环节的追蹤,实现对虚假信息的实时监测和快速识别,提升对虚假信息的有效管控,发挥全媒体时代互联网信息“把关人”的重要作用,维持网络空间良好信息秩序,营造安定有序的互联网信息环境。
四是在分发机制的设定中保持审慎、公平的态度来制定算法规则和标准制定,在内容分发的各个环节中,谨慎避免“算法偏见”,防止用于算法训练的原始数据集存在人为的不良倾向,遵循中立、公平的算法程序开发原则,同时引入专业人员实时对分发的流程和算法的自我学习流程进行检测,提升信息交互质量,在分发之前较早的识别偏见、修正算法程序,保证用户接收到的信息内容更加全面、客观。
参考文献
[1]匡文波.新媒体概论(第2版)[M].北京:中国人民大学出版社,2015.
[2]郭庆光.传播学教程(第2版)[M].北京:中国人民大学出版社,2011.
[3]刘海龙.大众传播理论:范式与流派[M].北京:中国人民大学出版社,2008.
[4]胡正荣,段鹏,张磊.传播学总论[M].北京:清华大学出版社,2008.
[5]林祥.互联网时代媒体平台经济发展的理论与实践[M].北京:国家图书馆出版社,2018.
[6]梅爾文·德弗勒,桑德拉·鲍尔—洛基奇.大众传播学绪论(杜立平译)[M].北京:新华出版社,1990(原著出版于1957年).
[7]尼古拉·尼葛洛庞帝.数字化生存(胡泳,范海燕译)[M].北京:电子工业出版社,2017(原著出版于1997年).
[8]沙莲香.社会心理学(第二版)[M].北京:中国人民大学出版社,2006.
[9]纳赛·佛林,小詹姆斯·坦卡徳.传播理论——起源、方法与应用[M].北京:华夏出版社,2000(原著出版于1979年).
[10]《人工智能读本》编写组.人工智能读本.北京:人民出版社,2019.
[11]保罗·莱文森.信息革命的自然历史与未来(何道宽译)[M].上海:复旦大学出版社,2011(原著出版于1998年).
[12]戴维·克劳利,保罗·海尔.传播的历史——技术、文化和社会(董璐等译,第6版)[M].北京:北京大学出版社,2018(原著出版于2003年).
[13]米歇尔.机器学习(曾华军等译)[M].北京:机械工业出版社,2015(原著出版于1968年).
[14]彭兰.网络传播概论(第3版)[M].北京:中国人民大学出版社,2012.
[15]钟瑛.网络传播导论(第2版)[M].北京:中国人民大学出版社,2016.
[16]张凤军.基于Neo4j图数据库的社交网络数据的研究与应用[G].湖南大学硕士论文,2016.
[17]王子今.邮传万里: 驿站与邮递[M].长春:长春出版社,2004.
[18]喻国明.媒介革命:互联网逻辑下传媒业发展的关键与进路[M].北京:人民日报出版社,2015.
[19]宋建武.构建全媒体传播体系的实践路径[J].传媒评论,2021(02):13-16.
[20]宋建武.全媒体传播格局中的主流价值引领[J].新闻与写作,2019(11):1.
[21]宋建武,冯雯璐.全媒体时代主流媒体的数据化生存与发展[J].湖南大学学报(社会科学版),2019(33):153-160.
[22]宋建武.全媒体传播格局中的主流价值引领[J].新闻与写作, 2019(11):1.
[23]宋建武,黄淼.信息精准推送中主流价值观的算法实现[J].新闻与写作,2018(09):5-10.
[24]宋建武,陈璐颖.建设区域性生态级媒体平台——打造新型主流媒体的路径探索[J].新闻与写作,2016(1):5-12.
[25]宋建武,黄淼,陈璐颖.平台化:主流媒体深度融合的基石[J].新闻与写作,2017(10):5-14.
[26]陈昌凤,石泽.技术与价值的理性交往:人工智能时代信息传播——算法推荐中工具理性与价值理性的思考[J].新闻战线,2017(9):71-74.
[27]刘战伟,刘蒙之.编辑、社交和算法:信息分发路径、权力格局与未来图景[J].城市党报研究,2020(02),46-53.
[28]王万良,李卓蓉.生成式对抗网络研究进展[J].通信学报,201839(2):135-148.
[29]彭兰.移动化、社交化、智能化:传统媒体转型的三大路径[J].新闻界,2018(1),35-41.
[30]刘永俊.论大数据背景下编辑理念的变革之路——以“今日头条”新闻客户端为例[J].出版广角,2015(9):96-97.
[31]彭兰.未来传媒生态:消失的边界与重构的版图[J].现代传播,2017(1):4-5.
[32]师文,陈昌凤.社交分发与算法分发融合:信息传播新规则及其价值挑战[J]. 当代传播,2018(06):31-33+50.
[33]仇筠茜,陈昌凤.黑箱:人工智能技术与新闻生产格局嬗变[J].新闻界,2018(1): 28-34.
[34]沈浩,袁璐.人工智能:重塑媒体融合新生态[J].现代传播,2018(7):8-11.
[35]施威,熊佳敏.媒介技术演进的社会动因与选择机制[J].新闻传播, 2013(11):110-111.
[36]司峥鸣.技术演进中的传统媒体发展重构——基于Web2.0理念下传统媒体的现状和未来[J].哈尔滨商业大学学报(社会科学版),2010(1):93-97.
[37]陶飞,刘蔚然,刘检华,刘晓军,刘强等.数字孪生及其应用探索[J].计算机集成制造系统,2018-24(1):1-18.
[38]苏涛,彭兰.“智媒”时代的消融与重塑——2017年新媒体研究综述[J].国际新闻界,2018(1):13-14.
[39]金兼斌.机器新闻写作:一场正在发生的革命[J].新闻与写作,2014(9):30-35.
[40]黄典林,白宇.人工智能与新闻业变革的技术和文化逻辑[J].新闻与传播评论,2018(6):31-40.
[41]李沁.沉浸媒介:重新定义媒介概念的内涵和外延[J].国际新闻界,2017(8):115-139.
[42]李煜.广播史研究的范式转移[J]. 现代传播(中国传媒大学学报),2014-36(9): 38- 45.
[43]苏涛,彭兰.“智媒”时代的消融与重塑——2017年新媒体研究综述[J]. 国际新闻界,2018(1).
[44]杰罗姆.平台型新媒体(Platisher)是有效的商业模式吗?[J].中国传媒科技,2014(23):5.
[45]方师师.双强寡头平台新闻推荐算法机制研究[J].传播与社会学刊,2018(1)45-47+31.
[46]方师师.算法机制背后的新闻价值观———围绕 “Facebook 偏见门” 事件的研究[J].新闻记者,2016(9):64-65.
[47]王茜.打开算法分发的 “黑箱” ———基于今日头条新闻推送的量化研究[J].新闻记者,2017.
[48]段伟文.人工智能时代的价值审度与伦理调适[J].中国人民大学学报, 2017(6):98-108.
[49]傅丕毅,徐常亮,陈毅华.“大数据+人工智能”的新闻生产和分发平台——新华社“媒体大脑”的主要功能和AI时代的新闻愿景[J].中国记者,2018(3):17-20.
[50]张洪忠,石韦颖,刘力铭.如何从技术逻辑认识人工智能对传媒业的影响[J].新闻界,2018(2):17-22.
[51]美通社-美通说传播.腾讯全媒派刘胜男谈未来媒体的内容格局[OL].http://prnasia.com/blog/archives/20419,2018-1-3.
(作者系中国人民大学新闻学院硕士研究生)