算法型信息分发:技术原理、机制创新与未来发展
2018-06-27喻国明韩婷
喻国明 韩婷
【摘要】算法型信息分发给传播领域带来巨大而深刻的革命性改变,必然是一种重塑传播规则、改变人们认知的全新规则与机制的建构与改变。算法与传媒业的深度融合,不断形塑着传媒业的实践,给信息采集、制作、分发等流程带来了全新机制与规则,同时也给传播伦理造成了相当大的影响。作为一种越来越主流的信息分发形式,其未来发展必须着力于解决现实发展中所存在的问题与隐忧,才能开辟其登堂入室的光明前景。
【关键词】算法型信息分发;场景适配;人机交互;规制创新
一、问题的提出:算法型信息分发的强势崛起与社会质疑
人类的信息分发模式迄今为止大体上经历了三个主要的发展类型:(1)倚重人工编辑的媒体型分发;(2)依托社交链传播的关系型分发;(3)基于智能算法对于信息和人匹配的算法型分发。
这三种类型作为信息分发的主流模式依次出现,各有其特色与擅长。譬如,媒体型倚重人工进行信息的专业化处理和加工,这种分发模式可以解决社会的共性需要,把那些对于全局、对于所有人具有普遍意义的信息筛选出来,并以点对面的方式传播出去。它的价值在于解决了“头部信息”的社会化分发。但是它无暇顾及人的分众化、个性化及偶然性、体验性及高场景度的信息需求。于是便出现了依托社交链传播的关系型分发模式:你的朋友、你关注的人帮你推荐、过滤信息,他们的评论、转发形成了一种信息筛选机制。社交分发模式最大的价值是在人类的传播史上第一次激活了大众传播时代那些被忽略的极大量的“长尾信息”,形成了对于信息服务的“利基市场”,实现了信息分发的“千人千面”——不同的人通过不同的“朋友圈”有了个性化的信息世界。2010年Facebook主页访问量超过Google,可以看作是社交驱动的“关系型分发”在全球成为主流的“拐点”,所谓“无社交不传播”即是对关系型分发的一种不无夸张的描述。
但“关系型分发”的问题在于无法解决用户社交关系爆炸情况之下的内容生产源的爆炸所带来的“信息超载”以及基于社交关系的推荐质量不断降低的问题。经验表明,在微信朋友圈中养生、微商、晒娃晒吃类的无效信息越来越多;微博上则是大V和营销类账号占据了主体流量——有研究表明,在微博平台上,90%以上的内容是由3%左右的“大V”生产和分发的。在此背景下,算法型信息分发模式便应运而生,渐成潮流:现在人们随便打开一个网站或资讯APP,都会有《个性推荐》或《猜你喜欢》之类的栏目,系统会根据你的浏览记录和阅读爱好,自动为你推荐内容。第三方监测机构易观发布了一个具有标志性意义的数据:早在2016年,在资讯信息分发市场上,算法推送的内容已经超过50%。它意味着,我们现在接触到的信息,主要是由“智能算法”为我们搜索和推送的。“算法型”信息分发之所以“流行”,有分析者认为是因为算法对流量的分配独立于社交关系,不被“大号”垄断;算法能够处理的信息量几乎没有上限,能够更好地激活、适配“汝之毒药,我之甘饴”的长尾信息;算法能够对用户的社交推荐机制进行二次过滤,优化推荐结果。概言之,算法型实现了对于海量信息价值的重新评估和有效适配。“汝之毒药,我之甘饴”意味着你觉得不感兴趣甚至是垃圾的信息,对于我可能极有价值。于是,信息价值不再有统一的标准,不再有重要性的绝对的高低之分。对刚生下宝宝的妈妈来说,PM值绝对比英国脱欧更重要。对旅游者来说,当地的天气信息绝对比当地的房价更重要。在算法的驱动下,每个人都有了自己的头条,这一点得以实现。整个信息世界大一统的秩序被打破。
但也正因为如此,算法型分发模式站在了风口浪尖上。《人民日报》曾连续三天撰文从内容生产、信息分发和社会创新等角度对某算法型信息分发平台进行了全方位立体式的批判。公允地说,这些批判在现实状况下不无道理。比如,在现在的算法还不足够“聪明”的情况下,用机器智能去完全替代人的“把关”,这样的资讯“守门人”是否可以完全信赖?再比如,由于算法型信息分发更多地建立在对于人们的直接兴趣和“无意注意”的信息需求的挖掘上,它的直接后果是:对于人们必需的那些非直接兴趣和需要“有意注意”所关注的信息的忽略所导致的“信息茧房”问题,等等。这些社会质疑对于算法型信息分发是不能不面对与正视的。
更进一步说,信息的社会性分发历来被视为是一种政治权力,一直以来这个权力都是牢牢地掌握在政治和商业巨头手中的。现在,在技术驱动和现实需求拉动的双引擎下,基于大数据与人工智能的推荐算法系统的引入,对传媒领域来讲,实质上是一种传统的寡头权力逐步让位于技术逻辑主导的用户权力的过程,这一技术逻辑与分发范式不断形塑着传媒业的实践,也给信息的采集、制作、分发等流程带来了全新的指导理念,同时也对信息的社会传播效果及传播规范与伦理造成了深刻的影响。这是一个我们不能不认真、严肃对待的重大课题。
二、算法型信息分发的技术原理:主流推荐算法的类型及系统架构
随着信息技术和互联网尤其是移动互联网的发展,人们迅速从信息匮乏的时代跨入了信息过载和泛滥的时代。在这个信息海量的时代,无论是信息消费者还是信息生产者都遇到很大的挑战:对于用户而言,从大量信息中找到自己感兴趣的信息是一件非常困难的事情;而对于信息生产者而言,让自己的信息脱颖而出,受到广大用户的关注,也是一件非常困难的事情。推荐系统就是解决这一矛盾的重要工具。推荐系统的任务就是联系用户和信息,一方面帮助用户发现对自己有价值的信息,另一方面让信息能够展现在对它感兴趣的用户面前,从而实现信息消费和信息生产者的双赢[1]。换言之,推荐的精髓在于,我想要的你都有,你给我的都是我想要的。
目前,推荐系统有三大主要类型:
(一)协同过滤推荐(collaborative filtering recommendation)
它包含两种主要的推荐技术——基于记忆的(Memory-based)协同过滤和基于模型的(Model-based)协同过滤。前者假设如果两个用户过去对产品有相似的喜好,那么他们现在对产品仍有相似的喜好,后者则假设如果某个用户过去喜欢某种产品,那么该用户现在仍喜欢与此产品相似的产品。[2]因此,前者利用用户历史数据在整个用户数据库中寻找相似的推荐项目进行推荐,后者通过用户历史数据构造预测模型,再通过模型进行预测并推荐。[3]基于记忆的协同过滤可以有效挖掘用户的潜在需求,个性化程度高,在众多互联网平台得以应用,比如亚马逊、Netflix、Hulu、YouTube的推荐算法的基础都是该算法。[4]研究数据表明,亚马逊35%的销售额与推荐系统有关。[5]但是基于记忆的协同过滤推荐依赖系统内整个用户历史数据库作为其推荐系统的原料,当数据严重稀缺时,会存在冷启动(这里所谓的冷启动是指对于某APP的新用户,算法系统缺少其历史数据,难以通過算法准确了解和把握其需求的状况)差、推荐精准度下降等问题。而基于模型的推荐可以有效地解决这一问题,该算法根据训练集数据学习得出一个复杂的模型,来预测用户感兴趣的信息。[6]基于模型的推荐虽然提升了预测的准确度,但也存在建模复杂和冷启动差的缺陷。[7]
(二)基于内容的推荐(content-based recommendation)
基于内容的推荐即根据用户历史项目进行文本信息特征抽取、过滤,生成模型,向用户推荐与历史项目内容相似的信息。它的优点之一就是解决了协同过滤中数据稀疏和冷启动的问题。[8]但如果长期只根据用户历史数据推荐信息,会造成过度个性化和信息茧房的现象。另外,该算法更擅长文字信息特征的提取与分析,而在音频、视频等非结构化数据的分析能力上存在缺陷,因此它多用于网页、文字新闻等文本类信息的推荐。
(三)关联规则推荐
关联规则推荐即基于用户历史数据挖掘用户数据背后的相关关联,以分析用户的潜在需求,向用户推荐其可能感兴趣的信息。基于该算法的信息推薦流程主要分为两个步骤:(1)根据当前用户阅读过的感兴趣的内容,通过规则推导出用户还没有阅读过的可能感兴趣的内容。(2)根据规则的支持度(或重要程度),对这些内容排序并展现给用户。[9]关联规则推荐的推荐效果依赖规则的数量和质量,但随着规则数量的增多,系统也会越来越难以管理。[10]
随着移动互联网的兴起以及包含内容和关系的社交媒体(如Twitter、Facebook)的快速发展,某种单独的推荐算法已难以满足用户推荐、内容分类、话题挖掘等需要,因此,融合多种算法、关联更大数据的组合推荐系统得到发展与完善。在推荐系统的实践应用中,经常运用两种或几种推荐算法,以整合优点,弥补缺点,实现精准预测和推荐(见表1)。
三、算法型信息分发的本质:用户价值主导下的场景化适配
媒介的进化是一个技术与社会相互作用的结果。技术的崛起是目的性和工具性的复合体,它会引发社会制度、社会结构与功能的改变,以构建容纳新技术的情境,从而导致人类社会结构、交往方式、认知途径的改变。作为一种“闯入”信息传播实践的新生产力量,算法型信息推荐(分发)技术实现了信息生产与传播范式的智能化转向,同时带来了用户价值主导下的场景化适配。其发展与变化是一种重塑传播规则、改变人们认知的全新制度设计,它的影响主要体现在以下四个维度上:
(一)逻辑维度:构建全局性的视角
在数理统计中,一个点的分布没有规律可循,两个点可以确定线性函数的规律,三个点可以勾勒二次函数的轮廓,无数的点就可以描摹出任何函数的图像,呈现点与点的关联和变化趋势。与此类似,基于算法的内容生产将不再依赖记者、编辑等单独点的信息采集,而是通过对大数据库的实时分析,构建起跨语言、深层次、全局性的认识事物、表征和预测现实的模型,突破了以往人们“脑海真实”的片面性和局部性,从而仿真出无限逼近于客观真实的“符号真实”。
算法型信息分发的核心算法模型是在不断“学习”中逐渐成长、成熟,变得智能的。一套良好的推荐算法系统需要三种基本物料:算法、算据、算力。算法是不断完善的系统化符号逻辑,最初被开发出来的时候,仿佛婴幼儿时期人的大脑,只有“遗传基因”存在。要想使他越来越聪明,需要通过一系列社交行为比如游戏、对话、接受学校教育等来让他不断与外界发生互动,互动的过程其实就是符号化外界事物的过程。算法系统同样也是如此,需要不断地与数据进行“互动”,通过算据的反复训练,达到智能化的效果,数据量越大,数据驱动方法的优势就越明显,系统模型运行效果的精准度也会越高。这就需要算力的有力支持,随着云计算技术的成熟以及计算机硬件系统的不断更新,算力也不存在制约了。
由此可见,在大数据时代,随着算法推荐系统的不断成长,基于算法模型的内容生产可以超越个体经验积累的片面性和局部性,从大数据中挖掘以事件为中心的多维关联网络,对社会问题、社会现象等实现从局域到全域的剖析。这种剖析是跨越时空、突破语言限制的解析,给我们呈现出一种全局视角。
(二)主体维度:场景式传播带来受众主体地位的彰显
随着算法与内容产业的深度融合,场景传播成为可能,信息传播模式也实现了从一对多的大众传播模式到一对一的个性化传播的转变,受众地位得以凸显,用户思维成为算法推荐中的关键性要素。算法推荐以用户价值为中心,在用户阅读内容和交互的过程中,运用算法分析用户特征、阅读偏好以及阅读场景,构建用户画像,从而为用户提供场景适配的信息服务。
以今日头条为例,其算法推荐系统主要有三个维度的变量:内容维度、用户维度以及场景维度。该系统的核心逻辑就是实现内容、用户与场景的匹配,以满足用户的个性化信息需求。[11]由此可见,受众已经由新闻信息的被动接受者变成了媒介产品的积极使用者,传播逻辑由“传者本位”转向“受众本位”。基于算法的场景传播可以在更深层次上对用户需求进行洞察、分析与推荐,以实现对用户需求的全方位把握。同时,算法扩大了场景传播的范围。大众传播时代,受众接受新闻信息主要在公共性与半公共性场景之中;移动互联网时代,算法可以在移动场景和私密性场景中为用户提供分众化、个性化的信息服务,用户的需求从总体上得到了更大程度的“扩容”与满足,用户在传播领域的主体性地位得到了根本性的提升。
(三)内容维度:人机交互重新定义赛博空间中的自我
随着大数据时代的到来,人们获取信息、建立认知越来越依赖于数据及数据模型。同时,碎片化的表达正在逐渐改变着受众的阅读和思维习惯,经典的叙事结构被受众所遗弃,具体表现为传统媒体所生产的新闻内容到达率不断下降,新媒体语境下的、符合受众阅读思维的诸如蜂巢形叙事结构①、菱形叙事结构②成为新媒体语境下适应市场、适合受众的新常态叙事结构。它们改变了长期以来“我说你听”“以传者为中心”的单向传播模式,带来了读者参与度高、互动性好的新的内容消费体验。
以新闻为例,新闻本身便是一种典型的叙事,是一种基于客观事实对5W基本要素进行重构的文本。网络社会的到来使人与机器之间的界限逐渐模糊。依托移动互联网技术,人们可以在任何时间、不同场景进行网络连接,借助各种新媒体终端及时、快捷地发布信息、获取信息。与此同时,网络空间中的叙事主体也由专业化的媒体从业者转向普通公众。网络空间大量的带着丰富生动的情感因素、源自生活的数据素材组成的感性叙事更切合受众的阅读品位、贴近受众的情感体验。受众进行内容生产、消费的过程就是一个参与和互动的过程。通过这个自由创作与互动反思的过程,受众建构起由符号表征所延伸的自我,沉浸在现实场景和虚拟场景之间不断转换。真实的传统疆界逐渐坍塌,虚拟也不断内爆成为生命体验的现实部分。
(四)功能维度:表征与预测事件的最优策略
算法型信息分发不仅是一种让社会性操作无限接近客观真实的符号表征形式,更是一种说明和预测经验背后知识的新方法和新范式。
人类社会的发展史就是一部认识客观世界的历史。从远古时期的宗教神学,到轴心时代开辟的哲学,再到欧洲中世纪后期开创的自然科学。人类认识世界的方式经过了神学阶段、形而上学阶段之后,现在已经进入了科学阶段或实证阶段[12]。作为社会科学中的一个学科,新闻传播学的发展也在经历类似的变迁:从早期的文学、政治学等发轫,到20世纪40年代社会学、社会心理学等理论的引入实现独立,再到互联网所开启的数字化,学科研究逐渐由经验判斷转向实证测量。数据化生存的时代已经到来,它将开启以数据信息为基础、以算法为核心、以“相关关系”为关联的表征物质世界真实复杂关系的研究方法论。
建立在个人经验积累基础上的主观认识具有一定的局限性,会受到社会性因素(比如语言、抽象符号、智慧个人互动能力)的影响。推荐算法主导下的新闻传播实践则可避免这些干扰,通过构建多层次、跨领域的表征现实模型,呈现客观世界超越人类认知能力的深层次联系。这种表征形式借助无损的数字介质进行全息表达,并可以传递给具有同构性的事物,解决了社会科学表征社会现实的效度问题,克服了新闻学中由权力主导下的新闻客观性的问题,也建构了人类认识客观世界、改造客观世界的全新系统,这个系统的一大特性就在于预测。比如,对于流感传播规模、强度与路径的预测,对于社交媒体上未来某一时段热点话题的预测,对于收视率、电影票房以及股市大盘的预测,等等。
四、算法型信息分发的未来发展:解决现实发展中的问题与隐忧
作为一种越来越主流的信息分发形式,其未来发展必须着力于解决现实发展中所存在的问题与隐忧,才能开辟其登堂入室的光明前景。那么,这些问题和隐忧是什么呢?从技术逻辑与社会逻辑相结合的角度看,它们集中在以下三个方面:
(一)更隐蔽的歧视
“数字系统以清晰的方式,和它们根植于其中的文化紧密地融合在一起”。[13]托马斯·克伦普在其著作《数字人类学》中直截了当地指出,人类建构的数字系统就是人的镜像系统。不可否认,人类社会充满着各种各样的歧视,世俗社会的民族、宗教歧视,商业社会的金钱歧视,政治社会的权力歧视等,在利益交织的社会中不断变种。
作为同构现实的表征机制,算法新闻的设计是人主导的,不可避免地会受到价值干涉,尽管许多公司极力回避这个问题。以客观、公正的科学名义设计出的算法难免会有“变种”的歧视,而这个歧视也将变得更加隐蔽。
(二)“信息茧房”效应:算法推荐在满足用户个性化需求的同时,也存在着“信息茧房”的局限
“信息茧房”是凯斯·桑斯坦在《信息乌托邦》一书中提出的概念,一般来讲,用户的阅读兴趣不可能涵盖所有的知识领域,长期只接触自己感兴趣的信息,而缺乏对其他领域的接触与认识,会限制用户对社会的全面认知,将用户禁锢在有限的领域内。不可否认的是,“信息茧房”是两种传播思维相互碰撞的结果,传统意义上大而全的传播模式注重“面”上的拓展,而基于算法的个性化信息推荐则注重“点”上的深挖。因此,算法推荐在满足用户的特定需求时,不可避免地会限制用户信息的接触面。但在未来随着算法不断优化与迭代,“信息茧房”的问题会得到弱化或解决。比如今日头条通过不断优化算法模型,在向用户推荐感兴趣信息的同时,也逐渐向其推荐具有较强关联领域的信息,以弱化“信息茧房”效应,在更为宏大的参照结构中扩大用户的认知范围。
(三)伦理冲突:低俗内容与虚假新闻
低俗内容和标题党现象也是算法推荐存在的显著性问题,算法推荐最初在传播伦理方面存在一定的缺陷。不同于人工编辑和人工筛选,只要用户感兴趣,基于技术理性的算法就容易将低俗内容和标题党新闻推荐给用户。在未来,传播者在算法规则设计中不仅要考虑到传媒的商业价值,还应考虑到传媒的文化引领等社会价值。为减少标题党新闻的推荐,一些算法型内容分发的互联网企业已经做出了一些探索,如今日头条建立了检测“标题党”的规则模型,以警示头条号作者的“标题党”行为。当头条号作者预发布文章的时候,如果标题中出现了“惊呆”“震惊”等内容,会收到一个飘黄的窗口,提示其内容涉及标题夸张,建议修改,如果作者继续强行发布的话将会被限制推荐量。[14]
目前,多家科技公司也存在推荐假新闻的问题。比如在美国总统大选期间,谷歌的算法推荐系统向用户推荐了一条特朗普赢得普选的假新闻,而实际上希拉里在选民最终票数方面高于特朗普,特朗普最终依靠选举人票数赢得了此次大选。另外,Facebook在美国总统大选期间也出现了推荐假新闻的情况。Facebook和谷歌公司为了限制假新闻的传播,一方面依靠用户对假新闻打标签的方式,对具有一定数量假新闻标签的新闻进行降序处理;另一方面则运用算法对交叉新闻源进行分析,以辨别新闻的真实性,但实事求是地讲,通过算法识别和制约假新闻依旧在路上艰难前行。当然,在移动互联网时代,面对海量信息,传统媒体也频频爆出报道假新闻的消息,由此可见,治理假新闻现象不仅仅是算法推荐需要解决的问题,也是整个内容产业需要面对的问题。
注释:
①Paul Bradshaw于2007年提出,针对突发社会新闻报道,由于信源众多,事件未知性大以及时效性的要求,新闻报道不能完全展示5W要素,只能针对单个要素进行主次报道。这种新闻报道方式类似蜜蜂筑巢时的积聚行为,如2014年3月国内媒体针对马航MH370失踪事件的报道。
②Devin Harner于2011年提出,为适应新闻传播时效性的要求,增强与受众的有效互动,新媒体语境下新闻叙事呈现菱形发展模式,即随着事件的进展和社会关注度的提升,新闻报道展示的新闻要素逐渐增多,随着事件的解决和受众注意力的转移,后期报道呈现减弱的趋势,如2016年5月针对“雷洋”事件的报道。
参考文献:
[1]http://www.woshipm.com/pd/818285.html.
[2]邓晓懿,金淳,韩庆平,樋口良之.基于情境聚类和用户评级的协同过滤推荐模型[J].系统工程理论与实践,2013,33(11):2945-2953.
[3]John S.Breese,David Heckerman,Carl Kadie.Empirical Analysis of Predictive Algorithms for Collaborative Filtering[C].Process of the 14th Conference on Uncertainty in Artificial Intelligence,1998:43-52.
[4]项亮.推荐系统实践[M].北京:人民邮电出版社,2012:51.
[5]洪亮,任秋圜,梁树贤.国内电子商务网站推荐系统信息服务质量比较研究:以淘宝、京东、亚马逊为例[J].图书情报工作,2016(23).
[6]冷亚军,陆青,梁昌勇.协同过滤推荐技术综述[J].模式识别与人工智能,2014(8):720-734.
[7]陈洁敏,汤庸,李建国,蔡奕彬.个性化推荐算法研究[J].华南师范大学学报(自然科学版),2014(5).
[8]吕学强,王腾,李雪伟,董志安.基于内容和兴趣漂移模型的电影推荐算法研究[J].计算机应用研究,2018(3).
[9]曾春,邢春晓,周立柱.个性化服务技术综述[J].软件学报,2002(10).
[10]李杰,徐勇,王云峰,朱昭贤.面向个性化推荐的强关联规则挖掘[J].系统工程理论与实践,2009,29(8).
[11]人民网.今日头条公开算法原理本质[EB/OL].http://it.people.com.cn/n1/2018/0112/c196085-29762253.html.
[12]Auguste Comte.Cours de Philosophie Positive,Tome Premier. London George Bell & Sons.1896.p.2.
[13]托馬斯·克伦普.数字人类学[M].郑元者,译.北京:中央编译出版社,2007:2.
[14]刘志毅.今日头条如何用算法打击“标题党”[J].传媒,2017(4).
(喻国明为教育部长江学者特聘教授,北京师范大学新闻传播学院执行院长,中国人民大学新闻与社会发展研究中心主任;韩婷为北京师范大学新闻传播学院硕士生)
编校:郑 艳