新闻的算法之谜与传统媒体的智能化
2018-01-05刘建明
刘建明
【摘要】西方的新闻算法并非出奇制胜的媒体新宠,个性化新闻分发潜藏许多阴差阳错和信息风险。建立一套科学机制,防止新闻推荐的失算,才能保证新闻分发的安全性,受众的差异化需要也能得到满足。面对网媒的挑战,把新闻的自动化生成转化为报刊和广播电视报道,实现传统媒体的智能化和編辑记者的能智化,传统媒体才可能发生大的变化。
【关键词】两种新闻算法;算法的失算;算法的科学化;传统媒体的算法
算法新闻的创新正在搅动各类媒体的操作意识,调整算法的标配和技术指标,不仅决定各大资讯平台的竞争力,也使传统媒体受益匪浅。但新闻的“算法推荐”曾引起广泛的质疑:算法能让受众得到真正重要的新闻、了解社会的变化吗?媒体使用算法新闻能否全面反映世界、透视社会现实?盲目夸耀西方新闻分发的算法,介绍算法的理论也让人懵懵懂懂,根本无法回答和解决这类问题。为了解开新闻分发的算法之谜,本文不能不从新闻算法的常识赘述。
一、用于不同报道的两种新闻“算法”
算法是计算机处理数据的主要手段,新闻的智能生成和新闻分发都有各自的算法,二者译成汉语也有不同的说法,因为计算机对二者执行的指令不同,达到的目标不一样,把两个算法搅在一起,只谈推荐算法,使传播规则的重塑陷入一隅。
第一种算法是指智能生成新闻的数据推算,英语常由Algorithm(Algorithmic)一词表示。通过大数据搜索、整合和推断,发现真实的新闻,由计算机编写成文本,称作智能新闻或自动化新闻,很多人把它译成算法新闻。打开英文网站,AlgorithmicJournalism,Algorithmaboutnews或Videos of algorithmic news,大多是指由计算机在海量数据中自动编写的新闻,按汉语的习惯似应译为“智能新闻”或“计算机程序新闻”,可以将其称为“自动化新闻”。
这类新闻不是记者亲自采访、写作的,而是由计算机程序搜索到数据,经过统合、辨析提取事件的五个W要素,再现一个完整事件,每次推算都可得到正确的结果。正如美国学者哈特利·罗杰斯所说:“在数学和计算机科学中,一个推算(Algorithm)是关于如何解决某个问题的明确规范。推算可以执行计算、数据处理和自动推理任务。”[1]Algorithm依据大量资讯(仅包含少许数字)推断出事实的存在,仅需数秒或十几毫秒。美联社新闻智能程序“墨客”(Wordsmith),每秒能形成2000篇文章,《华盛顿邮报》的新闻程序“吐真者”(Truth Teller)集成一篇新闻仅用半秒左右时间,不仅会写作,还能核查新闻。
5年前,智能新闻只能在体育、财经和天气预报等很少的领域应用,这两年正在向时政新闻扩展。美国顶尖的算法新闻公司AutomaticInsights和NarrativeScience联合开发的新的推算程序,能自动生成市场营销和时事新闻,并已被越来越多的网站采用。NarrativeScience公司创始人克里斯蒂安·哈蒙德(KristianHammond)预测,到2030年将有90%以上的新闻由机器人完成。[2]
第二种所谓算法是向用户智能分发新闻,多使用英文newson arithmetic表示。打开西方英文网站,常看到这样的栏题:Arithmetic:Latest News(数据统计:最新消息),Videos of news arithmetic(数据统计的新闻视频),Videos of arithmetic on news feed(数据统计推送的新闻视频)等。这些栏题都是指通过数字计算排列出新闻的顺序,并向受众推荐他们需要的新闻,即我们常说的新闻算法分发。Arithmetic是指数学的算法,通过计算阅读量的大小排列新闻的顺序,向受众推荐。“从古希腊时起,Arithmetic就称为算术(名词、形容词),曾被设想为将事物装配在一起或计数后排列出先后次序。”[3]
当一款名为Custombot的算法工具诞生后,根据用户的特定偏好、标准或元素创建个性化新闻推送(feed),迅速风靡各大资讯平台。这种算法采用文本分割和自定义标记,快速过滤用户不喜欢的信息,算出某个用户最需要的新闻和文章,产生了新闻的定制报道。一时间,“个性化推荐”成为网络平台和新闻客户端追捧的热点和新宠。“利基市场”“因子量值”“长尾信息”“置信区间”等高大上的概念和词汇接连出现,让人感到高深莫测。
上述分析,基本厘清了Algorithm和Arithmetic之间的区别。Algorithm属于解决难题的推算思路和方法,用于计算机自动化新闻的生成。而Arithmetic是指如何更快、更精确计算一条新闻的阅读量或读者偏好,用于向用户推荐新闻或其他信息。西方英语资讯平台或社交媒体往往把智能新闻(algorithmabout news)直接推荐给用户,这类报道的栏题,通常使用“news
feed algorithm”,而不是“newsfeedarithmetic”。
新闻推荐根据数据计算,推测出用户可能喜欢的新闻,大体有7种数字推荐方式,这就是:依据用户的偏好推荐、协同过滤推荐,按照既定的规则推荐、效用推荐和基于内容的推荐、新闻热度推荐及知识推荐。后4种推荐作为新闻分发的主要指标,打破了新闻推荐的个性局限,能有效防止新闻推荐的失算和风险。
二、新闻算法分发的失算与风险
网上信息浩如烟海、凌乱不堪,用户无法很快找到他们需要的信息。网媒如果按照新闻发生的重要程度排序,向受众推荐他们关心的新闻,就能为用户产生最大的效用。出于这一目的,首先在英美社交媒体上出现了新闻的算法分发(newsArithmeticfeed),简称新闻推荐(newsfeed)。从本质上看,新闻推荐要解决在适当的时间,把合适的内容推荐给信息需要者,便于用户阅览。但实际上,大量资讯平台的新闻算法分发,除制造神秘气氛外,还强行向用户推销不良信息,用户得到的很多是他们不需要的东西。
资讯平台与社交媒体主要依赖个性化算法向用户分发新闻,个性化本身就暗藏许多低俗的信息需求,为推销色情、淫秽和暴力新闻打开缺口。尤其是各类无孔不入的直播平台,总是齐聚于用户端,淫邪销魂的视频不请自来,打头阵的当然是广告。从2017年末开始,美国的脸书网就多次收到与垃圾邮件相关帖子的投诉,在同一时间,我国多家社交媒体由于向用户兜售精神劣品,也引起网民的极度不满。
无论基于用户的新闻偏好、行为协同还是基于内容的推荐,如果不掌握用户的特征和全面数据,就很难给受众提供实用的东西。许多平台忽略客户的准确特征和分类,按照自己的意图漫无边际地推送有利可图的信息,根本不考虑信息的社会危害。算法分发新闻,一方面要识别内容需要者的巨大差异,另一方面又要为同一条新闻找到不同用户,计算技术很难精准、圆满,信息推送必然屡屡失算。在算法分发新闻诞生地的美国,许多业界人士对算法推荐的破绽就提出了种种批评。班尼迪克·埃文斯(Benedict Evans)指出,“脸书”等社交媒体执行“算法派发新闻”的逻辑,只是个技术术语。用算法找出最想看到新闻的人,以及最想看到什么样的新闻,然后将这些内容排序,出现在用户的新闻订阅中,这是十分错综复杂的。算法分发新闻的逻辑存在两个问题:一是让算法的样本变得“正确”非常困难。用户的欲望不断变化,新闻偏好可能经常改变。二是即使完成一次成功的新闻推送,也是基于特定的算法规则,这些规则包含主观判断,这些判断不是静态的,在原则上都是不完美的。[4]算法分发新闻常常“投错娘胎”,给用户推荐一些低质、无聊的信息,大量新闻分发都徒劳无功。
算法一旦经常失算,用户的信息满足感就会遭到践踏,资讯平台的公信力就会丧失殆尽,时间一久将被用户抛弃。媒体报道新闻要让受众了解社会变动,提升受众的认知,以往的新闻推送还经常把错误或虚假信息派发到用户的移动端,构成报道风险。有关社会政策、社会发展和社会矛盾的重大事件报道,是相当数量的用户所关心的,仅仅从用户的个体指标出发计算新闻分发,新闻推送必然埋下潜在的威胁。
算法新闻推荐,促使各大网络平台和移动客户端竞相吸引眼球,为招揽广告而龙争虎斗,社会责任的大堤被一步步蚕食。正如《人民日报》提出的警示:“所谓的算法成为利益的砝码,一切围着流量转,唯点击量、转发量马首是瞻,‘标题党泛滥,价值取向跑偏,内容沦为附庸。”“千篇一律的同质化信息,信口雌黄的歪理邪说,形形色色的商业广告,还有那些活色生香、花边八卦、流言蜚语,以各种争奇斗艳的形式粉墨登场,一股脑、无休止地推送过来,让广大受众被迫接受……”[5]网络媒体的先进技术只能服务于新闻的传播力、引导力和媒体的公信力,否则就是荼毒笔墨。当受众被算法引入迷途,夸大算法推送新闻的出奇制胜,就将网络研究推向贻害无穷的悬崖。
三、创建新闻算法推荐的科学机制
新闻推荐算法一旦“价值缺失、制造信息茧房、竞争手段无底线”[6],无穷无尽的消极信息就把着迷的用户搞得晕头转向和筋疲力尽。正如许多美国用户批评“脸书”消磨人们的心智时所说的:“该公司的产品利用人类心理上的脆弱性,将人们吸引到社交媒体上,劫持他们的时间和注意力,正在破坏他们的安宁和幸福。”[7]消除这类流弊,只能建立一套科学机制,而不是抛弃信息计算技术。如果资讯平台设立信息安全警戒,平稳、适度、科学地运用推荐算法,就能防止新闻推荐的失算和风险。
旧的新闻分发算法,大多基于用户的使用习惯,预测用户感兴趣的信息和话题。由于计算数据的大体量(用户数以亿万计),根据点击率、阅读时间、评论和转发量做出的评估和内容标配,不可能完全“对号入座”。当把个性偏好列为推荐的首要标准,黄色媚俗的内容赢得千百万受众的点击,就不足为怪了。
无论美国的“脸书”还是我国的“今日头条”,已经意识到以往算法推荐的纰漏和失策,正着手改进算法的指标和运作程序。从2018年开始,国内外的资讯平台和移动客户端都在扬弃旧的算法,开创和完善新的推荐体系。Facebook的CEO马克·扎克伯格(MarkZuckerberg)说:“我正在改变我们的产品目标,从帮助你找到相关内容到来帮助你找到更有意义的社会互动。”“我们将让‘脸书的20多亿用户在社交网络上花更少的时间,包括观看视频。”[8]我国的“今日头条”也在尝试建立算法推荐的科学机制,修正以往僵化的推荐模型参数,把社会责任摆在首位,严格防范发出政治错误和虚假信息,加强对推荐内容的多次审核。
这种科学机制,首先要把内容的积极意义和知识性列为第一指标,把有关公共利益的重要新闻给予更大流量,把事关全局的重要新闻匹配给所有用户。社会政策、国内外大事、人民生活状况、社会各种正能量和重大事故,应成为各大资讯平台推荐的重头新闻。将其编制为特定的计算标签分发给广大用户,拒绝受阅的用户是极少数的,关键在于文字稿与视频要制作得有声有色、准确生动,增强正面新闻的吸引力和感染力。
所有分发内容都要通過风险模型过滤,经过2-3次风险审核后才能进入推荐程序。当出现十多个用户的批评反馈或负面信息举报时,网站还须即刻对信息进行复审,如果确认分发了错误或不当的信息,应立即直接下架。对信息当事人造成侵权或涉及违法内容的信息,直接责任人将受到应有的处罚,直至接受法律诉讼。这类保证内容安全的健全机制,成为内容配送的严格要求。
与新闻内容相匹配,计算新闻的热度,把热点新闻作为算法推荐的重要指标,是优化新闻推荐的重要机制。当一则新闻不断被用户点击、阅览、下载、转发,有更多的用户给予正面点评,标志着新闻热度持续升温。这样的新闻具有极高的价值,可向全体用户推荐。按照新闻类别确定新闻热度,沿用个性分发的方式向习惯性受众推荐,比如重要体育新闻要向喜欢体育信息的用户推荐,重大科学发现和发明的新闻要向科技专业人士推荐,个性化新闻推荐既要坚持内容积极有益的标准,又要满足受众差异化的需要。
用户中总有些人喜欢娱乐和奇闻异趣,对公共事务不感兴趣。对这样的用户除给他们发送全局性的重要新闻外,还需满足他们的特定取向,及时给他们分发兴味浓厚、幽默隽永而没有精神危害的软新闻。但要拟定标签敏锐和用户特征鲜明的算法模式,竭力防止低俗暴力、耸人听闻和荒淫糜烂的信息暗度陈仓。在对正面信息制定加权标志的同时,设置删除荒诞淫秽、标题党兴风作浪的信息标签,及时实施有效的干预手段。如果新闻推荐的计算程序具备以上这些严密的机制,信息推送的安全性将得到有效保障。
四、传统媒体的智能化创新
算法新闻不是网络平台的专利,而是所有传媒绝处逢生的一场革命,传统媒体不能置身度外。运用计算机运作程序,把自动化新闻转化为报刊和广播电视新闻,虽比网络慢了半步,但比人工操作要快千百倍。报纸在晚间编排和完成印刷,实际上压缩了信息发生和传播的时空,第二天早上读报,读者丝毫不会有新闻姗姗来迟之虞。
报纸把新闻写作完全交给机器,由机器将数据转换为新闻文本,快速选择读者急需知道的新闻,按照重要程度排列出版面顺序,构成新闻的整体推送。在算法程序(Algorithmicprogram)的引领下,保障新闻内容的精准度和可靠性,传统媒体新闻算法的大体量选择和高效优势就凸显了出来。“自动新闻产生于电脑程序判断,正在挑战新闻工作者的职业判断,因为人的主体性容易犯错误。电脑程序判断与新闻工作者的职业判断不同,它在本质上是客观的,它的内容都来自实际和现实,将冰释人工编写的主观成分,比人的自主判断更有合法性。”[9]
国外广播电视正在谋划由机器人主持各类新闻节目,男女机器人担任新闻主播。它们不仅拥有人工智能的对话系统,而且伴有丰富适度的面部表情,声音也更加动听、圆润。当机器人坐上播音台,会对广大公众产生极大的吸引力,拟人化的情感交互将产生卓尔不群的视听效果。虽然我们并不一味追求机器人主持节目,但当广播电视台找不到受众满意的、理想的播音员和主持人时,天生丽质、足智多谋的机器人播报新闻,将成为首选。
人工智能具有机敏思考、广揽纵判的思维功能,新闻将伴随心智的顿悟,随时打开受众的心灵窗户。这一切不能仅仅依赖机器的算法,新闻现场画面的人工采集,文字稿的编辑把关、加工和润色,都将有决定的意义。
也就是说,当传统媒体实现新闻写作的智能化,原来的记者编辑并没有如释重负,他们将承担更重要的任务。第一,掌握智能新闻的导引技术,每个人都要精通新闻模板的编程方法与技巧,成为熟练运用自动化新闻程序的新闻工作者队伍中的一员。第二,新闻计算程序对于那些定时定点发生的新闻(比如新闻发布会),不能现场采访,只能由记者人工完成。他们每天带上“微型传感器”(sensor)到处抓拍突发事件和各种要闻的现场画面。记者携带智能视听工具和穿戴式搜索器,“对周围环境的监测极其灵敏,加上与卫星传感器和定位装置的信息交互,对全球各地发生的事件尽收无余”[10],及时给编辑部传来最新的事件动态。第三,编辑不再是单纯的文字与图像的一般处理者,而是自动新闻文本的把关人和修补者,他们以职业的洞察力和核心价值观,选好每一篇新闻,维护具有强大凝聚力和引领力的社会主义意识形态。在文字上,编辑们把自动生成的新闻文本锤炼得精妙入神、呼之欲出,新闻的思想性和意境远远超出网络信息的粗俗。阅读这样的报纸是名副其实的精神享受,也是一种文化滋补,它的社会效益和经济效益都将史无前例。
参考文献:
[1]Rogers,Jr,Hartley(1987).TheoryofRecursiveFunctionsandEffectiveComputability.TheMITPress.57.
[2]HomeDavinciInstitute,”Robots are writing more news than you think”,ww.impactlab.net/2014/04/17/.
[3]J.FauvelandJ.Gray,“TheHistoryofMathematics:AReader”,TheOpenUniversity,1987.
[4]BenedictEvans,“Thedeathofthenewsfeed”,Twitter,April02,2018.
[5]宣言.不能让算法决定内容[N].人民日报,2017-10-05.
[6]宣言.不能让算法决定内容[N].人民日报,2017-10-05.
[7]JessicaGuynn,“Facebook'smakingabigchangetoyournewsfeed”,USATODAY,January10,2018.
[8]JessicaGuynn,“Facebook'smakingabigchangetoyournewsfeed”,USATODAY,January10,2018.
[9]M.Carlson,”Automatingjudgment Algorithmicjudgment,news knowledge,andjournalisticprofessionalism”,NewMedia&Society;,(4)2017.
[10]劉建明.对智能新闻若干问题的释疑[J].新闻爱好者,2017(11).
(作者为清华大学新闻与传播学院教授)
编校:王志昭