APP下载

机器人新闻:变革历程与社会影响

2016-06-06叶韦明

中国出版 2016年10期
关键词:行动者算法

□文│叶韦明



机器人新闻:变革历程与社会影响

□文│叶韦明

[摘 要]以时间和机构为线索,简要梳理机器人新闻写作的现状,概述其原理,分析机器人新闻与记者新闻的区别;随后将机器人新闻生产置于“宏观-微观、新闻-公众”的四象限坐标轴中,分析其对相关行动者(记者、读者、新闻机构、社会)的不同影响;最后从媒介社会史的视角提出讨论和建议。

[关键词]机器人新闻 新闻内容生产 算法 行动者

今天,机器人技术广泛影响了制造业、医疗保健和服务业等行业和就业市场,人们对此褒贬不一。一方面,移动机器人、工业机器人、服务机器人、模块化机器人、军事机器人帮助人类完成肮脏、危险、单调或艰难的任务,往往得到人类社会的积极反应;另一方面,当机器人涉足教育、法律、医疗和新闻等与人类本身、社会和文化直接相关的行业时,往往遭到较多的质疑,甚至是抵制。究其原因,主要有三点:首先,人类社会对机器人的理解往往更承认和重视“机器”的一面,默认其功能为补充和替代人类的体力劳动;其次,随着人工智能的发展,机器人逐渐演化出“人”的一面,尽管有限且缓慢,但大多数人类对机器人的了解仍然极有限,落后于机器人本身的演进;最后,人类始终存在的对“他者”之恐慌——尽管机器人是人类创造出来的,但是这样的恐慌情绪在大量的(早在人工智能之前产生的)人工智能文学作品中展露无遗。人类社会的这些反应在面对机器人新闻时依然存在。

美国新闻协会(American Press Institute)对新闻的定义是:“收集、考查、创造和展示新闻与信息的行为。同时也是以上行为的产品。”[1]在这个定义中,确定新闻是一种行为和产品,但并没有限定新闻生产的行为主体只能是人类。因此,本文更多从事实、过程和影响三个方面梳理机器人新闻的发展和困难。确切地说,机器人新闻(Robot Journalism或Automated Journalism)是使用算法自动地从结构性数据中生成新闻。一旦开发出这样的程序来,算法不仅可以生成针对特定主题的大量新闻,而且速度更快、更便宜、还可以比人类记者出错更少。毫无疑问,机器人新闻的发展激起了新闻内容生产者的恐慌,担心机器的内容生产可能将终结新闻编辑室的工作,但与此同时,学者和实践者们则看到技术可能促进新闻质量。

一、机器人参与内容生产:功能演化

近几年,机器人新闻在媒体机构中迅速发展。2014年,美联社率先使用“自动洞察力”(Automated Insights)公司的软件产品“语言大师”(wordsmith)撰写每季度的公司财报。美联社在拿到公司财报数据后,将其输入到“语言大师”平台上,随后软件生成一条150~300个单词的新闻,值班编辑仅在新闻发布之前预览一遍。美联社认为,财报类的新闻需要定期发布,且格式僵化,无法体现记者的创造性。次年,机器人使用自动化编辑器扩大算法范围,利用传感器搜集实时数据,撰写体育新闻。2014年,《洛杉矶时报》的记者和程序员肯·施文克(Ken Schwencke)开发了一套算法,可以将美国地质调查局的信息置于事先写好的模板中,从撰写地震新闻到线上发布仅需3分钟。随后该报又将机器人新闻系统拓展到犯罪新闻领域。2015年,腾讯财经开发的自动化新闻写作机器人Dreamwriter,根据算法在第一时间自动生成稿件,一分钟内将重要资讯送达用户。同年,新华社也使用机器人“快笔小新”撰写体育新闻的中英文稿件和财经信息稿件。

以“语言大师”平台为例,新闻内容的机器生产包括以下基本步骤:上传结构化的数据文件,创建多种叙述模板,撰写基本文本结构,为可能的变量替换关键词,之后添加逻辑。它还可以创建分支内容,根据数据的实际情况添加、修改特定的词汇、短语或段落(比如,根据实际情况形容50寸的电视究竟是“巨大”还是“适中”)。虽然撰写一两篇文章看起来要花费很多时间精力,可一旦使用该模板写大量的新闻时,就不需要重复撰写单个报道,只需上传新的数据,并根据已有的模板和叙述结构,根据编辑的标准更新创造性的细节。而“叙述科学”公司的“鹅毛笔”(Quill)则搜集可能的数据,如(在棒球赛中的)得分、每分钟赛况、平均击球率、历史记录或运动员人口信息;随后,该软件利用统计方法来确定数据中重要和有趣的事实,包括超常的情况,如运动员超常发挥,或者比赛的关键时刻;接着,该软件根据重要性给不同的观点进行分类和排序;然后根据事先设置的规则安排具有新闻价值的细节,并生成故事;最后把这个故事上传到媒体机构的内容管理系统,这个系统也可能会自动发布新闻。以上即是美国两大机器人新闻公司“自动洞察力”和“叙述科学”的基本运行逻辑。目前全球有11家企业能够提供机器人新闻的服务:德国的AX Semantics、Text-On、2txt NLG、Retresco、Textomatic,美国的Narrative Science、Automated Insights,法国的Syllabs、Labsense,英国的Arria以及中国的腾迅,能满足十余种语言的需求。

如今,美联社、《福布斯》《纽约时报》《洛杉矶时报》、ProPublica作为先锋,已经在日常新闻生产中使用机器人新闻。机器人新闻最经常被用来生产常规性、重复性主题的新闻,因为这些新闻来自于可获取的结构化的、精确的数据。因此,如果无法取得结构化的数据,或者数据质量较差时,机器人新闻几无用武之地。机器人新闻的驱动力有三点:越来越丰富可得的结构化数据、新闻机构减少成本以及提高新闻质量的目标。所以,机器人新闻更加适用于那些快速和有效地提供事实的主题,而非细致叙述的主题,读者对于写作的质量期待也较少。读者可能会认为机器人新闻比人类撰写的新闻精确性更高,但并不特别喜欢阅读机器人新闻。

基于以上内容,概括机器人新闻和记者报道之间的区别如表1所述(当然这样的概括只是一种静态的、理想型的描述,随着机器人的演化,两者的界限会逐渐模糊)。

表1 机器人新闻与人类记者报道的区别

除了写作和分析,机器人在社交媒体推广、核查信息和编辑等方面也有所发展。《纽约时报》的机器人布洛瑟姆(Blossom)基于脸书等社交平台推送的海量文章进行大数据分析,根据数据预测哪些内容更具有社交推广效应,再把可能的“爆款”文章告诉编辑,并提供建议。通过机器学习,Blossom今后还有望独立制定标题、摘要文章、为文配图等工作。2012年,《华盛顿邮报》启动了名为“吐真者”(Truth Teller)的实时新闻核查项目,全程记录新闻报道中的文字和语音等信息,并随时与“打假”数据库进行对比,一旦发现异常便发出警报。《卫报》推出“#Open001”计划,该机器人对社交网络上的分享热点和关注热度进行统计分析,随即进行内容筛选、编辑排版和印刷,最终生成一份报纸。而路透社则推出一整套名为Open Calais的智能解决方案:从各类文本类型中提炼出元数据,并通过连接内部的资料库实现文本阅读和分析。学习和模拟每位编辑在系统中敲下的单词,并随时与系统数据库进行比对,筛选出关键词和重点内容。当记者写完稿件之后,只需要再次比对关键词、核查重点内容部分即可完成稿件编辑和校对。

机器人已经渗透到新闻内容生产流程的各个环节:写作、分析、推广、核实、编辑等。面对新闻生产中这个巨大的变化,相关的行动者们受到什么影响?又是什么反应?

二、机器人新闻与相关行动者

安德里亚斯·格雷费(Andreas Graefe)提出基于“新闻-公众”和“微观-宏观”坐标轴的四象限图(见图1),概括机器人新闻及相对应的四个行动者(机构和个体):记者和新闻消费者(即读者)处于微观一端,而新闻机构和社会则处于宏观一端;在另外一个维度,记者和新闻机构具有新闻属性,读者和社会则具有公众属性。[2]机器人新闻对以上四个行动者:记者、读者、新闻机构和社会都产生深远的影响。

图1 机器人新闻与相关行动者,四象限坐标轴

1.对记者的补充还是取代

首当其冲的是机器人新闻对新闻工作者的影响,前者对后者究竟是取代还是补充,取决于记者的任务和技能。对于常规的和重复的任务,从原始数据到标准化写作的过程(如体育赛事或公司财报),记者无法与机器人内容的速度和维度相媲美。记者们对这一发展的态度往往趋于积极和悲观两极——乐观者认同“机器解放人类”的论述,他们认为机器人如果承担常规任务,就可以将记者从日常的任务中解放出来,使得记者可以投入深度分析、评论和调查性工作,有助于提高新闻的质量。而悲观的“机器对抗人类”的论述则将机器人新闻与人类记者对应起来,主张机器人新闻是降低成本的新方法,可以取代那些仅完成常规任务的记者。

面对来势汹汹的机器人新闻,记者们往往指出,机器生产内容的质量低下或一般,他们强调人类有能力做出精妙细致的陈述。然而,“讲故事”往往不是记者作为一种职业最为人称道的技能;客观性、准确性和时效性才是记者们常被赞扬的特征,可是这些特征恰恰是算法的强项。更重要的是,这种论述忽视了这样的事实,即机器人新闻最擅长完成重复的、常规的和基于事实的故事,而在这样的故事中,写作的质量可能并非关键,准确、简洁、快速的信息才是其核心。

2.对读者的影响

机器人新闻对读者产生的影响主要围绕两个方面:读者如何理解机器人新闻的质量?读者对算法透明度有哪些要求?如前文所述,记者们往往质疑机器人新闻的内容质量,认为它们只能满足读者对清晰和准确信息的最低要求,通常认为机器人新闻缺少精妙的描述,机械化且无聊。一份来自三个国家(德国、瑞典和荷兰)的实验研究发现,读者对机器人新闻的感知与记者的评价一致。实验被试被要求阅读英文文章(但读者并不知道作者身份),并对不同维度做出评分,结果显示,人类写的新闻比机器人新闻在可读性上得分更高;但在可信性上机器人新闻则略胜一筹;但两种新闻的质量差别并不大,被试很难区分出一篇文章到底是机器写的还是出自人手。[3]另外有研究考察当读者知道作者身份时的反应,荷兰读者对机器人新闻和记者新闻(涉及体育和财经领域)内容的专业度和可信性的评估并没有区别。[4]德国读者阅读机器人和人类撰写的体育和金融新闻,尽管标明了文章的作者(可能有误),但这并没有影响读者的判断,结果仍与上述实验一致,即机器人新闻更可信,更具专业性,而人类记者写的新闻则更有可读性。[5]这些证据指出,机器人新闻在常规的、重复的主题上可以与记者撰写的新闻相媲美;但是当主题超出简单的事实陈述,需要记者通过解释、说理和观点来贡献价值时,机器人新闻尚不能胜任。

机器人新闻对读者的影响还体现在读者想知道算法的运作方式,如算法对他们了解多少以及其他人看到的故事有何不同。学者指出,读者关注机器人新闻的五类信息:涉及的人群、底层数据、模型、推论和算法。[6]比如读者想知道,机器人新闻背后是什么——算法的目标和意图是什么,包括编辑的目标;谁开发和控制这些算法;谁对这些内容负责;最终产品在发表前是否有人类编辑阅览,等等。关于数据来源,新闻机构应该公开完整的原始数据;或者提供数据质量的信息,例如数据的精确度(或潜在的不确定性)、完整性和时效性。此外,读者还想知道数据是如何获取、变换、确证和编辑的;是公开数据或私人数据;生成故事时,使用(或忽略)了哪一部分的资料;如果这是个人的故事,使用了读者的哪部分信息。关于算法,读者们对从数据中发现有趣的事件和洞察的基础模型和统计方法很感兴趣,并好奇是何种新闻价值决定了最终的故事。但是,与其说以上问题是读者的问题,不如说是专家的问题,很少有普通读者能够清晰地意识到算法在新闻中起的作用。只有当算法产生重大错误或者被黑客入侵时,读者才可能真正重视算法透明度。对于算法透明度来说,有两点值得未来研究关注:更好地理解读者对算法透明度的需求以及信息公开如何有助于公共利益;如何更好地展示信息而不影响用户体验。

3.机器人新闻的应用范畴

机器人新闻在体育赛事和金融主题的内容生产只是开始。鉴于其可能减少成本及增加新闻出稿量,越来越多的媒体机构可能采用机器人进行内容生产;机器人新闻可能被用在更具挑战性的主题,如涉及政治和社会议题、符合公众利益的新闻。一旦机器人新闻涉及批判性议题,问题的准确性、内容的质量以及底层数据和算法的透明度变得愈加重要。汤姆·肯特(Tom Kent)提出“机器人新闻的伦理清单”,主要包含以下四个方面:资料来源(新闻机构需确保有修改和发布数据的合法权利,确保资料的准确性),资料处理(新闻机构在发布信息前检验数据和算法),输出(发布的内容符合新闻机构的公开规定,在不同的故事中能够使用多样的表达,新闻机构需要说明故事是由机器、人类或合作生产的),责任(算法不能承担所有的责任,新闻机构在必要的时候至少要能说明故事如何生产出来)。[7]

由于机器人新闻能够快速、便宜、大量和按需生产内容,可能从本质上增加了新闻的数量。这样的变化可能有望满足人们对信息的需求,但同时也增加了人们寻找相关内容的负担,搜索引擎和个性化新闻聚合也愈发任重道远。另外,我们能否完全信任算法成为提供监督和平衡的机制,发现重要议题,并为舆论的形成而设立公共议程?未来的研究应该多关注,算法在什么程度上可以承担“把关人”的角色。

三、建议与讨论

至21世纪早期,计算机辅助新闻报道的使用已经得到了巨大发展,数据不仅成为了日常新闻的一部分,同时也成为新闻报道的一大驱动力——这个过程被称为“精确新闻”“计算机辅助报道”“数据新闻”“数据驱动新闻”或是“计算新闻”。在未来,算法可能更迅速地、从更广阔的范围中、用多种语言、根据读者的偏好和问题生产新闻,还可能比人类记者犯更少的错误。

但是,基于算法的内容生产仍然存在局限性。首先,机器人生产内容意味着需要从已有记录的信息和数据中找到题目,当然全民连线、全民记录的时代给新闻提供了大量的主题来源,但如果有一些事件和观念太隐晦,以至于大多数人都对此习以为常或者缺乏记录的行为;或者由于种种原因,一些事件和观点被屏蔽在已有的信息平台之外;或者算法只能捕捉“显著”的、“大量”的主题而忽略那些(可能)很重要但又尚未得到大部分人关注的主题——这些是在选题中可能存在的问题,即如果基于已有的社会记录作为“主题库”寻找选题,可能意味着越来越窄的选题空间。其次,人类自然语言的多样性导致了表达的模糊,机器算法仍然很难精准地判断自然语言中的多种情绪和态度,记录者通过反讽、隐喻、谐音、别字等多种方式所表达的共同意义也给算法增加了重重难度。仅以反讽这一点而言,机器人新闻公司叙述科学(Narrative Science)在芝加哥的总部坐落在《论坛报》的不远处,而这个对记者职业产生巨大威胁的技术则是从美国西北大学梅迭尔新闻、媒体管理与整合营销传播学院中孕育出来的——这些事实中所包含的反讽意味对人类而言很容易理解,但对机器则是尚待克服的难题。从这个意义上说,机器人取代记者进行新闻生产,特别是深度新闻写作尚需时日。

目前机器人新闻主要涉足天气预报、体育赛事、公司财报、信息汇编、突发快讯等。机器人新闻的算法限定了数据的结构、报道的主题、常用的模板。一旦要求创意、批判性思维、理解社会等任务,机器人尚无法胜任。因此,新闻从业人员不能以外部变化(如机器人新闻)为借口,放弃专业性——一旦记者只能写流水账和信息罗列,没有联想、思考、讨论和分析,那么被机器人代替也没有什么可遗憾的。

另外,雷金纳德·蔡(Reginald Chua)提出新闻生产中“人机结合”的设想:算法分析资料,发现有趣的故事,呈现初稿,记者进行深入的分析,采访关键行动者,挖掘背后的意义以丰富故事。《洛杉矶时报》的犯罪报告就是这样的一次尝试,算法提供基本事实,如日期、地点、时间、年龄、性别、种族和辖区;之后记者抓住最有价值的新闻,进行访谈和分析,提供受害人的生活和家庭细节,解释现象或建立因果联系。

从记者的职业未来角度看,自动化报道的崛起比新闻业面对的经济困境威胁小得多。新闻业当前面临印刷内容向网络转移、广告业务枯竭等致命问题,而这些都不是机器人革命造成的绝境。机器和工具对人类的工作和生活始终是一种补充,正如计算机的产生并没有完全取代电话,它是一种补充,也使人们的工作和生活发生了改变。

(作者单位:北京大学深圳研究生院)

参考文献:

[1]American Press Institute, “What is Journalism?” http://www.americanpressinstitute.org/journalism-essentials/what-isjournalism/

[2]Andreas Graefe, “Guide to Automated Journalism,” January 7, 2016, http://towcenter.org/research/guide-to-automatedjournalism/.

[3]Christer Clerwall,“Enter the robot journalist,” Journalism Practice, 2014 (5), pp. 519-531.

[4]Hille van der Kaa and Emiel Krahmer, “Journalist versus news consumer: The perceived credibility of machine written news,” Computation Journalism Conference, Columbia University, New York, 2014.

[5]Andreas Graefe et al., “Readers’ perception of computer-written news: Credibility, expertise, and readability,”DubrovnikMedia Days Conference, University of Dubrovnik, 2015.

[6]Nicholas Diakopoulos, “Algorithmic accountability: Journalistic investigation of computational power structures,”Digital Journalism, 2015 (3), pp. 398-415.

[7]Tom Kent, “An ethical checklist for robot journalism,” February 24, 2015, https://medium.com/@tjrkent/an-ethicalchecklist-for-robot-journalism-1f41dcbd7be2.

猜你喜欢

行动者算法
与异质性行动者共生演进:基于行动者网络理论的政策执行研究新路径
ANT 视域下共享单车的网络建构研究
抑制OFDM系统峰均比的DHT-SCF联合算法
基于Lévy飞行的一种改进鲸鱼算法
苗族体育非物质文化遗产传承的行动者网络——贵州反排木鼓舞个案的体育民族志研究*
Travellng thg World Full—time for Rree
进位加法的两种算法
行动者网络理论对社会网研究的启示
区域旅游行动者网络构建的路径研究—基于田野调查法
敬仰中国大地上的绿色行动者