“自动化新闻”如何推动算法撰写新闻的行业趋势
2017-01-03农毅慧
农毅慧
摘要2014年7月,“美联社用机器人代替记者写稿”的新闻引发讨论热潮。“机器人新闻”一词以讹传讹,实际反映了公众乃至新闻从业者对新闻技术现状的误解。本文通过聚焦于最新发布的哥伦比亚大学研究报告,尝试解读算法撰写新闻的行业趋势与前景。
关键词自动化新闻:算法新闻;分析性思维;责任与挑战
1什么是“自动化新闻”
美国哥伦比亚大学下属的数据新闻研究中心TowCenter于2016年1月发布的《自动化新闻指南》采用术语“自动化新闻”来概括这一媒体行业的新动向。“自动化新闻”指在初期算法编程完毕后,不经人为干预,软件或算法即可自动生成新闻故事的过程。因此,一旦算法生成,从收集和分析资料,到实际的撰写和发布新闻,新闻生产的每个环节都可以自动完成。自动化新闻也可以被称作算法新闻。自动化新闻适用于某类特定的新闻:这些故事以事实为主,且存在有效的、结构化的、可靠的数据可供使用。此种情况下,算法能够生产大批量的新闻内容,并针对每个读者做出个性化处理。算法比人类新闻记者更迅速、成本更低廉,而且很可能更少犯错误。
2自动化新闻的简史与现状
自动化新闻的概念看似新鲜,实则在新闻领域亦有迹可寻。该行业趋势发源于近半个世纪前的天气预报领域。一种能够处理天气预报模型数据(风速、降雨量、气温等)的软件可将数据按照重要性排列(例如数值是否超过或低于某个阈值范围),并使用事先写好的约80个短语生产出一篇“措辞严谨的天气预报”。另一个已经长期采用自动化模式的领域是以信息速度论高下的财经新闻。举例来说,路透社和彭博社等机构都从新闻稿件中提取关键数据,将它们嵌入事先写好的模板,为其客户自动生成新闻提醒。近年来,福布斯、非营利性新闻调查网站ProPublica等纷纷开始采用自动化新闻技术,2014年美联社使用Automated Insight创建的“语言大师”(Wordsmith)平台来撰写公司季度财报,这一消息更使自动化新闻前所未有地走进公众视野。目前在全球范围内研发自动化新闻软件的11家公司,其中5家在德国(Ax Semantics:Text On:2txt NLG:Retresco:Textomatic),2家在美国(Narrative Science:Automated Insights),2家在法国(syllabs:Labsense),1家在英国(Arria),1家在中国(腾讯)。
3自动化新闻的意义与影响
3.1新闻记者:应当更关注那些算法完成不了的任务
自动化新闻经常被看作是针对传统新闻业的威胁,因而也毫无意外地吸引众多记者的关注。新闻记者通常认为自动化新闻产品的写作质量较差、他们认为复杂的叙事能力是人类写作的竞争优势。首先,“讲故事”原本不是新闻记者视为至关重要的职业技能。他们强调的恰恰是算法更胜一筹的那些能力,例如,客观性、简洁、速度。更重要的是,新闻记者的争论忽略了以下事实:自动化新闻在重复性、常规化且基于事实的新闻故事中最为有用。在此类作品中,写作质量并非至关重要。例如,在浏览财经新闻时,读者倾向于快速获取信息。此时复杂、精妙的写作手法反而费力不讨好,使得读者理解信息更加困难。
新闻记者应当更关注那些算法完成不了的任务。未来,人类和自动化新闻可能会紧密结合,算法将负责分析数据,寻找有趣的新闻题材,撰写新闻初稿。记者则负责为稿件增添深度分析,采访关键人物,并在幕后进行报道。
新闻记者也将在自动化新闻生产流程中扮演新的角色。例如,美联社近期聘请了一位“自动化”编辑,其工作为尝试辨别出可以转为自动化的生产流程。开发新闻算法的一大挑战便是定义出算法应当遵循的条件与规则。此类工作要求记者具备分析性思维,创造性,并且对统计学有一定的了解。
3.2新闻读者:新体验。新诉求
首先,记者撰写的新闻比自动化新闻在可读性方面评分更高。其次,自动化新闻在可信度方面评分更高。最后可能也是最关键的一点是,受众对人类新闻和自动化新闻的质量评估差异很小。尽管读者受众认为记者的文章的确比自动化产生的文章更有可读性,但他们本来就不太喜欢阅读该类新闻。
自动化新闻在常规化、重复性的新闻领域足以与人类记者的写作质量抗衡。有些新闻议题不单单包含基本事实,此时记者通过提供解读、推理和主观意见来发挥己用。目前还没有自动化新闻能够处理如此复杂的问题。
在富有争议的报道领域,例如,采用自动化新闻作品分析投票数据来分析候选人赢得选举的机率,读者或某些利益群体很可能会质疑新闻故事的基本事实,或者抨击新闻故事采取的视角。与之相似,如果算法针对每个读者生成个性化的新闻故事,用户也许会希望知道算法有多了解他们的需求,或者他们看到的新闻与其他人有何不同。用户是否对算法透明度有要求还尚未可知,毕竟很可能极少有读者了解算法在新闻界所起到的关键作用。
首先,我们需要更好地理解用户对算法透明度的需求,以及如何能使公开信息服务于公众利益;其次,需要寻找不干扰用户体验的信息公开方式,特别是针对那些对此类信息不感兴趣的读者。
3.3新闻机构:责任与挑战
首先,新闻机构不仅需要拥有修改和公布源数据的法律权利,而且要确保这些数据足够准确。新闻机构需要执行数据管理和核查的流程,自动完成或者由编辑人工完成均可。其次,如果基本数据或算法存在错误,自动化过程可能在转瞬间生成大量疏漏百出的新闻故事,从而对机构的名誉带来灾难性的影响。新闻机构因此需要在发布自动化新闻之前进行彻底的测试。专家建议最好在作品发布前由编辑事先进行核查。再次,针对最终的新闻成品,自动化新闻的写作风格需遵循机构的官方风格指南,并且应当能够针对不同的故事采取多样的措辞。新闻机构也必须维持最起码的透明度,表明某个新闻故事是算法自动生成的,比如添加信息说明数据来源,以及该内容的生产方式。最后,还需明确法律责任。如同其他任何数学模型,生成自动化新闻的算法也依赖数据和先验的假设,两者均可能存在偏差或疏漏。此类错误可能导致意想不到的结果,最终造成新闻故事包含不准确或错误信息。
出错时,新闻机构也许会迫于压力公开自动化背后的源代码。至少,他们需要解释这篇错误新闻是如何生成的。从法理角度看,算法不能对错误负责。责任应当由自然人担负,可能是发布者,也可能是导致算法或数据出错的具体员工。
3.4社会:公众舆论的未来
自动化新闻很可能会使新闻的数量大幅度增加,使得用户在寻找与自身最相关的信息时遇到更多困难。为了解决信息超负荷的问题,搜索引擎和诸如“谷歌新闻”的个性化新闻聚合应用,其重要性都会与日俱增。
自动化新闻数量增加和完善,要求未来的研究必须着手解决更加宽泛的议题。我们能否相信,算法这一机制能够促进新闻信息的核查与平衡,辨别重要的新闻议题,并且为民主进程中公众舆论的形成设立共同议程?更重要的是,今后的研究需要了解,如果算法替代新闻业成为政府监督者,这一趋势对民主意味着什么。尽管将自动化新闻的普及还尚待时日,其拥护者认为该领域将会迅速增长。Alexander Siebert是研发自动化新闻技术的德国公司Retresco的创始人,他认为在五年内自动化新闻将与人类撰写的新闻别无二致。美国公司Narrative Science的创始人之一Kristian Hanmmnond预测,未来10年内,超过90%的新闻将会走向自动化。