热点、趋势与转折:算法新闻研究近五年知识图谱分析
2021-07-15王瑶琦任戌盈
王瑶琦 任戌盈
【摘 要】本文分析了2015年-2020年五年间Web of Science数据库中有关算法新闻的研究文献,运用Citespace软件对其进行可视化整理和分析,以知识图谱的方式展示其发展脉络。研究发现,近五年算法新闻研究数量稳定增长,并呈现出五个主要的研究聚类热点;算法新闻研究可被概括为对其运行机制和原理的研究、对其引发的新闻实践和新闻理念的讨论与思考、关于受众对算法新闻的感知与评价三阶段。同时,本文还探讨了该领域的奠基性文献和关键节点文献。
【关键词】算法新闻;智媒时代;知识图谱;趋势
近五年来,国内外新闻业界和学界都在热议“算法新闻(algorithmic journalism)”“机器人新闻(robot journalism)”“自动化新闻(automated journalism)”“计算机生成内容(computer-generated content)”。据预测,“计算机生成内容(CGC)”很快将与“专业新闻记者生成内容(PGC)”以及“用户生成内容(UGC)”一起构成智媒时代数字化新闻和信息的三大主体。[1]
本文拟分析以下几个问题:一是近五年来,算法新闻研究的热度与区域分布特点;二是算法新闻研究的发展趋势;三是算法新闻研究的奠基性文献和关键节点文献。通过以上三个方面,借用分析工具描绘出算法研究的知识图谱。这将有助于把握当前新闻业和新闻研究的发展趋势,为智媒时代算法新闻的理论和实践发展提供参考,为后来的研究者厘清脉络。
一、研究方法与数据收集
科学知识图谱是以科学知识为对象,显示科学知识的发展进程与结构关系的一种图形。[2]本文采用了科学知识图谱的研究方法,利用Citespace软件实现结果的可视化。在得出可视化结果后,辅以文本解读对结果进行进一步的整理和阐释,以求对近五年算法新闻的研究获得更全面的了解和认识。
本研究以“algorith* journalism”为检索主题词,将时间范围设定在2015年至2020年期间,在Web of Science(WoS)核心合集的数据库中进行检索。得到检索结果后,按照文献类型为“article”、研究领域为“social science”等进行二次检索,在筛选排除无关联文献后,得到175篇文献的数据。数据内容包含文献基本属性(出版年、出版物名称、研究方向、被引频次等)、摘要和参考文献。此后,利用软件Citespace对其进行进一步的可视化分析。
二、算法新闻研究整体描述
(一)话题热度
从2015年开始,在Web of Science数据库中,有关研究文献发表量整体呈现逐年上升状态,尤其是在2019年,研究者对算法新闻的关注度显著提高。从媒介融合到智能媒体,从无人机到算法新闻,从大数据到人工智能,从基于“互联”为核心的Web1.0时代到现在的以“社交”为核心的Web2.0时代,[3]这可谓是重大转变。随之而来的是近五年算法新闻研究的数量持续增长,国内外的研究者对算法新闻研究的关注度在不断增加。
(二)发表区域
在Citespace中以“country”為分析对象,设定相应参数并选择探索关键路径算法Pathfinder,来绘制算法新闻研究文献地域分布图。
WoS文献数据显示,国际上共有36个国家(地区)的研究者对算法新闻研究做出贡献。发文量前五名的依次为美国(49)、西班牙(13)、德国(10)、英国(10)、中国(8)。美国作为算法新闻研究发文量最高的国家,占文献总量的33.8%;中国学者在算法新闻这一研究领域的活跃度也比较高,能够产出一部分具有国际视野的学术成果。整体上呈现出以发达国家(地区)为主,发展中国家(地区)为辅的研究格局。但是,在该研究领域并未形成明显的国际合作网络。
(三)研究关键词
在Citespace中以关键词为分析对象,可以得出175篇文献中所有关键词的出现频次及每个关键词的中心性(centrality)。在算法新闻研究领域,研究者们多关注计算机新闻(computational journalism)、社交媒体(social media)、自动化新闻(automated journalism)、大数据(big data)、人工智能等话题(见表1)。
三、算法新闻研究热点与趋势
(一)研究主题聚类
通过对算法新闻研究文献的关键词词频的聚类分析,可以发现,175篇文献的关键词被分为多个集群,通过结合词频,可以得到算法新闻研究的五个研究主题(见表2)。
大数据和过滤气泡现象。过滤气泡(Filter Bubble)是指媒体基于大数据,针对用户的使用习惯生成用户画像,并通过算法为之精准推送符合其内容消费习惯的个性化内容。“过滤气泡”使受众接受到的信息内容愈加窄化,新闻媒体通过专业的价值判断进行“议程设置”的职能也被不断削弱。[4]
自动化新闻生产。当新闻生产的主体从人向机器转向,人工不再是新闻产品输出的决定性环节。[5]一方面,学者关注自动化新闻的生产方式和流程;另一方面,研究者也关注机器人写作对传统新闻环境产生的重要影响。
算法与权力。喻国明认为,技术不仅能够赋能与赋权,而且它自身就构成一种权力的行使和对传统权力模式的替代。目前,在新闻生产的各个阶段,我们都可以窥见算法权力意志的体现。
算法与假新闻。不同于传统媒体对新闻真实性的把关,社交媒体传播假新闻的问题逐步显现,并在2016年美国大选中彻底暴露。在这样的背景下,算法与假新闻之间产生了千丝万缕的联系。一方面,算法可以成为传统新闻工作者识别真假新闻源的重要合作伙伴;另一方面,算法也在加速假新闻的泛滥。
人机关系背后的认识论问题。这一类研究探讨算法带来的认识论问题。有人神话技术,强调技术的无所不能,认为个人自主权可以完全在未来的新闻业中消失;也有人认为技术是需要被驯化的,要让价值理性驾驭工具理性。此外,算法的高门槛使很多研究者将其称为“黑箱”,这在一定程度上也将人与机器置于了不平等的位置。
(二)研究发展趋势
以Web of Science核心合集中2015年-2020年有关论文数据导入Citespace,时间切片选择一年,利用Citespace软件的最小生成树(Minimum Spanning Tree)技术来修剪节点间连线,可以得到关键词时区图,从中可以总结出算法新闻研究的三个发展趋势。第一阶段,2015年是文献收集的起始年份,“大数据(big data)”“数据新闻(data journalism)”“创新(innovation)”等主要关键词在此时出现,体现出研究者对算法新闻这一新事物运行机制与运行原理的关注。第二阶段是2016年-2017年,算法新闻研究逐渐开始转向对新闻伦理的探讨,关键词“可信度(credibility)”“算法的透明度(algorithmic transparency)”“信任(trust)”出现在这一时期。第三阶段则在2018年以后,伴随着“感知(perception)”“私人化(personalization)”等叙述,受众对于算法新闻的感知与评价开始进入研究者的视野。
(三)关键文献分析
在算法新闻研究中,早期奠基性文献和高被引、高中心度的关键性节点文献共同构成了研究骨架。用Citespace软件运行收集到的文献数据,节点类型选择Cited Reference,然后以时区(timezone)视图展示,得到算法新闻研究早期奠基性文献知识图谱。其显示了发表于2012年-2014年间、被引率较高的7篇早期奠基性文献,详细信息如表3所示。
通过阅读这些奠基性文献,能够看出有关算法新闻的早期研究呈现出的整体态势。总的来说,奠基性文献主要包含两种范式:一类是探讨算法新闻对新闻记者产生的影响,一类是提纲挈领的方法论研究,为后来的研究者提供研究算法新闻的视角和参考维度。
第一类奠基性文献如Arjen van Dalen在2012年发表的文章中就开始探讨算法新闻对新闻记者产生的影响。他认为新闻记者应该着重培养自己的分析能力、创新能力和写复杂句子的能力,因为客观性、时效性、简洁性等特质将完全由计算机完成。记者会有更多的时间来进行深度报道。
第二类奠基性文献如Anderson在前人的基础上提出研究算法新闻的六个视角:政治、经济、场景、组织、文化和技术。Philip M.Napoli提出要把算法新闻和现有的学术理论联系起来,在学术视野下探讨算法新闻在媒体内容生产与消费中扮演的角色。
一项研究的理论基础,除了考察奠基性文献之外,还应关注到高被引、高中心度的关键性节点文献。通常高频被引文献中的内容在某一时期内获得了较多研究者的认可,且研究者将以高频被引文献中的观点、知识作为基础来开展下一步的研究;高中心度的文献则反映其在算法新闻研究脉络中的枢纽作用。[6]经统计,将被引频次排前十位的重要文献同时列出,如表4所示。
Matt Carlson认为在新兴的围绕着数据开展的新闻实践中,“自动化新闻(automated journalism)”是最具有颠覆性的一种。他认为自动化新闻带给新闻业及新闻从业者的影响是一把双刃剑:一方面能够提升新闻消息发布的效率,另一方面可能会导致新闻机构裁员增加以及新闻写作的商品化、程序化等问题。
Mark Coddington在研究中将计算机辅助下的报道(computer-assisted reporting)、数据新闻(data journalism)和计算机算法新闻(computational journalism)作为三种定量的新闻实践形式进行对比探讨。他认为这三种新闻形式互相关联但是也各不相同,各有各的优势与缺陷,但对新闻业都有所助益。
Konstantin Nicholas D?rr从技术层面探讨了自然语言生成(NLG)的算法是否能够发挥专业新闻的功能,同时还延伸讨论了自然语言生成算法在新闻业中蕴含的经济潜力。这篇文章为在大数据等技术的角度上分析新闻业将面临的挑战的研究奠定了基础。
Nicholas Diakopoulos则关注到了算法与社会权力结构之间的关系。他在文章中提出了“有关算法可说明性的报道(algorithmic accountability reporting)”这一概念。他认为新闻记者有责任对算法行使监督的权利,新闻报道应当观照到算法内部的权力结构,揭示算法中包含的缺陷和偏见。他的研究提醒人们对逐渐渗入社会生活方方面面的算法保持警惕之心,同时也为后来的研究者提供了应对算法带来的问题的研究范式。
Andreas Graefe运用实验的方法来探测受试者对于计算机自动生成的新闻的态度和看法。研究发现,无论实际来源是什么,受试者对声称是人工撰写的文章总是有更高的评分。研究受众对算法新闻的感知与评价的研究者多援引此文章,使之处于研究脉络的枢纽地位。
结语
技术调节理论认为人与技术是相互交织、不分彼此的。因此,对新闻业而言,无论是面临算法还是其他新出现的技术物,都不应忽视技术调节的框架下技术物对人所带来的规范或引导作用。[7]从这个角度来说,算法新闻对新闻业及新闻从业者、研究者的冲击与重塑是相伴而生的。与算法新闻相随的新闻实践的问题、暗藏在算法里的社会权力结构变化的问题、由算法引发的新闻伦理问题,尚有待研究者们进一步探索。
此外,可针对中文CNKI数据库做类似的数据分析,对比探讨中文研究者在算法新闻研究中与国际学者的差异,也可补足我国学者在算法新闻研究这一领域的盲点与不足。
注释:
[1]邓建国.机器人新闻:原理、风险和影响[J].新闻记者,2016(09):10-17.
[2]刘则渊. 科学知识图谱:方法与应用[A]. 辽宁省哲学社会科学成果奖评审委员会办公室,辽宁省哲学社会科学获奖成果汇编[2007-2008年度][C].辽宁省社会科学界联合会,2010:4.
[3]喻国明,杨莹莹,闫巧妹.算法即权力:算法范式在新闻传播中的权力革命[J].编辑之友,2018(05):5-12.
[4]王斌,李宛真.如何戳破“過滤气泡” 算法推送新闻中的认知窄化及其规避[J].新闻与写作,2018(09):20-26.
[5]许向东,郭萌萌.智媒时代的新闻生产:自动化新闻的实践与思考[J].国际新闻界,2017(05):29-41.
[6]孙宁,陈雅.WoS视域下国际网络舆情研究知识图谱分析[J].情报资料工作,2014(04):21-26.
[7]毛湛文,孙曌闻.从“算法神话”到“算法调节”:新闻透明性原则在算法分发平台的实践限度研究[J].国际新闻界,2020(07):6-25.
(作者:王瑶琦,中国传媒大学电视学院硕士研究生;任戌盈,中国传媒大学电视学院硕士研究生)
责编:周蕾