自动化事实核查的算法逻辑、内生性风险及其规避*
2022-03-26
当前,全球网络信息内容生态治理的棘手问题是假新闻横行、不实言论混淆视听。智媒时代虚假内容的生产与传播也具有“智”的特征:造假手段的智能化(如深度伪造)和传播扩散的“拟人化”(如机器人账号)。2020年,全球84个国家有304个事实核查项目,项目数比2019年增加了近100个,但与全球每天产生的海量虚假内容相比远远不足。造假技术的智能化迫切需要事实核查的智能化,自动化事实核查(Automated Fact-Checking,简称AFC)应运而生。
自动化事实核查用数字工具来识别、验证和回应误导性“陈述”(claims)。它的最大优点在于处理速度快,如果用人工阅读文稿和监测电视寻找事实性“陈述”需要数小时,用自动化事实核查工具ClaimBuster只需要几秒钟。自动化事实核查还可以规避某些公众的“批评”:传统的人工事实核查被视为有“党派偏见”。在美国,就有批评者认为,事实核查网站PolitiFact在选择核查事实上存在党派偏见,更容易选择共和党的失实言论作为核查对象,尽管民主党人与共和党人的核查文章总数相当,但出自共和党人的言论更容易被标注为“失实”或“荒谬”。以“技术中立”面貌出现的自动化事实核查可以赋予事实核查客观、中立的形象。自动事实核查在核查“陈述”方面有一定的成效。联合国的研究报告显示,一些新闻媒体和事实核查机构利用自动化工具,加快了新冠肺炎病毒相关的事实核查速度。
国内学界对事实核查的关注多聚焦于传统人工事实核查的流程、伦理、效果和个案研究,对自动化事实核查的技术逻辑及其蕴含的风险缺少关照。自动化事实核查的核心是算法驱动,是打击谎言和假新闻的算法治理(algorithmic governance)手段之一,但核查过程并非人工核查在技术上的“翻版”。从技术逻辑上看,人工事实核查与自动化事实核查并非“等同”关系,人工核查所采用的“匹配”逻辑在自动化事实核查中只是技术方法之一。计算科学家秉持的“算法形式主义”(algorithmic formalism)虽然让算法解决问题的思路变得清晰,让复杂的问题易于处理,却让自动化事实核查蕴含技术风险。
基于此,本文拟从算法技术的内部视角深入分析自动化事实核查的算法逻辑、内生性风险,并据此提出规避风险的举措。
一、自动化事实核查的算法逻辑
算法是为解决一个特定的问题所采取的确定的有限步骤。解决一个问题可以有多个算法设计,算法性能可能存有差异。在自动化事实核查问题的解决上,算法逻辑也各不相同。
1.基于“匹配”的逻辑
自动化事实核查中基于“匹配”的逻辑源于人工事实核查。基于“匹配”的算法逻辑是以特定的语料库为基础的,当“陈述”出现时,系统自动将其与语料库的内容进行对比,如果匹配成功,则完成事实核查。事实核查的对象是“陈述”,而不是观点。应用这种逻辑的前提是要有一个“比对库”——基于以往已被验证事实的数据库。这是一种典型的将现实思路模拟为技术思路的核查方法。
2020年新冠肺炎疫情期间,“国际事实核查网络”(International Fact-Checking Network)建立了一个事实核查数据库,包含超过40种语言的7000多个已核查“陈述”,聊天机器人WhatsApp Chatbot能够从这个数据库中找到匹配的“陈述”对用户提出的关键字请求进行核查回应。
人工智能程序Squash可以实时匹配在事实核查系统ClaimReview中已有的事实核查与现场演讲者的“陈述”。Squash可以将政客的言论转录成可搜索的文本以便查找匹配项,几秒钟内将相关的事实核查显示在观众的屏幕上。“匹配”逻辑之所以可行,是因为在各种场合、平台中的失实或误导性“陈述”都是重复的说法,而这些“陈述”可能已被事实核查过了。类似的算法系统还有《华盛顿邮报》的“吐真者”(Truthteller)和FullFact的“实时平台”(Live platform)。
2.基于“信源信度”的逻辑
如果不分析“陈述”内容本身的真假,如何预测“陈述”的真假?基于“信源信度”的逻辑是一种典型的计算思维,它通过对信源可信度的判断推论出“陈述”的可信与否。
基于“信源信度”的逻辑用整体封锁信源的方式杜绝假新闻,看似简单粗暴,但对付自动化的假新闻批量生产确实有效。
3.基于“关系”的逻辑
将“陈述”视为知识,如果为真,则一定有支持它的相关知识,反之则很少或没有。自动化事实核查的另一个逻辑在于“关系”,即寻找某一“陈述”在知识图谱中与其他知识的关系。
4.基于“缺陷”的逻辑
人工智能技术的发展让“深度合成”游走于“合成”和“伪造”的两端。深度伪造成为事实核查新的核查对象。面对这种新的、足以以假乱真的文本形态,传统的人工识别难以应对。如果从技术的角度去解决,则有很多突破口。因为无论是合成还是伪造,从数据上看都会有“缺陷”,如果能找出这类视频在“缺陷”上的数据特征,则可以有效识别真假。
5.基于“区块链”的逻辑
基于“区块链”的逻辑是依靠文本上的“元数据”(如时间、地点、作者以及所有编辑和发布的信息)来判断文本的来源及其是否被篡改。基于“区块链”的逻辑需要从信息文本(图片、文章、图像等)的源头开始布局,如此才能真正发挥作用。当前,全球部分主流媒体已经开始布局区块链,通过其核查不实信息。
二、自动化事实核查的内生性风险
技术风险按生成方式可以分为外生性风险和内生性风险。外生性风险是由技术之外的因素引发的风险。例如,使用者对于技术的误用、误解和滥用。内生性风险是与技术设计本身直接相关的各类因素引发的风险。
1.误解风险
误解风险是指由于事实核查系统无法准确“理解”人类语言而引发对“陈述”的误解。误解风险的产生是人工智能发展的阶段性问题。目前还处于弱人工智能阶段,算法能够从事的是简单的、重复的事实核查,变通性较差。
2.误判风险
基于“信源信度”的逻辑、基于“关系”的逻辑、基于“缺陷”的逻辑,由于解决问题的思路不直接涉及被核查的内容本身,会产生误判风险。
在基于“缺陷”的逻辑中,通过寻找视频在生物特征上的缺陷的模式,只能在一定时期、一定阶段有效,因为深度伪造技术正在完善,生物特征测试越来越难以发挥作用。
三、自动化事实核查内生性风险的规避
在弱人工智能时代,自动化事实核查不可避免地存在缺陷。作为一种信息纠错机制,自动化事实核查内生性风险的最大后果在于损害事实核查与公众间的信任关系。如何规避内生性风险的产生,不仅是技术问题,还需要多措并举,在技术、把关、利益相关者和伦理等层面构筑立体的防范体系。
1.技术层面:优化设计,减少源数据的偏差
2.把关层面:“算法+事实核查员”的人机协同模式
3.利益相关者层面:组建事实核查网络
从全球范围看,事实核查是一种公益性的新闻事业。在人工事实核查方面,全球范围有多个项目进行合作。新冠肺炎疫情期间,“国际事实检查网络”组织了“新冠肺炎病毒事实联盟”,这个联盟汇集了70个国家的100多名事实检查员来更新关于新冠肺炎疾病的虚假信息的数据库。法国的CrossCheck与34个新闻机构及新闻专业的学生联手,对法国总统大选进行报道。2015年成立的“初稿新闻”(First Draft News)是由媒体、大学、平台和公民组织组成的事实核查协作体,它向记者和公众免费培训相关技能。
4.伦理层面:强化透明和更正原则
当算法系统不能保证百分之百正确时,对公众诚实的态度非常重要。只有这样,公众才能给予自动化事实核查容错的空间。当然,对于系统开发者和使用者来说,也不能以此为借口经常出错。此外,自动化事实核查还要避免成为某些利益相关者的“工具”,行事实核查之名,做偏见、误导之事。
四、结语
自动化事实核查是网络信息内容生态治理的重要手段,不同的算法逻辑展示了从算法角度进行事实核查的不同路径。面对“算法形式主义”带来的技术局限,如何规避风险、提高自动化事实核查的效率和准确性,是用技术治理技术问题的“元命题”。当智媒时代算法被“赋魅”时,利益相关者应当提高算法素养为其“祛魅”,只有辩证、批判地看待算法在自动化事实核查中的逻辑和效用,我们才能让自动化事实核查为新闻业的事实核查事业“加分”,也才能更好地参与网络信息内容生态治理。