大众认知安全防护关键技术研究进展

2022-07-26范伟健王永滨

中国传媒大学学报(自然科学版) 2022年3期

范伟健,王永滨

（中国传媒大学智能融媒体教育部重点实验室，北京 100024）

1 引言

随着社交网络被大众广泛使用，信息的数字化传播方式潜移默化地改变了公共媒体空间的整体结构。人们可以通过微信、微博、自媒体等各种网络平台便捷地获取大量信息。但在享受这些便利的同时，大众也必须面对一些别有目的的信息传播带来的一系列问题，如过滤气泡，虚假信息，政治分化和仇恨言语等。

例如，在2016年美国总统大选期间，一条关于选举的虚假新闻在世界范围广泛传播［1］。虚假信息的影响范围已经扩展到了全球。此外，Covid-19疫情爆发以来，其相关信息也成为了全球互联网错误信息的主要话题［2］。

在网络与社会现实的不断交互下，“后真相”现象也不断增多，反映着当前网络舆论场域一种不信任、无法形成共识的状态［3］。针对数字化信息的定量分析与自动检测成为一个亟待解决的社会问题。为了能够更快更好地解决这一问题，郭斌等人提出了一个跨学科研究方向称为“认知安全（Cognition Security,CogSec）”，定义为通过了解人与虚假新闻之间的互动模式、认知行为以及社会影响与传播机制，来探索识别虚假新闻、维护人类认知安全的有效途径［4］。

除了上述提到的内容，人工智能技术的发展对数字化信息的识别与审核提出了更高的要求：从原先人工创作到人机协作或机器生成的文本、图像和音视频内容［5］。例如，通过深度伪造技术（Deepfake）生成真实人物从未说过的音频或篡改真实的视频内容［7］。这类内容被一些有心之人用于伪造政客言论和不实证据，严重影响了公众舆论和政治局势［7］。

综上所述，公共空间数字化转型对舆论形成、传播过程和大众认知安全都具有重大影响。为了能够在巨量数字化信息中保护大众安全，需要计算机科学、语言学、社会学、心理学、法学、神经科学、认知科学以及脑科学等多角度的综合研究。本文首先从CogSec的概念出发，调研了现有研究的相关概念，以及涉及认知安全防护现存的主要研究任务；其次，调研现有用于大众认知安全防护的关键技术和进展；最后，讨论了大众认知安全防护的主要挑战和未来方向。

2 认知安全防护

郭斌等人在明确定义认知安全和认知安全防护的概念后提出了认知安全领域。其原始出发点主要是针对虚假新闻，并延伸至关于虚假新闻带来的一系列问题的解决技术。具体定义如下［4］：

定义1认知安全：指虚假新闻对人类认知的潜在影响，包括错误认知、不实知识获取、有偏见的决策等。

定义2认知安全防护：致力于有效干预，确保人的认知安全，包括认知机制研究、信息传播模式挖掘、虚假新闻早期检测、恶意机器人检测等技术。

在调研过程中发现虚假新闻并不能代表造成当前网络环境中有害现象的数字化信息。表1总结了包括虚假新闻在内的现有研究涉及到的数字化信息的相关概念［8-12］。

表1 现有研究工作中出现的相关概念

在本文中，将认知安全的概念进行扩充，将虚假新闻延伸至无效信息，并将无效信息定义如下：

定义3无效信息：在网络平台中发布的信息，且至少属于以下情况之一：a）没有包含实质内容；b）包含不实内容；c）具有恶意目的；d）包含未经验证的内容。

虽然在现有的研究中还没有发现直接研究认知安全防护领域的工作。但现有的一些相关学科和任务已经有了不同程度的进展，其部分成果如下：

（1）社交机器人

社交机器人能够通过特定程序或算法模仿真实用户的社交行为，且具有一定自主决策能力［12］。Salge等人指出，推特中有约8.5%的账户为社交机器人，并频繁参与新闻、热点事件、商业交流等社交活动［13］。社交机器人最初是为了自动地为用户提供真实新闻和信息而提出的，但最近有越来越多的社交机器人传播谣言与有害信息，加剧了舆论冲突［14］。

（2）回音室效应

指在一个相对封闭的网络环境中，一些观点相近的声音不断重复，令处于相对封闭环境中的大多数人认为这些观点就是事实的全部。而该封闭网络外部的任何信息，都很难在这个网络中传播或者不会达到这个网络中。随着推荐算法的兴起，回音室效应进一步加剧。当用户总在浏览自己喜欢的信息时，其认知行为会被潜移默化地影响［15］。例如，Barberá等人发现，政治话题的信息主要在具有相似意识形态偏好的用户之间传播［16］。在社交网络中，高度同质化的回音室效应会降低人们识别无效信息的能力，从而助长无效信息的传播［17］。

（3）媒体可信度

Jamieson等人的研究表明，新闻媒体在报道事实的同时，经常会考虑政府的影响、受众偏好、赞助商喜好等因素［18］。即媒体由于主观性而无法公正、客观地报道新闻事件，是认知偏差的一种表现形式。在各方面的综合影响下，网络媒体往往不经过核实就发布报道，这为无效信息的传播提供了机会。

（4）虚假新闻和谣言识别

用户的认知局限性和社交媒体平台特性等因素导致虚假新闻和谣言的传播。传统的虚假新闻和谣言通常以文本模态进行传播。然而，网络社交平台的发展使其拥有了更多的模态，使其具有更强的吸引力和更大的影响力［19］。

（5）虚假评论

指评论者对产品或服务发表的内容与自身真实感受不一致的评论［20］。评论者发布虚假评论的主要动机是获得情感补偿和/或财物等利益，如商家出于不良竞争的目的雇佣利益团体中的用户发布虚假评论。评论是网络口碑的主要传递途径，为用户提供参考意见，帮助他们了解产品或服务的优势与不足，同时可以使商家进行有针对性的改进。而真实用户对于虚假评论的识别能力往往较低，难以识别出带有欺骗性质的评论内容［21］。

（6）文本生成检测

当前许多研究表明，文本生成模型已经可以生成类似人类语言风格的文本，特别是在语法、流畅性、连贯性和对知识的使用方面［22,23］。文本生成模型已经应用在故事生成、对话回复生成、代码自动补全等多个任务中。然而文本生成模型也面临着被恶意使用的情况，如虚假新闻、虚假产品评论和垃圾邮件的生成［24］。

3 关键技术

本部分在上述扩展后概念的基础上，从认知机制、基于内容、基于信息传播、基于社交行为和新兴技术五个角度概述大众认知安全防护的关键技术。

3.1 认知机制

以内容交互为核心的网络用户行为，如发布、转发、点赞等，会极大地影响数字化信息的传播和影响力。了解网络平台上大众分享、转发等行为的机制对于他们的认知安全防护至关重要。

神经科学一直被广泛应用于人机交互的相关领域。其领域内的相关研究为大众认知安全防护提供了许多理论基础。例如，Dmochowski等人发现相对于文本，人们观看视频时大脑活动更加活跃［25］。Falk等人的研究表明小群体的个体神经反应可以用来预测大规模群体的行为［26］。Hasson等人则发现，不同个体的大脑在观看复杂场景时，表现出高度一致的行为倾向［27］。

同时还有一些研究旨在学习社交网络中的信息分享机制。例如，Scholz等人［28］提出了一个神经认知框架来理解信息分享的机制。他们发现分享操作与用户自我表达和强化社会联系的动机有关。Hodas等人通过分析人格类型、情绪、大脑反应以及人们分享的内容类型之间的联系发现用户的分享行为可以通过性格和当时的情绪状态来预测［29］。Falk等人通过观察用户翻阅信息时的神经反应发现个体在信息分析的初始过程中会产生更大的心理活动［30］。

除了神经科学领域外，Lewandowsky等人从心理学角度，通过观察用户对错误信息的记忆程度，研究认知因素在识别错误信息中的作用。并将大众在面对错误信息时的认知问题分为持续影响效应、说服难度、倾向接受自己的知识和对错误信息的接受四类［31］。

3.2 基于内容特征的关键技术

尽管网络媒体平台上数字化信息包含许多社会语境内容，但建立可靠的识别系统所必需的主要特征来源是直接从信息内容中提取的特征。而基于内容特征的关键技术可以分为文本表征分析、心理语言学因素分析和多模态表征分析。

（1）文本表征分析

现有网络无效信息的识别通常依赖于文本内容中的写作风格或语言特征（如词汇特征、句法特征、和主题特征等）。最直接的文本表征的方法是将识别任务视为文本分类问题，并使用 RST［32］，LIWC［33］和text-CNN［34］等技术进行研究。例如，Egele等人［35］使用七个文本内容特征对网络信息进行建模，然后通过判断之后发布的信息是否偏离已创建的模型来检测社交机器人。

此外，真实的信息往往会引发用户的悲伤、快乐和信任的情感，而虚假新闻往往会引发公众的惊讶、恐惧和厌恶。Alonso等人提出了一种融合多种情感特征提取器的虚假信息检测方法［36］。

（2）心理语言学因素分析

由心理学相关研究表明，基于事实的陈述在内容和质量上都与虚构的陈述不同。写作风格特征旨在用可量化的特征来识别不同的内容风格。Potthast等人［37］就利用真实新闻和虚假新闻在写作风格上的差异，提出了一种用于检测虚假新闻的元学习模型。Marouf等人针对网络不当言论数据集，使用LIWC工具构建了六种不同心理学因素特征［38］。

（3）多模态表征分析

带有视觉内容的信息要比纯文本信息传播的速度更快，并且越来越多的信息通过图像进行传播，已经有大量研究聚焦于预测带有误导内容多模态信息。

Garimella和Eckles从WhatsApp收集了2500幅图像样本，并进行标注。他们根据这个数据集进行了不同类型的图像识别研究，如断章取义的图像、篡改图像、误导图像等。该研究还发现，带有暴力因素的图像比其他图像信息传播速度更快［39］。

Volkova等人提出了使用文本、视觉和词汇特征检测误导信息的模型［40］。Zlatkova等人通过比较文本和图像之间不同特征组的表现来完成关于图像声明的真实性判断任务［41］。Wang等人在分析了社交媒体图像推文后，发现带有篡改图像的推文会有更高的用户参与度［42］。

3.3 基于信息传播的关键技术

建模信息如何传播有助于分析无效信息的传播机制，为阻止无效信息的扩散提供理论依据和技术支撑。在社会学、物理学和计算机科学中，社交网络中的信息传播一直是研究热点之一。信息传播建模、信息源检测和影响力最大化分析等研究都为大众认知安全防护提供研究路径与可靠方法。

（1）传播机制

社交网络中的虚假信息往往会导致社区内的同质化和社区间的两极分化，且虚假内容传播的早期阶段往往表现为病理模式。Friggeri等人通过分析Facebook上的谣言传播发现，在社交平台中谣言的扩散深度比普通信息更深［43］。Liu等人发现真实新闻和虚假新闻的传播模式存在明显差异［44］。

为了理解社交网络的脆弱性，提高用户对虚假新闻的应变能力，Wang等人提出了一个多变量跳跃传播引导框架，该框架对舆论的传播动态进行建模，引导舆论达到理想状态［45］。Martins等人提出了一个观点传播模型CODA，将用户的不同观点视为离散变量，将每个观点建模为连续的观点函数，目标用户根据邻居观点的贝叶斯描述来决定是否改变自己的观点［46］。Yang等人为了描述用户角色之间的交互操作及其对信息传播的影响，提出了角色感知的信息传播模型［47］。Gilani等人通过分析真实用户和社交机器人在推特上发布和转发的行为，发现社交机器人在信息传播中起着非常重要的作用［48］。

（2）关键节点影响机制

Morone等人将渗透理论引入到社会网络影响节点发现中，发现大量弱连接（低度）节点可以成为最优影响者［49］。Amati利用动态转发图中节点的度、亲密度、之间度和PageRank中心度来寻找Twitter中最有影响力的用户［50］。Qiu等人结合网络嵌入、图卷积和注意力机制提出一个基于深度学习的影响力预测框架，学习用户潜在的社会表征来评估其社会影响［51］。

（3）影响机制

社交网络用户是否会被影响，取决于其相关社区的组成部分和结构，而不是社区的规模大小。因此，以目标用户的邻居为代表的不同社会环境和影响可以被认为是社会影响的驱动机制。Kramer等人的研究证明了Facebook中每个用户的情绪都会受到其他用户的影响［52］，这为大规模的社会影响和传染提供了实验基础。

Abebe等人从人们心理敏感性变化的角度研究了信息传染的过程，并提出了一个社会观点的动态模型，综合利用群体观点的最大化和最小化来影响社会舆论［53］。Messias等人则从影响力的角度出发，提出了恶意社交机器人的行为策略，包括定期发布某个热门话题的推文、不同的发布间隔和内容完整性［54］。Abokhodair等人通过分析社交机器人的发布行为、社交结构、群体行为特征及影响网络，发现社交机器人如果拥有更多类似人的社交行为就会提高其传播影响力［55］。

3.4 基于社交行为技术

社交行为主要包含用户的发布、转发、评论和点赞数等操作以及这些操作的时间信息。分析和挖掘现有网络平台中社交行为数据具有重要的价值。

Ma等人利用时间序列的社会语境特征来检测网络谣言［56］。Jin等人通过挖掘评论中支持或反对意见，提出了一种用于谣言检测的可信度传播网络模型［57］。Ruchansky等人通过结合信息的文本特征、用户评论和发布者特征，提出了基于RNN的虚假新闻检测模型［58］。Shu等人通过研究发布者、信息内容和用户之间的社会关系，提出了一个用于对人与内容的交互进行建模的关系嵌入网络，并将该模型用于检测虚假信息［59］。

Boshmaf等人利用社交机器人与人类用户在好友数、发文时间间隔、发布内容和账户属性等方面的差异特征，提出了一种基于随机森林的社交机器人检测方法［60］。Haustein等人分析真实推特用户和社交机器人在转发科学类文章方面的差异，发现社交机器人在涉及主题、来源等方面的转发往往没有主题聚焦的特性［61］。此外，Varol等人发现，与人类用户相比，社交机器人的社交行为选择更加随意，它们与真实用户之间的双向交互更少［62］。

3.5 新兴技术

目前最先进的文本生成模型已经能够生成接近人类语言风格的文本，特别是在语法、流畅性、连贯性以及对现实世界知识的使用上。文本生成模型的发展使其能够服务于各种各样的应用中，包括故事生成、对话回复生成、代码自动补全等。然而，文本生成模型也可能被滥用，如虚假新闻生成、虚假产品评论生成和垃圾邮件等。Gao等人发现推特中63%的无效信息是基于模板生成的［63］。因此，构建能够最大限度地减少文本生成模型误用带来的威胁的工具是很重要的。

表2 列举了现有的一些典型的文本生成模型［24］。对于语言模型任务，可以在特定领域的语料库上对这些训练过的文本生成模型进行微调，以生成适配各自领域的文本。例如，Adelani等人对GPT-2模型在产品评论的特定领域进行微调，生成了模仿真实用户评论风格的虚假评论［64］。

表2 文本生成模型

而在最近的GROVER相关研究中，有研究者发现从文本生成模型中检测虚假信息的最佳模型还是其模型本身。此外，RoBERTa检测器可以泛化到在其预训练期间未看到的数据源上，该检测器可以在推文中准确地识别出机器生成的推文，性能表现远远超过了传统的机器学习模型和复杂神经网络模型。同时，在检测由文本生成模型生成的新闻文章和由微调的GPT-2模型生成的产品评论任务中，RoBERTa检测器也优于现有的模型。

4 挑战与未来

虽然在大众认知安全防护这一新兴研究领域内还没有针对性的研究，但相关学科和相似任务的研究已经为该领域研究提供了初步的理论基础和技术支撑。今后，这一领域仍有许多研究挑战与实际问题需要解决，本部分将讨论其中一些急需解决的问题。

（1）对于大众认知安全防护，首先要了解人类对无效信息的认知机制。而认知机制的研究涉及认知科学、心理学、神经科学等多个学科。针对当前网络媒体平台的发展，需要深入研究具体的认知问题。例如，个体认知对群体行为的影响；满足用户认知偏好的无效信息的特征；社交行为对个体认知的影响等。

（2）信息传播模型和影响力模型是人类社会的一种普遍现象，它有助于社会网络中观点动力学、行为塑造和认知偏好的研究。因此对社交网络上有影响力的用户进行评估，最大化地提高其在信息传播过程中的影响力，有助于中断无效信息的传播进程。这就需要加快研究在新的网络媒介中信息的传播理论，以及真实信息对大众的快速影响最大化机制。

（3）网络媒体平台中的信息通常具有极高的时效性，平均传播时间不超过三天，且无效信息的传播往往在早期阶段就已造成极大的影响。因此，针对无效信息的早期发现是一个重要的课题。尽管关于虚假新闻的早期发现这一相似任务已经进行了一些研究，但其性能表现仍有待提高。

（4）随着深度学习和大规模预训练模型的成果应用，现有的模型研究通常只给出相关任务的结果，而针对结果的决策依据几乎没有解释。然而，无效信息挖掘过程中的可解释性以及模型透明性对于说服大众具有不可替代的作用。随着可解释机器学习的发展和知识图谱的引入，深度学习模型也具有了一定的可解释，但为了能够更好地获取大众的信任，如概率图模型、基于复杂规则的知识图谱和人机交互机制等可解释技术依旧需要进一步探索。

5 结论

本文针对认知安全这一全新的研究课题，为了更加准确描述认知安全防护的内容，在通过相关领域和研究任务的充分调研后，扩展了认知安全的相关概念并回顾了一些现有研究的代表性成果，包括社交机器人、回声室效应、媒体可信度、文本生成检测等。然后，本文通过认知机制、基于内容、基于社交网络、基于社交行为和新兴技术五个角度分析了涉及大众认知安全防护的现有研究工作进展，并讨论了这一新兴领域所面临的实际问题。大众认知安全防护的研究仍处于起步阶段，相关领域的研究人员仍面临许多挑战和问题。