社交媒体用户算法偏见感知的批判性话语分析
2023-05-27贾诗威闫慧
贾诗威 闫慧
关键词: 社交媒体; 算法偏见; 算法感知; 批判性话语分析; 信息不平等; 数字不平等
DOI:10.3969 / j.issn.1008-0821.2023.06.002
〔中图分类号〕G252 〔文献标识码〕A 〔文章编号〕1008-0821 (2023) 06-0014-10
人工智能时代, 算法的广泛应用提高了人类完成多样化信息处理工作的效率, 也因此嵌入社会治理、公共资源分配、公民权利实现等各领域, 提供个性推荐、自主决策、风险评估预测等服务, 为社会变革与发展注入新动力。
虽然算法有时被认为是中立客观的, 但近年来诸多研究表明了算法偏见的存在。算法偏见是一种计算机全流程中对某些个人或群体、信息内容等产生不公平结果的系统性和可重复性错误[1] , 其本质是社会偏见在算法技术中的映射[2] 。以推荐算法为例, 信息分发模式从“人找信息” 模式转变为“信息找人” 模式[3] , 这意味着算法拥有绝对权力控制哪些信息能够呈现、以及自主决定用户能看到什么, 这种偏见性算法结果将导致信息不平等现象。同时, 嵌入人类偏见的算法再现社会结构的不平等, 进一步强化数字弱势群体在数字不平等中所处的底层位置。
人类对算法偏见的感知和理解对于改变算法偏见带来的社会影响显得非常重要。但事实上, 多数用户并不了解平台应用中算法的存在及其运行机制[4-5] , 以及意识不到算法偏见的存在与影响和算法偏见背后的权力体现[6-7] 。同时, 部分研究也表明用户的算法意识差异正在成为一种新的数字鸿沟形式[8] , 缺乏对算法偏见的感知更容易遭遇信息不平等和数字不平等, 扩大用户间的信息贫富差距和数字鸿沟差距。
因此, 本文试图调查社交媒体用户对算法偏见的感知理解现状, 在验证笔者先前提出的算法偏见框架[1] 基础上, 从用户视角探究算法偏见背后的权力博弈关系, 扩展算法偏见和算法意识研究。具体问题包括: 社交媒体用户如何感知和理解算法偏见? 社交媒体用户如何生产和传播对算法偏见的感知理解? 算法偏见感知文本反映哪些算法偏见背后的权力关系与后果?
1研究回顾
1.1算法偏见研究
算法偏见问题受到信息科学、传播学、社会学等多学科关注, 诸多研究對算法偏见的来源与类型、影响因素、后果与治理展开讨论。
算法偏见源自于人类智能系统与人工智能系统交互的各个环节, 并在不同环节中表现出不同类型[1] 。具体包括: ①业务理解环节的偏见, 设计者容易在算法项目设计阶段引入自身对算法目标、数据选择、算法模型、价值判断等方面的个人偏见[9] , 导致业务初始阶段产生理解偏见。例如纽约311 平台在设计之初对低收入人群、少数族裔等群体的遗漏, 导致城市服务分配的不公平[10] ; ②数据集构建环节的偏见, 也称数据集偏见, 涉及历史偏见、代表性偏见和标签偏见。其中, 历史偏见是指历史数据集中预存偏见[11] , 代表性偏见是指数据集无法代表目标群体的真实数据分布[12] , 标签偏见是指人类标注数据过程因个人偏见而导致的数据标签不准确[13] , 以上3 种偏见类型都将在算法运行过程中迭代延续和加强; ③算法模型运行的偏见, 也称技术偏见, 包括关联偏见和确认偏见。前者是指算法模型结果强化并放大了数据中潜藏的偏见, 后者是指算法因某些特征做出的偏见性假设,例如推荐算法依据性别特征向用户提供不对等的就业机会[14] ; ④算法交互环节的偏见, 也称交互偏见或迭代算法偏见, 当用户在人机交互过程向算法提供带有偏见性的数据时, 该数据随之成为下一轮算法运行的历史数据, 在反馈循环中得到自我加强和放大[15] 。
算法偏见是一种后天习得的行为, 反映在结果上是对受保护属性的不公平依赖。据统计, 常见的受保护属性包括性别[16] 、年龄[17] 、种族[18] 、地理[19] 、身体状况[20] 、经济水平、教育水平[21] 等。这种先天或后天的用户特征往往无法更改, 对上述受保护属性的不公平依赖将延续传统社会结构偏见(如性别偏见、种族偏见), 使得特权阶级对非特权阶级的话语控制与排斥、社会重要资源(如就业机会[22] 、信息服务[23] 、城市服务[10] ) 的不公平分配等现象愈演愈烈, 原本处于社会弱势地位的群体更容易被算法偏见结果所排斥, 加剧其面临的数字不平等和信息不平等现状。例如Meta(原Facebook)的广告投放系统被发现支持广告商通过筛选种族、肤色、宗教、性别、家庭状况、国籍等个人受保护属性信息推送房地产广告, 公然违反美国《公平住房法》对禁止住房歧视的要求[24] , 对社会公平正义造成冲击。除此之外, 用户喜好[25] 、算法偏好[26]等因素也影响着算法结果的公平性。
算法偏见结果对用户的线上和线下资源产生影响, 导致传统弱势群体在算法世界被边缘化, 以及非弱势群体也可能因缺乏算法偏见感知能力而受到算法惩罚, 产生了新的信息不平等内容(信息呈现不平等、信息分布不均衡)和新型数字不平等形式(算法鸿沟)[1] , 固化了数字弱势群体在算法中的不利身份和地位[27] 。正因如此, 算法偏见治理也成为业界、学界和政府部门共同关注的议题。其中,业界关注如何从技术上检测并解决算法偏见问题,根据算法决策的生命周期提出预处理技术、中间处理技术和后处理技术[28-29] , 围绕数据和算法技术进行修正。学界不仅关注实践, 更关注如何从宏观视角对算法偏见问题进行规制, 不少学者围绕伦理原则、主体责任、数据准确以及第三方监管等角度进行算法治理[30] , 例如构建行业道德伦理规范、设立算法监管机构[2] 、提升算法和数据透明度[31] 、构建算法问责机制[32-33] 等。与此同时, 各国(地区)政府也出台了诸如《通用数据保护条例》《人工智能未来法案》《互联网信息服务算法推荐管理规定》等相关法规对算法偏见进行规制。
1.2算法感知研究
算法对人类生活和社会结构造成巨大冲击, 仅从技术或结果视角认识算法是不够的, 这也导致越来越多的学者从用户视角解释人与算法的交互过程,由此产生算法感知或算法意识(Algorithmic Aware?ness)研究。早期的算法感知研究以算法想象(Algo?rithmic Imaginary)[34] 和民间理论(Folk Theories)[35]来描述用户对算法体验经历及算法运行方式的感知理解。在此基础上, 算法感知或算法意识可解释为用户对特定使用领域和特定应用或设备中算法存在及其功能的感知程度[36] 。
虽然算法感知尚未形成统一界定, 但部分学者试图通过构建量表的方式探究算法感知的内涵与外延, 以此丰富算法感知的维度。例如Dogruel L 等[36]将算法感知划分为算法存在感知和算法功能感知,但维度切分比较粗糙, 没有完全测量用户对算法各功能的感知程度。Zarouali B 等[37] 的研究从内容过滤、自动决策、人机交互、伦理考量4 个维度衡量用户算法感知, 不仅扩充了算法功能维度, 同时引入伦理考量维度, 测量用户对隐私风险、算法不透明、算法偏见的感知, 为本文研究奠定基础。也就是说, 算法偏见感知测量的是用户能否感受到算法决策的非中立性和非客观性[38] , 如是否意识到算法推荐结果可能受到人类偏见的影响[37] 、数据集中存在人类偏见和不平等[12] 、算法推荐会降低信息多样性[39] 等。
用户的算法感知水平受到多因素影响, 包括人口统计学特征(如年龄[40] 、地区[41] 、教育背景[42] )、用户使用习惯(如平台使用数量[43] 、使用时长、媒体素养[41] )、用户的算法信任度[44] 等。研究表明,年轻、高教育水平的城市居民具备更好的算法意识[24] , 也能更好地感知到算法对数据、内容等方面可能存在的偏见现象。这意味着, 用户能够采取特定策略绕过算法偏见对自身的影响, 如定期清空缓存、关闭推荐功能等, 这种能力将加剧用户群体间的算法意识鸿沟[40] 和信息不平等。
综上所述, 算法偏见研究大多从技术层面讨论并验证算法偏见的来源和类型, 或从后果层面讨论算法偏见对用户产生的影响, 唯独忽视了用户在算法交互过程中的主观能动性, 缺乏用户视角的算法偏见感知和理解。虽然算法感知研究涉及对用户算法偏见感知的测量, 但仅作为算法感知维度出现,无法展现用户的算法偏见感知全貌。因此, 本文从社交媒体用戶的算法偏见感知文本出发, 探究用户视角的算法偏见感知理解现状, 以期丰富本土信息不平等和数字不平等研究。
2研究设计
2.1研究思路与方法
偏见研究具有强烈的社会学和语言学传统, 前者从社会结构和权力关系来解释社会偏见现象, 后者通过话语分析揭示话语文本蕴含的偏见表达和传播。两类方法各有千秋, 也因此发展出融合两大学科理论的新路径———批判性话语分析(Critical Dis?course Analysis, CDA)。批判性话语分析发轫于20世纪70 年代末, 其核心是将话语作为一种社会实践, 通过挖掘话语与权力、意识形态之间的关系[45] , 来揭示话语中存在和表达的不平等现象[46] 。不同于内容分析法, 批判性话语分析更多地揭示话语生产实践背后的本质原因, 即解释话语文本为何会产生[47] , 这给研究算法偏见感知提供了新思路。
本文采用批判性话语分析中费尔克拉夫(Fair?clough)的三维分析模型进行话语的描述、阐释和解释, 如图1 所示。根据费尔克拉夫的描述, 话语是由社会建构的, 能够反映世界和建构世界行为,因此对话语的分析应该从文本、话语实践和社会实践3 个维度进行。其中, 文本分析从微观层面描述话语文本的词汇表达、语法结构以及文本结构特征; 话语实践分析从中观层面对文本生产、分配及消费过程进行动态解析, 是连接静态文本分析和动态社会分析的桥梁; 社会实践分析从宏观层面揭示话语对权力与意识形态的建构作用[48] 。
运用上述模型对社交媒体用户的算法偏见感知文本进行分析, 能够有效地挖掘用户对算法偏见的感知理解, 以及对算法偏见的不平等后果的深入思考, 从用户视角提供算法偏见感知研究新途径。具体操作过程包括:
1) 通过主题词汇对算法偏见感知文本进行描述, 考察用户对算法偏见的感知理解和情感倾向,以此客观描述感知文本的特征, 这也是传统话语分析常用方法。
2) 通过互文性对算法偏见感知文本的话语生产和理解过程进行阐释。根据费尔克拉夫的界定,互文性表示一个文本中充满其他文本的片段, 这些文本片段通过同化、排斥或讽刺回应等方式进行再生产。再生产过程反映出话语背后的意识形态, 符合文本生产者观点的信息更容易被直接引用, 而不符合文本生产者观点的信息可能会以不同形式融入新文本中。简单而言, 互文性能够反映用户如何建构对算法偏见的感知和意义。
3) 从信息科学视角对算法偏见感知文本反映的算法偏见形成的权力关系及其结果进行解释。重点关注算法偏见导致的信息分布不均衡、信息呈现不平等和新型数字不平等, 以及3 种不平等背后利益者相关者的权力博弈关系。
值得注意的是, 批判性话语分析通常于小样本、非概率抽样的话语素材, 强调样本本身的代表性, 其研究结果虽然无法得到实证主义(如内容分析法)那般的普遍意义推论, 但仍能提供理论构建作用。因此, 除常规的文本分析之外, 本文在话语实践分析和社会实践分析部分并不涉及统计学验证工作。同时, 为增加分析结果的可信度, 将选取部分个例佐证研究结论, 个例选取经过研究者共同讨论, 确保其具有良好的代表性。
2.2数据收集与处理
本文以微博平台的用户文本为数据来源。考虑到“算法偏见” 相对正式, 一般不用于口语表达,故选择“算法” 作为搜索关键词, 采集该关键词下用户的实时原创微博内容, 采集范围为2022 年11 月4 日—10 日, 最终获得为期1 周的原始数据1 892条。随后, 对原始数据进行人工清洗、筛选和去重, 保留与算法偏见相关的用户感知数据, 删除与算法相关的广告、新闻、学习等无效数据, 最终得到有效数据集121 条(共9 406字, 平均78 字/条)。表1 展示部分有效数据集文本。
随后, 从文本、话语实践、社会实践向度讨论社交媒体用户的算法偏见感知理解, 探究话语表达与权力结构、算法系统之间的关系。以表1 中用户“锋潮科技” 发布的微博原文为例, 三维度的分析过程为: ①文本分析方面需要借助分词工具和人工相结合的形式进行主题词汇(高频词、情感词)的判断, 示例初步判定用户感知到算法偏见来源于数据, 并表达出对360 软件广告推荐算法的质疑;②话语实践方面, 示例直接引述周鸿祎及前序报道原文作为自身话语表达的背景, 并以设问的修辞方式提出问题, 在话语再生产中完成自身对算法偏见的建构, 也引发其他用户对该现象的注意和思考;③社会实践方面, 示例实际体现算法服务商与用户对信息精准性的博弈过程, 从侧面反映信息精准匹配依赖用户数据, 信息分布结果存在不均衡现象。
3研究发现
3.1文本分析: 算法偏见感知的话语表达
对算法偏见感知话语进行文本分析, 试图解释社交媒体用户算法偏见感知的感知理解和情感倾向。
1) 用户对算法偏见的感知理解
利用中文分词统计话语文本的高频词汇, 并对排名前10 的高频词计算词频共现矩阵, 如图2 所示, 得到用户算法偏见感知话语的主题特征。表中数字和颜色反映单词共现次数和频数, 共现次数越高说明两个词汇之间的关联性越强。
从表1 看出, 用户对算法偏见的感知理解围绕算法功能、算法平台、数据、信息内容、用户展开。归纳整理后发现, 用户的算法偏見感知由两部分组成:
①对算法偏见的来源感知, 集中于对数据、算法技术的感知理解。其中, 对数据的偏见感知以“数据” “大数据算法” “用户数据” “数据集” 等形式出现, 一是体现人工智能算法与数据之间的紧密依赖关系, 用户感知到算法运行的背后需要大量数据支撑, 这种情况在智能推荐算法中尤为常见,例如表1 用户“锋潮科技” 提及的大数据算法; 二是体现用户数据是算法数据集的重要构成, 正如话语文本(#1)所言: “数据集真的是世界上最难收集的东西, 算法都做的差不多, 还是要拼谁数据集收集的多, 但是收集的数据都很垃圾, 根本不知道自己采集的是什么……”, 当数据集出现代表性不足、质量不高等情况时, 所产生的算法结果必然存在算法偏见。用户对算法技术的偏见感知需要依托特定媒介或服务进行, 或通过推荐、过滤等特定算法服务, 或通过微博、抖音等特定算法平台, 导致高频词“算法” 和“推荐” “推送” “微博” “平台” 总是相伴出现。可见, 微博用户对算法的理解基本遵循“用户—数据—算法—用户” 的循环运行逻辑, 任一环节都有可能触发用户对算法偏见的感知和思考。
②对算法偏见的对象感知, 描述用户对算法偏见在数据、内容和用户层面的映射的感知理解, 符合笔者先前提出的算法偏见外延范围[1] 。其中,数据层面的偏见感知涉及数据代表性、数据标签等方面, 在话语文本(#1)中有所体现。内容层面的偏见感知涉及高频词有“视频” “信息” “内容”,具体包括对暴露偏见、可检索性偏见的感知, 前者描述特定算法(如微博时间线算法和兴趣算法)对用户信息获取平等性的扭曲, 后者描述文本内容的呈现机会不平等, 甚至多名用户直接描述了信息茧房的特征和自身影响。例如, 话语文本(#2)提到:“大家可以看看自己发的不同内容的微博的阅读量, 就可以知道算法可以有多邪恶”, 不仅描述了可检索性偏见的存在, 同时以“邪恶” 的emoji 表情结尾强调了用户对可检索性偏见结果的不认可与恼怒。高频词“用户” 除了与数据、画像等词搭配以外, 更多在话语表述中以独立形式存在。因而用户层面的偏见感知比较特殊, 用户在描述算法偏见遭遇时倾向于把自己作为话语客体, 反映算法对用户的权力支配。
2) 用户对算法偏见的情感倾向
鉴于中文语义的情境性和复杂性, 机器分析存在判别错误的可能。因此, 本文对121 条话语文本进行人工编码, 归纳出用户对算法偏见结果的暗含态度, 涉及抱怨、质疑、愤怒、辱骂、喜欢等情绪。表2 列举排名前5 的高频用户情绪。可见, 用户对算法偏见的感知态度多元, 但以负面情绪为主, 表现出从“抱怨” 到“辱骂” 的递进情感变化, 侧面反映算法偏见对用户日常生活产生的不利影响。同时, “喜欢” 情绪进入前5 位高频情绪之中, 这一现象证明了算法偏见与负面效应的非必然关系,在某种程度上, 算法偏见也能给用户带来更好的算法体验。
3.2话语实践分析: 算法偏见感知的话语生产
互文性强调用户话语文本生产的意识形态和主观能动性, 反映话语文本的生产与解读过程。本文以互文性为切入点, 通过分析用户对话语文本加工方法的选择偏好, 阐释用户算法偏见话语的生产和意义建构过程, 使后续的社会实践分析成为可能。
据统计, 复制、概述、修辞再表述是用户在算法偏见感知话语生产过程中常用的话语文本加工方法。其中, 复制是指用户将前文本的部分或全部算法偏见感知的内容和观点直接复制, 作为自身话语生产的叙事背景。例如话语文本(#8)所示: “张丹丹老师说, 愚昧是一种难以根治的疾病。如果有幸查出来, 一定要清空所有浏览记录, 因为有一种东西叫做算法, 它会自动推送同类型愚昧的内容给你,将你自动判别为愚昧受众。好可怕。” 用户在表达自身对算法偏见感知的理解时直接复制他人观点,并在话语生产时完成对他人话语同化吸收, 表明话语传播具备说服性。概述是运用删略、归纳和重构方法对前文本进行简化和改写, 例如表1 用户“锋潮科技” 的前半段话便是对周鸿祎讲话内容的概述。上述两种方法是处理前文本的常用方法。
修辞再表述不仅可以用于处理前文本, 还可以用于自身话语生产之中, 修辞手段包括设问、反讽、暗示性比喻等不同形式, 例如表1 用户“锋潮科技”以设问形式表达自身对算法与数据之间的认知; 话语文本(#9: 今日震撼之竟然真的有人认为信息茧房是好事……娱乐本质的背后是呆在给于算法的信息茧房里, 你每天只会花费大量的时间在无效娱乐上以满足多巴胺的分泌! 那社会的阶层就只会不断固化, 永远不可能有突破的可能! 恍然大悟, 原来是既得利益者的一些小心思啊……) 以反讽形式完成对他人算法偏见观点的批判和讨论, 明确指出自身对算法偏见下信息不平等后果的深入思考, 并期望引发新的文本互动; 部分用户还将算法比喻为“墙” “命运之手” “神秘力量”, 传达自身对算法偏见在功能和结果方面的认识。虽然不同文本的加工方法不同, 但话语生产过程能够帮助用户在文本互动中逐渐构建出动态变化的算法偏见意义, 为理解算法偏见背后的权力博弈关系奠定基础。
3.3社会实践分析: 算法偏见体现的权力博弈
进入算法社会以来, 算法机制依托大数据构建技术权力话语, 为用户在话语、社会资本、生存领域等方面提供权力或地位提升的可能。但偏向性的算法结果会影响用户线上和线下权益分配的公平性, 导致信息分布不均衡、信息呈现不平等和新型数字不平等。本文从用户感知视角验证3 种不平等的存在, 以及探究不平等背后利益者相关者的权力博弈关系。以下根据用户易感程度展开讨论。
1) 信息分布不均衡与算法传播权力
信息的传递传播依赖图书馆、电视、互联网等各类媒介技术, 因而媒介实体的分布不均衡将导致信息分布不均衡, 造成信息富有与信息贫困的分化现象。算法作为新的信息传播媒介, 虽然削弱了其对实体设施的依赖, 但并未改变媒介传播背后利益相关者的权力博弈本质, 具体表现为算法服务商与用户对信息精确性与多样性的选择博弈, 引发新的信息分布不均衡现象。
对于算法服务商而言, 如何吸引并留存更多用户是其追求更高收益的关键问题。推荐算法的出现为解决该问题提供良好方案, 通过预测用户对信息价值的判断来实现信息精准匹配, 在满足用户兴趣和需求的同时降低信息搜索门槛, 在一定程度上保障信息弱势群体的信息获取权利, 也改变了用户的信息获取方式。如今, 越来越多用户的信息获取依赖于算法投喂(feed), 并在人機交互中通过点赞、收藏、分享等行为加强算法推荐偏好, 促使算法将用户兴趣作为唯一正确的认知, 在交互迭代中为用户持续推送个性化信息, 为每位用户塑造独特的信息世界。例如文本(#10)描述道: “大家接触到的信息, 都是算法推给你的, 除非自己有想法, 是看不到其他东西的。同一件事情, 我看到的是真实,还是你看到的是真实, 也可能看到的都不是真实,但是壁垒就在那里。” 这种由算法主导、用户协助打造的个人信息世界被称为过滤泡, 其特点为过滤泡内群体的观点趋同, 用户无法接触多元化的信息和观点, 造成信息窄化[49] 。由于过滤泡的形成需要基于用户偏好数据, 具备高算法意识的用户甚至可以通过训练算法来人为自主地打造过滤泡, 也可以采取拉黑、点击不感兴趣、选择减少推荐等算法策略来抵抗过滤泡形成。但并非所有的算法抵抗都会生效, 当算法服务商的算法设定忽视用户抵抗行为时, 即便用户采取再多的算法抵抗策略, 也难以打破过滤泡, 这种现象在文本(#11)中被描述为算法失灵: “刷喜欢明星的小视频时参杂了讨厌的明星, 恰巧这时要给孩子擦屁股没来及第一时间刷掉, 然后这位明星就占据了我所有的小视频平台,几天都消不掉, 这时候算法仿佛都失灵了”。上述话语文本个案从用户感知角度验证了算法偏见导致的信息分布不均衡现象, 同时揭示算法服务商与用户的传播权力博弈关系。当用户倾向于信息精确性时, 用户将不自觉地陷入过滤泡之中, 逐渐失去对信息多样性的掌控权; 当用户倾向于信息多样性时, 也会采取特定算法策略丰富信息类型,但成功与否取决于算法服务商的算法设定。
2) 信息呈现不平等与算法话语权力
话语权力体现不平等的社会关系。在偏向性算法中, 算法结果也因为用户身份的差异而呈现出不平等的话语权力, 处于优势地位的用户往往能够支配哪些信息可以呈现、如何呈现、以及是否优先呈现, 以此促进其他用户的思想认知向自身有利方向发展, 巩固其优势地位。因此, 用户感知到的信息呈现不平等有两类:
①信息呈现机会不平等。此类信息呈现不平等关注信息是否有机会呈现以及呈现过程是否真实。所谓真实是指与客观事实相符的信息以正确时间顺序、正确匹配结果等形式进行组织排列, 非真实的信息呈现可能使用户错失重要的与客观事实相符合的信息, 造成信息不平等。随着算法成为信息守门人, 决定信息呈现机会的权力从人类转移至算法。虽然看似公平, 但作为人类权力意志的中介, 算法决策实则以更隐晦的方式增加了信息呈现机会的不平等性, 违反监管、无利可图的信息资源将无法得到平等呈现机会。其中, 本文以信息屏蔽描述算法剥夺信息呈现机会的现象, 该现象往往发生在内容限制情况下。当信息内容违反平台监管和政府监管时, 算法将实施代理人权力对信息内容直接屏蔽。信息扭曲是指算法对信息非真实、非公平地呈现。根据用户对算法偏见的感知, 信息扭曲的产生受到信息权重、检索算法偏好、平台设备等因素影响,具体例证如表3 所示。具体而言, 信息权重会根据信息资源效益而动态调整呈现顺序, 检索算法会根据算法偏好优先呈现特定类型信息, 平台设备可能作为其他受保护属性的代理而呈现不一致信息。以上因素虽未得到完全的验证, 但为解释算法偏见对信息不平等的影响提供现实依据。
②信息话语权不平等。此类信息呈现不平等关注信息话语的权力映射。话语是社会建构的, 作为社会实践的话语不仅仅是各方权力博弈的空间, 更是权力博弈的重要方面[50] 。也就是说, 信息话语的呈现本质上是社会阶层之间的博弈结果, 而算法作为媒介映射了社会阶层博弈结果, 最终表现出信息内容分布结构偏向优势阶层。例如明星与普通民众、VIP 会员与普通会员, 均是前者处于相对优势的阶层, 在算法世界中也更容易呈现优势阶层的话语和行为( #16: 抖音的算法就是扶持名人, 扶持明星, 扶持大品牌)。相对而言, 用户对信息话语权不平等及其后果的感知不多, 这也进一步体现算法话语权力对社会阶层固化的影响。
可见, 信息呈现不平等实际体现算法服务商或设计者与用户、不同阶层用户之间的话语博弈, 博弈结果表现为信息呈现机会不平等和信息话语权不平等。根据《互联网信息服务算法推荐管理规定》第十四条规定, 算法服务提供者不得利用算法屏蔽信息、过度推荐、操纵榜单或检索结果排序、控制热搜或者精选等干预信息呈现[51] 。但在实际运行中, 用户依旧感知到算法对信息呈现的权力支配,可见当前对算法的监管依然仍重道远。
3) 数字不平等与算法规训权力
规训权力是通过日常规范化训练实现对人类控制和支配的权力技术, 是福柯思想的核心和主线。进入现代社会以来, 规训权力逐渐渗入社会网络和日常生活, 人类的每个行为都将受到规训权力的干预。即, 算法形成的技术权力话语在无形中构建出数字化圆形监狱, 以无法感知的方式监视、操控和驯化用户的技术化生活方式, 加剧用户生存领域中的数字不平等现象。
在现有话语文本中, 算法造成的数字不平等体现在用户歧视、就业歧视、出行限制等方面, 出现大数据杀熟、算法裁人、算法招聘、算法限制出行等不平等对待。在上述情况中, 数据驱动的算法继承并再现了社会偏见, 将个人以性别、年龄、阶层等属性赋予算法身份, 并对特定算法身份群体施以不平等的数字对待, 威胁用户的线下生存资源。算法规训不仅体现在生活资源方面, 同样体现在对人类身体和行为的控制, 由此产生数字劳工。根据用户描述, 算法偏见导致的数字劳工主要为生产性消费数字劳工(如视频博主、网文写手等), 关注数字创意生产对生产性消费劳动者的劳动剥削。以视频博主为例, 互联网用户能够在市场发展初期通过内容创造快速积攒人气并获得可观收益, 但随着市场发展进入中后期, 算法平台的流量分发策略将占据主导地位, 粉丝较少的视频博主被赋予更低的信息权重, 这类博主只能依靠数量弥补低权重劣势,逐步沦为视频平台的数字劳工( #17: 网红们都会面临一个尴尬的问题, 即创作内容越同质化, 他们就越受限于平台的流量分发策略。低端网红逐渐成为类似网约车司机般的存在, 靠数量来填补流量分发时的低权重劣势, 成为平台的外包员工)。
算法对用户数字生活的规训体现了数字优势群体对数字弱势群体的压迫和剥削。作为被算法规训的一方, 用户的社会资本和阶层并未在算法世界中得到提升, 其社会位置反而在数字不平等分配中得到進一步固化, 反映新型数字不平等。
4总结
本文采用批判性话语分析方法, 从文本、话语实践、社会实践3 个维度对社交媒体用户的算法偏见感知话语文本进行分析, 以了解社交媒体用户对算法偏见的感知理解现状, 为扩展信息领域的不平等话语提供本土例证。
结果显示, 用户对算法偏见的感知和理解基本验证了笔者提出算法偏见框架。具体表现为: ①用户能意识到数据和算法平台是算法偏见的形成来源, 但对理解偏见、实践偏见难以感知。数据、内容和用户作为算法偏见的对象, 也在话语文本中得到逐一验证。同时证明用户对算法偏见的态度多元; ②用户在话语生产过程中构建算法偏见意义,并传播自身对算法偏见的态度和意识形态; ③用户对算法偏见的感知反映出信息分布不均衡、信息呈现不平等和数字不平等背后利益者相关者的权力博弈关系。同时发现用户对不同类型的算法偏见结果的易感程度不同, 信息分布不均衡最容易被用户感知, 数字不平等最难被发现。
本文尚存一些不足之处, 例如用于分析的用户话语文本较少, 数据来源单一等。未来有待扩展用户话语文本数据量和数据来源, 对算法偏见框架和算法偏见结果进行更为系统全面的验证。