符号学视角下大数据与算法的反思

2022-05-01张瑾杰

新闻研究导刊 2022年4期

摘要：随着人工智能的发展，大数据与算法引发了越来越多的深入思考。文章从符号学的视角对大数据与算法加以考察，认为大数据的收集与分析作为中项，将个人信息的不当收集与使用标出为异项，将联合提升网络生活效率作为非标出的正项，使公私领域的平衡存有争议。在保障个人信息安全的前提下，对数据进行充分开发是大数据运用的关键所在。基于对平台单一算法的分析得出“算法推荐容易导致信息茧房”的观点存在偏差。平台往往存在多种算法，既有“窄幅文化”又有“宽轴操作”。宽幅与窄幅的并存格局呈现出不同的风格，实际上有利于消解信息茧房。面对技术运作的逻辑，人类应该发挥伦理符号学的关怀，秉持“生命关怀”与“他者责任”，将技术的使用场景与设计相结合，形成人机协同的共生模式。

关键词：算法推送；数据隐私；信息茧房；标出性；符号伦理

中图分类号：TP311.1 文献标志码：A 文章编号：1674-8883（2022）04-0001-04

互联网已渗透人类生活的方方面面，人工智能的发展浪潮势不可挡。大数据和算法作为人工智能的两大支撑，通过数据的指数爆炸式增长以及算法驱动的数据收集和分析能力的提高，将人们真正推入“数字化生存”的时代。人类将前所未有的控制权委托给互联网化的智能机器，进入充满数据泄漏、算法黑箱等捉摸不透却又无处不在的风险社会之中。面对日新月异的技术，乐观主义与悲观主义的论断往往相伴而生。我们享受着技术进步为生活带来的无限便利，充分肯定它们对社会进步的推动作用；与此同时，也应该对隐藏着的诸多风险有清晰的认知。符号学对意义的关注以及对符号运作中权力机制的考察，为更深入地理解互联网时代的新现象提供了丰富的理论资源。基于此，文章从符号学的视角出发，试图解读大数据收集与分析中存在的矛盾，以及算法推荐引发的误读，进而探讨对待技术发展的伦理关怀态度。

一、中项偏边：大数据网络生活与个人信息保护的矛盾

大数据的基础在于数据，核心在于预测，目的是对数据去冗分类、去粗取精，从数据中挖掘出潜在的信息与知识。随着大数据、云计算等技术的升级，互联网中用户留下的数字痕迹能够被更充分地挖掘与利用。这就意味着以往沉淀在数据中的价值能够被进一步地激发出来，运用到社会生活的各个领域。而数据运用的结果，是提升了人们社会生活的效率还是引发数据泄露产生了严重问题，成为对立的两个概念。符号学研究认为，两个对立的概念中，谁争夺到携带中项的意义权力，谁就确立了正项地位。中项偏边是文化符号意义展开权力斗争的体现。

（一）提升效率是非标出的正项，数据泄露是标出的异项

从符号学的视角来看，大数据的收集与分析是“非此非彼，亦此亦彼”的中项。中项的特点是无法自我界定，也没有自己独立的符号，必须靠非标出项来表达自身[1]。也就是说，数据的收集与分析作为中项，无法进行自我界定，要根据数据收集的方式以及分析的目的进行界定。正项获得被中项代言的意义权力，在文化之中被视为“正常”的。大数据商业化的采集和运用为个人数据开辟出新的经济价值，个人数据进而被赋予了更强烈的意义色彩。因此，挖掘数据的潜在价值，提升网络生活效率从而造福于民的观点被视为“正常”，成为非标出的正项；与此同时，个人信息的不当收集，以及由数据泄露引发的不良后果被视为标出的异项。

在社会文化中，人们将提高网络生活效率视为大数据收集与分析的主流目的，使其获得了非标出的正项地位。为了能够在交通、医疗、购物等社会生活的具体场景中享受更加高效便捷的服务，网络平台拥有了收集与使用个人信息的合法性。人们在网络平台上填写了个人信息，开通了电子支付，关联了不同平台的账号，并留下数字痕迹，允许个人的数据被平台收集与分析。标出项之所以成为标出项，就是因为被中项与正项联合排拒。大数据基于对效率的追求，引发用户数据过度索取，甚至是个人信息买卖的灰色产业链等问题。这些个人隐私数据的不当收集与使用的现象被中项与正项联合排拒，成为标出的异项。在大数据面前，个人画像被不同维度的数据所描摹，人们几乎变成了透明人。平台比用户自己还要了解用户。数字时代，人们无异于赤裸地生存在网络数据世界之中，公共领域和私人领域混合在一起，没有真正的隐私可言，甚至出现“隐私已死”的局面。

（二）效率提升需要数据支撑，用户处于信息保护弱势地位

数字化生存与个人信息保护的矛盾之处在于，越是希望得到平台的深度分析与精准推送，用户就越是需要提供更多的个人信息数据。商业平台作为非公有资本，如今已经大规模介入公共领域之中，甚至在特定领域比政府掌握了更多、更精确的公民个人信息数据。例如，交通出行类平台精确地掌握用户在城市中每一条大街小巷的流动数据，社交类平台与购物类平台能够预测出用户的消费趋势。这些商业平台善于从用户数据中挖掘出经济价值，以此提升平台的竞争力。然而，对用户数据的使用权限以及责任承担对象，行业并没有形成一套自律规范体系，有效的监管又常常落后于新事物的发展。商业平台难以找到市场公共利益与企业私人利益的平衡方案，对用户权利的保障被置于追求经济利益之后。随着大数据应用领域的不断拓展，商业平台对数据内在价值的挖掘加剧。在平台与用户的关系中，平台在一定程度上掌握了话语霸权，用户处于不平等的弱势地位。虽然用户在面对平台隐私政策时能够勾选“不同意”，但这将影响到用户的正常使用，甚至导致其无法进入平台。所以，用户表面上拥有选择权，但往往只能被迫接受平台提出的“霸王条款”。

从技术与人的关系上看，技术在一定程度上改变了人们的行为，使人们被动接受技术的逻辑，甚至被异化。正如海德格尔的观点，技术的本质乃是一种“解蔽方式”和“座架”，人类被置于技术的巨大“座架”之中。个人数据的让渡与其所换取的效率提升相比，人们无力抵抗，被动地卷入到技术運作的逻辑之中。有学者指出，网络中存在一方面担心、抱怨自己的隐私权被侵犯，另一方面又自由随意地披露个人数据的悖论现象。这被称之为隐私悖论，即个人隐私披露的意向与个人实际隐私披露行为的冲突性。因此，个人信息泄露不能简单地归咎于用户数据隐私保护意识淡薄，更应该看到在利益相关者的博弈之中，用户处于弱势地位。面对互通互联的网络社会生存，用户在个人信息数据的保护上无能为力。0F125AE5-A82F-48EB-AF36-84E50412E254

（三）数据保护逐步规范，但公私平衡仍存争议

随着人工智能时代的到来，数据这一概念发生了巨大的变化。我国在2020年发布的《关于构建更加完善的要素市场化配置体制机制的意见》之中，将数据定义为生产要素之一，与土地、劳动力、资本、技术等并列。同时，对数据的规范也在逐步完善。近年来，《中华人民共和国网络安全法》《中华人民共和国数据安全法》和《中华人民共和国个人信息保护法》相继出台，形成了数据保护的“三座大山”。在大数据的时代浪潮中，将个人信息数据完全封锁起来无异于与世隔绝，为了保护个人信息而与网络社会断开连接的想法并不现实。因此，如何在保障个人信息与数据安全的前提下，对数据进行充分的开发与利用，成为破题的关键所在。

从商业数据的范畴上看，现有法律法规已经划定了平台获取与使用个人数据的限度，但网信部门仍在多次的专项治理行动中通报平台违规收集使用个人信息的情况。由此可见，一边是用户数据蕴含的商业价值，一边是法律法规的底线，商业平台仍然在越界的边缘反复试探。从公共数据的范畴来看，近年来在数据共享、数据开放以及数据授权运营等领域，各地纷纷展开实践探索，如2021年的《广东省数据要素市场化配置改革行动方案》、2020年的《成都市公共数据运营服务管理办法》等。这些探索旨在最大限度地发挥出数据的价值，但如何开放、如何运营才能兼顾数据安全与数据价值，仍然处于“摸着石头过河”的阶段。

人们并不排斥个人数据被合法合规地收集与使用，令人担忧的是，收集与使用等过程的不透明性使人们无法确定个人数据是否安全、是否会对个人的利益产生危害。这些担忧使人们时时刻刻处于风险之中，因此有必要对大数据的收集与使用进行伦理的反思。数据实际上来源于公民个人，数据通过加工产生的价值也应该回馈到公民的身上，即“还数于民”。数据的使用方不仅应该承担起法律上的责任，更应该接受公共道德上的约束。一旦大数据的搜集与使用造成了诸如隐私泄露等消极影响时，必须勇于承担责任，弥补损失。如果造成了重大消极后果，则必须受到相应惩罚。源于公民个人的信息数据需要得到足够的保护，需要运用到恰当的领域。

二、双轴操作：算法推荐与信息茧房的误读

算法的本质是将信息与用户相匹配，目前针对内容推送的算法主要是一种语义算法[2]。具体而言，就是基于语义的内容推荐、协同过滤推荐、混合推荐以及社会化推荐等算法技术，实现对内容的标签化分类，并与对用户的分类进行两者之间的匹配。当算法在社交媒体中广泛运用时，人们自然而然地认为算法推荐导致了信息茧房；也有学者对信息茧房的概念进行考察，批判性地看待算法推荐与信息茧房的关系。从符号文本组合轴与聚合轴两个展开向度的视角进行分析，有助于澄清对算法推荐的误读。

（一）算法推荐是否导致信息茧房引发争论

信息茧房最早由美国学者凯斯·桑斯坦在《信息乌托邦》中提出，指的是“我们只听我们选择和愉悦我们的东西”[3]。算法推荐使特定的内容与特定的用户相匹配，用户所处的信息环境实际上是基于用户个人的兴趣所构建的。也就是说，用户选择性地接触自己所感兴趣的信息，对自己不感兴趣的信息视而不见。在算法推荐的作用下，用户会看到越来越多同质化的信息，丧失接触不同信息的能力，被困在由自己编织的信息茧房之中。这种算法运作所产生的结果与信息茧房的概念有着内在的相似性，人们理所当然认为算法推荐的广泛应用，加剧了信息繭房。

不过，也有学者对这一观点进行反思。例如，喻国明对信息茧房的产生条件进行考察，认为“信息茧房是个体、社会、场景与技术等因素共同作用的结果”，所以算法并不是信息茧房产生的唯一因素；从算法的特性与用户行为的角度上看，“算法对已经存在的信息茧房也不起稳定或增强作用”[4]。陈昌凤从信息茧房这一概念的出场语境上进行考察，认为美国政治语境中提出的信息茧房是一种比喻，缺乏批判性和实证上的研究，在中国被望文生义并产生误读[5]。由于信息茧房的概念存在模糊性，算法被自然而然地勾连起来，产生误读。事实上，在算法诞生之前，信息茧房就长期存在。如霍夫兰的“个人差异论”指出受众会对信息进行选择性理解，从这一角度出发，产生信息茧房的原因可以追溯到个体的行为机制。如今，算法技术的出现让更多的人意识到信息茧房的存在，但这并不意味着能够将算法视为信息茧房的独特成因。

（二）误读源于对平台单一算法的分析

对算法推荐的误读是由于只分析单一的算法，事实上平台中往往存在多种算法。如基于内容的推荐算法是基于你曾经浏览过、搜索过的相似内容进行推荐，而协同推荐算法则是根据与你相似的其他人喜欢什么来进行推荐。从符号学的角度来看，符号文本有两个展开向度，即组合轴与聚合轴，不同的操作将会产生不同的结果。

以微博为例，在微博的首页显示的自己关注的人发布的动态，我选择关注某些用户是聚合轴操作；这些用户在某个时段发布的内容，或是经过算法的推荐和排序后呈现在我的首页上，是组合轴操作。由于我关注的这些用户经过我的挑选，发布的内容大致与我的兴趣爱好相关，因此风格是窄幅的，即我所看到的信息都与我本身所持有的态度相一致，因此可能导致信息茧房，甚至引发群体极化。而“实时热搜榜”显示的是热度到达一定程度的热门话题，多数用户的关注使特定话题的热度飙升，是聚合轴操作；这些话题各种各样，共同呈现在这个时段的“实时热搜榜”中是组合轴操作。“实时热搜榜”中的话题有我感兴趣的想关注的，也有我不感兴趣的，内容的风格多种多样，众声喧哗，因此是宽幅的。

随着移动互联网的兴起以及包含内容和关系的社交媒体的快速发展，单独使用一种算法难以实现精准预测，难以满足用户的需求。平台中多种算法的融合使用能够驱动聚合轴和组合轴的双轴操作，使不同的算法优势互补，进一步提升个性化推送的精准程度。

（三）宽幅与窄幅的不同风格，有利于消解信息茧房

组合关系是符号组合成一个有意义的文本的方式，而聚合轴是可能代替被选中的各种成分，宽幅与窄幅是一组相对的概念，体现的是文本背后聚合段的宽窄不一，宽幅文化允许更多的选择。基于内容的推荐是窄幅，但基于大数据分析的热度排名却能够呈现宽幅，多种算法的并用呈现出宽幅与窄幅并存的格局。万物互联之下，用户能够与兴趣相似的人突破时间与空间的限制展开对话，同时也增加了接触到观点意见不同的人的机会。例如同一个热门话题下的讨论，不仅聚集起了看法相近的用户，更有持不同观点而展开激烈争论的用户。越多人参与讨论的热门话题，意见与观点的呈现角度就越是多元。这种宽幅与窄幅并存的格局，实际上有助于化解信息茧房。0F125AE5-A82F-48EB-AF36-84E50412E254

近年来，我国针对算法的法律法规不断完善，对算法推荐提出了具体的要求。算法技术在未来将更深一步地嵌入人们社会生活之中。人们也应该对算法技术的发展进行更加积极的引导，如通过不断的优化升级或“反向推荐”的方式，使用户接收到更加多元化的信息内容。在对算法技术进行引导时，还应该看到技术之外的其他因素，避免资本裹挟，出现人们被“困在算法里”的局面。

三、伦理反思：大数据与算法的技术本质

苏珊·佩特丽莉提出伦理符号学的概念，认为伦理符号学是“以一种全球视野关爱生命”[6]。这里的“全球”指的是我们所生存的星球，不仅包括自然界、文化界等，还包括“符号活动界”。这意味着不仅人与人之间要遵循伦理的要求，作为这个星球上唯一具有反思符号能力的人类，在对待算法、大数据等“非人”的技术时也要进行伦理的关怀。在大数据与算法的时代，人类作为对话与关系体的主体，应该学会倾听与关怀，能够调停、反思和领会人类与整个地球的符号活动关系。

（一）人类在技术关怀中的角色逐渐凸显

苏珊把符号与价值关联起来，认为“生命关怀”与“他者责任”是伦理符号学的目标[7]。所谓“他者”就是除了自我之外的异己，不仅是指某一个具体的个人，更是指这个星球上所有的生命体，包括“非人”。大数据和算法可以被视为符号活动链条上的一环，人对技术的看法随着技术的发展不断变化。工具论视域下的技术是中性的，是一种手段和一种人类行为。持技术中性论观点的学者将技术视为一种工具、手段，他们不否认技术会产生善或恶的影响，但这种影响并不源于技术本身，而是取决于人们使用技术来做什么。如今人工智能被运用到越来越多的领域，如服务业、军事、研究、教育、娱乐、医疗、看护、陪伴等，未来也将越来越深入地嵌入人类的生活之中。机器人革命为人类社会带来了很多福祉，但也带来了安全、法律道德问题与社会经济等风险。因此在设计的环节就需要考虑如何实现价值的嵌入，从而设计出有道德的机器人。机器伦理关注机器对人类使用者和其他机器带来的行为结果。人类是符号的动物，人类能够理解符号运作背后的意义及其权力机制，能够对符号活动进行反思，从而被赋予了批判性思考的能力、地位与责任。因此，人类也被视为是“符号伦理的动物”。可以预见，人类与技术的关系将会更加复杂，人类在其中还承担着符号伦理意义上的责任，这意味着人类对待技术的不同态度极大地影响着技术发展的方向。

（二）目标在于形成人机协同的互动模式

技术的进步将数据隐私泄漏、信息茧房等风险呈现在人们的眼前，但并不能因此将责任完全归罪于技术，还需要看到人类在使用技术上存在的问题。现有研究对技术是否具有自身的价值倾向存在分歧。随着技术自身的发展，技术中性论无法解释更加复杂与多样的关系。大规模的机器生产一方面极大地促进了生产力的发展，但另一方面使劳动工具和劳动关系发生错位，马克思将此称之为“人的异化”。在海德格尔看来，技术工具论虽然“正确”，但并非“真实”，技术的本质乃是一种“解蔽方式”和“座架”，对人的存在与发展施加影响。这一观点不再将技术视为独立于人类之外的中立性的存在，而是认为技术具有自身的价值和意义，并对人类的生活实践产生影响，可能助长消费主义、埋没人性，将人类引向毁灭等。

在技术中介论视角下，算法不只是被动的工具。算法的能动性是通过算法设计者的基本价值判断而实现的。在设计算法时，即使技术专业人员尽可能地保持严谨客观，但仍难以逃避自身社会文化、道德准则与知识背景的影响，因此算法本身在创建时就蕴含了价值判断、道德选择等约束条件。无论如何，当认识到技术存在“黑箱”时，将所有问题归罪于技术并不利于未来的发展，应该秉持“生命关怀”与“他者责任”，发挥人的主动性，从而作出改变。问题的破解不能单纯依靠人的价值观和伦理，还要将技术的本质与技术伦理纳入考虑范畴，形成人机协同的模式。

四、结语

从符号学的视角出发，对大数据与算法进行解读，有助于更清晰地看到技术浪潮的新现象背后存在的深刻意义与思考。文章分析大数据收集与分析中存在的矛盾并澄清对算法推送的误读，从而强调人对技术应该形成全新的认识，以伦理关怀构建人机协同的共生模式。人类要将规范与价值判断前置性地嵌入大数据与算法之中，把具体的伦理原则作为准则，将技术的使用场景与设计相结合，形成人机之间的良性互动。

参考文献：

[1] 赵毅衡.符号学原理与推演[M].南京：南京大学出版社，2011：281-295.

[2] 喻国明，曲慧.“信息茧房”的误读与算法推送的必要：兼论内容分发中社会伦理困境的解决之道[J].新疆师范大学学报（哲学社会科学版），2020（1）：127-133.

[3] 凯斯·桑斯坦.信息乌托邦：众人如何生产知识[M].北京：法律出版社，2008：8.

[4] 喻国明，方可人.算法推荐必然导致“信息茧房”效应吗：兼论算法的媒介本质与技术伦理[J].新闻论坛，2019（6）：14-18.

[5] 陈昌凤，仇筠茜.“信息茧房”在中国：望文生义的概念与算法的破茧求解[J].新闻与写作，2020（1）：58-63.

[6] 苏珊·佩特丽莉，奥古斯都·庞奇奥，周劲松.伦理符号学[J].符号与传媒，2012（2）：181-194.

[7] 苏珊·佩特丽莉，周劲松.符號伦理学与责任：生命、符号、他者[J].鄱阳湖学刊，2016（6）：58-78，126.

作者简介？张瑾杰，硕士在读，研究方向：网络与新媒体。0F125AE5-A82F-48EB-AF36-84E50412E254