大数据政治的兴起、应用与治理

2023-04-29陈家喜焦嘉欣

学习论坛 2023年4期

陈家喜　焦嘉欣

［摘要］大数据挖掘和存储技术的快速发展，社交媒体的建设和普及以及政治竞选的商业化走向，共同推动了大数据政治的诞生。大数据政治涉及“谁得到、何时得到以及如何得到”等基本问题。政府公开数据、选民信息数据、商业交易数据、社交媒体数据、科学调查研究数据、自愿透露数据与间接推断数据、潜在数据和用户生成数据等多样化数据，构成了一个庞杂的大数据政治信息库。如何获得更广泛的数据，如何构建更高效的数据分析模型，如何更精准地应用大数据进行微观定位，成为大数据时代争夺政治市场份额的关键手段。大数据的政治属性体现了“谁得到”数据的关键性，也决定了对于加强大数据政治治理的必要性，需要明确大数据政治的应用导向，规范政治数据的应用范围，强化大数据政治应用的技术治理等。

［关键词］大数据政治；模型建构；微目标定位

［中图分类号］ D771.2［文献标识码］ A［文章编号］1003-7608（2023）04-0068-10

大数据的政治应用日益成为一个具有时代特征的流行现象。从英国脱欧公投到美国2016年总统大选，从数据科学家在政治竞选团队中的崛起到广泛应用的微目标定位与计算宣传，以及遍布社交媒体上的僵尸程序、社交机器人制造的虚假新闻等，都在生动演绎着大数据对于政治领域的深刻影响。但是，何为大数据政治，大数据如何与政治结合，如何进行政治应用，如何防范大数据的政治风险等相关议题，仍然具有广泛的探索空间。

从互联网、Web1.0到Web2.0和方兴未艾的Web3.0，信息通信技术的迭代革新对于政治过程的渗透与改造不断强化。相对于以往侧重于政治现象、过程、制度等本身的观察而言，大数据提供了分析这些现象、过程和制度的新技术工具，它不仅开辟了政治学研究的新领域，也提出了新的挑战。布雷迪指出，大数据的发展对于政治学提出了三大挑战：一是政治学者开展研究的新方式，即他们通过掌握收集、管理、分析和归档数据的新技术，重新思考做政治学研究的路径方法；二是政治学者提出的新问题，他们试图通过概念形成、描述、因果推理、对未来预测来确定如何实现研究目标，提出关于政治行为的新方法和新见解，并对政治制度提出新设计；三是与政治学研究有关的伦理问题，政治学者必须思考与信息的获取、使用和发布有关的复杂伦理问题，以及他们的模型和结果可能被滥用的问题［1］。

在现代信息社会，数据呈现指数型生长的特征，其对于社会经济与政治生活的影响也不断扩散。理解大数据政治，首先需要解答的是数据与政治何以发生关联，数据与政治如何相互影响，数据如何转化为现实政治实践等基本问题。基于上述认识，本文首先解析大数据所隐含的政治属性，区分大数据政治的主要类型及其获取路径，而后基于美国总统选举案例解构大数据政治的模型建构及微目标定位机制。作为一种新的信息处理与应用技术，大数据对西方政治过程特别是政治选举有着深刻影响，从选民政治画像到制定竞选纲领，从确定竞选策略到线下政治动员，无一不是由数据所驱动的。而作为一种政治资源，大数据也涉及“谁得到、何时得到以及如何得到”等核心问题。大数据既可以为政治候选人提供精准捕获选民的有效工具，也为污损政治对手提供了黑暗利器；与此同时，选民也从独立的政治权利主体降格为可计算可测量的数据单元集合。因此，必须重视大数据政治治理机制的建构与应用。

一、解码大数据的政治属性

当我们谈及大数据时，首先想到的是海量的数据，复杂的算法、专业化的数据公司、精准的微目标定位以及其在社交媒体、商业营销和政治竞选中的广泛应用。伴随着信息技术的发展和社交媒体的普及，大数据已经成为当前数字时代的重要标志。正如科特等人所提出的，从历史上看，从来没有哪个时代的国家包括君主国、王国、帝国，以及政府或企业掌握过如此细致、即时、多样和详细的个人数据。现在几乎所有设备都已连接到互联网，都会生成有关交互、交易和移动的大量数据。政府和企业开始通过互联网收集、检索、记录、存储、分析以及呈现人们在互联网上的数据，包括谁与谁沟通、谁去哪里、谁说什么，以及其他数据［2］。早在2015年，已有研究发现，所有数据的95％是在过去两年中创建的；数据每两年翻一番；智能手机的数量即将接近世界人口的总数；五年内，将有500亿智能连接设备；目前，只有不到1％的数据被分析或使用过［3］。伴随着社交媒体的普及和应用，数据的生成数量爆发性增长。而数据只有经过数据化处理之后才会成为有价值、可利用的数据资源。所谓数据化，就是将生活转化为数据，然后将这些数据重构成有价值和可观察的节点的技术过程，也就是从我们的语言、行为、关系、位置、身体、基础设施和我们生活的自然环境中获得数据资源的过程。数据化的呈现可以了解我们的想法、感受、态度、去向、做什么、与谁互动、听什么、读什么、喜欢什么、喜欢谁等［4］。

实际上，大数据不仅仅是存储于计算机、固态设备和云端的文档中，它还具有鲜明的政治属性。科特等人认为，大数据的政治属性体现在以下三个层面。其一，大数据的政治性就像身份、身体、性别、性取向、种族和民族所具有的政治属性一样，是作为有关生活经验的意义、解释和分类的斗争场域。其二，大数据的政治性就像生产、分配和消费循环所具有的政治属性一样，访问、控制和代理数据的场域由于非对称权力关系（含数据生产关系）而被非均衡地分配。其三，大数据的政治性就像竞选战略中的数据分析以及斯诺登的爆料那样，大数据正在重塑当代政治［5］。大数据的政治属性还在于进一步提升了对日常生活监测的准确客观性。任何政治计算都必须同等地考虑到数据的重要性，以及指导其过程的逻辑和运用这一工具的实践。数据的政治属性集中体现在它作为一种政治资源的属性，相应地，它也涉及“谁得到、何时得到以及如何得到”等核心问题。对于政党组织和政治精英而言，获得政治大数据，就意味着获得了更多的选民政治偏好信息，可以基于这些偏好进行更为精准的政治动员，也由此获得更多的政治竞争优势。

数据作为一种政治资源，意味着数据的收集、存储、检索、分析、呈现、分配和使用都会涉及主体权益，进而也形成一系列政治实践。比戈等人提出，谁拥有、分发、出售、访问、使用、挪用、修改和重新定义数据，谁就会成为争取数据权利的斗争对象［6］。这些斗争表现在许多方面，包括数据主体如何通过网络表达行使和主张这种权利，如何通过与数字设备平台进行通信、参与和共享来实现权利主张，如何创新数据实践来挑战和颠覆国家和公司的数据权利，以及如何通过法律和监管机制来为自身权利而斗争［7］。上述问题表明，数据政治关注的主要是数据收集及其应用的政治斗争，包括国家、政党、社交媒体巨头、数据公司以及围绕公民个体数据的获取、分析、使用和由此发生的关系；数据政治还关注数据如何生成新的权力关系和政治形式，以及如何将数据所表述的对象和主题变为现实。比如，由于数据收集和分析能力差异所造成政党之间的选票差距；专业化的政治数据公司通过数据挖掘和微目标定位，将政治广告更精准地投向特定的选民群体，进而左右着政治投票的结果。

作为政治资源的大数据几乎可以覆盖接入互联网的每一个人，因此重构了国家和公民间的关系。在大数据时代，社交媒体广泛应用于人们的社会交往、商业活动和政治参与，由此产生了海量的数据。这些数据成为辨别用户政治偏好的重要来源，更好地收集、挖掘和应用这些数据也是政党获得选举优势的关键密码。数据应用对于现代民主的影响在美国大选和英国公投中得到了充分体现，使用大数据制作个性化政治广告以影响投票的方式也成为一种现实手段。例如，美国亿万富翁罗伯特·默瑟（Robert Mercer）是剑桥分析数据公司的股权持有者之一，而默瑟恰好是英国独立党前领导人奈杰尔·法拉奇（Nigel Farage）的朋友。该公司使用“心理分析”法，通过算法技术在Facebook中收集到大量用户数据，分析用户在社交媒体上的个人信息和互动路径，以及他们的心理特征和态度倾向，从而预测他们的选举偏好，并且在其个人的页面上推送特定类型的广告和信息，以影响他们的观点和行动，此类营销活动影响了英国公投和美国选举结果。在这样的活动中，利益集团和媒体联盟生成引诱信息、虚假信息，利用社交媒体机器人创建虚假在线账户营造了政治支持的假象［8］。可以说，数据生产不仅是一种社会行为，也是一种政治行为。数据重塑了社会关系，也改变了政治民主。

二、大数据政治的类型及获取来源

数字时代的政治活动越来越依赖于数据以及在数据基础上的政治计算，因此也被称之为“数据驱动”（data-driven）的政治。由于西方国家的政治运行机制以竞争性选举为核心，能否获得竞选胜利决定着政党和政治精英的政治命运，也决定着政治运行的基本逻辑。围绕选举而进行的数据收集、分析、处理以及应用，成为西方国家大数据政治最为主要的组成部分。竞选活动的开展需要得知关于公民、志愿者和捐赠者的准确联系信息；期望掌握公民参与特定竞选支持活动的准确数据，包括捐款、志愿服务、参加集会、签署请愿书，或者在民调时表达对候选人或议题的支持情况［9］。而这些数据从何而来，用于何处，如何获取，是开展政治活动特别是政治竞选的重要前提。

（一）大数据政治的多重来源

数字时代的到来，使得大数据政治的获取方式和渠道日趋多元化，不再局限于传统的选民登记而生成的官方数据。社交媒体数据、学术调查研究数据、商业交易数据等也成为政治数据的主要来源。多米特指出，政治数据的收集来自以下几种类型。一是“个人透露的免费数据”，指的是通过官方记录或个人直接向竞选活动透露的公开性数据，包括但不限于由谁登记投票、选民的出生日期、地址和投票记录的信息等，还有特定选民登记的党派偏好数据。官方竞选活动可以免费获得这些信息，公民通常也会被法律要求披露这些信息。此外，个人还会通过选民拉票、问卷调查等形式直接向竞选活动透露有关个人偏好数据。二是“免费推断的数据”，这些数据是基于免费提供的初始信息，但生成于推断。比如，政党拉票人经常通过推演来获得关于种族、年龄、性别和政党支持程度的数据，或是从请愿书中收集的信息用来推断个人更广泛的利益和支持偏好。三是付费购买的政治数据，包括“个人透露的购买数据”和“购买的推断数据”。前者指当事人购买未直接向外界公开披露但提供给其他行为者的数据，这些数据包括社交媒体数据以及杂志订阅列表等数据。后者通常由营利和非营利机构使用民调数据、商业报告以及通过社交媒体平台完成的模型化数据，在此基础上对个人偏好进行推断［10］。除此之外，还有潜在数据和用户生成数据。潜在数据源于人们在日常生活中的行为印记，比如金融交易、订阅杂志、信用卡消费等；用户生成数据是指出于各种目的在网上进行的互动所留下的痕迹，比如在社交媒体中的聊天记录、参与线上政治讨论等［11］。

（二）大数据政治用于何处

从最近几届美国总统大选的大数据应用情况来看，上述类型的数据都得到了参与政治竞选政党的高度重视。民主党全国委员会（DNC）和共和党全国委员会（RNC）维护着全国选民数据库，其中，民主党数据库名为Vote Builder；共和党数据库名为Voter Vault，并且向总统候选人、州政党和地方候选人提供数据库的使用权限。虽然政党和政治候选人可以免费获得登记选民的完整名单及相关数据，但许多政党除了组建自己的数据分析团队之外，还雇用了专业数据公司。这些专业数据公司从事各种数据清理活动，识别重复的记录、不正确的地址、已故选民和换了住所的选民；它们还能够定位人口普查地理位置中的住址，并将选民基本信息、商业记录以及其他数据来源进行匹配，从而提高使用登记数据的效率［12］。比如，Catist是一家政治数据供应商，为工会、政治候选人、其他组织团体和非营利性组织提供汇编；维护全国范围内的选民注册、人口统计和其他政治数据的服务。他们利用这些数据建立预测性分数机制，帮助客户分析选民，以便更有效地确定选民的活动目标。Catist客户就包括2004年克里竞选团队和2008年奥巴马竞选团队［13］。

（三）大数据政治如何生成

在2012年的美国大选中，奥巴马投入了2亿美金用于选民数据的抓取与分析，并强调大数据是“未来石油”般的存在。奥巴马的团队建立了四个投票数据流用于分析来自关键州的选民特征，这个庞大的数据库不仅记录了选民的政治态度和投票历史，还使用统计模型对选民进行智能分类和行为预测。同时，这些数据还有助于更加精准地购买和投放广告。其团队收集各种来自志愿者信息、社交媒体平台、门户网站等非结构化数据，并整合了从各种渠道收集的数据，以创建一个综合的选民数据库。这个数据库被用于精确定位选民，推广他们感兴趣的议题和营销策略。该数据库对人群的分类不再是简单的人口统计学变量如性别，或者社会学变量如社会经济地位等，而是包含选民的兴趣爱好、购物记录、社交活动、投票经历、慈善捐赠等更加个性化的信息。

在2016年的大选中，特朗普也采取了类似做法。一方面，特朗普组建专门的数据运营团队，包括数据分析师、数字营销人员、软件工程师和网络撰稿人以及媒体运营者等专业人员。该团队将采集到的具有“特朗普支持者”特征的人名、电子邮件和电话号码上传到Facebook的后台，然后利用Facebook的“客户列表中的自定义受众”功能来匹配这些真实的人与他们的虚拟Facebook个人资料，再通过Facebook的“受众群定位选项”功能，根据用户在Facebook中的个人信息、参与或感兴趣的活动，了解他们的需求、偏好、习惯和行为，并针对这些用户设计和执行宣传策略。随后，利用Facebook“类似受众”功能扩展特朗普的目标Facebook用户群，自动搜索平台中的其他用户，将具有“特朗普支持者”潜在特征的人拉拢于旗下。最后，利用Facebook的“品牌提升”调查功能来衡量广告的成功与否。另一方面，特朗普的竞选团队还建立了专门的数据库——阿拉莫项目（Project Alamo）数据库。该数据库包含美国2.2亿人的身份体征，以及每个人约有4000至5000个有关在线和离线生活的个人数据点。数据库还包括大量的外部数据，如选民登记记录、枪支持有记录、信用卡消费记录和互联网账户身份，这些数据是从Facebook的营销合作伙伴Experian PLC、Datalogix、Epsilon和Acxiom Corporation等公司购买所得［14］。

在以竞争性选举为底色的西方国家政治过程中，大数据政治集中体现为选举大数据，即围绕政治竞选而收集的关于选民与影响选举的政策偏好数据。如果说传统意义上选举数据的收集主要依赖于选民数据库和民意调查，那么在社交媒体时代这一数据得到了极大扩展。现代政党和政治候选人通过免费获取或购买的形式，大量收集选民日常的商业消费数据、个人爱好数据、社交媒体数据等，而这些数据都被转化成为选举大数据。

三、大数据政治的模型建构

建立庞大的选民数据库只是将大数据应用于政治竞选的第一步，如何分析、处理和使用数据才是让数据发挥作用的关键所在。所谓的模型建构就是在基础数据和目标信息之间创建计算关系，进行数据分析进而推断新信息的行为。大数据技术的应用和社交媒体的建立，生成了大量网络用户制造的数据流。这些数据与计算技术相结合进行建模所获得的新信息，远远超过传统方法所收集的选民信息范围，从而更为即时精准地对选民进行政治画像，进而提高数据利用的效率［15］。使用机器学习进行数据分析是常用的算法技术，其能通过历史经验自动学习并改进性能，识别和推断数据应用模式，并使用这些模式做出预测或决策，这一过程也正是大数据政治建模的过程。

（一）初始形态：简单运算型

大数据在政治选举中的应用始于2008年美国总统选举，此时的模型架构更多的是基于采集的初始数据进行快速、简单的整理和筛选。在2008年的美国总统选举中，奥巴马竞选团队根据投票和支持奥巴马的可能性给每一位选民分配了对应分数。在每一个关键州，竞选团队的呼叫中心每周都会进行5000到1万次的简短采访以及1000次长时段采访，以便快速评估选民的投票偏好。为了得出个人层面的预测，算法根据这些采访意见和竞选活动所收集到的每位选民数据点确定模型。在这一模型中，每个选民的数据点多达1000个变量，这些变量来自选民登记记录、消费者数据仓库和过去的竞选联系人。随后，志愿者会通过登门或电话与特定选民进行脚本对话；这些互动产生的数据，会再回流到竞选团队的服务器中以完善模型［16］。

（二）进阶形态：复杂计算型

随着数据流动和互动的加速行进，在2012年大选期间，奥巴马的竞选团队根据所掌握的数据开发了复杂的“投票率”模型，给每个潜在选民设置从0（不会投票）到100（肯定会投票）的打分排序。这一做法让竞选动员活动更为高效和聚焦，其拉票范围主要集中于已经或有可能是奥巴马支持者的选民，而不是花费大量精力说服最终不会投票的选民。根据这一模型，奥巴马的基层竞选工作人员在一些关键州，能够深入共和党地盘单独挑选选民，他们在其他共和党人居住的郊区将这些选民塑造为可能的民主党人，打破了选区对选民目标的锁定限制［17］。建模的质量高低和功能强弱有赖于所能够购买和处理的数据多少。在2012年的美国总统选举中，奥巴马的竞选团队针对政治态度模糊的选民建立了“说服模型”。他们使用了大量的数据来源，包括社交媒体、在线调查、电话调查和邮寄调查等，将这些数据与选民档案和选举历史数据结合起来，来预测选民的态度和行为，包括是否会投票以及可能支持哪个候选人。奥巴马的首席数据科学家拉伊德·加尼曾表示：“模型会告诉我们，我们能为奥巴马赢得哪些选民，以及我们应该避免接触哪些选民。”［18］奥巴马竞选团队运用这一模型，预测了数百万摇摆选民的投票意愿情况。

（三）高级形态：自主处理型

伴随社交媒体的兴起及其在社会成员中的普及和渗透，包括个人信息、好友网络、社交平台上的阅读评论等记录在内的交互数据开始大量生成。与此同时，算法的加入和结合，使得高精度模拟个体选民偏好以助推政治竞选活动成为现实，甚至不需要直接向选民提出任何问题便可以自主生成数据。剑桥大学科辛斯基（Michal Kosinski）等研究者仅仅通过Facebook的“喜欢”就可以准确预测个人属性，包括种族、宗教、性取向、政治观点和智力水平、幸福感水平、成瘾物质的使用、家庭情况等。其中，通过使用Facebook“喜欢”可以预测Facebook用户是否异性恋的准确率为88%，种族的准确率达到95%，政党背景的准确率是85%。换言之，只需访问一小部分Facebook数据，通过计算模型进行处理，就可以大概划分共和党和民主党，而不需要查看选民登记文件、金融交易或组织成员资格等数据，并且，这类模型建构还允许访问传统数据库无法触及的心理特征，诸如“开放”“内向”或是“神经质”等人格特征。研究人员不需要建立互动关系，就能像心理学家管理标准化的、经过验证的工具一样精确地模拟心理特征［19］。借助于模型建构，社交媒体平台上的数据可以转化成非常精准的选民数据，进而为政党进行选民动员提供了重要依据。

剑桥大学心理学教授科根（Aleksandr Kogan）进一步拓展了科辛斯基等人通过Facebook数据所绘制的“心理图谱”。科根创立的公司Global Science Research与剑桥分析公司签署了协议，以收集美国选民的Facebook数据，并利用它了解人们的性格类型，从而进行政治广告宣传。2014年，科根在Facebook创建了名为“这就是你的数字生活”（This is your digital life）的应用程序，对用户进行个性测验。在Facebook用户下载应用程序后，该程序便开始收集该用户的个人信息，包括个人资料及Facebook行动轨迹（例如，“喜欢”哪些内容）。该应用程序不仅收集了使用该应用程序的用户数据，还收集了这些用户在Facebook中人际关系网的数据。最初大约有30万人下载了该应用程序，但由于该应用还收集了这些用户的朋友信息，他们的数据隐私已设置为允许该应用访问，所以，实际收集了多达8700万美国人的Facebook数据，并称其目的为研究使用［20］。但事实上，科根将上述数据提供给剑桥分析公司，该公司使用这些数据来确定选民的人格特质和行为，以此来达到商业目的［21］。

数据本身没有价值，只有经过处理的数据方有价值。正如哈佛大学政治学系教授加里·金（Gary King）所指出的，“大数据实际与数据无关，绝大多数数据分析仅涉及相对较小的数据集，或较大数据集的小样本。如果不能增加相应的数据处理能力，就一味创建无法使用的数据是有害的——因为这样做更昂贵、更耗时、更分散注意力。创新的统计方法、新颖的科学技术和原创性理论的结合对于大数据的处理至关重要”［22］。数据分析模型是基于计算技术对于初始数据的处理，进而便于应用的建构过程，面对日趋繁杂的政治大数据，提升数据分析和处理能力是必然之势。

四、微目标定位与大数据政治应用

（一）微目标定位：大数据政治的应用实践

政治数据经过收集分析和建模处理之后即面临着如何应用的问题，政治微目标定位（Political micro-targeting）为此提供了选项。其是指使用不同的通信方式（邮件、电话、拉票、直邮和社交媒体广告等）与潜在选民沟通并建立关系，通过数据分析向选民中的子群体或个体传递量身定做的信息［23］。微目标定位原先是一种商业直销行为，指的是为目标客户提供活动信息并做出战略决策的过程。算法模型为复杂活动中的决策提供信息，其中，模型建构和微观目标定位常常是联系在一起的。地理定位是最古老的方法，它根据对过去选举的选区结果进行分析，以确定和预测更有利的选区。另一种方法是针对具有共同人口特征的群体，如收入、宗教或职业，通过一系列基于人口统计的可靠数据来建立算法模型，以区分目标选民群体的个体偏好。复杂的目标定位方法是基于对选民的个人态度、行为和价值观的分析，将其与投票决定进行一致性假设，使用模型建构和微目标定位来提高有限资源的竞选活动以及与选民沟通的效率［24］。随着新技术的介入和生长，政治微目标定位逐渐进入网络空间。如今，在线政治微观定位（Online political micro-targeting）已成为美国竞选的重要组成部分［25］。其指向的是使用数字技术采集、分析大数据信息，进而在恰当的时间和合适的线上渠道投放迎合受众偏好的政治广告，它代表了大数据时代政治实践活动的一种新工具性手段。

（二）微目标定位的政治演绎

收集大数据政治的最终目的是为了通过加工进行更有效的竞选宣传，更精准地动员选民投票或者捐款，从而转化为政治竞选的优势。在2012年的美国总统大选中，奥巴马竞选团队建立了独角鲸（Narwhal）数据库，以协助解决候选人及其团队访问多个数据库对潜在选民进行定位。该数据库为使用者设置了运行接口，以访问数据库并提取有关选民的相关数据。在独角鲸数据库的运作下，奥巴马的竞选团队还可以更为精准地定位电视观众。他们根据观众数据库中选民的行为，制定了政治倾向的类别。基于数据分析，他们在TV Land购买了广告空间，重播“我爱露西”（I Love Lucy）以及深夜喜剧节目和ESPN的节目来吸引选民［26］。如此，竞选团队可以不必购买昂贵的广播电视新闻和有线新闻频道，而是通过这些广告来争取犹豫不决的选民，在减少成本投入的同时也提升了回报效益。

独角鲸数据库还可以为竞选活动的所有应用程序提供单个共享数据存储接口，从而将现有应用程序集成到该系统中，也可以快速开发新应用程序，比如仪表盘（Dashboard）程序。仪表盘是虚拟现场办公室的应用程序，可帮助志愿者与志愿者、志愿者与选民之间进行交流和协作。该程序允许选民将自己指定为团队的领导者或成员，可以组织会议，通过Web界面拨打电话，自动存储信用卡信息，与团队中的其他人进行在线讨论，为自己和团队创建目标并跟踪这些目标何时实现来做出贡献。仪表盘还提供了“小组”功能，人们可以在不考虑位置的情况下加入与政策领域、种族和族裔、职业以及其他类别相关联的相似性小组，还有电话银行工具，以及筹款工具，使人们可以为自己设定筹款目标。用仪表盘的支持者可以主动成为组织者，或者让自己根据政策利益而参与其他组织的工作［27］。

在2016年美国总统选举当中，政治微目标定位也得到了充分的应用。与奥巴马专注于摇摆选民的数字策略不同，特朗普竞选活动集中在确定哪些政策最适合分段式的选民群体。特朗普喜欢通过社交媒体向广大受众明确表达自己的观点，这意味着可以实时监控民众对其观点的积极或负面反应，并且将社交媒体上对某些消息反响良好的用户信息与共和党数据库中的选民信息相匹配。此外，特朗普竞选团队还定向散布虚假消息。研究发现，支持特朗普的假新闻被分享的频率是支持希拉里的假新闻的4倍，平均1.2%的美国人看到了假新闻标题。这些虚假新闻来自官方竞选机构、非官方结盟的利益集团、友好的媒体组织和网站、外国演员，甚至候选人本人［28］。通过宣传虚假新闻，使之与讽刺、逐利、阴谋论相重叠，故意利用错误信息来影响对某个问题或对候选人的态度。比如，特朗普竞选团队在海地向当地居民宣传：2010年大地震之后，克林顿基金会是如何行动不力甚至“趁火打劫”的，以此截断他们支持希拉里的念头。再如，为了让希拉里的潜在支持者放弃投票，在正式投票前几周，Facebook上的“暗帖”（只有符合具体特征的用户才会看到）开始泛滥，一些黑人用户就会看到这样的一些视频：在视频中，希拉里称黑人男性为“掠夺者”［29］。特朗普的数字军团的定向宣传多数是投放在社交媒体或数字电视上的，以有针对性的方式加以传播，很少展示在主流媒体上。竞选期间，特朗普竞选团队每天向10万名目标选民发送量身定制的消息。结果是，希拉里团队基于人口统计学对宣传效果进行预估，误以为自己占了上风。

在剑桥分析公司数据基础之上，特朗普的竞选团队将政治微目标定位推进到一个新的高度。2016年7月，特朗普的基层竞选工作者配备了一款评估应用软件，该应用可以收集并分析某户居民的个性特征和政治立场，并根据对特朗普宣传的接受程度进行评定，对于得分较高的居民才会展开线下拉票。拉票人员配有对话指南，按照居民的性格类型进行有针对性宣传，再将反应回馈给应用程序，这些新数据又流回特朗普竞选团队的操作界面上［30］。尽管2012年竞选期间奥巴马的仪表盘程序也与此相似，但是没有使用心理测评功能。剑桥分析公司将美国人口分为32种人格类型，并且关注17个主要州，向特朗普竞选团队展示哪些信息效果最好以及在什么地方的效果最好。该数据分析结果推动竞选团队在竞选最后几周将关注重点放在密歇根州和威斯康星州。在特朗普与希拉里的第三次总统辩论中，特朗普的竞选团队利用大数据测试了175，000种不同的广告变体，在标题、颜色以及照片或视频等微观细节上作出区分，以便用最佳的心理分析法确定广告接收者，目标范围可以具体到村庄、公寓甚至个人。正是基于上述行动的判断，剑桥分析公司负责人亚历山大·尼克斯指出：“特朗普发布的几乎每条消息都是数据驱动的。”［31］

（三）政治微目标定位的潜在风险

收集、处理、分析政治数据的结果是为了应用。如果说在传统意义上政党和政治候选人是通过报纸发文、电视辩论和巡回演讲来动员选民支持，那么在大数据时代，政治数据的分析结果以及在此基础上的政治微目标定位如定制化的社交媒体广告、虚假的网络新闻以及候选人在社交网站上的形象包装等，可几乎完全取代上述动员行动。政治微目标定位在精准预测选民偏好和政策优势的同时，也为政党和政治候选人进行选举动员提供了可靠的依据。后者通过这些数据制定更有针对性的竞选纲领，更聚焦于那些摇摆不定的目标选民，也更直接地向竞争对手进行政治攻击。政治大数据为政党和政治候选人赋予了更多的权力，作为政治权利主体的选民在其看来不过是可以计算、影响甚至操纵的数据集合单元。

古塔勒夫·勒庞（Gustave Le Bon）在其著作《乌合之众》中提出，个体的人是理性的，一旦到了集体里面，就丧失了理性，他们在群体中的智力水平被统一抹平，群体变成易受暗示、轻信、偏执、极端的“无意识”个体［32］。在群体中，个人意识会被擦抹，思想和行为也会趋同，此时，如果群体领袖十分了解每个人的内心需求，就可以达到向个体灌输思想以维护其政治利益的目的。定向广告正是通过掌握群体心理，针对特定受众进行广告投放的一种定制化策略。这种策略可以帮助投放者更精确地定位其目标受众，并提高广告投放的效果。首先，运用数据分析和社交媒体监测等手段获得目标受众的年龄、性别、兴趣、消费习惯等信息，接着根据目标受众的兴趣和需求，制定符合其需求的广告内容，并选择不同的广告投放方式和渠道，同时通过Google Analytics等网站分析工具来监测广告效果，最后根据数据进一步优化广告投放策略，以此在潜移默化中影响个体的政治态度。从这个过程来看，个体处于被动位置，群体领袖可以依据个人意志影响个体思维的呈现，导致个体原本的独立判断和选择能力被剥夺，也就失去了民主政治的根本价值导向，即由公众共同参与政治进程和国家建设的本质要求，很可能出现数据独裁或专制。

五、结论与讨论：大数据政治的反思与治理

信息通信技术的迭代发展特别是社交媒体的兴起，让大数据成为我们所处时代最突出的标志之一，并随之带来数据的政治属性问题，即“谁得到、何时得到以及如何得到”的问题。当前，大数据政治的来源非常广泛，涵盖政府公开数据、选民信息数据、商业交易数据、社交媒体数据、科学研究数据、自愿透露数据与间接推断数据、潜在数据和用户生成数据等。新的数据计算方法进一步加强了对上述数据的处理能力，能够处理用户生成的自然语言输出中包含的语义非结构化信息，而不单是已经结构化的数据；新的数据包工具可以使用社会网络分析等方法，通过结构镜头检查人类互动数据；庞大的数据规模已经允许我们进行曾经难以想象的相关性分析［33］。统计、分析和计算等数据科学的出现，并不仅仅是因为它们满足了我们的好奇心，也在于这些数据对于为了公共或私人利益而使用它们的对象和主体来说是有用的。

大数据的出现对于传统的政治行为、政治过程甚至政治制度产生了广泛且深入的影响。其中，最显著的变化体现在将政党与政党之间的竞争性选举，由原先广播、电视和报纸上的广告之争，转移到了幕后政治数据的收集、分析、处理与应用的能力之争。在大数据时代的政治行为者中，谁能够获得更多样的政治大数据，谁能够构建更有效的数据处理模型，谁能够实现更精准的定位微目标，就意味着在政治竞争中占据着更大的优势。

大数据在政治领域的应用已经越来越普遍，作为一种新生事物的流变，由其所产生的各类问题会随着发展进程而慢慢扩散，也可能会引发难以预测的“次生灾害”和不可估量的政治危机。因此，想要确保政治与数据的有机结合和良性互动，就必须加强对大数据政治的治理。

一是明确大数据政治应用的正确导向。大数据政治的应用关涉“谁得到”的重要问题，关涉数据被谁所拥有以及用于做什么。换言之，大数据政治的应用具有两个鲜明的取向：民主取向还是操纵取向？当政治数据用于更为科学的公共政策制定和更公平的政治参与时，我们可以说大数据政治具有鲜明的民主取向。当选民的数据用于为政治候选人获得竞选目的时，选民则从独立的政治权利主体降格为可计算测量的数据单元集合。在政治候选人眼中，选民是一个由各种信息汇集起来的“数据化个体”，是可以通过数据方法被计算、测量和影响的。在美国总统选举数据库的建立过程中，专业人员收集了大量选民信息，包括个人特征、政治捐款历史、在线社交活动和购物习惯等。数据专家对所有数据进行整合、清洗和处理，以生成一套全面的选民档案。接着利用先进的计算模型和数据分析技术，分析和预测选民的政治立场、投票可能性、政党归属和特定政策偏好等要素，并对选民进行分类和排名。这使得竞选政党能够制定更具针对性的政治营销和广告策略，通过电子邮件、电视和社交媒体等各种渠道来吸引选民的注意。在这一过程中，选民不过被看作是可以被计算、被测量和被操纵的“数字个体”。因此，必须坚持数据使用的正当性、合法性和导向性，维护价值理性和工具理性的相对平衡。

二是加强政治数据的管理规范。大数据时代的个体数据和个人隐私随时存在被侵犯的风险。各政党所掌握的选民数据，已经不限于选民的投票记录、家庭住址、通信方式、政策偏好，还囊括了杂志订阅、会员卡使用、采购消费、驾照、网络浏览、社交信息等。海量数据在聚合、传输、分发的过程中，极有可能被泄露和二次利用。例如，美国曾在2015年12月发生了一起关于1.91亿条投票记录被泄露的丑闻，这些信息包括选民姓名、出生日期、住址、电话号码、政治兴趣、选民派别等个人信息，对民众造成了巨大影响。因此，必须通过具有前瞻性的数据立法形式，规范哪些公民个人数据可以收集、哪些数据不可以收集、个体数据隐私如何保护等重要性问题。

三是加强大数据政治应用的技术治理。数据驱动的政治显然是一项技术密集型的政治实践，所有政治传播活动包括以数据为导向的目标，都受到部署它们的制度环境的影响。美国竞选活动的庞大财政资源、私营政治咨询部门、专业化的政治数据公司，以及可获得的选民数据信息，让美国成为大数据政治的前沿区域，其政治候选人可以使用当前最精致的数据驱动系统。相比之下，许多欧洲国家的政党财政资源较为有限，选举登记册所包含的有用信息并不多，而按照国际标准的数据保护法律也很严格。加强大数据政治应用的技术治理，就是要在制度设计和法律规范上约束数据公司的技术应用范围，要求其在合法合规的范围内使用数据。

四是推进大数据政治的合理利用。加快培育大数据研究机构和专业数据公司，组建计算机科学、政治学和新闻传播学等跨学科、跨院校的大数据政治研究团队，实时跟踪大数据的技术前沿和实践动态，并结合国情开展专题研究。加快构建大数据政治库，形成各类专题动态分析模型用于更好决策。由专门部门牵头，成立整合各类网上信息来源，如微博、微信、短信、门户网站浏览信息、网上发帖内容等，以及商业信息如购物网站信息，并与政府的政务信息进行整合比对、筛选和清洗，在此基础上形成区域、性别、年龄、职业、阶层、民族等各类政治数据。此类数据库可以为政府进行重要决策，提升应急能力和治理效能，提供基础性的科学数据支撑。

［参考文献］

［1］Brady H E. The Challenge of Big Data and Data Science［J］.Annual Review of Political Science， 2019，22（1）：297-323.

［2］［4］［5］Coté M，Gerbaudo P， Pybus J. Introduction.Politics of Big Data［J］.Digital Culture & Society，2016，2（2）： 5-16.

［3］Marr，B.Big Data：20 Mind-Boggling Facts Everyone Must Read［EB/OL］.http：//www.forbes.com/sites/bernardmarr/2015/09/30/big-data-20-mind-boggling-facts-everyone-must-read/.

［6］［8］Ruppert E，Isin E，Bigo D.Data Politics［J］.Big Data & Society，2017，4（2）： 1-7.

［7］Bigo D，Isin E，Ruppert E.Data Politics：Worlds， Subjects，Rights［M］.London：Taylor & Francis，2019：5-6.

［9］Nickerson D W，Rogers T.Political Campaigns and Big Data［J］.Journal of Economic Perspectives，2014，28（2）：51-74.

［10］Dommett K.Data-Driven Political Campaigns in Practice：Understanding and Regulating Diverse Data-Driven Campaigns［J］.Internet Policy Review，2019，8（4）：1-18.

［11］［17］［32］［33］Tufekci Z.Engineering the Public：Big Data，Surveillance and Computational Politics［J］.First Monday，2014，19（7）：1-11.

［12］［13］［15］Hersh E D.Hacking the Electorate：How Campaigns Perceive Voters［M］.Cambridge：Cambridge University Press，2015：67、67、67.

［14］Winston，Joel.How the Trump Campaign Built an Identity Data- Base and Used Facebook Ads to Win the Election.Medium： Startup Grind［EB/OL］.https：//medium.com/startup-grind/how-the-trump-campaign-built-an-identity-database-and-used-facebook-ads-to-win-the-election-4ff7d24269ac.

［16］Issenberg，S.How Obamas Team Used Big Data to Rally Voters.MIT Technology Review［EB/OL］.https：//www.technologyreview.com/2012/12/19/114510/how-obamas-team-used-big-data-to-rally-voters/.

［18］信息时报编辑部.大数据之于政治，水与舟？［N］. 信息时报， 2018-04-01.

［19］Kosinski M，Stillwell D，Graepel T.Private Traits and Attributes Are Predictable from Digital Records of Human Behavior［J］.Proceedings of the National Academy of Sciences，2013，110（15）：5802-5805.

［20］Bloomberg.Facebook Cambridge Analytica Scandal：10 Questions Answered［EB/OL］.https：//finance.yahoo.com/news/facebook-cambridge-analytica-scandal-10-183313744.html

［21］Issie Lapowsky.The Man Who Saw the Dangers of Cambridge Analytica Years Ago ［EB/OL］.https：//www.wired.com/story/the-man-who-saw-the-dangers-of-cambridge-analytica/.

［22］King G.Preface： Big Data Is not About the Data［J］.Computational Social Science：Discovery and Prediction，2016：vii-x.

［23］Bodó B，Helberger N，de Vreese C H.Political Micro-Targeting：A Manchurian Candidate or Just a Dark Horse？［J］.Internet Policy Review，2017，6（4）：1-13.

［24］Kruschinski S，Haller A.Restrictions on Data-Driven Political Micro-Targeting in Germany［J］.Internet Policy Review，2017，6（4）：1-23.

［25］Matthes J，Hirsch M，Stubenvoll M，et al.Understanding the Democratic Role of Perceived Online Political Micro-Targeting：Longitudinal Effects on Trust in Democracy and Political Interest［J］.Journal of Information Technology & Politics，2022，19（4）：435-448.

［26］Stromer-Galley J.Presidential Campaigning in the Internet Age［M］.Oxford ： Oxford University Press，2019：163.

［27］Bimber B.Digital Media in the Obama Campaigns of 2008 and 2012：Adaptation to the Personalized Political Communication Environment［J］.Journal of Information Technology & DPolitics，2014，11（2）：130-150.

［28］Persily N.The 2016 US Election：Can Democracy Survive the Internet？［J］.Journal of Democracy，2017，28（2）：63-76.

［29］［30］Hannes Grassegger & Mikael Krogerus.The Data That Turned the World Upside Down［EB/OL］.https：//motherboard.vice.com/en_us/article/big-data-cambridge-analytica-brexit-trump.

［31］Adrianne Jeffries.How Hyper-Targeted Psychometric Data May Have Helped Trump Win［EB/OL］.https：//theoutline.com/post/969/did-trump-win-psychometrics-data-cambridge-analytica？zd=1&zi=vemnysm4.

［32］古斯塔夫·勒庞.乌合之众：群体心理研究［M］.段鑫星，译.北京：人民邮电出版社，2007：11-51.

［责任编辑：薛瑞汉］