计算社会学的基础问题及未来挑战

2022-02-18范晓光刘金龙

西安交通大学学报（社会科学版） 2022年1期

范晓光,刘金龙

1.浙江大学社会学系,浙江杭州 310058;2.中国社会科学院大学社会学系,北京 102488

计算社会学是计算社会科学与社会学的学科交叉,是一门新兴学科。社会学作为一门独立的学科经历了近200年的发展,已经形成完善的学科体系,但是其倡导的实证主义在宏观解释与微观解释、数据驱动与理论驱动、相关分析与因果推断、信度与效度等方面长期存在内在“张力”[1]。计算社会科学是对社会科学实证主义传统的推进,借助于计算机和信息通信技术(ICT)的迭代更新,其研究方法和研究设计都有别于传统范式,研究议题越来越突破传统的学科界限。面对作为典型的复杂性系统的社会,计算社会学具有的学科交叉、基础理论和应用对策并行等特质,使其在回应实证主义面临的诸多困境时具有明显优势。

一、实证社会科学面临的不确定性

实证社会科学是指利用实际调查或访谈资料来验证理论假设或者构建理论的研究范式,它有别于纯理论思辨式的传统社会科学[2]。社会学在实证社会科学的发展早期发挥了举足轻重的作用。孔德提出的社会物理学力图用科学的方法研究人类社会的构想,在实证社会科学的发展历史中遇到了许多困难。如果将社会科学研究看成研究主体、研究客体和研究过程所构成的三个有机整体,则可以更清晰地理解其面临的不确定性。

首先,理解并揭示社会现象发生和发展的因果关系是实证社会科学一直追求的,但社会复杂性所带来的不确定性使得实现上述目标的难度大大增加。在复杂系统内,多元个体在某一框架之内进行互动,行为会彼此影响,并且个体具有适应性和学习能力,最终引起特定的功能涌现[3]。正是由于社会系统的复杂性,并不存在像“万有引力”那样的普遍规律,加之系统成员具有自主选择和创造的能力,使得实证研究发现在一般化上总是不甚理想。

其次,实证社会科学已经发展出完备的理论和方法工具箱,但是研究者在方法论的认同和运用上的偏好都会带来实证发现的不确定性。社会科学家有一种自然而然的研究倾向,即尝试通过理解行动者的意图、信念、场景和机遇,去解释他们的行动及后果[4]。如在社会分层与流动领域,衡量社会不平等的取向包括阶梯型和关系型两种,而在如何恰当地使用不同的分层框架上却长期缺乏共识。之所以产生以上分歧,很难简单归因于研究对象本身的差异,而是要充分考虑作为行动者的研究者个体偏好。在田野调查中,不同的研究者即使从访谈对象那里获得完全相同的信息,在“裁剪”的过程中仍然无法避免出现理解偏差;在定量研究中,虽然开放性、透明性和标准化程度相对更高,但这并不意味着研究者偏好对实证研究的“干预”更少。

最后,研究设计是实证社会科学区别于思辩哲学的关键环节,当然也是不确定性的主要生成器。一方面表现为模型设定起点的不确定性。理论导向的实证研究尤为强调理论对模型建立的指导,通常采取的策略是以所对话的理论为起点。要探究理论之核心变量对因变量的影响模式,必须排除若干竞争性解释,这在模型上主要通过引入控制变量来实现。例如,一个模型有10个控制变量,那么最多存在1 024(210)种可能的变量组合,尽管可以用多模型分析的计算框架(computational framework for multi-model analysis)穷尽这些组合后的结果,以获得核心变量关联模式的动态变化[5],但如何解读这些发现也并非易事。此外,社会是一个开放系统,有些看似外生性的因素仍然可能影响我们试图解释的现象。另一方面,模型假定、数据构成、操作化测量、事后因果框架等都导致模型输出结果的不确定性。任何模型对资料(定性或定量)构成都有相应的前提假定,如总体分布、代表性(包括类型)、信度、效度等,研究者不得不通过“改造”资料以减少实际研究中遇到的前提假设违背困境。同时,经验观察的重要假设是研究者和观察者对研究的“干扰”是可控的,但现实中不仅极易违背,而且较难评估。尤其是在“默顿系统”中,反身性所带来的不确定性凸显[6]。此外,被广泛使用的事后因果分析框架很大程度上也制约了因果推断的实际预测力。

总之,研究结果的不确定性是实证社会科学的基本特征之一,如何消解其对社会科学的约束一直是个棘手的问题。数据密集型(data-intensive)科学范式的到来,为实证社会科学提供了许多变革的机遇。由此,笔者认为有必要将该问题置于计算社会科学的发展脉络中。

二、计算社会科学的主要传统

计算社会科学能够积极应对实证社会科学的不确定性。其中,基于模拟社会系统或过程的社会仿真可以克服传统模型的线性思维和化约主义,对于复杂性有着更科学的探究;大数据分析通过对海量数据的挖掘推动知识生产,减少了模型设定、测量和结论泛化的不确定性。

(一)社会仿真:生成解释的传统

生成解释(generative explanation)是通过建立有关被研究社会系统的模型,并从模型的运行过程和结果中获得对研究对象的理解[7]。该传统主要通过对主体的行动及其相互作用规则的设定,从演化过程中获得新的机制解释。“复杂性”是生成解释背后的认识论基础,它将现代物理和生物学结合,认为社会永远处于时间的边缘,结构时刻在组合、衰败和发展[8]。

社会仿真(simulation)是生成解释的主要方法,它始于20世纪50年代,在研究社会的复杂性上远远超越了其他多数研究方法。该方法通过建立一个模拟社会系统或过程的计算机模型,即建立一个能够表征现实世界的“人工社会”,开展各种社会科学分析。仿真模型能够容纳具有适应性的主体,实现主体之间的交互,展现了从微观个体行为到宏观系统状况的“涌现”。它能够将行动主体的异质性、自我适应性、有限理性、交互性等重要因素重新纳入研究框架之中,克服多数模型的线性外推思维、无法反映宏观—微观线性内在联系、缺乏对“活”系统成员的描述等不足[9],自下而上地构建一个逼近真实的人工社会,以揭示事件发生的条件、概率、限度以及多种可能选择的策略。社会仿真之所以有效,很大程度上是因为它与真实人类社会的多功能性、高维度、随机性、非线性、不完全性等直接相关。除了完全基于理论的与真实社会无法直接对接的方式,社会仿真还有注入真实数据对现实对接的方式。例如,针对恐怖分子在美国华盛顿市区引爆一颗1万吨当量的小型原子弹,导致辐射开始在整个城市扩散的问题,很难想象科学家可以采用社会仿真完成这项传统方法几乎不可能完成的研究。

总体而言,社会仿真经历了从宏观仿真到微观仿真,再到基于主体仿真的发展历程,主要分为面向变量模型、面向对象模型和混合社会模型等类型。其中,基于行动者的模型(agent-based modelling,ABM)属于面向对象建模,为研究者提供了创建、分析和试验由在环境中互动的行动者构成的模型[10]。ABM擅长模拟微观行动者的互动,进而对其“涌现”的有关社会后果进行分析,解释已经被观察到的宏观现象或者预测变化趋势。经典的隔离模型(segregation model)假定个体都希望1/3以上的邻居和自己同属一个种族,如果同种族比例小于1/3才会搬走,否则就留在原地不动。该过程利用元胞自动机(后来逐步改进为ABM)模拟个体搬家的过程,直到无人搬家为止,结果表明即使个体与不同种族邻居相处很宽容(只有当同种族少于1/3才离开),仍然可能出现种族隔离的宏观后果[11]。社会仿真研究不仅包括投票交易、创新扩散、谣言传播、组织决策、广义交换形成等集体行动议题,也包括社会分化、制度起源与维持等有关结构的议题[12]。虽然仿真在物理学、生物学、计算机科学、网络科学等领域应用更为广泛,但不可否认的是,以社会学为代表的社会科学在该传统的推广和应用上发挥了重要作用。

(二)大数据分析:数据挖掘的传统

数据挖掘传统主要基于互联网兴起在线实时所产生的大数据,利用数据科学和计算科学的前沿技术做数据挖掘,进行理论检验和社会预测。有别于社会仿真,该传统的数据资料来源更加多元、时空跨度更大、体量更大、形式多样,由此为计算社会科学的发展提供了难得的机遇。大数据最早是由道格·莱尼设想的,他提出了一个著名的“三V”模型(容量大、高速增长、种类繁多),用来应对日益庞杂的三维数据管理[13]。目前,大数据已经呈现出痕迹数据汇集,存储和运用并行化、在线化、生活化和社会化的新样态[14],它对社会科学的最大意义是“从无到有”。与传统主要通过收集观察、抽样调查的数据不同,大数据是在弱选择性观察、弱设计、弱标准化、弱目的性的前提下自动存取的非结构化的痕迹数据。虽然无法回避算法干扰、数据漂移、代表性、个人隐私等方面的困扰,但它还是为社会科学家打开了一扇理解人类社会的新大门。

同时,大数据在方法论层面为传统社会科学研究注入了新的活力,即来自计算科学的数据驱动。如果说传统的实证社会科学倡导以理论为研究起点,那么大数据为我们提供了另外一种可能,即基于对海量数据的挖掘去探寻突破人类既有知识结构的新发现,并在此技术上发现和建构新理论和新理解[15]。这种方法论上的革新,促使演绎和归纳更为密切地结合,也使得计算科学、数据科学和社会科学的联系更为紧密。由于该传统的数据生产多来自互联网,大量研究都围绕着由互联网平台衍生的舆论传播、情感计算和文化生产等议题展开。此外,数据挖掘与数据科学和计算科学结合,也使得计算社会科学可以开展时间和空间跨度更大的人文和历史研究。

数据挖掘无论在数据属性、分析方法和研究目标上都与实证社会科学存在明显不同。该传统的分析对象主要是以文本、图片、视频等为形式的非结构化数据,大部分并不是为研究者而设计。虽然它们不是全数据,在代表性上存在一定的偏差,但不容否认的是其维度更高、结构更复杂。也正是因为数据挖掘的分析对象有别于传统数据,研究者往往需要借助自然语言处理(包括情感分析、潜在狄利克雷模型等)、图像识别、深度学习等发端于计算科学的分析工具。在研究目标上,大数据分析将预测置于核心位置,有别于实证社会科学强调因果解释的传统。由于大数据不再局限于“观察”,全息记录不会对非直接关联变量进行过早筛选,因此恰恰可以为预测提供更全面的基础信息。加之机器学习强调偏差与方差的权衡(bias-variance tradeoff),也使得模型预测的稳健性得到显著提升。

三、计算社会学的基础问题

(一)概念界定

计算社会学是计算社会科学的分支。要对计算社会学进行概念界定,首先得从什么是计算社会科学入手。计算社会科学的定义有多种,不同学科取向的学者所采取的方式也不尽相同。有学者认为计算社会科学是“以计算为媒介,以不同规模的社会团体为着眼点,对社会学领域开展的跨学科研究,其研究对象小至个体行动者,大到社会群体”的新领域[16]。有学者提出,计算社会科学是对复杂的,通常是大规模人类行为数据计算方法的开发和应用[17]。国内学者指出,计算社会科学的分支学科主要包括计算社会学、计算政治学、计算经济学、计算传播学和计算法学及计算(运筹)管理学等[18],其核心内容是关于人类社会发展的各类信息的自动化处理,专注于透过行为分析、媒体分析、网络分析和对现实社会的典型化事实分析,借助代码、算法、程序、建模、模拟等数字化手段,更深入地观察探讨个体行为特征与社会运行规律及二者的互动关系。

按照《布莱克威尔社会学百科全书》的定义,计算社会学是“利用计算机模拟和人工智能去发展理论和开展实证研究的新社会学路径”[19]。大数据时代,新计算社会学被提出,主要是指“利用大数据新方法来获取数据与分析数据,从而研究与解释社会的一种新的方式或思维方式”[20]。本文认为,计算社会学是以计算科学、数据科学等为主要分析工具,将非介入方式收集的大规模数据与传统数据集相结合,挖掘人类社会和社会互动的规则和模式,用以解释人类行为与社会运行规律的科学。毋庸讳言,计算社会学的定义与许多传统的学科界定形式不同,给人的印象是边界不够明晰,理论性也不够强。如果构建一个理论(横坐标)和计算(纵坐标)组成的象限,计算社会科学处于45°角的话,计算社会学将位于40°～45°的夹角之间。其数据来源涵盖了语言、位置与运动、网络、图像以及视频等多种内容,并应用复杂的算法来识别数据中的多重依赖性。

由于计算社会学也是社会学的组成部分,因此总是与“常识”紧密相连。与物理学、化学、生物学等自然科学探索人类未知世界一样,论证常识也极为重要。因为同样一个观点作为常识和作为理论存在的意义完全不同,不少观点看上去像是常识,其实是学术研究后产生了常识的错觉[21]。然而,计算社会学的数据收集、数据挖掘、算法设计、论证过程都远比传统社会学复杂,如果对逻辑起点和方法局限缺乏充分反思,研究发现就会无法超越“常识”,表现为“酷炫技术,理论贫乏”;如果对重大的现实问题缺少关切,表现为“强解释,弱预测”,则难免落入“计算社会学是个筐,什么都往里面装”的批评之中[22]。以上对传统社会学似曾相识的批评,当然与计算社会学的学科使命不符。

(二)学科界限

20世纪70—90年代,信息革命使得科学发展变得越来越快且越来越复杂,大工业和高科技为人类创造了巨大财富的同时,也产生了贫富差距、社会冲突、环境恶化等大量关乎人类命运的重大问题。在这种背景下,各门学科都开始意识到自身的相对性及与其他学科的密切关联。对于社会科学而言,无论在问题还是在方法维度上都应该面向现实,面向其他知识体系,因此,自然科学和社会科学开始走到一起。

如图1所示,计算社会学处于自然科学和社会科学之间的连通地带。它不是传统意义上以研究对象、研究问题和研究范畴等为基本内容来定义的学科,而是特别强调研究方法和研究设计的创新。其看似遵循了通常的“某某社会学”的命名惯例,但是除了将计算作为研究对象,更多的是将计算作为一种理解人类社会的工具,因此更适合与定量社会学、分析社会学等相提并论[22]。

图1 计算社会学的学科分类示意[23]

与社会学其他分支相比,计算社会学的理论更多来自相邻分支,而研究方法则从计算科学和数据科学迁移而来。在学科内部,计算社会学是一门提供“范式”的学科,它能够在方法论和研究方法上开辟新的方向,有助于拆除社会学中定性和定量研究之间的藩篱;从经济社会学、组织社会学、政治社会学等分支学科汲取理论养分,使学科内部彼此融通;通过多理论整合、多方法融合和多类型数据匹配,将传统社会学在数据生产上的优势得以延展。在学科之间,计算社会学采用人工智能和数据挖掘等计算科学方法,不局限于总体性思维,在技术的层面具有天然的开放性和包容性,有助于达成共识;其同时重视理论创新和现实关怀,既可以与管理学、新闻传播等应用性强的学科交叉,也能与哲学、历史学等基础性学科交叉。

(三)研究范式

计算社会学作为一门“范式”型的学科,至少包括方法论和学科定位两个面向。在方法论层面,归纳和演绎是知识发现的基础。囿于社会科学的特殊性,归纳和演绎并不能较好地整合起来。计算社会科学的核心之一是数据挖掘,实际上是一个知识发现的过程,包括理解问题领域、理解数据、数据准备、数据挖掘、评估新知识和使用新知识等环节,融合了归纳和演绎两种研究方法[24]。

由此,计算社会学主要包括两种:一是理论与数据双向驱动。单纯的数据驱动是在没有理论假设的前提下,通过模式识别的深度学习方法开展分析和研究,从人类行为互动数据中发现规律,进而给出合理的理论解释,难以满足社会科学研究的需要。理论与数据双向驱动是以现实问题为导向,以社会科学相关领域的理论知识经验为基础,提出理论假设和研究框架,然后收集适当的原始数据,并采用适切的分析技术从中提取信息挖掘知识,然后以科学可靠的方式运用数据和知识来检验理论假设,最终发现和揭示人类社会的规律[25]。二是理论引导的大数据分析。计算社会学把社会学理论以及研究方法与大数据分析融为一体,为大数据分析开启了许多新议题。一方面,理论指导下的定性、定量调查可以为数据挖掘的结果提供校准;另一方面,在数据挖掘的结果中也可以找到建构理论的线索,提供验证理论的资料,从而指导预测模型的建构,推论并解释更多的现象[26]。

在学科定位层面,与传统社会学不同,计算社会学更强调理论创新与现实关怀的结合,而不满足于象牙塔。首先是社会预测。传统的量化实证研究往往使用全部样本数据来拟合模型,这样就导致了拟合的模型往往只能代表对该数据集的分析及过度拟合。机器学习可以为社会科学处理结构更为复杂、样式更加多元的信息内容,并生成可供分析的变量形式,从而拓展社会科学的研究视界:获得潜藏指标、启发理论假说、助力因果推断、实现数据增生和推动理论创新[27]。

其次是整合“解释—预测”。需要承认的是,不同类型的学者在价值观上长期存在分歧。如数据科学家强调开发准确预测的模型,不苛求于因果推断,时常因为无法解释而被批评;社会科学家则追求对个体和集体行为提供合理解释,以因果机制为基础,在解释真实世界上存在不足。该范式试图建立一种综合模型,提倡一个明确的标签系统,用以更清楚地描述个人的研究贡献,识别其所属的象限,倡导开放的科学实践[28]。

最后是社会干预。计算社会学有着更强的科学性和应用性倾向,社会计算不仅是技术手段,也是社会现实的生成过程。除了能在研制与开发新型社会计算工具中发挥重要作用,研究计算与社会的关系和有关计算/技术的社会问题同样是计算社会学的重要内容。在平台治理中,社会干预可以发展算法治理、开源平台赋能、社会价值评估、企业社会工作、平台工作参与、规范制订和观念培训等渠道。

(四)研究方法

计算社会学的研究方法很大程度上受益于计算社会科学。有学者指出,信息的加工在理解社会复杂性方面起到了关键作用,而计算社会科学就是基于一种对社会的信息加工范式[16]。目前,计算社会科学已经形成了社会数据计算、互联网社会科学实验、社会模拟三大方法体系[29]。除了社会模拟属于计算社会科学的第一传统,其他方法均为第二传统。其中,社会数据计算主要集中于数据挖掘过程,这种方法背后的计算思维强调对所需优化问题的理解,将其分解为不同的任务,最后通过计算机的自动化实现这些分解的任务。社会数据计算的应用场景不仅包括对大数据的清洗(如针对变量缺失、代表性弱、非结构化等),还涵盖特征提取、交叉验证、模型校准等,其基础是机器学习。

机器学习是处理大规模数据和多语义文本的核心,被喻为计算社会科学的元算法[30]。机器学习通常遵循非线性和非参数方法,而不是预先限制模型的复杂性,实现聚类、分类及预测等任务,主要分为监督学习(supervised learning)与无监督学习(unsupervised learning)两种。与传统统计模型相比,机器学习模型的复杂性通过一个或多个超参数进行控制,通过交叉验证进行选择,提高预测能力,使得它在平均干预效应的因果推断、项目评估等方面优势明显[31]。深度学习是一个复杂的机器学习算法,强调从连续的“层”中学习。机器学习和深度学习的最大区别在于两者提取特征的方式不同:前者具备自动提取抽象特征的能力,而后者大多是手动选取特征和构造特征。目前,计算社会科学中的算法多为基于机器学习的底层技术,在自然语言处理(NLP)和网络科学等多个细分方向上深化和拓展。

互联网社会科学实验是将互联网平台作为一种“实验室”,运用新兴的信息技术作为工具开展随机实验。和实验室实验、自然实验等传统社会科学实验相比,该方法在样本代表性、环境仿真度、条件控制力、可复制性、主事者偏差、受试者偏差、内在效度和外部效度等方面都具有不同程度的优势[29]。目前,互联网实验在计算社会学中已经产生了一些影响力,应用主要分为两大块:一是通过和线下实验、自然实验等传统实验结合,提高因果推断的内外部效率;二是利用互联网实验回应大数据时代的一些基础性命题,如假新闻的传播、政治极化的扩散、音乐产品的成功等。当然,互联网实验能够在信息技术的更新迭代中得到更广泛的运用,而它在实验过程的信度和结果的外部效度上面临新的不确定性,而且研究伦理如何遵循也还有许多未解。

最后,社会仿真实质上是在计算机中构造与现实世界相对应的人工世界,建立起与真实系统相对应的平行系统,并在人工世界与平行系统中对现实复杂系统进行试验性研究[32]。如前文所述,社会仿真是生成解释的主要方法。ABM主要包括主体环境、交互规则、时间尺度等基本要素[10]。其早期主要是从概念模型出发,如模型设置和检验往往都属于抽象概念模型,近年来开始注入实证数据,即数据驱动的自主行动者建模(data-driven agent-based modeling)[33]。与国外相比,社会仿真在国内计算社会学的应用还比较小众,但已经被用来分析技术扩散、集体行动和社会信任等议题,相关研究呈现增长态势。在大数据时代,大数据、网络科学、实验开始与ABM融合,成为该方法发展的新方向。

四、计算社会学在中国发展的挑战

计算社会学作为计算社会科学的子集,无法逃脱数据共享、数据基础设施建设、伦理遵循、学术复合型人才培养等诸多挑战。然而,计算社会学还具有社会学的基因。费孝通在其学术生涯的最后一篇长文《试谈扩展社会学的传统界限》中强调了社会学“科学”和“人文”的双重性格,并指出社会学在探索新的领域时,不可避免地要涉及“方法论和方法”的创新。本文将从国家定位与学科自觉、定性与定量、抽样调查与感应器采集之间的内在张力等方面归纳计算社会学在中国发展可能面临的挑战。

(一)学科定位

中国社会学恢复以来,始终坚持“两条腿”走路,即遵循学科发展规律不断建立和健全学科体系的同时,回应重大的理论和现实问题。与管理学、经济学等其他社会科学大类不同,社会学是一个更偏向对社会现象和社会过程进行后验式解释的基础学科,对成果的应用性和产学研转换要求略低,学科评价还是以理论创新为主导。然而,在新时代,国家对包括社会学在内的哲学社会科学界提出了主动服务国家重大战略的更高期望,这促使社会学学科必须思考如何增强理论研究与应用研究之间的粘性。

计算社会学自提出以来就有着很强的应用性底色。以社会决策为例,传统的预测和决策多依赖于对常规性事实的研究,而计算社会学提供了一个应对高度复杂和快速变化环境的高效能、低成本的新工具[6]。加上社会学一直对风险和不确定性有着很强的理论传统,计算社会学很可能对决策科学带去突破性的变革,使得社会学的公共政策影响力更强,借此拓展传统学科界限。如基于疫情相关的行政数据、舆情数据和调查数据进行挖掘,使用ABM建模对疫情防控政策施行的效果进行预测,提升决策的科学性。

当然,计算社会学在学科拓展的过程中要始终保持理论自觉。在计算社会学中,理论和计算的关系不再是单向的指导与被指导关系,而是双向促进和螺旋上升的过程。理论导向的实证研究是社会学知识生产的重要方式,这种导向在计算社会学中仍然是成立的。也就是说,理论不是变得不重要,而是要更加强调理论的意义。如前所述,机器学习是计算社会学的三大方法之一,在数据准备、数据挖掘和数据理解等环节都离不开理论。除了数据理论和计算理论,还有社会理论。

(二)方法超越

定性和定量研究方法的争论在国内社会科学中较为普遍。由于社会学兼具“人文”和“科学”双重性格,加上社会学在中国恢复发展的特定历史原因,超越定性与定量之争的问题相对突出。虽然两种研究方法各具优势,但有的研究者为了强调所用方法的优越性和普适性而指责其他方法的局限性。事实上,从研究者的角度来看,没有任何捷径可以超越该争论,只有把握多种方法并理解各自的优缺点,才能够在面对具体的研究议题时,恰当地运用不同的方法组合来较好地进行回答。

然而,必须指出的是,定性定量之争实际上对学术交流、合作乃至学术评价都产生了直接或间接的影响。相对来说,以定性研究见长的学者更强调个体的创造性,从问题提出、资料收集、文本书写到成果署名,都凸显“独立性”;而量化研究者则更强调团队的创造力,利用资料收集、操作化测量和统计方法上的开放性和程式化,可以由不同的人在同一框架下通过协作进行知识生产。前者会批评后者除了第一作者均有“挂名”之嫌,研究缺乏“温度”,而后者批评前者缺乏合作精神,对理论有夸大之嫌。根据笔者的观察,这种以方法之争为起点的分野有扩散和强化之势,并且把研究方法等同于技术,造成“术”与“道”的失衡。

囿于计算社会学天然的量化属性,也就自然被卷入研究方法之争。相比于传统的量化研究,计算社会学的资料收集和分析边界变得更加模糊,数据挖掘的算法不再仅仅是一种简单的应用,其团队协作对成员的知识构成和规模都提出了更高的要求。如今,计算社会科学正在引发数据观念、研究设计、模型选择和推论原则等方面的实质性影响,调整了社会科学研究中依赖理论的思维定势。然而,如果无法超越定性与定量之争,计算社会学的合法性危机在相当长的时期内都将难以消解。

(三)数据生产

实证社会科学的发展离不开数据的采集及处理技术的进步。事实上,社会学不仅输出了许多理解人类社会的“语法”,也构建了以抽样调查为核心的研究方法体系,为知识界生产和积累了大量的高质量数据。有学者批评“让数据自己说话”是一种“狂妄”,不过如何利用数据创造新知识,一直是社会学家的历史担当。然而,作为工业化产物的社会调查,正在受到以感应器为基础设施的数据生产体系越来越多的挑战。该挑战除了数据规模,还表现在数据颗粒化、测量效度、观测广度等方面。

与此同时,感应器的背后是庞大的算法系统。在算法融合的社会中,不仅社会、经济、政治和科学之间相互影响,不同层次上运行算法的形成也被环境所塑造。如图2所示,当新开发的算法引导新的测量、假设和理论时,科学过程就形成了新的算法平台。由此,个体和社会层面的各种现象都会受到算法系统的影响,很难将算法和人类行为以及两者的相互影响完全分离[34]。感应器所生产的数据并非是为社会学研究专门收集的,通过自然语言处理去识别、转换成结构数据的过程中,存在着用算法去挖掘被算法所生产的数据的复杂境遇。

图2 算法对社会的影响示意[35]

总之,面对以上新变化,探索随机抽样与大数据的结合、传统测量与大数据测量的结合、经典理论与大数据的结合等都是非常有效的应对。然而,大数据资源垄断导致数据准入限制成为不争的事实。在算法和社会日益融合的新阶段,继续采用传统的数据生产手段获取资料并与大数据对接的思路有着较浓的路径依赖之嫌。如果社会学希望在资料的生产环节继续发挥关键作用,就必须进行方法和方法论上的创新。那么,计算社会学家是否可以和计算科学家类似,建立起属于自己的数据收集感应器,并在学术共同体探索共享机制呢?是否可以进入算法生产的前端去干预感应器,以克服数据准入问题带来的相关研究无法复制和检验的困境呢?以上疑问都不失为计算社会学学者思考和探索的新方向。