计算社会学的基础问题及未来挑战
2022-10-26范晓光刘金龙
文/范晓光 刘金龙
计算社会学是计算社会科学与社会学的学科交叉,是一门新兴学科。社会学作为一门独立的学科经历了近200年的发展,已经形成完善的学科体系,但是其倡导的实证主义在宏观解释与微观解释、数据驱动与理论驱动、相关分析与因果推断、信度与效度等方面长期存在内在“张力”。计算社会科学是对社会科学实证主义传统的推进,借助于计算机和信息通信技术(ICT)的迭代更新,其研究方法和研究设计都有别于传统范式,研究议题越来越突破传统的学科界限。面对作为典型的复杂性系统的社会,计算社会学具有的学科交叉、基础理论和应用对策并行等特质,使其在回应实证主义面临的诸多困境时具有明显优势。
实证社会科学面临的不确定性
实证社会科学是指利用实际调查或访谈资料来验证理论假设或者构建理论的研究范式,它有别于纯理论思辨式的传统社会科学。社会学在实证社会科学的发展早期发挥了举足轻重的作用。孔德提出的社会物理学力图用科学的方法研究人类社会的构想,在实证社会科学的发展历史中遇到了许多困难。如果将社会科学研究看成是研究主体、研究客体和研究过程所构成的三个有机整体,则可以更清晰地理解其面临的不确定性。
首先,理解并揭示社会现象发生和发展的因果关系是实证社会科学一直追求的,但社会复杂性所带来的不确定性使得实现上述目标的难度大大增加。在复杂系统内,多元个体在某一框架之内进行互动,行为会彼此影响,并且个体具有适应性和学习能力,最终引起特定的功能涌现。正是由于社会系统的复杂性,并不存在像“万有引力”那样的普遍规律,加之系统成员具有自主选择和创造的能力,使得实证研究发现在一般化上总是不甚理想。
其次,实证社会科学已经发展出完备的理论和方法工具箱,但是研究者在方法论的认同和运用上的偏好都会带来实证发现的不确定性。社会科学家有一种自然而然的研究倾向,即尝试通过理解行动者的意图、信念、场景和机遇,去解释他们的行动及后果。在田野调查中,不同的研究者即使从访谈对象那里获得完全相同的信息,在“裁剪”的过程中仍然无法避免出现理解偏差;在定量研究中,虽然开放性、透明性和标准化程度相对更高,但这并不意味着研究者偏好对实证研究的“干预”更少。
最后,研究设计是实证社会科学区别于思辩哲学的关键环节,当然也是不确定性的主要生成器。一方面表现为模型设定起点的不确定性。理论导向的实证研究尤为强调理论对模型建立的指导,通常采取的策略是以所对话的理论为起点。要探究理论之核心变量对因变量的影响模式,必须排除若干竞争性解释,这在模型上主要通过引入控制变量来实现。另一方面,模型假定、数据构成、操作化测量、事后因果框架等都导致模型输出结果的不确定性。任何模型对资料(定性或定量)构成都有相应的前提假定,如总体分布、代表性(包括类型)、信度、效度等,研究者不得不通过“改造”资料以减少实际研究中遇到的前提假设违背困境。
总之,研究结果的不确定性是实证社会科学的基本特征之一,如何消解其对社会科学的约束一直是个棘手的问题。数据密集型(data-intensive)科学范式的到来,为实证社会科学提供了许多变革的机遇。由此,笔者认为有必要将该问题置于计算社会科学的发展脉络中。
计算社会科学的主要传统
计算社会科学能够积极应对实证社会科学的不确定性。其中,基于模拟社会系统或过程的社会仿真可以克服传统模型的线性思维和化约主义,对于复杂性有着更科学的探究;大数据分析通过对海量数据的挖掘推动知识生产,减少了模型设定、测量和结论泛化的不确定性。
(一)社会仿真:生成解释的传统
生成解释(generative explanation)是通过建立有关被研究社会系统的模型,并从模型的运行过程和结果中获得对研究对象的理解。该传统主要通过对主体的行动及其相互作用规则的设定,从演化过程中获得新的机制解释。“复杂性”是生成解释背后的认识论基础,它将现代物理和生物学结合,认为社会永远处于时间的边缘,结构时刻在组合、衰败和发展。
社会仿真(simulation)是生成解释的主要方法,它始于20世纪50年代,在研究社会的复杂性上远远超越了其他多数研究方法。该方法通过建立一个模拟社会系统或过程的计算机模型,即建立一个能够表征现实世界的“人工社会”,开展各种社会科学分析。仿真模型能够容纳具有适应性的主体,实现主体之间的交互,展现了从微观个体行为到宏观系统状况的“涌现”。它能够将行动主体的异质性、自我适应性、有限理性、交互性等重要因素重新纳入研究框架之中,克服多数模型的线性外推思维、无法反映宏观-微观线性内在联系、缺乏对“活”系统成员的描述等不足,自下而上地构建一个逼近真实的人工社会,以揭示事件发生的条件、概率、限度以及多种可能选择的策略。
总体而言,社会仿真经历了从宏观仿真到微观仿真,再到基于主体仿真的发展历程,主要分为面向变量模型、面向对象模型和混合社会模型等类型。其中,基于行动者的模型(agent-based modelling,ABM)属于面向对象建模,为研究者提供了创建、分析和试验由在环境中互动的行动者构成的模型。
(二)大数据分析:数据挖掘的传统
数据挖掘传统主要基于互联网在线实时所产生的大数据,利用数据科学和计算科学的前沿技术做数据挖掘,进行理论检验和社会预测。有别于社会仿真,该传统的数据资料来源更加多元、时空跨度更大、体量更大、形式多样,由此为计算社会科学的发展提供了难得的机遇。与传统主要通过收集观察、抽样调查的数据不同,大数据是在弱选择性观察、弱设计、弱标准化、弱目的性的前提下自动存取的非结构化的痕迹数据。虽然无法回避算法干扰、数据漂移、代表性、个人隐私等方面的困扰,但它还是为社会科学家打开了一扇理解人类社会的新大门。
同时,大数据在方法论层面为传统社会科学研究注入了新的活力,即来自计算科学的数据驱动。基于对海量数据的挖掘去探寻突破人类既有知识结构的新发现,并在此技术上发现和建构新理论和新理解。这种方法论上的革新,促使演绎和归纳更为密切地结合,也使得计算科学、数据科学和社会科学的联系更为紧密。
数据挖掘无论在数据属性、分析方法和研究目标上都与实证社会科学存在明显不同。数据挖掘的分析对象有别于传统数据,研究者往往需要借助自然语言处理(包括情感分析、潜在狄利克雷模型等)、图像识别、深度学习等发端于计算科学的分析工具。在研究目标上,大数据分析将预测置于核心位置,有别于实证社会科学强调因果解释的传统。由于大数据不再局限于“观察”,全息记录不会对非直接关联变量进行过早筛选,因此恰恰可以为预测提供更全面的基础信息。加之机器学习强调偏差与方差的权衡(bias-variance tradeoff),也使得模型预测的稳健性得到显著提升。
计算社会学的基础问题
(一)概念界定
计算社会学是计算社会科学的分支。本文认为,计算社会学是以计算科学、数据科学等为主要分析工具,将非介入方式收集的大规模数据与传统数据集相结合,挖掘人类社会和社会互动的规则和模式,用以解释人类行为与社会运行规律的科学。
(二)学科界限
与社会学其他分支相比,计算社会学的理论更多来自相邻分支,而研究方法则从计算科学和数据科学迁移而来。在学科内部,计算社会学是一门提供“范式”的学科,它能够在方法论和研究方法上开辟新的方向,有助于拆除社会学中定性和定量研究之间的藩篱;从经济社会学、组织社会学、政治社会学等分支学科汲取理论养分,使学科内部彼此融通;通过多理论整合、多方法融合和多类型数据匹配,将传统社会学在数据生产上的优势得以延展。在学科之间,计算社会学采用人工智能和数据挖掘等计算科学方法,不局限于总体性思维,在技术的层面具有天然的开放性和包容性,有助于达成共识;其同时重视理论创新和现实关怀,既可以与管理学、新闻传播等应用性强的学科交叉,也能与哲学、历史学等基础性学科交叉。
(三)研究范式
计算社会学作为一门“范式”型的学科,至少包括方法论和学科定位两个面向。在方法论层面,归纳和演绎是知识发现的基础。囿于社会科学的特殊性,归纳和演绎并不能较好地整合起来。计算社会科学的核心之一是数据挖掘,实际上是一个知识发现的过程,包括理解问题领域、理解数据、数据准备、数据挖掘、评估新知识和使用新知识等环节,融合了归纳和演绎两种研究方法。
由此,计算社会学主要包括两种:一是理论与数据双向驱动。理论与数据双向驱动是以现实问题为导向,以社会科学相关领域的理论知识经验为基础,提出理论假设和研究框架,然后收集适当的原始数据,并采用适切的分析技术从中提取信息挖掘知识,然后以科学可靠的方式运用数据和知识来检验理论假设,最终发现和揭示人类社会的规律。二是理论引导的大数据分析。计算社会学把社会学理论以及研究方法与大数据分析融为一体,为大数据分析开启了许多新议题。
在学科定位层面,与传统社会学不同,计算社会学更强调理论创新与现实关怀的结合,而不满足于象牙塔。首先是社会预测。机器学习可以为社会科学处理结构更为复杂、样式更加多元的信息内容,并生成可供分析的变量形式,从而拓展社会科学的研究视界:获得潜藏指标、启发理论假说、助力因果推断、实现数据增生和推动理论创新。其次是整合“解释—预测”。该范式试图建立一种综合模型,提倡一个明确的标签系统,用以更清楚地描述个人的研究贡献,识别其所属的象限,倡导开放的科学实践。最后是社会干预。计算社会学有着更强的科学性和应用性倾向,社会计算不仅是技术手段,也是社会现实的生成过程。除了能在研制与开发新型社会计算工具中发挥重要作用,研究计算与社会的关系和有关计算/技术的问题同样是计算社会学的重要内容。
(四)研究方法
计算社会学的研究方法很大程度上受益于计算社会科学。目前,计算社会科学已经形成了社会数据计算、互联网社会科学实验、社会模拟三大方法体系。
社会数据计算主要集中于数据挖掘过程,这种方法背后的计算思维强调对所需优化问题的理解,将其分解为不同的任务,最后通过计算机的自动化实现这些分解的任务。社会数据计算的应用场景不仅包括对大数据的清洗(如针对变量缺失、代表性弱、非结构化等),还涵盖特征提取、交叉验证、模型校准等,其基础是机器学习。
互联网社会科学实验是将互联网平台作为一种“实验室”,运用新兴的信息技术作为工具开展随机实验。和实验室实验、自然实验等传统社会科学实验相比,该方法在样本代表性、环境仿真度、条件控制力、可复制性、主事者偏差、受试者偏差、内在效度和外部效度等方面都具有不同程度的优势。
最后,社会仿真实质上是在计算机中构造与现实世界相对应的人工世界,建立起与真实系统相对应的平行系统,并在人工世界与平行系统中对现实复杂系统进行试验性研究。
计算社会学在中国发展的挑战
计算社会学作为计算社会科学的子集,无法逃脱数据共享、数据基础设施建设、伦理遵循、学术复合型人才培养等诸多挑战。本文将从国家定位与学科自觉、定性与定量、抽样调查与感应器采集之间的内在张力等方面归纳计算社会学在中国发展可能面临的挑战。
(一)学科定位
中国社会学恢复以来,始终坚持“两条腿”走路,即遵循学科发展规律不断建立和健全学科体系的同时,回应重大的理论和现实问题。
计算社会学自提出以来就有着很强的应用性底色。以社会决策为例,传统的预测和决策多依赖于对常规性事实的研究,而计算社会学提供了一个应对高度复杂和快速变化环境的高效能、低成本的新工具。当然,计算社会学在学科拓展的过程中要始终保持理论自觉。在计算社会学中,理论和计算的关系不再是单向的指导与被指导关系,而是双向促进和螺旋上升的过程。
(二)方法超越
定性和定量研究方法的争论在国内社会科学中较为普遍。由于社会学兼具“人文”和“科学”双重性格,加上社会学在中国恢复发展的特定历史原因,超越定性与定量之争的问题相对突出。
囿于计算社会学天然的量化属性,也就自然被卷入研究方法之争。相比于传统的量化研究,计算社会学的资料收集和分析边界变得更加模糊,数据挖掘的算法不再仅仅是一种简单的应用,其团队协作对成员的知识构成和规模都提出了更高的要求。如今,计算社会科学正在引发数据观念、研究设计、模型选择和推论原则等方面的实质性影响,调整了社会科学研究中依赖理论的思维定势。然而,如果无法超越定性与定量之争,计算社会学的合法性危机在相当长的时期内都将难以消解。
(三)数据生产
实证社会科学的发展离不开数据的采集及处理技术的进步。事实上,社会学不仅输出了许多理解人类社会的“语法”,也构建了以抽样调查为核心的研究方法体系,为知识界生产和积累了大量的高质量数据。然而,作为工业化产物的社会调查,正在受到以感应器为基础设施的数据生产体系越来越多的挑战。