从定量社会学到计算社会学:传统进路与新兴议题
2022-11-27胡安宁李东雨
胡安宁,陈 滔,李东雨
复旦大学 社会发展与公共政策学院,上海 200433
研究方法的多元化是社会学的重要学科特征之一。在中国社会学发展的早期阶段,囿于计算能力以及调查规模的限制,20世纪初中期,以吴文藻、孙本文、潘光旦、费孝通等为代表的社会学家多从基于实地考察的定性分析资料出发,交汇融合中国社会思想与西方社会学理论,深入剖析中国社会。改革开放后,中国社会学恢复重建,学习西方社会学定量分析方法成为中外社会学初期交流的主要内容[1]。这一学习过程使得中国定量社会学在较短的时间内完成了人才、教材、课程体系的建设与发展。有研究分析了《社会学研究》期刊1986—2015年的论文发表情况,发现定量研究的论文占比为23.8%,高于定性研究的17.7%[2]。可以说,今日中国社会学界基于定量分析的研究已经占据了一席之地(1)但是,相较于国际社会学期刊而言,定量社会学研究论文在中文社会学期刊的占比仍相对较低。例如,2011—2012年American Journal of Sociology刊发的文章中,定量研究约占68%,而在American Sociological Review中定量研究占比为72%。。
定量社会学研究的基本特征是对结构化数据(主要是调查数据)进行统计建模。但随着信息技术的发展与普及,在结构化数据之外,社会生活中产生了大量的非结构化数据(如文本信息、人类生活痕迹)。社会学家虽然很早就认识到非结构化数据背后的重要学理价值(2)1972年,兰德公司建立“兰德恐怖主义年鉴”数据库,为美国政府提供政策咨询。,但囿于方法以及计算能力等限制,这类数据并未得到充分的开发与利用[3]。这一情况在21世纪发生了改变[4],一方面,随着信息科学技术的发展,非结构化数据对于社会现实的反映度日渐提高,使得社会学家不得不重视其背后的社会研究价值;另一方面,计算能力以及计算技术的快速发展,让处理与分析大体量的非结构化数据成为可能。之前受限于技术与算法而不能深入探讨的研究主题(如复杂社会网络分析[5]、大体量的文本分析[6]、网络民情分析[7-8]等),已经成为引领社会学研究新发展潮流的重要领域。在此背景下,新的学科分支逐渐兴起,作为大数据时代科技进步、数据迸发的产物,计算社会学成为近十年来社会学研究关注的焦点[9]。
本文从时代背景出发,探讨在新数据、新技术、新方法的推动下,计算社会学对于传统定量社会学的传承与发展。具体而言,本文试图回答以下两个问题:第一,传统定量社会学分析的研究范式突出体现在哪些分析进路上?第二,相较传统定量社会学,计算社会学在哪些研究领域有了新的拓展?这些问题的回答将有助于社会学研究者结合时代发展潮流,理解当代社会研究方法论的发展路径,把握量化社会学研究发展的新方向与新趋势。
一、传统定量社会学发展的研究进路
自19世纪社会学家孔德提出实证主义开始,源自于自然科学研究的原则和范式被应用到人类行为和社会结构的研究之中,实验和统计定量方法逐步成为社会科学研究的重要工具。以数据为基础对人类社会进行观测、描述与解析的定量分析在社会科学研究中日渐扮演着重要角色。总结传统定量社会学的研究逻辑,以分析思路为基准,本文认为传统定量社会学研究可以归纳为过程、结构、反事实和前景四种思维进路。
(一)过程思维进路
所谓过程思维,是指展示从A如何过渡到B这一具体的过程,即揭示概念之间联系机制的分析过程。《福尔摩斯探案集》中关于“华生是否在南非投资”的推理完整地展示了过程思维的逻辑路径。福尔摩斯看到华生袖口沾上了白色的粉末,于是推论说华生不打算在南非投资,如果只是从相关关系出发,似乎看不出这两个事件之间的关联。而过程思维恰恰是要把其中的逻辑关联找出来。具体到以上例子中,福尔摩斯的过程思维是:华生袖口有白色的粉末→华生去打台球→打台球总是有一个朋友作伴→这个朋友曾经邀约华生一起投资南非→华生的支票本一直没有动用→华生不打算投资南非。通过这样的过程解释,看似无关的A和B就关联起来了。以上分析思路若要转换成传统的定量社会学话语,则是从袖口上的粉末到投资决策之间经过了四个中间变量,最后形成结论。
科尔曼的船型模型是过程思维在学术研究上的经典体现[10-11]。该模型指出,理解两个宏观因素的关联过程,研究者需要考虑三个中间机制:第一个机制称为情境机制,意在解释处于特定场景中个体的独特表现。在定量社会学研究的学术话语体系中,这种机制常常归于分组比较的方法。分组比较分析的经典案例是涂尔干的自杀论研究,涂尔干描述了法国天主教地区和基督新教地区个人自杀率的差异,发现处于不同宗教环境中的个体,自杀倾向会有所不同。分组比较在中国社会情境下的社会学分析中十分常见,如Hu等[12]分析了中国不同学科大学生的收入差异,发现理工科的收入优势取决于所处的环境,只有在市场部门中,理工科的收入优势才能实现;而在公共部门中,文理之间的收入差异实际上并不显著。
第二个机制即所谓的行动形成机制。行动形成的目的是从个体层面寻找能够解释个体行为的原因。由于社会学的学科特点往往强调社会性因素对于个体行为的解释力,行动形成机制在心理学方面的分析中更为常见。但随着不同学科的互相融合,社会学研究已经不能对行动形成机制视而不见。实际上,从个人微观层次上解释行动的相关理论资源已经十分丰富。以中位投票模型为例[13],其指出在一个左偏的收入分布中,由于收入均值比中位值低,那么至少一半以上的个体会觉得自己的收入比平均收入高。在一人一票投票机制下,民主投票所形成的政策将会倾向于刺激消费。但是如果收入分布右偏,整个社会的收入中位值低于均值,则意味着一半以上的个体出于理性而投票选择的政策会偏向转移支付。也就是说,个体出于维护个人利益的动机,在不同的现实情境中会形成有差异的行为,这就是行为形成机制的分析。
第三个机制是集体行为分析机制。即从个人互动过程中衍生的一个不能通过个体特征解释的集体性模式。以门槛模型(又称门限模型)为例,该模型认为某种集体性行为的形成与群体中个人的道德底线相关[14]。也就是说,当群体中个体的道德底线彼此接近时,违背社会道德的恶行在突破某个个体的道德底线后很容易传染给第二个人,第二个人再传染给第三个人,依次类推,最后形成一个集体性的不幸结果。但是,如果个体彼此之间道德门槛差异很大,部分个体的恶行传到道德门槛高的个体处就会被制止,从而抑制集体乱象的发生,这种对集体层面差异的解释就是集体性行为的分析。
综上所述,传统量化研究旨在通过一系列量化分析手段,尽可能地呈现出某种关联的形成过程。科尔曼的船型模型进一步揭示了过程分析进路中可能涉及的一系列中间机制,为量化研究提供了分析方向,是定量社会学研究范式中过程思维进路的经典体现。
(二)结构思维进路
传统定量社会学的另一个思维进路是结构思维,即跳出分析对象的内容约束,转而关注结构性变化。基于常规思路分析某个具体概念时,研究者往往从内容的角度入手,倾向于讨论某个概念的实质含义。但是,采用结构思维的量化研究者不必然关注某一概念或者变量的实质含义,而是聚焦于某种关联结构的变异性。换句话说,结构思维是从内容到形式的过渡,在一定程度上填补了一种常规思维习惯的空白。
具体而言,结构思维进路在社会学研究中最经典的体现是探讨概念联系的变异性。以教育回报的异质性研究为例,有研究探析了那些特别容易上大学的个体与那些特别不容易上大学的个体相比,谁能够从大学中获益最多[15]。针对此问题,结构思维的角度实际上考察的是教育水平和收入水平之间的联系(结构)在不同类型群体之间的差异。布兰德等[15]研究发现,越不容易上大学的人(如那些家庭背景不是很好的高中毕业生)一旦有机会上大学,将比那些容易上大学的高中毕业生从高等教育过程中获取更高的经济回报。也就是说,如果大学录取政策偏向于弱势群体的高中毕业生,那么大学教育政策的实际功效反而更高。
概念之间联系的变异性还可以通过某种更为细微的方式呈现出来。以政府信任分析为例,这里的研究对象涉及多级政府——在城市中,从中央政府一直到街道。很多研究发现,人们对上层政府的信任度高于基层政府。那么,问题在于,在人们的认知中,从中央政府到基层政府,哪些算上层,哪些算基层?换言之,上层政府和基层政府的界限在哪里?对于这一问题,不同的人划分界限各不一样,有些认为基层政府只是街道,有些认为国务院之外都是基层政府,有些则认为省政府和国务院一样都是属于上层政府。为了勾勒出这种认知差异,研究者可以根据不同个体对于不同层级政府的信任度,进行某种认知结构的划分。Hu等[16]基于全国性的调查资料,区分出两种不同政府信任的人群:一类人群将所有层级的政府视为一体,不进行基层和上级的划分;另一类人群则认为中央政府和省政府属于上层政府,而市政府、区政府和街道是地方政府。一旦有了这种认知差异,其对于政府信任的判断也在基层政府与上层政府之间表现出不同。
对差序格局的操作化测量也体现了概念联系之间的异质性[17]。具体而言,测量差序格局时需要考虑两种结构因素:一方面,在个人的社会网络中,从一个信任对象跳到另一个信任对象之间的间距是多大?例如,从父母兄弟到同学代表了一种间距,而从同学到同事则代表了另一种间距,这两个间距是否相等?这是需要考虑的一个结构性因素。另一方面,当从一个联系紧密的人到一个联系较为疏远的人过渡时,对其信任度如何下降?这实际上是一个信任梯度的问题。如果把这两种结构性因素都考虑进来,就形成了一个针对差序格局的测量。
(三)反事实思维进路
传统量化研究的第三个思维进路可以称为反事实思维。这一思维进路强调对一种相反状态的想象,这一想象过程可以超越传统的对于相关问题的考察。例如,假设有两个历史趋势A和B,它们在两个历史节点之间均呈现出上升趋势,如果只观察相关性,可以发现A和B共变,从而呈现很高的相关性;如果进行反事实的思维想象,可能会发现A无论如何都会上升,与B的变化方向无关,这样则说明A的变化与B没有关联。可见,运用反事实思维方式可能发现看起来两个高度相关的变量之间并没有实质性的关联。
反事实思维方式与因果推断高度关联,基于反事实思维的社会学定量分析通常以经验因果推断的方式展开[18]。大学教育的收入回报分析是反事实思维的经典应用,针对这一问题,传统的分析思路是,因为受过大学教育,所以收入更高。但是经济学家提出,或许这种看起来“合情合理”的归因是选择性误差使然,即在挑选学生时,把那些未来有挣钱潜力的人都挑选进了大学。此时,“毕业后找到一个好工作”的现象或许不是因为学校培养得好,而是因为生源本身的质量。那么,为了探究大学教育是否真正带来了收入回报,需要分析那些本来能上大学的人如果当年未上大学的话(即反事实状态),四年后其收入是多少?如果一个人上大学后的收入和不上大学的收入差不多,那么上大学就没有带来额外的收益。然而问题在于如何找到那些已经上了大学的人“反事实状态”下的收入情况。一个思路是,寻找一些相似的人进行对比,如可以观察高考分数线上下的两拨人,其高考成绩差别很小。因此,一定程度上有理由认为,这两拨人在进入大学的可能性上是很接近的,但是由于一个在线上,一个在线下,线上的人获得了大学的入学资格,而线下的人则失去了这个机会。此时,对比线上线下两拨人,就能够发现上大学与否对于收入是否具有影响。其中,分数线下的那些人就是分数线上那些人的反事实对象。
寻找现实中个体的反事实状态虽然烦琐,却并非不可能。基于反事实思维的量化研究,研究者可以寻找到很多不是那么完美的反事实备选对象,再把这些备选对象进行加权平均,形成反事实状态。这方面的经典案例是加州的香烟税收政策变化对于香烟消费量的影响[19]。在这项研究中,通过综合其他州的情况,研究者能够模拟出一个虚拟加州的香烟消费量趋势,从而与真实的香烟消费量趋势进行对比。由于虚拟加州和真实加州之间的区别只是真实加州实施了针对香烟的税收政策,因此二者相比所呈现出的香烟消费量变化便只能归因于这一政策了。其中,虚拟加州就是真实加州的一个反事实状态,其核心的思维逻辑就是反事实的分析进路。
(四)前景思维进路
传统定量社会学研究常用的第四个思维进路可以称为前景思维。这一思维方式具体表现为强调分析“原因的某种结果”,这和一般意义上分析“结果的某种原因”是不同的。传统“结果的原因”分析思路强调研究者首先应该确定关注的因变量Y,然后再寻找能够解释该因变量Y的因素(即自变量X)。例如,韦伯研究的一个经验议题是为什么理性的资本主义在西方诞生[20]。为了解释Y(即理性资本主义的诞生),韦伯分析了一系列的可能影响因素,其中包括现代化的簿记制度、基督新教、城邦体制、理性化的法律等,这是一个典型的“结果的原因”分析思路。与之相比,“原因的结果”关注的则是给定一个原因X,其会带来什么样的结果。虽然两种思路最终落脚点都是X和Y的关系,但是基于前景思维的“原因的结果”分析进路强调的是“向前看”。
在过去几十年中,量化社会科学的研究日渐强调“原因的结果”这一分析思路。具体开展过程涉及到采用一系列实验或者类实验的方法。关于社会代际流动的分析很好地展示了“原因的结果”这一思维进路的优势与特点。对于代际流动,常规的思路都是从结果倒回去找原因,即先收集子女一代的信息,然后回溯考察其父母的情况。但是,这种寻找“结果的原因”的分析思路可能带来研究偏差[21]。因为这一分析思路默认的分析对象是有子女的父母,而忽略了父母一代没有配偶以及有配偶却不生育的个体。假设教育水平越高的人越有可能不生育子女,在这种情况下,如果采用“结果的原因”分析思路,从子代回溯父代的相关信息,就相当于把那些高教育水平的个体剔除掉了。那么,如果这些人生育子女的话,其子女更有可能获得更高的教育水平,即体现出教育在代际间的优势传递。此时,忽视了这些高教育水平的人之后计算得出的代际流动情况无形中高估了代际流动的水平。但是,如果研究的出发点不是子女,而是父代,通过观察他们的生命历程变化,这种潜在的高估就会被发现,这也是前景思维相对于传统后向思维的一个优势。
二、计算社会学:一个新兴议题
相比于传统的定量社会学研究,新兴的计算社会学为研究者提供了一个新的分析平台和工具[22]。这里的“新”具体体现在三个方面,即新的数据、新的分析手段和新的因果识别策略。首先,新的数据处理能力是计算社会学在大数据时代的一个重要贡献。信息化时代,人类各种行为均会留下电子化痕迹,这些数据为我们更好地理解和认识个体和群体行为的发生规律提供了新的可能。但与传统定量社会学分析的数据不同,电子化痕迹数据体量庞大、覆盖范围较广,在分析方法上不需要很强的前期假设(如变量正态分布假设等),且呈现出明显的“非结构化数据”特征,对传统定量社会学及其方法论带来新的挑战,从而成为新兴计算社会学的重要研究对象[23]。其次,新的分析手段指的是计算社会学可以使用一系列传统社会学研究方法所不涉及的新兴技术,例如社会网络研究、地理信息系统研究、基于行动者的模拟(agent-based modeling)分析,等等。这些新兴技术方法都在某一方面突破了传统结构化线性模型的分析框架,为研究者提供了新的研究信息。最后,在因果识别策略方面,传统的因果关系识别重在对平均因果效果的识别,分析手段上也更为“中规中矩”;而在计算社会学的背景下,因果关系的分析开始引入大量的基于算法的计算技术,同时在分析对象上也逐渐从一种平均意义上的因果关系转向一种异质性的、基于个体特质的因果关系。
需要说明的是,计算社会学的兴起以及那些和大数据紧密相连的研究议题自20世纪初期开始,多由其他领域(如计算机科学)的研究展开。但自然科学家从事社会科学相关研究很大程度上不是出于理论关切或是社会关怀,而是更多出于技术能力的使用。因此,从某种意义上说,自然科学领域的研究者对于社会科学相关议题的理论理解与诠释还有待改善[24]。在此背景下,社会学家始终关心人类行为的理论解释,在大数据时代有能力扮演更重要的角色,探索和开发新数字空间的研究路线与范式[9]。不过,新的基于计算的研究范式并不一定会完全取代原有的研究范式,而是可能形成一种新旧范式并存的学术生态。可以预见,在未来一定时期内,社会学仍然是“计算范式”与其他范式共存的局面[22]。
(一)“新”数据
“新”数据是计算社会学诞生与兴起的原始驱动力。大数据时代,研究数据的“新”不仅体现在体量上,更表现为数据的形式和结构。一方面,电子邮件、社交媒介、网页记录等电子化档案极大地扩充了社会学研究可获得的数据体量,让一些社会学分析摆脱了抽样调查的束缚。传统定量社会学研究的数据往往来自于耗费巨大的人力、物力以及财力的抽样调查,能够获得的样本量相对较小,且所获得的资料信息来自于研究者前期设计的结构性问卷,具有很强的结构性特征,经常被称为“设计的数据”[24],在推断整体情况的过程中往往需要通过强有力的前期假设。而电子化痕迹数据大多来自于现实生活中的实时记录,是各种社会活动自然呈现的结果,具有明显的“非结构性”特征。此外,电子化数据的体量十分庞大,在一定情况下,分析的数据几乎覆盖研究总体,无需通过特定的假设前提。另一方面,视频监控、在线地图、电子书籍等图像型、文本型数据丰富了社会学分析数据的形式。传统定量社会学研究受限于分析技术与计算能力,图像数据并没有获得过多关注。但是随着电子科技的发展,图像是记录社会活动的重要载体,已经成为计算社会学研究的重要资料。文本数据虽然在传统定量社会学中获得了大量关注,但是传统的内容分析能够处理的文本资料有限,且主题分类大多基于研究者的理论积淀,存在较大的主观性。相较而言,计算社会学对于文本数据的挖掘则更为自动化,对于研究者的主观性有一定的规避。
具体而言,计算社会学通过采用新的技术与新的分析方法,可以对传统定量社会学难以处理的数据形式进行研究。尤其是在对网络数据、文本数据和图像数据的分析中,计算社会学展现出了独特的优势。网络数据分析方面,一个比较典型的数据来源是个体在搜索引擎中留下的搜索痕迹。在个体层面,这种搜索痕迹可以帮助我们了解某一个体随着时间推移其关注点如何变化。在群体层面,一些词语被大量搜索,恰恰说明这个词语成为了一项社会性议题。关于网络搜索痕迹的研究,最为经典的是利用谷歌搜索来预测美国各地的流感情况[25],其分析思路极大地启发了后续的一系列研究。当然,网络信息并不都是由搜索痕迹构成,人们完全可以在网络上表达个人的想法。考虑到网络的匿名特性,甚至有理由认为,人们在网络平台匿名的观点表达更能反映其内心真实的想法。正因如此,近年来,社会学领域涌现了大量基于网络平台观念表达的研究[7-8]。可以说,网络数据就像是一个信息的富矿,关键在于学者们如何进行挖掘。
除了网络数据外,另一个日渐流行的数据是文本数据。传统对于文本的考察常常基于内容分析方法,即通过学者或者其他参与者的阅读对内容进行编码,进而发现文本背后的信息和模式。而计算社会学的文本挖掘尽管仍然致力于从文本中抽离出一些基本的模式,但对于文本的阅读可以让机器来完成。通过探索不同词语的分布状态,学者们可以通过构造主题模型确定文本的主题。通过结构主题模型,可以进一步判断这个主题的关联因素,从而形成对于文本的解释。当然,也可以对文本中的词语进行一些向量化的处理,以计算上下文背景下词语的特定意涵。此外,还可以对文本进行情感分析,了解文本背后的情绪特点。文本数据分析是计算社会学领域中发展非常快的研究方向,无论是国内还是国际上的专业期刊,这方面的研究都越来越多[6]。但是需要提及的是,文本分析的很多手段需要一些基础性的工作,最简单的基础性信息是语言学相关的一系列数据库。举例而言,社会学的研究者在语言使用上有什么样的习惯和特征,这些特征可以形成数据库,以便后续对社会学的文本进行分析。但这些仅是一些基础性的工作,相较于英语,目前中文的语言数据库建设仍然不足,这或许是文本分析的一个瓶颈。
近年来,计算社会学对于图像数据的处理也逐步增多。长期以来,图像对于社会学研究而言是一个处理的难点,当然也可以采用传统的内容分析手段,由学者或者其他研究者判断一幅图像背后要表达的意思,之后通过编码探究其潜在的模式。在计算社会学时代,完全可以借助机器对图像进行读取、分析。之所以让机器去读取图像,是因为受生物学局限,肉眼并不能判断有些图像中的元素。如日常生活中,医生可以让机器根据特定的算法辅助读片,从而为医学上的进一步诊断提供数据基础。这种人机协作也是目前处理图像数据的基本思路。具体到社会学领域,图像数据的应用也逐步趋于广泛,如Legewie等[26]通过更新某一图像识别的算法,利用机器对纽约市的地图进行分析,其目的在于识别不同社区的社会性边界,从而进一步考察社区边界的潜在犯罪问题。尽管目前采用图像数据进行分析的社会学研究并不是很多,但计算机领域中的图像处理技术已经十分成熟,如何进一步与社会学研究相结合是未来的一个发展趋势。
需要指出的是,计算时代产生的“新”数据也存在一些问题。首先,新数据让社会学研究过程中收集数据与分析数据这两个步骤不再割裂,这虽然保证了对数据生成逻辑的了解,但研究者既是数据的收集者也是数据的分析者,数据的可靠性依赖于研究者的自身素养,其可靠性缺乏保证[27]。其次,社会科学研究者并不在数字媒体主导的计算中心当中,因此有可能受制于各种数据霸权[28]。
(二)“新”方法
与传统的量化社会学研究相比,计算社会学作为一个正在兴起的研究范式,整合纳入了多种有别于传统结构化线性模型的新方法,其中包括大数据分析、关联数据、社会网络分析、文本分析、基于行动者的建模以及地理空间分析等一系列对计算能力要求较高的分析模式。这些方法都从不同侧面涉及某种统计量的计算和算法应用。
关于社会网络分析的经典研究考察的是美国一个高中的艾滋病传播[29]。在这一案例中,艾滋病之所以传播迅速的原因在于学生彼此之间形成的亲密关系网络中存在一个核心的交往圈,通过这个交往圈可以将整体社会网络中的每一个个体牵扯进去,从而造成病毒的迅速传播。关于这一网络结构的形成原因,研究者分析了几个机制,如同类相吸机制发现,家庭背景相似的人更加容易产生相互关联;“不和前任的现任的前任去谈朋友”等学生之间的特殊“规则”使得学校形成了一种特定的核心圈网络结构。之所以援引这一案例说明网络分析是一种计算社会学的方法,原因在于研究者可以根据不同的规则对人们的社交网络进行模拟,操作方法是在不同的“规则”下模拟网络结构并进行比对。上述案例的研究者发现,当改变交往规则后,学生之间呈现的网络结构完全不一样,相关的疾病传播机制也随之产生变化。从这个角度来讲,对网络结构假象状态的模拟成为计算社会学的重要分析手段。
再如行动者建模中著名的谢林模型(Schelling model)主要研究的是种族隔离问题[30]。基于行动者的建模将不同元素赋予特定的行动规则,然后让计算机来模拟,观察当这些元素彼此互动时,是否会形成某种特定的宏观模式。在谢林模型中,不同种族的人一开始随机交往,但随着模拟的进行,最后不同种族的人各自聚集,形成所谓的“隔离”。基于常识判断,“隔离”的形成是因为每个人都有很强烈的愿望和同类型的个体交往,但谢林模型证明,希望和同类交往的强烈愿望实际上是不足以形成“隔离”的;相反,如果人们只是有轻微的愿望和同类相连,则足以形成隔离。对于这种反常识的验证,恰恰是基于行动者建模的魅力所在。
(三)优化因果关系的识别
计算社会科学作为一套新兴的分析手段,对于传统因果关系的识别也具有重要意义。首先,计算社会学可以被用来进行网络实验。心理学关注的预言的自我实现现象,实际上是观察个体如何受到他人影响而形成一个与现实状态无关的判断[31]。例如,研究者在网络上模拟了一种虚拟状态,之后让实验参与者进入这种虚拟状态。参与者需要听完歌曲后对其进行评价和排序。在不同的虚拟场景中,参与者所获取的社会性信息是有差异的:在一个虚拟环境中,参与者被告知研究对象的信息是真实的,既被告知了真实社会中排序较高的歌曲,也告知研究对象哪首歌曲更受欢迎;另一个虚拟环境中,参与者所获取的信息是相反的或虚假的,实验结果发现,参与者的判断与歌曲自身的本质属性联系不大,反而更容易受周围环境的影响。通过类似实验,可以更好地帮助研究者识别出特定的因果关联。
其次,对于因果关系异质性的分析是计算社会学另一个用武之地。如上文所述,传统的因果推断主要考察平均层次上的因果关系,相比而言,很难估计个体层次的因果关系。这主要是因为,个体层次的反事实状态往往无法获取。但是,计算社会科学认为,如果研究者掌握的数据足够多,研究算法足够精确,即可以比较精确地在个体层面上估算其反事实状态。例如,在关于个体大学毕业就业后获得收入的测量中,其反事实状态是如果个体当年未上大学,其收入是多少。传统的倾向值匹配或者加权方法一般通过组间比较,估算出样本中所有上大学的人在未上大学的情况下的反事实“平均”收入,但这一方法仍然无法获知精准个体在反事实状态下的收入。然而在大数据时代,基于特定的算法可以对个体层次的反事实状态进行比较精确的估计,从而进一步估算出个体层面的因果效果。目前学界在这方面已经有了一系列卓有成效的探索,这也是未来计算社会学的发展方向之一[32]。
(四)从定量社会学到计算社会学:相承与演化
以上展示了相较于“传统”的定量社会学研究,计算社会学的独特之处。但这并不意味着计算社会学是对传统定量社会学研究路径的一种革命性改变。对于二者的关系,笔者认为,计算社会学是定量社会学的相承和演化。其中,相承指的是后者承继了社会学一贯的研究目的,演化指的是后者改变了达成目的的手段。
具体而言,社会学的学科特点决定了其基本的研究目标在于对社会现象的诠释与理解,从而可以从一个更高的理论角度对社会现象进行解读和分析。计算社会学的相关研究无论是采用新的数据还是新的方法,其最终目标都是希望能够把握社会现实、提升对社会的理解力。从这一角度看,计算社会学对于社会学一脉相承的研究动机和目标有着继承性。但是,在研究手段上,计算社会学无疑做出了很多革新:与传统小数据的研究相比,大数据的分析可以在一个更广泛的空间或时间维度上研究社会;与传统结构化的线性模型相比,新兴的数据分析方法可以从已有资料中更有效率地抽离出有价值的模式和信息;对于因果关系的新的识别策略亦可以突破传统的观测性研究和平均因果效应,从而更为精细地了解某一处理变量在特定情境与人群中的独特效应。
三、结语
社会学研究从来不是一个单一范式的过程,本文分析和对比了传统量化研究的不同分析路径,并从新数据、新方法以及对因果关系的识别三个角度对新兴的计算社会学进行了讨论和辨析。这些讨论有其侧重,虽不能完全反映量化研究和计算社会学的全貌,却也展示了社会学研究在范式选择上的开放性以及在计算社会科学时代下社会学经验研究的多种可能性。
需要指出的是,社会学的学科价值更多在于长久积累下来的对于社会发展和社会形态的理论洞见,而验证与丰富这些理论洞见也成为了社会学经验研究的价值所在,即无论是传统的定量研究,还是新兴的计算社会学,都旨在为研究人员提供研究工具与手段。
笔者认为,作为一个新兴的社会学研究范式,计算社会学未来的发展有几个重要的方向需要把握:一是如何保持社会学学科的独特性问题。计算社会学的发展离不开对计算机和人工智能等领域内成熟技术的吸收与借鉴。但是,如何让计算社会学保留其社会学的学科特点,而不是演变为计算机学科的某一分支,是社会学研究者亟待考虑的问题。尤其是随着社会学学者对于新兴技术的应用日益频繁,很多研究成果的核心内容很容易演变成对某一新兴技术的社会场景应用,从而降低社会学学科本身的价值。因此,未来计算社会学的一个发展方向是让计算技术“为我所用”,避免实质问题的探索反而被技术反噬,成为技术的附庸。二是人机互动问题。在计算社会学研究中,随着人工智能技术和相关算法的使用,人工因素的影响力逐渐下降。如传统的文本分析重在研究者的编码和后续诠释,但是到了文本挖掘阶段,研究者的这种“人工”编码实际上被机器的计算所取代。但是,计算机领域对于各种新兴算法的开发往往以人工标准作为衡量机器表现的依据。可见,无论是计算社会学还是人工智能,都需要妥善处理机器和人工的关系。由于二者之间各有强项,未来计算社会学的研究要考虑人机协作的问题,让研究者的人工和算法的机器之间达成某种平衡,而不是片面以机器为主导。三是计算社会学的人才培养问题。传统定量社会学范式下的人才培养以数理知识为基本导向,在课程设计上以结构化统计模型(如线性模型、结构方程等)为主。但是在计算社会学范式下,人才培养将以算法理解和开发为导向,这对于算法设计思维与编程能力提出了新的要求。如何在保留现有课程设置框架的前提下,优化人才培养方式,让社会学学科的课程设置更加配合计算社会学的要求,也将是未来计算社会学发展需要着重考虑的问题之一。