数据驱动下的自主行动者建模
2016-03-19梁玉成贾小双
梁玉成,贾小双
(中山大学 社会学与人类学学院,广东 广州 510275)
数据驱动下的自主行动者建模
梁玉成,贾小双
(中山大学 社会学与人类学学院,广东 广州 510275)
人类社会是复杂的,在其中人和人之间、人和组织之间、组织和组织之间、组织和社会之间以及国家和国家之间都在不断互动,最终形成了全球尺度的人类社会。我们上面的描述可以提炼出两个重要的描述人类社会的概念:多层次和动态过程。正是这两个因素,造成了人类社会的演变是一个包含不确定性的非线性的过程。
这样一个作为多层次动态复杂系统的人类社会,使得传统的基于方程的建模(Equation-based modeling)研究手段日益显得贫乏,计算社会科学作为新的研究手段逐渐崛起。计算社会科学有两大发展脉络,一个是基于自主行动者建模(Agent-based modeling)方向,一个是基于大数据的群体计算方向。本文就基于自主行动者建模方向的新发展作一些介绍。
一、基于自主行动者建模
基于自主行动者建模(Agent-based modeling),是一种通过自下而上(bottom up)的方式来研究复杂社会系统的方法。其方法的特点在于,通过在计算机中设定大量自主行动者,他们是具有认知、决策判断和行动能力的个体。在研究中,研究者根据所要研究的现象,在模型中设置不同的行动者,并根据需要设定不同的角色,赋予其特定的认知能力、先赋的资源禀赋,以及判断流程和行动模式。然后足够数量的自主行动者被放置在一个人工建构的世界中,随着时间的进程,各自不断地重复“外部认知,策略判断、展开行动”的过程,从而通过行动者之间,以及行动者和世界之间的不断互动,进而涌现出宏观社会现象。约翰霍普金斯大学的爱普斯坦是这样定义ABM方法:“ABM是通过无中心的、局部的、异质性的自主行动个体,来研究社会规律如何出现。”ABM是学者们这样的一种研究方法:在一个研究者设计出的世界中,通过研究者设定的自主行动者们在一个给定的起点处,观察他们在什么样的规则的作用下,最后如何演化出宏观的社会现象。
ABM模型通过微观行动者的行动和互动来模拟宏观社会现象涌现的机制,既可以将多层次的微观与宏观进行链接,也实现了对现象形成的动态过程进行观察。从类型学角度而言,在连续统的一端是抽象的ABM概念模型,本身主要用于发现和分析基本社会过程中的理论规律,这类模型是理论的一部分,其目的是获得对社会过程的可能的解释模式;在连续统的另外一端则是对现实尽可能精确匹配的复制模型。其实对社会现象进行精确匹配既不现实,也无必要,社会现象本身就包含了大量随机因素和几乎无穷的关联因素,穷尽这些对我们了解现象本身往往并无助益。社会科学研究的本质就是在社会事实实体(realism)和简化(simplicity)之间寻求合适的妥协。
ABM发展的早期是从连续统的一端——概念模型开始的,研究者的ABM模型设置和检验往往都属于抽样概念模型。这类模型在参数设置时,学者们通常将模型参数(如行动者的性别、年龄、行动偏好等)的初始值随机设置(由不同的随机数种子而随机进行的),在同样的参数设置下,模型每次运行也都会出现差别化的结果。为了保证模拟结果的稳定性,研究者通常会在同样的初始参数设置下进行多次模拟,取其平均值作为模型的结果,用这种方法来检验模型参数之间的关系取得了不错的成功。
但是,ABM研究中有一个非常重要的规律——模拟复杂系统的模型的初始设置,往往会影响甚至决定模型模拟的结果。复杂系统的初始条件决定行动者的空间分布,决定行动者所处的环境,甚至有时候决定着行动者的行为模式,因此复杂系统模型的初始化设置若不符合现实状况,便很难模拟出真实的社会现象,因而学者批评它们脱离了社会现实[1]。于是,ABM向着另外一端逐渐发展,为了加强ABM与现实社会的联系,一些研究者开始将实证数据引入ABM中,将实证数据与模拟结果的数据作对比,来检验模型结果的准确性,从而证明模型与现实世界的联系。这种将实证数据嵌入ABM模型中的方法,已经成为社会模拟中的新范式:数据驱动的自主行动者建模(data-drivenagent-basedmodeling,简称DDABM)。
二、如何将实证数据注入进ABM模型
数据驱动的自主行动者模型是指将实证数据引入ABM中,用实证数据来进行模型的校准(modelcalibration)和模型的检验(modelvalidation),从而确保模型的稳健性和准确性的一种社会模拟方法[2]。哈桑等人提出将实证数据引入ABM的5个步骤:(1)研究者需要从现实社会中收集实证数据;(2)根据实证数据(如方程、一般化和类型化的社会事实、专家提供的定性数据)、相关理论及研究者的研究假设来设计ABM模型;(3)根据社会调查、人口普查等实证数据来初始化模型;(4)运行模型,输出结果;(5)对模型进行检验,将模型输出的数据与实证数据进行比较,需要注意的是,为了保证模型检验和和模型设计相互独立,我们在进行模型检验时应避免使用于模型设计和初始化过程中所使用的相同的数据[3]。
总体上,研究者在进行ABM模拟时,需要将实证数据、模型建构和模型检验三者之间的关系看作是一个连续的、循环的过程,因为我们不仅需要通过ABM得出准确的模拟结果,也需要对模型中所体现的社会现象产生的理论机制进行实证检验[2]。因此,在数据驱动的自主行动者模型中,研究者既要在宏观层面上通过将模型产生的模拟数据与实证数据进行深入的分析和对比,来测量模型结果与现实的差距,从而检验模型的准确性。在微观层面上也要根据实证数据来建构模型,将模型的构成要素具体化,并且对其取值进行恰当的调整,即根据实证数据来选择构成模型的参数,并且确定这些参数的取值。
三、ABM中需要引入什么样的实证数据
数据驱动的自主行动者模型的目的是为了模拟现实社会现象发生机制,要求研究者既要在微观层面根据实证数据来选择和确定模型的参数,模拟出符合现实的行动者及其行动与互动的模式,也要在宏观层面用实证数据对模型结果与现实社会的吻合性进行检验,从而确保模型结果的准确性。这就需要充足、恰当的实证数据来保障ABM的准确性。那么,进行ABM建模和检验模型时,应该选择什么样的实证数据,这些数据又如何获得呢?
社会科学的调查方法可以用来收集实证数据,研究者既可以采用实验法来收集数据,也可以采用实证法(如定性、定量调查)来收集实证数据。
首先我们介绍实验法。假如研究者的ABM中,在决定自主行动者的规则时,需要研究在一定环境下的行动者的行为规则,以及行动者之间的互动规则,则可以采用实验法来获取数据。研究者可以设计实验来创造出相同的环境,并观察和记录在这一真实环境下,被实验对象的行为表现和行为对象之间的互动过程、互动模式等,最终帮助研究者获得行动者的行为和互动的规则。
其次我们介绍实证法。传统的社会科学研究,已经为社会科学的许多领域搜集了大量的定性和定量的实证数据。在ABM模型中任何可以被测量的变量都可以根据定量数据来设置,我们可以根据定量数据来设置模型中的参数,例如行动者的数量、各类行动者的比例分布,组织的规模分布,环境特征以及行动者之间的互动结构、维度以及互动模式等。而ABM模型中那些不能被测量的变量,则往往使用定性数据来设定。
此外,由于ABM是研究微观—宏观的多层次上的社会现象的演变,因此不同层次的数据在ABM中也发挥着不同的作用。低层次的群体和个体的数据,往往用于在对ABM模型中的自主行动者的行为规则制定、各类模型参数分布的设定和校对;高等次的整体动态数据,则往往用于检验模型结果。“当我们模拟的微观现象可以真实地反映个体的社会行动和互动,并且通过模拟所得出的宏观层面的社会现象能够与实证数据的特征相吻合时,我们可以称模型得到了交叉检验(cross-validation)”[2]。
四、实证数据在ABM模型中的应用与发展
近年来,一些研究者为数据驱动的自主行动者模型的发展作出了一些有益的尝试,实证数据在ABM中的运用在不断成熟和完善。早期实证数据在ABM中的运用仅仅局限于模型的某个方面,例如,著名的阿那萨吉文明模型(Anasazi civilization model)引入实证数据来提高模拟结果和历史数据的吻合度,研究者根据实证数据来设置模型的外生性因素(环境变量),但是模型中的初始化条件仍然是随机设置的[5]。
为了提高模型的准确性和模型与现实的吻合度,莫斯和埃德蒙兹提出要将实证数据嵌入到ABM的模型建构和检验中,在微观和宏观层面都要实现模型与现实进行交叉检验,他们对影响英国居民用水的社会因素进行模拟,建立了水需求模型(water demand models),并根据实证数据来设置模型的一系列参数(例如住宅地址、消费习惯和供水管理政策等)进行模拟实验,并且将模拟的结果与实际用水情况进行对比检验,发现模型取得了很好的效果[6]。
彼得·赫斯特罗姆除了将实证数据嵌入ABM中以外,还在模型中引入回归方程来建立了青年失业模型(Hedström model),在模型中,通过引入调查数据和回归方程来计算转移概率,更好地实现了模拟与现实的拟合。
为了获得更好的实证数据来创建和检验ABM模型,哈桑等人运用社会调查的方法来搜集相应的实证数据,建立门塔特模型(Mentat model)。为了研究西班牙从1980年到2000年的社会价值观的变迁,研究者对当地3000个人进行调查,并用这一调查数据来建构ABM模型来研究人口因素、经济、政治意识形态、宗教、家庭和友谊对社会价值观的影响,以及社会价值观的再生产过程。为了比较数据驱动的初始化模型设置和随机分布的初始化模型设置的模型模拟社会现实差异,作者还将随机的初始化设置的模型与基于实证数据设置初始化条件的模型进行对比,证明了随机的初始化设置的模型会与现实产生较大的偏差[7-8]。
最近,辛格等人将实证数据引入ABM模型来进行将数据驱动的自主行动者模型与传统的人口学研究结合起来,研究社会经济因素对个体的组建家庭的决策的影响和个体的婚姻选择对社会整体的婚姻选择模式变迁的影响,从而实现社会科学所追求的微观和宏观的链接[9]。在模型中,研究者根据韩国1990年的人口普查数据来初始化模型中的个体行动者,根据这一数据来设置行动者的年龄、受教育程度、性别和初婚年龄等参数,并且基于受教育程度与收入的函数来设置行动者的收入。通过模拟发现,个体的社会经济特征影响个体的婚姻选择,从而塑造出整个社会的婚姻选择模式;而社会环境的变化也会导致个体对婚姻选择的决策发生变化,进而又导致社会中不同年龄层的婚姻选择模式也会随着时间的发展而产生变化。
五、困难与机遇
在数据驱动的自主行动者模型中,是否有充足的实证数据,是决定模型能否准确模拟社会现实的决定性因素,然而和大多数实证研究所面临的问题相同,缺乏充足的、合适的实证数据成为数据驱动的自主行动者模型所面临的一大挑战。我们使用ABM模型,是为了研究多层次的、动态的复杂社会系统,而这种复杂社会系统,是通过无中心的、局部的、异质性的微观个体的互动自下而上地涌现出的。因此,我们在使用ABM对复杂系统进行建模时,需要掌握微观行动者的异质性特征以及行动者在不同环境下的行为规则和互动模式。而传统的社会科学的数据收集方法中,定量测量法难以包含大量的微观个体之间的网络和互动的数据;而定性测量法和实验法只能观测到在某种特殊的、单一的环境下的行动者的行动规则和互动模式。此外,无论是实证法还是实验法所搜集的数据通常都是一次性的、“快照式”的、非连续的数据。因此,根据传统的社会科学调查方法所收集的数据所建立的模型无法满足研究者模拟复杂的环境下的动态社会过程的需求。数据的缺乏使ABM的发展面临着瓶颈与挑战。
值得庆幸和期待的是,我们正在迎来一个新时代——大数据时代。随着互联网、移动互联网、和物联网的发展,日常生活中的各个方面、各种形式、每时每刻的数据都被记录下来,而随着大数据研究的推进,获取、处理和分析海量数据的技术也获得了突飞猛进的发展。大数据时代的到来为ABM研究提供了新的机遇,研究者可以通过获取大数据(Big Data),来解决ABM研究中数据缺乏的问题。至此,计算社会科学有两大发展脉络,基于自主行动者建模范式和基于大数据的计算范式在此又交汇,形成了大数据驱动下的ABM范式。
大数据为我们提供了每一时刻下环境和行动者的特征,以及行动者行动特征和互动的结果,根据这一连续的、动态的数据,我们可以观测到行动者在复杂环境中的行动规则和互动的模式,从而建构我们的ABM模型;此外我们可以根据某一时刻的行动者和环境的特征来设置和初始化模型的参数,再用下一时刻的环境和行动者特征的数据来检验模拟结果,并据此不断地调整模型的参数设置,通过这种方式,我们可以模拟出更加接近现实的复杂社会系统。
大数据驱动的ABM模拟这一计算社会科学新范式正在取得迅速的发展,为社会科学研究注入了新的活力,也带来了新的前景与期待。一场即将改变整个社会科学研究范式的革命号角正在吹响,我们将义无反顾地投入其中。
[1]Prietula M J,Carley K M,Gasser L.Simulating organizations:computational models of institutions and groups[M].The MIT Press,1998,1(6).
[2]Boero R,Squazzoni F.Does Empirical Embeddedness Matter? Methodological Issues on Agent-Based Models for Analytical Social Science[J].Journal of Artificial Societies & Social Simulation,2005,8(4):6.
[3]Zhang H,Vorobeychik Y,Letchford J,et al.Data-driven agent-based modeling,with application to rooftop solar adoption[J].Autonomous Agents and Multi-Agent Systems,2015(1):1-27.
[4]Hassan S,Pavon J,Gilbert N.Injecting Data into Simulation:Can Agent-Based Modelling Learn from Microsimulation[J].World Congress on Social Simulation,2008.
[5]DEAN,J.S.,Gumerman,G.J.,Epstein,J.M.,Axtell,R.L.,Swedlund,A.C.,Parker,M.T.,& McCarroll,S.Understanding Anasazi culture change through agent-based modeling.In Kohler,T.A.& Gumerman,G.J.(eds) Dynamics in human and primate societies:Agent-based modeling of social and spatial processes[M].New York:Oxford University Press,2000:179-205.
[6]Moss S,Edmonds B.Sociology and Simulation:Statistical and Qualitative Cross‐Validation[J].American Journal of Sociology,2005,110(4):1095-1131.
[7]Hassan,S.,Antunes,L.,Arroyo,M.:Deepening the demographic mechanisms in a data-driven social simulation of moral values evolution.In:MABS 2008:Multi- Agent-Based Simulation.LNAI:Lecture Notes in Artificial Intelligence[M].Lisbon:Springer,2008.
[8]Hassan S,Antunes L,Pavón J.Mentat:A Data-Driven Agent-Based Simulation of Social Values Evolution.[C]// Multi-Agent-Based Simulation X,International Workshop,MABS 2009,Budapest,Hungary,May 11-12,2009 Revised Selected Papers.2009:1337-1338.
[9]Sajjad M,Singh K,Paik E,et al.A Data-Driven Approach for Agent-Based Modeling:Simulating the Dynamics of Family Formation[J].Journal of Artificial Societies & Social Simulation,2016,19(1).
2016-10-12
国家社科基金重大项目“大数据时代计算社会科学的产生、现状与发展前景研究”(16ZDA086)的阶段性成果。
梁玉成(1971-),男,广西合浦人,中山大学社会学与社会工作系教授,博士生导师。研究方向:社会不平等、社会转型、计算社会科学;贾小双(1993-),女,湖北襄阳人,中山大学社会与社会工作系博士生。研究方向:计算社会科学。