计算人口学的学科范式、理论基础与技术方法
2021-03-23黄匡时
黄匡时
(中国人口与发展研究中心, 北京 100081)
一、计算人口学的诞生及其学科范式
人口学是典型的数据驱动(data-driven)的学科。没有人口统计数据就没有人口学,人口学与人口统计数据是一个硬币的两个方面。因此,人口学(demography)又翻译为人口统计学,是对人口死亡、出生、迁移等人口过程,以及对人口数量、结构、分布等人口结构进行统计分析的学科。人口学的诞生起源于对人口死亡数据的统计以及由此形成的生命表。1662年,英国学者格兰特(John Grant)的著作《基于死亡登记的自然和政治的考察》(Natural and Political Observations Mentioned in a Following Index, and Made Upon the Bills of Mortality)[1]出版,该书影响深远,多次再版。格兰特基于伦敦50万死亡数据的统计分析,在书中形成了世界上第一张生命表,成为数理人口学(Mathematical Demography)和规范人口学(Formal Demography)的开创者。后世人口统计学的发展也非常重视人口统计数据的收集和整理。如今,全球范围内也形成了很多高质量的人口统计数据库,包括人类死亡数据库(Human Mortality Database)、人类生育数据库(Human Fertility Database)和人口微观整合数据库(IPMUS)等。这些数据库的发展不仅依赖于计算机技术的快速发展,而且在数字化时代,人口统计数据库也将朝着更加广阔的关联数据库发展。
人口学其实是最早被计算机化(computational)的学科之一(Burch,1993)[2]。在计算机诞生之前,人口学基本是采用书面记录、手工汇总的方式进行统计分析并开展研究。但是,随着计算机技术的发展以及数理人口学的日渐成熟,人口统计学快速被计算机化。1974年,美国学者皮克(Pick,1974)[3]采用计算机程序编制了人口年龄金字塔。1976年,美国人口普查局开发了用于人口统计分析的计算机程序(Computer Programs for Demographic Analysis)(Arriaga, Anderson and Heligman,1976)[4]。1985年,美国学者莫德(Mode,1985)[5]将人口的随机过程编写成计算机程序,包括生命表和人口预测等。1988年,联合国人口司发布了人口统计分析软件MORTPAK,可以用来进行死亡、生育和人口预测等方面的分析(United Nations,1988)[6]。1997年6月24日,由美国国际发展局(U.S. Agency for International Development,简称USAID)资助,美国未来集团(the Futures Group)实施开发的SPECTRUM人口统计分析软件正式发布。2010年,中国人口与发展研究中心发布了国际人口预测软件PADIS-INT(翟振武等,2017)[7];2014年,随后又发布了人口综合决策支持系统PADIS+。中国在人口统计分析的计算机化方面走在了世界前列。
从目前学界现有文献来看,与哈佛大学拉泽等(Lazer,2009)[8]15位学者于2009年在《科学》(Science)提出计算社会科学(Computational Social Science)相比,计算人口学的提出要相对更早些。计算人口学(Computational Demography)一词的提出最早应是20世纪。随着仿真技术的快速发展,基于主体的计算人口学(Agent-Based Computational Demography)得到率先发展。2003年,意大利学者比拉尔(Billari)和德国马普人口研究所学者普斯卡韦茨(Prskawetz,2003)[9]联合主编了《基于主体的计算人口学》(Agent-Based Computational Demography)一书,详细介绍了如何使用基于主体的计算人口学模型(Agent-Based Computational Demography,简称ABCD模型)去改善人们对人口行为的理解。随后,越来越多的人口学者采用基于主体的模型研究人与关联生命体(linked lives)之间的婚姻和家庭关系(Todd,2005;Hills and Todd,2008;Diaz,2011; Fent,2013)[10-13]。2015年,德国学者沃恩克等(Warnke,2015)[14]开发了更加简化、通用的、基于主体的计算人口学软件ML3(Modeling Language for Linked Lives)。2017年,比利时学者戈洛和巴沃(Grow and Bavel,2017)[15]联合主编了《人口研究中的基于主体建模:概念、方法和应用》(Agent-based modelling in population studies: concepts, methods, and applications),系统地对人口研究中的基于主体的建模进行了分析和研究。
计算人口学的早期研究更多基于主体的计算人口学研究。因为基于主体的建模在分析人与关联生命(liked lives)之间的行为具有独特的优势,而且也是最容易被计算机化的分析技术和方法。随着人类社会互联网、大数据、人工智能等数字技术的快速发展,万物互联将成为可能并日益紧密,人与人之间的关联更加紧密(Giles,2012)[16]。人与经济、社会、政治、文化、心理、伦理等之间的关系更加密不可分,人口学与经济学、社会学、政治学、文化学、心理学、伦理学互相交织和融合。在一切可计算的社会,尽管所有社会科学的分支都可以单独成为计算社会科学的一支,但是逐渐融合却是必然。作为研究人的行为的科学,计算人口学是以人为核心(human-centered)的计算社会科学快速发展的基础,也是开展计算社会科学研究的钥匙和抓手。笔者认为,正因为如此,研究分析计算人口学具有重要的意义。
因为受互联网、大数据、人工智能等数字技术的驱动,计算人口学研究范式应运而生。与传统人口学研究范式相比,计算人口学研究范式具有五个方面的特征。第一,计算人口学的人口统计内容更加丰富多彩,由过去的轮廓式人口统计(profiling demography)向全景式人口统计(Panoramic demography)转变。轮廓式人口统计局限在人口的出生、教育、婚育、家庭、职业、居住、迁移、养老和死亡等重要人口事件的统计,人与人(linked lives)的关联更多局限在婚育家庭范围;而全景式人口统计则将轮廓式人口统计的基础上向经济行为、社会行为、心理行为、环境等拓展,人与人的关联超越婚育家庭,将关联更加广泛的经济社会环境。第二,计算人口学将弥合规范人口学(formal demography)和人口研究(population studies)的鸿沟,促进人口学的研究更加整合和规范。传统人口学方法长期存在规范人口学和人口研究两条脉络(宋健,2020)[17],但是随着互联网、大数据和人工智能等数字技术的快速发展,规范人口学和人口研究将加速计算机化进程,越来越多的综合性人口决策智能支持系统相继问世。比如,中国人口与发展研究中心开发的整合人口与经济、社会、资源、环境的人口综合决策支持系统PADIS+等。第三,计算人口学将引发人口研究方法的变革,由假想队列法(hypothesis cohort analysis)向拓展队列法(extended cohort analysis)转变。由于学界过去观察数据的不完整、不及时,常常用假想队列的方法测算预期寿命和总和生育率,即采用时期的年龄别死亡率和年龄别生育率作为一个假想队列的年龄别死亡率和年龄别生育率,这是合成的(Synthetic)、人工的(artificial)、虚构的(unreal)统计指标。随着人口统计数据更加丰富、及时,队列的真实数据将更加及时、全面,更加接近完全队列法(cohort analysis)的拓展队列法(extended cohort analysis)成为可能。第四,计算人口学认为,人类的一切行为皆可被数字化和可被计算,人口的内涵不再局限在人类人口,而是向数字人口和智能人口拓展。随着人类的行为和生活逐渐被数字化,人口的部分功能,比如一些劳动属性开始剥离,由机器替代,或者人机协同,由此,人口的内涵向数字人口和智能人口拓展(黄匡时,2020)[18]。第五,计算人口学则认为,人与人更加密切地通过数字化方式联系在一起,过去偏重群体统计的宏观人口学(macrodemography)将向更加注重个体统计的微观人口学(microdemography)转变。传统人口学更加关注宏观人口统计,而计算人口学则认为,微观人口统计将更加注重个人生活史、个人婚姻家庭关系史、个人生育史、个体健康管理等方面的研究和分析,并在此基础上实现微观人口学和宏观人口学的连接。总体而言,与传统人口学研究范式相比,计算人口学具有独特的学科范式,体现了数据密集型的科学研究范式(孟小峰、张祎,2019)[19]。
二、计算人口学的理论基础
计算人口学是由互联网、大数据和人工智能等数字技术直接催生的新兴学科,不仅有其鲜明的时代特征,而且有其深厚的理论基础,主要体现在三个方面。
(一)第三次人口转变理论
经典的人口转变理论(即第一次人口转变理论),是由法国人口学家A·兰德里(Landry)始创,后经过美国人口学家汤普森(Thompson)的润色加工,到1945年美国人口学F·W·诺特斯坦(Notestein)基本成型。它指的是传统型人口再生产类型(即高出生率、高死亡率和低自然增长率)经过渡型人口再生产类型(高出生率、低死亡率和高自然增长率)向现代型人口再生产类型(即低出生率、低死亡率和低自然增长率)转变的过程。经典的人口转变理论较好地解释了现代化进程与人口再生产类型之间的关系。欧洲国家在第二次世界大战前基本完成了第一次人口转变,并且在20世纪60年代开始,再次呈现了新的人口变动特征。荷兰学者范德咖(Van de Kaa)于1986年提出第二次人口转变理论。他认为,与第一次人口转变相比, 第二次人口转变无论在深度、广度, 还是在变化的机理方面,都有很大的不同。这主要表现为:(1)从婚姻的黄金时期转向同居的破晓;(2)从孩子为王的时代转向以伴侣为中心的时代;(3)从预防性的避孕转向自我实现的避孕;(4)从单一家庭模式转向多元化的家庭户模式[20]。这四个转移在人口学的指标上表现出15个顺序的变化,包括同性婚姻合法化、婚外生育被社会认同,等等(蒋耒文,2002)[21]。
第二次人口转变已经过去30多年。21世纪以来,随着计算机技术、互联网、大数据、人工智能等数字和计算技术的快速发展,人类的人口再生产呈现出新的特征。(1)医学和生物学技术,尤其是生殖辅助技术快速发展,冻卵、无精生殖、单性生殖,以及智胚胎切割克隆等技术的成功或许不是梦想(乔杰,2008)[22],生育与女性身体开始剥离;(2)机器人的大量兴起,并在很多体力繁重、高强度、高风险的领域替代人类劳动,成为与人类相当的重要劳动力,甚至在体力和智力等方面超过人类劳动力;(3)人类生活和工作以及休闲日益被数字化,人类的数字孪生体日渐成型,成为与人类平行存在且与人类紧密关联的主体,人机协同将成为人类生活、工作和休闲的常态;(4)模拟人类智慧的人工智能的兴起并快速发展,人类的解放由体力解放向脑力解放拓展,人口再生产已经向智力再生产转变(黄匡时,2020)[23];(5)数字化让人类更加紧密联系在一起,人口的劳动和消费以及迁移已经数字化和全球化,同时,人口再生产已经数字化、网络化、全球化。由于人口再生产的这些变化,使得人类正在经历新的人口转变,人们称之为第三次人口转变。第三次人口转变是第一次人口转变和第二次人口转变的客观必然。前两次人口转变导致的低生育率和低自然增长率是人口再生产的“内卷化”(involution),无法解决人口再生产的可持续性问题,而第三次人口转变则与前两次人口转变完全不同的,是人口再生产的“外生化”(externalization)——即通过机器人等数字人口来弥补人类的低生育率和低自然增长率,从而实现人口再生产的新平衡。
(二)主体性理论
人的主体性(Subjectivity)问题一直哲学和社会学理论的核心内容。自欧洲启蒙运动以来,现代性理论一直在思考人的主体性的价值意义(郑杭生,杨敏,2006)[24],指出主体性是现代性的核心原则。哈贝马斯(Habermas,1987)[25]认为,现代性是一种觉醒的时代意识,并以理性为基础,以人的主体的自由为标志。回顾人类发展历史,人类现代化进程就是人的主体性不断拓展和丰富的过程,尤其是科技革命更使人类的主体性达到前所未有的程度。20世纪下半叶,以福柯、利奥塔、德里达为主要代表的后现代主义从主体概念本身、逻辑(理性)中心主义、乐观主义三个方面对主体性进行彻底摧毁和全盘否定。有学者认为,哈贝马斯通过建立在主体间性的沟通理性理论对主体性进行了拯救,从主体哲学到主体间性哲学的转变只是解释范型本身的改变,而不是主体性的消解;建立在主体间性基础上的沟通理性理论可以克服人类中心主义的困境;主体性本身就意味着主体间性;人类主体性的异化根源于工具理性的膨胀和生活世界的抽象化,在沟通理性中可以克服主体的异化(刘日明,2001)[26]。有学者指出,马克思认为主体性具有实践主体性(人与自然的主体与客体关系)、价值主体性(主体性的物质需要和精神需要)和社会主体性(主体性不仅是个体主体,更体现为群体主体性)的三个维度(骆郁廷,2009)[27]。
主体性理论是计算人口学的发展的重要理论基础,尤其是在机器人和人工智能的主体性方面提供了丰富的理论解释。目前,学界围绕关于机器人和人工智能的主体性方面主要存在两种观点。第一种观点认为,机器人和人工智能本身是人类主体性的拓展,不具备主体性。孙祥飞(2016)[28]认为,机器人参与新闻写作和报道,既不是取代新闻工作者的主体性,也不是否定新闻工作者的主体性,恰恰相反,是延伸和强化了人的主体性。正所谓荀子在《劝学篇》中所说“君子性非异也,善假于物也”。张劲松(2017)[29]认为,人工智能在思维能力上无法超越人类思维和意识的整体性,对于感官和人脑的模拟仍处于机械化阶段,更不能产生人类主体性所依赖的社会关系和实践基础。因此,人工智能无法复制、模拟和超越人类主体性。朱建华和甄航(2019)[30]认为,基于认知科学的五个层级理论,人工智能在神经层级、心理层级、语言层级、思维层级、文化层级都无法与人类匹敌,其只是对人类智能形式上的简单模拟,由此结合塞尔“中文房间模型”研判,认为人工智能并不具备刑法意义的“辨认能力”与“控制能力”,故当前的刑法理论不必将人工智能视为刑法主体性,可将其作为“犯罪工具”和“犯罪对象”对待。第二种观点认为,机器人和人工智能具备独立意识,能够独立做出判断,具有独立的权利能力、行为能力和责任能力,主张法律应赋予其权利和义务,将其法律地位等同于自然人或拟制的法律主体。持这种观点的学者大都基于“电子代理人说”,即将智能机器人视为其“所有人”的代理人。“电子代理人说”则将机器人的用户或者操作者与机器人(人工智能体)的关系认定为法律代理关系中本人与代理人的关系。电子代理人说得到很多国家的认可。1999年8月,美国统一州法全国委员会通过的《统一电子交易法》(Uniform Electronic Transactons. Act)(修订稿)第2 条对“电子代理人”进行了定义:“系指非经人的行为或审核,全部或部分独立地发起某种行为或应对电子记录或履行的计算机程序、电子手段或其他自动化手段。”(1)https:∥delcode.delaware.gov.title6/c012a/index.shtml。1999年,加拿大通过的《统一电子商务法》(Uniform Electonic Commerce Act)同样使用了“电子代理人”一词(2)https:∥www.ulcc.ca/en/uniform-acts-new-order/older-uniform-acts/703-electronic-commerce/1793-uniform-electronic-commerce-act-consol-2011。。2016 年5月31日,欧盟委员会法律事务委员会提交一项动议,要求欧盟委员会把正在自动化智能机器工人的身份界定为电子人的身份,并赋予这些机器人依法享有著作权等特殊的权利与义务(张勇,许亚洁,2020)[31]。当然,不少学者持“有限法律人格说”,认为强人工智能的机器人具有自主性和适应性特征,从法律技术上可以承认其主体人格,赋予其拟制主体地位,而弱人工智能则不具备自主性,不应纳入拟制主体地位。因此,有学者指出,可以在有限范围内承认人工智能法律拟制人格,而且机器人的法律权利有别于人类的“自然权利”,具有拟制性、利他性以及功能性等(张勇,许亚洁,2020)[31]。
无论学界是支持人工智能主体性的观点,还是否定人工智能主体性的观点,但毫无疑问的是,主体性理论都会深化数字化时代人类主体性的理解,加深人类对人类本身与机器人等数字人口在主体性上的相似性和差异性的研究,成为计算人口学的重要理论基础。
(三)天人合一理论
天人合一是我国传统文化中重要的哲学思想(张岱年,1985)[32],儒、道、释等诸家各有阐述。天指自然和天道,天人合一多指人与道合而达到“天地与我并生,万物与我为一”的境界。当今,5G技术快速发展,正在实现万物互联、智慧家居和无人驾驶,而且6G技术即将到来,人与万物的联通即将实现。因此,5G是万物互联,6G就是天人合一;同时,在“万物互联”的数字化时代,“以人为本、天人合一”思想将为计算人口学提供丰富的营养。
人机一体化理论和人- 机- 环综合决策理论都是天人合一思想的重要体现。路甬祥(1994)[33]在分析人与机器的各自优缺点的基础上,结合思维科学理论、信息科学理论、人工智能技术和机械科学的新进展,提出了人机一体化(Humachine)的思想,并在思维、感知和执行三个不同层面上对人机一体化系统与技术思想进行了立论。后来,越来越多的学者提出了“人机融合”“人机融合体”“人机智能”“人机智能体”及“人机融合智能系统”等概念,这些都体现了人机融合的思想。黄孝鹏等(2012)[34]创造性地提出“人即服务”的理念,将人以服务组件的形式“浸入”到决策系统中,进而凝练出与“硬件”和“软件”相对应的“人件”与“人件服务”的概念,认为人件(Humanware) 是参与决策活动的人,可由个人、群体或组织提供,具有决策者的认知(认知共享)特征,是针对新型决策系统中人机高效协作问题所提出的一种概念,为探索将人的高级智慧融入到决策系统中提供突破口;人件作为决策系统组成要素之一,同硬件、软件一起接受系统统一管理和调度,并和它们相互紧密协作完成决策任务,为设计和实现能充分体现决策者浸入及认知特征的人机协同决策系统提供先进的思路,成为以人为中心的系统组件理论重要内容。刘伟(2019)[35]认为,人机协同是一种由人、机、环境系统相互作用而产生的新型智能形式,采用分层的体系结构,即人类通过后天完善的认知能力对外界环境进行分析感知,其认知过程可分为记忆层、意图层、决策层、感知与行为层,形成意向性的思维,而机器通过探测数据对外界环境进行感知分析,其认知过程分为目标层知识库、任务规划层、感知与执行层,形成形式化的思维。相同的体系结构指明人类与机器可以在相同的层次之间进行协同。励建安(2020)[36]认为,康复机器人是康复专业人员的又一条手臂,而不是替代康复专业人员,这体现了“人机融合”的理念,而且人机之间最大的结合点是人的思维和意图识别,机器人最难突破的是人类具有的道义感和仁爱心,康复机器人贯穿着改善- 代偿- 替代- 环境改造的康复路径,体现了天人合一的健康理念。
三、计算人口学的技术方法
计算人口学是人口学和计算机技术的交叉学科,其技术方法既有传统人口学方法上的创新发展,比如,与纸质调查不同的在线调查和在线实验,与假想队列方法不同的拓展队列法等,也有计算机技术的延续和发展,比如,主体建模方法和在线谱系学。本文主要介绍计算人口学的四个主要技术方法。
(一)拓展队列法
学界采用完全队列法(cohort analysis)计算平均寿命,需要等该队列的所有人去世后才能计算出来;同样,采用完全队列法计算生育水平,需要等该队列的所有育龄妇女度过其49岁的育龄期才能统计出来;而当这个队列的平均寿命和平均生育子女数计算出来之后,对这个队列的平均寿命和生育水平等统计指标不仅缺乏政策补救价值,而且也无法反映当下的预期寿命和生育水平。因此,人口学常常采用假想队列法(hypothesis cohort analysis),用时期的年龄别死亡率和时期的年龄别生育率作为一个假想队列的年龄别死亡率和年龄别生育率,由此核算平均预期寿命和总和生育率,用来反映当下的预期寿命和生育水平。受年龄和时间的自然规律的限制,我们根本不可能用完全队列法来测量当前的预期寿命和生育水平,只能用假想队列法来替代完全队列法,这是一种退而求其次的策略。然而,在数字化时代,微观个案数据日益丰富,使得我们可以采用更好的方法来替代假想队列法,即拓展队列法(extended cohopt analysis)。虽然拓展队列法不是完全队列法,但是更加接近完全队列法。
图1 完全队列法、假想队列法和拓展队列法(以总和生育率为例)
拓展队列法的诞生有其时代背景,有两个条件催生了拓展队列法。一是微观个案数据的丰富,不仅覆盖了接近全员的微观个案,而且所有微观个案的信息丰富,这使得的个案健康管理和生育行为具有稳定的可预测性;二是微观个案的相关数据信息及时、准确,从而可以实现个体的行为规律的及时分析和预测,而这两个条件正是数字化和人工智能时代可以满足的。因此,拓展队列法就是数字化时代的产物,有其客观必然性。拓展队列法的基本思路是基于微观个案的大数据,根据死亡和生育行为的相关预测算法,预测所有微观个案的死亡和生育规律,由此形成了基于拓展队列法的全员人口的完全队列信息,然后基于相邻队列法修正所有个体的预测值,由此获得基于拓展队列法的平均预期寿命和生育水平(见图1)。拓展队列法不仅可以矫正假想队列法获得的统计指标,而且还可以获得拓展后的全员人口的完全队列统计指标。
(二)在线调查与实验
在线调查(online surveys)与互联网的发展紧密关联。欧美和日韩的互联网发达,在线调查非常成熟。虽然我国在线调查才刚刚起步,但是近年来,随着互联网的快速发展而迅速成长。2020年9月29日,中国互联网络信息中心(CNNIC)发布第47次《中国互联网络发展状况统计报告》(3)http:∥www.cnnic.net.cn/hlwfzyj/hlwxzbg/hlwtjbg/202102/t20210203_71361.htm。,截至2020年12月,我国网民规模达9.89亿,互联网普及率达70.4%,并因互联网、大数据和人工智能等大数据的快速发展催生了在线调查。与线下面对面的入户调查不同的是,在线调查凭借互联网技术,将设计好的问卷放在网上,等待任意网民或者特定的网民自行填答。因此,在线调查具有低成本、高速度、跨越时空局限、有着丰富的表现形式、具有智能化及互动性等优点(黎沛姿,谭北平,2005)[37]。然而,在线调查也存在显而易见的局限,比如,样本的代表性问题。我国网民中68.7%是城镇网民,高于我国的城镇化率(60.6%)①,而且年龄别结构也与总人口的结构分布存在偏差。因此,在线调查的样本肯定是有偏差的,需要加权处理。此外,在线调查的答题过程缺乏交流和监控,填答者在答题的情景也多种多样,这些都可以影响答题的可靠性。正因为如此,关于在线调查数据的清理和修正技术也在不断发展(李军军,李应荣,2005)[38]。
在线实验(online experiments)就是在互联网上开展的实验研究,又称为基于互联网的实验(web-based experiment,Internet-based experiment)。在线实验因其成本低、高效率、匿名性、主题广等特征而受到研究着的喜爱。比如,互联网心理学实验室开展暴力网络游戏的实验,即通过在游戏中增加暴力射杀等血腥元素,由此考察玩家对攻击性行为的认知以及暴力视频游戏的短期脱敏效应,揭示研究变量之间的因果关系。又如,在线社交网络控制实验通常分为嵌入模式和平台模式,嵌入模式通常直接在真实的大尺度社交网络(如Facebook and Twitter)上进行实验,实验规模巨大,通常涉及数万乃至数千万用户,而平台模式是一种将传统线下控制实验转移到线上平台执行的模式,充分利用互联网和计算机技术,扩大了线下实验的规模,同时能够对更复杂的影响因子进行控制,并模拟部分在线社交网络的操作与特征,更便于进行社交网络结构演化以及心理学实验研究(金诚等,2020)[39]。此外,眼动实验(eye movement experiment)也是一种常见的在线实验,主要观察消费者认知过程和识别具体眼动轨迹的方法,能够发现消费者策略和探索潜在的认知过程,在分析在线评论对消费者的认知的影响中得到广泛应用(伍玉婷,2020;唐晓莉,宋之杰,2020)[40-41]。
与在线调查相比,在线实验具有更高的技术难度。相比于实验室实验,在线实验对实验条件的控制更弱,往往采用可控性低的电子邮件、APP等工具。有些在线实验准入门槛高,成本也巨大,比如要在社交网络上开展实验嵌入式实验就会面临准入门槛的问题。目前在线社交网络集中在少数大型企业手中,普通研究人员不具备开展控制实验的条件。而且在线社交网络的控制实验需要依靠特定的APP,软件开发和大数据清洗、甄别、标注和分析等需要高昂的成本,制约了控制实验的普及。此外,在线实验也会面临一些法律和伦理道德的问题,比如侵犯用户个人隐私,不仅有悖于科学研究的伦理道德,甚至可能违法(金诚等,2020)[39]。
(三)在线谱系学
谱系学(genealogy),俗称家谱。家谱中承载着世系表资料,记载着每个家庭成员的出生日期、婚育状况、迁移信息和死亡日期等信息,是开展人口学研究的宝贵资料,可以开展预期寿命、生育水平、人口年龄结构、人口迁移等方面的研究(Clark,2014;李会敏,2015;Fire and Elovici,2015)[42-44]。在计算机技术普及之前,人类的家庭基本都是通过书本记载,随着从计算机技术尤其是互联网技术的快速发展,在线谱系学应运而生。在线谱系学包括两个方面的内容:一是历史家谱的计算机化,俗称网上修谱;二是在世人口的谱系化过程,即将人与人建立在线关联(linked lives)。
历史家谱的计算机化就是家谱档案的数字化过程。其中,建设家谱数据库和家谱网站就是家谱档案数字化的主要方式。美国国家档案与文件署、英国国家档案馆、澳大利亚国家档案馆、加拿大国家图书馆与档案馆都非常重视家谱数据库的建设,不仅建设了规模庞大的家谱数据库,而且还放到网站上供查询使用。我国国家图书馆数字图书馆、上海图书馆、浙江图书馆等都开设了家谱数据库(韦加佳,2014)[45]。家谱网站最早可以追溯到1983年美国的世系网(Ancestry)(4)https:∥www.ancestry.com。。如今该网站包含了270亿条记录和1亿个家庭树(family tree),是全球最大的家谱网站。该网站还可以通过注册,建立自己的账号,并将自己的家庭成员进行关联,由此实现在世人口和已离世的先祖的谱系化过程。世系网(Ancestry)包括了出生、婚育、死亡、移民等丰富的人口信息,是人口学的宝贵数据。如今,在线家谱网站和在线家谱的手机APP快速发展(张振霞,2019)[46]。人们可以通过手机APP就可以将自己与家人和族人建立关联。如果人人都成为在线家谱的一部分,那么整个世界的人口都可以纳入到在线谱系中。迈赫里蒂奇公司(MyHeritage)于2012年建立的杰尼网(geni)在线谱系学网站(5)https:∥www.geni.com。,一直致力于将整个世界的人口吸引到该网站中。目前,该网站覆盖了过去400年的8 600万个案(profiles)和1 300万的世系(pedigrees),其中55%来自欧洲,30%来自北美。卡普兰尼斯等人(Kaplanis,等,2018)[47]基于杰尼网(geni)的家庭树数据进行了清洗和分析,发现其人口统计数据存在偏差,并进行了偏差校正。
在线谱系学是计算机技术发展的必然,是实现世界人口数字化链接(digital linked)有效途径。由于追溯性固有的缺陷,采用在线谱系学建构的数字家谱必然存在一定的偏差,当然,这种偏差是可以修正的,而且随着未来世界人口数字化和谱系化进程的推进,这种偏差会越来越小。
(四)主体建模技术
主体建模又称为智能体建模(agent-based modeling),是一种基于计算机技术的建模方法,广泛应用于社会科学研究。诺贝尔奖得主、经济学家托马斯·谢林(Thomas Schelling,1971)[48]对种族隔离的主体建模实验研究、政治学家罗伯特·阿克塞尔罗德(Robert Axelrod,1984)[49]对囚徒困境的主体建模研究、爱普斯坦和埃克斯特(Epstein and Axtell,1996)[50]对人工社会的主体建模研究等都是主体建模在社会科学领域的经典研究。由于人口学具有较规范的数理渊源和很强的实际政策应用,因此,主体建模方法在人口预测、婚育过程、家庭关系、迁移、养老支持、家庭政策等人口学领域得到广泛应用(Billari and Prskawetz,2003; Grow and Bavel,2017)[9,15],并形成了一系列主体建模软件和平台,比如MIMOSE(Mohring,1996)[51]、ML3(Tom Warnke et.la.,2015)[14]和JAS-mine(www.jas-mine.net)(Richiardi and Richardson,2017)[52]。其实,计算人口学就是微观人口仿真(microsimulation)技术以及主体建模(agent-based modeling)技术的基础上发展起来的,因此,主体建模技术是计算人口学的经典技术方法。
主体建摸技术之所以成为计算人口学的经典技术方法,主要因其有一些独特优势(陈禹,2003;Fagiolo and Roventini,2012;隆云滔,2018)[53-55]。(1)以微观个体为出发点,自下而上对宏观人口现象进行建模,因此,可以充分地发挥作为主体或智能体的主体性和智能性以及异质性(比如人与人、人与机器的差异)优势;(2)主体有限理性且具有学习本性,比较符合作为主体的人和机器以及群体的特性;(3)主体间非线性的直接交互(包括竞争),而且从宏观到微观的回路也是非线性的(包括不确定性),比较符合人与人、人与群体、人与机器、人与机器群之间的互动关系。计算人口学中的主体建模分析方法是通过计算机技术模拟出一个人工人口或虚拟人口(也是数字人口),并通过设置各种人口变量来模拟人口过程,为解释人口现象提供了一种动态分析路径。通常,主体建模技术方法需要三个方面的建模工作:一是为主体设置一个模型,包括主体的基本属性、行动规则和规则解释器;二是为主体所在的社会或自然环境建模,包括主体之外的所有社会关系和社会网络;三是为主体的运行过程建模。主体建模本质上是一个形式逻辑模型,可以理解各种情景下的人口过程和人口结构的“结果涌现”(outcome emergence),更适合理论的发展和解释,为解决具体问题提供情景参考。当然,主体建模技术作为一个形式逻辑,只能接近真实的人口过程,现实中依然需要结合实证数据来研究具体政策(黄璜,2010)[56]。此外,主体建摸技术的技术门槛较高,尤其在万物互联的数字化时代,主体建模技术面临新的机遇与挑战。
四、计算人口学面临的挑战与建议
计算人口学的兴起具有鲜明的时代特征。当前,互联网、大数据、云计算、人工智能等数字计算正蓬勃发展,尤其是2019年底新冠肺炎疫情全球暴发后,数字技术加快发展,计算人口学迎来了良好的发展机遇。随着互联网普及率不断提高,越来越趋向覆盖全员目标人口。5G技术加快普及,6G技术即将到来,人与人之间、人与机之间、人与环境之间的融合速度前所未有,而且颠覆经典超级计算机的量子计算技术加快布局,成为推动计算人口学快速发展的重要推动力。同时,以互联网、物联网、5G和6G通信技术、量子计算、人工智能、数字孪生等为代表的数字技术群落不断融合、叠加和迭代升级,为数字经济发展提供了高经济性、高可用性、高可靠性的技术底座,构建了驱动数据密集型的科学研究范式快速发展的基础设施,为计算人口学的蓬勃发展提供了重要的技术生态。2020年12月28日,国家发改委发布《关于加快构建全国一体化大数据中心协同创新体系的指导意见》的通知,提出“到2025年,全国范围内形成一批行业数据大脑、城市数据大脑,全社会算力资源、数据资源向智力资源高效转化的态势基本形成”的建设目标(6)http:∥www.gov.cn/zhengce/zhengceku/2020-12/28/content_5574288.htm。,为“十四五”时期我国计算人口学的发展创造了良好的政策环境。
(一)机遇与挑战
作为一门新兴科学,计算人口学也面临诸多挑战(王飞跃,2010;孟小峰,2013;张小劲,孟天广,2017;David,2019)[57-60]。第一,是计算人口学属于计算机科学和人口学的交叉学科,面临交叉学科的技术方法和激励机制以及学科结构等方面的挑战。由于计算人口学在技术方法上需要一定的计算机编程技术,至少需要熟练R语言或Python语言等计算机编程技术,而且还需要对人口学的行为规律算法熟悉,因此计算人口学的研究人员既要懂得计算机编程又要熟练数理人口学的算法。第二,计算人口学所需要的密集型大数据分散在公共机构和私营企业中,面临数据整合和共享的挑战。与公共机构共享微观人口数据不同的是,掌握大量微观人口的社交网络、出行轨迹、消费等行为数据的私营企业在数据共享上缺乏有效的共享激励,由此制约了计算人口学家的数据使用。第三,计算人口学面临数据收集和使用、信息共享、调查和实验、算法规则等方面的规范不健全的挑战。第四,计算人口学也面临隐私保护和伦理道德等方面的挑战。计算人口学的研究与个人数据紧密关联,往往不可避免涉及伦理道德,加上计算人口学面临的科学风险常常会成为个人隐私保护和伦理道德等方面的借口,从而制约计算人口学的科学研究。
(二)政策建议
我们在机遇和挑战面前,应该采取有效措施力促计算人口学健康有序的发展。第一,需要加强协作,不仅要加强跨学科协作,而且还需要加强产学研协同创新发展,实现政务大数据与企业大数据的融合和共享;第二,要加强以人为中心、人- 机- 环协同融合的数据密集型基础设施建设,加快人类数字化、智能化和协同化进程;第三,要加强计算人口学在数据收集和使用、信息共享、调查和实验、算法规则等研究规范建设,既可以学者自觉倡议,形成学术研究共同准则,也可以通过法律等进行规范;第四,丰富计算人口学在解决实际问题方面的应用场景,包括促进数字经济发展、人口安全和可持续发展、疫情防控、人口普查和监测、增强政策包容性、公平性和可及性等方面;第五,关注计算人口学对个人安全、隐私保护、道德伦理等方面的影响,加强科学知识普及和宣传,合理引导科学研究和社会舆论。