全球人口贩运规模的估算方法研究

2023-12-25张晓东杰奎琳拉森艾里克木艾合买提

河南警察学院学报 2023年5期

张晓东,杰奎琳 ·J·拉森(著);艾里克木·艾合买提(译)

2019年,一群应用方法学家和统计学家聚集在爱丁堡,就如何使用各种技术对现有记录进行三角测量或多系统估算以改进人口贩运流行率估计进行了为期两天的热烈辩论。在这两天里,专家学者从不同视角对不同环境中应如何进行人口贩运的多系统估算进行了有益的交流和讨论,并针对如何利用现有记录提高人口贩运流行率估计提出了建议。笔者认为,不同的研究方法在人口贩运领域有其不同的优势,因此希望通过本文的分析为改进人口贩运流行率估计提供一个更为全面的视角。

自20年前通过《联合国禁止人口贩运公约》(也称《巴勒莫公约》)以来,由西方国家领导的经常关注性贩运活动的反人口贩运运动已经蔓延到世界各地。《巴勒莫公约》确定了人口贩运的法律定义(1)《巴勒莫公约》规定: 人口贩卖是指通过威胁或使用武力,或其他形式的胁迫、绑架、欺诈、欺骗、滥用权力或脆弱性,或通过贿赂,为剥削目的而招募、运输、转移、窝藏或接收人员,以支付或给予利益的形式获得控制他人的人的同意。剥削至少包括剥削他人卖淫或其他形式的性剥削、强迫劳动或服务、奴役或类似于奴役的做法、奴役或摘除器官。https://www.ohchr.org/zh/instruments-mechanisms/instruments/protocol-prevent-suppress-and-punish-trafficking-persons.——译者注,为全球大多数国家所支持,迄今为止,多数国家已经批准了《巴勒莫公约》,并建立了打击人口贩运的法律和结构性机制。反人口贩运活动也得到了来自政府机构和民间社会的极大关注,他们纷纷投入资源,根据联合国大学研究人员的一项研究,在2000年至2013年期间,有30个国家为打击人口贩运进行捐助,总投入超过40亿美元,其中美国是最大的资金来源,约占全球总量的60%(2)Gleason, K. &Cockayne, J. (2019). Official development assistance and SDG Target 8.7: Measuring aid to address forced labor, modern slavery, human trafficking and child labor, United Nations University Centre for Policy Research, September 2018. Retrieved July 3, 2021, from http://collections.unu.edu/eserv/UNU:6612/Development_Assistance_and_SDG_Target_8.7_FINAL_WEB_7_.pdf.。

一、人口贩运流行率估计的问题

尽管全世界都在关注人口贩运,各国都在努力打击人口贩运活动,但对于人口贩运的全球数据及各地的人口贩运问题的严重程度仍然不甚清楚,不同渠道获得的数据一片混乱。例如,奥基克(Okech)等人对94篇文章进行综合分析后发现,目前的许多人口贩运研究缺乏对贩运的明确概念和定义,也没有为项目、实践和政策提供循证实证研究的信息(3)Okech, D., Choi, Y. J., Elkins, J., &Burns, A. C. (2018). Seventeen years of human trafficking research in social work: A review of the literature. Journal Of Evidence-Informed Social Work, 15(2), 102—121. https://doi.org/10.1080/23761 407.2017.1415177.。各种各样的估计值在研究者及他们的作品中流传,以至于研究人员也质疑一些信息来源的真实性,而这些信息来源恰恰是推动全球反人口贩运运动的源泉(4)Weitzer, R. (2011). Sex trafficking and the sex industry: The need for evidence based theory and legislation. Journal of Criminal Law and Criminology, 101,1337—1370.Weitzer, R. (2014). New directions in research on human trafficking. The ANNALS of the American Academy of Political and Social Science, 653(1), 6—24.Zhang, S. X. (2009). Beyond the “Natasha” story: A review and critique of current research on sex trafficking. Global Crime, 10, 178—195.Zhang, S. X. (2012). Measuring labor trafficking: A research note. Crime, Law, and Social Change, 58, 469—482.。例如,费迪娜(Fedina)对有关人口贩运流行率研究的文献进行了系统的回顾,发现绝大多数已出版的书籍使用的都是没有严格出处的数据。因此,费迪娜警告说,如果继续使用这些未经证实的数据,可能会误导甚至会对反人口贩运运动有害(5)Fedina, L. (2015). Use and misuse ofresearch in books on sex trafficking: Implications for interdisciplinary researchers, practitioners, and advocates. Trauma, Violence and Abuse, 16(2), 188- 198. https://doi.org/10.1177/1524838014523337.。怀哲列举了一些值得注意的流行率估计的宏观数据的具体例子,这些估计似乎都没有什么意义,且经验数据有限(6)Weitzer, R. (2014). New directions in research on human trafficking. The ANNALS of the American Academy of Political and Social Science, 653(1), 6—24.。这些批评者质疑一些关于人口贩运的普遍说法的经验基础:(1)全球范围内的人口贩运受害者数量巨大;(2)人口贩运的规模在全球范围内稳步增长;(3)人口贩运是仅次于非法毒品和武器交易的第二或第三大有组织犯罪行业。这些研究人员呼吁,要更多地关注和强调收集原始数据,以支持政策制定,并指导执法和干预工作。

尽管大家对进行各种流行率估计的方法的适当性和严谨性有不同意见,甚至提出了质疑,但进行流行率估计仍有政治和道德上的必要。为了向政策制定者、受害者支持团体以及执法机构提供信息,许多研究人员已经开始着手这一工作——估算黑数的大小。毫无疑问,我们需要可靠的估计,但现实往往充满了复杂性和挑战,这早已为研究界所注意到(7)De Cock, M. (2007). Directions for national and international data collection on forced labor (Working Paper No.30). International Labor Organization.Gozdziak, E., &Collett, E. A. (2005). Research on human trafficking in North America: A review of literature. International Migration, 43(1/2), 99—128.International Labor Organization. (2011). Hard to see, harder to count: Survey guidelines to estimateforced labor of adults and children. Author.Laczko, F., &Gozdziak, E. (2005). Data and research on human trafficking: A global survey. International Migration, 43(1/2), 5—16.Laczko, F., &Gramegna, M. (2003). Developing better indicators of human trafficking. Brown Journal of World Affairs, 10(1), 179—194.Tyldum, G., &Brunovskis, A. (2005). Describing the unobserved: Methodological challenges in empirical studies on human trafficking. International Migration, 43(1-2), 17—34.Zhang, S. X. (2009). Beyond the “Natasha” story: A review and critique of current research on sex trafficking. Global Crime, 10, 178—195.。

人口贩运流行程度的估算所面临的挑战很多,总体上可归纳为两类:(1)计算规则(即,将什么算作人口贩运活动);(2)估算方法(即,用于估算受害者人口规模或问题范围的数据收集和计算方法)。

第一类问题涉及将国际的或某个具体国家的法律框架应用到执行措施或调查文书。这不是一件容易的事,因为关于如何将法律框架转化为具体项目的协议很少,再加上与受害者档案相关的风险/保护因素的额外措施,本来严谨有序的法律条文很快就会变得混乱不堪。我们这些多年来从事初级数据收集工作的人可能会同意,获得人口贩运有效估计的一个主要障碍是普遍缺乏研究人员可以用于数据收集目的的一致和统一的措施(8)Zhang, S. X. (2012). Measuring labor trafficking: A research note. Crime, Law, and Social Change, 58, 469—482.。许多研究报告了劳工贩运的流行率估计,其中研究人员都声称遵守了《国际劳工组织公约》《联合国巴勒莫公约》和《美国人口贩运受害者保护法》(TVPA)的法律框架。比较分析更是几乎不可能,因为在法律框架实施方面,即将法律概念实际转化为具体措施的运作过程中存在不一致。这种情况类似于公共卫生研究人员对一种正在调查的疾病采用不同的诊断标准,人们可以想象在这种情况下产生宏观水平的流行率估计的困难。无论是被称为人口贩运、强迫劳动、现代奴隶制,还是用其他术语来称呼,如果我们不能就这些人类经验的共性达成一致,全球知识和进步都将难以衡量。在过去的十几年里,研究界在测量问题上取得了很大的进展,其中一个例子是国际劳工组织于2018年发布了关于强迫劳动测量的指南(9)International labor Organization (ILO). (2018). Guidelines concerning the measurement of forced labor. Endorsed by the 20th International Conference of Labor Statisticians Geneva, 1019 October 2018. Geneva, Switzerland: International Labor Office. Retrieved July 3, 2021, from https://www.ilo.org/global/statistics-and-databases/meetings-and-events/international-conference-of-labourstatisticians/20/WCMS_648619/lang--en/index.htm.,这是该领域在衡量标准和分析方法方面朝着更加标准化迈出的重要一步。国际劳工组织和美国国务院等机构正在继续努力,以提高在全球范围内衡量各种形式的人口贩运估计的标准化。

第二类挑战涉及数据收集和后续估算方法。在很大程度上,我们如何估算所研究的社会问题的严重程度,往往取决于我们能够收集到的数据的形式和质量。人口贩运可以通过两个数据来源进行估计:(1)当局和社会服务机构已经知道的案件,或在新闻媒体上报道的案件,在这种情况下,会存在某种形式的记录可用于辅助数据分析;(2)主要数据收集,其中采用各种抽样方法来生成估算数值。我们目前对人口贩运规模的大部分了解都是基于现有记录的调查结果,其中最主要的为国际劳工组织(10)International Labor Organization. (2012). ILO global estimate offorced labor: Results and methodology. Special Action Program to Combat Forced Labor (SAP-FL), International Labor Organization.和联合国毒品和犯罪问题办公室发布的《全球人口贩运报告》(11)United Nations Office on Drugs and Crime. (2016). Global report on trafficking in persons 2016 (United Nations publication, Sales No. E. 16.IV.6). United Nations Office on Crime and Delinquency.。

二、利用原始数据估算人口贩运流行率

很少有人会怀疑收集第一手数据(即初级数据)用于估算人口贩运的流行程度的优点。但受资金不足的制约,迄今为止的大多数针对人口贩运的流行率研究的规模和地点都十分有限,这使人们对在宏观层面估算人口贩运活动的可行性产生了怀疑。例如,怀哲就列出了一些值得注意的宏观层面估算出错的具体例子(12)Weitzer, R. (2014). New directions in research on human trafficking. The ANNALS of the American Academy of Political and Social Science, 653(1), 6—24.。

(一) 外插法的GSI模型

由于对人口贩运进行全球调查的费用高得令人望而却步,而且在逻辑上也不切实际,因此已经发展出了一些外插(或概括)法,就是收集地方和区域数据,然后进行全球估算。这个方法需要制定一套外插法或放大数据的方案,通过已知的数据来估算未知的东西。随着可用的地方和区域数据越来越多,这种推算方法应该会随着时间的推移而得到改进。

最突出的外插法例子是全球奴隶制指数(GSI)(13)全球奴隶制指数是由明德罗基金会发布的全球现代奴隶制研究。目前已在2013年、2014年、2016年和2018年发布了四个版本。 2018年版以现代奴隶制全球估计为基础,估计2016年任何一天,有4030万人处于某种形式的现代奴隶制中。全球奴隶制指数提供三个方面的排名: 该指数是一个工具,可以为公民、非政府组织、企业和公职人员提供更好的理解,以便他们能够制定合理的政策来结束现代奴隶制。参见全球奴隶制指数网站,https://www.globalslaveryindex.org。——译者注。这是一个由澳大利亚的反奴隶制组织“自由行走”(Walk Free)制作和发布的数据。该组织利用盖洛普世界民意调查(Gallup World Poll)战略性地收集多个国家的受访者数据,然后利用分层的贝叶斯模型开发了一种外插研究方法,将受访者层面的调查数据和当前GSI脆弱性模型中的国家级预测因子考虑在内,以估算在当前48个国家样本之外的现代奴隶制的普遍程度。多级模型使用国家级脆弱性得分来改进对没有调查数据的国家的预测。这种方法是基于这样一种信念,即具有相似社会经济和政治条件的国家可能会拥有相似的奴隶制水平。GSI脆弱性模型自2014年首次出现以来,已经经历了多次迭代和审查。基于人类安全和犯罪预防理论,脆弱性模型由23个变量组成,分为五个维度:(1)治理问题;(2)缺乏基本需求;(3)不平等;(4)被剥夺权利的群体;(5)冲突的影响。人口统计学家也经常采用类似的估算方法,他们必须研究人口趋势和人口普查之间的变化。在公共卫生领域,也经常使用外插法来估算疾病的流行率。当无法获得国家调查时,这种外插法方案是一个很好的替代办法。

德·科克审查了几种评估人口贩运活动严重程度的方法,包括估算流行率的国家调查、基于企业的针对特定劳动部门的调查、为深入了解贩运受害性质的定性研究,以及收集曾引起警察或服务机构注意的所有案件的国家数据库(14)De Cock, M. (2007). Directions for national and international data collection on forced labor (Working Paper No.30). International Labor Organization.。虽然很少见,但也有一些研究使用了传统的调查方法。这些努力大多集中在世界各地的特定劳动部门和特定区域范围内,最好的例子可能是甘地和平基金会和国家劳工研究所在20世纪70年代末进行的调查。该调查随机抽取了印度10个邦的1000个村庄做样本,这些村庄的农民普遍依附于土地所有者(15)Sarma, M. (1981). Bonded labour in India. Biblia Impex.。该研究估计,印度有260万担保劳工。另一个例子是在柬埔寨进行的一项研究,在这项研究中,研究人员使用地理测绘技术和线人—采访者来估算该国性交易受害者的人口(16)Steinfatt, T. M., &Baker, S. (2011). Measuring the extent of sex trafficking in Cambodia: 2008. United Nations Interagency Project on Human Trafficking. Retrieved January 15, 2020, from https://com.miami.edu/projects/measuring-the-extent-of-sex-trafficking-in-cambodia/.,采用一种新的方法来实地绘制所有性工作场所的地图。最近,张晓东等人应用两种传统抽样技术(即基于家庭的抽样和基于时间—地点的抽样)来估计印度比哈尔邦的担保劳工规模和最糟糕的童工形式(17)Zhang, S. X., Dank, M., Vincent, K., Narayanan, P., &Bharadwaj, S. (2019). Estimating theprevalence offorced and bonded labor in the Indian State of Bihar. San Diego State University Research Foundation. https://delta87.org/2020/06/ human-trafficking-indian-state-bihar-prevalence-characteristics/.。这些大规模的流行率估算研究虽然进展缓慢,但已经广泛开展起来,最终结果将取决于资助机构的兴趣和承诺资源的到位。

(二)受访者驱动的抽样

对于大多数人口贩运受害者而言,并没有适合传统的基于概率的抽样方法的抽样框架。近年来,研究人员一直在开发和应用各种技术,希望对“隐藏”人口进行参数估计。赫卡索恩开发了一种基于网络的方法,称为受访者驱动抽样(RDS),旨在消除传统滚雪球抽样技术中固有的偏见。受访者驱动抽样方法依赖一种“马尔可夫链”(18)马尔可夫链(Markov process),又称离散时间马尔可夫链,因俄国数学家安德烈·马尔可夫得名,为状态空间中经过从一个状态到另一个状态的转换的随机过程。该过程要求具备“无记忆”的性质:下一状态的概率分布只能由当前状态决定,在时间序列中它前面的事件均与之无关。这种特定类型的“无记忆性”称作马尔可夫性质。马尔科夫链作为实际过程的统计模型具有许多应用。——译者注,通过多波招募来实现多样性和平衡(连续样本/波不再反映初始样本的点)。该方法通过两个基本的变化改进了传统的滚雪球抽样设计:(1)采用了双重激励系统,即受试者的参与和招募他人参与研究都能获得奖励;(2)通过使用推荐券,受试者不需要向研究人员确认推荐,由此产生的匿名性鼓励了参与(19)Heckathorn, D. D. (1997). Respondent-driven sampling: A new approach to the study of hidden populations. Social Problems, 44(2), 174—199.。

通过一个结构化的流程来限制招聘机会,确保了多样性,从而可以得到经验验证。志愿服务被最小化了,因为一个双重激励系统被认为可以鼓励参与和招聘,这样的招募程序阻止了研究人员故意寻找特定的研究对象。由于研究人员并不指明小组成员的方向,而是由小组成员自己招募,因此“掩饰”最小化了。因为每个参与者只能招募三个受试者,而且可以通过相对少量的波来实现平衡,同质性也被最小化了。最后,受访者驱动抽样最大限度地减少了那些拥有更大人际网络的人可能带来的偏差。受访者驱动抽样方法已被成功地应用于许多针对难以接触到的人群的研究中(20)Abdul-Quader, A. S., Heckathorn, D. D., Sabin, K., &Saidel, T. (2006). Implementation and analysis of respondent driven sampling: Lessons learned from the field. Journal of Urban Health, 83(S1), 1—5.Heckathorn, D. D. (1997). Respondent-driven sampling: A new approach to the study of hidden populations. Social Problems, 44(2), 174—199.Heckathorn, D. D. (2002). Respondent-driven sampling II: Deriving valid population estimates from chain-referral samples of hidden populations. Social Problems, 49(1), 11—34.Robinson, W. T., Risser, J. M. H., McGoy, S., Becker A. B., Rehman, H., Jefferson, M., Griffin, V., Wolverton, M., &Tortu, S. (2006). Recruiting injection drug users: A three-site comparison of results and experiences with respondent-driven and targeted sampling procedures. Journal of Urban Health, 83, 29—38.Zhang, S. X., Spiller, M. W., Finch, B. C., &Qin, Y. (2014). Estimating labor trafficking among unauthorized migrant workers in San Diego. Annals of American Academy of Political and Social Science, 653(1), 65—86.。在人口贩运研究领域,受访者驱动抽样持续受到实证研究人员的关注。例如,古普塔(Gupta)等人于2006年在印度沿海的安得拉邦应用受访者驱动抽样方法,招募了812名女性性工作者,以调查她们的性交易经历。研究发现,这些受访者中约有20%符合联合国对性交易的定义。被贩卖的女性性工作者比未被贩卖的女性性工作者更有可能遭受暴力,而且每周工作时间更多(21)Gupta, J., Reed, E., Kershaw, T., &Blankenship, K. M. (2011). History of sex trafficking, recent experiences of violence, and HIV vulnerability among female sex workers in coastal Andhra Pradesh, India. International Journal of Gynecology and Obstetrics, 114(2), 101- 105. https://doi.org/10.1016/j.ijgo.2011.03.005.。

(三) 文森特链接跟踪抽样

最近,加拿大统计学家凯尔·文森特(Kyle Vincent)设计了一种抽样方法,即文森特链接跟踪抽样(VLTS,以其主要开发人员命名),该方法保留了传统受访者驱动抽样招聘过程中的传统概率抽样的特征(22)Vincent, K., &Thompson, S. K. (2017). Estimating population size with link-tracing sampling. Journal of the American Statistical Association, 112(519), 1286—1295.。简单地说,文森特链接跟踪抽样利用任何现有的(全面或部分)采样框架来开发一个大的初始样本。初始样本可以基于传统的抽样设计,如简单随机抽样、分层随机抽样或基于可用(尽管不完美)抽样框架的系统抽样,然后从初始样本或种子受访者的个人网络中进行两到三波的个人招募,以识别来自不同网络的个体之间的重叠情况。换句话说,在选择初始样本后,就可以开发推荐或提名,其中社交网络可以被映射,以识别重叠,从而自适应地建立最终样本。文森特和汤普森提出的拉奥—布莱克韦尔(Rao-Blackwell)推理方法(23)在统计学中,拉奥—布莱克韦尔定理,有时称为拉奥—布莱克韦尔—柯尔莫果洛夫定理,是一项结果,它描述了如何将任意粗糙的估计量转化为通过均方误差准则或任何一种类似准则优化的估计量。——译者注可以将通过链接追踪选择的其他受访者纳入推理过程中,以便对种群参数进行估算(24)Vincent, K. (2019). Recent advances in estimating population size with link-tracing sampling. arxiv preprint: arXiv: 1709.07556.Vincent, K., &Thompson, S. K. (2017). Estimating population size with link-tracing sampling. Journal of the American Statistical Association, 112(519), 1286— 1295.。

最终,文森特链接跟踪抽样利用所有可用资源,以基于研究人群知识的辅助信息的形式,在研究早期获得尽可能具有代表性的样本。因此,与传统的受访者驱动抽样相比,在应用无偏估算方法之前,不需要获得大量额外的层次。这种方法允许更复杂的网络分析和有效的种群大小计算,通过标记—再捕获技术来进行。文森特链接跟踪抽样的发展受到了汤普森(Thompson)和塞伯(Seber)(25)Thompson, S. K., &Seber, G. A. F. (1996). Adaptive sampling. Wiley Series in Probability Statistics.以及弗兰克(Frank)和斯奈德斯(26)Frank, O., &Snijders, T. (1994). Estimating the size of hidden populations using snowball sampling. Journal of Official Statistics, 10(1), 53—67.的作品的启发,他们研究了不均匀分布的种群,如濒危物种或高度聚集的隐藏吸毒人群。该方法利用了在发现一个高兴趣的单元后观察与采样个体相邻(邻近)单元的能力。用自适应抽样设计来估算难以到达的人口的大小,已经引起了一些研究者的关注,并体现在他们的出版物中。菲力克斯·梅蒂娜(Felix-Medina)和汤普森(27)Felix-Medina, M. H., &Thompson, S. K. (2004). Combining link-tracing sampling and cluster sampling to estimate the size of hidden populations. Journal of Official Statistics, 20, 19—38.后来发展了一种基于假设的方法,即招募可以通过对隐藏人群的部分抽样框架的可用性来完成,并且推荐是以可预测的方式进行的。

(四) 网络扩展法

近年来,在难以寻觅踪迹的人群的流行率估计方面引起广泛关注的另一种方法是网络扩展法(NSUM)(28)Salganik, M. J., Mello, M. B., Abdo, A. H., Bertoni, N., Fazito, D., &Bastos, F. I. (2011). The game of contacts: Estimating the social visibility of groups. Social Networks, 33(1), 70—78.。第一次将这种方法应用于估算未知人口的是一个由人类学家、数学家和社会网络分析师组成的团队,他们试图估算1985年秋季墨西哥大地震造成的死亡人数。该方法基于这样一个假设,即人们的社交网络(即你认识的人群)平均代表了你居住地的一般人口(29)Bernard, H. R., Killworth, P. D., Johnsen, E. C., &Robinson, S. (1991). Estimating the size of an average personal network and of an event subpopulation: Some empirical results. Social Science Research, 20, 109—121.Killworth, P. D., Johnsen, E. C., Bernard, H. R., Shelley, G. A., &McCarty, C. (1990). Estimating the size of personal networks. Social Networks, 23, 289—312.,例如,如果一组受访者报告他们平均知道300人的个人网络规模,他们每个人的网络中平均有2人死于地震,那么我们可以假设大约有2/300的普通人可能死于地震。由于有关于该城市的人口普查水平的信息或已知的人口特征,我们可以应用这种方法来估算特定群体的人口规模。

网络扩展法可以附加到任何基于概率的抽样程序中,因为它只需要一组独特设计的问题来引出他们对以下方面的知识的回答:(1)他们自己的个人网络中具有特定特征的人(即强迫劳动的受害者);(2)使用一些已知亚群体的估计作为参考。有几种方法可以估算个人的网络规模,包括已知的人口估算量及其总和(30)Maltiel, R., Raftery, A. E., McCormick, T. H., &Baraff, A. J. (2015). Estimating population size using the network scale up method. Annals of Applied Statistics, 9(3), 1247—1277. https://doi.org/10.1214/15-AOAS827.,还有更广义的网络扩展法模型(G-NSUM)(31)Feehan, D. M., &Salganik, M. J. (2016). Generalizing the network scale-up method: A new estimator for the size of hidden populations. Sociological Methodology, 46(1), 153—186. https://doi.org/10.1177/0081175016665425.。基本上,受访者将被问及一系列“你知道多少X”的问题,其中X对应于几个已知和未知大小的子群体。已知群体对应于规模和范围已经测量过的参考群体,例如美国的糖尿病患者;未知群体对应感兴趣的目标人群(如性工作者)。人们需要调整这些参照群体和那些隐秘群体之间的差异,以及受访者对被估计的隐秘人口的看法。因为网络扩展法不要求受访者识别任何具有特定特征的个人(包括他们自己),所以它被认为能够提高回答的诚实度。由于网络扩展法项目可以附加到定期的社会调查中,所以通过搜索“隐秘的”人群可以显著节省成本。

三、利用现有记录估算人口贩运流行率

尽管目前对人口贩运的普遍程度的估计存在很大差异,但大家普遍认为官方犯罪统计数字只是冰山一角,冰山下面隐藏着一个巨大的“黑数”。黑数是犯罪学术语,指的是报告的犯罪与当局不知道的犯罪之间的差距。近年来,多系统估算法因其在流行率估计方面的独特性而受到人口贩运研究界的广泛关注。

(一)多系统估算法的基本逻辑

多系统估算法的基本逻辑相当简单,因为它是经典的标记—再捕获估算技术的扩展。当一个人口贩运受害者出现在一个机构的名单上时,被认为是“标记”,而如果同一个人出现在另一个名单上,就被认为是“再次捕获”。在一个列表(或样本)上标记的个体数量用于估计总体规模,其原理是在第二个样本中标记的比例近似等于在总体中标记的个体的比例。经典的林肯—彼得森估算模型如下所示(32)Petersen, C. (1896). The yearly immigration of young plaice into the limfjord from the german sea. Report of the Danish Biological Station, 6, 5—84.:

其中S1是标记并释放到种群中的数量(即第一个样本的大小),S2是第二个样本的大小,R是第二个样本中再次捕获的数量,N是种群大小的估计值。再次捕获个体的比例越小,种群更替率就越大,因此估计的种群规模就越大。

然而,通常用于估算野生动物种群的标记—再捕获方法在应用于人类种群时面临着诸多的挑战。人类种群的招募模式可能与野生动物种群有根本上的不同,例如人类可以用“自我选择”的形式。对于那些引起当局或服务提供者注意的人来说,人们不能假设他们具有同样程度的独立性或“偶然”。在标记—再捕获分析中,研究人员还必须面对一组不同的管理列表,并且为这些列表捕获的记录通常是通过许多不同的机制(如警察记录、医院记录和受害者服务提供者的现场抽样)收集的,数据保存很少或完全没有一致性。此外,研究人员必须在研究过程中考虑到人类进出目标人群的情况,并考虑到捕获场合和捕获时间的不同情况,还要考虑与感兴趣的人群相对应的异质性效应。因此,通常需要复杂的标记—再捕获模型来获得有意义的估计。随着“标记—再捕获”软件的出现,统计学家们如今能够越来越轻松地进行复杂的分析(33)这些软件包括:(1)R中的Rcapture包;里维斯特,L.-P。Baillargeon, S.(2014)。Rcapture:用于捕获—再捕获实验的Loglinear模型。R包版本1.4-2。https://CRAN.R-project.org/package=Rcapture;(2)节目标识:http://www.phidot.org/software/mark/;(3) CARE(表示捕获—再捕获),用于Chao, A., Tsay, P. K., Lin, S.-H。Shau, w - y。Chao, d.y。(2001)。标记重现模型在流行病学数据中的应用。医学统计,20,3123—3157,https://doi.org/10.1002/sim.996。。

多系统估算法受到了研究界越来越多的关注。其中最突出的例子是国际劳工组织对强迫劳动的全球估算,该估算估计全球受害者总数约为2090万,其中绝大多数被个体雇主或私营企业剥削(34)International Labor Organization. (2012). ILO global estimate offorced labor: Results and methodology. Special Action Program to Combat Forced Labor (SAP-FL), International Labor Organization.。本质上,国际劳工组织的抽样方法依赖于利用两个独立的研究助理团队来建立一个独立的数据库,其中包括每个小组所能发现的所有报告过的强迫劳动案例,以便利用标记—再捕获原则。这个想法是,如果一个团队搜索并找到所有已报告的强迫劳动案例,这些报告将代表一个已确定的强迫劳动事件的样本。如果两个团队捕获了相同的报告案例,它们将代表两个“独立”样本之间的重叠。按照这个逻辑,基本的标记—再捕获模型假设了样本情况的二项概率分布。因此,贩运报告要么“捕获了”,要么“未捕获”,概率分别为p和1-p。所有报告的p值是相同的,但不同团队可能会有所不同,例如团队1的p=p1,团队2的p=p2。

这是一项意义重大的工作,国际劳工组织清楚地认识到使用现有受害者报告模式具有局限性,并呼吁通过国家或区域调查加大收集初级数据的努力。但是,当时还没有从世界各地系统收集原始数据来进行全球估算。这一全球估计证明,利用现有记录是可能的,而且在统计上是合理的,这些记录往往代表一些最严重的人口贩运行为。此外,国际劳工组织的方法还可以加强,比如,人们可以探索多个再捕获点,如指派四个研究助理小组去寻找已报告的贩运案件,每个小组代表一个独立的抽样场合。

(二)多系统估算法的优点

使用多系统估算法有几个优点。首先,多系统估算法可能是估算强迫劳动普遍程度的最便宜的方法。该方法利用现有记录,利用不同机构数据系统之间的重叠,可以得出统计上合理的数字。估算技术背后的统计原理简单而优雅,在缺乏其他更严格的数据收集方法的情况下,多系统估算法是一种有效的方法,可以获得相关问题的范围的一些指示。

在估算人口贩运和与人口贩运相关的其他研究中,使用多系统估算法的情况正在上升,其中大多数发生在美国以外。西尔弗曼(Silverman)(35)Silverman, B. (2014). Human trafficking: An application of multiple systems estimation. Home Office. https://www.gov.uk/government/publications/modern-slavery-an-application-of-multiple-systems-estimation.是早期采用多系统估算法进行人口贩运估算的人之一,他利用官方记录中的2,744名潜在人口贩运受害者的记录,确定引起当局或社会服务机构注意的不同登记机构之间的重叠之处。西尔弗曼估计,2013年英国的“黑数”或当局未知的案件的潜在受害者在10,000到13,000之间。贝尔斯(Bales)等人(36)Silverman, B. (2014). Human trafficking: An application of multiple systems estimation. Home Office. https://www.gov.uk/government/publications/modern-slavery-an-application-of-multiple-systems-estimation.将标记—再捕获模型的方法(称为多系统估算,MSE)应用于人口贩运受害者的列表/记录,以估计人口贩运在英国的普遍程度。克鲁伊夫(Cruyff)等人(37)Cruyff, C., Jan van Dijk, P., &van der Heijden, P. (2017). The challenge of counting victims of human trafficking: Not on the record: A multiple systems estimation of the numbers of human trafficking victims in the Netherlands in 2010-2015 by year, age, gender, and type of exploitation. Chance, 30(3), 41—49.应用了包含协变量信息的多系统估算法技术来估算荷兰人口贩运的普遍性。莱纳姆(Lyneham)等人(38)Lyneham, S., Dowling, D., &Bricknell, S. (2019). Estimating the dark figure of human trafficking and slavery victimisation in Australia. Statistical Bulletin 16. Australian Institute of Criminology. Retrieved January 15, 2020, from https:// www.aic.gov.au/sites/default/files/2020-05/sb_human_trafficking_050219.pdf.应用多系统估算法估算了2015年至2016年和2016年至2017年澳大利亚人口贩运受害者人数,并将数量定为1,300至1,900之间,即每发现一名受害者约有四名未被发现的受害者。最近,法雷尔(Farrell)等人(39)Farrell, A., Dank, M., Kafafian, M., Lockwood, S., Pfeffer, R., Hughes, A., &Vincent, K. (2019). Capturing human trafficking victimization through crime reporting (Final summary report for NIJ Project 2015-VF-GX-0105). Northeastern University. Retrieved January 15, 2020, from https://pdfs.semanticscholar.org/9bb7/3400e8 37bbedc58f770632f221ac334d1f6a.pdf.使用美国境内的行政记录完成了可能是多系统估算法的第一个实证应用,并指出不完整和缺失的记录是进行稳定的多系统估算法的最严重挑战。

(三) 多系统估算法的限制

虽然如上所述,多系统估算法有其固有的优点,但该方法同样存在一些缺点。最大的一个问题是现有数据源的最初创建方式方面的问题。与大多数流行率估计方法一样,基于多系统估算法的研究结果最多只能被视为试探性的,因为正如西尔弗曼(40)Silverman, B. (2014). Human trafficking: An application of multiple systems estimation. Home Office. https://www.gov.uk/government/publications/modern-slavery-an-application-of-multiple-systems-estimation.所说,建模假设不容易验证,数据来源也有局限性。一个明显的限制是,政府或社区机构登记的正式确定的受害者只占潜在人口的很小一部分,这反过来也限制了随后的估计。

在构建支持多系统估算法的策略列表时,存在多个挑战。由政府或社区机构编制的现有记录取决于幸存者或受害者透露个人经历的意愿。由于两个主要原因,人口贩运记录并不容易收集。首先,受害者或幸存者往往不愿报告他们的经历,因为担心后果或尴尬,人身安全得不到充分保证,执法代表可能滥用职权,受害者或幸存者之间普遍缺乏信任,执法部门在识别贩运受害者方面培训和工具不足。如前所述,记录保存的不一致也使官方名单难以比较。记录收集和汇编中的这些挑战共同威胁着多系统估算法估计的有效性。

此外,性贩运和劳工贩运虽然在特殊情况下偶尔会重叠,但大多发生在非常不同的劳工部门,因此需要不同的调查实体和服务提供者。不同的服务需求和受害经历在数据跟踪和记录中产生了额外的复杂性,这可能会给后续用于多系统估算法估计的数据池带来进一步的复杂性。

多系统估算法还存在其他的局限性。首先,标记—再捕获方法依赖于“隐秘”种群的独立样本,这些样本是不可能或不切实际的,就好比用排干池塘的水来计算所有的鱼。换句话说,很难确定那些引起当局注意的受害者之间的“自我选择”偏见的概率或控制因素。例如,在欧文斯(Owens)等人(41)Owens, C., Dank, M., Farrell, A., Breaux, J., Banuelos, I., Pfeffer, R., Bright, K., &McDevitt, J. (2014). Understanding the organization, operation, and victimization process of labor trafficking in the United States. The Urban Institute. http:// www.urban.org/publications/413249.html.对强迫劳动的研究中,在122起劳工贩运案件中确定的所有受害者中,没有人在遭受虐待时得到当局或社会服务提供者的救助。她们找到了联系这些服务提供者的途径,这些服务提供者后来在她们离开被虐待的工作环境几个月后才认定她们是人口贩运的受害者。换句话说,在现有的官方记录中,作为一个独立样本被“捕获”的概率(这是标记—再捕获分析的必要条件)从来都不容易确定。

其次,公开可用的记录,例如国际劳工组织在其全球评估中使用的记录,大多可以通过一些公开的渠道获得,尤其是互联网。如果国际劳工组织研究下的所有研究助理小组都尽了最大的努力,理论上他们应该找到媒体、政府报告或机构报告中报告的所有已知贩运案件。因此,公平地说,所有研究助理团队发现的人口贩运案件可能是相同的,重叠部分应该是100%,或接近100%。如果两个“独立”样本之间的重叠完全匹配,那么标记—再捕获方法就变得毫无意义。

第三,列表内部必然存在某种依赖性,也就是说,一个“源”被捕获的概率很容易影响在同一采样场合捕获的另一个“源”(即被同一个研究团队捕获)。例如,一本杂志可能会报道在一个主要城市中有两起或更多的贩运受害者被解救的案例。显然,如果一个案例被捕获,那么很有可能另一个案例也会被捕获。这违反了标记—再捕获的一个基本假设,即个体之间的捕获概率在采样场合内是独立的。

然而,也有一些办法可以缓解这些问题。例如,可以只通过记录团队遇到的第一个捕获案例,然后停止,再从零开始寻找新的捕获案例,从而避免在采样场合中使用依赖来进行采样。此外,也可以使用原始的方法来获得捕获案例的半详尽集,随机排列它们,然后将最终样本作为排列列表中每K个捕获案例的样本。还可以通过重新排列和评估这些列表上的模型来重复标记再捕获推理过程,每个列表都是基于第k个条目。这种策略有助于减少依赖的影响;考虑自相关的类似效应,并仅考虑每一K个条目以消除依赖性。随着标记—再捕获软件的出现,统计学家现在可以轻松地进行复杂的分析(42)这些软件包括:(1)R中的Rcapture包;里维斯特,L.-P。Baillargeon, S.(2014)。重新捕获:用于标记重新捕获实验的Loglinear模型。R包版本1.4-2。https://CRAN.R-project.org/package=Rcapture;(2)节目标识:http://www.phidot.org/software/mark/;(3) CARE(标记重获),用于Chao, A., Tsay, P. K., Lin, S.-H。Shau, w - y。Chao, d.y。(2001)。标记-再捕获模型在流行病学数据中的应用。医学统计,20,3123-3157,https://doi.org/10.1002/sim.996。。

(四) 多系统估算法的应用与完善

杜尔加纳(Durgana)和范戴克(Van Dijk)提出了几种多系统估算法的估算方法,以充分利用政府掌握的人口贩运统计数据来估算人口贩运的流行程度。杜尔加纳和范戴克在检阅了多系统估算法在八个国家的应用后,评估了现有贩运受害者数据库对多系统估算法的适用性,以及当局和/或非政府组织发现各种类别贩运受害者的不同概率。本文最后讨论了多系统估算法的局限性及其进一步发展的前景,特别是在最发达的国家中的局限及前景。

统计学家们提供了具体的技术来提高基于多系统估算法进行估算的稳健性,特别是当数据源没有以最佳方式重叠时。对于那些应用多系统估算法技术的人来说,不完整的列表和管理列表之间很少或没有重叠是最常见的挑战。法尔(Far)等人关注的是如何克服在组合现有数据源时由于列表遗漏和小重叠或没有重叠而产生的问题。克鲁伊夫等人解决了类似的问题,但在试图找到适合数据的对数线性模型时,他们关注的是多个不完整人口登记处和一系列协变量的稀疏列联表。他们使用贝叶斯框架,提倡在模型选择过程中用成对关联作为一种策略,以保持模型的复杂性。文森特、法尔和帕普托马斯(Papthomas)在这个问题中通过利用协变量信息来改进最大似然估算、模型可识别性和参数冗余来解决稀疏重叠问题。

沃辛顿(Worthington)等人则讨论了在生态模型中用于估计高度复杂的、生物学上真实的情景(如模拟野生动物种群随时间的变化)的标记—再捕获技术如何使用于估计人口贩运普遍程度的技术得以增强,但变化不大。通过比较和对比两者的异同,作者指出了生态建模方法在人口贩运研究中可以改善多系统估算法的关键领域。

伯德(Bird)还应用多系统估算法来确定一个受害者的逃跑如何引发其他人的救助。在她的应用中,她试图量化逃跑路线的密度,这可以为执法工作提供急需的指导,因为我们假定受害者逃离人口贩运的路线不是随机或任意分布的。在这种情况下,多系统估算法嵌入了可能接触到人口贩运幸存者的医疗保健和其他社会服务机构。研究者主张制定国家方案,鼓励已确认的受害者加入一个以研究为主的群体,在那里可以监测发病率和死亡率。换句话说,只要稍加调整,政府和社区服务机构保存的记录就可以在根据人口贩运受害者的来源地确定和援助受害者方面发挥重大优势。

四、结论

尽管在估算人口贩运的普遍程度方面存在许多挑战,但政治上的需要使这种估算成为必要,为的是让国际组织和各个国家能够调动(或不调动)资源来打击人口贩运或其他严重形式的侵犯人权行为。更重要的是,从科学的角度来看,研究界有责任回答这样一个问题:人口贩运是否是一种严重的社会弊病,从而需要采取大规模的应对措施?由于对人口贩运进行全球调查的费用昂贵得令人望而却步,而且在实践上也无法做到,因此必须使用一些外插(或概括)法,即收集地方和区域的数据点以推导出全球估计数。必须发展一种外插法或扩展方案来概括已知的东西,以估计未知的东西。随着更多的地方和区域数据的出现,这种推测方法应该会随着时间的推移而不断完善。

本文回顾了几种估算人口贩运流行率的方法,并强调了多系统估算法与现有数据来源的不同使用。无论是使用多系统估算法进行辅助数据分析,还是使用基于概率或链接跟踪抽样收集数据,都需要更多地关注如何生成估计数以及出于何种目的生成估计数。怀哲等批评人士一直在提醒大家,仅仅基于道德愤怒和未经证实的疯狂言论来开展社会运动是危险的,并敦促政策制定者和公民社会寻求基于证据的实践和对策(43)Weitzer, R. (2011). Sex trafficking and the sex industry: The need for evidence based theory and legislation. Journal of Criminal Law and Criminology, 101,1337—1370.。

对政策制定者和项目管理者来说,流行率估计都至关重要,因为它对倡导问题有影响,对基线测量也有必要。事实上,每一种估算方法在方法论或财政上都有其固有的问题。尽管有这些限制,但有一件事应该仍然很清楚,即多系统估算法在统计上仍然是可靠的,并且可以为估计人口贩运的普遍程度的集体知识体系作出贡献。本文所讨论的方法已经在世界各地以各种形式和手段进行了尝试,并取得了不同的成功。由于资金往往是方法决策的核心,研究界有责任教育决策者,并强调为各种研究中存在的问题和研究的场合中正确选择方法的重要性。最后,在没有关于问题的范围的可靠资料的情况下,大多数想影响决策者的人必须依靠那些耸人听闻的言辞和道德呼吁,这迟早会带来信誉问题,甚至破坏整个运动的道德要求。