量刑后风险评估工具研究

2022-05-18克里斯托弗布雷特巴克伦格兰特杜威费伊塔斯曼赵嘉炜赖雪金

河南警察学院学报 2022年2期

克里斯托弗·布雷特·巴克伦，格兰特·杜威，费伊·塔斯曼(著);赵嘉炜，赖雪金(译)

一、引言

在过去的几十年里，RNA(风险与需求评估)在惩教系统中的应用激增。事实上，美国绝大多数地方、州和联邦惩教系统现在都在使用一些RNA工具。这些工具通常是通过校准改造计划的数量和类型来更有效地分配有限的资源，以解决评估的风险和需求。具体而言，如果一个人在收押时被评估为高风险，不仅应优先分析他/她的动态风险因素(犯罪的需要)以制定改造计划，而且也会在释放他们或把他们收监之前让他们接收多个评估，以确定是否有风险以及已在多大程度上减少风险。因此，RNA评估的主要目的是为那些最需要的人提供支持性和治疗性的资源。同样，这些工具可以用来确保对自由的限制(宵禁、禁止与他人接触等)与个人所呈现的风险相匹配。

虽然以改造为目的的RNA工具通常适用于缓刑或监禁，但这些工具也被用于量刑前的审前羁押决定，或者在一些情形下为量刑决定提供信息。与未定罪时使用的量刑前工具相比，量刑后的RNA工具可能遵守改造原则。量刑前评估通常用于为司法相关的决定提供信息，例如某人是否应予审前羁押或释放。由于在审前阶段很少进行矫治性的改造计划，因此审前风险评估往往不侧重于矫治。此外，鉴于审前评估往往只进行一次，因此，一个人没有机会证明其风险的变化。量刑前评估的目的不同于量刑后，很大程度上这也是量刑后评估在公平性方面受到更多审查和批评的主要原因。

RNA工具用于惩教，以前瞻性地识别那些有更大的违法风险、违反法律或监狱规则、和/或违反社区监督条件的人。惩教当局使用RNA工具来指导一系列决策，这些决策在很大程度上旨在增强公共安全并更好地利用稀缺资源。尽管RNA工具可以通过多种方式来改善惩教政策和实践，但该领域目前使用的RNA风格与类型尚未实现这一目标，因为它已经过时了，且效率低下，并没有达到应有的效果。

为了帮助惩教领域认识到RNA工具在改进决策和减少再犯方面的潜力，我们利用我们的集体智慧和经验确定了负责任且合乎道德地使用RNA至关重要的四项原则。每条原则内都有一套指导方针，在实践中应用这些指导方针将有助于最大限度地提高RNA工具的可靠性和有效性。由于这些指南包含了新颖的、基于证据的实践和程序，因此我们在本文中提出的建议也相对具有创新性，至少在惩教领域是这样。

第一个原则是公平，我们认为应使用RNA工具创造更公平的结果。在设计评估时，应努力消除或尽量减少潜在的偏见来源，以减轻种族和民族差异。处理前、处理中和处理后的调整是设计策略，有助于将偏差最小化。从业人员使用RNAs的方式也可减少差异，例如将相应改造计划的资源交给最需要它的人(风险原则)。总之，RNA工具为惩教机构实现更上乘和更公平的结果提供了策略。

第二个原则是效率。RNA工具依赖的是提高可靠性、扩大评估能力和不增加人力资源负担的程序。绝大多数RNA仍依靠耗时又烦琐的模拟纸和铅笔工具的程序，也就是说，需要填写表格，然后由工作人员手动评分。RNA工具的效率可以通过采用自动化和计算机辅助的评分过程来提高可靠性、有效性和评估能力。如果RNA工具必须手动评分，则必须进行评分者之间的可靠性评估，以确保评分人员之间的一致性。

工具不仅应该是公平和高效的，而且还应该是有效的，这是第三个关键原则。RNA工具的有效程度在很大程度上取决于它们所作预测的有效性以及该工具在机构内的使用方式。机器学习算法通常有助于提高预测的准确性，但开发者应该测试多种算法，以确定哪一种算法最佳。针对矫正人群定制的RNA工具将作出更好的预测。

最后，我们应重点关注RNA的实施和使用，这样个人就可以越来越多地意识到他们的风险因素。为此，第四个关键原则是应用策略改善风险沟通。对使用RNA工具的惩教人员进行培训是有效沟通的基础，尤其是在解释需求并将其转化为案例计划方面。风险沟通系统，包括案例计划改进、治疗匹配算法、分级制裁和激励，为决策提供了一个综合模型，帮助提高个人对自身情况和改造计划需求的认识。

这四个原则对于提高RNA工具的透明度，提高管理其开发和实现的基本指导方针很重要。依赖这些原则可以帮助RNA工具减少差异，获得更好的再犯结果。

二、关于公平原则

近期，RNA工具被定性为不公平或存在偏见，通常涉及种族和/或性别群体(Pretrial Justice Institute, 2020)。在此应提出的一个重要问题是：公平，是与什么相比？RNA工具的替代方案是个人依靠自己的专业判断来评估个人未来可能做的事情。尽管人类通常在决策时会带入各种偏见，但我们的目标是逐步减少无用的偏见。我们相信RNA工具可以成为强有力的改革工具，帮助惩教系统实现更公平的结果。只有在这些工具设计得当并在实践中得以使用时，才能发挥其潜力。

实现RNA的公平性包括两个不同的部分：设计问题与使用问题。通过设计RNA来实现更公平的结果应把重点放在让数据和算法在预测时不产生差异上。就设计这个部分，我们假设实现RNA公平性的责任主要落在这些工具的开发者身上。当关注如何使用RNA时，实现更加公平的结果的责任则更多地落在操作机构(惩教系统)身上，更狭义地说，是使用这些工具做出决定的从业人员身上。这种方法假设一致地应用风险原则将有助于减少结果方面的差异。

(一) 公平RNA工具的案例：设计问题

RNA工具旨在改善司法系统的决策，即确保类似信息纳入决策考量以确定个人对社会的风险。一线工作人员(无论是公职人员、检察官、法官还是案件管理员)的主观决策会加入个人的偏好和观点。尽管依靠自由裁量权的决定可能有一些优点，但它们是主观的，并且基于“旁观者的眼睛”。有超过175种不同类型的认知偏差会影响人类决策，包括锚定、确认偏差、群体归因错误、基本归因错误、基本比率谬误、轶事谬误和伸缩效应(1)Benson, B. (2016). Cognitive Bias Cheat Sheet. https://medium.com/better-humans/ cognitive-bias-cheat-sheet-55a472476b18.，而结构化信息可以减少偏差。

精算RNA工具将重点放在与结果有利害关系的相关关键因素上(即逮捕、定罪或监禁)来消除自由裁量权。当工作人员使用工具进行标准化的信息收集并提供客观基础来对个人进行收集和分类时，就有可能减少信息使用方式的差异。由此产生的风险评分反映了个人从事消极行为(或成功)的可能性。风险评分通常被转换为带有离散类别的分类机制，反映行为的严重程度。

从表面上看，RNA工具似乎是客观的并由数据驱动的。但公平通常来源于创建工具的方法或个人使用信息的方式(实施)。也就是说，公平的概念植根于对同等事件/特征给予平等对待并给予平等结果的原则。无论人口特征如何，统计预测都应尽量减少错误并在各组之间保持相似(2)Beretta, E., Santangelo, A., Lepri, B., Vetro, A., and DeMartin, J.C. (2019). The Invisible Power of Fairness. How Machine Learning Shapes Democracy. Turin, Italy: Nexa Center for Internet & Society.，统计学家已经确定了几个核心量值(3)这几个核心量值是：(1)整体准确度——在保护组内每个类别之间的模型准确性相等，但不区分误报或漏报；(2)统计均等——在保护组内，每个类别预测结果的边际分布相等。例如，黑人假释犯预测再犯的比例等于白人假释犯预测再犯的比例；(3)条件程序准确度——保护组内每个类别之间的误报率或漏报率相等，即根据实际结果确定的误差相等；(4)条件使用准确性——保护组内每个类别之间的误报和漏报的预测值相等，即预测结果的误差相等；(5)平等对待——保护组内每个类别之间漏报和误报的比率相等；(6)完全公平——所有上述条件同时满足。来检查RNA促进平等对待和结果的效度。这些公平性衡量量值指的是预测准确性，可用于确定这一工具是否扭曲了群体差异。由于要在准确性和减少偏差之间权衡，不太可能同时实现所有六个标准。实现平等存在若干挑战，包括不同群体之间的不同基本比率、分类机制以及不同利益相关者的不同选择。群体之间基本比率不等通常是常态，需要使用不同的统计方法进行校准以克服这一问题。

研究人员已经确定了方法问题可能影响工具准确性和公平性的三个阶段，特别是考虑到所使用的基础数据和/或变量的来源：处理前、处理中和处理后问题(4)Romei, A. and Ruggieri, S. (2014). A multidisciplinary survey on discrimination analyses. The Knowledge Engineering Review 29(5): 1—54. doi: https://doi.org/10.1017/S0269888913000039.。处理前需要评估数据的来源，数据可能因收集、存储、测量和一般报告方式而可能存在各种类型的偏差。处理前工作的目标是在开发算法或风险计算之前消除数据中的任何不公平来源。一些处理前工作可用于解决潜在的偏差领域：(1) 每个预测变量的强度；(2) 风险评分和预测因素如何在组间区分；(3)构建预测结果的值，以确保没有信息对任何组产生不利影响；(4)重新分配边际分布，以确保基本比率是相似或可比较的；(5)使用不同的关联规则(直接或间接)，以确保预测器是无偏的；(6)若有可能，检查条件概率，以确保估计是无偏的。具体而言，处理前要求仔细注意数据源、变量的构建、数据中的偏差，以及如何预先调整变量以平衡基本比率。这是为了了解不同的数据元素为何倚重一个类别而不是另一个类别。

一个具体的例子是对逮捕历史数据库的审查，这些数据库通常是许多基于精算的RNA工具的数据来源。州或联邦机构以不同方式获取逮捕、定罪、监禁和其他刑事司法数据的历史记录。一些州有一个中央数据源，而另一些州则要求研究人员将相应文件整合在一起。例如，一些犯罪记录数据库包括任何类型的犯罪(无监禁的交通犯罪、轻罪、传讯、重罪等)，而其他数据库则将记录限制为轻罪和重罪。因此，逮捕的数量(和类型)等变量将因数据来源而异。另一个常见的数据来源问题是一些司法管辖区将一些类型的逮捕和其他程序转移出去了，以替代正式的司法系统；有些有所记录，有些则没有。处理前工作将记录犯罪记录中包含的数据类型，随后可能构建变量以便检查因不同类型的事件(不可监禁的交通、轻罪、重罪等)发生了多少次逮捕。随后，此过程允许人们通过评估如何最好地构建变量来评估任何有偏差的数据来源。

处理中的工作可以进一步帮助减少会对不同群体产生负面影响的不公平来源。处理中是指在算法和/或分类程序中进行调整以解决可能发生的任何偏差，例如识别组之间出现统计差异的潜在变量，然后进行调整以减少潜在的偏差区域。处理中工作的范围包括调整关键量值的切入点、重新编码某些变量以平衡保护类别之间的结果，以及调整最终算法以最大限度地提高公平性。工具开发人员可以使用一系列敏感性分析来确保变量和生成的算法在不同的群体中是公平的。

最后一个阶段，处理后，涉及在创建算法后对算法进行调整。这些通常包括提高工具性能的调整，这可能会降低工具的准确性。后处理分析试图通过检查假阳性和/或假阴性率、使用解决特定风险阈值的约束优化方法，并在审查准确性量值后进行调整以提高拟合度来确保受保护组的同等性能。为了消除影响群体偏见的代理，这些程序不会调整基础变量，而是关注截止点、将受试者分配到不同类别以及每个组的预测准确性。

(二)利用RNA工具实现更公平的结果

如上所述，近期对RNA的公平性和偏见的关注主要集中在所使用的数据和算法上。但是，如果我们严格关注RNA的设计而不检查它们的使用方式，那么我们就会限制实现更公平结果的可能性。有几个限制特别强调了所使用的数据和算法。

首先，群体差异的存在实际上并不意味着数据不准确和算法不公允。其次，正如贝克和他的同事所证明的那样，当预测结果的基本率变化很大时，不可能同时最大化准确性和公平性(5)Berk, R., Hidari, H., Jabbari, S., Kearns, M., and Roth, A. (2018). Fairness in criminal justice risk assessments: The state of the art. Sociological Methods & Research 1—42. doi: 10.1177/0049124118782533.。在许多方面，使用RNA就像是一面镜子，反映刑事司法系统的政策、实践和决定(6)Mayson, S.G. (2019). Bias in, bias out. The Yale Law Journal 128: 2218—2300.。当镜子向我们展示群体差异存在的程度时，我们不喜欢我们所看到的，且理由充分。然而，寻找公平和准确算法的圣杯就像试图更换我们目前使用的镜子，只想找到能向我们展示我们想要看到的东西而不是我们真正样子的镜子。换句话说，我们对于无差异预测的RNA的渴望就像想要“瘦身镜”。第三，像偏爱瘦身镜一样，RNA的讽刺之处在于，虽然它可以通过最小化预测风险的差异来反映我们希望看到的方面，但它会掩盖可能需要更多工作和关注的问题领域。

为了说明这一点，我们假设有两个人在监狱里，这两个人所有情况都一样，他们将有类似的再犯风险。然而，鉴于一切事物很少是完全一样的，第一个人会有更高的再犯风险(根据所使用的评估)，因为他有更长的犯罪历史；他在一个弱势、高犯罪率的社区长大，并受到激进的警察执法的影响。考虑到被释放的人通常会回到原来的社区，让我们进一步假设他会回到原来的社区，而第二个人会被释放到一个资源丰富并有助于停止犯罪的地方。为了成功地停止犯罪，第一个人在监狱中可能需要比第二个人更多的资源。

然而，对于旨在消除预测风险差异的评估，第一个人的改造计划上的优先级不会与第二个人有任何不同，因为他们的风险水平相似。然而，正如我们在这个例子中也提到的，第一个人将返回一个更难停止犯罪的社区，在这种情况下，利用 “瘦身镜”RNA对这个人没有帮助，因为剥夺了推动他获得从监狱到社区成功过渡的资源的机会。准确反映现实的RNA才可能是改革的有力工具，但前提是我们是在负责任地使用它来加强惩教决策和实践。

惩教机构可以减少差异，并通过专注于RNA工具的使用来实现更公平的结果。量刑后RNA，试图遵循RNR模型(7)RNR模型，英文为risk-need-responsivity，即需求和反应性模型，是循证矫正模型的一种。，并坚持风险原则，为实现更好结果(包括减少差异)提供了一种方案。风险原则确定了那些将从改造计划资源中受益的人，因为高风险的人往往需要更高级别、更高强度的改造计划来制止犯罪。因此，如果我们看到结果上的差异，那么如果我们坚持风险原则，我们应该会看到项目参与方面的差异。例如，我们可以假设有一个包含25%的监狱人口但其中50%被评估为高风险的群体。我们可以进一步假设，有一个有效的、加强的方案，通常只针对高风险囚犯。如果我们遵循风险原则，我们应该看到项目参与同差异相反，这个群体约占到所有参与者的一半(尽管他们只占所有囚犯的四分之一)。

如果得到适当的开发和验证，RNA工具将准确预测谁会以及谁不会带来更高的再犯罪风险，但它不会告诉我们应该对高风险或低风险的人做什么。这就是为什么必须区分RNA的设计和使用的原因。如果它准确地预测了累犯，但它的使用加剧了现有的差异，那么问题出在它的使用上。因此，解决方案不是重新设计RNA，而是改变惩教政策和做法，以便负责任地使用RNA工具来降低最需要改造计划的人的风险，从而提高公共安全。

RNA工具在惩教机构的实施可能对利用该工具提高公平决策产生影响。影响公平的做法包括限制RNA工具在收押或重新评估中的使用，将犯罪而不是犯罪需求作为项目安置的标准，不采用质量标准，也不制定将RNA工具整合到实践中的政策和程序。与此相关的问题涉及培训员工了解RNA工具的每个元素背后的含义，以及如何在案例规划、法规遵循管理和项目安排中使用RNA信息。为了避免“瘦身镜”，应注意RNA工具在常规决策中的使用，并与支持性的政策和程序一起，提升平等待遇。

三、关于效率原则

RNA工具通常依赖于算法，即将预测项目的值——如犯罪历史、人口特征、动态风险因素和/或项目参与——转换为风险评分。RNA工具上填写项目的值的过程被称为评分方法(8)Duwe, G. and Rocque, M. (2017). The effects of automating recidivism risk assessment on reliability, predictive validity, and return on investment (ROI). Criminology & Public Policy 16: 235—269.。项目的值可以手动输入，通常由惩教机构人员输入，也可以自动化填写。使用不同类型的评分方法对RNA的可靠性、有效性和效率具有重要影响(9)Duwe, G. and Rocque, M. (2019). The predictive performance of risk assessment in real life: An external validation of the MnSTARR. Corrections: Policy, Practice and Research. doi.org/ 10.1080/23774657.2019.1682952.。无论使用哪种评分方法，RNA中包含的项目都应该响应，并促进对推动风险评分的因素的理解。

当使用手工评分方法时，由于项目的主观性、培训不足、工作人员工作量、完成评估所需的时间以及数据输入错误，会导致工作人员对RNA工具的评分存在差异。更广泛地说，评分者间的可靠性(IRR)关注的是评分者之间在评分工具上的一致程度。IRR被认为是RNA的一个重要组成部分，主要是因为它可能会影响工具对结果的预测。毕竟，为了让人工评分的工具在预测结果时表现良好，必须确保评分者一致使用。

通过标准化项目的评分过程，自动评分方法消除了评分者之间的差异。这并不意味着自动化RNA不受缺陷数据相关问题的影响。例如，如果自动化流程从错误输入的数据库中以电子方式提取信息，则该错误将反映在自动化评估中。但是这种类型的数据输入错误也很可能存在于人工评分的RNA中。通过使用标准化的评分流程，自动化程序消除了风险评估中的潜在错误。如此，自动评分过程有助于提高可靠性，从而提高RNA决策的预测有效性。

虽然很少有研究检验评分方法对RNA工具的影响，但从已经完成的少数现有研究中可以得出几个宽泛的结论。首先，即使评分者之间存在相对适度的分歧，也会对预测产生重大影响。在明尼苏达州累犯风险评估筛查工具(MnSTARR)的研究中，明尼苏达州惩教部门(MnDOC)于2013年开发并开始使用手动评分工具(10)Duwe, G. (2014). The development, validity, and reliability of the Minnesota Screening Tool Assessing Recidivism Risk (MnSTARR). Criminal Justice Policy Review 25: 579—613.，杜维和洛克在2017年报告中比较了手动评分方法与全自动程序的可靠性，使用多个性能指标评估了这两种评分方法(手动和自动)对男性和女性罪犯再犯的四种预测性能。结果显示明尼苏达州惩教部工作人员对MnSTARR评分具有较高的一致性。

实际上，组类相关系数(ICC)值在0.81到0.94之间，属于“优秀”(11)Hallgren, K.A. (2012). Computing inter-rater reliability for observational data: An overview and tutorial. Tutorials in Quantitative Methods for Psychology 8: 23—34.。杜维和洛克在2017年的报告中称，自动评估在预测再犯方面显著优于手工评分。他们发现，随着评分者之间分歧的增加(即ICC值的降低)，预测性能显著下降。通过确保每个人都以相同的方式评分，自动评分方法消除了在手工评分评估中内在的评分者之间的分歧。在此过程中，自动评分过程有助于提高RNA工具的可靠性，进而提高预测性能。

其次，自动评分方法增加的一致性也有助于减少在预测风险或风险级别中经常观察到的差异。在杜维和洛克的最近一项研究中，以2014年明尼苏达州监狱释放的3985名囚犯为样本，从外部验证MnSTARR。尽管手工评分的MnSTARR达到了足够的预测有效性，但如果采用自动评分流程，其性能会更好。同样重要的是，杜维和洛克在2019年的报告中称，尽管MnSTARR对白人的表现优于非白人(黑人、美国印第安人和亚洲人)，但使用自动评分可以将这种差异的程度降至最低。

再次，2014年明尼苏达州监狱释放的7,657人中，只有52%的人通过MnSTARR对其再犯风险进行了人工评估，大多数人只被评估了一次。2016年，该组织实施了完全自动化的区分性别的MnSTARR2.0，评估多种类型的再犯风险。具体而言，MnSTARR2.0从该州的犯罪历史存储库提取数据来填写犯罪历史条目，从明尼苏达州惩教部门的管理信息系统提取数据来填写人口特征(例如，性别、年龄和婚姻状况)、制度行为(例如，遵守纪律，加入帮派)，参与改造(例如，在监狱里获得大专学历，完成化学依赖治疗，完成认知行为治疗)。虽然最初的MnSTARR手工评分平均需要35分钟，但MnSTARR2.0评分不需要增加任何额外的工作时间。由于采用了更有效的评分程序，自2016年以来，明尼苏达州监狱释放的每一个人在释放前都至少进行了一次评估，且在大多数情况下，在释放前都进行了多次评估。仅在第一年，就总共完成了41253次MnSTARR2.0评估。如果使用手工评分的MnSTARR，要对这么多评估进行评分，需要超过2.4万小时的工作时间(几乎相当于12名全职员工的时间)。通过节省大量工作时间，MnSTARR2.0的自动化在其第一年的成本效益估计为955990美元，投资回报为8.08美元(12)Duwe, G. and Rocque, M. (2019). The predictive performance of risk assessment in real life: An external validation of the MnSTARR. Corrections: Policy, Practice and Research. doi.org/ 10.1080/23774657.2019.1682952.。

现有的证据表明，提高RNA工具的效率有几个重要影响。首先，考虑到与自动化相关的优势，惩教系统应该投入更多的资源让评分过程自动化。自动化可以显著提高RNA程序的效率，因为它可以省去监狱工作人员在手动评分评估上花费的时间，并让那些使用工具的人接受必要的培训。尽管自动化RNA程序需要监狱系统的成本，但由于效率的显著提高，它仍然提供了非常有利的投资回报。

如果自动评分不可行，则应考虑使用技术，例如计算机辅助调查软件。有些评估，特别是那些需求评估，可能需要通过调查或与缓刑犯、罪犯或假释犯面谈来收集输入数据。使用电脑辅助调查软件可大大提高评分程序的效率。与其依靠工作人员通过面对面的谈话来进行评估，被拘留或被监管的人应该通过平板电脑或自助服务亭等设备自己完成评估。

最后，如果一个工具必须手动评分，那么就有必要证明其评分具有一致性。如资料必须由惩教人员手动输入，则应完成评分者间的可靠性(IRR)的内部评估，以确定评分人员之间的意见分歧程度。杜维和洛克在2017年提出了以下在人工评分的RNA工具中评估评分者间的可靠性(IRR)的类内相关系数(ICC)阈值：0.95及以上为极好，0.85至0.94为良好，0.75至0.84为及格，低于0.75为差。

四、关于有效性原则

任何好的RNA工具的一个主要目标都应该是最大限度地提高预测准确性。我们把这一目标称为有效性原则。本节描述了RNA工具效率最大化领域的最新发展和最佳实践。如前所述，精算的风险预测方法在预测准确性方面优于不用工具的人类或临床判断(13)Meehl, P.E. (1954). Clinical Versus Statistical Prediction. Minneapolis, MN: University of Minnesota Press.。这一发现在对136项直接比较精算预测与非结构化临床预测的研究(14)Grove, W.M., Zald, D.H., Lebow, B.S., Snitz, B.E., and Nelson, C. (2000). Clinical versus mechanical prediction: A meta-analysis. Psychological Assessment 12: 19—30.的系统回顾以及最近的研究中得到证实(15)Lin, Z., Jung, J., Goel, S., and Skeem, J. (2020). The limits of human predictions of recidivism. Science Advances 6(7). Brennan, T., Dieterich, W., and Ehret, B. (2009). Evaluating the predictive validity of the COMPAS risk and needs assessment system. Criminal Justice and Behavior 36: 21—40.。

然而，并非所有精算方法都是一样的。统计、数据科学和预测分析领域的重大进步是引入了一系列精算选项，这些选项通常在预测准确性方面更为出色。开发RNA工具的一个重要的实践是充分利用一系列先进的算法方法，目的是为了并排测试多种方法。没有一种通用的精算方法可以在所有情况下都发挥最佳效果。一些精算方法通常比其他方法效度更高，但是测试多种方法并允许预测准确性量值来归纳确定最佳方法是最明智的指引(16)Duwe, G. (2014). The development, validity, and reliability of the Minnesota Screening Tool Assessing Recidivism Risk (MnSTARR). Criminal Justice Policy Review 25: 579—613.Ridgeway, G. (2013). “The Pitfalls of Prediction.” NIJ Journal 271, February 2013.。

(一)有效性浪潮

自早期采用以来，刑事司法环境中RNA的精算(或算法)已经推进了三波。精算RNA工具的第一波使用了一种简单的累加评分方法，通常称为伯吉斯再犯预测法(17)Burgess, E.W. (1928). “Factors Determining Success or Failure on Parole,” in The Workings of the Indeterminate Sentence Law and the Parole System in Illinois, ed. A.A. Bruce, E.W. Burgess, J. Landesco, and A.J. Harno. Springfield, IL: Illinois State Board of Parole, 221—234.。在这种方法下，工具上的所有项目通常都被赋予相等的价值，并且通过简单地将每个单独项目的数值相加来生成风险评分。

第二波使用参数统计建模技术(例如逻辑回归)来确定要包含在工具中的项目，并根据它们对结果的影响来计算项目的权重。这种统计方法代表了伯吉斯再犯预测法的普遍进步，因为它提供了更客观的标准来确定应纳入工具的项目从而最大限度地提高预测准确性，并且还提供了关于如何组合和加权这些项目以产生更有价值的信息风险总计评分。

第三波是新近才开始的，即依靠机器学习算法来开发精算RNA工具。机器学习是人工智能的一个子集，其中模型通过训练过程自适应地在数据中进行。机器学习方法不同于早期的统计方法，因为它们不是基于预先强加在数据上的参数模型。相反，数据本身可以归纳决定风险模型的结构。机器学习是一个广泛的领域，包括一系列不同的算法和子方法，如分类和回归树、k-means聚类方法、贝叶斯网络、人工神经网络、支持向量机以及随机森林和随机梯度提升等集成方法。

(二)机器学习方法

机器学习方法已经迅速广泛地应用于私营部门的许多类型的预测分析应用中，如谷歌、微软和亚马孙等组织。对许多不同数据集的正式证明、模拟和比较普遍表明，机器学习方法提高了预测精度，超过了早期的参数统计方法，如逻辑回归(18)Breiman, L. (1996). Bagging predictors. Machine Learning 26: 123—140.。然而，最近的研究发现，机器学习算法在刑事司法中的表现并不比旧方法和简单统计方法更好(19)Liu, Y.Y., Yang, M., Ramsey, M., Li, X., and Coid, J.W. (2011). A comparison of logistic regression, classification and regression tree, and neural network models in predicting violent re-offending. Journal of Quantitative Criminology 27: 547—573.。不过，证据的权重表明，预测的准确性将取决于预测情况的复杂性(如“决策边界”的复杂性)。当单个项目以复杂的方式协同工作来预测风险时，当预测的风险是针对相对罕见的事件时，如暴力累犯(20)Berk, R. and Bleich, J. (2013). Statistical procedures for forecasting criminal behavior: A comparative assessment. Criminology & Public Policy 12(3): 513—544.或性犯罪累犯(21)Duwe, G. (2017). Better practices in the development and validation of recidivism risk assessments: The Minnesota Sex Offender Screening Tool-4. Criminal Justice Policy Review. https://doi.org/10.1177%2F0887403417718608.，机器学习算法会更胜一筹。

描述机器学习的这种优势的一种方式是它从风险因素中“榨取更多水分”以获得风险评分。在开发RNA工具时，各种机器学习算法应该与传统的统计方法一起进行测试，以确定哪种方法在特定应用中效果最好。完全依赖旧的(如基于回归的)统计方法的局限性太大，并且可能会产生在许多刑事司法应用中所能达到的最低的预测准确度。

为了说明机器学习如何在RNA工具上产生优越的性能，决策边界的概念是很重要的。决策边界的目标是区分两个或更多的风险组。例如，决策边界可能是区分惯犯和非惯犯。图1和图2显示了一个决策边界，其中评估工具只包括两个项目(年龄和以前的犯罪记录)。散点图在Y轴上显示了这个人之前被捕的次数，在X轴上显示了这个人现在的年龄。红点代表惯犯，蓝点代表非惯犯。开发一个好的RNA模型的目标是在两个二维数据之间画一条线，这条线可以把惯犯(红点)和非惯犯(蓝点)最好地分开。在图1中，用一条直线很容易做到这一点(请参阅从图的左下角向上到右上方的直线)。图2表示了一个更复杂的关系。通过图2中的数据画一条直线来区分惯犯和非惯犯则是次优的。这条波浪线更能区分惯犯和非惯犯。现在想象RNA工具有20个条目，而不是两个，这20个条目以一种复杂的(非线性的)方式相互关联。这正是机器学习具有优势的原因。机器学习更适合于复杂的决策边界问题。现实生活中的预测问题往往面临机器学习非常适合解决的那种复杂性。

图1 简单的决策边界

图2 复杂的决策边界

(三)量化预测有效性

有几种统计方法可用于建立预测准确性。表格1总结了一些常见的预测准确度统计数据。

本节只讨论表格1中两个最常用的预测准确性量值，因为其他量值不太常用。最常用的测量方法是曲线下的受试者工作特征区域，简称AUC。AUC通过表示在不同风险评分阈值下误报和漏报之间的权衡在技术上量化了RNA工具的鉴别准确性。第二个最常用的量值是基本准确率统计(ACC)。ACC可以很容易地从分类表中生成。然而，与ACC相比，AUC的一个优点是，它不是用于区分预测惯犯与非惯犯的预定分数分界点的函数。AUC独立于基本比率和选择比率，因此通常是首选的预测准确性量值。

AUC值的范围从0到1，可能的最差分数为0.5，可能的最佳分数为1或0。解释 AUC分数的一种实用方法是在RNA工具上，惯犯得分高于非惯犯的时间百分比(得分越高意味着再犯的可能性越高)。AUC分数为0.5意味着我们在50%的时间内比较随机的惯犯和非惯犯，惯犯的分数高于非惯犯。这并不比抛硬币好。另一方面，AUC得分为1意味着100%的情况下我们比较随机的累犯和非累犯，累犯的得分高于非累犯。这将是完美的预测准确性。

RNA工具可接受的AUC分数的标准正在发生变化，部分原因是机器学习算法等新方法能够更好地实现更高的预测准确性(即更高的AUC分数)。经常被引用的RNA工具的一个共识是，介于0.64和0.71之间的AUC评分是中度预测，而高于0.71的AUC评分是高度预测(22)Rice, M.E. and Harris, G.T. (2005). Comparing effect sizes in follow-up studies: ROC area, Cohen’s d, and r. Law and Human Behavior 29(5): 615—620.。

最近对几种常用RNA工具的预测有效性的总结表明，这些工具的平均AUC得分为0.68(23)U.S. Department of Justice, Office of the Attorney General. (2019). First Step Act of 2018: Risk and Needs Assessment. Washington, DC: U.S. Department of Justice, Office of the Attorney General.。然而，最新的、改进后的工具持续产生的AUC得分远高于0.7。分数在0.65到0.7之间的工具曾经还是为人所接受的，但随着这些新的标准在未来被采用，这一分数可能不再为人所接受。此外，在创建RNA工具时，还有其他需要平衡的目标，比如透明性、简洁性(或节俭性)和公平性。从纯有效性的角度来看，为了构建一种使用AUC等常用度量来最大化实现预测有效性的工具，应该考虑所有现代算法。

表1 预测准确率的值

(四)验证和本地化

另一个有效性原则，也是RNA工具开发的最佳实践和新指南的一部分，是创建本地化和定制化的工具。在惩教背景下使用RNA工具的历史中，大部分都是使用现成的RNA工具。许多现成的工具都是专有的，而且仍在广泛使用，例如修订后的服务水平清单 (the Level of Service Inventory-Revised, LSI-R)、替代性制裁的惩教罪犯管理概况(Correctional Offender Management Profiling for Alternative Sanctions)以及俄亥俄州风险评估系统(Ohio Risk Assessment System)。不同司法管辖区的独特方面及其所服务的人群会影响预测能力。

尽管现成的工具可能有一些优点，但也有许多缺点。RNA工具用来预测一些结果(通常是累犯)，但也可以设计工具来预测审前释放、假释决定、监室分类决定等。人们普遍认为，多功能RNA工具可以用于许多刑事司法判决，无论它们是如何开发的。司法系统中的每个决策都不存在通用的RNA工具，用户应该确保工具潜在的应用与工具的设计一致。

由于现成工具的局限性，司法管辖区可能会发现在本地创建、验证和重新验证RNA工具作为提高有效性的途径会更好。该领域开始意识到现成的工具并非在所有背景或应用中都一样有效。例如，2003年以前，宾州惩教部一直使用修订后的服务水平清单(LSI-R)作为其主要的RNA工具。

除了宾州惩教部门之外，美国的其他司法管辖区也设计并实施了本土的评估工具。在一项将现成的RNA工具(Static-99R)与本地开发的用于评估明尼苏达州性犯罪者风险的本土RNA工具(MnSOST-3)进行比较的研究中，作者发现本土的MnSOST-3在性犯罪累犯的两种衡量标准上都优于现成的Static-99R(Duwe and Rocque, 2018)。用体育类比，本土工具往往具有“主场优势”，这导致它们通常比现成的工具表现更好。

主场优势原则的另一个例子来自联邦监狱管理局(BOP)。根据《第一步法》(the First Step Act)，联邦监狱管理局应采用一种对其监管人群有效的RNA工具。为了符合这一强制要求，他们创造了PATTERN的RNA工具。报告的作者明确说明了为什么不建议联邦监狱管理局简单地采用来自另一个司法管辖区的现成RNA工具(24)U.S. Department of Justice, Office of the Attorney General. (2019). First Step Act of 2018: Risk and Needs Assessment. Washington, DC: U.S. Department of Justice, Office of the Attorney General.，因为许多现成的RNA工具都是以各州监狱人口或惩教部门人口为基础创建或验证的。州监狱的在押罪犯通常比联邦监狱的在押罪犯有更多的犯罪历史，包括更为普遍的暴力犯罪历史。由于犯罪历史的性质和频率几乎总是RNA工具中的一个重要预测因素，如果联邦监狱管理局只是简单采用主要在州监狱的在押罪犯身上验证过的工具，那么州和联邦在押罪犯之间的这种差异可能会对RNA工具的预测准确性产生重要影响。

(五) 大数据

提高RNA验证有效性的另一个考虑是使用大数据。随着计算能力的进步，在构建RNA工具时应该考虑尽可能多的可用数据。开发一种具有高度预测能力的RNA工具的过程在很大程度上是一个理论练习。例如，如果鞋码是累犯的一个重要预测指标，即使我们不能想出一个好的理论来解释为什么，也要把鞋码纳入到工具中。RNA发展的科学是一个精算的过程，并不关心因果关系。正如效率原则中所讨论的，我们不仅应该考虑尽可能多的可行和可用的数据，而且还应该特别关注现有行政数据库中的自动化数据的应用。

许多机构在其行政数据库中包含大量数据元素，从表面上看，这些数据可能与RNA相关，也可能不相关。现代计算和机器学习算法非常适合处理大量数据元素和大容量样本。一个司法管辖区可能会考虑将来自其他机构的数据进行交叉链接并引入RNA工具。这在数据共享协议和信息技术基础设施方面可能有难度，但这也可能显著增强RNA工具的预测能力。跨机构数据共享正在成为公共部门多种用途的常见最佳实践，公共卫生就是一个很好的例子(25)U.S. Department of Health and Human Services, National Institutes of Health, National Institute on Aging. (2011). Harmonization Strategies for Behavioral, Social Science, and Genetic Research: Workshop Summary. Bethesda, MD: U.S. Department of Health and Human Services. https://www.nia.nih.gov/sites/default/files/d7/nia_bssg_harmonization_ summary_version_2-5-20122.pdf.。

五、RNA结果的沟通

RNA工具的设计目的不仅是明确一个人的需求领域，还可以评估他们的风险。RNA工具通常可以用数值表示。得到数值(风险评分)并完成配套需求评估后，就会得到对应的结果。管理者将酌情考虑如何告知个人风险评分(以及需求领域)。让工作人员与人们分享风险与需求信息是提高透明度的最高表现形式，这有助于提高公平、提高人们对风险因素的认识和增强应对风险的承诺。

该领域是一项创新，将风险沟通战略作为手段使被评估人在应对影响其参与犯罪的风险和需求时加以赋能。作为日常事务的一部分，惩教机构的期望应该是在每次会议上与他们分享RNA结果。然而，目前情况并非如此。首先，工作人员往往忽略监督计划或案例计划中RNA工具的结果(26)Miller, J. and Maloney, C. (2013). Practitioner compliance with risk/needs assessment tools: A theoretical and empirical assessment. Criminal Justice and Behavior 40: 716—736. Viglione, J. and Taxman, F.S. (2018). Low risk offenders under probation supervision: Risk management and the risk-needs-responsivity (RNR) framework. Criminal Justice and Behavior 45(12): 1809—1831. https://doi.org/10.1177/0093854818790299.，原因在于工作人员对RNA结果的意义或如何向人们解释RNA结果知之甚少(27)Magnuson, S., Kras, K., Aleandro, H., Rudes, D., and Taxman, F.S. (2019). Using plan- do-study-act and participatory action research to improve use of risk needs assessments. Corrections: Policy, Practice and Research 5(1): 44—63. doi: 10.1080/23774657.2018.1555442.。工作人员在分享风险信息时也可能会犹豫不决，因为他们担心根据案件量将每个人分类到不同风险等级需要承担相关的责任，或者他们对分数进行解释时感觉到不适(28)Viglione, J., Rudes, D.S., and Taxman, F.S. (2015). Misalignment in supervision: Implementing risk/needs assessment instruments in probation. Criminal Justice and Behavior 42(3): 263—285.。例如，在缓刑办公室进行的一项研究中表明，公职人员没有使用RNA工具是因为他们不愿意与被评估人讨论RNA结果，特别是当他们不了解某些分量表(29)Magnuson, S., Kras, K., Aleandro, H., Rudes, D., and Taxman, F.S. (2019). Using plan- do-study-act and participatory action research to improve use of risk needs assessments. Corrections: Policy, Practice and Research 5(1): 44—63. doi: 10.1080/23774657.2018.1555442.的时候。未能与被评估人沟通RNA信息是具体实施中的重大问题，因为他们没有与惩教机构共享相同的信息。当工作人员对被评估人风险行为的感知与每个人对自身风险的感知之间存在差异时，就可能出现缺乏信息共享后的权力失衡。

分享信息应该有助于被评估人应对他们自己的行为，并在工作人员和他们之间就个人成功需要关注哪些行为和/或行动建立一个平衡。实施风险沟通系统需要培训工作人员，并在惩教监督的不同方面就使用RNA信息的问题制定机构目标。

(一)司法环境中风险沟通的价值

司法系统尚未采纳在医学和其他领域中广泛使用的风险沟通原则，该原则促进涉及司法问题的人在知情的情况下作出决定。风险沟通可概括如下(30)World Health Organization. (2021). Risk Communication. https://www.who.int/ risk-communication/background/en/.：

风险沟通是指专家与面临健康、经济或社会福祉威胁的人们之间交换实时信息、建议和意见。风险沟通的最终目的是让处于风险中的人为保护自己和亲人，能够作出明智的决定。风险沟通需要多种沟通技巧，它需要对被评估人的看法、关注点、信念、知识以及实践有充分的了解。它还需要尽早识别和管理谣言、错误信息和其他挑战。

风险沟通是以直接、不加评判的方式与被评估人共享敏感信息的过程。这种类型的沟通可以提高认识，鼓励保护行为，建立他们对危害和风险的认识，帮助他们接受风险因素并实施变革，指导他们如何应对风险，并确保他们认识到要对自己的行为负责(31)Walters, S.W., Ondersma, S.J., Ingersoll, K.S., Rodriguez, M., Lerch, J., and Taxman, F.S. (2014). MAPIT: Development of a web-based intervention targeting substance abuse treatment in the criminal justice system. Journal of Substance Abuse Treatment 46(1): 60—65.。共享困难的信息可以减少不确定性，并改善被评估人与工作人员之间的工作关系和信任程度。

健康和意识领域已经确定了可适用于司法环境风险沟通的组成部分——因为司法环境承认威慑是一个目标，这意味着某些行为是可取的和规范的，而另一些则不是。风险沟通实践包括强调要传达什么信息、如何传达以及由谁传达信息。信息发送者(惩教机构)设计信息的内容，通过这些信息向被评估人传达机构倾向实施哪些行为。

(二)风险沟通理论

沟通说服模型是支持风险沟通的经典模型，它着眼于沟通的要素(来源是什么、信息是什么、使用什么技术来传达信息、信息的去向)以及它如何影响参与态度和/或行为的改变(32)Glik, D.C. (2007). Risk communication for public health emergencies. Annual Review of Public Health 28(1): 33—54.。研究发现，风险沟通在以下情况下更有效：(1) 信息来源被认为是可信的；(2) 信息清晰具体，结果明确；(3) 信息能引起接收者的共鸣。高质量的信息传递要求工作人员和案件中的当事人了解风险评分是如何得出的，并且关于风险类别的信息对于信息被广泛接受至关重要。从风险沟通的角度来看，我们有义务更加重视和关注影响工具质量的方法和实施因素。

制作有关RNA工具的信息也可以参考健康信念模型。一个人越是意识到与他们的行为和态度相关的风险，就越有可能采取行动。当被评估人相信风险是真实存在的，并且他们的行动将导致更积极的行为时，他们更可能采取积极的行动。该模型还承认，行为改变的好处必须被成本(障碍)所抵消。因此，司法行动(33)Sunshine, J. and Tyler, T.R. (2003). The role of procedural justice and legitimacy in shaping public support for policing. Law & Society Review 37: 513—548. doi: 10.1111/1540-5893.3703002.和决定的合法性会影响收益成本计算。被评估人普遍担心，司法系统对“锁定他们”的做法比行为改变更感兴趣，这使得情况更加复杂。

保护动机理论提供了一种计算方法，即在塑造被评估人的自我保护期望时，威胁和应对评估是很重要的(34)Glik, D.C. (2007). Risk communication for public health emergencies. Annual Review of Public Health 28(1): 33—54.。就司法系统而言，当被评估人确定司法系统的意图是积极的时候，应激反应可以被减轻。他们可以通过模仿他人来预判，特别是当这个人具备技能以及自我效能时，评估结果往往是积极的。

变化阶段(思考前、思考中、行动、维持等)(35)Prochaska, J.O., DiClemente, C.C., and Norcross, J.C. (1992). In search of how people change: Applications to addictive behaviors. American Psychologist 47(9): 1102—1114.可用于评估人们对结果预期处于什么阶段。变化阶段模型不仅表明每个阶段需要不同的信息，而且还表明人们采取的行动会各有不同。司法系统需要认识处于不同阶段反应类型的变化，并意识到这些反应是合法的。因此，当被评估人处于预模板阶段时，可能没有准备好接受其风险水平，但可能准备好去了解更多影响该风险水平的因素，而处于行动阶段的人们可能正在努力应对风险因素。认识到被评估人都在经历不同的阶段是非常重要的，这些阶段直接影响他们的反应——从参与，到寻求知识，到服从，再到积极行动。在认识到每一阶段的同时，传达对个人行为的接受对于增强消息来源的可信度非常重要。

将消息定向到不同的受众可以提高消息的利用率。有针对性受众的消息应该被设计、测试和使用。响应度因素(性别、心理健康需求、种族和文化构成等)应根据不同类型的受众加以考虑。我们知道年轻人就关于心理和生理上成熟问题的特定信息相较于其他信息有着不同的反应。这表明为了提高信息的可信度而对风险类别的讨论需要采取不同的方式。

因此，风险沟通文献解释说，仅仅向一个人提供风险分数不足以帮助他们理解分数的含义，如何使用分数来改变态度或行为，或者帮助他们学习如何作出这样的改变才是真正有意义的。鉴于工作人员和被评估人之间存在权力差异，一种共享的决策模式是非常有必要的。在这种模式下，人们具有发言权且他们的发言权对案例计划的设计很重要。这种模式与说服方法的工作原理是一致的(36)Matejkowski, J., Lee, S., and Severson, M. (2018). Validation of a tool to measure attitudes among community corrections officers toward shared decision making with formerly incarcerated persons with mental illness. Criminal Justice and Behavior 45: 612—627.。

共享决策模式要求公职人员共享RNA信息，然后让人们参与到有关监督/案例/治疗计划的讨论中并有权作出决定。

(三)传递信息

传递信息是风险沟通的关键。通过信息共享将问题可视化逐步取代通过文字来描述问题的传统方法。网络疗法、手机和应用程序的激增提高了人们对视觉信息和多媒体信息的热情。使用图形或技术传达风险评分的含义将大大加强沟通。在最近的一项通过网络干预来分享动机的研究中(37)Walters, S.W., Ondersma, S.J., Ingersoll, K.S., Rodriguez, M., Lerch, J., and Taxman,F.S. (2014). MAPIT: Development of a web-based intervention targeting substance abuse treatment in the criminal justice system. Journal of Substance Abuse Treatment 46(1): 60—65.，为了鼓励人们了解自己的风险行为，各种图形被用来传达复杂的信息。该研究发现，当通过RNA收集信息的摄入过程时，视觉信息对人们在治疗时的超额摄入产生了影响(38)Lerch, J.L., Tang, L., Walters, S., and Taxman, F.S. (2017). Effectiveness of a computerized motivational intervention on treatment initiation and substance use: Results from a randomized trial. Journal of Substance Abuse Treatment 80: 59—66.。网络工具提高了治疗参与度，识别了促使被评估人作出改变的关键因素，并且是具有成本效益的(39)Cowell, A., Zarkin, G., Wedehase, B.J., Lerch, J.A., Walters, S., and Taxman, F.S. (2018). Cost and cost-effectiveness of computerized vs. in-person motivational interventions in the criminal justice system. Journal of Substance Abuse Treatment 87(2): 42—49. Spohr, S., Walters, S., and Taxman, F.S. (2017). People’s reasons for wanting to complete probation: Use and predictive validity in an e-health intervention. Evaluation & Program Planning 61: 144—149.。

(四)综合通信系统

一个全面的风险沟通系统整合了来自RNA的信息，并部分关联了惩戒控制过程。也就是说，除了依靠工作人员从RNA传输信息之外，应该将RNA信息构建到惩戒控制过程的各个步骤中。良好的沟通系统有助于指导被评估人完成文书工作，并且可以：(1)为罪犯量身定制反馈；(2)提出意见、信息和建议；(3) 将他们的反应联系起来，帮助他们作出与受惩戒控制相一致的各种选择的决定。它可以提供反馈循环，帮助被评估人将他们的反应与某些风险和需求因素联系起来。这减轻了被评估人整合和评估众多预测因素的负担，并允许他们根据自身的再犯风险和犯罪需求来考虑个人目标。

与单纯的工具相比，风险沟通系统的优势在于它提供了一个综合模型来支持决策。以下示例说明了如何将信息传输并集成到不同类型的监督或纠正控制过程中。目前，我们不清楚是否有任何美国惩教机构使用风险沟通系统，然而，这样的系统将有助于推进RNA的实施和使用——这是该领域需要的一项创新。风险沟通将注意力集中在为促进行为改变而传达的信息上，而目前的做法更侧重于使用工具。能够纳入风险沟通系统的示例包括：

1.案例计划改进。德克斯曼和考蒂(Taxman and Caudy,)说明了一些罪犯模式的类型(40)Taxman, F.S. and Caudy, M. (2015). Risk tells us who, but not what or how: Empirical assessment of the complexity of criminogenic needs to inform correctional programming. Criminology & Public Policy 14(1): 71—103.，这些类型适用于矫正计划、监督协议或实践指南。通过RNA系统使用各种统计方法，这些类型可以被生成。如表2所示，算法可用于定义类型并帮助创建原型监督或案例管理计划。

表2 可能的类型示例

2.治疗匹配算法。RNA信息和类型可以通过算法得到支持，这些算法根据程序的关键特征将人们与适当的程序相匹配。这将允许人们查看最合适的治疗类别。计算机生成的治疗匹配列表可能有助于人们参与这些服务(41)Taxman, F.S. and Pattavina, A. (2013). Simulation Strategies to Reduce Recidivism: Risk Need Responsivity (RNR) Modeling in the Criminal Justice System. New York: Springer.。

3.案例计划部分。案例管理可以帮助人们概述其短期和长期目标，通过具体的行动步骤减少再犯。案例规划工具从需求开始，例如药物测试和面对面接触的频率，再关注风险和需求因素。

4.提供持续计划程序。案例计划的连续过程使人们在矫治期间以减少再犯为目标。这一程序建立在一个扩展模型中，一个人在下一次任命之前完成进度报告，这些进度报告是监督会议的讨论焦点。

5.分级制裁/激励措施。研究表明，在引导行为改变方面，激励比制裁更有效(42)Sloas, L., Wooditch, A., Murphy, A., and Taxman, F.S. (2019). Assessing the use and impact of points and rewards across four federal probation districts: A contingency management approach. Victims & Offenders 14(7): 811—831. Mowen, T.J., Wodahl, E., and Garland, B. (2018). The role of sanctions and incentives in promoting successful reentry: Evidence from the SVORI data. Criminal Justice and Behavior 45(8): 1288—1307.，整合过程应建立在确认进展和进步的警戒中。此外，当个人不遵守系统时，系统可以突出显示。

六、结论

对公平、效率、有效性和沟通这四项原则的回顾不仅说明了RNA工具在设计和使用方面的复杂性，还说明了关注设计和实施的重要性。这四项原则对于提高RNA工具的透明度和提供管理其开发和实施的基本准则非常重要。对这些原则的依赖可以帮助RNA工具减少差异，实现更好的降低再犯结果。以下是四项原则的主要组成部分的简述：

1.RNA工具可以在设计和使用中促进决策的公平性。

处理前、处理中和处理后调整是有助于最小化偏差的设计策略。

向最需要改造计划的高风险人群提供更多的支持和矫治资源——应用风险原则并针对特定的犯罪需求——可以帮助实现更公平的结果。

2.RNA工具的效率可以通过采用自动化和计算机辅助评分过程来提高可靠性、有效性和评估能力。

如果必须手动对RNA工具进行评分，则必须进行评分员间可靠性评估以确保工作人员之间评分的充分一致性。

3.当使用更先进的算法时，RNA工具可以实现更好的预测性能。

尽管开发人员应该测试多种算法以确定哪种算法性能最好，机器学习算法通常有助于提高预测精度。

针对矫正人群定制的RNA工具将提供更好的预测性能。

4.RNA工具可以通过使用风险沟通策略，将RNA信息与人们的行动步骤联系起来，从而实现公平相关的目标与更大福祉。

培训使用RNA工具的惩教人员对于有效沟通至关重要，尤其是关于如何解释RNA并将其转化为案例计划。

风险沟通系统为决策提供了一个综合模型。

该系统包括监管计划改进、治疗匹配算法以及分级制裁和激励。

综合模型有助于提高人们对自身环境与改造计划需求的认识。

本文确定的原则和指南代表了一种在设计和使用RNA工具进行矫正中相对创新的方法。我们不清楚美国是否有司法管辖区完全适用了四项原则中包含的所有准则。然而，如果这些指南得到充分实施，我们预计RNA工具将更加可靠、高效和有效，特别是在提高预测性能方面。我们认为，全面实施不仅会使RNA工具的使用更负责任、更合乎道德，而且会为矫正人群和系统带来更好、更公平的结果。

虽然我们的论文主要集中在风险评估上，但我们认为类似的审查对于需求评估也是必要的。最近，由于预处理和处理中的方法不佳，人们对RNA工具中的需求评估类别领域提出了许多担忧(43)Ward, T. and Fortune, C.-A. (2016). The role of dynamic risk factors in the explanation of offending. Aggression and Violent Behavior 29: 79—88. https://doi.org/10.1016/ j.avb.2016.06.007.。如果需求评估提升到了与最近应用于风险评估相同的审查水平，我们预计它将进一步改进RNA工具的设计和实施，并改进所做的决策。