大数据时代法律实证研究的困境与应对

2020-12-09朱嘉珺

苏州大学学报(法学版) 2020年4期

朱嘉珺

一、引言：大数据对法律实证研究的积极影响

自电子计算机诞生以来，数据就开始作为一支新兴生产力正式登上了人类发展史的舞台，而互联网的产生，更是让数据与个人信息紧密联系在了一起。当虚拟空间与现实空间相互衔接、密不可分时，数据信息就成为了拨动整个世界运转引擎的一把钥匙，谁掌握了数据信息，谁就能挑动整个地球。而被称为人类认知世界“第四范式”的大数据技术，则是对数据处理方式的又一次革新。“大数据时代将要释放出的巨大价值使得我们选择大数据的理念和方法不再是一种权衡，而是通往未来的必然改变。”①(1)①[英]维克托·迈尔-舍恩伯格、肯尼思·库克耶：《大数据时代：生活、工作与思维的大变革》，盛杨燕、周涛译, 浙江人民出版社2013年版，第94页。自此，大数据开始以非凡的姿态成为各行各业争相关注并引入的先进技术。

大数据对法律界的辐射亦不小。大数据最核心的功能是预测，通过深度数据挖掘与细致运算，大数据能根据既往的数据分布情况预测出研究事物的运行轨迹并指导决策。据此，大数据成为了在律师行业、司法诉讼领域以及警务系统广受欢迎的预测工具。从世界范围来看，大数据的应用主要包括：(1)预测法律纠纷结果；(2)进行电子化证据开示；(3)衡量犯罪嫌疑人的社会危害性，以确定保释金数额；(4)预测再犯可能性，作为量刑和批准假释的依据；(5)辅助犯罪侦查，包括类型化犯罪趋势预判、金融犯罪欺诈甄别等；(6)辅助律师办案，包括辅助审阅、自动检索、分析撰写合同以及文本纠错等。①(2)①See generally Lyria Bennett Moses & Janet Chan, “Using big data for legal and law enforcement decisions: testing the new tools”, UNSW Law Journal, Vol.37, No.2, 2014, pp.643-645; Gema Bello-Orgaz, Jason J. Jung, & David Camacho, “Social big data: Recent achievements and new challenges”, Information Fusion, Vol.28, 2016, pp.45-59; Avaneesh Marwaha, Seven Benefits of Artificial Intelligence for Law Firms, at: http://www.lawtechnologytoday.org/2017/07/seven-benefits-artificial-intelligence-law-firms/, last visited: 2018-07-13.就我国而言，司法领域也因为大数据的发展而展开了深刻的变革：2016年7月，《国家信息化发展战略纲要》中明确将建设“智慧法院”列为了国家信息化发展战略；2016年12月，国务院印发《“十三五”国家信息化规划》强调支持“智慧法院”建设，推行电子诉讼，建设完善公正司法信息化工程；2017年7月，我国首个司法大数据研究机构——中国司法大数据研究院建立；2017年8月，全球首家“在线法院”杭州互联网法院挂牌成立；2017年11月30日中国司法大数据服务网正式开通；同年11月，《最高检关于人民检察院全面深化司法改革专项报告》中提出，将发布检察大数据行动指南，推进“一中心、四体系”建设，即建设国家检察大数据中心、建设检察大数据标准体系、应用体系、管理体系和科技支撑体系；2018年9月，北京互联网法院挂牌成立。这一系列的有力举措都标志着大数据对我国司法建设的深刻影响，也意味着我国的法律体系正从传统型向数据型和智慧型转变。

大数据提高了侦查效率，简化了诉讼程序，节约了诉讼成本，给法律界带来了许多新气象；尤其是在人类活动与互联网深度融合的大背景下，大数据极大丰富了法律实证研究的数据样本，革新了实证研究的技术水平，推动实证研究朝着更规范、更科学的方向发展。但在迎接大数据的同时，我们更应注意到大数据的内在局限，以及给传统法学理论造成威胁的可能。国外已有学者指出，社会科学实证研究者们正呈现出逃避学术理论的倾向，他们的思维被困守在了由数据科学家所构建和维护的社交媒体、电商平台以及其他商业机构内。②(3)②See Ben Williamson, “The death of the theorist and the emergence of data and algorithms in digital social research”, The Impact Blog, 10 February, 2014. Available at: http://blogs.lse.ac.uk/impactofsocialsciences/2014/02/10/the-death-of-the-theorist-in-digital-social-research/, last visited: 2018-08-01.这意味着，当实证研究者们习惯于大数据所带来的全新数据样本和运算工具时，很可能会将一切变化视作理所当然，从而忽略大数据运算机理中的内在局限，以及与研究事物可能发生的结构性矛盾。尤其对于法律实证研究而言，法律不仅是研究的核心主题，也是制定研究策略的重要理论依据，以及引领实践操作的关键要素。因此，当大数据以技术性的姿态渗入到法学研究领域时，其实质不单是对传统研究操作的颠覆，更可能对主导研究理论和研究规划的法学思维形成严峻挑战。本文即以大数据在法律实证研究操作中体现出的内在局限，以及大数据运行与法律思维间可能存在的多种困境做一个梳理和分析，或可为我国法律实证研究在现阶段的发展提供一个不一样的审视视角。

二、大数据带给法律实证研究的操作困境

大数据技术给法律实证研究带来的巨大影响，一方面突破了人们对研究对象数据化的想象力，另一方面也促使研究者打破传统的研究视角，来重新研判行为、事件的发展规律和立法走向。不过，大数据虽然具有远超传统数据库软件工具范畴的优势，“极大地改变了我们的研究思维方式，重塑了我们的知识结构、研究流程、对信息的接受和处理能力，以及对现实的本质和归类的重新认识”③(4)③danah boyd, & Kate Crawford, “Critical questions for Big Data: Provocations for a cultural, technological, and scholarly phenomenon”, Information, Communication and Society, Vol.15, No.5, 2012, at 665.……但是大数据的现实发展似乎并不像它的拥趸们所描述的那样万能。传统的法律实证研究，实质“是一种以数据分析为中心的经验性法学研究”。④(5)④左卫民：《一场新的范式革命？——解读中国法律实证研究》，载《清华法学》2017年第3期，第46页。对这种既强调定性又强调定量的研究方法而言，对数据的收集、统计分析与理论阐释就成为了研究的关键。⑤(6)⑤左卫民：《一场新的范式革命？——解读中国法律实证研究》，载《清华法学》2017年第3期，第49-53页。然而，仔细梳理大数据的运行机理与演算模式却会发现，无论在模型搭建的理论运用上，还是在数据采集与分析的具体操作上，大数据的内在局限呈现的与传统法律实证研究的相悖性都足以引起实证研究者的警惕。

(一)法律实证研究的认识论困境：“理论终结”对因果关系论的冲击

早在2008年，《Wired杂志》首席编辑Chris Anderson就提出了“数据喷涌而来将导致既有科学方法过时，理论不再”①(7)①Chris Anderson, “The end of theory: The data deluge makes the scientific method obsolete”, Wired Magazine, 23 June, 2008. Available at: https://www.wired.com/2008/06/pb-theory/ , last visited: 2018-08-01.的论断。此后，随着Schonberger和Cukier对该论断的进一步阐释，“理论终结”的理念立刻引起了社科研究者们的强烈关注。尽管Schonberger和Cukier并没有全然赞同Anderson的观点，但他们也认为大数据只注重结论而不讲求因果关系的特点，将对传统社会科学的研究理念带来巨大的挑战——因为“如果只要求知道‘什么(即数据指代的涵义)’而无须明确‘为什么(即数据能得出具体结论的原因)’，则推翻了数百年来已经确立的实证方法体系，并且挑战了人们做出判断和掌握现实的机理。”②(8)②[英]维克托·迈尔-舍恩伯格、肯尼思·库克耶：《大数据时代：生活、工作与思维的大变革》，盛杨燕、周涛译，浙江人民出版社2013年版，第14页。同期，犯罪学家Richard Berk和Justin Bleich也证实，用大数据的机器学习算法(例如“随机森林”)预测犯罪人的再犯可能性，运算结果具有优越性，虽然这些大数据预测工具的开发，并不关心“为什么特定的程序能促进预测的准确性，也并没有人去解释实现这些预测的背后原理。”③(9)③Richard Berk and Justin Bleich, “Statistical procedures for forecasting criminal behavior”, Criminology & Public Policy, Vol.12, No.3, 2013, pp.516-517.至此，围绕着大数据的发展会否最终导致实证研究中的“理论终结”，不同观点的学者们展开了激烈的交锋。

“数据驱动认识论”学派认为，数据本身即可直接窥测问题实质，而无须探求其中的因果关系，正是不可知论的具体体现。这一观点秉持的是18世纪苏格兰哲学家大卫·休谟的主张：“我们无从得知因果之间的关系，只能得知某些事物总是会连结在一起，而这些事物在过去的经验里又是从不曾分开过的。我们并不能看透连结这些事物背后的理性为何，我们只能观察到这些事物的本身，并且发现这些事物总是透过一种经常的连结而被我们在想象中归类。”④(10)④休谟：《人类理智研究》，吕大吉译，商务印书馆1999年版，第66页。尽管强调“因果性、必然性和规律性”的决定论在20世纪一度大行其道，并成为了许多著名科学家和哲学家，如爱因斯坦、波尔、马克思和波普尔等人所共同采用的观点，但是“混沌理论”的出现给笃定数学公式即可准确预测自然界规律的传统理论一记重击。⑤(11)⑤混沌理论以整体、连续的数据关系来解释和预测行为，打破了长期以来依靠单一的数据因果关系来描述和预测事物运行规律的传统认知。参见[美]艾伯特-拉斯洛·巴拉巴西：《爆发：大数据时代预见未来的新思维》，马慧译，北京联合出版公司2017年版。据此，数据驱动认识论者认为，“混沌理论”之所以能在航空、航天等领域广泛适用，正说明了理论不再是解决问题的关键，只要确认数据与问题之间存在关联，就无须证明特定模式形成的原因和机理。⑥(12)⑥See Nathan Jurgenson, “View from nowhere”, The New Inquiry, Oct.9,2014. Available at: https://thenewinquiry.com/view-from-nowhere/, last visited: 2018-08-01.

而“理论驱动认识论”的维护者则以多种方式来回应数据驱动认识论的挑战。一种普遍观点是，数据关联无因果性让数据结论的可信度大减。由于大数据的运算机理是庞大的数据集合，数据与数据间的耦合方式无法直接窥视，据此认为运算结果正确，更像是用结论来套前提，用结果来凑假设，而非令人确信的真正结果。⑦(13)⑦See Janet Chan and Lyria Bennett Moses, “Is Big Data challenging criminology?”, Theoretical Criminology, Vol.20, No.1, 2016, p.29.此外，包括微生物学、社会科学等多领域的学者都提出，数据模型目前得出的结论仍然相对粗糙，且数据的搜罗过程中存在着诸多瑕疵，当这些庞大的未经检验的数据样本汇总时，形成的滚雪球般的误差也许是惊人的。⑧(14)⑧See Hamid Ekbia, Michael Mattioli, Inna Kouper, et al., “Big data, bigger dilemmas: a critical review”, Journal of the Association for Information Science and Techology, Vol.66, No.8, 2015, p.1529.当然，除了对理论驱动认识论的极端维护，还有相对中立的“科学感知论”的支持者，他们认为“科学理论无法超越人类感知”,既然无法确定经由大数据推广放大的数据科学究竟是否属于数据密集型科学，那么不妨将科学视作实践中的工程，尽管依据传统理论，科学和工程的发展是由不同理论推动的。⑨(15)⑨See Werner Callebaut,“Scientific perspectivism: A philosopher of science’ response to the challenge of Big Data biology”, Studies in History and Philosophy of Biological and Biomedical Science, Vol.43, No.1, 2012, pp.69-80.

不同学派理论的交锋体现出大数据带给学术界的强烈冲击，尤其对于需要依靠理论进行建模，依赖理论阐释结果的法律实证研究而言，“理论终结”的观点对传统因果论的撼动更需引起重视。当然，传统实证研究理论与大数据应用间的不相适应，并不意味着要抛弃或全盘否定旧理论，只不过，需要警惕已经出现的奉行“拿来主义”将大数据纯粹作为一种新型研究工具的做法，因为大数据对法律实证研究的改变是从认识论开始的。

(二)法律实证研究的方法论困境：大数据技术的多种偏误对研究结果的误导

实证研究的核心在于数据，数据样本的选择、统计和分析构成了传统法律实证研究的主要脉络。进入大数据时代，这条研究主脉络却因为数据在“质”与“量”上的巨大飞跃而产生了实质变革。对大数据来说，“大”除了体现数据的规模，更具有“量变引发质变”的深刻内涵，也因此，无论在样本的选择、统计还是分析上，大数据的实证研究路径都与传统路径有着本质不同。然而，虽然大数据实证研究具有诸多优势，当前的技术进展程度和应用效果却远未达到理想状态，具体实践中存在包括选择偏误、混杂偏误、测量偏误与确认偏误等多种问题。这些问题出现在法律实证研究的各个阶段，既与大数据的技术本质相关，又与当前的应用方法和环境相关，因此需要高度重视。

1.样本选择阶段的“选择偏误”与“数据碎片化”：传统的样本选择是从收录角度出发，划定符合研究需要的样本参数与条件，并在相关数据库中挑选的过程。“数据的收集会牵涉到各种利益的社会代表，而在社会产生的过程中又不可避免地会存在不能公开或必须内部封存的情况。”①(16)①Rasmus Helles, & Klaus Bruhn Jensen, “Introduction to the special issue ‘Making data—Big data and beyond’”, First Monday, Vol.18, No.10, 2013. Retrieved from http://firstmonday.org/ojs/index.php/fm/article/view/4860, last visited: 2018-08-01.长期以来，由于技术和利益考量等因素导致样本选择出现目的性倾斜，或程序性疏漏的情况，也被称为“选择偏误”。该种问题通常发生在非随机选择时，是研究者对某些特定参量带入个人理解和偏好所产生的选择失衡，进而扭曲测量结果的现象。②(17)②Sharona Hoffman, “Big Data Analytics: What Can Go Wrong”, Indiana Health Law Review, Vol. 15, 2018, 235.为解决这一问题，大数据技术研究员们尝试从数据选取变更为数据清理，依靠不同的需求特性和变量对数据库内的数据进行清理和调整。③(18)③数据清理的技术原理在于，大数据收录的数据量异常庞大，因此对数据样本的确定不能大海捞针般从数据库中进行择取，而应当进行清理，排除掉明显不符合要求的部分，剩下的就是可以进行演算的内容。See generally O’Reilly Media, “Big Data now”, CA: O’Reilly Media, 2011.“数据清理”确实极大丰富了实证研究的数据样本量，并在一定程度上规避了传统方法的缺陷，却因操作方法的改变而产生了新的难点：一是各行业机构使用的数据采集仪器不同，也未形成数据标准一致、可交互兼容的协作关系，因而存在数据重复、关键信息缺失、同一行业不同机构数据无法协调等严重问题——这也是“数据碎片化”问题产生的根源；二是数据筛选中的需求特性与变量设定值的量化问题，即使排除一切主观因素干扰，许多数据在输入过程中都存在政策约束和用语习惯的限制，即同一个意思的不同用语表达在数据量化过程中会产生严重偏差；④(19)④该问题可根据语义学中的缺乏“语义协调性”来理解。语义协调性指，通过校验，将不同表达中的数据纳入到单一连贯的逻辑观点中的过程，以此可避免多种释义。See James A. Cunningham et al., Nine Principles of Semantic Harmonization, 2016 Amia Ann. Symp. Proc. Archive 45, 451 (2016).三是大数据的样本收录来源过于庞杂，大量涉及隐私范畴的消费记录、网络社交状况、移动通信定位等信息都被囊括其中，而物联网时代的数据共享、数据流通更是让隐私风险激增。⑤(20)⑤See Patrick Tucker, “Has Big Data made anonymity impossible?”, MIT Technology Review, 2013. Retrieved from https://www.technologyreview.com/s/514351/has-big-data-made-anonymity-impossible/, last visited: 2018-08-01.因此，样本选择再度面临新的关键难点：在实现算法过滤的前提下，如何判定哪些数据应当被剔除？

2.样本统计阶段的“测量偏误”与“确认偏误”：目前，大数据的数据采集主要来自两部分，一部分是对历史记录的再收录，还有一部分则是目前广泛应用于医疗、工业、物流等行业的统计数据，这部分数据的生成主要来自一线检测设备的测量，并经电脑中枢系统或云端汇总，最终演算出结果。由此，一线检测设备的测量精准度就成为了影响统计结果的关键。然而，受制于技术水平，目前各行业的监测设备质量良莠不齐，仪器校验参数也缺乏统一标准，再加上技术人员对新型仪器的操作方法等问题，都导致了“测量偏误”的产生。此外，在大数据的实际应用中，另一个问题也较为突出：哥伦比亚大学统计学教授Andrew Gelman指出，统计学研究中常会出现一种情况，研究者们会千方百计进行各种“为了验证而验证”的研究，设计多种实验模板，直至获取能得出预设结果的模板作为研究结论。这就是统计学中常见的“确认偏误”①(21)①See Andrew Gelman, “Statistical significance and the dangerous lure of certainty”, Statistical modeling, causal inference, and social science, 2013. Retrieved from https://andrewgelman.com/2013/08/08/statistical-significance-and-the-dangerous-lure-of-certainty/, last visited: 2018-08-01.。然而，大数据技术的运用也并不能规避这种问题的出现。学者danah boyd和Kate Crawford将之称为“现象上的幻想性错觉”(phenomenon apophenia)：由于大数据的运算原理基于的是数据与数据的相互关联，极有可能出现因为数据的全方位辐射的相关性，导致虽然测试样本的结果分布与假设一致，但实际的检验模板并不存在的情况。②(22)②danah boyd, & Kate Crawford, “Critical questions for Big Data: Provocations for a cultural, technological, and scholarly phenomenon”, Information, Communication and Society, Vol.15, No.5, 2012, pp.668-669.由于大数据技术的实质是在对事物描绘的基础上反映事物的表征，因此即使样本选择存在偏误，也会出现符合预期结论的可能，这意味着数据统计所反映出的结论并不必然是客观和公正的。有鉴于此，如何验证大数据技术下的数据统计客观性和正确性则是操作中必须慎重对待的问题。

3.样本分析阶段的“可视化失真”与“混杂偏误”：由于大型数据集无法完全展示所有数据，因此统计结果用图表方式呈现成为了实证研究者建模和进行交流的关键要素。作为大数据可视化的一个直观体现，制图软件(mapping)意在“设计良好的数据可视化呈现方式，用相对简单的感知推论替代认知计算，并促进对事物的了解、记忆，有助于做出决断”③(23)③Jeffery Heer, Michael Bostock, & Vadim Ogievetsky, “A tour through the visualization zoo”, Communications of the ACM, 2010, 53(6), at 59.。然而，数据的可视化转换却蕴藏着不少失真风险。英国学者Michael Hohl就指出，通过不透明的、从美观角度出发的算法操作得出的结果，是不能真正评估结果的正确性和实质含义的。④(24)④Michael Hohl, Ranulph Glanville, “From abstract to actual: Art and designer-like enquiries into data visualization”, Kybernetes, 2011, 40(7/8), at 1039.目前，大数据在可视化过程中的失真原因主要包括：(1)可视化的技术盲点(数据集到视觉设计中存在的障碍空间)；⑤(25)⑤Jeffery Heer, Michael Bostock, & Vadim Ogievetsky, “A tour through the visualization zoo”, Communications of the ACM, 2010, 53(6), at 59..(2)可视化编码的设计路径差异(众多编码路径中很难确定最理想的设计方案)；⑥(26)⑥See Charles Kostelnick, “The visual rhetoric of data displays: The conundrum of clarity”, IEEE Transactions on Professional Communication, 2007, 50(4), at 285.以及(3)可视化转码过程中可能出现的决定性数据丢失问题。⑦(27)⑦See Annette N. Markham, “Undermining ‘data’: A critical examination of a core term in scientific inquiry”, First Monday, 2013, 18(10).这些目前技术发展亟待解决的问题，都给数据样本的准确分析形成了障碍。此外，大数据的非因果性还在样本分析中产生了“混杂偏误”的问题。该偏误主要表现为，研究因素与结果的关联被其他外部因素所干扰而产生的结论误导。例如，先实施方案A，再实施方案B，产生的结果C既可以解读为B直接导致的，A无效，也可以理解为A和B共同导致的，还可能解释为实施A的效果直到实施B后才体现出来。可见，关于因素A和结果C之间的联系，“混杂变量”B在其中的作用具有相当干扰性。因而，在样本分析中，必须通盘考虑并调整所有潜在的混杂变量，以减少由此产生的“混杂偏误”。⑧(28)⑧See Sharona Hoffman, “Big Data Analytics: What Can Go Wrong”, Indiana Health Law Review, Vol. 15, 2018, 236-237.

(三)法律实证研究的伦理困境：数据共享的必然与对隐私权的侵犯

大数据时代，法律实证研究面临的一个全新难题就是数据采集的越界问题。当前，依靠数据网络进行工作、学习、商贸和交流沟通已经成为常态，而在这些日常行为的背后，却是个人信息被政府机关和各大互联网企业大量收集的现实。这些被收集的信息既包括通过网络平台公开的姓名、性别、住址和常用联系方式等，也包括未直接公开但通过网络后台信息关联可采集到的如婚史、不动产登记、生育记录等，还包括非直接关联但通过大数据分析间接得到的兴趣爱好、关注动向、消费轨迹等。对于企业而言，利用大数据收集目标客户的信息数据来制定相应的产品和服务策略，已经成为了一种普遍做法。但是，什么数据是不得泄露的个人隐私和商业机密，什么又是可以被公开和使用运算的信息，法律并没有清晰明确的界定标准。此外，即使排除了现有法律明文规定的个人隐私信息，是不是就意味着其他个人信息就能被随便收集了，也是一个颇具争议的话题。例如，有广告商为了了解潜在用户的购物喜好，在搜集特定区域的社交媒体账号发帖信息后，通过对公开的元数据进行汇编，整理出了一份地区居民购物倾向文件。这种做法遭到了国外不少学者的批评，认为行为本质就是对他人隐私权的侵犯，尽管收集的数据都是公开的。①(29)①例如从超市潜在顾客的关注信息和购物选择上推算出顾客的怀孕指数和预产期，并定期邮寄母婴产品清单的做法就受到了诸多质疑。See Omer Tene, Jules Polonetsky, “Big data for all: Privacy and user control in the age of analytics”, Northwestern Journal of Technology and Intellectual Property, 2013, 11(5), pp.253-254.不可回避的是，信息网络的快速发展已经使得数据共享成为了数字社会建设的必然组成，并随着云端、物联网的密集铺设而在进一步扩张共享范围。就法律实证研究而言，数据共享的范围越大，意味着可供使用的样本量越丰富，也意味着更多新问题的产生，包括数据重复、数据权属的界定、数据库的壁垒等，这些都是大数据应用中必须直面的困境。

其中，最大的隐患来自互联网商业巨头对用户个人信息的全面掌握。2018年最轰动互联网界的一件事莫过于Facebook创始人扎克伯格就如何处理用户数据和隐私公开接受参议院的质询。在听证会上，参议员质疑的问题包括Facebook作为超大型社交媒体存在的数据信息垄断、是否利用移动设备的音频功能对用户的个人信息进行监听、是否将数据共享设置为默认选项，以及是否泄露用户的政治倾向数据给俄罗斯或其他机构以达到干预甚至操纵2016年美国总统大选等。尽管扎克伯格的回答获得了公共演讲和危机专家的好评，但不难看出，他实际回避了很多问题。而对于用户个人信息保护的态度，国内互联网巨头百度创始人李彦宏的回答，同样模棱两可。大数据时代，从互联网技术开源平台的设立，到云端存储的布局，数据共享早已经成为了一柄双刃剑，如何合理划分数据边界，有效保护个人隐私，是个任重道远的课题。同样，实证研究大数据库的建设也无法规避数据隐私权的确立、数据收集的合法合规，以及与政府机关和互联网公司合作等问题。这进一步凸显出，大数据实证研究与法律规制同步建设的紧迫性与必要性。

三、大数据带给法律实证研究的思维结构困境

从法律合同的自动生成，到法律服务的私人定制，从区域犯罪发展预测，再到再犯可能性的量化……大数据技术越来越向法律界展现出其蓬勃的野心。然而，在向法律人展现其优势的同时，大数据也逐渐显现出了与法律在结构上的矛盾。这些矛盾，反映在具体研究中，就是大数据的运行实质带给法律实证研究思维的结构困境。法律实证研究的中心脉络是法律思维，对研究者而言，从模型搭建到过程分析，从结果阐释到规范适用，研究走势始终遵循着法律的实质、在法律思维的指导下进行，然而，大数据的介入却极有可能中断传统研究前行的齿轮。比较大数据的运行机理与法律实证研究的运转实质，主要存在如下四点对立。

(一)数据建模的“循旧”与法律演进的“向前”

大数据有一个广为人知的定义，即包含所谓的“3V”特性——大容量(Volume)、高速度(Velocity)，以及多种类(Variety)。依靠前所未有的数据收集能力和演算方式，大数据超脱了传统统计学的应用范畴，被视作“一种结合了技术手段、分析功能和高阶智能的文化、科技与学术现象。”②(30)②danah boyd, & Kate Crawford, “Critical questions for Big Data: Provocations for a cultural, technological, and scholarly phenomenon”, Information, Communication and Society, Vol.15, No.5, 2012, at 663.而引发这一现象的关键在于：量变引起质变。“大数据的核心功能是预测，通过将数学算法运用到海量的数据上来预测事情发生的可能性……系统的数据越多，算法就能更好地改善自己的性能。”③(31)③姚海鹏、王露瑶、刘韵洁：《大数据与人工智能导论》，人民邮电出版社2017年版，第4页。基于此，大数据在犯罪学界广受欢迎，因为传统的警务预测方法就是依靠对过往的相关数据进行收集和分析，例如热点分析、犯罪制图等，而大数据工具的应用可使数据收集更为细致完整，运算结果更加准确。④(32)④See Janet Chan and Lyria Bennett Moses, “Is Big Data challenging criminology?”, Theoretical Criminology, Vol.20, No.1, 2016, at 27.然而，随着大数据的进一步应用，一些深层次的问题暴露了出来。因为大数据的支持者认为“有充分的证据证明，人类的大部分行为都受制于规律、模型以及原理法则，而且它们的可重现性和可预测性与自然科学不相上下”①(33)①[美]艾伯特-拉斯洛·巴拉巴西：《爆发：大数据时代预见未来的新思维》，马慧译，北京联合出版公司2017年版，第13页。，因此，利用大数据的预测功能对犯罪嫌疑人进行犯罪风险评估开始大行其道。不过，一项研究表明，这种针对个人的再犯可能性预测非常不可靠，因为预测软件设计公司将大量诸如工作收入、受教育水平、家庭环境等一般因素作为参考变量，却忽略了个人成长中的不确定因素，这导致参考变量在运算模式中的占比可能存在隐形歧视。②(34)②参见腾讯研究院等：《人工智能》，中国人民大学出版社2017年版，第551-554页。例如，财产性犯罪可能多发于收入较低人群，严重暴力犯罪可能多发于低受教育、成长环境糟糕的人群，但是这并不能排除高收入、高知个体的再犯可能性。如果没有充分考虑个体发展的变量，仅依照过去的一般规律作为预测标准，很可能会导致严重的群体歧视。

然而，大数据的建模模式决定了对信息的收集只可能是对既往数据的收集：决定大数据预测核心能力的机器学习，“就是从已知的知识(特征)出发，利用概率统计等数学计算方法来得到某种数学规律(模型)，并利用所得数学规律来计算完成任务。”③(35)③姚海鹏、王露瑶、刘韵洁：《大数据与人工智能导论》，人民邮电出版社2017年版，第26页。可见，对大数据而言，它做出的所有判断和预测都是对以往事实和经验的高阶总结。从传统实证角度出发，机器学习的容错度较高，是一种非常好的统计工具；不过，一旦将大数据广泛应用到法律领域，尤其是影响决策制定时，很可能结果并不如预想的那样。因为大数据应用的关键是寻找规律，所以在应用过程中会“制定容纳‘硬’信息的框架，而排除只适用于个别情形的策略信息或‘软’信息，以保证只有符合预设‘相关’的信息数据才会被收集。”④(36)④Caryn Devins, Teppo Felin, Stuart Kauffman, & Roger Koppl, “The law and big data”, Cornell Journal of Law and Public Policy, 2017, 27, at 405.当建立在历史数据上的结论生成并指导决策制定后，新决策又会作为历史数据再一次被大数据所收集，并成为下一次决策制定的数据基础……周而复始，指导决策制定的信息类型越来越雷同，而信息渠道也会趋于单一。然而，法律实证研究的根本目的是推动法治社会的进步，这也意味着法律是绝不会永恒地躺在立法预设的框架内的——“从社会学角度来看，显而易见，从习性到惯例，再由惯例到法律的过渡是变动不居的。”⑤(37)⑤Weber Max, “Economy and Society”, in Guenther Roth and Claus Wittich (ed.), An Outline of Interpretive Sociology, CA: University of California Press, p.325. 转引自[德]Hubert Rottleuthner, Matthias Mahlmann:《法律的基础》，张万洪、丁鹏主译，武汉大学出版社2010年版，第25页。在社会发展中，科技的革新带来生产力的爆发，经济的发展又带来物质条件的改善和生活方式的转变，伴随着人的理念的转换，旧的法律规范或被废除或被修正，而新的更符合人们行为惯例的法律规范被制定。可见，法律的演进过程中掺入了大量的新鲜因子，包含政治、经济、文化等各方面的因素共同推动着新老法则的更迭，而这种不断吸纳新变量的向前模式恰好与大数据不断排错的“循旧”方向相左。

(二)数据关联的“单一”与法律解释的“多元”

“当社会允许生物学成为工程化的学科，会让科学沦落为改变世界却不明所以的状态，这工程化的生物学也许仍然能告诉我们如何到达目的地，然而它却并不知道所谓的目的地究竟是个什么地方。”⑥(38)⑥John H. Zammito, A nice derangement of epistemes: Post-positivism in the study of science from Quine to Latour, Chicago: University of Chicago Press, 2004, p.173.Woese的这番警告虽然是针对生物学，却揭示了一个简单却深刻的现实：建立在数据关联上的大数据预测，也许能展现给人们某些事实或答案，却无法告诉真相。Janet Chan打过这样一个比方：对一个等式而言，Y是Z的因子，通过调整Y就可以改变Z，也即当Y被新的因子Y’所替代时，Z值也就成了Y’导致的结果；假设Z代表某地区的犯罪率，而Y代表警方想要调整的因素，则警方必须要证明Y不仅与Z具有关联，而且是导致Z的原因之一。⑦(39)⑦See Janet Chan and Lyria Bennett Moses, “Is Big Data challenging criminology?”, Theoretical Criminology, Vol.20, No.1, 2016, at 32.换句话说，当数据对结果的作用力大小无法证明时，则想要利用大数据去研究某个社会现象或推动法治的进程，几乎是不可能的——因为数据对结果的呈现是“单一化”的，同样的结果却会因为作用因子的不同而具有完全不同的意义，展现出对社会迥异的影响力。例如，对同一地区的不同两所学校历年的学生违法犯罪数据进行收集和分析，发现两校学生都是在一年前犯罪率开始激增，且都有严重暴力化的倾向。如果仅从数据关联性来看，因为两校过往的地理位置、社会环境、生源等都相近，则无法判断各自犯罪率激增的成因。而如果引入变量，对数据的占比进行调整后就会发现，一年前分别有两种文化对两校学生进行了侵蚀：暴力游戏动漫和“古惑仔”式黑社会文化。显然，如果没有对关联数据的进一步细分和解读，对两校犯罪率成因的判断很可能趋同，从而对犯罪治理造成阻碍。

与数据关联的“单一”呈现不同，法律最突出的特征之一就是解释。“我们的法律存在于对我们的整个法律实践的最佳论证之中，存在于对这些法律实践做出尽可能最妥善的叙述之中。”①(40)①[美]罗纳德·德沃金：《认真对待权利》,信春鹰、吴玉章译，上海三联出版社2008年版，第147页。虽然法律解释一般存在法律发现和文义的澄清与确定两种思辨，但有一点比较明确，即无论是英美法系还是大陆法系，法官在具体案件中作出的对法律文本的解释，更能体现法律解释的本质。②(41)②参见肖光辉：《法理学专题研究》，上海社会科学院出版社2016年版，第240页。因此，当法律成为实证研究的对象，或者当需要应用到法律实证的研究结果时，对法律的释义也就成为了必然要求。同时，由于“法律的适用是个殊化的，受限于特定的情景，具有弹性而就势随形”③(42)③[德]Hubert Rottleuthner, Matthias Mahlmann:《法律的基础》，张万洪、丁鹏主译，武汉大学出版社2010年版，第211-212页。，也意味着，对法律的解释虽然遵循一定的标准和原则，但并没有恒定的结论，从而导致了扩大解释、限缩解释乃至法官造法。例如，刑法在制定之初并不存在虚拟财产的概念，因此电子货币、游戏装备是否属于“财物”就存在争议。可社会生活的快速变革要求司法必须尽快对相关问题作出合理的回应，这时，适度拓展“财物”的内涵和外延，以包容评价虚拟财产的价值属性就成为必然。④(43)④参见广东省高级人民法院发布2017年度涉互联网十大案件: http://www.gdcourts.gov.cn/web/content/41842-?lmdm=1000, 2018年10月10日访问。显然，相对于机械的数据解码，法律更像是一种修辞和语言的游戏。⑤(44)⑤Caryn Devins, Teppo Felin, Stuart Kauffman, & Roger Koppl, “The law and big data”, Cornell Journal of Law and Public Policy, 2017, 27, at 379.它的逻辑中蕴含开放，规则中暗藏灵活的特性，使法律实证研究对变量和结论的阐释较数据运算有着更高的要求。

(三)数据预测的“趋同”与规范适用的调整

哥伦比亚法学院教授Bernad Harcourt指出，用基于历史数据的关联性得出的决策进行预测，会形成反馈环路，从而削弱或摧毁干扰因素的影响，而这种干扰因素往往是推动决策改进的关键。⑥(45)⑥See Nernard E. Harcourt, Against Prediction: Profiling, Policing and Punishing in an Actuarial Age, Chicago, 2017, IL: University of Chicago Press.因为机器学习缺乏人类思维的创新，它只能通过不断增加既往的判断结果和衡量因子，在最初预设的运算框架内进行最优选择。实际上，它观察到的数据改变并不是研究条件变化时形成的，更有可能是之前输出的数据再次输入的结果——如此，输入和输出循环往复，容易形成一个闭环。⑦(46)⑦Caryn Devins, Teppo Felin, Stuart Kauffman, & Roger Koppl, “The law and big data”, Cornell Journal of Law and Public Policy, 2017, 27, at 409.这也意味着，如果没有外来的新鲜因子被不断输入数据库的话，只依靠大数据自运算，最终的预测结果将陷入停滞不前的泥淖中。这一点显然与人类的发展轨迹并不相符。“其兴也勃焉，其亡也忽焉”，人类的发展历程虽然有很多相似点可寻，但同时又充满不可捉摸的波动性和分叉点。⑧(47)⑧[美]艾伯特-拉斯洛·巴拉巴西：《爆发：大数据时代预见未来的新思维》，马慧译，北京联合出版公司2017年版，第III-IV页。可以这么说，正是不断的试验与创新推动着人类一路曲折前行，这过程充斥着意外和各种思想火花的迸发与汇集，而非沿着既定的线路而走。试想，当大数据应用于指导人们的行为习惯时，对行为轨迹的预判主要来自经验数据的演算，尽管可以根据某些特定情势调整经验数据输入的范围，但是这种调整都是基于一般逻辑的推断。然而情势的变化往往突然而至，一旦情势的转变偏离预测轨道的话，大数据的预算就会变成一股保守的力量，从而阻碍创新的发展。⑨(48)⑨Caryn Devins, Teppo Felin, Stuart Kauffman, & Roger Koppl, “The law and big data”, Cornell Journal of Law and Public Policy, 2017, 27, at 405.

此外，由于这种运算模式强调的是一般规律的遵守，排除意外的变量因子，最终或可能导致对多样性的排斥。“多样性是应对不可预知的环境条件改变的关键，过度的行为一致性将增加系统运行的风险。”①(49)①Ian Ayres, Joshua Mitts, “Anti-Herding Regulation”, Harvard Business Law Review, 2015, 5(1), at 14.Caryn Devins等人通过对网络社交媒体的用户使用情况进行分析，得出结论：大数据不仅能预测人们的行为，还能影响人们的行为，甚至在过程中影响权力的分布。②(50)②这类社交网站会将他们认为的“最佳输出结果”作为参量置入最初设计的运行框架内，当算法持续进行时，最初的参量会在无数次循环中逐渐放大影响，引发的直接后果就是认同并发布与“最佳输出结果”一致言论的群体日渐集中，而相左言论或者来自竞争对手网站的信息影响力会逐渐减弱。此外，由于人的社交需求性，其他原本持中立意见的用户会逐渐向影响力扩大的一方靠拢，而不愿靠拢的少数人会最终被迫退出。See Caryn Devins, Teppo Felin, Stuart Kauffman, & Roger Koppl, “The law and big data”, Cornell Journal of Law and Public Policy, 2017, 27, at 357.由此，当数据运算应用于法律实证研究、尤其是司法裁决时就更要警惕了——过于一致性会导致司法僵化，甚至社会发展的停滞。“对法律‘运用规则’的运用使各种社会制度事实得以产生，在此基础上特定的活动成为可能……法律规则的形构力量，即创造新事实的机能。”③(51)③[德]Hubert Rottleuthner, Matthias Mahlmann:《法律的基础》，张万洪、丁鹏主译，武汉大学出版社2010年版，第34页。需知，司法裁决与规范适用绝不是为了排斥少数异见，而是一个从多数社会群体的共同利益出发，兼顾少数、弱势群体的声音，并不断改进的过程。因此，在研究中必须深刻意识司法裁决的目的，认清规范的适用固然需要一根准绳，但社会的变化又需要规范做出适度调整的现实需求，警惕完全一致的行动、思维的倾向，依靠汇集不同方向的力量和声音，共同完成对规范运行轨迹的调整。因此，对大数据的预测功能，不能盲目依赖。

(四)数据决策的“暗箱”与司法裁决的公开

前述指出，大数据为了更为直观地表达运算结果而进行的数据和图表转换过程，暗藏着关键数据丢失的风险。这个局限性同样影响着大数据在法律领域的应用。“数据不经过压缩成为理论或更精简的叙述的话，就不具有任何意义。”④(52)④Gregory Chaitin, Newton da Costa, & Francisco Antonio Doria, Godel’s way: exploits into an undecidable world, Leiden: CRC Press, 2011, p.62.由于大数据的运算数据量过于庞大，将运算过程全部展示出来根本不现实，因此，对运算结果进行转换和压缩就成为了必然。然而数据的换算是极其复杂、多层次的，其中某一个环节的数据换算出错，经过多环节的换算，这个错误就可能被放大无数倍。同样的，假使换算的结果误差在可容许的范围之内，结果还需要经历一道更为复杂的语义转换，也即对数据进行压缩。如果是涉及法律应用的话，则案件越复杂，需要描绘的情形越多，数据越冗长，压缩的程度也就越厉害。这时会让人产生一个疑问：原本用以表达某个细节的数据，会否因为数据链的压缩而就此丢失？然而，已知的数据关系只有离散的关联，具体某个数据与确切事实的因果关系并不可查，也就是说，即使意识到了可能存在的失真风险，也并不能找到具体的原因。那么，当大数据被应用到司法裁判，因为数据压缩而导致裁判结果严重偏差却又找不到具体原因时，问题就非同小可了。

“裁判公开与审理公开是审判公开制度的两大基本内容，其有利于显示司法民主、遏制司法腐败、保障正义实现、提高诉讼效益、培育法官素养、保证裁判质量、发现法律漏洞和促进学术研究。”⑤(53)⑤尹西明：《裁判公开制度研究》,载《河北法学》2003年第5期，第57页。人们依靠审判公开制度，对公正司法实行有效监督，可以说裁判过程、法官的释法说理能最大限度满足社会公众的知情权，是司法制度稳定运行的重要保证。然而，当大数据，如它的坚定拥趸所言，完全取代法官实行量化裁判后，人们就会发现，原先仰赖裁判公开的信任基础消失了——因为数据运算无法释义。冗长的关联数据间的耦合是阻挡人们解读的第一重障碍，因为没有因果关系而不存在推理过程是第二重障碍，除非进行语义压缩，否则无法呈现结果是第三重障碍，如此一来，整个裁判过程好比一个无法打开的“暗箱”。大数据带来一个悖论：一方面人们搜集更多的数据和证据为了对观察的现象有更全面和准确的了解；另一方面，人们搜集的数据越多，越需要对其简化才能窥视其中有用的信息。⑥(54)⑥See Caryn Devins, Teppo Felin, Stuart Kauffman, & Roger Koppl, “The law and big data”, Cornell Journal of Law and Public Policy, 2017, 27, at 358.简化过程究竟抛弃了多少因果关系的细节无人知晓，更何况其中还存在着初始结构设计时的数据收集偏差，这些因素聚拢于一个无人可窥探的“暗箱”里，极容易产生武断的裁决，而这样的裁决，显然不符合人们对司法公平、公正和公开的要求。

四、大数据时代我国法律实证研究的应对举措

毋庸置疑，大数据正以超乎想象的速度影响并占领社会生活的方方面面，这是科技爆发的大势所趋。“科技既不是好的，也不是坏的，更不是中立的。”①(55)①Melvin Kranzberg, “Technology and History: ‘Kranzberg’s Laws’,” Technology and Culture, 1986, 27, at 545.当前，数字社会与物联网的加速建设，更多的生活、生产信息以数据的形式被纳入到社会秩序监管的框架中，这让大数据技术参与到社会治理和法治建设成为必然。此前，舆论曾经弥漫过一种担忧，认为“社会科学是被N=all程式撼动得最为激烈的学科之一……社科研究者们也许将丧失他们在该领域的主导地位”②(56)②[英]维克托·迈尔-舍恩伯格、肯尼思·库克耶：《大数据时代：生活、工作与思维的大变革》,盛杨燕、周涛译,浙江人民出版社2013年版，第65页。。诚然，目前的数据化趋势的确颠覆了非数据化的人文社科理念，但并不意味着新技术对旧理论的全盘取代。从前述分析可以看出，大数据无论在自身的技术发展，还是实际的研究应用上都存在着不可忽视的局限，同时也给智能时代法律实证研究的沿革带来了无法回避的困境。因此，在面对“大数据潮”来临的当下，有必要确立客观、审慎的思考模式，既要大胆拥抱科学进步带来的优势，更需谨慎鉴别新科技的局限与引入的风险，充分做好应对各种困境的必要准备，才能真正获得新技术带来的益处。以前文剖析的大数据带给法律实证研究的多个困境为前提，目前研究领域可做如下三个方向的应对准备。

(一)理论应对：构筑科学、前瞻的理论阵地

一个重要的，且逐渐为学界所意识到的真相是，大数据对法律的影响绝不仅限于作为某种技术工具。“在大数据的世界中，经过大规模的数据分析，排除人类的偏见、不称职和错误后，法律被推定为可以校准的方式实现政策目标和最佳的人类行为。”③(57)③Benjamin Alarie, Anthony Niblett, & Albert H, Yoon, “Regulation by machine”, 30th Conference on Neural Information Processing Systems (NIPS 2016), Barcelona, Spain, at 5. Retrieved from: http://www.mlandthelaw.org/papers/alarie.pdf, last visited: 2018-09-02.裁决量化一直是人们在寻求的目标，可当大数据声称能实现这一目标时，新的担忧又产生了：在大数据运算的无因果性与承载因果关系理论的法律中间，似乎存在着难以调和的矛盾。是先有数据关联才有了因果关系的理论，还是先有了理论才能找到相关的数据？——这个疑问似乎成为了大数据应用于法律研究的一个先期阻碍。然而，必须指出的是，无论大数据的无因果性与传统理论间的隔阂有多深，都不能成为盲目阻绝大数据进入法律界的理由。因为数据是无限的，输入却是有限的，而“所有的观测(数据)都包含着理论的释义”④(58)④Karl R. Popper, “A realist view of logic, physics, and history”, in Objective Knowledge: An Evolutionary Approach (Rev. ed.), New York: Oxford University Press, 1979, pp.285-295.。大数据收集的数据范围不仅是可控的，而且是必须用理论控制的。一旦认识到这点，就会发现，在大数据技术和法律实证研究之间隐含着多个理论衔接点，而要想实现自然科学与社会科学的有效对接和充分融合，则需要首先构筑一个科学、前瞻性的理论阵地。

首先，“科学性”是指泛在的，同时涵盖自然科学与社会科学在内的，并契合国内实际需要与现状的理论。一方面要意识到，我国的法律实证研究正处于难得的理论拓展机遇期。“得益于法律数据的几何级增长，法律实证研究在中国遇上了最好的时代。……法律实证研究在当下中国又遇上了最坏的时代，因为看似丰富的数据海洋下面，实际上处处存在暗礁。”⑤(59)⑤程金华：《迈向科学的法律实证研究》,载《清华法学》2018年第4期，第160页。在大数据推动我国各项法律数据库快速建立的背后，是我国的法律实证研究长期处于数据不足，理论欠缺，操作随意的现状。⑥(60)⑥程金华：《迈向科学的法律实证研究》,载《清华法学》2018年第4期，第158-164页。因此，从理论发展的独特现实出发，我国当前的法律实证研究需要把握两个特殊点：一是大数据不同于传统实证研究的技术内涵大大缩短了我国与国外早已形成科学理论体系的法律实证研究的差距；二是法律实证研究的传统理论正面临数字化的严峻挑战，也意味着我国的理论拓展正处于追赶和变革的双重关键期。另一方面还要认识到，当前数字社会的建设标志着自然科学与社会科学深度融合的态势，因此，对法律实证研究理论的革新应当站在全新的视角，充分研判不同学科的优势与劣势，以兼收并蓄的姿态寻求多学科的衔接，探索符合法律规律的新型实证研究理论。

其次，“前瞻性”是指能充分预估信息技术的发展趋势，深度挖掘大数据技术应用于法学研究中存在的本质问题和技术难点，并具有高适应性和兼容性的基础理论。“机器学习已遍及各个领域，且随着电子数据的激增可能会在大数据时代发挥更重要的作用。……今天，我们仍然可以使用传统计算机运行机器学习和完成其他计算任务，但从长期来看我们可能需要考虑其他方式。”①(61)①[美]Kalman Toth：《人工智能时代》，赵俐译，人民邮电出版社2017年版，第215页。科学家已经宣告了信息技术日新月异的变革节奏，而法律研究领域需要做的就是以发展的眼光提前构筑理论沿革的路径曲线，大胆预设，小心求证。具体而言，可从三方面进行着手：(1)从法理学的角度，研究深度学习算法与法律理论的联系与矛盾；(2)就实证研究方法，探索新技术条件下传统实证理论的变迁与沿革、算法歧视的有效规避、数据样本的权属界定等；(3)以5G网络生态的发展态势为前提，思考在物联网的建设布局下，大数据实证研究的拓展、数据监管和产业间的规范衔接等问题。要明确，目前初步开展的以司法数据库为基础的实证研究尚属于“大量数据的研究”，而“基于大量数据的研究并非严格意义上的大数据研究”②(62)②左卫民:《迈向大数据法律研究》,载《法学研究》2018年第4期，第142页。，因此，真正的大数据实证研究的基础理论建设平台亟待铺就。

(二)技术应对：建立严密、完善的操作纠偏机制

由于大数据存在着诸多技术性瑕疵，法律实证研究中，会给样本选择、样本统计和样本分析等阶段带来多重技术性偏误，同时，大数据的运行实质还涉及侵犯隐私权等伦理问题。因此，必须改进旧有的研究操作步骤，建立一套严密、完善的研究操作纠偏机制，从技术角度来切实解决已出现的操作问题。

首先，对样本选择阶段的“选择偏误”和“数据碎片化”，着重需要解决的是数据样本的选择失衡，以及不同行业、产业间的数据样本重复、采集标准不统一等问题。对此，需要在各行业内加快建立统一的大数据库，制定严格的行业数据采集、管理标准和规范，改进和强化各类数据测量仪器的生产标准，尽可能实现行业内不同机构间的规范数据共享和数据互通，同时分别从技术、规范双重角度推动行业用语的统一，以减少数据样本碎片化倾向；同时，在数据样本筛选环节设置变量检测指标，利用大数据对行业内常见的目的性倾斜、程序性疏漏等选择失衡表征进行分析，搭建变量检测模型，以排除样本筛选中的一般失衡因素；此外，还需要设立个人隐私信息鉴别筛查口，制定适用于行业一般操作标准的个人隐私信息鉴别机制，在大数据样本中提前过滤涉个人隐私的数据，尽可能避免对他人隐私的侵犯。

其次，对样本统计阶段的“测量偏误”和“确认偏误”，需要着重解决的是数据样本的失真和研究模板的“偶然性结果确认”问题。要实现数据样本的保真，不仅要严格规范数据测量仪器的规格和生产标准，还要强化对具有数据采集功能的芯片、仪器的生产企业的数据库监管，同时加速驱动各行业间的数据互联互通，规划构建微小企业数据存储与流通监督机制，大力推动协调政府机构、互联网平台、数字芯片仪器生产企业三方权益的云存储数据库的规范运行和安全监管，以科学审慎的态度迎接5G时代基于物联网的真正大数据实证研究的到来；此外，为保证实验模型的科学性和准确性，需要为实验结果的验证设立“多重确认审核机制”，对数据样本和参量进行多次调整，尽可能减少“确认偏误”的发生。

再次，对样本分析阶段的“可视化失真”和“混杂偏误”，需要着重解决的是数据转化保真的技术难点，以及变量结果间的因果关系误导问题。前述指出，数据可视化失真的风险主要来源于编码路径的选择、数据丢失和技术盲点等三个原因，除了技术盲点属于操作中不可控的因素外，前两点原因导致的偏误都可通过技术性干预予以矫正。目前大数据应用于法律界出现的较大问题在于，法律想要实现的目的与具体编码设计间存在不小差异，这种差异一方面源自程序设计员对法律需求和实质的误读，另一方面源自设计方案路径选择中缺乏与法律专业人士切实的沟通及其指导。因此，必须加速跨学科大数据法律实证研究人才的培养，有针对性地提升程序设计员对数字的法律化建构能力和法律专业人士对法律的数字化解读能力，从而真正实现对数据样本编码路径的最佳化选择，以及对决定性数据丢失的判定。此外，明确“混杂偏误”产生的关键在于“干扰变量”的误导，需要强化样本分析环节的因果关系解读，在统计学和法学专家的指导下修正样本规模，进行混杂变量的调整，以此减少不合理的因果关系解读选项。

最后，对数据采集的越界问题，关键需要实现的是个人隐私信息保护机制的建立和完善。一方面，亟待确立科学合理的个人隐私信息界定标准。目前，国内对个人信息保护的重要参考对象是欧盟的《通用数据保护条例》和《以犯罪预防、调查、侦查、起诉或刑罚执行为目的的自然人个人数据保护指令》，但是这些规定对个人隐私信息的范畴界定都比较模糊，忽略了人工智能时代数据信息动态多变的特点。因此，对隐私信息的界定可以从个人主观层面和社会客观层面进行差异化的动态判断，这实际要求构建一个明确合理的隐私信息量化标准。①(63)①朱嘉珺：《数字时代刑事侦查的隐私权保护界限——以美国卡平特案大讨论为切入口》，载《环球法律评论》2020年第3期，第55页。另一方面，需要建设一个围绕数据信息权属的信息保护均衡机制。数字社会，尤其是物联网的铺设，不仅在大中小企业、机构里出现了密织的数据库，同时数据共享机制和开源平台的出现更是让数据流动成为常态。与此同时，大量个人信息被理所当然地掌握在了企业、机构的手中，这也意味着数据信息的主体并非数据信息的存储方，而数据信息的存储也并不代表对信息享有绝对的所有权和控制权。因此，有必要构建个人、商业机构和政府三方协调的信息保护均衡机制，既能对个人关键信息实现监管和保护，又要考虑到数据在数字社会的资源利用价值，以动态的方式维护信息保护和数据循环再利用间的平衡。

(三)结构应对：创设协调、规范的风险控制系统

根据大数据运行机理与法律实证研究思维结构间的矛盾分析，可以看出，二者主要在研究模型建构、法律释义、规范适用和司法裁决等四个方面存在实质性的结构互斥。这种互斥不单是数据原理与立法规律间的矛盾，也是自然科学与人文社会科学间体系性冲突的一种表现。虽然依照大数据的理念，任何社会现象都可以数字方式进行呈现和解释，但就技术现实发展而言，这种理念始终是理想化的，而横亘于抽象与具象学科间的沟壑却是实际存在且无法全然填补的。因此，要想使大数据有机作用于法律，必须创设一个风险控制系统，从整体对大数据和法律实证研究的运行兼容性进行把控，充分发挥二者的优势，调和二者的矛盾，以期实现数字时代法律实证研究变革的最优化。

就整体而言，一个良好风险监控系统的建立，需要在遵循研究流程的同时对每一个结构碰撞下产生的症结进行风险监控，因此，围绕着大数据应用于法律实证研究的多个环节，该系统主要从数据建模、样本采集、统计分析，到结果释义进行分步检验，以此对结构型矛盾可能产生的风险实现层层递减。

首先，需要在建构研究模型时增设“软信息”填补平台，以抵御大数据“循旧”模式的僵化。利用大数据对既往信息的高归纳和总结特性，可在某种程度上实现对社会运行和事物发展规律的一般性预测。然而，这种预测是高度概括的，以纯粹的经验为经验，在数据样本筛选时就对少数的、新鲜的数据很不友好，显示出僵硬的“循旧”倾向。因此，在大数据预测时必须注意两点：一是严格区分群体与个体、一般与个别的决策适用，高度警惕市面上已经出现的各类针对个体的决策类应用模型，很可能这类模型构建的数据基础只是基于群体的一般性数据归纳；二是在数据建模时增设“软信息”填补平台(注：一般将适用于个别或少数情形的信息称为“软信息”)，定期检测新数据因子的出现频率和影响力，当频率和影响力达到一定阈值后，则可认定个别情形已经上升为了一般情形，则该数据因子成为决策制定的必要输入数据，以此对数据模型进行调整，可在一定程度上防止因重复吸纳不断精简的相同经验数据而产生的“循旧型”模式僵化。

其次，需要在样本采集和统计分析时强化“多预案”设计，以应对因果关系的错位和结论闭环的产生。大数据讲求数据关联而不注重因果关系的原因在于，事物或现象构成的原因过于复杂，存在太多人类所无法窥知的生成因素，因此只能寻求数据与结论之间的关联，而无法确切得知其中的因果关系。然而，要想通过研究推动事物改变或社会进步，仅仅能得出结论是远远不够的，必须找到形成结论的关键因子或变量，找到问题现象出现的症结，才能予以修正。同时，大数据“自运行”本身还具有趋同排异、从旧斥新的特点，这也让大数据在做出预测时容易陷入结论闭环的困境，给规范适用的调整和立法更新形成阻碍。面对这些问题，传统单线程的研究思路显然无法予以解决，需要将样本采集和统计分析进行阶段性整合，强化“多预案”设计，具体包括：(1)在遵循统计学规律的前提下，科学调整数据采样范围，多层次多角度思考数据与结果间的因果组合，以找出明确的关键影响因子为目标；(2)在统计分析中警惕“过度一致性”趋势，要在尊重多数群体选择的基础上考虑少数群体的权益，必须在决策制定中保障多样性的存在、维护目标系统运转的适度灵活和可持续发展，依靠定期对统计结果在变化的社会环境背景下的适用反馈，调节研究系统和采样范围，以实现最大程度的利益普惠。

最后，需要在结果释义中进行“明细化”展示，以规范裁决量化中出现的“暗箱”情形。由于大数据的复杂性，无法直接呈现运算过程，因此在具体实务中很容易陷入“一步到位”的裁决模式中，即依靠归纳既往裁决的关键变量构建裁决模型，在研究中输入相应采样数据直接得出结论的做法。例如，对青少年校园欺凌案进行裁决量化，主要提取被告年龄、被害人年龄、被告行为特征、被害人受到的损害等关键信息，通过模型搭建，可实现一个简单直观的校园欺凌同类案件裁判预测/衡量平台。但实际上，这类裁判平台对大众并不友好，不仅因为关键因子的提取缺乏司法评判标准，同时这类数字化的操作缺乏细致的释法明理，使得此类裁决模式缺乏公开性、法理性和普遍性。因此，在大数据技术无法进行过程展示的前提下，需要对裁决流程首先进行模块划分，如审前、审中、审后，在审判模块中进一步分为公诉方、被告方、附带民事诉讼原告方、法庭意见，再依据审判细节可再分为公诉方的起诉依据、被告方的抗辩理由、双方质证环节、法庭认定事实和理由、法律依据、裁判结果以及社会环境和舆论影响等，通过将整体审判流程按纵向或横向划分为若干个模块，对每个单一模块再提取关键变量建立子模型，同时对各模块依照参与方或审判环节等建立多个对照组，则可在一定程度上向公众提供审判推论的细节展示，保障裁决量化的合理合法，体现司法权威。