大数据对法院司法统计的积极功效及边界

2020-12-26蔡胜宾

安徽行政学院学报 2020年1期

蔡胜宾

（南开大学法学院，天津 300071）

传统司法统计是由各级法院统计人员手工统计后，从基层法院开始逐级层报汇总，形成全国性的司法数据。随着计算机网络技术的进步，司法统计效率得到了极大的提升，统计数据难以检验的弊端也得到了一定的纾解。尤其是2002年以后，司法统计的统计口径、计算方法和指标体系都向着大数据与智能化的路径进行改进和提升，这也为法院司法统计改革引入大数据和新技术奠定了初步基础［1］。

近年来，最高院为全面落实《国家信息化发展战略纲要》和《“十三五”国家信息化规划》对智慧法院建设的总体要求，制定了《最高人民法院关于加快建设智慧法院的意见》。其中，“运用大数据和人工智能技术，按需提供精准智能服务”、“运用大数据为司法决策服务，结合审判动态分析和司法统计智能分析”更是成为人民法院推进新时期司法统计工作的规范指引和行动指南。

一、我国司法统计现存的主要问题剖析

2016年，最高人民法院全面推进司法统计系统与大数据管理和服务数据平台并轨，实现司法统计报表全自动生成（1）。至此，全国法院人工司法统计时代已成为历史。司法统计信息化建设水平也在不断提升，然而，就当前情况来看，司法统计也有一些不足之处。

其一，统计平台有待进一步公开。司法统计数据涵盖了案件内容、程序运行、效果评价、法律适用，以及法院内部审判管理等诸多方面，然而从其公开数据来看，却很难达到理想的标准。

以最高人民法院网站的司法统计数据公开专栏“司法数据”为例，自2010年至今，最高人民法院会定期和不定期公布全国司法统计数据。就公布的内容来看，案件数量，以刑事、民事及行政案件为区分标准，辅之以一审、二审及再审，对各类数据进行统计、计算比率。2016年3月以后，该网站开始探索以司法大数据专题形式对社会热点进行解析。总体上，公开内容仍限于案件总体数量和比率升降，以总结业绩为目的，数据公开只是附带性的［2］。

目前，数据公开渠道有法院工作报告、法院网站和年鉴。以已发布的2014年、2018年31个省份法院工作报告为例，报告基本上都发布了、民商、行政和刑事受案数量和结案数量的数据。结果显示，即便是针对收结案等基本数据，统计口径也不一致。另外，“数出多门”不仅出现在政府部门，在司法部门上也由来已久［3］。还存在一些非正式的司法统计数据公开渠道，如李国光在《行政执法与行政审判参考》中公布了行政审判相关数据。以上各种渠道发布内容详略不一、类型多样，直接和间接影响了司法数据的严肃性、周延性和精准性。

其二，统计数据监管薄弱。大法官高憬宏从现有司法统计数据监督制度上，指出其存在四个方面的问题：相关规定不够明确、监督范围较为狭窄、方法较单一及监控措施执行不力［4］。而且，现有统计人员，许多属于“半路出家”，统计专业知识缺乏，也很难满足统计数据监管要求。针对北京石景山区人民法院调研报告，也证实了这一点［5］。

我们还应看到现有数据管理方式同样是造成统计数据监管难堪重任的原因之一。现行法院大多采取的是涉密信息与非涉密信息捆绑管理的模式。而在司法统计对象中，绝大多数案件（2）并非涉密信息。加之，绝大多数法院尚未建立涉密系统与非涉密系统等级保护机制，考虑司法信息可能涉密等原因，往往对数据信息实行封闭管理。这一管理模式同样不利于保护公众的数据知情权。

其三，统计分析难以深入。作为提供信息支持的服务工作，法院司法统计通过采集、分析和应用司法信息，为人民法院决策、管理、预测和评价等活动［6］。

目前来看，司法数据统计分析主要以历年法院工作报告、调研报告及最高人民法院网站“司法数据”专栏等形式呈现。工作报告主要是事后分析，通过提取数量、频率、百分比、相对比进行简单的数据比对，以彰显业绩为目的。另外，公开文献显示，调研报告主要是法院内部人员撰写，内容在于对现有司法统计工作做实证分析及提出改进建议，而且公开成果不多（3），难以构成统计分析的主要途径。

2017年10月起，最高人民法院网站开始以司法大数据专题的形式发布各类热点案件的数据分析报告。从现已公布的专题内容来看，绝大多数主要是以案件审结情况、案件地域分布、当事人特征、案件特征等全部或其中两到三个类目作为研究对象，分析内容很固定，也是以事后分析为重点，提取数量变化、比率升降（4），限于已有的信息资源而缺乏对新的信息资源的开发；从成效来看，至今还未有司法统计分析大规模地影响立法进程的事例，亦很少看到决策者依靠司法统计分析数据做决策［7］。

二、推进司法统计“大数据化”之路

（一）大数据在法院司法统计中的运用

实践中，全国各级法院都在积极探索一条符合本院实际的司法统计“大数据”之路，如崇左中院全面推行电子卷宗工作深度运用［8］、浙江高院开发了“审判执行案件信息结构化数据分析系统”和建立起各种类型司法统计分析需要的数学统计模型［9］。可以说，大数据及人工智能、云计算等新技术相继在司法统计中的应用，为推进新时代司法统计工作提供了前所未见的效能。

其一，规范统计平台数据采集，助推司法公开。当前，我国法院司法统计口径不一致，其重要制约因素之一在于各省法院数据采集模式存在差别、数据采集深度不同。因此限于已获取数据量的差异，后续公开数据的统计口径已很难达到一致。大数据时代强调数据的量大（5），一改传统数据分析的样本收集，强调收集尽可能全的数据进行分析［10］。一旦全法院系统实现全样本统计，这意味着数据采集模式和体量上的差异得以消弭。后续司法数据公开只要是同等的，统计口径自然很轻易能做到一致。那么此时关键在于，如何实现全样本统计？以办公内网、涉密内网、法院专网、外部专网和互联网等五大网系为纽带的信息基础设施覆盖全国法院，作为用户的法官、涉案当事人和社会公众在平台上从事相关活动，每时每刻都会产生巨量的数据（6）。司法大数据真正实现时，应当是全样本统计、全景式记录。除了深挖以上案件和报表的统计数据以外，大数据及新技术的引入将为司法统计开辟全新的数据源头，实现数据采集的全面化。

其二，推进数据平台的社会化，强化数据监管。当数据平台逐步实现社会化时，意味着数据源头不再被法院和法官捏在手中，统计数据流动的内外互通互联，自然不再是问题。而且，随着数据平台的开放性和互动性加强，数据监管的多主体化成为可能，其中就包括了当事人和普通网民。目前来看，大数据管理与服务平台已经汇聚了9000余万案件信息，显然在数据的量级上已经有了相当的提升。基于司法数据的公共属性和司法公开的要求，大数据技术将持续优化网系建设、构建法院开放云。

其三，实现统计分析的综合化，充分释放司法统计效能。大数据和新技术的引入，使得司法统计实现了分析的综合化、立体化。通过对数据平台上的初始数据、整合数据和处理数据等进行综合分析和立体解构，司法数据集群得以纳入多维时空视角进行具体分析。大数据的数据挖掘和分析，不再受限于传统统计学中抽样样本，通过一定的运算法则，将事物之间通过相关关系搜索列入量化数据分析的范畴，发现事物之间的相关关系而非因果关系。通过从海量数据信息中发现相关关系，真正实现让数据自己“发声”。再者，通过大数据平台和新技术的自动识别和智能提取，呈现出综合评估结果和单项指标数据关系。此外，大数据实现统计分析的综合化，还体现在预测未来，即通过把特定算法运用到巨量数据上，来计算事件发生的盖然性。通过比照当前数据和预测结果，审判管理者可以优化司法资源配置和辅助办案法官实时调整自身的表现。

（二）推进司法统计“大数据”的具体路径

其一，提高基础数据的量与质。可见，大数据采用的是一种全数据模式，即“样本=总体”［11］。事实上，基础数据的量与质直接影响着后续数据的开发利用和统计分析的成效。这就要求，一方面要不断开辟新的源头、扩展数据量；另一方面要对海量数据进行清洗和预处理、保障其高精度。

事实上，法院案件信息大多是以半结构化和非结构化文档的形式保存，司法统计真的统计了全体样本吗？显然，答案是否定的。我国人民法院基于大数据管理与服务平台面向3500个法院，自动生成47万张报表，超过1000万统计数据和1亿个案件信息项，相较于以往，统计数据量确有了极大地跃升。然而，司法统计仍然是围绕案件信息的一种框架式的统计，其仍然是结构化数据为主。

“量化一切，数据化的核心”，大数据及技术要求改变以往司法统计只能对结构数据进行选择的尴尬局面。在非结构化和半结构化数据占数据体量约85%情况下，要想真正开掘司法统计的“宝藏”、增大数据量，必须对非结构化和半结构化数据进行挖掘和采集。

在法院系统内部产生非结构化与半结构化数据的资料主要有裁判文书文本、庭审视听资料等。以刑事裁判文书文本为例，按照刑事案件的犯罪构成、量刑情节、法律规范等抽取特定情节要素，创建相应的文件模板，进而通过转换程序来解构和重建这些非结构化文件的内容，使用类型化转换规则将其分别转换成为标准的XML文档（7），再分析XML文档与关系数据库的映射关系，按照某种转换规则将XML文档转换成相应的关系数据库表。关于庭审直播视频，对视频内容按照语义关系，利用时空分割、特征提取和对象识别等处理技术，进而组成可供计算机和人理解的文本信息（8）。从数据处理的流程看，视频结构化描述技术能够将直播视频转化为人和机器可理解的语义，并进一步转换为统计平台所能抓取的数据。

移动端的普及，增加了普通民众获取司法产品和服务的可能性，同时移动端的数据采集对拓宽数据源也有一定作用。总的来看，大多数法院在手机移动端开发了网上立案、案件查询、网络普法、文书服务、律师通道等等应用，有的甚至内嵌入法院官微链接。可以想象这样的一个场景，因相邻权纠纷一方当事人在家拿着手机登录APP平台就完成了对邻居的所有诉讼程序。实际上，该APP不仅完成了对当事人诉讼程序的智能引导，而也会同步记录全部用户行为。未来，随着5G时代的到来，法院移动端产生的数据体量也必然持续爆炸增长。司法数据也会在这个过程中跳出司法的圈子，扩大数据源，更好地与社会大数据交融。

“数据量的大幅度增加会造成结果的不准确，与此同时，一些错误的数据也会混进数据库。”对于这个问题，国际著名的大数据科学家维克托认为，这是由“小数据”向“大数据”重要转变之一，我们既要允许少许不精确，也要能够努力避免这些问题。因此，需要采用有关技术如数理统计、数据挖掘或预定义的清理规则，包括一致性检查、无效值和缺失值的处理，再用算法进行匹配。

其二，校正指标、智能提取指标群。可以看到，从一开始的指标选择、权重设置到最后的统计成果综合利用，虽然有法官参与，但实质性不强［12］。这种参与往往以召开专家座谈会辅之以本系统内领导们的意见而敲定。但那些来自审判业务一线的数据生产者——法官们的声音，却在共同意见中得不到回应，甚至他们的意见被前两者全权代表。而一旦司法数据和统计指标在法院管理中不加区分地使用，势必导致办案法官在很大程度上盲目地、甚至不惜一切代价地追求对自己有利的指标、避免不利的指标。

对于预先设置的指标，一方面或多或少裹挟着审判管理者的好恶，另一方面也势必会筛选掉一部分重要高度个体化的数据。随着大数据和人工智能司法应用的深化，这一点或许会得到改善。作为人工智能技术的核心，机器学习包括算法、模型和评估三个部分，数据通过算法构建模型并对模型进行评估，评估的效能如果符合要求，就拿这个模型来验证其他的数据。如果达不到要求，就要调整算法来重新训练模型，进而进行二次评估，如此反复评估和验证，最终获取满意的经验来处理其他的数据［13］。具体到指标体系的建构，可以有以下两种模式。其一是自上而下，事先人为地设定好统计指标体系。然后，从海量的案件信息、裁判文书、法律、人事档案等中提取相应的情节来充实形成完整的图谱。比如“法官绩效”方面，可以区分为“审判业绩”、“科研成果”、“业务培训”、“普法宣传”等，进行具体权重赋分。其二则是自下而上，事先不设定指标，而是通过对海量数据进行深度学习，自动地找出全体数据的重要特征，进而搭建出司法统计指标体系知识图谱。概而言之，通过对海量的司法数据进行机器学习，提取高效算法进行特征选择和特征提取，然后与预先设定好的指标进行比较、提炼，进而不断地调整校正。

除了特征提取和指标校正外，大数据和新技术同样可以在数据联动和指标群无穷组合上有所作为。要想准确区分案件质量评估、评查与法院考评之间的关系，关键在于针对评价对象和内容的不同构建各自的指标体系，而不在开辟新的数据源头。基于不同对象、阶段及管理要素，大数据技术可以实现智能提取类型化差别化指标群。以案件质量评估指标体系为例，可以考虑通过非监督式或半监督式的特征学习和分层特征提取高效算法，自主、准确地完成特征数据库中对应的命名实体识别、关系抽取，最后利用属性抽取技术从不同数据源中聚合这些信息，实现对案件质量指标体系的精准勾画［14］。

其三，实现统计数据的深度、可视化分析。司法数据从采集到多维整合，最终是要经过数据技术的分析挖掘，融入知识、理论模型，从而形成知识和发现的过程和应用。而且，后续统计成果的综合利用能产生多大效能，也取决于本阶段统计分析的深度。

大数据分析是将描述性的、诊断性的、预测性的和规定性的模型用以数据，进而产生新见解和解决特定问题的过程。在大数据技术运用中，统计分析得以深化，突破以往的经验分析和事后描述性分析的限制。在数据挖掘和分析中，根据目标要求选择算法与挖掘模式，在海量数据中发现所需价值信息。解释评估中，识别和提取有价值的知识为知识运用提供决策依据［15］。比如，聚类分析将数据对象划分成若干组，包括组内同质、组间相异。实际应用中，包括划分法、层次法、基于密度法以及基于模型法。聚类分析可以应用于不同类型数据或形状各异的数据，可以实现对高维数据的处理，且噪声处理能力极强，聚类结果为可解释。聚类分析可以被用来划分不同层级的法官群，并且通过行为模式刻画不同法官群的特征；也可以被用来在网上进行法院文档归类等。

另外，关联分析能够通过找寻隐藏于海量数据集中的关联性或相关性，从而发现某个对象中某些特征同时显现的规律和模式。在法院考核方面，通过分析法官经办案件的数量、有效工作时长与所在审判团队分工配合程度等显性与非显性的关联程度，再结合本院乃至全国法院的业绩情况进行比照，可以合理确定法官工作勤勉程度和绩效水平、优化法院管理。

大数据可视分析最大程度地利用人对可视化信息的强认知能力，有机融合人、机的各自优势。目前主要应用的信息可视化技术主要有文本、网络（图）、时空、多维的可视化技术［16］。通过对司法大数据可视化处理，借助人机交互技术和交互式分析方法，使管理者和法官更为直接和便捷地发现司法数据所反映的信息和知识。比如对某地法院审理的知识产权犯罪进行时空可视化分析。实际分析中，能够对案件发生地变化、时间变化、涉案行业和人数变化等构建集时间、空间、事件为一体的时空立体空间，使得大规模复杂的数据以更为直观的可视化图表形态展现出来。

其四，重视基础设施与制度建设。信息技术设施是大数据技术发展和应用的载体。大数据时代的数据能否被有效收集、分析、挖掘和应用，很大程度取决于大数据信息平台和数据中心建设水平［17］。“十三五”期间全国法院推动人民法院信息化建设3.0版总投资约216亿元，其中基础设施建设约93亿元。截至2018年底，全法院系统已建成2万余个科技法庭，2160余套远程讯问系统，而且98%的法院建成信息化诉讼服务大厅，大屏幕、导视台、查询机和联网终端等信息化设施。下一阶段，法院推进司法统计与大数据技术深度融合，更有赖于完备的基础设施的支撑。

当前，加强大数据技术基础设施建设，可以着重从如下几方面入手。其一，加强统筹规划。由最高院统一领导，建立最高院以下的各级法院信息技术基础设施建设发展协调机制，明确各级法院基础设施建设的目标要求、关键步骤、支持政策和保障举措，实现统一规划、同步推进，一体建设。其二，借力于市场化机制和产研合作。大数据产业已初具规模，部分科技公司也能够为法院提供定制化、系统化的产品和服务，如科大讯飞与苏州中院共建全国首个科技法庭，反馈就相当好。因此，在未来，法院应当充分利用市场化机制和市场化手段，加强同先进科技公司的技术合作和协同研发。其三，专门制定司法统计信息化建设标准，以现有法院信息化建设标准为基本遵循，针对技术建设、司法应用、社会服务、日常运维、组织保障和实现成效等方面构建评价指标体系，对全国司法统计信息化建设工作标准和评估方式形成规范指引。

三、对法院司法统计“大数据”的进一步反思

（一）司法统计与法院管理之间并不具有正相关性

作为法院管理的重要手段和工具，司法统计与法院管理之间并不具有正相关性。一旦法院管理过于迷信数字与“技术治理”，组织管理势必会陷入一种机械化、忽视规则变形之可能［18］。身处审判一线的法官不仅是数据生产源，他们更是法院实现司法正义的操盘手，拥有着丰富的经验理性和人之为人的尊严。然而，在新技术裹挟之下，法官会逐渐被抽象或还原为数据，虚拟化的数字人的建构使人不断从物理空间和社会空间语境下隐退［19］。而对于管理者，其所看到的，不再是生物性或社会性的存在，而是经标准化语言过滤了的数据。此时法院考核便形成了一种数字上的考核。司法运作纷繁复杂、社会活动瞬息万变，而当法院管理者一切以数据和指标来看待审判法官，不仅难以帮助作为法院内部成员的法官了解自身优缺点并及时纠偏，甚至会引发组织成员间的信任危机。

司法统计精准化和数字考核同样代表了一种对审判权更平淡、却更精密的管控，此时数据监控的范围不仅覆盖了全法院系统，甚至开始延伸向法院与系统外的信息交换处［20］。然而，正是这样的一种情形，审判管理权与审判权的界限变得模糊不清。因为信息通信技术的改善，实时的数据交换和指令反馈也已成为可能，审判管理者完全可以对普通法院的日常审判，给出持续不断的评估。新技术带来效率和便捷的同时，也使得对法官审判的干预更加容易。审判权是法律赋予法官独立行使的判断权。而当“司法大数据”得以实现，那便意味着法官和审判权置于精密的数字网格之中。例如法院的数字考核，其触角深入的地方已经让法官变得迈不开步伐，而且法官的行动不断被其引导、指示、推动。为了满足考核指标要求，理性的法官通常会按照合乎程序的方式将司法办案过程精确拆解，使得每一个动作都能为审判管理者在案管平台上所见。最终导致的结果是，审判权的运行空间不断地被包括绩效考评在内的一系列法院管理挤压。

从个体角度来说，司法统计在享受大数据利好的同时也可能导致法官主体性和自主性的丧失。司法大数据详细记录办案法官的每一个动作，整合计算后预测未来发展趋势，且提出一系列建议来规范法官的行为。然而，通过搜集海量数据、整合数据和分析数据来引导、规范和预测办案法官的行动，究竟是谁在规范法官行动？显然，为了享受到大数据及新技术带来的便捷的同时，法院管理者和法官们不得不放弃部分的自主权。而且，只要法官们在享受着这种技术服务，在不自知的情形下同时也在为系统和算法投喂“数据”、提供能源，与此同时信息的控制力却在不断加强。

最终导致的是，作为主体的法官让位于系统和算法，技术系统成为行动的主体，“有能力通过虚拟代理来代替任何一个人的能力，并且在政治或经济利益驱动下，引导他们的愿望朝着一定的方向发展。……因为它是自组织的，所以说系统变成了代理的‘人’［21］。”似乎可以预见到，如果不加以限制，被技术所裹挟的法官们终会被不断规训、“手脚和头脑也被技术理性所捆绑”（9）。

以上分析表明，这样一个事实“并不是司法统计和绩效考核越严密，法院管理就越好”。当大数据与司法统计、数目字管理愈发紧密，“技术中立”的论断至少在这种语境下很难成立，法院管理之中的“技术统治”被激活。

（二）司法统计的两个限度

也正是如此，审判管理权与审判权的界限模糊、法官主体性的丧失等，这些都与技术理性的张扬密切相关。然而，即便如此，作为一个有着30万以上就业人数的巨大组织，中国法院也需要弃去信息化带来的倍增效能和光明未来。诚如周强院长所言，“人民法院要走在大数据时代前列。”

要想改变这样一种把方法论当作认识论来看待的“唯技术论”而又不至于背弃技术红利，就很有必要划定法院管理与技术的限度，回归法院审判的主线。

1.限度之一：尊重法官主体地位

在法国，法官实行终身制，任何人无权影响和取消其身份，并且法院系统的人、财、物直接由司法部和司法委员会调配使用；同样地，美国联邦法官也是终身任职，其还直接掌控着法院的行政管理。可以看出，法官当然地被视为法院自我管理和服务的主体。区别于美国、法国法官制度，我国法官实行任期制，地方法院人、财、物由省财政统管。加之，长期受到政法传统特点的影响，法院的司法统计制度背后透露的支配意图，是很明显的。

诚然，大数据及新技术会加剧对法官主体地位不同程度的挤占，其中有其难以避免的一面（10）。但对于任何两难问题，更多的应是纾解，而非弃绝不顾。毫无疑问，作为法官行使审判权的主体，包括司法统计和绩效考核在内的法院管理也应当是为法官服务的。另外，在诉讼中审判法官应当贯彻为公民和当事人服务的宗旨。即将自身置于司法第二主体、从服务性主体的定位出发，将工作重心放在为公民和当事人提供司法服务上（11）。这无疑都是以提升裁判者自身素养及夯实司法为民理念为前提的，在具案中法官的自由心证与个体经验判断及个人的价值需要在最大程度上得到体现。因此，技术绝非法院输出司法正义中的主体，而且其所带给法院管理者和法官们的应该是辅助功效而非规训、引导，仅此而已。

算法和系统的“可理解性”是一方面，而另一方面也要注重培养数据素养（12）。对于管理者而言，司法数据素养要求管理者们负责任地使用司法大数据，以如何保护法官的隐私和保持法官数据的保密性为核心。作为数据主体与算法受体的法官，其所要求数据素养关键内容在于合理管控高度个体化的数据，并能在算法推荐与决策下作出自由选择与拥有自主行动的能力。

唯有如此，即使置于司法统计与法院考核的数字网格之中，法官仍旧会保持法院管理和服务的主体地位。法院管理者会对技术冲动有所克制，回归服务审判权的初衷，明确界定审判管理权和审判权的范围。

2.限度之二：“无处不在的第三只眼”也需让位法官心证

“心证”，即“内心的确信”或“良心的确信”实则是有罪认定的终极标准。要求法官对全案证据的证据价值个别或总体的进行判断，以及对各个证据的择取，这就构成了以最终的有罪认定为终点的整个心证历程［22］。心证包涵了法官对案件事实和法律上的个人见解，其形成与法官个体的社会和生活经验高度相关。

大数据和新技术的出现使得监视变得更加容易、成本更低廉也更有用处。在法院内部，各种智能终端、无线传感器的装备及更加完美的物联网架设使得大数据得以持续推进司法统计和数字考核的精准化。法院的组织管理和信息控制能力获得相当提升。

以往法官司法过程中，心证公开主要是指心证结果的公开，在裁判文书的“本院认为”这一表述之后即是法官心证结果。然而随着司法大数据生成与运用、算法与系统的不断优化，作为法院组织成员的法官，他们的心证全过程很可能时刻都暴露在“无处不在的第三只眼”，至少会以数据视图形式为管理者所见。问题在于，系统与算法是如何利用统计数据来给高度赖于法官个体经验的心证“画像”的，到最后又是如何判断哪些数据项及数据能够回溯到法官心证的。很明显，这成了一个更大的算法“黑箱”。另外，随着统计数据的成倍积累和算法的自我优化，司法大数据对法官心证“画像”会愈加成熟，那么此时法官就已经把裁判权交于数据和算法了。因此，心证应当是法官行使审判权的“自留地”。“无处不在的第三只眼”需主动让位法官心证。

注释

（1）2016年初，最高人民法院党组和周强院长提出了数据集中管理平台与司法统计全面并轨的明确要求。最高人民法院信息中心与研究室、审管办自2016年3月份起每月召开协调例会，建立技术改造和数据质量日报机制，并充分利用数据集中管理平台的数据交换机制保证新上线应用系统的数据质量。

（2）根据法律规定，除了涉及国家秘密、个人隐私及商业秘密，其他数据都可以公开。

（3）2018年12月18日，笔者以“司法统计”为主题词在中国知网上查找相关文献，搜索结果显示仅有10篇调研报告，其中2篇还是硕士毕业论文。

（4）以最新发布的《司法大数据专题报告之公交车司乘冲突引发刑事案件分析》为例，报告涉及案件总体情况、案件特征分析两项，前者包括刑事案件总量升降比、涉案罪名分类占比、案发城市分布及占比升降；后者主要是案件被告人情况分析、案件发生具情类型化比对、法院判罚占比。可以看出，报告分析仍然以描述性分析、事后分析为主，局限于法院内部单元。

（5）IDC的报告显示：预计到2020年，全球数据总量将超40ZB（相当于40万亿GB），这一数据量是2011年的20多倍。

（6）以中国裁判文书网为例。2013年7月，中国裁判文书网上线；2018年8月，该网站访问量突破百亿次；仅时隔3个月，访问量超二百亿次，而且这一数据还在以每秒上千次的速度不断增长。据统计，近一年来，裁判文书网平均每日上传裁判文书近5万份，单日上传裁判文书最高近40万份，各省日均上传裁判文书1800份，其中单省单日最高上传裁判文书近16万份。

（7）XML是数据交换的唯一公共语言，并支持网络传输。不同类型的文档转换为XML的方法也不同，相同的是这些技术都是通过获取非结构化文件中数据信息内容和格式，通过标准的XML语法写入到XML文档中去。参见万里鹏.非结构化到结构化数据转换的研究与实现［D］.成都：西南交通大学，2013.

（8）更详细的技术内容介绍，可参见刘盛鹏.基于视频结构化的公共场所消防设施监控系统设计［A］.中国消防协会.2018中国消防协会科学技术年会论文集［C］.中国消防协会：中国消防协会，2018：4.

（9）尤尔根·哈贝马斯语。

（10）如前文提到的，只要法官们在享受着这种技术服务，在不自知的情形下同时也在为系统和算法投喂“数据”、提供能源，与此同时信息的控制力却在不断加强。

（11）按照司法之主体性理念的基本要求，在诉讼中公民和当事人是第一位的主体。参见左卫民，朱桐辉.谁为主体如何正义——对司法之主体性理念的论证［J］.法学，2002(07)：11-21.

（12）数据素养，是指通过质询过程而从数据集合中提出与现实世界问题的一种能力，它以道德地使用数据为前提，包括选择、清洗、分析、可视化、批判与解释数据等一系列数据处理技能与知识。See Wolff，A.，Gooch，D.，Montaner，J.J.‘Creating an Understanding of Data Literacy For a Data-Driven Society’［J］.Journal of Community Informatics，2017，12(3)：1-18.