浅谈我国目前作为法律人工智能基础的司法大数据存在的问题

2020-11-30卢新玉

法制博览 2020年21期

卢新玉

河南师范大学法学院，河南新乡 453000

一、大数据与司法大数据的概念

大数据一词最早是由维克托·迈尔·舍恩伯格和肯尼斯·库克耶合著的《大数据时代》一书中提出，认为大数据“不是随机样本，而是全体数据”②；麦肯锡全球研究所给出的定义是：一种规模大到在获取、存储、管理、分析方面都远远超出传统数据库软件工具能力范围的数据集合。③因此，大数据的“大”不仅体现在数量的庞大上，更是代表着数据被处理应用之后产生的一系列效应和巨大的意义。阿里巴巴的创始人马云也曾在一次公开讲演中提到：未来的时代将不是IT（Information Technology：信息科技）时代，而是DT（Data Technology：数据科技）的时代，显示了大数据在阿里巴巴集团的未来发展战略中的重要性。

同理，在司法领域也是如此。在将人工智能技术应用到司法领域中所要使用的法律数据也应当来自于全国各地司法机构的全部数据；同时由于行业自身具有的特殊属性，使得法律数据还具有权威性、准确性、客观性这三个特点。因此，在全国司法机构范围内具有权威性、准确性、客观性的数据才能被称为是司法大数据。

二、我国目前司法大数据中存在的问题

（一）司法数据不充分

自从阿尔法狗及其后代打败人类围棋高手李世石、柯洁之后，其他棋类的高手也纷纷被打败，但却从来没有听说过阿尔法狗打败过中国象棋高手。阿尔法狗之所以能够获得成功，一是因为开发阿尔法狗的研发团队为其设置了一个包含十几万份公开的人类职业棋手的弈棋棋谱的数据库，这也就意味着只要能在所有能够在棋盘上呈现的对弈方式都被编码存入到阿尔法狗的数据库中，大大方便了阿尔法狗能够模仿人类的落子方式且能从不同的角度应付各种类型的对手；二是因为中国的象棋棋谱从其产生之初就有流传，但皆有残缺，未见有完整的棋谱。与有完整的围棋棋谱相比，阿尔法狗不能从残缺的象棋棋谱中获得充分的信息。这个典型的例子能够充分说明，拥有完整且充分数据信息是人工智能得以发挥预期效用的基本前提。

但是，这样丰富的数据资源目前在中国并不存在，一方面，中国裁判文书网中的裁判文书是目前作为发展法律人工智能发展基础的数据来源，虽然在裁判文书网中所公开的文书数量已有上亿件，但可能也只占我国全部审结案件的50%，④，部分涉及到国家秘密、商业秘密、个人隐私的案件是不会向社会公开；而且中国裁判文书网在2013年6月28日正式上线，里面大多数的裁判文书也都是在网站建立之后才开始进行上传工作。因此，网站里公布的文书大都集中在2013年之后，此前的文书仍旧难以查阅到，这也就导致我们难以获得具有连贯性的法律文书信息去支撑人工智能技术在司法领域的应用。另一方面，用刑事案件来举例，一个刑事案件的终结要经过立案、侦查、起诉、审判、执行五个阶段，公检法机关按照自身职权的范围在不同的阶段会有产生不同的法律文书：例如在起诉阶段人民检察院会制作起诉意见书、在审判阶段人民法院会制作判决书、裁定书等，而裁判文书网上却只公布判决书这一种，其他类型的文书都未公布，种类不够丰富。显然，如果我们只依赖这样有限的裁判文书及其所记载的有限内容去发展人工智能，就好比用一方有残缺的地基去建设万丈高楼，其结果可想而知。

（二）司法数据不统一

数据信息不联动是我们目前发展司法大数据的一道迈不过的坎儿。尽管全国有多个法院响应最高人民法院的号召，纷纷依据本院的需要建设“智慧法院系统”，如北京的智能庭审系统、上海高院开发出的C2J刑事审判平台、深圳市盐田区人民法院的无纸化办案系统等等，这些法院确实做出了成效，但是这些成功系统的数据支撑，大部分仍旧只是本院多年来所收集的法律数据，可能还包括本地区或者本省市的数据，但这也是极少数。况且我国国土辽阔，各地经济发展也是有较大差异，仅用一个地区的法律数据法院做出的系统不具有普适性，况且公众仍然对大数据研究存在一定的错误认识，如将“大量数据”与“大数据”这两个概念相等同。“全样本”是大数据最显著的特征，然而，目前国内所谓的法律大数据实质上只是部分数据，称其为“大量数据”或更合适。⑤

其次，除了上述的全国各地的法院数据不联动、不统一之外，就连同地区内的公安司法系统的数据也不联动，未形成完整的数据链条。“数据割裂”是因部门保护、制度设置等使得部门数据不能互联互通而形成的割据化现象。⑥尤其是目前的司法系统内部的数据共享还存在着一定的壁垒，数据的共享权限呈现“倒金字塔”型，⑦以人民法院的大数据管理与服务平台为例，自2014年上线以来，已累计汇集1.4亿案件信息，尽管在上线不到一年的时间里实现了全国四级法院都可以向平台成功地汇集案件数据，但汇集案件不等于都能够查阅到其他法院的案件。一般认为，权限的开放程度会随着法院的等级的提高而逐渐提高。纵向上，上级法院拥有比下级法院更高、更开放的权限；横向上，同一等级不同地区的法院之间数据互不流通，大部分的数据仍是处于分散、孤立的“冬眠”状态，仍是一种不对等的、有限的共享。

（三）司法数据可用性不高

司法数据的生命力不仅在于公开，还能要能够被社会公众随时地使用，通过挖掘、探究司法数据背后的价值来促进社会的治理和司法改革，这就对司法数据的格式提出了要求。数据能够被人工智能技术识别的重要前提是数据须具有结构化特征。在我们的日常生活中，想要听懂一些地方方言或者外语之类的自然语言已属不易，要想识别法律语言这类的专业术语更是难上加难。相比于政府数据开放的结构化数据，法律数据多为非结构化数据，给数据的后续利用、分析带来不便之处。除了法律文书数据可供人工智能系统直接分析外，庭审直播视频数据、审判流程等非结构化数据利用程度并不高。而且，对当前的法学研究者而言，数据的收集、清洗、处理及分析等方面都存在着天然的技术门槛限制。⑧司法数据结构化不足，法学研究者对算法技术的掌握度不足、公安司法机关对数据的开放程度不足都会直接地影响到司法数据的可用性，进而影响人工智能技术在司法领域应用的准确度。