人工智能与大数据技术在司法领域的发展现状

2019-07-11缪成

法制博览 2019年19期

缪成

安徽省人民检察院智能语音与人工智能联合实验室，安徽合肥 230022

活字印刷，蒸汽机，电力，互联网……每一次技术革新，都引发人类对自身新的认知。《2019年世界发展报告：工作性质的变革》中，对人工智能等科学技术对未来的就业、经济发展、社会影响等进行了深入探讨。在人类历史上，传统职业不断地被新职业、新岗位替代，ETC取代了高速公路收费员，语音输入取代了打字员，无人超市取代了售货员，2016年5月，美国纽约律师事务所Baker&Hostetler宣布雇佣IBM公司研发的机器人律师Ross来帮助律所处理破产案件，更多的工作内容可重复性量化的职业都面临着被机器替代的可能。人工智能在医疗、教育、交通等多个领域不断开花结果，科技进步带来的资源整合并不以人的意志为转移。但随之而来的问题是：智能时代，人类怎样才能不被机器打败？恩格斯在《共产党宣言》中这样描述“事情已经发展到了这样的地步：今天英国发明的新机器，一年之内就会夺取中国国千百万工人的饭碗。”①，关于机器使工人失业的世纪之问是否会成为现实？

笔者在智能语音与人工智能联合实验室担任研究员的工作期间，深感每一个法律人在面对新时代司法职业迭代转型的大变局，必须要学会与机器相处，不断了解科技前沿信息，不断更新既有知识体系，只有当法律人做到深刻理解了人工智能的底层逻辑，掌握了数据算法的本质规律，才能真正应对未来的职业挑战。

一、何为人工智能技术

1956年，在美国达特茅斯学院的讨论会上，“人工智能”(AI)这一概念被正式提出，标志着人工智能学科技术的诞生。人工智能是包括十分广泛的科学，它由不同的领域组成，如机器学习，自然语言学习，计算机视觉、文字编辑、自动驾驶等等，总的来说，是让机器具备能够和人一样进行感知、认知、决策、执行的人工程序或系统②。人工智能概念被普通大众熟知的标志性事件是2016年谷歌公司DeepMind团队的AlphaGo程序以4：1战胜世界围棋冠军李世石。从人工智能的发展程度上来看，人工智能可以分为三个阶段，第一个阶段是弱人工智能阶段，第二个阶段是强人工智能阶段，第三个阶段是超人工智能阶段。目前，所有的人工智能都还属于弱人工智能阶段，即通过机器学习在某一个领域内收集人类大量行为数据，加以分析，找出规律，提供服务。当前弱人工智能技术的发展主流是连接主义，技术核心是神经元网络与深度学习，即仿造人的神经系统，通过人工构建神经网络的方式来模拟人类智能，以工程技术手段来模拟人脑神经系统的结构和功能，通过大量的非线性并行处理器来模拟人脑中庞大的神经元，用处理器之间的层级连接来模拟人脑中众多神经元之间的突触行为，其中，连接主义取得的最重要的成果就是人工神经网络(ANNs)③，人工神经网络是一组数学模型，通过一个基于数学统计学类型的学习方法(Learning Method)得以优化，用来解决模式识别问题。比如：一个人要去买苹果，但不知道什么样的苹果最好吃，最简单的方法就是每一个苹果都亲口尝一尝，吃完以后就知道红色圆润的苹果比较好吃，再买的时候选这种苹果就可以了。现在把这个方法套用到电脑上，让电脑“尝”一遍所有的苹果，它就能够总结出关于苹果好吃判断标准的一套规律，有了这套规律之后，一旦把新上市苹果的特征输入，电脑就能根据已有的规则判断出苹果的好坏。

人工神经网络的特点和优越性主要表现它具有自学习功能，例如，在进行图片识别时，把海量的图像数据和对应的标签输入，人工神经网络就会通过自我学习功能，慢慢学会识别，以后碰到类似的图像就能自动识别出来。2006年以来，在人工神经网络基础之上，又发展到了深度学习(Deep Learning)阶段，即建立、模拟人脑进行分析学习的神经网络，它模仿人脑的机制来解释数据，尤其适用于计算机视觉识别，语音识别和自然语言处理。

二、何为大数据技术

2012年，英国牛津大学教授舍恩伯格出版了《大数据时代》一书，他在书中指出，大数据所带来的信息风暴，正在变革我们的生活，工作和思维，开启重大的时代转型。根据马丁.希尔伯特的总结，大数据是指21世纪以来因为信息交换、存储、处理三个方面能力大幅度增长而产生的数据。在数字化信息爆炸式增长的过程里，每个参与信息交换的节点都可以在短时间里接受传送大量数据，而全世界存储数据的成本在过去的50年里每两年减少一半，存储密度增加5000万倍。④在过去，人们受限于取得数据的手段不足，获得经验的途径主要依赖抽样数据和局部数据，甚至在无法获得实证数据的时候，求助于自然法和宗教启示，试图去发现未知领域的规律，因此，人们对于世界的认识往往是表面的和错误的。舍恩伯格指出，在大数据时代，人类第一次有机会在广泛的领域获得海量数据、完整数据、多样化数据，可以实现深入探索现实世界的规律，获取过去不可能获取的知识，得到过去无法企及的机会。大数据技术的出现和普及，也使得普通的企业和政府部门通过数据分析，获得知识，提升服务社会能力。

大数据技术和之前的所有数据技术相比，具有四个方面的特点，第一，大数据技术分析与某些事物有关联的所有数据，而不是依靠少量的样本数据；第二，大数据本身可以被反复利用，大数据的潜在价值往往深藏在表面收集目的之下，必须借助新算法和新工具来解锁大数据的“隐藏价值”；第三，大数据技术接受数据的多样性和复杂性，不追求数据的精确性，大数据技术接受的数据既可以是传统的文字数据、音像数据，也可以是位置数据、运动数据、生物数据等包罗万象；第四，大数据技术不去试图探求事物间的因果关系，而将焦点聚集在关注事物之间的相关关系上。⑤

三、人工智能与大数据技术之间的关系

人工智能技术发展到了深度学习阶段后，其实质是用数学模型对真实世界中的特定问题建模，加以海量的训练数据，来学习更有用的特征，从而提升分类或者预测的准确性，最终解决该领域内问题的过程。从本质上来说，深度学习只是手段，特征学习才是目的，根据连接主义的观点，机器的深度学习借鉴的正是人类的学习、训练的过程，也是智能形成的必由之路，而大数据就扮演着最重要的训练角色，大数据技术的飞速发展，让深度学习有了无比丰富的数据资源来完成特定功能的训练。前文中所提到的谷歌Alpha Go就是古今中外的海量围棋对局大数据训练出来的结果。由此可见，人工智能要实现跨越式的发展，除了深度学习算法自身升级之外，还需要海量大数据。简单点说，现阶段的人工智能=深度学习+大数据。

在人工智能时代，深度学习和大数据成了密不可分的一对，一方面，大数据是人工智能的基石，目前的机器学习和深度学习主要是建立在大数据的基础之上，即对大数据进行训练，并从中归纳出可以被计算机运用在类似素质上的知识规律；另一方面，深度学习技术及其他算法可以帮助我们从大数据中挖掘出以往难以想象的有价值的数据知识或者规律，从而着手于社会实践。英国有一家叫做Cambridge Analytica的数据分析公司，研发出了一种被称为大数据挖掘和心理侧写的人工智能技术，并以此项技术为基础提供广告信息精准投放业务。

Cambridge Analytica公司从2014年开始使用软件从Facebook收集数据，前后共获得了5000万Facebook用户的海量数据，在2016年美国大选期间，Cambridge Analytica公司受雇于共和党团队，在掌握5000万用户海量大数据基础之上，根据其自己拥有的人工智能算法技术，设计出了一套分析和舆论引导的软件来影响总统选举情况，这个系统可以自动收集和分析互联网上的选举进展信息，评估人们对于总统候选人的满意度，并且通过向用户投放信息，自动发送虚假新闻等技术手段，宣传自己所支持的候选人，还可以通过对照实验准确判断每个州的选民特征，为自己所支持的竞选团队提供第一手的数据资料和决策依据⑥，5000万用户的海量大数据，在经过人工智能算法模型的挖掘之后，爆发出了惊人的能量，帮助特朗普战胜希拉里，继Alpha Go之后，再次展示了算法+大数据的威力。

四、人工智能与大数据技术在司法领域的初步成果

2017年4月11日，美国最高法院首席大法官约翰.罗伯茨接受了一次采访，有人问他“你能否预见将来有一天，人工智能技术驱动的机器将协助法庭认定事实，甚至颇具有争议地介入司法裁决程序？”罗伯茨回答道“这一天其实已经到来，而且，这已经让司法实务的运作方式面临着巨大的压力。”近年来，不仅仅是复杂的人工智能和大数据技术，还包括智能设备、信号技术、生物遗传技术等，这些新技术的出现给传统的司法证据采信和事实认定带来巨大的冲击，以至于不少法官离开了专业人员的鉴定意见就无法做出判决，同时，司法实务中的法律条款在人工智能技术革命的新环境下开始做出改变。当掌握国家机器的司法机关使用甚至依赖技术行使裁量权时，每一个具有远见的法律人都必须开始观察这些现象，思考科技进步与公平正义之间的微妙关系。

(一)人工智能在社会治安领域的成就

人工智能系统通过深度学习成千上万张的人脸照片，掌握认识和分辨人类面孔的基本规律，之后，系统再进入全国通缉犯照片大数据库，记住所有通缉犯的面孔，全国的安防系统只要接入了这套识别通缉犯相貌的系统，通缉犯在公共场合一露面，系统就可以通过监控摄像头采集的图像，从海量的监控视频数据中将通缉犯的面孔准确识别出来。2017年5月份，武汉市东湖警方在东湖绿道景区部署人脸大数据系统，7月6日，警方指挥中心收到实时预警，人脸识别系统比对出一组全国在逃人员图片，相似度高达97.44%。武汉警方立即使用人脸识别系统生成嫌疑人的行动轨迹，分析研判出犯罪嫌疑人的实时位置，仅用了半个小时，警方便成功抓获嫌疑人。⑦而这种高效率的记忆、识别和预警，是人类警察无法做到的。

(二)人工智能在刑事侦查领域的成就

大数据技术为指控犯罪提供了全新的侦查思路和证据种类。2016年的一天晚上，57岁的澳大利亚妇女默娜·尼尔森死在家中的洗衣房里，她的儿媳卡洛琳·尼尔森向警方作证：当天晚上默娜回家的时候，有一群男子开车跟着她，其中一名男子和默娜发生了争执，并在20分钟的争吵后给了默娜致命的一击，杀死默娜后，这群男子发现了卡洛琳，把她绑了起来，然后逃离了犯罪现场。听起来，这是一起有因冲突产生的杀人案件，但澳大利亚阿德莱德地方检察官卡门·马泰奥并不相信卡洛琳的证词，因为他看到了另外一份证据——被害人默娜的电子手表Apple Watch，案发当晚，默娜戴着的这块智能手表整个晚上都在默默地测量并记录她的运动和心率。根据这些数据，检察官卡门·马泰奥认为：“死者是在晚上6：38左右就遭遇了袭击，6：45左右去世的。”手表记录的运动数据意味着卡洛琳所陈述的死者和男子在洗衣房外争执了20分钟是虚假事实，进而判断卡洛琳参与了这起杀人案。⑧2016年9月，澳大利亚阿德莱德地方检察院以谋杀罪对嫌疑人卡洛琳·尼尔森提起刑事诉讼。

在过去，刑事案件的时间起止线也许只能由目击者的证词来佐证，警方和公诉检察官经常会面临证据不足、事实不清的困境，但在今天，随时上传保存的位置数据、运动数据和生物数据，甚至包括每一个轻轻的敲击，每迈出的一步，每一次心跳，科技所提供的海量数据记录已经成为了全新的犯罪证据种类，甚至有可能是未来最重要、最客观、最具有关联性的证据种类。

(三)人工智能在民商事合同审查制作领域的成就

人工智能的深度学习技术成功的将合同中的所有关键问题都一一标注，并用人类难以企及的速度进行审查和修改。2016年10月15日，在杭州云栖大会上，无讼创始人蒋勇现场对其主持研发的法律机器人“法小淘”进行功能演示，“法小淘”通过自然语言理解了解了当事人的法律诉求，并分析出案件事实属于不正当竞争，然后通过数据搜索，从30万名律师信息中找到了3名合适的律师，并提供了律师所在的律所、同类案件数量、案件标的额区间等信息。

2018年2月26日，斯坦福大学、杜克大学法学院和南加州大学的法学教授们与法律人工智能公司LawGeex合作，开发了一款法律人工智能程序机器人，并组织了20名有经验的律师与机器人比赛合同审查业务的准确性和效率。比赛内容是在四小时内审查五项保密协议并确定30个法律问题，包括仲裁，关系保密和赔偿。机器人在26秒内完成了任务，而人类律师平均需要92分钟，机器人的准确率达到了95%，而人类律师的平均准确率是85%，人类律师完败。⑨

(四)人工智能在审判结果预测方面的成就

随着机器学习的高速发展，用人工智能算法预测法官或者法官群体的判决结果成为机器学习领域的一大热门。

2017年，美国伊利诺伊理工大学教授丹尼尔·卡茨的团队利用美国最高法院数据库中的历史数据，为每个投票标注若干个属性标签，包括法官任期长短、管辖法院、口头辩论权利保障等，创建了一种“随机森林”的机器监督学习算法。“随机森林”模型学习了1816年到2015年最高法院的案例，按年份研究每个案例的特征并预测裁决结果，自主分析案例特征与判决结果之间的关联关系，最后再标注出正确的结果对机器分析予以修正，通过这种方法逐步优化算法，再继续进行下一年的预测。经过测试，该模型对于28000项判决结果预测的正确率为70.2%，对24万张法官投票预测的正确率为71.9%，对1816年到2015年美国最高法院的判决的预测准确率超过70%，超过法律专家66%的预测准确率。

(五)人工智能在量刑辅助决策方面的成就

目前，美国多州刑事司法系统已开始频繁使用智能算法生成的风险评估，鉴定评估犯人今后犯罪的机率。2013年2月，美国威斯康辛州的埃里克·卢米斯(Eric L.Loomis)因飞车开枪被捕，一审法院进行判决前进行了量刑前调查，量刑前调查报告中包括一个COMPAS系统风险评估附件。COMPAS是一款风险评估软件，供不同的司法机关在出入监决策、是否假释、量刑判断用来提供决策支持，COMPAS报告的风险评估部分会生成条形图显示(如下图)的风险登记评分，三个条形格分别代表审前再犯风险、一般再犯风险和暴力再犯风险。

判决前，法官收到了Compas系统生成的风险评分报告，该报告判定卢米斯可能会在未来实施暴力犯罪，对社区具有“高级别风险”。但是，由于涉及公司竞争核心机密，Compas系统的算法并未公布，卢米斯无法查看。因此，卢米斯声称Compas的算法细则违反了既定的法庭程序，提起上诉。2016年5月，威斯康辛最高法院认为Compas系统的风险评估遵循了法院所有既定规定，操作均属合法。⑩进而维持了一审的判决。

毫无疑问，现代社会通过司法来维持和调节各种复杂的社会关系，维系社会运转，但随着人工智能技术的发展，算法地位的上升，各种自动化系统通过算法潜移默化的调节社会关系。虽然在当前阶段，人工智能技术在司法领域还处在“专家系统”阶段，即收集储存法律专家的大量专业知识，构建法律专家分析法律问题的思维导图，模仿法律业务专家的思维来解决结构化、定制化的特定问题，只是用来辅助法律实务人员的工作。但是，人工智能算法正逐渐融入律法，技术理性深刻影响着法律理性，人工智能与大数据技术正对司法领域起着深远的影响，司法正在面临一个迅速变革的时代。

[ 注释 ]

①共产党宣言[M].人民出版社，2014.

②朱福喜.21世纪高等学校计算机专业实用规划教材：人工智能(第3版)[M].清华大学出版社，2017.

③王天一.人工智能革命：历史、当下与未来[M].北京时代华文书局，2017.

④李开复.人工智能[M].文化发展出版社，2017.

⑤[英]维克托.迈尔.舍恩伯格.大数据时代[M].盛杨燕，周涛，译.浙江人民出版社，2013.

⑥《起底FB泄密丑闻背后的Cambridge Analytica》[EB/OL].http： // tech. qq. com/ a/ 20180320/016568.html.

⑦《长江日报》“创新社会治理新格局，为世界东湖保驾护航”[N].http： // cjrb. cjn. cn/ html/ 2018-06/08/ content_78213.htm.

⑧https： // www. bbc. com/ news/ world-us-canada-44477887.

⑨“An AI just beat top lawyers at their own game”https： // mashable. com/ 2018/02/26/ai-beats-humans-at-contracts/ ? from = singlemessage & isappinstalled = 0#NQSAXAlXWkqd.

⑩http： // www. scotusblog. com/ wp-content/ uploads/ 2017/02/16-6387-op-bel-wis.pdf.