我们离“阿尔法法官”还有多远
2017-02-20何帆
文|何帆
我们离“阿尔法法官”还有多远
文|何帆
法律人工智能的发展,主要体现在语音识别、图像识别、文本分析和数据整合领域,虽然技术飞跃程度不高,但已推动了某些法律行业的功能转型
赛先生
新年新气象,除了一堆互联网大佬高调宣布“未来已来”,一则关于南京中院将引进“法律机器人”(即所谓“阿尔法法官”)辅助办案的报道,也在法律圈激起波澜。有法官私下吐槽,人工智能那么“能”,有本事以后别让我们加班结案啊!好在南京中院今天下午及时辟谣:该院从未设立“机器人项目部”,所谓引入“法律机器人”项目,纯属个别企业捏造。
引起我注意的,是南京中院声明中的一段话:“司法是具有经验和价值判断性质的工作,再聪明的机器或软件都不能完全替代法官的工作,只能为法官提供办案支持与辅助。”在我看来,至少在现阶段,这一认识是理性的。
脱离常识的创新走不远
这是个浮躁的年代,有踏实做事的,也有卖狗皮膏药的。一个概念还不具备技术基础,就已大张旗鼓卖到滥,等趴在上面埋头研发的团队搞出名堂,概念已贬到与情怀等值了。其实,奇点临近也好,未来已来也好,在商言商,商业公司为了融资和营销,有他们的口号策略。可在人工智能问题上,法院还是应当立足本位,保持清醒,不要被兜售概念、囊中无物的技术公司“绑架”或忽悠。
是的,我们要建设“智慧法院”,要大力推进信息化3.0建设,可我们需要的智慧和智能,第一要务还是辅助和服务法官办案,而不是替代司法裁决、淘汰办案法官。另一方面,即使是智能辅助和服务,也需要满足三个标准:
一是要切实解决问题,而不是花样和噱头。
二是要体现技术含量,附加内容增量,不能仅仅立足于互联互通。你能说检察官戴着蓝牙耳机出庭就叫“互联网+公诉”么?你能说法官把当事人拉到微信群里调解就叫“互联网+审判”么?
三是要符合常识和司法规律。有人说,未来所有庭审都可以在网络上进行。是的,在远程调解、证人和专家作证方面,互联网确实有无可比拟的优势,但还是解决不了证据原件质证的问题。目前号称实现互联网庭审的,主要也是简单无重大争议,且征得当事人同意的案件。用一位资深法官的话说,巨变时代,必须创新,但违背常识的创新,注定无法持续。
人工智能的燃料和引擎
60多年前,科技领域就一直吆喝人工智能,到上世纪70年代才偃旗息鼓。为什么中断?因为技术本身的实现程度支撑不起足够多的应用,又无法在商业中深度渗透,投资者看不到巨额投入后的效果,遇冷是必然的事。
互联网和云计算的进步,让人工智能热潮复兴,机器的“深度学习”概念再度火起来。深度学习得以复兴,关键点有两个:一是互联网提供了“海量数据”;二是云计算提供了远超以往的计算能力。这两点就像燃料和引擎,叠加起来,就可以让人工智能技术加速。
截至目前,法律人工智能的发展,主要体现在语音识别、图像识别、文本分析和数据整合领域,虽然技术飞跃程度不高,但已推动了某些法律行业的功能转型,甚至导致部分中小律所的生存危机。例如,美国Blackstone Discovery公司推出的法律文本分析系统,就断了许多律所的财路。这个系统分析150万份法律文件,成本还不到10万美元,关键是准确度还比人工分析高出40%。除此之外,还有LegalZoom对法律文件服务领域的挑战,Onomatics对商标分析服务领域的挑战,Lex Machina对专利服务领域的挑战,Wevorce对离婚诉讼服务领域的挑战,等等。
司法大数据的局限
具体到我国,最高人民法院构建的“中国裁判文书网”,为法律人工智能的发展提供了“燃料”,而各个大数据公司所孜孜努力的,正是“盘活”这些“燃料”的算法。
然而,不要以为囤积了一大堆司法数据,人工智能就随之实现了。这里面需要考虑三个问题:
第一,“体量”并不代表“质量”。有大数据公司对中国裁判文书网上的海量文书进行识别,发现有相当一部分是“冗余数据”,有的是“一份文书,不同案号”,有的则是因为重复传送或错误传送。从法律适用角度看,相当一部分简单案件的文书,也没有数据挖掘价值。
第二,“大”并不代表“准”。消费者未必是理性的,可商家仍要根据客户的购买数据调整营销策略,但判案子不像买东西。同样是停车场的保管责任纠纷,100个法官可能有100种判法,其中25个判法类似,但不能说这25个判法就一定代表着正确的方向。司法是判断的技能,简单的数量比对是数学,但不是算法。
第三,现在并不代表未来。随着查询检索和智能推送技术的发展,类案文书的说理和考量未必多元,反而会更加趋同。如若不信,不妨搜一搜有多少离婚案件的判词爱用“人生如梦”,结果肯定会吓您一跳。换言之,目前所谓的人工智能是以之前的数据为基础,试图解决未来的类似问题,但是,技术和社会是不断发展变化的,类似问题在不同时期会有不同解决方案。所以,我们对“智能”的期盼,既包括裁判规则的类似应用,也包含为既有规则的改变和反思提供数据积累。
走向智慧司法之路
泼完冷水,该谈谈建设意见了。对于人工智能在司法领域的应用,我个人还是持开放和乐观态度。总体来看,或许有以下几步可以走。
第一步:通过智能语音识别技术,将审判辅助人员从记录或咨询事务中解脱出来。
一次到某法院旁听庭审,发现从法官、检察官到律师,说话都一句一顿,是他们在字斟句酌么?不是,因为大家都怕书记员记录跟不上。很多法官私下开玩笑,这哪儿是以庭审为中心,简直是以书记员为中心。书记员抽调不来,庭开不了;书记员记得太慢,口开不了。
引入智能语音识别技术进行庭审记录,乃至法官合议记录和审委会讨论记录,已被证明是可行的。不过,即使是这一小步,也存在诸多技术瓶颈。例如,多人交互发言的“分音”问题。从语音到文字的转换是进步,但哪句话是谁说的,也得有一个识别过程。特别是复杂案件的庭审和讨论,一会儿原被告一会儿律师,一会儿侦查员一会儿专家证人,你一言我一语,如果不对照音频视频,谁还记得每句话出自何人。目前的解决思路,一是识别话筒位置,二是预先存档识别。但,这个问题不解决,就匆匆撤掉书记员,只会让一线法官叫苦不迭。
与之类似的,还有诉讼引导工作。诸如 “立案去哪个窗口,要提交哪些材料”之类的简单问题,当然可以放心交给“导诉机器人”,由它们通过语音识别技术自动回答。不过,但凡做过诉讼服务工作的法官,就知道当事人的诉求五花八门,绝不止咨询一个法律问题或收费标准那么简单。在现阶段,“导诉机器人”还是锦上添花的事物,无法做到包打天下。对这个问题,必须有清醒认识。
第二步:将智能图像和文件识别技术嵌入法官办案系统,将法官从简案处理和繁琐文牍中解脱出来。
前已述及,许多大数据公司和专业辅助机构已经取代传统律所,成为图像识别、文本分析领域的“龙头”。律所可以通过流程外包、工作转包或直接购买等方式,获取相关服务。对法院而言,一些诉讼事务可以交给律师来做(如提交某个领域的法律分析报告),但一些与审判流程和裁判形成密切相关的基础工作,必须由自己完成。
在我看来,目前最需要做的,是为“智慧法院”铺路,即以法院日常工作为场景,构建多部门多用户的互联系统,打通数据壁垒,提升司法运行的效率。构建当事人律师—审理法官—执行法官—相关部门的互联互通网络。
这其中,有的属于数据化问题,如电子阅卷、EMS快递单打印、文书表格打印、电子签章套红打印等;有的需要进一步加强系统集成,如电子送达、串案套改、核心信息自动嵌入文书、立案与审判信息双向流转补充等;有的则需要适当引入人工智能技术,如类型化案件中裁判文书的自动生成(尤其是要素式、表格式、令状式裁判文书)、类案智能推送、同案不同判警示、文书常见错误提示等。
需要强调的是,目前的人工智能技术,已基本实现第一步和第二步齐头并进,在不少法院也已初见成效。但是,语音识别和图像识别只是入门环节。所谓辅助办案,主要是能适应不同专业场景,辅助法官判断和决策,达到这一步,还有漫长的路要走。
第三步:通过数据提纯、算法测试和专业训练,让系统变得更加智能,辅助法官决策判断。
实现这一步,是以海量数据为基础,以类型化案件为突破口,通过提炼裁判规则、研发最优算法、归纳既有经验,在类型化案件中实现以裁判规则、审判经验归纳为基础的有限智能化。之所以强调“有限”,是因为它的智能程度,取决于我们能否找出共性的可以计算的问题,也取决于系争案件能否类型化。于此,既可以针对某几类案件的全部,也可以针对某一类案件的具体问题。可以预见的是,在类型化案件中,有可能形成统一的智能化算法;在不那么规格化的案件中,至少可以做到法律依据提醒、政策比较和类案参考。在此基础上,深度智能化才有可能。
机器的深度学习也有快慢,你喂它吃粗粮土粮,成长就粗糙缓慢;你喂它吃精粮细粮,成长就日新月异。很多法院都有错觉,以为把几千万份裁判文书数据扔给机器,它就能全知全能、无案不精,实际上,离开科学算法和测试反馈,系统根本不可能变得智能。
所以,推动机器在法律领域的深度学习,必须跨越三个门槛:
第一个是足够的数据体量和质量。集全法院、检察院和律师行业的各类数据,通过关联比对、系统洗冗进行清洗、融合,获得足够的有效数据。
第二个是提取共性规则,研发科学算法。这里的规则,包括法律、司法解释、指导性案例和参考性案例,也包括从海量文书中提取出来的裁判规则和共性因素。这项工作,光靠工程师无法完成,光靠一个或两个法律人也根本搞不定,它需要汇聚许多资深法律人的力量,一个法条一个法条,一个案由一个案由,一个请求权基础一个请求权基础,一个罪名一个罪名,去攻克,去提炼,才有可能初见成效。
第三个是法律人的深度参与。美国科技博客VentureBeat近日撰文预测2017年人工智能的发展,就提出,人工智能若想取得长足进步,就必须仰仗更专业的人工训练。只有在专业领域有一定成就的人,才能推动机器进行更“深度”的学习。
我有个朋友参加某法院的审判辅助系统建设招标和演示,事后吐槽说,管钱管技术的副院长来了,技术、行装部门的负责人也来了,可就是看不到一个审判部门的人,难道这项工作和法官没有关系吗?
其实,工程师可以解决算法问题,但在机器的深度学习方面,法律人才是真正的“导师”。算法的基础是裁判规则,而规则要靠人去提炼。提炼完毕之后,还得有法律人给数据打上标签,或是作为训练集,或是作为测试集,交给机器判断,再由法律人反馈,深度学习才能成为可能。
我们应该认识到,智慧法院的立足点和出发点,是法院的智慧。法院的智慧来源于法官,而非技术公司。法院的人工智能,说到底是把法官的智慧整合好、利用好。不在这一点上下功夫,做研发,就不可能有智慧法院。认为只要投入资金、贡献数据、购买服务,就能建设好“智慧法院”,是天方夜谭;没有法官的智慧参与,认为技术公司能包揽一切,也是缘木求鱼。
第四步:也许真会有“阿尔法法官”呢?但既然距离第三步成功还很遥远,就先别惦记第四步了吧。
总之,法律人工智能是大方向,是看得见的未来,但还需要巨大的研发投入,换言之,“投入多少人工,就有多大智能”。那些以人工智能为噱头,却没有实际投入的项目,迟早会被淘汰。眼下最需要做的,是踏踏实实推进机器深度学习,将法官从重复劳动和繁琐事务中解放,从技术上健全法律统一适用和结果预判机制。现在就出来嚷嚷机器人审判的,十个有ten个在吹牛。换句话说,你连法条都驯服不了,还指望能驯服数据?
未来已来,而我们任重道远!
责任编辑:张羽