自然语言处理与司法案例

2017-09-15周珊珊

魅力中国 2017年24期

周珊珊

摘要：在本文中，以全国裁判文书网的现有法律文书入手，使用基于自然语言处理技术，提出建模思路，应用“人工智能+法律”解决司法实践中裁量不均衡问题。步骤主要是：首先建立中文案例语料库，对文本分词及句法分析；其次应用机器算法对词向量学习与训练；最后在对裁判文书关键信息提取后，针对文书相似度的计算而找到判决结果的合理空间，以定量的方法减少司法中同案不同判，裁量标准不统一的问题。一方面为司法实践提供有效参考，另一方面也为群众提供了诉讼可行性的参照体系。

关键词：自然语言处理；司法案例；裁判

在我国立法较为模糊的领域，存在一片法官自由裁量权较大的空间。实践中，网络服务商侵权赔偿是适用共同侵权承担连带责任的问题，还是应按间接侵权以适用《侵权责任法》第12条规定承担按份责任。亦或是，对《侵权责任法》第36条第3款中“知道”的主观过错理解上，立法、司法、学界的观点的差异问题，都存在冲突与矛盾，如何减少网络服务商法律侵权赔偿责任分担问题上的差异。以下将从现有的裁判文书案例库入手，从自然语言处理的角度统计探析在具体的某类型案例中减少司法裁量差异的问题。

一、裁判文书中自然语言翻译的困难性

在基层法院，法官最开始套用模板制作法律文书，模板只是提取系统已经录入的案件信息。并不能替代法官思维。随着信息化应用的水平提高，法官开始使用北大法宝辅助案例库等，通过关键字搜索相似案例的方式撰写法律文书。并提出能自动生成高质量文书的需求，考量对“经审理查明”与“本院认为”后的文本的技术实现。一方面，是法律应用上的强烈需求。另一方面，则是确定法律规则的条件下，智能实现法律判断、预测和应用的技术难度。如何服务审判，自然语言处理技术为问题的解决提供了很好思路，同时由于自然语言文本的特点，句子句式结构复杂，内容也往往存有歧义。所以现实中也往往不存在完全一样的案例及描述。在事实和结论认定表达上更是千差万别，将自然语言翻译成机器语言，已具有相当技术支持，转换难度在于解决模拟结果与实践结论的准确度。

二、语料库的建立

自然语言处理技术成为解决难题的突破口。所谓自然语言处理就是人与计算机之间用自然语言进行通信的办法。首先，需建立司法案例库，做为最基本的数据来源。在此选择中国裁判文书网的裁判文书，他为提供给机器学习的语料库具有可靠性和可行性。2013年最高院发布的《关于人民法院在互联网公布裁判文书的规定》中指出，裁判文书以“上网为原则，不上网为例外”。随着规定的落实，大量生效文书在网上可查。至2017年8月17日，中国裁判文书网上公开的文书总量为32，298，039万，且以每日3万的速度递增。同时，随着全国法院系统信息化程度的提高，以公开促公正，上网的生效电子文书数量会越来越多，这不仅为语料提供了不断动态补充，也为不同案例库背后的事实与规则的提供定量分析依据。相比于一个通用的语料库，以案例库为整体作为语料库更为合理，原因是考量单独的网络服务商侵权不能只在同种案由下的比较，而是以整个案例库构建的法律体系的全局观念来分析解决一类案件间裁判的差异。同时，现实生活中侵权行为与犯罪行为交叉，各种主观过错认定的错综复杂，谁都不是信息的孤岛，脱离整体来分析局部。

三、自然语言处理

（一）机器翻译

所有案例可组成为文本，语料库说到底就是一大段文本，许多语料库的设计都要考虑一个或多个文本间的平衡。首先，确定案例语料库后，需对整个文本进行分词，分词的意思即是将一个句子分成一个一个的词语，整个文本就变成了词的集合，导入文本用工具库里程序方法可直接实现分词效果。也可直接通过算法，通过统计计算概率，计算一个字还是一个词的概率，在模型中一组词语成为一个句子的概率，词性等都可得出。如前日计算机具有撰写地震预警新闻稿的能力的技术实现技术基础也是同一个道理。然后构建词库，循环整个语料库，每次遍历到新词，则将之添加到词库，通过读取每一个词，在词库中查找比对，存在则该词词频加1，若不存在，继续添加，统计词的频率再对构建哈夫曼树进行编码。

（二）词向量的自动学习与训练

根据向量的定义，向量是客观存在的东西抽象后以数字表达出来，机器能识别的东西。构建词向量是非常关键的一步。而一个词要成为词向量，首先对文本进行处理，简化为在多维的向量空间上的计算，计算有不同种方法，算法已经直接包含在方法内。向量空间上的相似度代表了文本中词义上的接近度，对于处理好的文件重新用算法构建词向量，无需手工规则，完全自动机械。而且算法并不依赖语言学上的文法规则，也不需要词性标注，就像所有星星组合在一起成为星空，向量是星星，而星空即是向量空间，在这个空间上的两颗星星间的距离计算COS距离即是两个词的距离。距离越近，也即两个词相似性，词义相近、相似度越高，距离的计算也是词间聚合的体现。词义最相近的词可以理解为向量空间中也是最接近的，这样就可以通过显示词向量空间中相近的词组来判断词向量构建的好坏。同时通过降低维度，查看词义分布图直观查看词语的分布。通过统计概率计算机过滤低频字词。低频词的舍弃一是浪费运算资源，二是由于笔误的机率较大而参考性过低。去掉高频词是因为高频词会对聚类准确度有影响。

（三）指导性数据比对

将以上模型适用于真实的案例，对于具体类型案例辅助分析来源，案例库从总量上来讲，现阶段也是不够的。裁判文书网上的所有文书，排除非判决文书，再按照案由等细分案件后，需要进一步通过以人工引导的方式对计算机训练。计算机工作，在传统理解上，是根据命令一步步执行，要什么他答什么，在人工智能应用上，则让计算机自我学习，接受不同的输入数据，自动运算得出结果。与指令式的运算存在本质的区别，这也是人工智能创新的地方。为了得到接近于法官思维的裁量的输出，在人工指导下，通过输入多组数据让机器自我学习，最终得出正确的数据，找到从量变到质变的区分边界。立法上，我国现行侵权法采用客观主义。司法实践中，法官的裁量更趋向于折中主义的观点，侵权损害赔偿的评价指标包括：侵害的具体方式、地域、网络服务商赔偿能力、受害人的身份、年龄、家庭状况等，司法判决的执行难易程度也是重要考虑范畴。模型要在统计的基础上细化和明确法官的裁量评价指标，进而改变具体的输入值比对评价指标的输出值计算差异，如赔偿责任词向量的周围寻找最合理的近似区域。在上文的基础上，以最高院指导案例为母版，通过正则找出需要的文本，如重点在网络服务商侵权文书的查明和认定部分，经过一定的语义重修，即有目的性地去除特殊条件或情形，首先进行典型性分析。算出指导案例核心关键词局部的语义空间，进而对基础案例进行数据模拟，如增加新数据与值大小，改变案例输入的数据，逐步增加减少案例细节，对结果进行比对，比较其与实际裁量值的差异性，让输出值与实际值的误差越来越小，越来越接近法官的实际判决值。比较案例间评价指标的相对差值，如果得出的的结论正确，给予一定奖励，继续对输入和输出进行比对，从而达到训练的目的。学习方法重点不依照法律逻辑的推理理论，也不分类处理如自然人区分、过错描述、侵害手段、后果、侵权人获利和侵权人的偿债能力等，只是通过输入数值的累积，让机器遍历所有节点，从而获得一类案例中的词向量分布。这是一个大数据的应用，通过无限量的数据模拟，完成边界的训练。要与模糊区域边界对应，必须要有大概率的重合才可。最基本的目标底线至少小到一个基层法院，不同法官审理要做到同案同判。只要案例描述尽可能多，铺设的基础侵权行为描述语义地图则会尽可能涵盖广泛。最后，法官通过模型输入关键词，而系统可以在具体的这个类型案例范围内找出最相符的评价指标的判词。

法律空间并非对技术完全免疫，2017年7月，《新一代人工智能发展规划》中，国务院向法律行业释放了信号；其次，在AlphaGo之后，机器人取代律师的预测报道也时有发生。在这样的背景下，法律与AI的碰撞，必将对智慧法院建设提出更深层次的要求，法律科技也会乘东风而起，人工智能化的预测与推论机制都参考案件基本事实与案件描述，司法实践的裁判深受其影响。基于语义网的大数据分析技术为建立平衡的司法裁量标准理论提供了思路。随着理论的实现及应用推广普及，一方面会成为辅助办案良好的工具，大数据司法确保公平正义；另一方面也成为当事人对案件是否起诉，或上诉是否胜诉的有效依据。不久的未来，在以自然语言处理技术的应用上，以人工智能大數据为支撑的科技发展潮流能为司法提供更好服务。

参考文献

[1]Steven Bird，Ewan Klein & Edward Loper.Natural Language Processing with Python[M].American：Oreilly & Associates Inc；2，2017-3-25.39endprint