APP下载

基于特征值的律师推荐算法及改进方案

2018-11-01汪海鹏郑扬飞

计算机与现代化 2018年10期
关键词:案由胜诉权值

汪海鹏,郑扬飞

(中国电子科技集团公司第十五研究所系统八部,北京 100083)

0 引 言

律师管理系统是北京市司法局重要的业务系统,对支撑律师管理这一核心业务起着重要的作用。截止到目前,该系统已实现全市26000多名律师和2200多家律所全部许可业务和一般业务的网上申报、网上审批和年度考核,并为律师、律所办理业务提供“引导式服务”,取得了良好的应用效果。

然而,传统律师事务所提供的服务更像是一个“黑匣子”,客户难以知晓,无论是传统律师事务所还是整个律师行业都缺乏一套客观全面的律师能力评价机制。由于法律领域存在很高的专业门槛,普通人难以判断律师的专业能力,大多通过人脉关系寻找律师。这样的方式效率低下,找到的律师也不一定合适。

中国电子科技集团公司第十五研究所,为北京市司法局律师管理系统研发单位,对项目需求、系统现状非常了解。笔者是该所律师管理系统研发团队中重要成员。现对上文中提到的“黑匣子”问题进行研究,提出相对客观的基于大数据的律师能力评价机制,将律师评价和推荐功能引入现有的律师管理系统。实现方法为,基于系统中大量的判决文书及历史案件信息库,对其进行关键信息抽取,将抽取到的关键信息用作律师得分计算,用得分的高低对律师的专业能力进行评价,并且推荐给需要法律帮助的用户,帮助人们找到最合适的律师。

1 常用律师推荐算法

常见的推荐算法包括基于内容的推荐算法、协同过滤推荐算法和基于混合的推荐算法,本文采用基于特征值的推荐算法。基于特征值的推荐算法的主要流程为:选取特征值、给定特征权值、将特征进行加权计算得分、根据得分高低进行推荐。特征的选取是涉及专业领域的问题,由司法局专业人士协助完成。权值的定值则主要参考专业人士的相关经验和多次实验测试所得。不同推荐方法的主要区别在于选取的特征值和特征值的权值不同,以及得分计算公式的不同。下面介绍2种常用的律师得分计算方法。

1.1 传统律师推荐算法

(1)

式(1)中,M表示该律师的历史案件数,N表示所有特征数,wi代表第i个特征的权值,tij表示案件j的第i个特征的值。特征一般选择代理人身份、代理人数量、原告一审胜负、原告二审胜负、被告一审胜负、被告二审胜负、案件数量等,取值为0、1或者其他实数值。其特征值如表1所示。

表1 特征值权值表

这种算法简洁实用,客观公正地对数据库中的案件加权得分,按照得分的高低进行推荐,能满足律师推荐的基本要求。但是也存在着明显缺点,即不论用户需要何种类型的律师,这种算法的推荐结果都大致相同。用户需要解决民事财务纠纷的律师时,可能会给用户推荐一位优秀的刑辩律师。对该方法初步改良之后有以下方法。

1.2 引入案由相似度的律师推荐算法

在1.1节算法的基础上,引入了案件相关度的概念。计算公式如式(2)所示:

(2)

其中,M表示数据库中某律师的历史案件数,N表示所有特征数,wi和tij的意义与公式(1)的意义相同,主要引入参数αj,其表示的是与第j个案件的相关度。对于相关度的值由以下因素决定:是否属于同一大类,即民事案件、刑事案件与行政案件这3个大类。如属于同一大类,是否属于同一小类,如同属民事案件,劳动纠纷、婚姻纠纷又是不同的小类。在同一小类是否又属于同一案由,如同属于婚姻纠纷,但有婚姻财产纠纷、监护权纠纷等不同案由。和用户要解决案件相关度高的案件会被赋予更大的权值,推荐系统会给用户推荐解决过类似案件的律师,这种算法解决了1.1节算法中存在的无差别对待的问题,可以针对用户不同的需求推荐不同的律师,增加了推荐到适合的律师的可能性。

2 律师推荐算法的改进

上文所述算法都是常用的律师推荐算法,一般情况下可以获得相对不错的推荐结果。但是,上文中的推荐算法都有一个通病,即认为案件对于原告和被告的难度系数是相同的。但实际情况并非如此,在不同的案件中,胜诉的难度对于原被告方律师的难度系数是不同的。如离婚财产纠纷,有关离婚原因的证据多在原告方,社会舆论风向也更偏向于原告方,这种情况下原告胜诉的概率更大。原告律师在此类案件中发挥的作用较小,在此类案件中胜诉的原告方律师有可能不是专业水平很高的律师。而在另一些案件中,被告胜诉的几率可能更大。例如涉嫌侵犯知识产权的纠纷,被告方多为社会影响力较高的团队或企业,因此被告方的胜率可能会更高。因此,对于数据库中的案件,要分别对原告和被告律师设定不同的难度系数,所以对1.2节中的推荐算法再次进行改进,将库中案例对于原告和被告律师的不同难度系数引入得分计算的过程中,提出新的得分计算公式如式(3):

(3)

其中,除βj之外,各项参数都和公式(2)中的参数定义相同,βj表示某案件对于原告律师、被告律师的不同的难度系数,难度系数的赋值通过对数据库中的相同案由的案例做抽样统计所得,例如,婚姻财产纠纷案件抽取5000起,其中原告胜诉的案件有3800起,被告胜诉的有1200起,则该案件对于原告的难度系数为0.24,对于被告的难度系数为0.76,难度系数越高,表明该案件胜诉的可能性越小,如果胜诉了,更能证明该律师的专业水平很高。

3 实验结果对比与分析

本研究的硬件实验环境如表2所示。

表2 硬件环境表

下面通过实验验证第2章提出的律师得分计算算法的有效性。实验数据为10个律师的全部历史案件1272篇,测试数据选择5个案由,分别是:劳动合同纠纷、社会保险纠纷、网络侵权责任纠纷、机动车交通事故责任纠纷、婚姻财产纠纷。首先对实验所用律师历史案件进行统计,得出如下信息:共涉及10名律师,其中一审案件921起,原告胜诉的案件有562起;二审案件351起,被告胜诉的案件有233起。对于测试用5类案由,经过和司法局专业人士的讨论,设定权值如表3所示。

表3 难度系数权值表

接下来通过北京市司法局的专业人士对上述测试数据中的每个案例对10名律师进行排名,然后分别用传统的律师推荐算法、引入相似度的推荐算法、引入难度系数的推荐算法这3种方法给出排序结果,与专业人士的排名结果进行比较,证明各算法的性能。在测试过程中对案由相似度系数α的定义如下:2个案件属于2大类案件时,值设置为0.1,两者同属于一个大类,但是在大类中分属不同小类时,值设置为0.4,两者同属于一小类,但不是同一案由时,设置为0.7,两者为同一案由认为高度相似,值设置为1。

推荐算法的常用评价指标有多种,主要有推荐准确率、排序加权等方法,本实验采用的评价指标为排序加权法。

排序加权法:首先由司法局专业人士对律师相对于每个案由的能力进行排序,然后再通过系统进行排序,将2次排序结果求绝对误差,将所有的绝对误差加权求和,加权的方法采用公式(4):

(4)

其中,i表示系统给出排名,r表示正确排名,最后,将所有数据的rf相加,作为最后的评价标准。

(5)

此方法对于预测结果中排名靠前的错误给予更大的惩罚。其中RF的值越小,证明推荐效果越好。

通过直接加权计算的结果为RF1,引入相似度系数的计算结果为RF2,加入难度系数的计算结果为RF3。表4给出3种方法计算结果的对比。

表4 3种算法的最终得分

通过表4所示结果可以看出,本文第2章提出的加入难度系数的得分计算方法基本在每个案由都获得了最小的指标,且在平均值上的效果最好。因此,本文所提出的改进方法相对于常用的律师推荐方法在性能上有一定提升,说明了对律师能力进行评价时,考虑案件对于原告律师和被告律师的难度系数是有意义的。

下面给出针对劳动合同纠纷这一案由,采用3种推荐算法得出的排名结果,如表5所示。

表5 律师排名结果

根据表5,着重分析排名靠前的陈、李、杨这3名律师,3名律师在3种得分计算方法下的排名结果各不相同,这3名律师处理的历史案件数据统计信息如表6所示。

表6 3名律师的历史案件统计

杨、陈、李这3名律师在3种评分方式下的排名相反,主要原因就是在杨的历史数据中,办理的借贷合同纠纷案件数量所占比重较大,此类案件的难度系数较低,引入难度系数之后的得分情况将落后于李和陈这2名律师,与司法专家给出的排名先后顺序更加一致。这进一步证明了本文方法的有效性。

4 结束语

本文介绍了在中国电子科技集团公司第十五研究所和北京市司法局合作研发的律师管理系统的基础上,引入律师推荐功能,对常用推荐算法进行分析之后予以改进,设计了引入难度系数的律师得分计算方法,并通过实验验证了这种改进的有效性,改良了律师推荐结果的准确率。但算法局限于针对案由进行律师推荐,即用户提出自己面临的案件所属案由,然后在系统给出的推荐结果中选择相应的律师。在后续研究中会进一步尝试,用户仅提供案件的自然语言描述,系统对用户提供的文本内容做分词、关键词抽取、关键词扩展、相似度计算、分类等处理后,与律师管理系统中的律师信息进行匹配,作更加精确的律师推荐。

猜你喜欢

案由胜诉权值
一种融合时间权值和用户行为序列的电影推荐模型
论环境行政案件案由的规范化
CONTENTS
职能定位视角下民事案由制度的反思与改进
论案由选择的考虑因素
基于权值动量的RBM加速学习算法研究
烈士案胜诉,更觉悲凉
美国对华维C反垄断案12年终落幕——河北药企凭借国际礼让原则胜诉
从一起案件谈民事案由的选择
新闻浮世绘