文本挖掘在司法裁判文书中的应用实践
2022-06-11曹奇敏
曹奇敏
摘要:将司法裁判文书进行上网公布是为了进一步地推动司法公开,然而,网上公开的裁判文书大部分内容以大段文本的形式出现,可以分析的外部特征较少。为了满足法治工作的需要,文章将文本挖掘应用于司法裁判文书中,通过提取待分析的字段,实现对裁判文书数据的复用和深度挖掘,通过搭建数据采集和文本挖掘平台,实现基于内容的可视化分析,并对部分应用实例进行了介绍。
关键词:文本挖掘;司法裁判文书;信息抽取;数据采集
中图分类号:TP18 文献标识码:A
文章编号:1009-3044(2022)13-0014-02
为推进司法公开,最高人民法院以上网公布司法裁判文书为抓手,出台了相应规定,例如,2010年11月颁布了《关于人民法院在互联网公布裁判文书的规定》;2014年,《最高人民法院关于人民法院在互联网公布裁判文书的规定》正式实施,同时设立中国裁判文书网,用于公布各级人民法院的裁判文书。2020年的《最高人民法院工作报告》,指出截至2020年4月,中国裁判文书网公布文书9195万份。然而,网络上公开的裁判文书,虽然在一些商业数据库中(比如威科先行·法律信息库、北大法宝等)也整理出了一些外部特征,比如标题、案号、审理法院、裁判时间、审理法官等,但是其余的信息仍以大段文本的形式进行内容组织,比如裁判文书中的原告、被告、律师、律所、标的额等信息,都是以自然行文的形式包含在了裁判文书中。对于法治评价工作来说,数据库中提供的这些字段还远远不够,只有在数据的数量和种类足够多的情况下,才能实现更全面、更深入地挖掘,以揭示事物之间的关联和规律,提升数据对决策工作的实际效用。那么如何实现针对不同主题领域的个性化字段定制需求,如何实现字段之间的关联关系分析,如何跟踪某一案件的发展趋势等,成了亟待解决的问题。本文通过将文本挖掘应用于司法裁判文书,使这些问题得以解决。
1 文本挖掘相关技术
文本挖掘作为数据挖掘的一个分支,主要是指从非结构文本数据中提取能够满足用户需求的、有价值的模式和知识[1]。在司法裁判文书应用到的文本挖掘方法有分类分析、聚类分析、时序分析、关联分析、信息抽取等。其中信息抽取主要用于前期数据处理阶段,分类分析、关联分析等主要用于数据可视化分析阶段。分类分析主要是将未知类别的数据归入指定类别中[2],比如将知识产权案件分为专利类、著作权类、商标类等。聚类分析主要是在未知数据类别的情况下,将数据集聚集成若干子集[3],比如将不同案件中原被告按行业进行聚集分组。关联分析主要用于发现隐藏在大型数据集中有意义的联系[4]。比如,分析不同案件中原被告性别、地域、律师、律所之间的关系,实现字段间的关联关系分析。时序分析主要是预测序列未来的发展情况、分析序列的基本趋势[5]。使用时序分析可以分析某一类案件随时间变化的趋势。信息抽取主要是将半结构化或非结构化的信息进行结构化处理[6]。使用信息抽取技术可以提取案件要素,比如案件的受理时间、原被告的身份地域信息、聘用律师情况等,可以针对不同主题领域的进行个性化定制服务。
在信息抽取部分,主要使用正则表达式匹配的技术手段,正则表达式匹配是基于规则的信息抽取方法的核心技术,它的性能是影响信息抽取结果的决定性因素之一。正则表达式,又叫规则表达式,实际是一种逻辑公式,用于描述或匹配一系列符合某种规则的字符串[6]。一条正则表达式一般被称作一个模式,通过一些元字符,也就是一些特殊的符号规则,可以方便地对字符串进行搜索、替换、删除等处理。图1展示的是一个正则表达式匹配的流程图。实现正则表达式匹配的常规方法是把待匹配的正则表达式编译成对应的有限自动机,再以自动机为基础对正则表达式进行匹配。
2 文本挖掘平台
通过搭建裁判文书的文本挖掘平台,实现数据格式的转化、待分析字段的提取与深度挖掘以及数据可视化分析。平台的开发环境为PyCharm和Visual Studio。通过编写代码实现了数据格式从Word、PDF等格式转化为txt文档,然后从txt文档中提取待分析的字段。图2展示的是数据格式转化的部分代码。该平台支持对司法裁判文书的审理时长、地域、法官、法条引用、律师、律所、标的额等字段的抽取和深度挖掘。图3展示的是信息抽取完成时的一个截图。
对司法裁判文书数据进行分析的框架和研究流程如图4所示。在数据处理阶段,基于裁判文书的全文数据,采用自然语言处理和文本挖掘方法,基于正则表达式的文本匹配功能,对裁判文书的待分析字段进行提取,通过数据清洗,包括去重、规范化等流程,最终对每一份裁判文书提取到标题、案号、审理法院、案件类型、文书类型、案由、原告、被告、受理时间、判决时间、原告地域、被告地域、法定代表人、委托代理人、上诉人、被上诉人、标的额、赔偿、裁定赔偿等40余字段。在数据分析阶段,分别从裁判文书量、文书类型、案件量、案件类型、审理程序、审理时长、地域分布、案由、审判人员、当事人、律师、标的额等维度展开对裁判文书总体分析以及专利类案件裁判文书专题分析等。
3 應用实例
目前已经开展《抗“疫”专题“哄抬物价”之与“非法经营罪”相关的司法案例数据分析报告》《抗“疫”专题之与“不可抗力”相关的司法案例数据分析报告》《北京、上海、广州知识产权法院近五年专利类裁判文书科学计量分析报告》等不同法律领域的裁判文书科学计量分析,分析报告通过会议、集刊、微信公众平台和其他法制网站发布,报告一经发布,获得学者、媒体、法律工作者等多方关注,被转载多次。
4 结论
通过将文本挖掘技术应用于裁判文书中,提取出需要分析的字段,实现了对裁判文书数据的复用和深度挖掘,通过搭建数据采集和文本挖掘平台,实现基于内容的可视化分析,进而探究裁判文书背后所涵盖的法律问题,可以为法学学科相关研究提供数据支持,最终实现进一步推动法治服务质量的提升。
参考文献:
[1] 朱颢东.文本挖掘中若干核心技术研究[M].北京:北京理工大学出版社,2017.
[2] 李尚,张宏莉,叶麟,等.基于深度学习的法律文本处理研究进展[J].智能计算机与应用,2021,11(8):83-86,91.
[3] 胡佳宇.数据挖掘技术应用与研究[J].信息通信,2020,33(8):128-129.
[4] 黄解军,潘和平,万幼川.数据挖掘技术的应用研究[J].计算机工程与应用,2003,39(2):45-48.
[5] 朱东妹.数据仓库与数据挖掘概念、方法及图书馆应用[M].芜湖:安徽师范大学出版社,2017.
[6] 黄埔.文本信息抽取优化关键技术研究与系统实现[D].北京:北京邮电大学,2019.
【通联编辑:唐一东】