APP下载

基于知识块摘要和词转移距离的高效司法文档分类

2019-08-01马建刚张鹏马应龙

计算机应用 2019年5期
关键词:文本分类

马建刚 张鹏 马应龙

摘 要:随着全国司法机关智能化建设的深入推进,通过信息化建设应用所积累的海量司法文书为开展司法智能服务提供了司法数据分析基础。通过司法文书的相似性分析实现类案推送,可以为司法人员提供智能辅助办案决策支持,从而提高办案的质量和效率。针对面向通用领域的文本分类方法因没有考虑特定司法领域文本的复杂结构和知识语义而导致司法文本分类的效能低问题,提出一种基于司法知识块摘要和词转移距离(WMD)的高效司法文档分类方法。首先为司法文书构建领域本体知识模型,进而基于领域本体,利用信息抽取技术获取司法文档中核心知识块摘要; 然后基于司法文本的知识块摘要利用WMD进行司法文档相似度计算; 最后利用K最近邻算法进行司法文本分类。以两个典型罪名的案件文档集作为实验数据,与传统的WMD文档相似度计算方法进行对比,实验结果表明,所提方法能明显提高司法文本分类的正确率(分别有5.5和9.9个百分点的提升),同时也降低了文档分类所需的时间(速度分别提升到原来的52.4和89.1倍)。

关键词:智慧检务;领域本体模型;文本分类;相似度计算;知识块摘要;词转移距离

中图分类号:TP309

文献标志码:A

Abstract: With the deepening of intelligence construction of the national judicial organization, massive judicial documents accumulated through years of information technology application provide data analysis basis for developing judicial intelligent service. The quality and efficiency of case handling can be greatly improved through the analysis of the similarity of judicial documents, which realizes the push of similar cases to provide the judicial officials with intelligent assistant case handling decision support. Aiming at the low efficiency of most document classification approach for common domains in judicial document classification due to the lack of consideration of complex structure and knowledge semantics of specific judicial documents, an efficient judicial document classification approach based on knowledge block summarization and Word Movers Distance (WMD) was proposed. Firstly, a domain ontology knowledge model was built for judicial documents. Secondly, based on domain ontology, the core knowledge block summarization of judicial documents was obtained by information extraction technology. Thirdly, WMD algorithm was used to calculate judicial document similarity based on knowledge block summary of judicial text. Finally, KNearest Neighbors (KNN) algorithm was used to realize judicial document classification. With the documents of two typical crimes used as experimental data, the experimental results show that the proposed approach greatly improves the accuracy of judicial document classification by 5.5 and 9.9 percentage points respectively with the speed of 52.4 and 89.1 times respectively compared to traditional WMD similarity computation algorithm.

英文关键词Key words: smart procuratorate; domain ontology model; document classification; similarity computation; knowledge block summarization; Word Movers Distance (WMD)

0 引言

随着全国司法机關大数据战略的深入实施,国家检察机关的“智慧检务”、法院系统的“智慧法院”等智能化建设正在逐步推进[1]。首先是2014年1月统一业务应用系统部署上线以来积累了海量的数据,截至2016年12月31日,统一业务应用系统中的全国检察机关案件数据量已突破1100万件、电子卷宗200余万卷、各类法律文书达1亿多份;全国各级检察机关在人民检察院案件信息公开网发布案件程序性信息4494548条、重要案件信息204738条、法律文书1587940份。司法机关通过多年的信息化建设应用已经积累了海量的司法文书,如最高检察院检察信息公开网2016年一年就发布起诉书779478份,最高法院的中国裁判文书网截止2018年6月已发布判决书4677万份,为开展司法智能服务提供了数据基础。

海量的司法文书包含着丰富的有价值的信息,通过挖掘分析为检察官和法官提供智能辅助办案服务。对法院来说,可以为法官提供与当前案件相似的以往案件的判决文档,通过类案推送为当前案件的审判提供参考;对检察院而言,可以为公诉人对办理案件的量刑建议提供参考,有效防止同案不同诉[2]。

基于文本相似度计算的海量司法文本自动化分类技术为辅助办案提供了必要的、高效的智能化手段,可以将相同判决结果的司法文档分成一类。当法官和检察官处理一个案件的司法文档时,可以将其自动分类的结果与他们给出的人工的判决结果进行比较,避免“同案不同判”现象的发生,进而给法官裁判提供智能辅助,也为法院的院庭长履行监管职责、统一裁判尺度提供技术支撑。

文本自动分类在自然语言处理领域中是一个比较经典的问题。在传统文本分类方法中,文本分类问题通常采用特征工程和分类器等方法[3]。特征工程分为文本预处理、特征提取、文本表示三个部分,最终目的是把文本转换成计算机可理解的格式,并封装足够用于分类的信息,即很强的特征表达能力[4-5]。常用的方法有词频逆文档频率(Term FrequencyInverse Document Frequency, TFIDF)、词袋模型(Bag Of Words, BOW)[6]、向量空间模型(Vector Space Model, VSM)[7-8]、潜在狄利克雷分布(Latent Dirichlet Allocation, LDA)[9]主题模型等。然而这些方法往往由于其文本表示通常是高维度高稀疏而导致特征表达能力很弱,因此针对司法文本的分类结果并不理想。许多研究基于机器学习方法的分类器来分类司法文档[10-11],如K最近邻(KNearest Neighbors, KNN)、支持向量机(Support Vector Machine, SVM)[12-13]、最大熵[14]、决策树[15]等。虽然词向量(Word to Vector, Word2Vec)[16]分布表示模型可以通过神经网络模型训练和重构词的语义环境[17-18],能以向量形式表示词且可以表达词之间相似度的差异,但是它无法清晰表达文档级别的语义[19]。

传统的面向通用领域的文本分类方法因没有考虑特定司法领域文本的复杂结构和知识语义而导致司法文本分类的效能很低,很难直接应用到面向特定司法领域的司法文书分类服务中。一方面,司法文书的文本分类应用涉及到刑事量刑等利益密切攸关的问题,因此对分类结果的准确率有着极高的要求(如至少90%以上的分类准确率甚至更高),因此需要结合司法领域的特定知识对传统的方法进行性能改进; 另一方面,司法领域文本数量大且文本结构复杂。现有司法文书中涉及到各种各样的不同案件,不同的案件涉及到不同的犯罪情节和量刑判决;在事实认定和量刑判决方面也存在较大差异;不同犯罪的司法文档在情节特征和法律文书书写规范上存在较大差异。

针对上述问题,本文提出一种基于司法知识块摘要和词转移距离(Word Movers Distance, WMD)模型[16]的高效司法文档分类方法,其关键在于通过信息抽取技术获取司法文档的核心知识块摘要。一方面,知识块摘要尽可能地保留了司法文档核心语义知识,去除了与分类不相关的噪声信息,从而试图提升分类准确率; 另一方面,知识块摘要与其原始的司法文本相比,在文档容量上大幅降低了,这也无疑会减少后续文本相似度计算和文本分类算法的执行时间,从而提升总体的文本分类效率。

本文首先为司法文书构建领域本体知识模型,进而基于领域本体,利用信息抽取技术获取司法文档中核心知识块摘要; 然后基于司法文本的知识块摘要利用WMD算法进行司法文档相似度计算; 最后利用KNN算法进行司法文本分类。本文以两个典型罪名的案件数据进行了相关实验验证,实验结果表明,同传统的WMD文档相似度计算方法相比较而言,本文方法能明显提高司法文本分类的正确率,同时也大幅降低了文档分类所需的时间。

1 总体框架

本文采用方法的总体框架如图1所示。首先,通过司法领域专家与领域模型知识表示专家共同合作,着眼于司法领域已有的业务知识和数据信息,为司法文书构建领域本体知识模型。本体知识模型从两个角度进行构建:一方面,考虑到司法文书领域的共同特征为其构建顶层本体,包含了各种司法文书的一些共有属性;另一方面,针对不同类型的司法文书为其构建领域具体本体,包含该类型文书特有的一些属性。然后领域本体和顶层本体可以一种可扩展方式进行无缝集成,最终形成完整的司法文书领域知识模型。

基于领域本体,利用信息抽取技术获取司法文档中核心知识块摘要。一个司法文档的知识块摘要,实际上指的是从该司法文档中提取的最能反映该文档内容和特征的某种特定类型的元素所组成的文本集合。组成元素类型可以是短语、句子或段落等。不失一般性,本文的司法知识块摘要基于段落类型进行抽取。另外,考虑到司法文档中的数字信息对于定罪和量刑至关重要,因此需要根据现有中国法律,采用基于规则的方法添加一些附加知识到知识块。

接下来,首先将司法文档和中文维基百科文本作为语料库,采用基于人工神经网络的方法为语料库中的每个词构建对应Word2Vec向量; 然后,基于司法文本的知识块摘要,将每一个文档知识块摘要看成是一个词的集合,进一步利用WMD模型,计算任意两个司法文档的知识块摘要之间的相似度; 基于该相似度,最后利用KNN算法进行司法文本分类。

2 司法文书领域知識模型

一个司法文书中包含大量信息,但文档中不同部分的信息价值对分析司法文档是不一样的, 因此,构造一个司法文书领域的知识模型对分析司法文书有很大帮助。于是基于犯罪构成理论构建司法文书领域知识模型,并利用本体知识表示技术[20]进行领域知识建模。本体是一种形式化共享概念化的规范,可以显式地表示领域知识用于知识重用、共享和推理等服务。司法领域本体知识模型从两个角度进行构建:一个是顶层本体,用于描述据司法文书领域的共同特征和共有属性; 另一个是领域具体本体,它是针对不同类型的司法文书应用的,包含该类型文书特有的一些属性。领域本体和顶层本体可以一种可扩展方式进行无缝集成,可以为具体领域的司法文书知识提供共享概念化模型。

对于司法判决书这一文书类型,以危险驾驶罪判决书作为其具体领域,如图2所示。对于判决书来说,其顶层本体模型包含主体、客体、主观方面、客观方面、判决结果、刑事管辖权等方面。客观方面又包括危害行为和危害结果;同时还包括文书基本信息(如文号)和判决结果信息。刑法规定刑罚分为主刑和附加刑。主刑是对犯罪分子适用的主要刑罚,它只能独立使用,不能相互附加适用。任何判决书都具有这些基本特征,无论其涉及危险驾驶还是交通肇事等其他的具体领域。

对于领域具体本体而言,其内容特征较顶层本体而言则更为具体。比如,主刑可以根据具体案例的不同可以是管制、拘役、有期徒刑、无期徒刑和死刑等类型。附加刑可能包括罚金、剥夺政治权利、没收财产和驱逐出境。文档基本信息、主体、客观方面、判决结果等部分类似的也都更为具体,如文档基本信息包括判决书文号、审判机关、公诉机关、审判员和审判时间等信息。主体和客观方面这两个概念来自刑法中的犯罪构成要件: 主体则会具体指被告人的信息,包括姓名、职业、年龄、出生日期、是否有前科、是否累犯等信息; 客观方面会涉及机动车辆类型、案发道路类型,其中机动车辆类型包括客车、货车、轿车和摩托车等,道路类型包括公路、广场、公共停车场等,危害行为包括醉酒驾驶、追逐竞驶等。

3 司法文档知识块摘要

本文的分类标准依据是司法文档中的客观方面事实和判决结果,而文档基本信息等内容对于分类而言是一种无效的信息,过多的无效信息无疑会增加噪声而对分类的准确性造成影响, 而且分类算法也会因为这些无效信息而大幅增加了不必要的分类执行时间, 因此排除无效信息对分类的准确度和效率有重要的意义。

司法文档的知识块摘要包括两个步骤: 一是抽取出客观方面部分, 客观方面部分的内容主要决定了案件的判决结果; 二是抽取出司法文书中的判决结果部分,并将标准化判决结果添加到知识块摘要中,依此为司法文书分类,获得可供实验用的带标签的数据集。因为司法文书在书写规范和书写风格上因人而异、没有统一规定,因此核心知识块的内容散布在文档的不同位置,需要通过信息抽取技术进行摘要。

3.1 客观方面的抽取

司法文书作为特定领域的半结构化文档,其用词和行文方式都有某种规律,因此本文采用基于规则匹配的方法来抽取客观方面部分,并构造了所需的规则库。

3.2 基于规则的信息抽取、标准化及知识添加本文采用基于规则的方法抽取审判结果,通过大量的正则表达式规则进行相关的信息抽取。例如,在司法文档中,审判结果具有固定的用语和结构,即被告人+姓名+犯+罪名+判处+判决结果,利用这个规则,很容易就能提取出判决结果。再比如,不同的文书包含“导致…死亡…人”“致…人死亡”等涵义相同表达方式不同的用语。通过调研大量的判决书文本,找出一些通用表达方式并为其建立正则表达式。

另外,本文所抽取的审判结果主要是主刑部分,这样就能得到形如“有期徒刑五年六个月”的判决结果部分。这里的“五年六个月”中的五和六在文档中是汉字而不是阿拉伯数字,审判结果的标准化指的是将汉字转化为阿拉伯数字,同时将月转换为年,即将“五年六个月”转化为5.5年,添加到知识块摘要中。这样做是为了方便根据刑期对司法文档进行分类。

4 基于WMD模型的司法文档分类

本文对司法文档分类采用了三个步骤:首先,通过语料库进行中文分词并训练其词向量;然后,利用WMD模型计算每个司法文档的知识块摘要之间的相似度距离;最后,使用KNN模型对知识块摘要进行文本分类从而间接地确定初始文档的分类。

WMD模型是一种最近被提出来的用于度量文本相似度的算法,其作者在论文中将之与几种常用的相似度度量算法,如BOW、TFIDF、LDA、潜在语义索引(Latent Semantic Index,LSI)等进行了比较,实验结果显示,WMD模型在文本分类任务中,分类准确率明显优于其他几种算法,因此本文选择WMD模型进行文本的相似度度量。

4.1 基于Word2Vec的词向量模型构建

本文采用Word2Vec模型为司法文档构建词向量模型。所训练的语料库结合一部分司法文档以及来自中文维基百科文本。词向量具有良好的语义特性,也是表示词语特征的常用方式。Word2Vec模型可以将所有的词向量化,以表示、度量和挖掘词与词之间的定量关系。利用深度較浅的双层神经网络进行训练可以为语料库中的每个词产生对应的词向量。利用Word2Vec词向量模型,可以进一步分析计算词与词之间的语义相关性。

4.2 基于WMD模型的文本相似度计算

WMD是一种距离度量的定义模型,可以用于自然语言处理领域的文本向量的相似度计算。在计算两个文档之间的WMD距离时,首先,使用JieBa分词工具对中文司法文档进行分词,将一个汉字序列切分成一个一个单独的词。

WMD使用正则化的词袋模型(normalized BOW, nBOW)表示文档,使用d∈Rn表示一篇文档,其中n表示nBOW模型的长度,即数据集中不同词的数目(去除停用词),代表文档中第i个词的di=ci/∑nj=1cj,其中ci是第i个词在该文档中出现的次数。同时,WMD使用了词向量技术,这样两个词i和j之间的距离可以自然地用二者在词向量空间的欧氏距离表示,即c(i, j)=‖xi-xj‖2,为了避免混淆词距离与文档距离,将c(i, j)称为词转移代价。然后通过词转移代价可以进一步计算文档之间的距离。具体做法是:分别用d和d′表示两篇不同的文档, 令d中的每个词都可以部分或全部的转化为d′中的任何词,那么将d中的全部词转化为d′中的全部词所花费的最小代价即是两个文档之间的距离。这里用一个流量矩阵T∈Rn×n表示d中的词向d′中的词的转化情况,Tij表示d中第i个词向d′中第j个词的转化量,为了保证d完全地转化为了d′,需要满足∑jTij=di,即词i转化到d′中各词的量的总和等于di,同样地,还需令∑iTij=dj′,这是为了满足d中各词转化到词j的量的总和等于dj′。在满足以上两个约束同时,两个文档之间的距离可表示为:

4.3 基于KNN的文檔分类

本文使用KNN算法进行司法文档分类,考虑到KNN算法简单高效。其核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。通过WMD计算文档之间的距离,来找到待分类文档的k个最相邻的文档,从而实现文档分类,在分类中只需要优化KNN算法中的k,除此之外没有其他需要优化的参数。

5 司法文档分类实验与结果分析

5.1 司法文档数据集

实验所用司法文档为刑事案件判决书,来源于中国裁判文书网(http://wenshu.court.gov.cn/),共1302份文档,其中交通肇事罪有615份,危险驾驶罪687份。危险驾驶罪的判决书中主刑部分有两种:拘役和有期徒刑(数罪并发情况)。因此根据主刑分类将危险驾驶罪文档分成两类,各类文档数量分别是340份和337份。交通肇事罪的主刑分为有期徒刑和拘役两种,但在交通肇事罪中若出现被告人逃逸致人死亡的情节时,则有期徒刑的刑期必然超过七年,因此将交通肇事罪文档分为三类,即拘役、有期徒刑刑期七年以下和有期徒刑七年以上,各类文档数量分别是250份、250份和115份。这样使得数据集预先就整理成了带标签的实验数据。

5.2 司法文档Word2Vec词向量训练语料库

WMD算法将文档中的词用词向量表示,本文在一份由一万份包括各种罪名的司法文档和中文维基百科语料库组成的语料库上训练了一个词向量模型。在训练之前,移除了停用词,最终在包括总共超过3百万不同词的数据集上训练并得到了一个维度为400的词向量模型。

5.3 实验设置与实验指标

本实验使用Python语言进行编程,在单核性能3.6GHz的CPU上进行司法文档分类实验。实验指标则分别用来比较知识块摘要前后分类算法的分类准确率、词的平均数目以及平均执行时间。

论文进行如下4组实验:

1)基于危险驾驶罪原始判决书文档,进行WMD计算和KNN分类。

2)基于交通肇事罪原始判决书文档,进行WMD计算和KNN分类。

3)基于危险驾驶罪文档的知识块摘要,进行WMD计算和KNN分类。

4)基于交通肇事罪文档的知识块摘要,进行WMD计算和KNN分类。

对于每组实验,使用了重复随机子抽样验证的方法,每次将数据集随机以4 ∶1的比例分为训练集和验证集,得出每次的实验结果,共重复5次,之后算得平均实验结果。

5.4 实验结果分析

6 结语

本文针对司法文书的相似性分析实现类案推送并为司法人员提供智能辅助办案服务的应用场景,建立了司法文书的领域本体知识模型以及司法文书语义信息抽取方法,并基于该模型将WMD算法应用到司法领域的文档分类,进行了两个典型罪名的案件数据的验证,实验结果表明该方法明显提高了分类的正确率,且大幅降低了分类所需的时间。下一步将把该领域知识模型扩展到盗窃罪、故意伤害罪等常用罪名并进行系统验证。

参考文献 (References)

[1]     马建刚.检察实务中的大数据[M].北京:中国检察出版社,2017: 17-23. (MA J G. Procuratorial Big Data[M]. Beijing: China Procurational Press, 2017:17-23.)

[2]     ZHANG N, PU Y, YANG S, et al. An ontological Chinese legal consultation system [J]. IEEE Access, 2017, 5:18250-18261.

[3]     CASARI A, ZHENG A. Feature Engineering for Machine Learning[M]. Sebastopol, CA: OReilly Media, 2018:247-251.

[4]     LI C L, SU Y C, LIN T W, et al. Combination of feature engineering and ranking models for paperauthor identification in KDD Cup 2013[C]// Proceedings of the 2013 KDD Cup 2013 Workshop. New York: ACM, 2013: Article No. 2.

[5]     XU Y, HONG K, TSUJII J, et al. Feature engineering combined with machine learning and rulebased methods for structured information extraction from narrative clinical discharge summaries[J]. Journal of the American Medical Informatics Association, 2012, 19(5): 824-832.

[6]     GALGANI F, COMPTON P, HOFFMANN A. LEXA: building knowledge bases for automatic legal citation classification[J]. Expert Systems with Applications, 2015, 42(17): 6391-6407.

[7]     SALTON G, WONG A, YANG C S. A vector space model for automatic indexing[J]. Communications of the ACM, 1975, 18(11): 613-620.

[8]     HAMMOUDA K, KAMEL M. Phrasebased document similarity based on an index graph model[C]// Proceedings of the 2002 IEEE International Conference on Data Mining. Washington, DC: IEEE Computer Society, 2002: 203-210.

[9]     BLEI D M, NG A Y, JORDAN M I, et al. Latent Dirichlet allocation[J]. Journal of Machine Learning Research, 2003, 3(4/5): 993-1022.

[10]    ROITBLAT H L, KERSHAW A, OOT P. Document categorization in legal electronic discovery: computer classification vs. manual review[J]. Journal of the Association for Information Science and Technology, 2010, 61(1): 70-80.

[11]    NOORTWIJK K V, NOORTWIJK K C. Automatic document classification in integrated legal content collections[C]// Proceedings of the 16th International Conference on Artificial Intelligence and Law. New York: ACM, 2017: 129-134.

[12]    SULEA O, ZAMPIERI M, MALMASI S, et al. Exploring the use of text classification in the legal domain[J/OL]. arXiv Preprint, 2017, 2017: arXiv:1710.09306 [2017-10-25]. https://arxiv.org/abs/1710.09306.

[13]    SARIC F, DALBELO B, MOENS M F, et al. Multilabel classification of croatian legal documents using eurovoc thesaurus[EB/OL].[2018-03-20].http://core.ac.uk/download/pdf/34600531.pdf.

[14]    BAJWA I S, KARIM F, NAEEM M A, et al. A semisupervised approach for catchphrase classification in legal text documents[J]. Journal of Computers, 2017, 12(5): 451-461.

[15]    SILVESTRO L D, SPAMPINATO D, TORRISI A. Automatic classification of legal textual documents using C4.5[EB/OL].[2018-03-20].http://www.ittig.cnr.it/Ricerca/Testi/SpampinatoDi_SilvestroTorrisi2009.pdf.

[16]    KUSNER M J, SUN Y, KOLKIN N I, et al. From word embeddings to document distances[C]// Proceedings of the 32nd International Conference on Machine Learning. New York: JMLR.org, 2015: 957-966.

[17]    MIKOLOV T, CHEN K, CORRADO G, et al. Efficient estimation of word representations in vector space[J/OL]. arXiv Preprint, 2013, 2013: arXiv:1301.3781 (2013-01-16) [2013-09-07]. https://arxiv.org/abs/1301.3781.

[18]    MIKOLOV T, SUTSKEVER I, CHEN K, et al. Distributed representations of words and phrases and their compositionality[C]// Proceedings of the 26th International Conference on Neural Information Processing Systems. New York: Curran Associates, 2013: 3111-3119.

[19]    ZEILER M D, FERGUS R. Visualizing and understanding convolutional networks[C]// Proceedings of the 13th European Conference on Computer Vision. London: Springer, 2014: 818-833.

[20]    GOMEZPEREZ A, FERNANDEZLOPEZ M, CORCHO O. Ontological Engineering[M]. London: Springer, 2004:173-182.

[21]    SUN J J. Jieba Chinese word segmentation tool[CP/OL]. (2018-01-21) [2018-06-25]. https://github.com/fxsjy/jieba.

[22]    LEVENSHTEIN V I. Binary codes capable of correcting deletions, insertions, and reversals[J]. Soviet Physics Doklady, 1966, 10(8): 707-710.

猜你喜欢

文本分类
基于朴素贝叶斯的Web文本分类及其应用
基于组合分类算法的源代码注释质量评估方法
基于贝叶斯分类器的中文文本分类
基于蚁群智能算法的研究文本分类
基于朴素贝叶斯分类的Java课程网络答疑反馈系统
基于K—means算法的文本分类技术研究
文本分类算法在山东女子学院档案管理的应用
不同情境下中文文本分类模型的表现及选择
基于内容的英语录音教材标注研究与应用
多核SVM文本分类研究