犯罪行为演化图谱的自动构建方法研究
2022-05-10段锡辉黄瑞章
段锡辉 黄瑞章
摘 要:随着国家司法信息化建设的推进,促进司法公平正义、提高司法审判工作效率成为必然的趋势。本文将事件图谱的构建方法引入司法领域,将裁判文书案情描述中的犯罪行为视为节点,犯罪行为间的逻辑关系视为边,构建了一种犯罪行为演化图谱,以此来将案情中孤立的犯罪行为利用逻辑关系连接起来,从而描述案情的发展过程而不是独立的要素,最大限度地保留了案情的语义信息。本文提出的自动构建方法在五个案由中的抽取结果比传统方法平均提高了7.8%,此方法构建的犯罪行为演化图谱可为法律从业人员研究案情提供参考,同时为推进智慧法院建设如罪名预测、类案推荐等提供了新的思路与方法。
关键词:犯罪行为;关系识别;犯罪行为链;犯罪行为演化图谱
中图分类号:TP399 文献标识码:A
Research on Automatic Construction Method of Criminal Act Evolution Graph
DUAN Xihui, HUANG Ruizhang
(School of Computer Science and Technology, Guizhou University, Guiyang 550025, China)
Abstract: With the advancement of national judicial information construction, it has become an inevitable trend to promote judicial fairness and justice, and improve the efficiency of judicial trials. This paper proposes to introduce construction method of event graph into the judicial field and construct an evolution graph of criminal acts, where criminal act in case fact description of the judgment document is regarded as a node, and the logical relationship between criminal acts as an edge. Isolated criminal acts are thus connected by logical relationship, so as to describe the development process of the case rather than independent elements, and preserve the semantic information of the case to the greatest extent. The extraction results of the five reasons of case by the proposed automatic construction method are improved by an average of 7.8% compared with the traditional method. The criminal act evolution graph constructed by this method can provide a reference for legal practitioners to study cases, and at the same time, it provides new ideas and methods for advancing the construction of smart courts, such as crime prediction and case recommendation.
Keywords: criminal act; relationship identification; criminal act chain; criminal act evolution graph
1 引言(Introduction)
裁判文书是我国司法案件的一种载体,根据内容大致分为案件信息、案情描述、判决要素及审判结果四个部分,如图1所示。法律从业人员在研究过往案件裁判文书的过程中往往需要获取案情的发展脉络,以此来为当前案件提供论据。在过去的知识图谱分析方法中,人们往往只关注裁判文书中独立的案情要素,忽略了犯罪行为之间存在的逻辑与规律[1-2]。在能够描述事件发展和演化的事件演化图谱[3](Event Evolutionary Graph, EEG)的启发下,本文提出了一种全新的案情结构化表示方法——犯罪行为演化图谱(Criminal Act Evolutionary Graph),将犯罪行为视为事件(Event),而犯罪行为之间的演化关系则可以用事件间的时序、因果等关系(Relation)来描述,故犯罪行为演化图谱的构建方法可以表述为:构建一个能够利用事件之间的时序及因果等关系来描述事件演化规律的有向无环图。在以图结构描述案情的过程中,如何在清晰明确地描述案情发展及其演化过程的同时尽可能地保留上下文语义信息是本工作的一大难点。
2 背景及相关工作(Background and related work)
近年来,国内外学者普遍认为计算机技术对法律行业产生了重大的影响[4],我国在司法信息化建设过程中取得了不错的进展,并积累了相当多的经验。目前智能司法领域的相关工作主要集中在通過裁判文书、证词、庭审记录等司法大数据,利用大数据与人工智能技术达成辅助审判的应用[5],同时在罪名预测、法条推荐、刑期预测、类案推荐及司法知识图谱等应用[6]上取得了令人瞩目的成果,但这些工作还只停留在对案情要素的应用上,没有对案情的发展和演化进行深入研究。
在过去对案情的分析方法中,常采用知识图谱的方法来表示裁判文书中包含的半结构化信息[7],但这种方法通常只关注实体及关系等静态要素,难以获得案情部分具有序列特征的犯罪行为的演化与发展等动态信息。受知识图谱构建方法的启发,本文引入了一种特殊的知识图谱——事件图谱。在事件图谱的构建工作中,HOLME等人[8]将这种结构统称为时间网络(Temporal Networks),这是具有跨学科性质的研究内容;CHAMBERS等人[9]通过引入局部有序的时序关系,构建了一种新的结构化数据表示:叙事事件链(Narrative Event Chains);LI等人[10]在其基础上又引入了因果關系,称为事件演化图谱(Event Evolutionary Graph),使其能描述现实世界中事件的演化和发展逻辑。
本文将犯罪行为(事件)对应知识图谱中的实体,犯罪行为的演化关系对应知识图谱中的关系,将“实体-关系-实体”的三元组变为“犯罪行为-演化关系-犯罪行为”的三元组,犯罪行为之间用演化关系彼此连接,构建犯罪行为演化图谱,用来描述案情的演化与发展规律。
3 定义(Definition)
犯罪行为(Criminal Act)是指案情描述中的事件提及,即表示案情中事件发生的谓语动词及其所包含的参数,其中谓语动词称为“犯罪行为词”。在本文中,我们利用基于NLP(Natural Language Process)的语法分析工具提取犯罪行为,识别犯罪行为之间的时序、因果两种演化关系,构造出犯罪行为链(Criminal Act Chain),最后将多个犯罪行为链拼接为犯罪行为演化图谱。在本部分中,我们会对犯罪行为、犯罪行为链及犯罪行为演化图谱等概念做出系统性的定义与解释。
3.1 犯罪行为元组及演化关系
5 实验(Experiment)
5.1 数据来源
本文构建犯罪行为演化图谱的数据来源于贵州省高级人民法院提供的裁判文书,由于涉毒案件在贵州省历年案件中占比排在前列,且案情描述清晰,逻辑性较强,故我们以其中涉毒案件为例,获取了总计20,509 篇涉毒案件,主要包括贩卖毒品罪、运输毒品罪及非法持有毒品罪等案由。表1中展示了数据的构成。
5.2 犯罪行为抽取结果
犯罪行为抽取为犯罪行为演化图谱构建及犯罪行为演化模式识别的关键步骤,犯罪行为抽取方法的效果将直接影响后续工作的结果。为了验证上述抽取方法的有效性,我们从涉毒案件裁判文书数据集中随机选取了500 篇案件进行人工标注,获得共计19,536 个标签,将其按3∶1∶1的比例分别构建训练集、验证集与测试集,将本文中基于LTP工具及规则的抽取算法(LTP+R)与当前最有效的基于BERT预训练模型的机器阅读理解(MRC)抽取算法[14]进行对比,其结果如表2所示。
从表2中可以看到,在所有类别的案件中,LTP+R方法的准确率与F1值均高于BERT-MRC方法,故我们判定,基于LTP的无监督抽取方法LTP+R在犯罪行为的抽取中是有效的。
5.3 犯罪行为图谱构建结果
在本部分中,我们将展示从犯罪案件中抽取的犯罪行为演化图谱,将每一篇案件对应的犯罪行为演化图谱存储为json格式,利用pyecharts工具将json格式的犯罪行为演化图谱进行可视化展示,如图4所示。
图4为以某一贩卖毒品案件为基础自动构建出的犯罪行为演化图谱,其中每一个较大的节点为行为词,与较小的节点所代表的行为参数共同构成了一个犯罪行为实例,并通过较大的节点之间的边所代表的演化关系连接,组成了一个能够描述案情发展的犯罪行为演化图谱。在由20,509 篇裁判文书构建的20,509 个犯罪行为图谱中,包含200,948 个节点、593,588 个属性及203,236 条有向边。裁判文书的犯罪行为演化图谱描述方法具有丰富的上下文语义特征,故我们认为犯罪行为演化图谱的自动构建方法能在一定程度上描述案情的发展演化。
我们将通过犯罪行为演化图谱的特征数量来展示犯罪行为演化图谱的构建结果,如表3所示。表3中,犯罪行为元组由行为触发词及其参数构成。行为触发词对应图4中的节点数量,犯罪行为参数(包含施事者、受事者、间接受事者、时间、地点)对应节点属性的数量,演化关系对应图4中的边。
在表4与表5中分别展示了犯罪行为抽取的结果与犯罪行为演化关系的示例。可以看出在表4中,犯罪行为元组包含犯罪行为词及其参数,犯罪行为元组可以简单明了地描述犯罪行为;在表5中展示了“犯罪行为-演化关系-犯罪行为”的犯罪行为三元组结构。
6 结论(Conclusion)
本文通过犯罪行为抽取方法生成犯罪行为链,构建犯罪行为演化图谱,对裁判文书的案情描述进行层层抽象。在此过程中提出了一种新的案情描述框架——犯罪行为演化图谱,以此来对案情进行包含上下文语境的结构化表示,为警务工作和司法辅助审判的信息化建设提供了一种新的案情分析方法。在未来的工作中,我们将继续完善和推广犯罪行为图谱理论,并深入挖掘犯罪行为演化图谱在犯罪行为预测、类案推荐、罪名预测、法条推荐等方向的应用。
参考文献(References)
[1] LIAN H, QIN Z, HE T, et al. Knowledge graph construction based on judicial data with social media[C]// WANG G, LIN X, HENDLER J, et al. 2017 14th Web Information Systems and Applications Conference (WISA). Piscataway, USA: IEEE, 2017:225-227.
[2] CHEN B, LI Z, SHEN S, et al. Judicial knowledge reasoning based on representation learning[C]// MENG S, DAI Y, LUO L, et al. 2019 IEEE 19th International Conference on Software Quality, Reliability and Security Companion (QRS-C). Piscataway, USA: IEEE, 2019:84-88.
[3] LI Z, DING X, LIU T. Constructing narrative event evolutionary graph for script event prediction[C]// LANG J. Proceedings of the 27th International Joint Conference on Artificial Intelligence. Menlo Park, USA: AAAI, 2018: 4201-4207.
[4] XU A. Chinese judicial justice on the cloud: A future call or a pandora's box? An analysis of the 'Intelligent Court System' of China[J]. Information & Communications Technology Law, 2017, 26(1):59-71.
[5] 杨凯.公共法律服务智能应用新视野——以人工智能技术与审判辅助办案机制建构为中心[J].湖北警官学院学报,2020,33(05):28-40.
[6] 秦永彬,冯丽,陈艳平,等.“智慧法院”数据融合分析与集成应用[J].大数据,2019,5(03):35-46.
[7] 陈彦光,刘海顺,李春楠,等.基于刑事案例的知识图谱构建技术[J].郑州大学学报(理学版),2019,51(03):85-90.
[8] HOLME P, SARAM?KI J. Temporal networks[J]. Physics Reports, 2012, 519(3):97-125.
[9] CHAMBERS N, JURAFSKY D. Unsupervised learning of narrative event chains[C]// MOORE J, TEUFEL S, ALLAN J, et al. Proceedings of ACL-08: HLT. Stroudsburg, USA: ACL, 2008:789-797.
[10] LI Z, ZHAO S, DING X, et al. EEG: Knowledge base for event evolutionary principles and patterns[C]// CHENG X, MA W, LIU H, et al. Chinese National Conference on Social Media Processing. Singapore: Springer, 2017:40-52.
[11] GRANROTH-WILDING M, CLARK S. What happens next? Event prediction using a compositional neural network model[C]// ALTO P. Proceedings of the Thirtieth AAAI Conference on Artificial Intelligence. Menlo Park, USA: AAAI, 2016:2727-2733.
[12] CHE W, LI Z, LIU T. Ltp: A Chinese language technology platform[C]// LIU Y, LIU T. Coling 2010: Demonstrations. Stroudsburg, USA: ACL, 2010:13-16.
[13] JANS B, BETHARD S, VULI? I, et al. Skip N-grams and ranking functions for predicting script events[C]// DAELEMANS W. Proceedings of the 13th Conference of the European Chapter of the Association for Computational Linguistics. Stroudsburg, USA: ACL, 2012:336-344.
[14] RAJPURKAR P, JIA R, LIANG P. Know what you don't know: Unanswerable questions for SQuAD[C]// GUREVYCH I, MIYAO Y. Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, USA: ACL, 2018:784-789.
作者簡介:
段锡辉(1996-),男,硕士生.研究领域:数据挖掘,知识图谱,机器学习.
黄瑞章(1979-),女,博士,教授.研究领域:数据挖掘,机器学习,聚类.