APP下载

面向涉毒案件案情及行为序列可视化方法研究

2023-12-11单志华黄瑞章段锡辉陈艳平秦永彬

计算机工程与应用 2023年23期
关键词:案情可视化语义

单志华,黄瑞章,段锡辉,陈艳平,秦永彬

1.贵州大学 公共大数据国家重点实验室,贵阳 550025

2.贵州大学 计算机科学与技术学院,贵阳 550025

根据2021 年中国毒品形势报告显示,我国涉毒类案件呈现以下新变化:在册吸毒人员不断增加,新型合成毒品滥用人员不断增加,吸毒人员存在低龄化、多元化,毒品种类多样化。毒品犯罪已成为对社会安定产生巨大威胁的犯罪之一,引发了越来越多的人对于涉毒案件研究的关注。当前的涉毒案件中的案件数量不断增加、案件内容繁复,为司法及公安人员快速直观了解案件内容和案件中存在的规律带来了困难。如何帮助司法人员简洁直观地了解案件案情信息和发现涉毒人员行为规律,成为司法领域可视化中的难点和痛点。因此对于案件可视化分析处理能力提出了更高的要求。

文本可视化[1-6]是通过可视化技术帮助用户了解文本中信息。涉毒案件案情可视化是对单个案件案情文本内容进行可视化,帮助快速了解案件发展过程。使用传统的文本可视化方法将会丢失案件中重要语义信息,并且不能展示案情的发展脉络。序列可视化[7-12]是通过序列模式挖掘和可视化展示序列中的规律和序列之间的差异性等。传统的序列可视化方法大都是针对序列中节点类型较少、序列之间差异性较小的开展。而本文由多个涉毒案件案情抽取获得的多个犯罪行为序列(涉毒类案件中行为词构建而成的序列)节点类型较多,序列差异性较大,传统方法不能处理。

对于单个涉毒案件案情文本可视化存在以下困难:案件内容信息过多,全部展现将给使用者带来视觉干扰,展现内容信息过少或缺失内容之间的联系,将给理解案件内容带来大量误差,将丢失案件中大量的语义。如何对案件信息详略得当地可视化并且能保留文本中重要语义将成为关键。

对于从多个涉毒案件案情中发现犯罪人员行为规律存在以下困难:犯罪人员行为词中存在同一含义的行为被表示成不同行为词,将导致行为词的种类繁多,进而导致序列中节点类型多、序列之间差异性大。这为发现犯罪行为序列的共性带来困难。

基于上面提出的两个问题,本文提出一种面向涉毒案件案情及行为序列的可视化方法。该方法对单个案件案情内容采用案情描述图进行可视化,挖掘多个案件中的犯罪行为序列模式并可视化。从单个案件到多个案件对案件进行不同维度探索。本文主要贡献如下:

(1)设计了一个探究案件案情中犯罪行为序列模式及案情文本概述的可视化系统。在真实司法数据上对方法进行验证,用户访谈证明了系统和方法的有效性。

(2)提出一种文本可视化方法,以“先后关系、主次关系”为核心思想进行设计,将案情文本按时间先后顺序构建成由核心信息和次要信息组成的案情描述图。解决传统文本可视化中丢失文本重要语义及语义先后顺序的问题。

(3)提出一种序列可视化方法,构建相似节点树,根据用户的喜好选取相似节点树中与案件法条之间关联密切的节点进行相似节点合并,并使用序列模式挖掘算法发现序列中存在的模式并进行可视化。解决传统序列可视化不能处理序列中节点类型多、序列差异性大的问题。

1 相关工作

1.1 文本可视化

文本可视化[1]是通过图形展示文本中的信息,是帮助对文本内容理解的重要工具。文本可视化广泛应用于新闻文本、微博文本等数据进行可视化。

基于关键词的文本可视化是提取文本中关键词信息进行可视化布局用以快速了解文本信息。Docu-Burst[2]将文本关键词组成径向布局,径向中外层布局是内层词的下位词,同时使用颜色对词频进行编码。Document Cards[3]将提取的关键词与关键图片结合起来展现文本内容,帮助快速了解新闻文本中存在的关键信息。基于文本关键词的文本可视化,其主要思想是通过将文本内容以标签或关键词的形式进行可视化布局,使用关键词的字体大小、颜色、所处的视图与中心位置距离来表示其重要性。但是这些方法都会严重缺失文本中上下文语义。这些文本可视化方法只关注关键词的可视化,缺少关键词之间的联系,缺少语义补充说明,很大程度上缺失了上下文语义,给理解文本内容带来误差。

基于时间顺序的文本可视化是指按文本中事件发生的时间先后顺序对文本内容进行可视化。适用于故事情节、新闻事件等随时间变化的文本进行可视化。SparkClouds[4]显示关键词随时间的演变。ThemeRiver[5]主题河流是反映多个主题随着时间的变化。StoryFlow[6]使用故事流表示随着时间变化故事的发展过程,每条线表示一个人物线,故事发展过程中每个人物联系,从而产生相交。但是这种时间顺序的文本内容可视化由于线条过多而给用户造成大量的视觉干扰。主要反映的文本内容随时间的变化,缺少文本内部的联系。

文本可视化中存在的交互操作,改变文本颜色、透明度、移动、缩放等交互方式。使用这些交互方式将为用户探索提供便利。

以上的文本可视化方法,为了解文本中信息提供便利,但是存在显示内容过多、造成视觉干扰,丢失文本中上下文的语义等问题。涉毒案件案情可视化需要有主次保留上下文语义、有时间脉络地对案情进行可视化。因此传统文本可视化方法不能应用于涉毒案件案情可视化。

1.2 序列可视化

序列可视化[7]是通过可视化技术和序列模式挖掘技术发现序列中存在规律并进行展示。其广泛应用于电子健康记录和app 应用使用日志(EHRs,application log)等数据进行序列可视化分析,帮助医疗领域寻找发病的规律给决策提供帮助、发现用户使用应用习惯。

单个序列进行可视化分析,如Lifelines[8]、Cloud-Lines[9]、timeSlice[10]等针对单个序列且序列事件类型较少的情况进行的序列可视化,着重于对单个序列中详细信息进行展示。但序列数量过多时将给用户带来较大的视觉干扰。

多序列进行可视化分析,用以解决序列数量过多造成可视化视觉混乱的问题。EventFlow[11]、TrailExplorer[12]和CoreFlow[13]通过从事件序列中挖掘并可视化为树状图,如Sequen-C[14]将序列中相似的部分进行归并。

序列可视化中存在交互操作,LifeLines2[15]、DecisionFlow[16]、MAQUI[17]、COQUITO[18]等使用了序列查询、序列对齐等交互方式。这些交互方式提升用户的探索效率。

以上的交互式序列可视化方法是针对节点类型较少序列差异性小的序列进行可视化并为探索序列中信息提供了便利。而本文的数据是节点类型多、序列差异性大的序列,传统方法无法解决这个问题。

1.3 智慧司法

智慧司法是通过科学技术为司法领域赋能,推动司法领域不断向前发展。

当前的北大法宝、中国裁判文书网等网站为研究司法案件提供了数据基础。司法案件数据不断积累、案件内容复杂。吕帅等[19]通过可视化分析,探究我国刑事政策知识演化过程。王慧等[20]、陈建峡等[21]通过文档图谱视图提取案情文本特征构建案情图谱,但是图谱会丢失了案件中重要的语义。当前面向司法领域的案件内容可视化分析的研究工作较少。挖掘案件存在的犯罪模式,张天凡等[22]使用社区监测算法挖掘犯罪人员之间存在的模式。本文针对裁判文书案件案情内容进行可视化便于案件内容理解,并探究涉毒类案件中犯罪人员行为顺序中存在的规律,将司法与可视化进行结合,通过交互式可视化方法对司法案件案情数据从多个视图进行解读,具有一定的创新性。

2 系统设计和数据处理

2.1 系统任务分析和设计目标

通过与贵州省高级人民法院工作人员沟通交流,以涉毒类案件司法裁判文书为基础展开分析确定以下的分析任务。

任务1:对单个案件内容进行展示,快速了解案件内容。

任务2:对多个案件进行分析,发现案件中犯罪人员行为中潜在的规律。

针对上述的任务,构建以下的设计目标:

目标1:抽取单个案件中信息并选取其中重要信息如单句中关键的行为词、施事者和受事者等信息,并根据主次信息进行可视化布局。

目标2:抽取案件中犯罪人员的行为词,构建成犯罪行为序列,挖掘序列中存在的模式并进行序列可视化布局。

2.2 系统流程介绍

本文系统流程如图1所示,首先对数据进行数据预处理获取到(S,P,O,L)四元组,之后从中选取关键信息,以关键信息中动词P作为重点进行展示成案情描述图。并将四元组中动词P按时间先后顺序构建成序列,对序列中节点进行合并、序列挖掘、序列可视化展示。

图1 系统流程图Fig.1 System flow chart

2.3 数据处理

(1)数据脱敏,由于是司法数据涉及到个人隐私信息,因此对数据进行数据脱敏。如表1所示将涉案人员姓名、身份证号通过掩码屏蔽,将案件号通过随机化映射到长度固定的编码。

表1 脱敏映射规则Table 1 Desensitization mapping rules

(2)信息抽取,将裁判文书中案件案情部分抽取成为结构化文本。将案件案情文本按句进行切分,使用哈工大LTP 工具中依存句法分析将案情处理成(S,P,O,L)结构即主谓宾表。由于涉毒类案件案情中每一句话的平均长度大于30 且涉及的动词较多,因此需要对案件内容进行拆解分析。通过依存句法分析抽取每句话中存在的主谓宾表结构并根据动词之间的先后顺序对动词进行串联。如图2是一个句子中部分语句,提取成为(S:赵琴,P:乘车,O:,L:),(S:,P:到达,O:,L:白云区)形式。

图2 依存句法分析Fig.2 Dependency parsing

首先通过词性标注识别出获取句子中的触发词,之后进行依存句法分析每个动词存在的主谓关系、动宾关系、定中关系将每个动词及其关联的关系表示成(S,P,O,L)的结构,根据动词之间的并列关系和动词之间的先后顺序对每个句子中的动词进行排序。

(3)对案情文本进行分词处理,并去除无关用词,使用word2vec将案件案情文本中词映射为词向量。

(4)案件类型分类,通过案件案由对案件类型进行分类。案件类型分类结果如表2所示。

表2 涉毒案件类型分类Table 2 Classification of drug-related cases

3 案件案情及犯罪行为序列可视化

本文对案件案情文本内容进行信息抽取并可视化;对提取的犯罪人员行为词序列进行分析发现犯罪人员行为中存在的规律并进行可视化,系统整体效果如图3所示。

图3 系统总体概览图Fig.3 Overview of system

3.1 案情文本可视化

本文由讲话、讲故事的特点受到启发。讲一个故事最基本且最重要的要求是按照时间先后顺序对关键信息表达,并在此基础上添加次要信息进行补充,能够准确表达故事的意思,即遵循“先后关系、主次关系”思想。案情文本可视化案情文本内以句子先后顺序,单句内以动词先后顺序来构建先后关系。单句中以犯罪人员实施的核心动作为关键信息并以动作的实施者、受事者补充,而单句中其他动词作为次要信息并以动作的实施者、受事者等作为上下文语义补充。由此构建以“先后关系、主次关系”为核心思想的文本描述图。

主要方法如下:假定案件案情文档数据集为W={w1,w2,…,wn},将每个案件案情文本wi按句子进行切分wi={l1,l2,…,ln},将每个句子li通过信息抽取成(S,P,O,L)简写为spol结构构成数据集合li={spol1,spol2,…,spoln},通过每个句话li中P的tfidf选取关键信息spolj。以li中关键信息spolj表示该单句,li中其他spol作为次要信息补充上下文语义。按单个句子内按动词发生顺序连接构成图4案情描述图。

图4 单句文本可视化Fig.4 Single sentence text visualization

为了更加凝练表达案件信息,提取关键行为序列中存在的共性,文档wi中每句子中关键信息构成文档核心信息wci={spol1j,spol2j,…,spolnj},将wci中每个p构建成核心序列sci={p1,p2,…,pn} 。所有文档中的序列构成核心序列集WSC={sc1,sc2,…,scn} 。通过AprioriAll挖掘所有文档中核心序列中模式,并进行总结序列模式的概括词。如获得“交给”“携带”“召回”的概括“运输”,并进行可视化。

可视化布局,单个案件案情可视化如图5所示。整体从上到下、从左到右、以动词为核心布局,对单个文本wi中每句话li中关键信息spolj中动词p按时间顺序进行连接红色虚线箭头连接,一句话li内所有spol中所有动词p按时间顺序通过黑色实线连接。箭头线连接的两个动词节点、箭头线开始动词节点事件发生时间上先于箭头线末尾节点、箭头线上人名是线开始动词节点的施事者。每个动词节点周围的小节点是该动词的所属的宾语或定语进行补充语义。核心序列模式获得的概括词用黄色的节点是表示对动词序列的概括。高亮显示法官、公安关注的毒品类型、重量等信息。

图5 案情描述图Fig.5 Case description

案情文本交互式可视化操作设计。为快速预览案件内容,隐藏次要事件只保留核心事件,显示核心事件的属性如:事件参与者、事件目的等信息,如图6 所示。并支持对图进行大小缩放、图片保存等操作。

图6 关键信息Fig.6 Key information

3.2 犯罪行为序列可视化

为探究涉毒类案件案情中犯罪人员行为中存在的规律,帮助公安和司法人员直观了解犯罪人员的犯罪行为模式。将文档集W中每个文档wi提取的spol结构中的P按时间顺序构建成犯罪行为序列。即对行为序列可视化能够帮助探究不同类型案件中存在的规律。而提取出的行为序列存在一个问题即:行为动词的种类较多,序列中差异性大,导致序列挖掘及可视化效果差如图7。对案情探究发现产生相似行为动词的原因。

图7 序列中相似动词Fig.7 Similar verbs in sequence

同一行为在案件描述时存在差异性,从而导致节点类型过多,进而导致序列总体差异性大。如“行驶”动作被抽取成“行驶至”“行驶在”“行驶到”“行车”等。

为解决该问题提出以下的解决方法:

相似节点树构建,通过数据处理获取每个动词的词向量。通过层次聚类算法设定关键动词向量的相似度和动词字符之间的相似性为目标函数公式(1)构建相似节点树,对部分通过筛选构建的单个相似节点树如图8所示。

图8 相似节点树Fig.8 Similar node tree

其中,α+β=1,x、y表示动词对应的词向量,a、b是动词的bow特征向量。

信息量度量,根据树结构中每个节点与法条之间的相关性计算每个节点的信息度量。选取司法领域较为关注的与法条相关的节点。为相似节点树中每个i节点定义一个节点向量ni,向量表示每个案件对应的序列中是否存在该节点或该节点的子节点。每种法条j定义向量oj表示每个案件中是否使用该法条。通过jaccard计算向量之间的相关性,其中向量长度为n即案件个数。

对两个向量统计得表3。

表3 统计表Table 3 Statistical table

根据两者的相关性进行计算信息量。

其中,k为所有案件中涉及的不相同的法条个数。Hi为树中节点i的信息量。

节点选择,选取节点树中信息量较大的节点,其子节点将被合并成该节点。从树种根节点开始深度优先搜索遍历、搜索节点树中子节点比父节点信息量大的子节点个数与子节点总数l比值大于γ的父节点或者是叶子节点如图9所示。

图9 节点选择Fig.9 Node selection

其中,γ∈[0,1],通过调节γ选择节点合并的程度。

节点合并,将所有序列中的被选择的节点其子节点将转化为该节点,如图7中所有序列中子节点将被转化为父节点。通过修改γ对序列中节点类型数量影响如图10所示。

图10 γ 变化对节点类型数量影响Fig.10 Impact of γ changes on number of node types

序列模式挖掘,使用Chen 等[23]提出的最小描述长度MinDL+lsh 的序列模式挖掘。并通过record 记录已经计算过的序列对,从而优化算法减少算法时间开销。在Agavue 数据集上进行对比,添加record 对优化前后时间消耗进行对比,如图11所示。

图11 优化前后时间消耗Fig.11 Time consumption before and after optimization

序列模式可视化,对序列模式中所有的序列模式节点颜色进行编辑。序列模式与原始序列对应,且相同节点颜色对应如图3(b)、(c)中所示。

4 案例分析与用户调研

4.1 案例分析

4.1.1 案情文本可视化分析

本案例通过本文中案情文本可视化方法展示案件案情的发展过程。图3(a)中通过搜索案件号展示该案件的案情描述图在图3(d)。选取涉毒案件中运输类案件案情的案情进行展示如图5案件案情描述图,从图中能够较为详细地展现案件的发展过程。为快速了解案件的主要发展过程,对案件信息进行简化如图6关键信息所示。

4.1.2 犯罪行为序列可视化分析

本案例方法能帮助警察及司法人员发现犯罪人员的行为中存在的规律,有助于提升抓捕效率、降低判案的成本。根据案件案情内容将涉毒类案件划分为5 种类型如表2所示。

数据过滤。用户使用图3(a)堆叠图选择器选取感兴趣的案件类型。使用选择图3(a)中合并指数来指定相似节点的合并程度从而减少相似节点类型数量。

动作先后关系探索。通过行为动词的对齐,便于发现对该动作前后之间存在的因果关系进行分析。如图12可以发现关键动作中存在的因果关系。

图12 对齐动作Fig.12 Align action

详细信息探究。点击单个图3(b)中单个序列模式,展示该序列模式中是从哪些原始行为序列挖掘得到的如图3(c)。最后,为了解行为9序列中所对应的具体案情内容,可以点击图3(c)中单个序列展示序列所对应的案情文本描述图3(d),帮助快速了解案情的发展过程。对比分析探究。通过对比图3(b)不同序列模式,发现不同案件中犯罪行为模式中存在的不同。通过对所有类型的案件进行探究,发现如图13 通过观察不同的行为模式发现贩卖毒品是一般是多次联系才构成交易,且涉及的毒品大多为传统毒品。运输类案件多次驾驶行为,且涉及的毒品量较大。

图13 不同行为模式对比Fig.13 Comparison of different behavior patterns

4.2 案情可视化对比

使用文本可视化的方法wordCloud对图5相同案情文本内容进行可视化产生图14。图中丢失了大量的语义信息,较难理解案情文本的发展过程。而本文中的案情描述图5较为完善地保留案情文本中的语义信息,能够快速了解案情。

图14 案情文本词云Fig.14 Case text word cloud

使用王慧等[20]提出的司法判决文书数据文档图谱视图方法对相同的案情文本进行可视化结果如图15。图中以类似于特征提取的方式保留了案情中部分语义信息,但是本文方法不仅保留了案情文本中重要和次要的语义信息,同时也通过时间先后的顺序可视化了案情的发展过程。

图15 文档图谱视图Fig.15 Document atlas view

4.3 用户调研

为了分析本文设计的涉毒案件分析系统的有效性,邀请20 名法学院的研究生同学、10 名贵阳市花溪区公安人员、10名贵州省最高人民法院司法人员进行使用调研,介绍并指导使用的过程。从以下几个方面进行评价:(1)是否能够快速理解案件案情;(2)是否发现不同案件犯罪人员行为规律;(3)界面设计是否友好;(4)能否帮助快速捕捉到需要的信息。所有参与的评价任务完成之后,让每个参与者在李克特量表上对评价任务进行打分,打分的标准从1~5 表示非常不满意到非常满意。打分结果如图16所示,对任务1、2的评分的均值大于4.1,对任务3、4 的评分大于3.5。通过对这几方面的调研,用户表示系统能够快速帮助捕捉需要的信息,并且用户指导设计方面需要改进。

图16 任务评分表Fig.16 Task scoring table

该系统为贵阳市司法工作人员、公安人员演示如何快速了解涉毒类案情文本,发现犯罪人员行为的规律操作。司法工作人员、公安人员等人均认为该系统能够帮助其提供对犯罪人员规律的探究,快速了解案情内容。认为该系统存在巨大的潜在价值,对于司法领域智能化存在重要意义。并提出意见希望能够对界面进行优化,减少对案件探究的时间。

5 结语

本文提出面向涉毒类案情的文本可视化方法,该可视化方法将案情文本可视化成便于理解的案情描述图,帮助快速直观地了解案件中案情发展过程。提出构建相似节点树的方法来有效地解决了犯罪行为序列中节点类型较多的问题。实验结果表明该方法能够有效减少节点类型。基于上述两个方法构建本案情可视化系统构建序列帮助用户探索案件中犯罪行为序列模式,根据案件中的案情文本设计并进行可视化能够有效地帮助理解案件案情。通过向法学院、法院、公安人员进行调研,验证了本系统的有效性。本可视化系统能够帮助其提升工作效率。

猜你喜欢

案情可视化语义
基于CiteSpace的足三里穴研究可视化分析
基于Power BI的油田注水运行动态分析与可视化展示
基于CGAL和OpenGL的海底地形三维可视化
语言与语义
“融评”:党媒评论的可视化创新
是谁下的毒
“上”与“下”语义的不对称性及其认知阐释
报案者
认知范畴模糊与语义模糊
“两高”刑事指导性案例的文本分析及改进