犯罪复杂网络:诈骗案件中的犯罪模式挖掘*
2022-04-24张天凡王彪袁琪王有宁李哲
张天凡 王彪 袁琪 王有宁 李哲
1. 湖北工程学院 2. 湖北省孝感市公安局孝南分局 3. 湖北职业技术学院
引言
近年来,以电信网络诈骗为代表的诈骗类犯罪持续高发多发,犯罪分子作案手段不断翻新,黑灰产业链条盘根错节,已成为当前发案最高、损失最大、群众反响最强烈的突出违法犯罪活动。2021年前11个月,共破获电信网络诈骗案件37万余起,有力打击了诈骗类犯罪活动的发展势头[1]。从个案角度来看,众多诈骗案件涉案背景呈现各异性,具有很强的复杂性[2]。加之犯罪人员有意通过伪装、欺骗甚至对抗手段干扰办案,为实际执法带来了挑战。从众多形态各异的案事件中发掘其内在模式,有利于提高侦破效率,保护人民财产安全。
犯罪心理学[3]和 犯罪行为分析[4]均指出,除少数个案外,大多数犯罪案件的形成均受到不同程度内外动机与因素的影响,涉案人员自身及其社会关系对最终犯罪行为和结果的产生具有重要影响,这就为建立合适的犯罪动机发现模型提供了线索[5]。犯罪也是现实世界复杂系统中的一员,通过相互作用或依赖关系将不同元素或组件形成统一的整体,呈现出非线性、自组织的整体系统行为[6]。在这些复杂系统当中,元素之间的连接模式既不是纯粹的规则化连接,也不是完全的随机连接,其拓扑结构反映出明显的幂律度分布性与聚类特性[7],广泛存在着社团结构与分层结构,这就为建立犯罪关系网络并由此挖掘诈骗犯罪模式提供了基础[8]。
本文基于诈骗犯罪数据,通过抽取涉案人员、地点、时间、犯罪类型等实体构建犯罪复杂网络(Crime Complex Network,CCN),用于揭示纷繁案件之间的隐含关系。在此基础上,对犯罪事件中的中心主体对象、犯罪团伙进行发现,由此对诈骗犯罪模式展开挖掘。
一、建立犯罪复杂网络模型
警务综合平台提供的报警记录文本是构建犯罪复杂网络的数据来源,然而需要先对这种非结构化的数据进行一系列处理后才能为模型的建立提供关键数据支撑。数据预处理和犯罪复杂网络建立如图1所示,主要分为以下几个步骤。
首先,收集并整理犯罪事件文本数据,配合犯罪语料库构建犯罪数据集;然后,通过文本实体挖掘方法从数据集中抽取关键实体;再根据公共属性和经验规则构建实体关联,由此建立犯罪复杂网络。在该网络的基础上展开诈骗类犯罪模式的挖掘,并将挖掘结果应用于实际案件分辨与侦破中。
(一)数据预处理
整个数据预处理阶段主要由文本实体抽取、关系抽取和实体数值量化三部分组成[9]。关键实体抽取流程如图2所示。
通过将犯罪记录文本、系统自动录入的、包含编号和系统时间的结构化信息进行实体抽取,得到:案件编号(CID) ,唯一标注案件的关键字;案件分类(CType),主要分为13个类别,并单独筛选出诈骗类案件;涉案人员(P),是本文研究的主体。其中,单个案件中可能存在一个或多个涉案人员,并且在案件文本的描述中,同一人员实体可能会重复出现多次;案件地点(L),通过POS方法转换为GIS地理坐标L(Lng,Lat)。由于部分案件并未和实际地点产生直接关联,但可能包含电话号码和(或)IP地址,因此这类有助于定位的信息也被统一划分到“地点”分类中。
(二)构建犯罪复杂网络
如图3所示,复杂网络中有两个关键要素,一个是构成网络的节点(Node或Vertex),一个是表示各节点之间关系的边(Edge)。这些节点构成节点集合,这些关系构成边集合,则犯罪复杂网络可以用图G(V,E)来描述[10]。从犯罪分析的角度来看,案件1(v1)和案件2(v2)通过犯罪嫌疑人“张三”构成了一个关联(e1),换句话来说“因为张三同时涉及了案件1和案件2,因此两个案件是‘串案’”。而案件1指向案件2的箭头线可以表示案件发生的先后顺序,在本文中案件2要早于案件1发生。此外,箭头线的长度可以用来表明案件之间关系的强度或案发地之间的距离。由于案件与案件之间并非唯一通过人员关联,因此需要依赖图2所示的多个实体对案件之间潜在的关系进行表达,以此构建完整的犯罪复杂网络。
二、诈骗犯罪模式挖掘
(一)犯罪复杂网络实例
根据图2所示的关键实体抽取方法对15万余起涉及有效人物实体的案例进行了数据预处理,然后利用上述模型构建复杂犯罪网络,其中网络的布局模式采用Geo Layout 布局以展现案件的空间关联,然后利用数据可视化软件进行网络展示。基于犯罪事件节点构建的犯罪复杂网络如图4所示。
如图4所示,该犯罪复杂网络包含85441条边,其中自关联43356、直接关联42085。基于modularity_class检测获得了6077个分类(子网),其中最大的子网包含980个节点,前11个网络包含5460个节点,充分说明诈骗类案件的团伙性质和影响的广泛性。通过进行量化分析可知,网络中大量节点的度为0,占比54.31%,从一般角度来看,这类案件可以认为是“孤立”的,并不与其它案件存在直接或间接关联。还有26.72%的案件的度为1,即两件案件存在一次关联,在当前分析中作为关联案例不做重点关注。度超过1的案件只占总案件数量的18.97%,它们表现出了较强的关联性,这也是需要重点关注的案件。
(二)子犯罪网络分析
以犯罪事件为节点的犯罪复杂网络勾勒出样本区域内案件之间的基本关系,也展现了涉案人员的社会关系概况。但图4所示的网络确实“复杂”,难以直接通过整个网络挖掘犯罪模式。因此,在进行犯罪模式挖掘前,需要对现有网络进行分解处理[11]。简单来说,优先关注具有较多节点的子网(Sub-CCN)[12]。图5所示是节点数量排名前列的子网结构,这里通过ForceAtlas 2[13]方法对网络进行展开,以更好地展现该犯罪子网的结构和显性特征[14]。
可以看到,虽然各子网呈现不同的结构,但具有较为典型的共同特征:边缘呈现简单线性结构;中心区域呈现复杂环状、簇状结构。这种关系结构的获得有助于挖掘并发现涉案人员之间的关系。
(三)涉案人员关系发现模型
通过犯罪关系网的分析可以了解到涉案人员之间的关系组成与基本模式。如图6所示,以案事件和涉案人员的关联方式和强度可将其分为三种典型类型的关联:直接关联(direct)、自关联(self)和间接关联(indirect)。
直接关联:例如案件1、案件2和案件3中均出现了“张三”,那么这三个案件之间存在两个直接关联。
自关联:案件1中,存在两个张三(其中一个是化名),这两个张三之间构成一个自关联。
间接关联:由于案件n和案件3存在直接关联,那么案件3中的其它涉案人员小明、小强,与案件n中的涉案人员李四、二毛之间的关系均为间接关联。
人员关系是一种典型的、直观的关系。通过这一思路,可以分别通过IP地址、手机号、邮箱、车险等实体信息建立更复杂的关系网络,以充分表达各案件之间的潜在关系。
(四)六类典型诈骗模式分析
通过构建关联模式,能够从复杂的关系网络中发现诈骗类案件的模式特征。
1. 身份欺诈
构建虚假身份是欺诈中最常见的问题,犯罪分子通过提供虚假的身份来尝试逃脱打击与制裁。通过CNN有助于了解个人身份信息如地址、电话、出生日期和IP地址信息等是否构成了环状关联,这往往是欺诈的典型特征。如图7(1)所示,图中的三个人共享了一些相同的信息,除非他们是亲属或关系紧密的朋友,而这种关系很容易通过户籍等数据确认。
2. 实体伪装
不同实体之间可能以多种方式建立关联,CCN有助于辨别潜在的重复实体。图7(2)展示了三个子数据集,每个数据集中的一些实体具有相同信息,如地点、电话,它们有较大概率就是同一人。
3. 欺诈团伙分析模式
图分析有助于动态探索大型数据集中的关系,可以通过地址、电话、邮件、交易记录等多种信息来探索并可视化人员之间的关联,这使得检测同谋变得更快、更准确。如图7(3)所示,可能属于同一个犯罪团伙,并且是其中的关键人物。
4. 车险欺诈
并非所有的车祸都是“意外”发生的,其中也许隐藏着犯罪:图7(4)所示两起不同的车祸及其后续处理过程中涉及人员可能以某种方式涉及了这两起车祸,不同人员同时连接到了同一个定损员和维修点,那么这是假事故的风险就很高了。
5. 网络传销式欺诈
传销或者说庞氏骗局的欺诈手段更加隐蔽,从构建欺诈到案件爆发或侦破中的周期一般比较长,使得最终的受害人员众多、涉案金额往往特别巨大。新冠疫情使得线下传销模式大幅减少,但依托网络实施诈骗则是近两年电信类诈骗中的新发展态势。在传销式诈骗中,客户(或者是犯罪人员)将其他人称为潜在客户。如果某些人通过个人信息与网络内的其他人或其他推荐人网络相关,那么就有可能发现整个传销网络。如图7(5)所示,虽然这里有七个实体人员,但他们分别关联到两张不同的银行卡,那么这七个实体可能只是由少数犯罪人员操控的诈骗网络。
6. 钓鱼欺诈
一些网络犯罪分子冒充银行、公安发送电子邮件或短信以获取受害人的金融凭据。一旦受害人相信了这些信息,就允许犯罪分子直接或间接访问受害者的银行账户,从而造成受害人的经济损失。当钓鱼欺诈发生时,通常会有多个账户受到攻击。图7(6)所示的模型中,三个银行账户的经常性访问IP发生了变更,并且还关联了一个新的账户,那么有较高的概率是犯罪人员。
(五)模型应用
通过建模工具,将上述模型数值化并转换为应用程序实现,就可以不断从已有历史数据中发掘、发现问题,为一线民警侦破诈骗案件提供线索与侦办思路。在2021年3月至11月中,借助这一模型累计侦办多类诈骗案件300余起,有力支持了地方警务工作。
三、总结与展望
本文基于犯罪文本数据的分析建立了犯罪复杂网络,在此基础上对诈骗犯罪的模式展开挖掘研究,通过分析得到了六类典型诈骗模式。这六类模式的实践应用有力提升了研究区域内诈骗类案件的侦破工作,保护了人民群众财产。
现有研究在时间尺度上跨度较小,并未将时变因素引入模式挖掘,因此对诈骗犯罪的演变模式未做出有效判定。此外,受限于现有实体抽取方法和数据集的限制,目前认为是孤立事件的案件之间可能存在未发现的关联,这也是未来研究中需要进一步关注的重点。