APP下载

一种基于图神经网络的电信诈骗识别方法*

2021-07-01张杰俊唐颖淳季述郧李静林

电子技术应用 2021年6期
关键词:池化卷积社交

张杰俊 ,唐颖淳 ,季述郧 ,李静林

(1.中国电信股份有限公司上海分公司,上海 200041;2.北京邮电大学 网络与交换技术国家重点实验室,北京 100876)

0 引言

随着信息社会的发展,电信欺诈高发,但由于通信关系的复杂性和不确定性,电信欺诈检测成为了一个十分困难的问题。

传统电信欺诈检测技术主要基于用户属性和通话记录来获得用户行为样本,再通过SVM、LGB 等机器学习方法学习行为特征[1-2]。这些方法主要使用短时间的行为统计进行分类,往往会出现时间尺度特征不足的问题。同时,由于用户通话行为的复杂性,以固定窗口的统计特征作为诈骗电话的统计依据[3-4],容易受到长期行为变化影响,分类效果差。

由于通信是一种社交行为,通信社交网络包含丰富的关系信息,通过社交网络能成功捕获用户的相关性,如两个人的社交网络重叠程度与其联系强度相关,即彼此认识的普通用户可能会有共同好友[5-6]。而电信诈骗分子并不了解用户社交特征,电信诈骗号码与被骗号码之间难以存在共享社交节点。同时不同用户的社交关系存在不同的节点数量、节点度数、节点k-core 值、Page Rank 得分等[7-8],使得其社交网络拓扑并不相同。基于这一思路,可以利用通信社交网络分析方法进行诈骗检测[9]。

本文提出了基于图神经网络(Graph Neural Network,GNN)的通信社交检测方法。该方法建立了一种端到端学习GNN 模型,该模型基于游走采样和节点融合策略动态构建计算图,之后通过节点卷积算子和关系边卷积算子的混合算法基于计算图实现图卷积(Graph Convolution Network,GCN)[10]进行信息融合,最后引入均值池化读出机制,聚合来自不同节点范围的信息,并最终实现分类表示。该模型将用户行为特征和社交关系特征结合在一起,以识别欺诈行为。通过上海市真实电信数据集实验验证,相比于传统方法,基于GNN 的通信社交检测模型可以提高电信诈骗识别的检出率。

1 基于图神经网络的电信诈骗识别算法设计

GNN 的核心思想是从局部图邻域迭代聚合特征信息[11]。局部图中的边表示两个节点之间的依赖关系,并通过周围的状态来更新节点的状态,从而能够解决通信社交关系拓扑的挖掘和基于节点间相关性强弱的迭代更新问题。

1.1 图神经网络模型架构

基于GNN 的通信社交行为检测模型结构如图1 所示。模型划分为三部分:(1)图构建模块;(2)图卷积层;(3)均值池化(Mean-pooling)读出机制。

图1 基于图的通信社交行为检测模型框架

输入有向图G 为一对(V,E),其中V 表示具有用户特征xv∈Rdv的有限节点集合(例如,用户属性、用户呼叫数量等),E 表示用户交互的一组边,边特征为evw∈Rde(例如,通话次数、通话时长、呼叫类型等),dv表示节点特征数,de表示关系边特征数。

首先,GNN 为每个用户构造计算图,然后将其映射到卷积层的输入。图卷积层由几个节点卷积算子和边卷积算子组成,它们对用户之间的交互进行建模并提取不同范围的融合信息。然后,均值池化读出机制会利用多范围节点信息,并逐步进行全局的图迭代更新(Graph Embedding)。最后,将GNN 输出与分类器结合起来,用于最终的欺诈预测。

1.2 图构建模块

为了处理大规模通信社交网络,本文提出一种基于相对关系强度的短步游走策略来对计算图进行采样,有效减轻了无效节点对模型训练的影响。

计算图的构建流程如图2 所示。

图2 计算图的生成过程

该流程分为两个步骤:

(1)针对通信社交网络原始图,对源节点u,通过固定长度l 游走策略生成用户通信社交网络子图。方法是,从源节点u 开始以固定步长l 进行游走,并保留游走过程中的节点。为了保留相对较强的社交关系,游走根据亲密关系采样k-hops(2≤k≤l)邻居。

(2)针对通信社交网络子图,合并用户的k-hops 邻居簇,生成用户节点u 的最终计算子图。为了降低计算复杂度,该策略保留了源节点及其直接邻居,合并了k-hops 邻居并删除度为一的合并节点。

1.3 图卷积模块

图卷积(GCN)可看作为一个图数据特征提取器,核心思想是利用边的信息对节点信息进行聚合并把邻居节点加和求平均,从而生成新的节点表示。基于拉普拉斯矩阵的谱分解,GCN 采用以下图卷积子:

其中,X 表示节点初始特征向量,X′表示节点更新后的状态向量,表示带自环的邻接矩阵,并且I 表示节点度数矩阵,Θ 为卷积子学习参数。

可以找到一个函数f(x)作为节点卷积子,同时运用于当前节点和邻居节点。其中,可以通过一个可学习的参数来调整中心节点的权值εk:

为了对通信社交网络的节点和关系边进行建模,需要堆叠多个卷积层以学习图中每个节点的内部隐藏表示,完成行为内容或社会关系的信息融合。

在传统图卷积中,领域消息传递阶段运行固定步长T,并根据消息函数Mt和节点更新函数Ut进行节点学习。在当前时刻t,根据当前节点状态、领域状态和关系信息evw,计算消息并更新节点隐藏状态。在GNN 中,为了聚合节点特征和关系边特征,更新了卷积函数,将其视为消息函数和更新函数的组合,以进行信息融合:

GNN 的图卷积模块结构如图3 所示。GNN 的图卷积层通过3 层堆叠而成,每一层参数共享,每个节点的邻居都进行一次卷积操作,并用卷积的结果更新该节点,然后经过激活函数ReLU 完成节点隐藏状态的更新。

图3 3 层GNN 示意图

1.4 均值池化读出机制

局部图中较小的邻域范围表示局部依赖关系,较大的范围倾向于捕获更高阶的社交关系特征,不同范围的信息在正常网络和欺诈网络中的贡献均不相同。为了更好地利用多范围信息,获取最佳的图表示,本文提出图神经网络的均值池化读出机制,以对各节点隐藏状态的集合进行操作,并且这些节点隐藏状态排列是保持不变的。

2 实验与分析

2.1 实验数据集

实验数据集采用上海市的真实呼叫记录,包含从2019 年5 月10 日~2019 年6 月23 日的全部用户呼叫记录,用户之间可能存在多个通信事件。数据集的数据样本统计信息如表1 所示。

表1 数据样本统计

针对这一数据集,首先进行数据预处理,主要进行Z分数归一化。之后对数据集按时间顺序进行划分,其中70%数据用于训练,10%数据用于验证,20%数据用于测试。

2.2 实验设置

针对数据集,选取8 种用于构建计算图的用户特征,如表2 所示。

表2 用户特征

对于每个用户的采样计算图,实验将最大游走长度l 设置为3。同时将每个卷积模型的卷积层数设置为3,将节点隐藏状态维数和均值池化维数都设置为16,并将均值池化函数应用于特征融合。最后的分类器采用两层MLPs。

实验使用Adam 优化器将模型训练300 个epochs,以使平均绝对误差(MAE)最小化。初始学习率设为0.001,batch 大小设为32。

实验采用的各种算法对比模型包括:

(1)SVM:使用包含社交网络结构信息的用户节点呼叫统计特征作为模型的输入信息。

(2)LGB(LightGBM):使用包含社交网络结构信息的用户节点呼叫统计特征作为模型的输入信息。

(3)ANN:浅层人工神经网络,采用两层感知器进行分类[12]。使用包含社交网络结构信息的用户节点特征作为模型的输入信息。

(4)GCN:图卷积网络是基于图结构数据的半监督学习[10]。其模型中的边权重是通过用户之间的亲密关系计算得到,再根据权重构造边缘卷积算子完成对边缘特征评估,之后通过加权平均的方式更新节点状态。

(5)GIN:图同构网络(Graph Isomorphism Network)是一种消息传递网络(Message Passing Neural Network,MPNN)[11]。GIN 通过一个可学习的参数来调整中心节点的权值,再根据权值构造节点卷积算子完成节点状态更新[13]。

(6)GNN:本文构建的图神经网络。

2.3 样本分类结果与分析

实验采用正确率、精确率、召回率和AUC 来评估电信诈骗识别的性能。

如表3 所示,GNN 模型比其他模型具有更好的识别能力,并且GNN 的AUC 比传统机器学习模型SVM 和LGB分别提升了8.23%和7.57%,也比其他人工神经网络模型(ANN、GCN、GIN)分别实现了5.35%、3.98%和3.04%的AUC 提升。实验结果表明,GNN 可以学习到通信社交网络更多的信息,同时,均值池化(mean-pooling)读出机制也比传统的池化(max-pooling)具有更好的效果[14]。

表3 各模型的分类结果

图卷积模块中,图卷积层数对识别性能的影响如图4 所示。随着迭代次数的增长,相比第1 层卷积和第2层卷积,第3 层卷积实现了2.2%和1.45%AUC 的提升。因此,图卷积模块中较深的卷积层有益于电信诈骗的识别。

图4 卷积层对模型性能的影响

对于不同模型的分类效果,本文使用t-SNE(t-distributed Stochastic Neighbor Embedding)完成了高维图表示学习结果的降维和可视化[15]。

ANN、LGB、GCN、GIN 模型的可视化结果如图5(a)所示,GNN 模型的可视化结果如图5(b)所示。其中,灰色表示普通用户,黑色表示欺诈用户;GNN-1 为1 层图卷积操作,GNN-2 为2 层图卷积操作,GNN-3 为3 层图卷积操作。GNN-1、GNN-2、GNN-3 使用均值池化操作,GNN Max-pooling 采用最大值池化操作。从可视化结果中可以看到,采用均值池化操作的3 层GNN 模型,其准确性始终高于其他方法。

图5 可视化结果

3 结论

本文提出了一种基于图神经网络(GNN)的电信欺诈识别方法。这一方法基于短步游走采样和节点合并来构造计算图以适应大规模通信社交网络,通过融合通信社交信息的图同构算子和边卷积算子的混合体和过均值池化操作,有效地利用多范围信息对通信社交网络的特征进行学习。本文通过真实数据集对GNN 模型进行了评估,与其他欺诈检测方法相比,图卷积方法能够适应大规模通信社交网络的检测,能满足电信欺诈检测的要求。未来的工作中,将进一步把图神经网络应用到现实系统中,以实现电信诈骗的实时拦截。

猜你喜欢

池化卷积社交
基于Sobel算子的池化算法设计
社交牛人症该怎么治
卷积神经网络中的自适应加权池化
设施蔬菜病害识别中的CNN池化选择
聪明人 往往很少社交
基于3D-Winograd的快速卷积算法设计及FPGA实现
社交距离
从滤波器理解卷积
基于卷积神经网络和池化算法的表情识别研究
你回避社交,真不是因为内向