APP下载

基于残差连接与自注意力机制的图卷积神经网络在诈骗用户检测中的应用

2025-03-05斯彬洲孙海春

电脑知识与技术 2025年3期
关键词:电信诈骗

关键词:电信诈骗;图神经网络;残差连接;自注意力机制;用户检测

中图分类号:TP391 文献标识码:A

文章编号:1009-3044(2025)03-0001-05 开放科学(资源服务) 标识码(OSID) :

0引言

随着互联网络的快速发展,网络犯罪呈现增长趋势且形式多样化,其中电信网络诈骗已成为近年来严重的社会问题。诈骗分子的手段不断升级,涉及范围广泛,严重侵害了公众的财产安全和社会稳定[1]。尽管诈骗活动隐匿于网络之中,但在与受害者交涉的过程中,不可避免地会在通信网络中留下痕迹。这些痕迹包含了移动设备终端基本的通信网络记录,即CDR数据。利用这些数据识别潜在的诈骗分子,从而打击电信诈骗犯罪,是一个行之有效的途径。

传统的机器学习和深度学习算法能够从大量的电信数据中学习复杂的模式和规律,从电信流层面识别潜在的欺诈行为。其中,图神经网络(Graph Neural Networks,GNN) 因其能够同时融合节点实体属性以及节点之间的拓扑结构,而在图欺诈检测领域得到了广泛应用[2-5]。然而,现有研究仍面临一些挑战,例如数据稀疏性导致的网络结构不完整、节点关系不明确以及模型过度平滑等问题[6-7],这些问题影响了最终的检测效果。为此,本文提出了一种融合残差连接和自注意力机制的图卷积神经网络模型,用于电信诈骗用户的检测。

本文的主要贡献如下:

1)提出了一种结合残差连接和自注意力机制的图卷积神经网络模型,增强了模型的稳定性和特征表示能力,适用于电信诈骗用户检测任务。

2)设计了特征提取和链路预测方法,对原始稀疏数据进行图重建,充分利用了图神经网络的优势。

3)在真实的运营商CDR数据集上进行了实验,结果表明所提模型在各项指标上均优于现有基线模型,验证了方法的有效性和优越性。

1 基于残差连接和自注意力机制的诈骗用户检测模型

如图1所示,提出的诈骗用户检测模型主要包含4个模块:输入层、特征提取层、链路预测层以及DNN 网络层。总体来说,需要对收集到的CDR元数据首先进行特征提取,然后通过特征转换和缩放得到每个用户,即图神经网络中每个节点的特征矩阵。在链路预测层中,选择多个特征计算不同节点的整体相似度,设置相似度阈值进行链路预测,预测结果输出为图神经网络节点之间的边。最后,将节点特征和节点之间的拓扑结构输入到DNN模块中,完成对用户节点的分类。接下来对主要模块进行详细说明。

1.1 特征提取模块

在CDR元数据中,包含电信用户通讯行为的原始字段数据。这些数据离散程度较高,无法直接用于分析和建模,因此需要进行特征工程提取。然而,特征提取过程中存在两个主要问题:

1)不同维度的数据量级可能不一致,可能导致数据的偏态分布问题,从而影响分类检测的鲁棒性。

2)同一维度的数据可能不服从正态分布,数据之间差异较大。

为了解决上述问题,本文首先对数据进行特征变换,采用Yeo-Johnson变换以提高数据的正态性、对称性和方差一致性。随后,对数据进行归一化处理,将每一维度的数据缩放到相同的尺度,避免极端值的影响,从而提高模型性能并降低计算成本。

本文将元数据的特征提取过程分为两大类:

1)用户行为特征:直接从数据集中提取用户的消费行为、App使用流量、呼叫行为、通话偏好等,共计24维特征。具体字段名称见2.1实验部分。

2)统计特征:对每个维度的行为特征进行统计分析,计算中位数、平均数、总和、方差、偏度、标准差和分位数等,生成额外的特征维度。对于包含M个维度的元数据集D,可以统计每一个节点在第K 维度上的统计特征,生成特征向量,其表示公式为:

2 实验及分析

2.1 实验数据

本文实验采用了2020年四川省大数据中心组织的首届四川省人工智能创新大赛发布的关于电信诈骗用户检测的公开数据集,由运营商进行脱敏处理后发布。数据集包含了四川23个城市的 6106个电信用户在 2019年8月至2020年3月期间的真实CDR数据,其中包括4144个正常用户和1962 个涉诈用户。

数据集包含 4个子集:应用使用记录(App) 、短信记录(SMS) 、语音记录(VOC)和消费记录(USER) 。各类数据字段不同,以语音记录(VOC)为例,包含用户的语音通信对象、呼叫类型、通话时长、对方市县以及设备的国际移动设备识别码。

数据集中包含的数据字段如表1所示。

上述内容均为用户的行为特征,对这些元素字段进行统计后生成用户的统计特征。本文对每一个节点最终使用了55维的特征表示。

2.2实验设置

实验环境:操作系统为 Ubuntu 20.04,编程语言为 Python 3.8,深度学习框架为 PyTorch 1.11.0。硬件配置包括 RTX 3090显卡和14核 Intel Xeon Platinum8362 CPU @ 2.80GHz的服务器。

模型参数设置:在模型训练过程中,设置了两个Res-Attention GCN模块,每个模块包含 2层GCN,节点嵌入维度设为 16。学习率设定为0.01,dropout率为0.01,优化器采用 Adam 算法。对特征选择进行了优化,从 55维特征中选取了与诈骗检测最相关的8类主要特征,用于图的重建。相似度阈值设置为0.2,该值通过多次实验验证,能够在保持图连通性的同时避免过多噪声边的引入。最终构建的图包含6106个节点,平均节点度为136.33。

2.3基线对比方法

对比的基线方法主要是目前使用较为广泛的图神经网络方法,包括 Play2vec、Care-GNN、GCN、GAT和BTG。

基线模型一:Care-GNN[10]:与强化学习相结合的图神经网络模型。

基线模型二:Play2vec[11]:基于元路径的异质图神经网络。

基线模型三:BTG:一种端到端的稀疏图分类模型。

基线模型四:GCN:基础的图卷积神经网络,采用三层网络架构。

基线模型五:GAT[12]:基于图注意力的图神经网络。

2.4实验结果

评价指标:本文采用了5个评价指标用于实验效果评价,分别是AUC、精度、召回率、准确率以及F1值。主要公式表示如下:

式中:FP为负样本中被分类器错误预测为正样本的个数;TN为正样本中被分类器正确预测为负样本的个数;FN为负样本中被分类器正确预测为负样本的个数;TP为正样本中被分类器正确预测为正样本的个数。为了更加全面地评估本文所采用的模型框架,实验采用了训练集比例分别为 10%、20%、40%、60%时的模型测试结果,最终的实验结果见表2。

从表2可以看出,本文提出的模型在不同训练集比例下的各项指标均优于对比模型。在训练集比例为60%时,本文方法的AUC达到0.9442,F1值达到0.8842,表明模型具有较高的检测准确率和较好的稳定性。

与其他基线模型相比,本方法的优势主要体现在以下方面:

1)残差连接的引入:增强了模型的深度学习能力,缓解了过度平滑问题。

2)自注意力机制的应用:提高了特征聚合的精确性,能够自适应地分配邻居节点的权重。

同时也注意到,所有模型的召回率相对较低,这可能是由于数据集中类别不平衡所致。未来可以考虑采用数据平衡技术或代价敏感的学习方法来进一步提高召回率。

2.5消融实验

为了评估残差模块和自注意力模块对模型性能的影响,分别将这两个模块从原始模型中移除,进行了两组消融实验,并与原始模型进行了比较。实验均采用训练集60%比例进行训练,实验结果如图3所示。

实验结果显示,移除这两个模块后,模型的整体性能下降较为明显。去除残差模块后,准确率、召回率、精确率和F1值分别下降了2.06%、2.54%、1.71%、2.04%。这说明保留节点原始的特征信息流的确是必要的,没有残差连接,网络的特征传播会受到一定限制,且在图卷积层数增加后表现不够稳定。同时,去除注意力模块后,指标分别下降了1.76%、3.37%、1.58%、2.33%。这表明图注意力机制能够考虑不同邻居节点特征对中心节点检测的重要性差异,从而提高特征聚合的精度。

3 结束语

本文提出了一种基于残差连接和自注意力机制相结合的图卷积神经网络模型,用于电信网络诈骗用户的检测。通过特征提取和链路预测,构建了稠密的图结构,成功解决了原始数据稀疏的问题。引入残差连接增强了模型的稳定性,结合自注意力机制提升了特征聚合的精度。实验结果表明,所提方法在F1值等指标上均优于多个基线模型,验证了模型的有效性和优越性。

该模型在电信诈骗检测任务中的表现,尤其在高维稀疏数据场景下,展示了出色的识别潜在诈骗用户的能力,具有较强的实际应用价值。同时,模型设计合理,具备进一步推广应用的潜力。

未来的研究中,可以针对数据的稀疏性和类别不平衡性,进一步优化模型,例如:

1)数据增强:通过生成合成样本或使用数据重采样技术,增加正负样本的数量,提升模型的泛化能力和鲁棒性。

2)模型结构优化:探索更复杂的图神经网络架构,如引入图自编码器或变分图自动编码器,提升模型的表达能力。

3)实时应用:研究模型在实际公安系统中的应用,结合用户行为的实时数据进行动态更新和预警,提高对新型网络诈骗的检测能力。

猜你喜欢

电信诈骗
运营商关于电信金融诈骗的对策研究
电信诈骗犯罪分析及应对手段
学校开展预防电信诈骗教育的必要性与途径初探
电信诈骗案件归责分析及对策研究
电信诈骗犯罪的形势与对策
互联网世界如何实现隐私权的保护
现代法律之殇——电信诈骗
由大学生电信诈骗案引发的几点思考
电信诈骗的社会化治理:体系构建与实践推进
基于邮件系统的虚拟网络社会管理的研究