图表示学习方法在消费金融领域团伙欺诈检测中的研究

2022-11-07傅湘玲闫晨巍赵朋亚宋美琦仵伟强

中文信息学报 2022年9期

傅湘玲,闫晨巍,赵朋亚,宋美琦,仵伟强

(1.北京邮电大学计算机学院(国家示范性软件学院),北京 100876;2.北京邮电大学可信分布式与服务教育部重点实验室,北京 100876;3.渤海银行股份有限公司,天津 300204;4.北京邮电大学-渤海银行智慧银行联合实验室,天津 300204)

0 引言

随着消费金融的快速发展,与之而来的消费金融欺诈也逐渐引起人们的关注。据《数字金融反欺诈白皮书》统计,2017年金融欺诈相关从业者超过了150万人,涉及金额达到千亿级别[1]。一般来说,欺诈主要包括个人欺诈以及团伙欺诈,随着反欺诈手段和技术的提升,欺诈行为越来越难以由个体实施,而是依赖于欺诈团伙有组织的进行,消费金融欺诈逐渐呈现出团伙化和专业化的趋势。因此,团伙欺诈的检测成为了金融反欺诈中的重要问题。

为了应对欺诈行为的复杂性及多样性,主流的消费金融欺诈检测方法从最开始的黑白名单、基于专家系统的规则引擎,逐渐转变为以机器学习为主的检测手段。以机器学习为主的欺诈检测方法的核心是提取用户的特征,常用的用户特征包括用户年龄、职业、收入等,这些特征属于用户的固有属性,也称为固有特征。通过对这些固有特征的学习和表示,构建出机器学习模型来预测用户的欺诈概率。但是,这些方法在对欺诈团伙进行识别的时候能力有限,原因在于团伙中的部分节点从用户的固有特征角度单独观测时,欺诈的概率很难判断,这对消费金融行业的风险防控提出了新的挑战。

针对团伙欺诈识别,如何更有效地提取用户特征,从而捕捉欺诈者或者欺诈团伙的根本特征是关键。通过对欺诈团伙的深入分析可以发现,欺诈团伙内部往往分工明确,合作紧密[1]。如图1所示,节点代表用户,边代表用户之间的通话关系,不难看出,左侧虚线框中存在着高度紧密相连的节点团,其中包括一个中心节点,剩余节点均与之相连,这是一类典型的欺诈团伙结构。如果单从每个节点的年龄、性别、学历等用户固有特征进行分析时,很难判断单一节点的欺诈概率,但是将所有节点以图的形式展示出来,结合该节点周围节点的信息,则可以更准确地判断出欺诈团伙。

图1 用户之间的关联关系图

也就是说,每个节点是否应该被预测为欺诈者,不仅由每个节点的自身特征决定,还受到其邻居节点的特征的影响。用户的特征不仅包括自身信息,而且用户与用户之间的往来关系也反映出许多有用的信息。例如,在社交网络中,用户之间相互关注、评论和转发形成用户关系网络,这些互动关系在一定程度上可以反映出用户的亲密程度,对用户群进行社区发现分析,可以推理出用户的共同兴趣爱好等。根据用户之间的通信数据可以生成通话网络,其中通话频次、时长等都是用户关系紧密程度的直接反映,对这些通信数据进行分析,是风控实践的重要手段[2]。也就是说,社交网络、通话网络、IP 地址、Wi-Fi地址等信息可以作为用户关联网络的数据基础,这对团伙欺诈检测具有重要作用。

因此,本文从用户之间的关联关系的角度出发,利用用户和用户之间的通话关系构建用户关联网络,将用户信息整合为节点属性,然后从图结构信息、节点信息等多个维度对图数据进行分析,通过Deep Walk算法[3]将当前节点与其邻居节点信息进行编码,最终获得丰富的节点表示,充分地扩充用户特征,更全面地捕捉欺诈者的特征属性,提高机器学习模型的欺诈检测性能,精准、全面地识别欺诈者。

1 相关工作

1.1 欺诈风险检测研究

在欺诈风险检测领域,最初的研究大多是由经验驱动的,即主要依赖于从大量历史交易中总结出来的专家经验和规则[4-5],形成多个规则构成的规则集,如设立IP黑名单、电子邮件域等。这种方法仍广泛应用于银行等金融公司的风控系统中,如交通银行于2010年开始运行“反欺诈管理系统”,通过分析以往风险案例形成规则和模型,对可疑交易进行监控。但单纯依赖基于规则的方法,反欺诈能力薄弱,而且容易误伤无辜的需求[2]。随着机器学习的发展,逻辑回归[6]、支持向量机[7-8]、决策树[9-10]、K近邻[11]、自组织映射[12]等方法被用于预测欺诈风险。但这些研究关注于单一用户的基本信息、交易信息等用户自身特征,没有考虑多个用户之间可能存在的关联,从而丢失了用户间关系所蕴含的大量信息。

当从用户关系的角度来挖掘用户间的特征时,可以利用通信记录、交易往来、公用IP地址、公司或家庭地址等数据[13]形成用户关联图。在反欺诈实践中,常常会把用户之间的相关信息连接起来,形成一个同质或异质的网络,或者称之为图。图结构是天然的关系分析工具,可以反映出欺诈者之间的关联关系特征,例如以图中边的连接关系和权重大小来描述节点间的关系远近。Peng等人[14]通过抽取通话记录进而转化成网络,根据用户特征及用户间特征的相似度,进行欺诈社区的发现。赵朋亚等人[15]利用标签传播算法(Label Propagation Algrithom)在关联网络上计算无标签用户的欺诈概率。郭琦等人[16]通过用户关注关系对社交网络中的用户进行建模,采用带权采样的GraphSAGE 算法来增强对网络拓扑结构信息的学习。总的来说,基于用户自身特征的欺诈检测方法已经难以满足欺诈团伙化的新趋势,图特征的引入,有利于捕捉多个欺诈者之间的关联关系,给欺诈检测提供了新的视角。

1.2 图特征提取方法

反欺诈模型是否能够做出正确的预测,很大程度上取决于输入的特征。当输入特征蕴含了足够丰富且有区分度的信息时,模型更容易将欺诈者与正常用户区分开来。因此,如何从原始数据中提取和创造出对预测欺诈有帮助的特征,是提升模型预测能力的关键。

我们将从用户关系网络中提取出来的特征称为网络特征或者图特征,其提取方法根据所提取的图特征的类型而有所不同。度、度中心性、PageRank值等网络统计指标是常用的图特征之一,也可称之为图结构特征。这些指标是衡量网络中的节点重要性的一种手段,以度中心性为例,一个节点的中心性越高,即与之关联节点数目越多,则该节点在网络中越重要,影响力也更大。除此以外,还包括自定义的统计指标等。张宝明等人[17]通过计算朋友个数、是否是小组成员等网络统计指标来引入用户之间的关系特征,进而预测欺诈风险。此类图结构特征能够对图的拓扑结构进行很好的描述和表示。

另一类重要的图特征是通过网络表示学习得到的图节点特征。假设一个用户与欺诈用户联系十分紧密,近朱者赤,近墨者黑,则该用户的欺诈概率将大大提升。当传统的机器学习模型对节点进行编码生成低维的向量表示时,只将用户自身的特征作为输入,忽略了用户周围的信息对用户的影响。而用Deep Walk[3]、Node2vec[18]、Line[19]、SDNE[20]等网络表示学习算法在对节点编码时,可以在图上游走,对该节点及周围与之关联强度较高的节点的信息进行采样,将其与节点自身信息融合,最终生成的节点在嵌入空间中的低维表示也近似于原结构中各个节点的相似性关系。目前,这种以网络表示学习方式提取图特征的方式逐渐成为了主流。Chen等人[21]在识别运费险欺诈的研究中,通过设备共享信息、交易信息和朋友关系建立三类账户关系图,利用网络表示学习算法来获取节点的嵌入表示,提取用户特征。Liu等人[22]以图神经网络来学习节点的表示,在对不同的邻居节点采样时,进行过滤和筛选,减轻有关联的正常用户和欺诈用户之间的彼此噪声干扰。

总的来说,图特征可以通过网络统计指标和网络表示学习算法进行提取。相比于非图特征,图特征更好地吸收了当前节点周围的信息,也可以更好地对网络结构进行刻画。

2 基于图的团伙欺诈风险监测模型

欺诈风险监测模型以用户关系图G作为模型的输入,该图以用户为节点,以用户固有属性为节点属性,以用户之间的通话关系为边。该图可形式化地表示为G=(V,E),V为节点集合,E为边集合,其中vi表示节点i,ei,j表示从节点vi到节点vj的边。对图G中任意节点vi∈V,其包含K=(1,2,3,…,k)类固有特征,可将该节点的固有特征向量表示为{xi1,xi2,xi3,…,xik}。xik为第i个节点的第k类特征。然后对图中每个节点从节点属性、图结构的统计指标和节点网络表示三个维度进行特征提取,得到特征的向量化表示后,输入到LightGBM 中进行训练,得到最终的预测结果。整体过程如图2所示。

图2 基于图的团伙欺诈风险检测模型

2.1 节点固有特征

节点固有特征也称为用户固有特征,主要包括年龄、性别、安装的App等。首先我们对每类节点属性进行Multi-Hot编码。随着属性值的种类越来越多,Multi-Hot表示逐渐变得非常稀疏,直接使用不利于后续的特征存储以及模型训练。因此我们使用主成分分析(Principal Component Analysis,PCA)、非负矩阵分解(Non-negative Matrix Factorization,NMF)、线性判别分析(Linear Discriminant Analysis,LDA)三种降维方法分别对节点属性的Multi-Hot表示进行降维处理,以减少在降维过程中的信息损失,得到d维的低维稠密的向量表示后,将降维后的特征进行拼接,最终得到的节点i的固有特征表示如式(1)所示。

其中,K为固有特征类别数,d为降维之后的向量表示的维度。

图3给出了以“用户安装的App”这一节点属性为例的特征提取示意图,我们首先根据构建的App词典,将用户的App 转化为Multi-Hot表示,之后分别使用PCA、NMF、LDA 等降维方法将单个用户的App列表转化为32维的低维向量表示,拼接起来共32×3=96维向量作为App数据的降维表示特征。

图3 节点属性“用户安装的App”的三种降维表示及拼接过程

2.2 节点统计指标特征

我们利用度、带权度、度中心性、Hits值、PageRank值,以及一些自定义的网络统计指标来抽取节点的统计值特征,这部分特征称为节点统计指标特征。

在本文构建的通话关联网络中,针对节点vi0,提取了如表1所示的相关指标。不同规模的网络中有相同度值的节点有不同的影响力,为了进行比较,一般对度中心性做归一化处理,定义节点vi0的归一化度中心性指标如式(2)所示。

表1 度相关指标及计算方式

其中,di为节点的度,n为网络中的节点数量。

我们还使用了HITs值和PageRank值两个统计指标。与度中心性类似,这类指标可以计算网络中节点的重要程度和权威程度。度中心性认为,一个节点的关联节点数目越多,则该节点在网络中越重要,因而是网络分析中刻画节点中心性的最直接度量指标。而HITs值分别利用权威值(Authority Scores)用来衡量节点对网络信息中的原创性的贡献,用枢纽值(Hub Scores)衡量了节点对网络中信息传递的贡献。PageRank则是根据链接到当前节点的其他节点的质量和数量来衡量当前节点的重要性。

此外,我们还定义了一些自定义的指标,比如节点的“朋友圈大小”。由于本文中的原始通话关系是一个单向关系,为了避免某些用户节点由于职业关系,比如快递、中介等造成对上述的评价指标的干扰,本文添加了节点“朋友”的定义,即只有当用户A和用户B之间都有过通话关系时,才认定用户A 和用户B之间是朋友关系。由此,我们统计了每个节点的朋友数量。

2.3 节点网络表示特征

网络中节点表示的最直观的方式是通过邻接矩阵来表示。与自然语言处理中词向量的独热编码类似,使用独热编码表示某一单词时,词典共含有多少个单词,最后表示该单词的向量维度就有多少维。对于一个包含|V|个节点的网络,其邻接矩阵中每行的向量代表节点的向量表示,即每个节点可以用一个N维向量表示。这种表示的缺点是维度过高,而且无法将节点的网络结构信息很好地反映在向量表示中。因此考虑网络表示学习算法来学习每个节点的分布式表示。

网络表示学习是学习网络中节点的低维度的分布式向量表示,所学习到的特征表示可以用作基于图的各种任务的特征[23]。可以将其过程形式化地表示为,对于图G=(V,E)中的节点vi,学习如式(3)所示的映射关系。

其中,zi是一个输出的多维向量,并且满足drep≪|V|。

该过程将原来邻接矩阵表示的|V|维向量映射到drep维向量,通常drep的大小远小于|V|,以此解决后续的存储和计算问题。映射后的低维向量要保留节点的网络结构信息,原本网络结构相似的节点通常反映到节点低维向量之间的距离上,而且相比较于传统特征工程,网络表示学习采用模型自动学习数据的隐式特征,不依赖于专家经验,减少人工特征的限制与影响。

因此,我们采用Deepwalk 算法在图上进行随机游走,随机游走的过程实际上是对网络进行重构,将以点、边构成的网络结构转化为多个节点序列,通过对节点vi的前k个节点和后k个节点采样,获取邻居节点间的信息。多节点的多次随机游走将产生等价于NLP中句子语料的节点语料信息,最后使用Skip-gram 来获得节点的向量表示,

这种方法很好地将网络邻居结构存入向量中,原来在网络结构中关联紧密的节点,随机游走后有更大的概率出现在同一个随机游走节点序列中,进而这些节点在最后的训练中得到的向量表示越相似。

在获得上述三类特征后,我们将其拼接起来,共同作为Light GBM 的输入,预测节点的欺诈概率。其中,我们将节点统计指标特征和节点网络表示学习特征统称为图特征。

2.4 评价指标

在真实的欺诈检测场景下,需要尽可能多地找出欺诈者,同时保持对正常用户的尽可能低的误杀率,对应到机器学习中的评价指标,期望获得更高的精确率(Precision)和召回率(Recall)。F1值是这两个指标的综合考量,计算如式(4)所示。

此外,AUC(AOC 曲线下的面积)是另一个评价预测结果区分度的重要指标。因此本文使用F1值和AUC作为评价指标来衡量模型的性能。

3 实验验证与结果分析

3.1 数据集介绍

本文数据集使用真实的消费金融公司数据集中的通话数据,共包含18 959个有标签的用户数据,其中2 882个是欺诈用户,16 077 个是正常用户。根据该通话数据构成关联网络,其中用户为节点,用户之间的通话关系为边。网络中的边为有向边,因为通话数据中的通话关系是一种有向关系,即用户A 打电话给用户B,和用户B打电话给用户A 是以两条边的形式存在。结合无标签的用户,最终构建的关联网络共包含33 728 365个节点、251 786 211条边。该关联网络的一些统计指标如表2所示。

表2 关联网络指标

模型采用五折交叉检验进行训练,每次训练的训练集和测试集比例为8:2,即15 167个样本作为训练集,剩余样本作为测试集。

3.2 模型参数

Deepwalk模型需要依赖随机游走产生的节点序列,因此需要指定每个节点随机游走的次数以及每次随机游走的长度。此外,还要设置相应的Word2vec模型参数,包括生成的向量维度及上下文的窗口大小、学习率的设置。主要的模型参数如表3所示。

表3 Deep Walk模型参数

3.3 实验结果

为了更好地对实验进行验证,我们对节点网络表示特征的抽取算法进行了实验对比,采用了Node2Vec和Line 两个模型作为基线模型,与Deepwalk的抽取效果进行了对比。获得训练后的特征向量后,使用LightGBM 对向量训练预测。实验结果如表4所示。

表4 三种网络表示学习方法效果

Node2Vec在Deep Walk 的基础上提供了p和q两个参数来控制随机游走的节点序列生成策略,通过调整p和q的大小来控制模型偏向于保留局部信息还是是保留广度信息。本实验中Node2Vec是采用了p=0.5、q=1参数的结果。

Line分别指定了是采用一阶相似、二阶相似、一阶+二阶相似,其中一阶相似度表示节点与直接邻居之间的相似性,二阶相似度表示节点与高阶邻居之间的相似性。从指标结果来看,用Deepwalk表示学习算法来提取节点网络表示特征的效果最好,其AUC为0.657。

3.4 不同特征组的消融实验

在特征部分,我们共选取了3组特征,节点固有特征、节点统计指标特征和节点网络表示特征,结果如图4所示。下面的消融实验从特征的角度进行实验,每组实验只保留一组特征,以观测每组特征对最终预测结果的作用。

图4 不同特征组的预测结果

实验结果表明,仅利用节点固有特征单独预测的AUC为0.614,而单独利用节点统计指标特征和节点网络表示特征的AUC 分别为0.617和0.657,均优于节点固有特征。将节点统计指标特征和节点网络表示特征同时使用,则可以获得更高的性能提升,仅次于所有特征一起使用。

可以看出,图特征尤其是基于表示学习的节点网络表示特征,相比于单纯的节点固有特征,在进行欺诈检测时预测能力更强,且网络表示学习对特征工程的要求更低,将数据处理成关联网络后,节点的图特征容易利用算法获取,避免了手工特征的大量数据分析、特征编码及降维的烦琐步骤。

3.5 不同的节点向量维度对实验结果的影响

在网络表示学习中,节点表示所生成的向量的维度大小是一个重要的参数,维度的大小需要根据不同的数据集具体调整。针对较大的数据集,如果设置的维度过小,则向量的长度不足以保留足够的原始信息,导致表达能力不足;设置的维度过小,则导致表示学习模型优化计算过程中计算量过大,也不利于后续的向量保存。

对此,本文对维度大小为64、128、192、256的向量表示进行对比实验,将Deep Walk 模型得到的不同维度的节点向量表示分别输入到Light GBM 模型进行训练,采用AUC 指标进行评价。具体的实验结果如图5所示。可以看到,在向量维度分别为64、128、192、256 维时,使用192维的向量来预测时的效果最好。

图5 网络表示学习的不同特征维度下的预测结果

3.6 不同集成模型对最终效果的影响

我们进一步研究了不同的集成模型对于模型预测能力的影响,因此我们选用了Random Forest[24]、XGBoost[25]、LightGBM[26]和DNN[27]作为对比模型。其中,RF、XGBoost、LightGBM 都属于集成学习算法,DNN是深度神经网络算法,又被经常称为多层感知机(Multi-Layer Perceptron,MLP)。

根据表5中的结果可以看到,四种模型中无论是在三部分特征组上单独训练,还是在所有特征组上训练预测,LightGBM 模型表现都是最好,其次是XGBoost。一部分原因在于LightGBM 和XGBoost这类Boosting的模型从原理层面相对于RF这类Bagging的模型可以降低预测模型的误差,另一方面,由于训练集内训练样本的特征属性值存在缺失情况,LightGBM 可以对含有缺失值的样本在分裂时计算如何分裂增益最大,进一步降低模型的损失。此外,实验结果再次证明了,网络表示特征和统计指标特征这两类图特征的加入可以提高最终模型的效果。以LightGBM 模型为例,加入的图特征可以对最终的模型AUC有0.073的AUC增益。

表5 不同集成模型的各特征组效果

3.7 特征重要度分析

为了更进一步分析节点固有特征、图特征(包括节点统计指标特征和节点网络表示特征)这两部分特征在最终模型预测中发挥的作用,本文通过特征重要性[28](Feature Importance)打分来评估,特征重要性可以给出当前模型在训练过程中特征对最终模型的预测发挥作用的程度。

Light GBM 作为一种基于树分裂的集成学习模型,本身提供了两种计算方式来评估特征重要性,分别是“Split-分裂次数”和“Gain-信息增益”,其中前者是通过该特征被用来作为树模型分裂的次数来进行排序,被选择分裂的次数越多,则代表该特征在预测过程中起的作用越大。后者是通过该特征在整个树模型构建的过程中获得的总的信息增益来排序,信息增益通过树节点分裂前后的样本分布计算得到,总的信息增益越大,则代表该特征在预测过程中起的作用越大。

为了分析图特征和固有特征在最终模型预测中起到的特征作用大小,我们计算了LightGBM 模型在所有特征组上的特征重要性,分别统计了Top10、Top30、Top50里的图特征和固有特征占比,具体如表6所示。

表6 图特征与固有特征的重要性分析

结果表明,在Top10、Top30和Top50上,图特征的占比都要远远高于固有特征,再次验证了图特征的重要性,说明加入图特征可以提高欺诈检测的效果。

3.8 与基于图神经网络方法的对比分析

端到端的图神经网络在基于图的应用研究中取得了不错的表现,因此,我们采用基于GCN[29]的用户表征学习进行了对比实验。由于本研究的数据规模较大,全图节点超过3 000万个,边的数量则超过了2.5亿条,难以在全图上实现图神经网络的计算。

为此,我们对数据做了抽样,以18 959个有标签的用户节点为出发点,从所有边数据集中抽取与之一度相连的用户节点,抽样生成的子网络共计节点2 155 286个、边2 850 165条。基于该子网络,我们采用GCN 模型,得到的AUC为0.664。根据表5所报告的实验结果,Deep Walk 模型仅采用图特征的AUC 为0.673,而采用全部特征的AUC 为0.687。

由于采用的是抽样后的数据集,所以该结果与其他模型的结果已不具有可比性,但我们也不难推断出,在图规模较大,且算力又有限的情况下,使用Deep Walk算法进行网络表示学习,与其他特征拼接仍不失为一种高效的方式。

4 结论与展望

本文将用户的特征分为节点固有特征、节点统计指标特征和节点网络表示特征三部分,通过多种方式分别进行提取。节点固有特征中的风险行为数据、标签数据、App 数据,采用特征工程的方式,如One-Hot编码、Multi-Hot编码、降维表示等方式转化为向量表示。同时,利用通话数据构建关联网络,一方面利用网络表示学习方法,得到关联网络中每个节点的向量表示,作为一部分图特征。另一部分图特征则是利用网络中常见的节点统计指标来计算,对提取的图特征和固有特征进行融合,使用机器学习模型LightGBM 进行训练和预测。这两类方法均充分利用了图的拓扑结构信息和节点的邻居节点信息,弥补了在检测团伙欺诈过程中固有信息不足的问题。实验证明,相对于只使用固有特征,融合图特征的模型取得了更好的效果。

目前,我们对关联网络的使用仍是有限的,本研究中主要是利用了节点和边的基本信息,在接下来的研究工作中,我们将尝试利用关联关系中更丰富的数据来进行检测。另外,考虑到欺诈样本的数量较少,我们也会深入探究基于深度图卷积神经网络的半监督学习,在少量欺诈样本的情况下更准确地判断欺诈风险。