基于大数据挖掘技术的诈骗用户识别与系统研究

2022-07-08王薇钠卢忠渭张坚吴俊王振东

电子技术与软件工程 2022年2期

王薇钠卢忠渭张坚吴俊王振东

（中国电信股份有限公司杭州分公司浙江省杭州市 310005）

随着电信诈骗犯罪形式的逐年递增，公安系统也逐渐开始完善其大数据发展战略，综合打造核心的互联网信息综合平台，从政策分离到后期的信息链接，再到最后的大数据增强过程，都对案件的诈骗过程综合整理过程做出了具有建设意义的贡献。通过大数据技术开展电信诈骗的侦查工作能够适应和应对时代的快速发展需求，通过技术处理、深度挖掘以及项目侦查的过程能够有效的预防和打击违法犯罪活动，刑侦业务和信息技术的深度融合成为了刑侦部门提升核心战斗力的核心关键。

1 电信诈骗的基本概念和表征形式

1.1 电信诈骗的概念

电信诈骗过程主要是基于通信技术和信息化技术开展而来，在信息技术不断更迭的背景下，很多学者也结合着社会目前的现状对电信诈骗进行概念界定。其主要内容是指犯罪嫌疑人为了非法获得相关财务，通过电话、短信以及网络等方式向被害人传递虚假信息的过程，由此来诱导被害人主动交出财务的诈骗行为。

1.2 电信诈骗的表征形式

随着电信诈骗案件的频发，犯罪人员在功能组成、手段模式以及犯罪类型上呈现出一种多元化的犯罪模式，同时也存在一些的共性特征。

（1）案件涉及人员数量多，涉及金额较大。电信诈骗的案件通常关联到诸多的犯罪人员，这是典型的经济诈骗过程，大多数采用的都是团体作案的形式，人员分工较为密切，不仅涵盖各类技术部门，同时在各类的系统维护以及后勤保障上都有一定的维护过程和功能。

（2）受众群体逐渐趋向于年轻化发展，从受害者的角度来说，电信诈骗的过程往往是通过“广泛撒网”的技术手段进行诈骗，通过在某一段时间内或者是某一地区内进行密集的电话和短信传播过程来实现基本的网络传播活动，导致受害者涵盖社会发展的各个阶层，波及面域较广，同时社会影响较为恶劣。对于基本防范意识较为薄弱的人来说很容易会上当受骗，部分年轻群体社会经验较为不足，对电信诈骗的基本防范意识较为薄弱，成为被骗群体的高发人群。

（3）职业化和地域化的发展特点较为突出。从案件侦破的角度来说，电信诈骗的犯罪行为逐渐趋向于是职业化和地域化的范畴之中，这类犯罪的过程具有着非正面接触并且隐蔽性较强的特点，同时犯罪的周期也较短，涉及到的案件金额较大，犯罪成本较低的特点。进而逐渐形成了职业化甚至是地域产业化的形式。

（4）诈骗的类型和形式较为多样化，涉案人员通过伪造身份以及设定假活动等形式来诱导受害者，并且诈骗手法紧紧抓住受害者的心理活动和时代热点，流动性和机动性较大，为办案人员带来了巨大的办案难度。

（5）侦查的取证过程较难，信息数据流动过大，导致案件的实际可操作性不强，目前电信诈骗的案件取证过程主要集中信息流的调配以及资金流的查明等环节上，在网络空间的形式案件中，电信诈骗所遗留的信息痕迹和信息种类类型较多，各个证据和信息流之间有着较为密切的关系，关系网较为复杂，对传统办案人员的关联性思维要求较高，进而导致证据的收集过程和收集途径较小，实际的可操作性不强。

2 电话防诈骗模型建设流程

目前针对电信诈骗的号卡治理主要是基于名单库和业务规则两种方式进行研判。第一种通过黑白名单机制进行号卡过滤的方法，其有效性主要依赖于名单库的实效。常用的黑白名单数据来源包括并不限于公安部门涉案通报、用户举报等。这类名单库通常是在事后再进入系统，研判的实效性和涉诈号卡捕获的全面性都有明显的短板。另一种是基于历史黑名单进行业务数据分析，提炼出地域属性、频次属性等的强业务规则，这类业务规则的研判方式都充分依赖于专家经验，存在着维护困难、拦截准确率不可预估等问题。

同时在市场化的应用进程中还有一类相关反诈平台，为受骗高危人群提供了自动呼入劝阻、预警电话服务。这类平台的应用进程主要是从受害人预警机制出发，从底层架构上减少民众的受骗概率，对此系统的设计需要关键解决诈骗电话的源头进行综合识别，综合预测不同种类的问题。

考虑到上述现状方案的劣势，在系统的设计过程中综合应用了数据挖掘和大数据分析的相关方法，提出了基于话务数据的准实时诈骗电话识别模式，改进了现有诈骗电话研判方案当中所存在的延时性高、精准度低等问题。此外，提供一种大数据反诈分析管控系统，为通信运营商搭建反诈管理平台、实现反诈工作的智能化运营和管理等过程提供了一套切实可行的建设方案。最后对于系统方案和历史方案设计过程进行对照组实验，综合评判模型的真实实验结果，验证了方案设计的合理性，提升诈骗电话治理的时效性、精准性。

相比于传统的名单规则事后处置过程，设计的反诈系统能够为用户提供诈骗电话的事前拦截服务，有利于提升通信运营商的服务水平、服务质量以及用户满意度。另一方面，作为运营商设计和落地智能化的涉诈电话卡话务行为分析和识别方案，可直接提升网内反诈管控工作的成效、提升防范打击治理效能，承担了净化通信网络环境的社会责任。

3 准实时诈骗电话识别方法

整体实时数据的实现流程进行综合评析时，数据的分类形式涵盖“离线数据”以及“近实时”数据两种主要数据类型，依据数据的不同种类进行分别的数据处理，数据处理过程如图1所示。

图1：实时预测的实现流程

同时对涉诈号码的实时识别控制系统进行综合设计，涵盖特征抽取器以及模型训练等过程，其识别方法如图2所示。

图2：准实时诈骗电话识别方法

对此具体的实施过程和方法步骤主要涵盖：

步骤1：有效样本筛选

为了减少计算特征的时间消耗以及减轻数据样本不均衡的情况，通过属性关联挖掘社区发现（community detection），专家咨询等手段初始筛选出欺诈样本占比更高的样本子集，在此基础上进行后续计算步骤。

步骤2：特征计算

上述数据按照手机号码归并，数据每小时进行离线计算得到多维特征，并将多维特征进行行为融合，生成候选特征矩阵X，用于后续步骤的模型训练和预测。

步骤3：模型训练

将步骤【2】计算的特征，分成K组(K-Fold)，将每个子集数据分别做一次验证集，其余的K-1组子集数据作为训练集，使用随机森林算法进行模型训练，随机森林是是将多个决策树的结果进行集成，每棵树都随机选取部分数量的特征以及部分数量的特征属性进行决策，最终结果由多颗决策树投票产生。该模型根据softmax损失函数对于模型参数进行优化，使得最终对于训练数据的预测结果与所提供的标签差异最小。

步骤4：调参及评估

使用precision，recall，F1score等多个评价指标对步骤【3】模型预测结果进行评估，模型输入的特征由不同类型的特征组成特征候数据集，{X1,X2,X3,X4}多种类型特征组合并输入到模型当中，并使用网格搜索，随机搜索等超参数搜索方法进行模型参数优化，和特征筛选。并将训练完成模型文件输出PMML文件保存，用于预测。

步骤5：模型结果预测

将新增号码及特征输入已训练的模型，得到该目标为异常的预测概率P，根据概率P与阈值对于目标进行风险类别判断。为增强模型的可解释性，利于前线运营人员排查原因，本系统利用eli5工具计算得到各特征的贡献度，通过贡献度可以有效提炼目标异常的特征以及判定原因，并有助于专家进行进一步地解读。

4 案例实施

本文以异常漫游涉诈场景为例，重点阐述了系统准实时诈骗电话识别方法在该模式下的实施步骤和实验结果，实施流程为：

4.1 有效样本筛选

首先需要解决涉诈号码检测问题中通常存在的不均衡样本问题，即：正负样本比例差别很大，原始数据中的正常用户占比要远高于涉诈样本占比，不均衡样本处理的好坏也会直接影响到检测效果。机器学习方法论中有丰富的数据采样方法进行样本处理，算法层面也有诸多对损失函数的优化方法来弥补数据的不均衡。同时还要在系统的设计过程中提供基于业务层面的样本筛选方法，初始筛选出欺诈样本占比更高的样本子集，在此基础上进行模型训练。一来减少了模型训练的资源消耗，二来将原始数据的极度不均衡样本问题转化为了样本子集的轻度不均衡、减少了数据处理难度。

通过话单数据的探索性分析发现，语音和流量活动的沉默周期、活跃周期在正常用户和涉诈用户之间的分布差异较大。语音沉默周期为一个月到两个月之间，涉诈用户的占比是正常用户占比的1.98倍。类似的，流量沉默周期为14天到1个月之间，涉诈用户的占比是正常用户占比的1.2倍。

按照连续活跃天数来定义活跃周期，按照诈骗电话号码从进入活跃状态，到暂时停止连续活跃之间的天数计算活跃周期。诈骗号码的活跃周期明显小于正常号码。82.4%的诈骗号码最长连续活跃天数不超过7天，94.0%的诈骗号码最长连续活跃天数不超过30天；而仅7.25%的正常号码最长连续活跃天数较低，不超过7天，有62.88%的正常号码连续活跃天数都超过了30天。

由此，样本筛选上采用语音沉默30天或流量沉默14天或连续活跃天数不超过7天来筛选出待预测的疑似涉诈用户。负样本占比从千分之一扩展到了20%以上，样本不均衡性明显减弱，且根据过去12个月的历史数据验证，筛选掉的均为正样本。

4.2 多维特征画像

首先，分别根据通话、短信、流量、地域四个维度进行用户画像提取特征，再分别基于目标变量进行特征筛选和模型训练。通话特征主要反映通话频次和行为，包括：每3小时主被叫通话次数、每1小时主被叫通话次数、每日主被叫通话次数、每日主被叫应答时长的统计指标等，共20维特征。短信特征主要反映短信频次和行为，包括：每3小时发送/接收短信次数、每1小时发送/接收短信次数、每日发送/接收短信次数等，共7维特征。流量特征主要反映流量使用行为，包括：每日上下行流量的活跃时长、流量持续活跃时长，流量活跃的基站数量等，共9维特征。地域特征主要反映跨地区的话单活跃行为，包括：主叫号码基站离散度、被叫号码基站离散度、单日漫游主叫的次数等特征等，共21维特征。

其次，在多维度融合模型中，还加入了同时考虑两方面数据合理性的跨维度特征，包括：通话、短信、流量活跃天数的一致性，通话漫游、短信、流量漫游地的一致性，共6维特征。

4.3 模型训练

随机森林算法是一种基于boosting的集成树算法，是解决监督问题的高效算法之一。基于随机筛选样本、特征的原理，随机森林算法的计算效率更高。基于集成算法的多数投票原理，节约了对数据进行WOE分箱的前处理步骤，预测结果也保持稳定。随机森林算法的训练分为两个步骤：基于学习器的生成和基于学习器的集成。

本发明中基学习器的生成为训练决策树模型的过程，采用训练CART树的方法。其结点划分值所依据的损失函数的表达式为如下的基尼系数，表示从样本中有放回的抽取两个样本，类别不同的概率。

使用样本训练CART树，其中的基尼系数可以表示为：

机器学习器的集成方法有多种，不同的集成方法构成不同的算法。随机森林算法的集成方法为Bagging，采用抽样、投票形式进行多个学习器分类结果的加权平均组合。假如特征空间共有D个特征，从D个特征中随机选择其中的d个特征（d

采用pmml文件形式进行模型参数固化和存储。提炼特征贡献度前3的重要特征，进行模型结果解读，重要特征在涉诈号码和正常号码人群中的特征值分布差异明显。验证模型具有良好的数据处理效果。为了增加机器学习模型的可解释性，便于前线运营人员排查单个样本的被识别原因，采用了Eli5算法进行黑箱模型的预测解释。由于入模的特征维度多、不同诈骗团伙的异常表现不同，不同的样本被判定为负样本的原因不同。通过最强贡献度标签，可以直观的了解该样本相比于其他白样本的主要异常点。按特征贡献度倒序排列，贡献度前几的特征，为影响样本分类结果的主要特征。由此，对每个预测样本，都可以输出对应预测标签的一个或多个最强贡献度特征。

5 结语

近年来，移动数据通讯领域内的诈骗活动较为严重，虽然在各个层面上都开展了相关的解决和预防措施，但是未从根本途径上解决诈骗问题。数据挖掘及其相关技术为解决电话诈骗提供了全新的解决思路和技术方案，专门针对运营商的话务业务进行反欺诈风险识别，涉及了基于话务行为的诈骗电话识别方法和反诈管控平台的系统设计。有效的将数据信息和通讯过程部署在数据链条当中，在保证了用户基本数据安全的基础上，杜绝了危险数据信息的传输过程，建立了良好的通信过程，防止骚扰和诈骗事件的发生。但是本文设计的相关系统和算法还存在着许多挑战，主要涵盖算法本身的局限性以及二者结合之后的制约因素，这些都需要在不断完善去中心化操作后才能够促进整个系统完整运行，这些都会为监管过程带来一定的挑战，同时这也是未来系统设计和优化的重点所在。