APP下载

垃圾短信分析及治理技术研究

2022-07-16刘诚陈曦吴文波

广东通信技术 2022年6期
关键词:网址短信诈骗

[刘诚 陈曦 吴文波]

1 引言

垃圾短信多年来一直是社会顽疾,诈骗、赌博、色情、骚扰、报复、暴力、广告等垃圾短信的泛滥,扰乱他人安宁生活、败坏社会风气,给用户、运营商和社会带来很大的危害。

电信运营商作为垃圾短信治理的主体,近年来一直在与垃圾短信进行斗争,并取得了一定的成效,有效遏制了垃圾短信泛滥的局面。但目前的整治效果离用户、社会和政府的期望还有一定的差距,需要电信运营商担负起更大的社会责任,在现有治理成果的基础上进一步加大整治力度,更好地保护民众的隐私和财产安全,还用户一个清朗空间。

2 垃圾短信的概念和类型

2.1 垃圾短信的概念

垃圾短信是指未经用户同意而发送的用户不愿意接收的短信,或用户不能根据自己的意愿拒绝接收的短信。垃圾短信有以下4 个方面特点。

(1)短信内容不合法。短信中含有诈骗内容、暴力色情内容、钓鱼网站链接等违反法律、法规的内容。

(2)短信成批量发送。垃圾短信发送者通过手机、互联网或者消息群发器,针对一个或者大批量的手机号码批量群发,实现广告推广或轰炸骚扰的目的。

(3)违背接收者的主观意志。部分商业短信未经过短信接收者的同意而发送,且含有强制性的服务条款,违反了《通信短息服务管理规定》的规定。《通信短息服务管理规定》明确规定商业短信服务提供者必须给与短信接收者选择权,明确清楚告知用户如何拒收此短信,也就是我们日常在接到各类网购或商家短信最后显示的“回复TD 退订”此类字眼。

(4)客观上对信息接收者造成骚扰。大量垃圾短信,不但影响用户正常工作和生活,还会影响手机的正常使用。

2.2 垃圾短信的类型

垃圾短信形势、内容复杂多样,大致可分以下几类。

(1)政治类

政治类短信主要是境外反华势力为实现分裂中华民族所采用的手段,发送号码多为境外号码,通过发送的颠倒黑白、诋毁国家、破坏民族团结等信息,影响社会安定、民族团结。

(2)欺诈类

欺诈类短信以骗取用户钱财为目的,主要手段为冒充领导、亲人、朋友加微信、冒充银行政务平台、编造中奖信息等,短信内容一般附带微信、QQ、电话号码、非法网络链接。用户一旦中了圈套,轻则泄露个人身份和银行卡等信息,重则面临巨大的财产损失。此类短信危害最大,是治理的重中之重。

(3)骚扰类

骚扰类短信内容主要是催还款、教育推广、淘宝求好评、房产装修广告等,发送号码多为点对点。此类短信危害性相对诈骗短信要轻,但特别让人反感且容易引起用户投诉。

3 垃圾短信治理技术研究

针对目前垃圾短信形式多样、快速变化且危害巨大的情况,某运营商在传统的主叫号码黑名单屏蔽、短信内容关键字过滤的基础上,还使用了以下几种新技术进行垃圾短信治理,并取得了很好的治理效果。

3.1 实时滑动窗口分析技术研究

在垃圾短信防治工作中,短信行为是判断一条短信是否为垃圾短信的重要依据。以前的技术只能对过去1 小时甚至更长时间内的短信行为进行分析和聚类,但此技术有两大缺点,①计算效率低下;② 因为计算滞后导致错过最佳治理时效,所以治理效果很一般,很容易让垃圾短信群发者找到拦截漏洞。

为了解决此问题,某运营商在垃圾短信防治系统新采用了实时滑动窗口分析技术,将原本需要1 小时后才能准确计算的发送行为,压缩至分钟级甚至秒级,极大减少行为分析采样所需要的时间,有效缩短计算延后窗口时长,为治理诈骗短信争取到宝贵时间。

实时滑动窗口分析是一种改善海量数据时间窗口计算的优化算法。其基本原理是,系统将时间窗口拆分成固定个数的小时间窗口,且通常将时间窗口及计算结果保存在内存中以提高系统性能。以5 分钟时间窗口为例,假定单位时间窗口时长度为1 分钟,系统计算5 分钟短信发送行为需要在保留5 个单位时间窗口,当系统计数到第6 个时间窗口时,从前5 个单位时间窗口快速汇总分析计算出5分钟短信发送行为后并丢弃第一个时间窗口,后面的分析依此类推。滑动窗口实时分析技术原理,如图1 所示。

图1 基于时间窗口的滚动计算示意图(滑动窗口)

采用滑动窗口实时分析技术从全量信息中动态计算主被叫号码离散系数、发送时序、归属地分布、内容特征等,实时分析高达数十万维特征信息,系统通过决策树等多个智能算法综合判断疑似诈骗短信行为及发送号码。系统不内置任何特定关键词、号码及诈骗信息判断标准,而是实时从当前海量发送信息中分析和学习信息发行为及特征并聚类分析,进而实时发现全新的诈骗短信内容及号码源。某运营商基于自研的实时大数据分析框架,实现实时拦截与主动发现并行分析,高效解决诈骗短彩实时治理中的趋势分析与策略发现及时性等关键问题。

3.2 木马病毒短信防治技术研究

木马病毒短信有两个基本特征:①内容中含有网址;②群发传播行为。用户点击病毒短信中的网址,将触发病毒短信执行其后续破坏策略,如恶意扣费、耗尽流量、读取通讯录自我扩散等。

某运营商根据木马病毒短信上述两个特征,通过判断网址是否正常、木马病毒智能拦截、病毒短信联动封堵、病毒短信智能提醒和病毒短信联动协同手段,如图2 所示。

图2 智能预警、智能拦截、智能联封、智能提醒和智能协同等5 个智能化模型

下面就这几种手段进行说明。

(1)对短信中的网址进行分析,判断网址是否包含木马病毒

① 网址提取:提取短信内容中的网址,积累成网址标签库,初步评定这个网址的嫌疑级别;

② 行为分析:针对上述网址,根据其初定嫌疑级别,进行行为跟踪分析,若呈现“网状发送形态”,则可标定其嫌疑级别为“高”;

③ 网址检测:若含有网址短信发送不具有“网状发送形态”,或者不明显,则通过网络爬虫爬取相应网址网站内容并进行检测(或通过接口调用具备此功能的系统)。

(2)木马病毒智能拦截

根据病毒短信分析预警结果,建立两个针对病毒短信的样本拦截样本库:

① 利用嫌疑级别为“高”的病毒短信告警信息构建黑内容样本库,实现基于与库样本文字匹配分析拦截;

② 利用嫌疑级别为“高”、“中”的病毒短信告警信息构建智能分词样本库,实现基于与库样本相识程度分析拦截。

(3)病毒短信联动封堵

根据病毒短信分析预警结果,把嫌疑级别为“高”的网址推送至WAP 网关,实现联动封堵,避免网址被更多用户访问,从而掐断手机病毒破坏性触发的途径。

(4)病毒短信智能提醒

根据所建立的网址标签库,分析识别出手机中毒用户,并主动向该用户发送一条告知信息(含中毒情况和处理方法等),以提升用户感知。

(5)病毒短信联动协同

通过邮件、短信等方式把病毒短信预警信息、智能拦截情况、联动封堵情况、智能提醒情况等推送至10000 号、12321 等部门实现信息共享。

通过构建智能预警、智能拦截、智能联封、智能提醒和智能协同等5 个智能化模型,实现全流程一体化,自动发现并过滤病毒短信,消除用户手机中毒的安全隐患,降低社会危害。在各类消息安全监控系统应用场景中,极大提高了病毒短信的识别准确率,为遏制病毒短信传播提供了可靠的技术保障。

3.3 基于贝叶斯算法内容分类技术研究

诈骗短信发送者通常会囤积大量号码,在群发诈骗信息时,会依据短信回执或发送至内部测试卡中测试是否可成功发送,如发送失败及时调整发送内容,因此使得传统的黑名单策略、流量限制策略和关键词策略收效甚微。

针对这种情况,人工首先收集大量诈骗样本信息,然后根据样本信息进行分类(贷款类、ETC 类、招聘类、中奖诈骗、冒充熟人、航空诈骗等),在垃圾短信防治平台中建立丰富的诈骗信息样本库。在诈骗信息样本库建立完成后,平台对新收到的短彩信,通过贝叶斯算法、词向量等文本语义分类算法与样本库进行相似度匹配,识别诈骗信息,通过设置不同的拦截相似度,实现对类型相同但内容频繁变换的短信实行智能拦截,如图3 所示。

图3 诈骗信息智能拦截处理示意图

根据条件概率和朴素贝叶斯算法的假定,计算未知样本在各类中的后验概率:

后验概率的最大值所对应的类即为该未知样本的分类:

由以上步骤可知,朴素贝叶斯分类模型的实现,主要分为4 个部分:

因此,可以根据训练集来计算某已知文本类的先验概率,再计算其后验概率,对后续新的文本类进行分析预测,在已知的分类概率的条件下,由此可得待处理文本属于某一类概率值,最后取其中的最大值,将待处理文本归类到最大值的那类中。需要说明的是,类别之间是相互独立的,模型具有收敛性。朴素贝叶斯算法阈值分类流程如图4 所示。

图4 朴素贝叶斯算法阈值分类流程图

贝叶斯算法速度较快、正确率较高,但也存在误判的情况。算法基于条件独立性假设,认为每个属性对类属性影响相同,但事实并非如此,有些属性对分类影响大而有些属性对分类影响较小。如果把与分类无关的、冗余的以及被噪声污染的属性和其他属性视为同等地位,将会导致分类的准确率下降。

为减少属性间的影响,引入以基本短语为单位的分词方法。结合基本短语构成算法,并根据基本短语的定义实现由词到基本短语的转换。

实验结果:

为清晰表达比较结果,引入了几个参数,定义如下。

SP 反映垃圾短信过滤系统的可靠性,侧重安全性;SR 反映垃圾短信过滤系统的效率,侧重有效性;F 则综合两者的指标,侧重综合性能。

以短信为例进行试验,其中正常短信1032 条,垃圾短信375 条。以短语为单位得到特征项数为20783,其中BaseNP(基本名词短语)为13 542,BaseVP(基本动词短语)有7241 个,而以词为单位得到特征项数为173 657。这样降低样本空间规模,缩减计算量,提高系统效率,如图5所示。

图5 按词分析、按短语分析效果对比图

4 结束语

本文介绍了垃圾短信概念和类型,并详细介绍了某运营商在垃圾短信治理中所使用的技术。某运营商判断今后垃圾短信发送会呈现出的场景化、精准化、智能化的特点,此外随着5G 消息的商用,融合语音、图片、视频等内容的短信越来越多,这也给治理带来了更大的挑战和困难。某运营商在今后的垃圾短信治理工作中,将引入人工智能等技术,提高场景化语义分析能力,并增加语音、图片、视频的分析能力。

猜你喜欢

网址短信诈骗
特别提醒:收到这条诈骗短信,千万不要点!!
启 示
本刊网址变更通知
诈骗
火眼金睛快速显示链接的网址
道歉短信
远程诈骗
代发短信
短网址服务系统的实现及相关技术研究
诈骗