基于信任模型的URL钓鱼检测机制
2018-11-01徐欢潇
徐欢潇
摘要:网络钓鱼识别是近几年来网络安全研究的热点。本文充分说明了网络钓鱼研究的必要性,并给出了基于信任模型的URL钓鱼检测机制,该信任模型更新了黑/白名单,在一定程度上提高了URL钓鱼的检测率。
关键词:网络钓鱼识别;安全;信任模型
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2018)18-0031-02
网络钓鱼是近年来新兴的一种网络犯罪手段。钓鱼者通常先给用户发送大量的声称来自银行或者是知名机构的垃圾邮件,把用户引到精心设计好的钓鱼网站上,诱骗用户给出自己的银行账号、密码等敏感信息,从而获得巨大的经济利益。[1]
目前,被应用并取得较好成效的、有影响力的反网络钓鱼技术,多数采取浏览器内置反钓鱼功能或者浏览器插件的形式来保护用户的访问安全。与此同时,反钓鱼的浏览器插件也为防止用户遭受钓鱼者的恶意攻击做出了很大贡献。
本文在黑白名单过滤的基础上,通过信任模型检测使得黑白名单得以部分更新,在一定程度上提高了URL钓鱼的检测率。
1 方法介绍
1.1黑/白名单
黑名单是设置不能通过的用户,黑名单以外的用户都能通过。黑名单启用后,被列入到黑名单的用户(或IP地址、IP包、邮件、病毒等)不能通过。具体地说就是当用户要访问一个网站的时候先去“黑名单”库对比一下,如果发现有匹配的则是钓鱼网站,由于黑名单技术无须机器学习或者特征识别,所以速度很快,可以说在一定范围内时有效的,但是靠黑名单检测出的都得是和黑名单数据库里的完全匹配,这很有可能让攻击者钻空子。而且由于技术方面的原因,黑名单很多时候是得不到较为及时的更新也是个很大的问题。
白名单是设置能通过的用户,白名单以外的用户都不能通过。所以一般情况下白名单比黑名单限制的用户要更多一些。如果设立了白名单,则在白名单中的用户(或IP地址、IP包、邮件等)会优先通过,不会被当成垃圾邮件拒收,安全性和快捷性都大大提高。
目前很多研究人员采取的是无恶意的地址的白名单优先通过的技术结合黑名单技术。
基于此,本文提出了基于信任模型的URL钓鱼检测机制,该方法旨在通过信任值的判断来把可信任URL加入已知的白名单,而把信任值极低的URL加入已知的黑名单,一定程度上更新了黑/白名单,便于用户安全上网。
1.2信任模型
分布式动态信任模型作为适用于云计算环境下的访问管理机制已经得到广泛研究,云模式下的服务,使得分布计算和并行计算变得易于部署和实施。基于此,本文将其运用于URL钓鱼检测。
待URL进行黑白名单过滤后,对其进行特征提取。根据不同特征的特点,进行分组,每组给定一个信任值(一个无公害数据初始值),然后进行信任值的累加,若累加后的值超过阈值则证明该特征集是可信任的,把该特征集相对应的URL加入白名单,否则进行综合信任计算。
1.3检测模型
1)特征提取
对经过黑白名单过滤后的URL进行特征提取,特征分为:文本内容的特征,视觉内容的特征和网页链接結构的特征。
文本内容指的是出现在某一给定网页的术语或者单词。一般都先从HTML中分离出文本内容,然后对产生的每一个单词进行特征比对;视觉内容指的是相对于整体风格、布局和块区域(包括标识、图像和表格)的特征。视觉内容还可以进一步地理解为网页背景的颜色、字体大小、字体样式以及图像和标志的位置;拓扑内容指的是用户访问网页或者连接到其他网页所使用的特征,涉及给定页面的网址和超链接。
2)信任评价
URL特征提取并进行分组,每组给定一个信任值,假设给定一个中间量的初始值,后期通过对用户上网行为的判断,进行相对应的信任累加(可以是正数也可以是负数)。当累加的信任值[Rep]达到给定阈值R,则认为该URL是可信任的,将其加入白名单。否则,进行综合信任计算。本文将信任值区间设为[0,1],即[Rep?[0,1]]。其中阈值R的选取方式参照[2],加权平均后取R=0.7。
将信任值低于阈值R的特征集进行综合信任计算,通过直接信任可靠度和推荐信任可靠度动态调节权重因子,如果直接信任更加可靠,则直接信任占有更大比重;如果推荐信任更加可靠,则推荐信任占有更大比重。[3]
综合信任由直接信任和借鉴信任构成,定义如下:
[Rep=aDTRep+(1-a)RTRep]
其中,a表示直接信任权重,由以下公式计算得到:
[a=CTRep-DTCTRep-DT+CTRep-RT]
如果[Rep]的值低于r(信任值下限)则将其加入黑名单。在大量的实验数据中,r值的选取经过反复测试,我们选取了下列三个数值以展开进一步分析:r=0.1,r=0.2,r=0.3。大量具有重复性的结果均表明:当r[ ?[0.1,0.2]]时,筛出率呈现上升趋势,而当r[ ?(0.2,0.3]]时,筛出率呈现下降趋势,如图1所示。显然,转折处r=0.2是一个具有代表意义的典型特征结果,故本文选取的信任值下限为0.2。
注:综合信任满意度[Rep];直接信任满意度[DTRep];推荐信任满意度[RTRep];直接信任可靠度[CTRep-DT];推荐信任可靠度[CTRep-RT]。
3)检测过程
对于一个待检测URL,在本模型中的检测过程如图2所示:
①输入待检测URL;
②通过黑白名单过滤器识别该URL是否在已知的黑/白名单中,如果在则可直接判定其为钓鱼/合法网站并介绍程序,否则进入③;
③URL特征提取并进行分组,每组给定一个信任值,通过信任模型判断每组特征集的信任值是否达到阈值R,如果达到阈值R则该URL是可信任,将其加入白名单,否则进入④;
④未达到阈值的进行综合信任计算,如果信任值低于r则将其加入黑名单。否则进入⑤;
⑤其他过滤器进行过滤处理。
2 实验
本文从实际钓鱼攻击收集了大量的网络钓鱼,这些数据均来自PhishTank[4]。选取了10000个已知黑名单中的URL、10000个已知白名单中的URL以及5000个不在已知黑/白名单中的URL作为测试集,进行三层过滤:第一层黑/白名单过滤后识别率为80%;再经过第二层信任模型过滤后加入了新的白名单成员,识别率约为84%;最后经过第三层综合信任模型过滤后又加入了新的黑名单成员,识别率约为88%。一系列可靠实验的结果表明,上述检测过程,在一定程度上更新了黑/白名单,使得整个URL的检测率得到了相对有效的提升。
3 小结
本文提出了一种新的基于信任模型的URL钓鱼检测机制,通过对信任值的评价,将信任值高于阈值R的URL加入已知白名单,将信任值低于r的URL加入已知黑名单。即通过该信任模型更新了已知黑/白名单,在一定程度上提高了URL钓鱼的检测率,便于用户安全上网。
未来,我们仍需投入大量的工作,展开更为深入的研究。
参考文献:
[1] APWG. What is Phishing and Pharming?[EB/OL]. http://www.antiphishing.org.
[2] 刘健,赵刚,郑运鹏. 恶意URL多层过滤检测模型的设计与实现[J].信息网络安全,2016(1):75-80.
[3] 游静,上官经伦,徐守坤,李千目,王印海. 考虑信任可靠度的分布式动态信任管理模型[J]. 软件学报, 2017,28(9):2354?236.
[4] https://www.phishtank.com/.