APP下载

基于内容提取的短链接生成算法研究

2014-03-19高一男

网络安全技术与应用 2014年2期
关键词:网址钓鱼站点

薛 富 高一男

(中国人民公安大学网络安全保卫学院 北京 100038)

0 引言

随着微博获得了高速发展,短链接服务也更加活跃。短链接在方便了人们在微博等平台上进行分享的同时也带来了诸多风险。由于短链接中不含有任何的目标网站信息,以至于人们将无从知晓该短网址究竟会带我们走向哪里。许多的网络钓鱼犯罪分子通过在用户界面张贴一个通向钓鱼网站的“短网址”,然后微博平台便自动将这恶意短网址分发给该用户所有的好友。由于这些社交网络平台用户间的信任关系,他们更容易点击这些恶意的短网址,最终引入这些钓鱼网站,被窃取个人敏感信息如身份证号、银行卡号、密码等,最终造成个人财产损失。

本文提出了一种新的短网址生成方法,通过在生成过程中分析目标网站的特征,并将其嵌入短网址中,建立起该短网址与目标网站URL之间的一种联系,使用户在点击短地址之前便能够知晓目的网址的部分信息,并提高对网络钓鱼的警惕性。这将有效的遏制网络钓鱼犯罪分子肆无忌惮的利用短网址欺骗用户的行为,对从源头减少恶意链接的生成、规范短网址生成服务提供有效借鉴。

1 短网址服务

短网址服务通常包含短地址生成过程和地址重定向两个过程。短网址服务提供商会提供一个包含脚本的界面,该脚本包含请求缩短的长地址,系统经过滥用预防、URL过滤、垃圾预防、URL验证等检查之后会生成一个随机字符串,并将该 ID与目标地址以某种形式存储在数据库中,并返回与该ID相关的短地址。当用户访问该段地址时,系统就可以通过 301、302或META转向等域名重定向技术将访问当前短网址的用户引导至目标网站。对于短地址 www.shorturl.com/8kiR21o,“www.shorturl.com”即是服务网站,8kiR21o 则为编码后的ID。

2 网络钓鱼新形式

由于生成后的短网址与目标网站在内容上不存在任何联系,导致用户无法根据该短网址猜测目的URL。因而,网络钓鱼分子便利用这一弱点实施网络诈骗。网络钓鱼分子会通过微博等平台发送一条包含指向钓鱼网站的短网址,并生成这是一条合法的地址,通过优惠、打折等相关词语吸引其他好友的点击。其他用户收到该信息以后认为这是将指向一个合法的购物或银行网页如淘宝、当当、工商银行等,实际上这个网址却转向了仿冒的网站。目前,传统的黑白名单方法无法在第一时间发现并提示用户安全风险,而机器学习来检测钓鱼网站的方法也因短链接的随机性而无法提取出有效的特征。

3 内容相关短链接生成算法

基于内容的短链接生成算法通过构建目的网址与生成的短网址的一种联系,使得在地址得到缩短的同时,用户能够在短链接中猜测到目的网址的部分内容,从而达到防范网络诈骗的目的。算法主要思想来源于阿拉伯语中不包含短元音,却同样可以用于交流而不会产生障碍。因此,我们尝试将去掉元音的关键信息融合进短网址中,使得用户在去掉元音的时候仍能够猜测目的网址;同时添加一标志位用于存放对目标网址预处理的结果,便于其他组织对该链接进行自动化检测。

3.1 生成算法

首先提取目的网址的站点名称。这里的站点名称指URL中排除了协议、顶级域名、路径等之后最能体现目标网站类型的部分。例如:“http://tieba.baidu.com/index.html”这一链接,我们将首先提取域名部分“baidu.com”,然后提取站点名称“baidu”,这一过程可以使用正则表达式直接实现。然后通过去掉元音字母、数字和连接符的方法来生成一个简短的相关词。上文中站点“baidu”去掉元音“ai”、“u”后会得到相关词“bd”,并将其全部转换为小写。当站点名称没有任何辅音的时候我们将会通过其他附加规则来生成相应的词。如网易站点163将使用相关词“3N”,大写字母“N”表示数字类型,3表示所含数字个数。

检查相关词的登记信息。当用户使用长地址缩短服务时,将首先检查该目的 URL是否已被注册。如果目的地址已被注册,则直接返回相应的短链接。如果目的地址或相关词未被注册,则对该相关词进行增量计数。生成的结果将包含相关词和计数两部分,确保不同站点的相关词得以区分。例如百度公司“www.baidu.com”和美国BD公司“www.bd.com”将根据请求短网址服务的先后顺序生成“bd_0和bd_5”。相同站点下的链接将通过对其内部ID进行编码区分。生成链接检查标识。在提供短网址服务时同时将对目的链接进行简单的安全性检查,检测其是否含有钓鱼网站特征,并在短网址中添加一个标志位,既能便于用户了解更多的安全性信息,又能方便第三方组织根据该特征位实现自动化检测。首先将检测目的地址是已经是短链接,若是则进一步判定其是否为本站点提供的短链接,为本站点提供的短链接则提取标识位,否则还原其目的地址。下一步对目的URL检测钓鱼网站特征。如O代表普通网址,I表示链接为IP地址,P指示使用非标准端口,H表示含十六进制编码等。最终“http://tieba.baidu.com/index.html”将被缩短为为“www.shorturl.com/bd_0OiR21o”,而“www.bd.com”将被缩短为为“www.shorturl.com/bd_5OeR4to”。

3.2 结果分析

我国的网址命名一般按照拼音、谐音、英文含义等方式将单位或组织名称嵌入域名中,如拼音形式的“baidu.com”“renren.com”,谐音形式的“sina.com”“vancle.com”,以及简写“ruc.edu.cn”等形式。这样做符合人们的阅读习惯并方便人们记忆。而我们所研究的去掉元音保留辅音的方法和人们常用的使用拼音的首字母代替该汉字有相似之处,人们可以很自然地根据缩短的相关词去推测其全文含义,而不需要过多的加以引导。例如“baidu”缩写为“bd”、“renren”缩写为“rnrn”,“vancle”缩写为“vnl”。

常见的钓鱼网址类型,通过该生成算法得到的短网址和被仿冒网站生成短网址有较好的区分度。而高明的钓鱼网址仿冒类型,如通过替换相似字母将“i”替换成“l”,使工商银行网址“www.icbc.com.cn”变成“www.lcbc.com.cn”,但是短网址中“i”为元音将被去掉,而“l”却会被保留,由此产生的短网址“www.shorturl.com/b_0OqrSC”和“www.shorturl.com/lb_Lqs5i”能够被很好地区分。其他网站名称和IP地址类型等则更容易区分。另外,通过添加一位标志位,将更好地显示出原网址的特征,提醒用户对于相关词不易区分但暗藏风险的站点多加提防。

4 总结

短网址的广泛应用,给网络诈骗带来了可乘之机。该算法从短链接生成时便提供了网络钓鱼的防范机制,使得网络钓鱼分子不能随心所欲地利用短网址服务进行变形和伪装的,从源头切断短网址传播网络钓鱼链接这一方式,同时统一的短网址生成格式也有助于其他网络钓鱼探测系统对该短网址进行进一步的分析,解决了机器学习难以提取有效特征的问题。净化网络环境,打击网络犯罪离不开各方的共同努力,必须多措并举,共同营造积极健康的网络环境。

[1]黄华军,王耀钧,姜丽清 .网络钓鱼防御技术研究[J].信息网络安全,2012,(04):30-35.

[2]蔡岳峰.网易短网址服务系统的设计与实现[D].北京:北京交通大学,2012.

[3]成亦陈,黄淑华.恶意短链接欺骗的防护对策研究[J].信息网络安全,2013,(074):32-33.

[4]S.Chhabra,A.Aggarwal,F.Benevenuto,andP.Kumaraguru.Phi.sh/$oCiaL:the phishing landscape through short URLs.In CEAS ’11.ACM Request Permissions,Sept.2011.

[5]C.Grier,K.Thomas,V.Paxson,and M.Zhang.@spam:the underground on 140 characters or less.In CCS ’10,pages 27–37,New York,NY,USA,2010.ACM.

猜你喜欢

网址钓鱼站点
2023年6月全宅影音器材编辑推荐
本刊网址变更通知
基于Web站点的SQL注入分析与防范
2017~2018年冬季西北地区某站点流感流行特征分析
首届欧洲自行车共享站点协商会召开
怕被人认出
钓鱼
第七章 去泥盆纪钓鱼
第七章 去泥盆纪钓鱼
第七章去泥盆纪钓鱼