基于联合特征的钓鱼网页分类方法
2018-03-21贾雪鹏容晓峰
贾雪鹏 容晓峰
摘 要 本文系统地描述了一种基于联合特征的钓鱼网页检测方法。提取了41项特征作为基础特征,结合信息增益和递归特征删除两种方法的排序结果计算特征重要度。引入联合特征率R(0 【关键词】机器学习 钓鱼网页检测 联合特征 最优分类模型 1 简介 钓鱼网页攻击指骗者制作的一个模仿合法组织网站的网页,将引诱用户访问这个网页,并在网页上呈现出请求用户私密信息的输入字段,如登录个人网上银行账户的详细信息。网络钓鱼攻击危害严重,在全球范围内,存在至少255,065次独立的网络钓鱼攻击。同比2015年发现的230,280次攻击增加了超过10%。因此网络钓鱼防护和预测愈发成为网络安全领域乃至整个互联网发展的研究重点。综上所述,论文主要针对钓鱼网页检测研究一种基于联合特征的机器学习分类方法,探究特征种类和数量对机器学习分类模型的影响。 为了提取最具网页表示性的特征,从三种来源进行提取: (1)URL链接特征。研究最多的是提取URL词汇和主机特征; (2)网页内容特征。网页内容决定了网页的性质,对于网页内容的特征分为两个部分:页面结构特征和页面文本特征。 (3)第三方服务信息特征。例如WHOIS信息和网页排名。大多数启发式方法基于机器学习分类算法对钓鱼网页进行检测。其中包括逻辑回归、SVM、朴素贝叶斯、决策树、随机森林、提升算法等。第2章将介绍数据集和特征的构建、分类算法的选择。第3章将通过实验确定最优分类算法,同时对比使用基础特征和联合特征对模型分类能力的影响作用。第4章总结论文的实验成果。 2 特征工程 2.1 特征选择 本章将对特征选择和特征评估、数据集构建和分类模型进行详细的介绍。论文选择的URL链接特征主要包括:URL结构特征和文本特征。论文提出的URL结构特征包括: (1)URL、domain、path、query的总长度、最长token长度和token平均长度。 (2)URL中“.”,“/”,“@”,“-”和非字母的个数。 (3)URL中是否包含IP地址、敏感词汇和目标组织。 (4)http 或https。 (5)URL各部分的n-gram。 (6)数字/字母比例。网页内容特征包括:表单中的标签的个数和是否包括图标。第三方信息特征包括域名的注册时间和基于Alexa排名的联合得分。 2.2 联合特征 引入联合特征率R(0 3 实验与结果 3.1 数据集 论文从PhishTank中提取钓鱼网页样本, 从DMOZ中提取合法网页样本。将收集到的钓鱼网页和合法网页数据拆分成训练集(钓鱼网页15000;合法网页20000)和测试集(钓鱼网页2000;合法网页2000)两部分。 3.2 最优分类模型 3.2.1 基于基础特征的模型对比 逻辑回归、随机森林、Adaboost、神经网络四种最优参数模型的ROC_AUC值,曲线覆盖面积越大表明模型分类能力越强。各种模型对钓鱼网页的分类能力(F1值):随机森林0.978> 神经网络MLP 0.968> Adaboost 0.960> 逻辑回归0.887。随机森林和神经网络MLP两种非线性模型的表现明显更加优秀;而属于线性模型的逻辑回归表现不佳。 3.2.2基于联合特征的模型对比 测试上节中四种最优参数模型在不同联合特征率R下的模型分类质量。表1为在选择不同联合特征率的情况下四种分类模型的F1值,其中横坐标表示联合特征率(0代表没有做特征扩充),纵坐标表示模型的F1值。 由表1得四种分类模型能力(最大F1值): (1)逻辑回归模型0.903,基本不变。 (2)随机森林模型0.983,是四种分类模型中的最优模型,随机森林分类能力随着联合特征率的增加有小规模提升。 (3)Adaboost模型0.961,基本不变。 (4)神经网络MLP 0.980,随特征数的增加其分類能力逐步提升,说明特征数量和特征质量对神经网络分类模型影响较大。 4 结论 论文主要通过三个主要阶段:特征选择、特征联合、确定最优分类模型,研究了基于联合特征的钓鱼网页分类问题。主要成果: (1)根据已有研究成果选择了41个具有代表性的基础特征。 (2)使用特征交叉方法对基础特征进行特征扩充,引入联合特征率R,R越大,重组的特征越多。 (3)分别根据基础特征和不同联合特征对比四种最优参数模型,得出随机森林分类能力最强,而神经网络模型的分类能力随特征数的增多而增强,模型潜力巨大。 作者单位 西安工业大学 陕西省西安市 710021