Tri-BERT-SENet:融合多特征的恶意网页识别
2023-04-19杨立圣罗文华
杨立圣,罗文华
(中国刑事警察学院 公安信息技术与情报学院,沈阳 110035) E-mail:luowenhua770404@126.com
1 引 言
随着互联网的飞速发展以及网络应用的迅速普及,恶意网页给人们的隐私和财产安全带来了严重的威胁.如何准确识别恶意网页,有效避免因恶意网页引发的安全威胁,已成为信息安全领域的重要研究内容.经典的恶意网站识别方法是采用黑名单技术,但该技术具有较大的局限性和滞后性[1],只能识别已知的恶意网页,容易引起误判.随着机器学习技术的发展,基于机器学习的恶意网页识别方法[2]进一步被提出,该方法具有一定的泛化能力,比传统的识别方法更加有效.但对于机器学习方法,选择不同的网页特征会对分类结果造成较大影响[3],在特征工程阶段中特征选取的工作量较大,效率较低,传统机器学习无法感知恶意网页中文本内容的上下文关系,导致部分特征信息缺失.作为完整网页的有机组成部分, HTML标签、URL地址、网页文本在各自层面体现出一定的网页特征.传统恶意网页识别缺乏全局性、系统性考量,没有将网页作为有机整体,而是独立针对某一层面特征开展研究[4],导致识别效率和准确率较低.虽然已有学者意识到了割裂研究的不足,并提出的融合特征的思想,但依旧使用的是机器学习算法予以实现,忽视了近年来深度学习的飞速发展及其优越性能.在自然语言处理领域,BERT[5]预训练模型的出现刷新了众多自然语言处理领域任务的性能记录.BERT的自注意力机制和双向Transformer结构使得BERT模型具有上下文感知能力,而且BERT模型经过简单微调就可以完成下游的分类任务.研究者们也开始对BERT模型用于恶意网页识别任务进行了探索研究.在计算机视觉领域,SENet[6]赢得了最后一届ImageNET的图像识别冠军.SENet可以学习通道之间的相关性,按照特征通道的重要程度对同道进行加权.同时SENet模块易于实现,很容易融合到现有的网络模型中.为此,以BERT和SENet为基础,提出一种融合多特征的Tri-BERT-SENet模型,该模型融合URL特征、HTML特征以及网页文本特征,结合BERT模型的上下文感知能力,将3个BERT模型的输出作为3个通道,使用SENet对特征通道进行加权,最后实现恶意网页识别任务.
本文创新性地将深度学习技术与多特征融合的思路相结合,利用不同BERT模型分别处理不同维度特征,尝试将计算机视觉领域的SENet模型与自然语言处理领域的BERT模型相结合,以完成特征融合,并实现恶意网页识别.
2 相关工作
针对恶意网页识别问题,目前已经有研究人员提出了多种恶意网站识别技术和方法.Ma J等人以IP信息、WHOIS信息、DNS信息以及URL特征,采用机器学习的方法对恶意URL进行识别[7].Canali D等人根据HTML特征、URL和主机信息等特征,使用朴素贝叶斯、随机森林、决策树和逻辑回归分类器等机器学习模型进行分类[8].陈远等人采用主成分分析的方法对恶意网站进行多为评估,并在此基础上采用随机森林对恶意网站进行识别[9].这些采用传统机器学习并以URL为主要特征的方法,在特征工程上工作量较大,而且没有考虑到URL中的文本上下文关系,导致URL特征信息丢失.吴海滨使用Word2vec生成词向量并使用卷积神经网络抽取特征信息实现恶意网页识别.该方法考虑到了URL中的词上下文关系,并使用深度学习中的卷积神经网络,提升了根据URL进行恶意网页分类效果[10],但该方法生成的词向量是静态词向量,并不能解决一词多义的问题,不能充分地挖掘文本之间的深层次关系.随着深度学习中自然语言处理技术的迅速发展,产生了注意力机制[11]和BERT预训练模型,这些新技术在自然语言处理任务中的效果相比以往采用Word2Vec静态词向量的模型有所提升.这些模型随后也应用到了以URL为特征的恶意网页分类任务中.梁飞提出了一种具有多分组注意力机制的深度学习模型[12],该模型可以更加准确地表达URL文本的语义信息,更能准确完成恶意网页的识别任务,但该方法以URL 作为文本数据分类的问题处理,对恶意网页识别具有一定的片面性.Devlin J等人于2018年提出了基于大规模文本的Transformer预训练模型BERT,BERT模型刷新了11项自然语言任务的性能记录.张凤等人将BERT运用在恶意域名检测任务上[13],强化了字符对于模型的决策能力,提高了模型的检测性能,但并未以网页文本内容为依据使用BERT模型对恶意网页进行识别.随着恶意网站的隐蔽性、复杂性的提升,对恶意网页的识别仅仅依据URL及其相关特征远远不能满足现今对于恶意网页识别的需求[14].魏旭等人提出了融合特征方法[15],但其依旧采用机器学习模型对恶意网页进行识别,难以捕捉特征的深层次信息.冯凯媛等人提出了以传统网页URL、HTML等特征基础上,融合了网页文本特征,以机器学习方法对恶意网页进行识别[16],但传统机器学习的分类方法对于文本特征方面的向量构造,没有考虑文本的上下文信息,不能体现出文本中一词多义的深层次特征,存在一定的信息缺失.
综合考虑上述问题,本文提出了一种基于多特征融合的Tri-BERT-SENet模型对恶意网页进行检测识别.
3 特征提取
特征提取主要是针对可以为识别恶意网页提供依据的网页相关构成要素特征进行提取的过程.可以作为识别恶意网页的特征主要有以下几种:网页HTML特征、URL特征以及网页文本内容特征.
3.1 网页HTML标签特征
HTML特征是基于原始页面内容的一种统计信息和HTML代码解析后得到的结构信息.网页HTML中的众多特征信息可作为判定恶意网页的依据,特征信息包括