APP下载

一种面向暗链主动检测的安全模型设计

2022-08-24杨阳

中国教育网络 2022年5期
关键词:集群网络安全检测

文/杨阳

网络安全涉及领域广泛,包括网络与基础设施安全、平台安全、数据安全、Web 安全、终端安全、移动安全等方面。通过对计算机、通信、网络安全技术的综合运用,达到对网络、数据、系统、平台、资源的保护,解决网络堵塞、网络服务质量优化、消息异常、信息丢失、系统不稳定等问题。

网站集群平台一般是高校面向公众进行信息发布的通道,是公众获取信息的重要途径,它是学校对外宣传的主窗口和主阵地。一个成熟的网站集群平台往往由以下三个部分组成:内容管理平台、站群点管理平台和门户管理平台,分别负责内容信息的发布、主站子站的统一管理以及门户首页的管理。在网站集群平台中,有一类突出的安全问题,即暗链和非法外链问题。这些暗链或非法外链嵌入正常网页之中,诱使用户点击并跳转到非法页面,极大程度降低了高校网站的公信力和安全性。由于隐蔽性强,其可能出现在网页段落中,也可能出现在网站源代码中,且分散性广,使人工检测耗时长、难度高。为了解决这个问题,本文提出一种关于暗链主动检测的安全模型,并给出了相应的算法实现,以爬虫搜索的形式深入探测出隐藏在网站集群平台中的暗链,极大提高了平台的安全性。

现有网络安全模型

针对网络中存在的各类安全问题,各个安全机构都在通过建立特定安全模型的方式,从宏观上定义安全问题,综合施策,找到最佳安全解决方案。常见的网络安全模型包括[1]静态网络安全模型、PDR 模型、P2DR 模型、WPDRR 模型等。

静态网络安全模型

静态网络安全模型根据自定制的规则和策略,对入侵访问进行判断和拦截。这类安全模型能够有效地识别部分已知类型的网络攻击,但是在复杂网络环境中,对于种类多样的攻击模式,特别是分布式、泛洪式攻击,缺乏相应的安全策略和足够的防御能力[2]。

PDR 模型

针对静态安全模型存在的防御能力不全面、无法适应网络攻击的动态变化、无法实施网络安全防护体系构建等问题,一种新型的、动态的、对时间敏感的安全模型逐渐发展起来,即PDR 模型。与传统的静态安全模型不同,PDR 模型是一种动态安全模型策略,它包括三个重要的部分,即防护P(Protection)、检测D(Detection)和响应R(Response)。在该模型理论下[3],安全问题是无法避免的,任何强攻击形式和攻击方法都有可能导致系统的坍塌,没有绝对的安全和永久的、全生命周期的保护。该模型认为,所有的网络攻击都是与时间相关的,能够在有效时间内抵御网络攻击事件即可认定系统是安全的。

防护P(Protection)[4]包括综合运用一系列安全措施,如杀毒软件、木马查杀、防火墙、访问控制、身份认证、权限授权、数据加密、内外隔离等,保障系统的安全性、完整性、可控制性、加密性,确保系统的数据安全和行为安全。

检测D(Detection)[5]是指采用一系列技术手段和各种安全工具,如入侵检测、端口扫描、磁盘扫描、漏洞扫描、日志审计、网络数据包分析来查找和发现系统中潜在的安全问题,定位系统的薄弱环节。

响应R(Response)[6]是指对各类潜在问题和已发生安全事件的及时处理,避免事态的进一步扩展,最大程度地恢复系统和降低损失。

PDR 模型可以使用如下数学公式(1)(2)体现其时间相关性:

Pt>Dt+Rt(1)

Et=(Dt+Rt)-Pt(2)

其中,Pt表示系统防护时间,Dt表示系统检测时间,Rt表示系统响应时间,Et表示系统暴露时间。若Pt大于Dt+Rt,即防护时间大于检测时间加上响应时间,则安全问题在可控的时间范围之内,系统整体是安全可信的;若Pt小于Dt+Rt,则Et大于0,系统存在安全暴露的问题。

PDR 模型是一种动态风险模型,结合时间范围界定和各种安全技术手段,对系统安全进行评估和判断。这种基于时间的快速诊断模型强调对抗能力,但缺乏自我学习、自动更新的机制。

P2DR 模型

在PDR 模型的基础之上,为进一步增强安全防护的可适应性,美国国际互联网安全系统公司(ISS)提出了P2DR(Policy Protection Detection Response)模型。相对于PDR 模型,P2DR模型增加了策略P(Policy)部分,即通过策略制定、管理、扩展、修复、完善等步骤加强对系统安全的调控等级和保障等级。P2DR 模型以策略为中心,综合防护P(Protection)、检测D(Detection)、响应R(Response)等各类防御手段,不断侦测系统的安全状态,达到自适应调整和网络风险的平衡,使系统处于“最安全”和“最低风险”的状态[7]。同时,根据不同的安全策略级别,防御系统有不同的处理能力和响应能力。P2DR模型如图1 所示。

图1 P2DR 模型

P2DR 模型是动态的,其安全策略以及相应的防护、检测、响应手段不是固定不变的,而是随着安全周期的迭代以及攻击强度的变化进行及时更新,从而提升针对突发网络问题的处理能力。

WPDRR 模型

P2DR 模型虽然能够发现系统存在的薄弱环节,找到潜在的目标攻击点和攻击行为,但缺乏必要的预警机制,无法向管理员反馈当前的预警级别以及相应的预警措施。一般情况下,在完成P2DR 模型给定的修复建议后,还需要根据相应的预警目标和预警等级,结合历史安全事件和当前的安全趋势,促使管理员进一步做好防御工作。

针对这个问题,WPDRR 模型在PDR 模型的基础上,增加了预警W(Warning)、恢复R(Recover)两个环节,如图2 所示。

图2 WPDRR 模型

预警W(Warning)[8]是指根据当前对网络状况的安全分析和综合判断,以及曾经发生的攻击记录、场景相似性分析、互联网流行病毒的发展趋势,预测出安全问题可能发生的位置并给出防御意见。

恢复R(Recover)[9]突出了人的因素,单纯的技术手段已无法完全保证系统的安全。当系统出现故障后,如何在最短时间内、最有效地恢复系统,需要安全管理人员采取进一步措施,常见的操作手段包括系统备份、系统还原等。

WPDRR 模型是一种综合预警目标、安全策略、防护手段和能力、恢复管理于一体的安全理论模型。该模型的一个重要特征是增加了攻击前的预警机制和攻击后的恢复措施,将安全管理人员的机动能力融入模型的构建当中。

面向暗链检测的安全模型

针对高校网站集群平台中存在的暗链问题,本文提出一种面向暗链检测的安全模型,从暗链预警、源头发现、网页内容保护、暗链检测、暗链响应处理等多个方面降低网站集群平台中的暗链存在率,提升系统的安全性和可信性。

暗链问题

“挂马”一般是指黑客利用网站及系统漏洞,在网页中挂载一组脚本或链接,当用户访问该页面时,会过路式下载[10](Drive-by Download)木马程序,进而使黑客拥有非法控制目标机器的权限。随着国家以法律的形式对“挂马”违法行为进行了量刑,网民大众也增强了对移植木马的防范,“挂马”问题有所缓解。但随着互联网技术的发展,一种新型的“侵入”手段——暗链,在互联网中蔓延。所谓暗链[11],即是在网页中植入一段隐蔽的链接代码,这些链接一方面可以跳转到非法网站,如广告网站、伪造网站等;另一方面可以增加所链接、所指向的网站的权重,从而达到提升搜索排名的目的。

暗链的本质是超链接,由于其隐蔽、不易被察觉性,成本低,能够进行大片范围的植入传播。当某个网站能够被大量暗链指向,搜索引擎会误认为这个网站的价值较高,从而赋予高权重并置于搜索结果的前列。这种欺骗搜索引擎的作弊行为,由于能产生实际的效果,逐渐演化成牟利的黑色产业链。

教育类网站是暗链发生的重灾区。高校的网站集群平台承载了学校各个部门、院系的网站页面,各子网站与子网站之间,子网站与外网站之间存在大量的链接关系,网站内容也包含对外部页面的引用,这都给清除暗链带来困难。其中,对暗链的检测和识别是一个重要问题。

安全模型构建

为了能更加全面地防范暗链问题,本文在P2DR 模型的基础上增加了管理M(Management)环节,构建了一种MP2DR 模型。该管理M 体现在可以根据策略P(Policy)目标,在Web 信息管理系统中,灵活地设定暗链检测与防护的各类配置参数,包括爬虫数量、每只爬虫的线程数、暗链探测深度等。图3 展示了MP2DR 模型。

图3 MP2DR 模型

策略P 定义防护类型,是核心关键点防护还是某个时间段防护;定义集群平台的扫描策略,是全站扫描还是局部扫描;定义响应方式,是整张网页关闭还是单个暗链清除等。

防护P 包括使用一系列过滤、拦截机制,当用户点击某一个链接时,检测该链接的合法性,提示用户即将进入外部网站或下载某一个文件。定义相应的防护级别,对于中高级别,将以日志的形式记录用户的每一次链接点击和相应的检测结果,供安全人员查询分析。

检测D 是指采用一系列技术手段按时段、按量、按站点扫描网站集群平台,将扫描结果计入日志平台和分析平台。

响应R 是指发现暗链所在位置后,自动清除或通知安全管理人员手动清除,并将清除的暗链进行特征提取和分析,以便进行大数据分析。

管理M 包括暗链管理机制和规章制度的建立,从而引入人为干预的因素。同时,将建立Web 信息管理系统统筹策略P、防护P、检测D、响应R 这几个部分的配置参数设置。

安全模型的系统实现

暗链检测算法

暗链检测算法的一个核心部件即是网站链接URL 的爬取。本文采用多线程的方式对指定的链接进行深度遍历。算法维护一张URL 存储表,新扫描到的URL 不断添加到URL 存储表的末端。对于每一个URL,算法都将启用一条新的线程来处理该URL 对应的网页内容,抓取网页内容中新的URL 并添加到存储表中。线程采用线程池的方式进行管理,保证系统资源使用量在一个有效的范围内波动。

如图4 所示,存储表维护两个指针指向,一个是待扫描的URL 位置,另一个是存储表中添加新的URL 的位置。通过如图的“获取”指针,主线程每次找到待扫描的URL,交给子线程处理;通过如图的“添加”指针,子线程将新扫描到的URL 添加到存储表的指定位置。整个过程类似于生产者消费者模式。

图4 URL 扫描示意

暗链检测算法的第二个核心部件是暗链识别,即如何判定一条URL 是暗链。一种适用的方法是采用机器学习的方式,通过特征提取、模型训练、建立分类器[12]途径来识别网页中的暗链,这种方式适用于海量网页数据。本文基于网站集群平台的实际情况,采用的是数据库匹配的方法,即将扫描到的链接按类别(CSS网址、JS 网址、图片网址、文件网址、普通网址等)存入数据库中,每一个记录对应一条链接。对于已发现问题的链接,有专门的数据库字段进行标识。数据库表设计见表1。

对于网页中每一条扫描到的URL,获取表1 中各项字段的相关信息,并存入数据库中。初次建库采用人工标注的方式判断每条URL 的crack 字段是0 还是1。初始库建立完毕后,对于每一条新增的URL,通过相似检测算法[13][14]判断该URL 与数据库中所有URL 记录的相似度,并将相似度结果的TopK( 本实验中K=10),即由最相似的K 条记录打分,判定该新增URL 是否是暗链。例如,如果TopK 中超过一半是暗链,那么该URL 也被自动判定为暗链。系统每运行一段时间后,对于所有新增的URL,通过数据库查询选择出来并进行人工复核,最终确定每条URL 的crack 值是0 还是1,从而确保数据库表中信息的正确性。在实际算法实现中,可以建立多个数据仓库,包括暗链库、正常链接库、待定库、新增库等。

表1 URL 表的数据库设计

系统平台执行流程

在Web 信息管理系统中,根据当前的安全策略和目标,设置扫描范围(整站扫描/局部子网站扫描)、启用爬虫的个数、设置爬虫的类型(临时爬虫/守候爬虫)、清除方式(自动清除/手动清除)、日志文件位置、防护扫描时间段等相关参数,然后执行检测流程。执行流程如图5 所示。

图5 MP2DR 模型的系统实现

在图5 中,“暗链检测信息管理系统M”根据防御目标和相应的安全策略,在Web 后台设置、调整、更新各模块参数,从顶层规划暗链检测任务。配置项目包括防护(P,Protection)的级别和范围、安全策略(P,Policy)、检测内容(D,Detection)等。“暗链检测模块D”包括两部分:URL 爬取和暗链识别。在“暗链识别算法模块”中,建立关于链接的各个仓库,包括新增库(新扫描到的链接)、待定库(暂无法确定是否是暗链,需进一步人工标注)、正常库(正常的站内链接)、暗链库(已确定为暗链)。在“响应展示模块R”,对检测的结果以报表和文件的形式输出,并将扫描步骤记录在日志当中;结合检测目标和策略,给出风险预警。

针对当前的网络安全情况,结合高校网站集群平台存在的暗链问题,本文首先介绍了几种网络安全模型,包括静态网络安全模型、PDR 模型、P2DR 模型、WPDRR 模型。这些安全模型是随着安全技术的发展逐渐演化而来,各自具有不同的特点和优势,且具有自身的适用范围和用途。在这些模型基础之上,本文提出了一种MP2DR 网络安全模型,它引入了管理M(Management)模块。这既包括信息管理系统的应用,也包括安全技术手段之外专家、人员的参与和干预,以及规章制度的建立。最后,给出MP2DR 模型的核心算法实现和系统构建路径。实现结果表明,本文提出的安全模型MP2DR 及构建的信息管理系统能够有效运用在高校网站集群平台的暗链检测中,较大程度降低了网站中暗链存在率。

猜你喜欢

集群网络安全检测
“不等式”检测题
“一元一次不等式”检测题
“一元一次不等式组”检测题
海上小型无人机集群的反制装备需求与应对之策研究
培育世界级汽车产业集群
网络安全
一种无人机集群发射回收装置的控制系统设计
上网时如何注意网络安全?
勤快又呆萌的集群机器人
小波变换在PCB缺陷检测中的应用