APP下载

一种基于失效概率排序的网站封堵解除方法

2017-12-18艾华贾晓舟贾素华

电信工程技术与标准化 2017年12期
关键词:参数值全量空闲

艾华,贾晓舟,贾素华

(中国移动通信集团设计院有限公司,北京 100080)

一种基于失效概率排序的网站封堵解除方法

艾华,贾晓舟,贾素华

(中国移动通信集团设计院有限公司,北京 100080)

本文提出了基于网站失效概率排序的不良网站封堵解除方法,该方法建立了解封探测优先级的量化评估模型,并充分考虑了对封堵清单查重和归并操作的影响,解决了不易失效的网站URL拥塞解封探测队列导致死循环的问题。测试结果表明,该方法能充分利旧现有的封堵有效性验证系统的空闲资源,大幅度提高探测命中率,显著减少封堵工作量,降低封堵系统建设和长期运营成本。

网站封堵;解封;URL

1 引言

电信运营商现有的不良网站封堵系统缺乏对被封堵网站的解封机制,尽管采用UDP53的DNS阻断方式在一定程度上缓解了系统压力,但基于IP地址访问量的快速增涨和封堵清单“只进不出”的模式使得封堵系统运行压力和建设成本难以控制。由于不良网站经常更换网址,封堵清单中大量URL实际已经弃用失效。对于失效的URL继续进行持续不断封堵操作是对封堵系统资源的严重浪费,也对网络运行效率产生不必要的影响。

利用现有封堵有效性验证系统的空闲资源,实现对已经失效URL的确认和解封堵是一种边际成本较低的解决方案。但封堵有效性验证系统要确认一个URL已经失效需调集多类探针资源进行有计划的测试,并排除网络延迟、间歇性故障、网段差异等因素,由于封堵清单数量庞大,现有封堵有效性验证系统的空闲资源有限,无法实现对全量封堵清单进行轮询式探测。本文设计一种解封探测优先级量化评估模型,建立对URL失效概率的排名机制,仅需对失效概率较大的URL进行探测,实现对封堵有效性验证系统资源的最大化利用。

2 模型设计和实验

通过封堵有效性验证系统网络探针对封堵清单中随机抽取的1000个样本网站进行了超过23个月的持续探测发现,网站有效率与封堵持续时间、域名级别、服务器地域等不同维度之间都存在着一定的联系,其中与封堵持续时间的关系最为明显,尤其是占总量98%以上的境外网站,封堵12个月后有效网站比例已经降至40%以下,封堵20个月以后的有效网站已经低于10%(如图1所示)。

2.1 模型设计

图1 样本网站访问有效率

定义一个全量封堵数据库中某URL的服刑期为P(Prison term),其值为距离解封探测操作的剩余天数,用来评估一个URL的解封探测优先级。对于现有系统P=∞,在“服刑期”模型中,通过D-R参数对P的值进行量化评估,从而产生解封探测优先级排序。

D参数(Days):是封堵清单中每个URL距离标准封堵时长的剩余天数,是该URL按照标准封堵时长计算可释放解封的倒计时。每一个进入封堵清单的URL其默认D参数值为D0(即标准封堵时长),每过一自然天D参数值减1。D0可以按照数据库中URL从列入封堵到平均有效访问率降至预设阈值(例如40%)以下的天数来设置,也可以依据封堵系统和解封探测系统的整体性能进行调整。某URL的D参数值与其被重复封堵的次数无关,即使该URL解封堵后又被重新列入封堵清单,其初始值仍为D0。

R参数(Release):用于标识每个URL的解封探测次数,首次进入全量封堵数据库的URL其R值默认为0,每解封堵一次,R参数值加1。在全量封堵数据库URL解封探测优先级排名中,R参数值是对D参数值的修正。

由于实际系统部署存在多个分布于不同网段的不良网站探测系统,全量封堵数据库存在大量同一网站域名下的多个URL,需要进行URL“查重”和n个URL归为模糊域名的“归并”操作。“查重”操作取同一个URL的m个不同R值/D值中各自的最大值;“归并”操作其模糊域名P值为原来所有URL的P值之和,即:

2.2 模型实验

以1 000个样本网站数据对全量封堵数据库进行模拟测试实验,测试实验中样本URL/域名按照服刑期P值“由小到大”排序,考虑到全量封堵数据库数据量巨大,测试应用中采用双向冒泡法来减小时间复杂度。排序后的URL通过解封探测系统缓冲队列进行访问有效性的探测。

为进一步减少排序和归并操作对运算资源消耗,提升系统整体性能,排序操作仅在解封探测缓冲队列到达下限阈值时启动,归并操作仅在全量封堵数据库到达上限阈值时启动,查重操作也仅在排序和归并操作前进行,而不是发生在新URL入库时。

由于排序、归并、解封探测和封堵数据同步是相互独立的多个进程,因此在实际应用中,为每个URL设置一个同步标识(如图2所示):对于状态标识为“Y”的URL,将正常同步到封堵系统进行封堵;解封探测结果为已经失效无法访问的URL,设置状态标识为“N”,不再同步到封堵系统,并且将该URL的R参数值加1。

图2 解封操作示意图

在模拟环境应用测试中由于不易失效的URL逐渐积累并拥塞解封探测队列,导致解封探测进入死循环,因此对于解封探测结果为仍然有效的URL,将D参数值加DP。DP是一个距离下次探测的间隔天数估算值。DP的值通过一个条件概率进行计算,即某URL在本次探测结果为访问仍然有效的情况下,下一次探测其访问有效性概率低于预设阈值(40%)需间隔的天数。设B为本次探测结果为网站访问有效,A为间隔n天后探测结果为网站访问有效,则P(A|B)={[P(AB)]/[P(B)]},由于P(AB)=P(A),因此n为{[P(A)]/[P(B)]}< 0.4的天数。

抽取1 000个封堵样本24个月的持续探测数据DP值的变化情况进行分析发现,URL列入封堵的前12个月其DP的值为线性下降,在第12个月以后呈指数上升(如图3所示)。由于DP的计算精度对于整个解封操作的影响较小,因此试验中采取了对DP按月进行曲线拟合的方式,并通过分段函数进行近似估算:

简化得到:

2.3 对比测试分析

以1 000个样本网站数据为基础,使用常规排序和随机探测两种方式与“服刑期”排序模型方式进行对比测试和分析。通过控制封堵有效性验证系统解封探测缓冲队列长度,模拟能够其能够承载的探测任务完成比例,即封堵有效性验证系统空闲资源能够持续处理的探测任务URL数量占整个封堵清单容量的比例。通过对比测试发现,在探测任务完成比例从10%增加到100%的过程中,3种排序方式的应用效果存在明显差异。

在常规排序方式下,URL一般按照入库时间顺序进入解封探测缓冲队列,初始时封堵清单解封率和探测命中率都比较高,但随着探测量增加,不易失效的URL逐渐积累并拥塞解封探测队列,其解封率及命中率水平逐渐低于“服刑期”排序模型但高于随机探测方式。在探测任务完成率超过70%以后,常规排序方式解封率及命中率已经比随机探测方式还低,并且呈现明显的下降趋势。在封堵有效性验证系统空闲资源能够持续处理100%探测任务的情况下,其解封率和命中率都非常低,仅能够使封堵清单规模减少13%左右。

随机探测方式由系统从封堵清单中随机抽取URL送入解封探测缓冲队列进行探测,由于随机探测方式规避了不易失效的URL逐渐积累并拥塞解封探测队列的问题,其解封率随任务完成比例呈线性增加,比较稳定,在封堵有效性验证系统空闲资源能够持续处理100%探测任务的情况下,随机探测方式能够使封堵清单规模减少61.7%。但随机探测方式的探测命中率一直持续停留在62%左右的较低水平。

图4 3种排序方式的封堵清单解封率和探测命中率

采用“服刑期”排序模型,在封堵有效性验证系统空闲资源能够持续处理100%探测任务的情况下,能够将封堵清单规模减少75%以上,远高于常规排序方式13%的解封率,比随机探测方式61.7%的解封率也有明显提升。在探测任务完成比例为70%左右时,采用“服刑期”排序模型的解封率比常规排序方式和随机探测方式分别高出13.5%和20.7%,解封效率分别提升26.4%和47.4%。在封堵有效性验证系统空闲资源不够充分,探测任务完成比例低于70%的情况下,采用“服刑期”排序模型的探测命中率均在90%以上,较随机探测方式有明显优势。

3 结论

本文根据对运营商不良网站封堵样本网站访问有效性探测数据的分析,提出了基于网站失效概率排序的封堵解除方法,该方法建立了解封探测优先级的量化评估模型,并充分考虑了对封堵清单查重和归并操作的影响,解决了不易失效的网站URL拥塞解封探测队列导致死循环的问题。该方法便于在计算机上编程实现,最后经过实际数据测试,其清单解封率和探测命中率较常规排序方式以及随机探测方式均有明显优势,显著降低了封堵清单规模,对于充分利用封堵有效性验证系统空闲资源、减少封堵任务工作量具有较好作用,达到了以较低资源消耗提高封堵效率、降低封堵系统建设和长期运营成本的目的。

[1] 粟栗, 丛健, 赵乐意. 涉黄域名二次中标问题研究[J]. 电信工程技术与标准化, 2011,24(10):11-14.

[2] 江为强, 刘利军, 魏来, 等. 一种域名封堵方法、系统及设备: CN 103024092 A[P]. 2013.

[3] 严蔚敏, 吴伟民. 数据结构[M]. 北京: 清华大学出版社,2015.

[4] 淦艳, 杨有, 余平. 冒泡排序算法及其改进算法的实验分析[J].重庆三峡学院学报, 2011,27(3):53-57.

A method of website plugging removal based on ranking of failure probability

AI Hua, JIA Xiao-zhou, JIA Su-hua
(China Mobile Group Design Institute Co., Ltd., Beijing 100080, China)

This paper proposes a methods to removal plugging porn website based on the site failure probability ranking. The method establish the quantitative evaluation model of detection priority. The impact of checking and merging operations is considered. The method solve dead loop problem caused by detection queue congestion. Test results show that the method can make full use of idle resources, greatly improve the hit rate, significantly reduce the amount of plugging work, reduce construction and longterm operating costs.

website plugging; removal plugging; URL

TN918

A

1008-5599(2017)12-0077-05

2017-08-02

猜你喜欢

参数值全量空闲
例谈不等式解法常见的逆用
成都市温江区全力推进医保全量数据采集试点工作
不等式(组)参数取值范围典例解析
2020 Roadmap on gas-involved photo- and electro- catalysis
“鸟”字谜
西湾村采风
逆向思维求三角函数中的参数值
彪悍的“宠”生,不需要解释
土壤重金属污染调查与评估的误区及其改进方法
WLAN和LTE交通规则