APP下载

未备案网站发现的技术手段探讨

2020-06-20海南向远金

网络安全和信息化 2020年6期
关键词:爬虫技术手段域名

■ 海南 向远金

实施网站备案管理是行业主管部门加强互联网管理的重要举措,在加强行政管理的同时,使用适当的技术手段不仅可以节省人力资源,而且能大幅提升管理效率。本文通过对网站的接入机制的分析,提出了用技术手段发现未备案网站的方法。

未备案网站的接入形态

按照“先备案后接入”的原则,互联网网站在接入前必须履行备案手续。绝大多数网站都依法依规履行了备案手续,但仍然存在少数未备案接入的网站,并且不易发现,主要有以下几种情况:

1.虚拟主机网站

通过服务器空间分配及域名与空间对应的技术,实现一个IP对应多个域名的访问,即通常所说的虚拟主机。

图1 DNS分析网络连接示意图

2.专线私自接入网站

通过专线私自接入,网站主办者如果没有主动报备,运营商很难发现。

3.IP网站

网站没有域名,通过一个IP+端口号的形式提供访问,多为企业自建内部使用的系统。

4.跳转网站

通过跳转服务器实现网站异地接入,当用户访问一个域名时,第一次获取的IP地市为跳转服务器地址,第二次获取的IP地址才是真正的服务器地址,该类网站是问题高发户。

解决方案分析

针对上述网站接入的几种形态,可采用如下技术方案:

1.DNS分析

通过镜像方式,实现对DNS响应流量的采集,实时分析DNS响应流量,效率和准确度高,发现网站范围可覆盖全省,包括虚拟主机、专线私自接入网站。

如图1为DNS分析网站发现方案,在DNS上联交换机镜像DNS的响应流量到一个千兆网口,并连接DNS分析服务器。

DNS分析服务器配置2块千兆网卡,1个连接镜像口,一个用于访问INTERNET。DNS分析服务器实时接收并分析DNS的响应流量,发现监控IP范围内的网站信息。

2.HTTP分析

通过HTTP分析技术,可有效发现IDC内虚拟主机网站,该技术对流入80端口的流量进行分析,处理数据量很小,效率高。与DNS技术相比,其优势在于不受访问用户所使用的DNS限制,只要IDC内网站被访问即可发现。

如图2,通过在IDC核心交换机上,镜像流入IDC内的HTTP请求(80端口)并实时分析该流量,发现IDC内网站。

3.爬虫遍历

相对于DNS分析及HTTP分析等被动发现网站的技术,爬虫发现网站技术属于主动发现网站的技术,该技术是通过爬虫主动遍历网站间的链接并分析这些链接达到发现网站的目的。

从效率上讲,该技术不如DNS分析及HTTP分析效率高,但是该技术也是一种重要的未备案网站发现技术。作为DNS分析和HTTP分析技术手段的补充,爬虫技术可发现上述两种技术不能发现的未备案网站。

如图3,爬虫通过种子站点,作为抓取的入口,遍历网站页面的链接,通过URL分析网站的域名信息。

图2 HTTP分析网络连接示意图

图3 爬虫遍历网络连接示意图

4.IP网站扫描等技术

上述3种技术方案能有效地发现未备案的网站,对于IP+端口号作为访问入口的网站,以及以跳转服务器作为网站访问入口的跳转网站,在上述3种解决方案做适当地变化也有较好地处理效果。

结语

通过技术方式实现未备案网站的发现,能有效地增强相关管理部门对互联网的管理能力。网络技术的发展日新月异,技术手段作为一种辅助管理方式,也要与时俱进,不断改进和完善。

猜你喜欢

爬虫技术手段域名
利用网络爬虫技术验证房地产灰犀牛之说
基于Python的网络爬虫和反爬虫技术研究
《江苏教育研究》官方网站域名变更公告
图书编辑出版中技术手段升级面临的问题与对策探究
目前互联网中的网络爬虫的原理和影响
大数据背景下校园舆情的爬虫应用研究
创造性技术启示中的技术动因论
论现代信息技术在学科服务中的应用
顶级域名争夺战:ICANN放出1930个通用顶级域名,申请者有上千家