区域互联网重要信息系统智能探测平台的研究与设计
2020-07-13于佳华
◆于佳华
(国家计算机网络应急技术处理协调中心黑龙江分中心 黑龙江 150001)
《中华人民共和国网络安全法》规定,国家对公共通信和信息服务、能源、交通、水利、金融、公共服务、电子政务等重要行业和领域,以及其他一旦遭到破坏、丧失功能或者数据泄露,可能严重危害国家安全、国计民生、公共利益的关键信息基础设施,在网络安全等级保护制度的基础上,实行重点保护[1]。摸清查明某区域内各单位运行、管理的,暴露在互联网的关键信息基础设施等重要信息系统,无论对于区域网络安全监管部门开展网络安全管理工作,还是区域网络安全机构开展网络安全监测防护工作都有十分重要的意义。
1 研究现状
当前,有很多互联网资产发现产品和服务,实现互联网资产梳理与暴露面筛查,其大都通过网络扫描、搜索引擎及网络爬虫等多种技术相结合,通过对关键词、域名及ⅠP 的综合查询及关联分析,进行互联网上暴露资产的主动探测。
使用这些常见的互联网资产主动探测产品和服务,进行区域互联网重要信息系统探测时,存在以下的不足:
(1)探测结果不全。存在分目录独立部署、虚拟主机等大量单ⅠP 单端口承载多信息系统的情形,传统ⅠP+端口的扫描方式无法探测。
(2)信息系统归属区域识别不准确。较多信息系统部署在阿里云等公有云上,ⅠP 段扫描会发现大量非所在区域信息资产。另外,较多信息系统选择使用CDN 技术进行加速[2],许多区域外信息系统在本区域访问时使用本区域ⅠP 承载。这两种情形都导致信息系统的归属区域识别错误。
(3)缺乏自动标注能力。无探测资产的归属单位、行业类型、业务类型等的自动标准功能,人工标注工作量巨大。
2 智能探测平台设计
为解决当前产品和服务存在的问题,实现区域内暴露在互联网上的重要信息系统的自动收集整理,本文设计了一个区域互联网重要信息系统智能探测平台,平台的设计示意图如图1 所示。
2.1 基础数据池
平台先将已掌握的或者在互联网上搜集的本区域内重要信息系统纳入基础数据池。其中,对于将未绑定域名的信息系统,将ⅠP 地址所属C 段纳入ⅠP 段数据池;对于绑定域名的信息系统,先将域名纳入域名数据池,再解析出域名指向的ⅠP 地址,将ⅠP 地址所属C 段纳入ⅠP 段数据池。
图1 平台设计示意图
2.2 资产探测爬取模块
资产探测爬取按照如下流程执行:
1、使用分布式调度机制,并行从ⅠP 段数据池和域名数据池提取基础数据,建立独立爬取任务,每个任务执行如下相同的步骤。
2、对基础数据进行网页爬取。
(1)对ⅠP 段,执行如下操作
①全端口扫描,获得ⅠP 段内每一个ⅠP 地址开放的端口及每个端口运行的服务。
②对每个ⅠP 地址运行http/https 服务的端口,构造URL 进行网页爬取。
③遍历信息系统目录字典,与原URL 组合形成新URL,继续爬取同ⅠP 同端口但分目录部署的不同信息系统。
(2)对于域名,执行如下操作
①先进行域名解析,得到其指向的ⅠP 地址,对该ⅠP 地址进行全端口扫描,获得该ⅠP 地址开放的端口及每个端口运行的服务。
②对域名运行http/https 服务的端口,构造URL 进行网页爬取。
b.2.3.遍历信息系统目录字典,与原URL 组合形成新URL,继续爬取同ⅠP 同端口但分目录部署的不同信息系统。
③遍历二级域名字典,与域名组合成新域名,构造URL 继续爬取同ⅠP 同端口但分虚拟主机部署的不同信息系统。
3、对爬取的页面进行字符编码转换,统一为固定编码,解决网页乱码现象。
4、提取页面要素,包括标题、KEYWORDS、DESCRⅠPTⅠON、版权、备案ⅠD、通信地址、关键正文等。
5、获取信息系统所属ⅠP 地址的区域定位数据。
2.3 资产清洗模块
(1)对使用CDN 技术进行加速,由本区域ⅠP 承载但并不属于本区域的信息系统进行清洗。平台选用数个不同区域的DNS 服务器进行域名解析,如果指向的ⅠP地址随着DNS服务器区域变化而变化,且与DNS 服务器区域有相关性,则清洗掉该信息系统。
(2)对无效信息系统进行清洗。建立标题黑名单,如“正在建设中”、“ⅠⅠS7”等,对爬取的信息系统的标题进行黑名单过滤,如标题与黑名单一致则予以剔除。
(3)对部署在公有云上的本区域信息系统进行过滤筛选。建立标题白名单,如区域内的地区名、重点单位名等,对于爬取的信息系统中,ⅠP 归属非本区域的信息系统的标题进行白名单过滤,包含白名单的信息系统予以保留,其他信息系统予以剔除。
2.4 自动标注模块
依据先验知识建立多条件标签字典,对爬取模块爬取的信息系统页面要素与标签字典进行碰撞,实现门户网站、OA、防火墙、网关等业务类型,政府机关、能源、金融、交通、水利等行业类型的自动化标注。
以版权为主要标注要素确定该信息系统的归属单位,以标题为主要标注要素确定该信息系统的承载业务。
2.5 区域重要信息系统库
平台的区域重要信息系统库实现所探测到的区域内所有重要信息系统的存储,存储数据项包括探测时间、域名、ⅠP、端口、归属单位、行业类型、承载业务、业务类型等。数据库数据将定期反馈至基础数据池,实现平台所探测信息系统的不断迭代更新。
3 结束语
本文面向区域内暴露在互联网上的重要信息系统探测这一特定问题,对当前常见的互联网资产主动探测产品和服务存在的不足进行了研究分析,并设计了一套全新的智能探测平台。平台可以提高区域互联网重要信息系统探测的完整性,并通过自动标注有效降低人工参与成本。