APP下载

暗网空间威胁信息获取技术研究

2023-04-05张弛张梦迪胡晴

计算机与网络 2023年4期
关键词:暗网

张弛 张梦迪 胡晴

摘要:通过对暗网空间当前提供的服务情况、暗网节点和网站隐匿资源分布情况等进行探测分析,实时监控暗网中犯罪交易信息,实现重要军事、政治威胁情报的获取和暗网空间的安全态势分析。采用主动探测和被动采集相关技术手段,构建完整的暗网空间网络威胁信息获取框架,实现暗网节点、域名和网络安全漏洞及数据交易信息的获取和建模分析,解决当前匿名网络中暗网流量和内容隐蔽性高、难以构建全面的网络安全监测体系的问题。

关键词:暗网;威胁情报;网络安全监测;匿名网络

中图分类号:U495文献标志码:A文章编号:1008-1739(2023)04-55-5

0引言

暗网空间威胁探测技术是网络空间战的关键,在军事上具有广泛应用。由于暗网本身的隐匿性,暗网之中存在许多重要军事、政治情报、软件最新的漏洞信息等内容的交换与交易。暗网空间威胁探测技术在打击违法犯罪、恐怖主义行动方面发挥着至关重要的作用,而暗网空间威胁信息获取技术是暗网探测的关键。将暗网作为获取军事情报、政治情报的重要窗口,对暗网空间资源进行探测,具有重要的研究意义和应用价值。

本文研究了暗网空间的信息采集技术现状,并针对已有暗网采集技术涉及的流量采集和暗网内容获取技术开展了研究和分析,最后基于暗网威胁信息获取技术,设计了暗网主动爬虫框架,对暗网中的信息进行爬取,并针对爬取的内容进行威胁建模与分析,最终形成有价值的网络安全威胁情报,用于辅助网络空间安全的防御决策,实现主动防御。

1暗网空间威胁信息获取技术的现状

搜索引擎无法找到的网页被称为深网(Deep Network)[1],必须通过特殊的软件、特殊的配置才能访问的网页被称为暗网(Dark Network)[2],暗网是深网的一个子集。

暗网内资源的数量和质量都优于明网,搜集暗网资源的意义重大,但暗网自身的特点导致收集信息的难度大。目前,探测暗网资源已经成为国内外与之相关领域专家学者们关注和研究的热点问题。张永超[3]通过构造深网查询接口的URL链接以获取对应的页面信息,并设计算法对链接的有效性进行了验证。Cafarella等[4]展示了一种集成了深网页面提取和自动搜索功能的工具,可对深网页面进行内容提取和属性分类,用户可以使用该工具对深网的内容进行元搜索。宋鸣[5]针对Tor流量进行深入分析与测量,选取数据包长度作为特征,以SVM分类算法作为Tor流量识别的算法,设计了基于流量分析的信息溯源系统,选用k-means算法对匿名网络的入口和出口流量进行关联分析,以实现信息溯源。Nunes等[6]提出了一个专门用于从以暗网为主的互联网平台上收集网络威胁相关情报的操作系统,包括一些恶意软件和漏洞,并利用数据挖掘和机器学习技术,对收集的数据进行了初步分析。杨溢[7]提出一套可以从网络获取Tor资源的域名地址采集系统。向麟[8]通过改进暗网页面收采集域名。宋胜男[9]针对Tor,I2P和ZeroNet三种域名网络的域名采集进行了分析和研究。曹旭[10]通过实验对基于I2P的暗网资源探测平台关键技术和功能进行了测试。黄莉峥等[11]通过使用信息量计算方法(Information at n,I@n)主动获取暗网中的威胁情报。崔腾腾[12]提出一种基于检索词优化和空间自适应剖析的深网POI方法。李明哲[13]探讨了基于Tor文本内容自动引入外部知识在Tor暗网上识别非法活动的可能性。

现有研究主要针对深网中除暗网以外的资源,即一些隐匿在搜索表单后的Web数据库;少部分针对暗网的研究,一般只爬取与某个特定主题相关的内容,或仅分析某个特定的暗网协议。

2暗网空间威胁信息获取技术架构

通过对暗网空间当前提供的暗网服务情况、暗网节点和网站隐匿资源分布情况以及暗网威胁情报挖掘等探测分析,全面掌握当前暗网空间规模、监测暗网资源要素、挖掘暗網空间威胁情报,实时监控暗网中犯罪交易信息,获取重要军事政治情报,并利用暗网进行保密军事活动的需求。

暗网空间威胁信息获取技术架构如图1所示。在对暗网流量进行分析、溯源之前,需要识别并获取到暗网流量。在暗网中部署客户端和中继节点,通过封闭环境(安装客户端接入暗网)、开放环境(中继节点接入暗网)对暗网流量进行收集。所收集到的暗网流量作为暗网流量识别和分析的样本数据。暗网信息获取具备自动化接入暗网的能力,揭示暗网流量路由机制和加密规律,并对暗网流量进行识别;具备对暗网网站域名获取的能力,探索暗网隐藏服务器的数量和分布。

3暗网空间威胁信息获取技术设计

3.1暗网流量获取

主要采用2种技术获取真实的暗网流量用于分析和利用:一种是搭建客户端接入暗网,主动监测暗网交互流量;另一种是通过暗网中部署的中继节点,被动方式监测流经中继节点的流量。

3.2暗网流量主动采集

可扩展的多服务暗网接入架构能实现对常用的暗网服务Tor,I2P,ZeroNet,FreeNet等自动化接入,以获取主动接入环境下可控、可验证的暗网流量。

3.3暗网流量被动采集

暗网流量被动采集可通过搭建中继节点获取更多的暗网流量,中继节点可以被动地直接观察大量其他信息,包括服务访问时间、传输量和数据流方向,以及为连接选择的前一个和后一个中继。通过修改Tor代码,可获取直接的中继信息,包括建立链路建立等。每个客户端选择一个Guard中继,并将其用作其构建的所有电路进入Tor网络的第一跳入口。Guard中继节点必须稳定,并且相对于其他中继节点具有较长的启动时间。此外,当一个Guard中继第一次成为Guard中继,它可持续长达两三个月的时间,因此更有利于长时间观测流量。搭建的中继节点将保持长期稳定的服务,以最大可能成为选择的Guard中继节点。此外,也可投放多个中继节点,以获取更为广泛的流量信息。为使流量能够尽可能经过已设置的中继节点,针对暗网系统拟采用优先级路由机制,通过伪造中继带宽、性能等方式实现优先路由,提供适用于交互式应用程序的低延迟,高吞吐量的中继,从而获取更多的流经中继节点流量。

3.4暗网内容获取

3.4.1暗网桥节点获取

暗网桥节点是Tor目录服务器中未列出的Tor中继节点。暗网隐蔽桥节点发现拟至少采用以下4种技术路线:

(1)运行中继节点并时序分析、协议分析等获取隐蔽桥节点。

通过部署中继节点并进行时序分析,通过中继可以观察来自电路始发者的往返延迟(查看数据包流向和响应时间),然后将该延迟与在探查前一跳时看到的延迟进行比较,消除所有探测到相邻Tor中继器的往返延迟,同时判断该流向为中继节点还是网桥节点,最终可以获取大量网桥节点信息。

(2)按照一定时间间隔,定时向邮箱地址bridges@torproject.org发送请求桥节点的邮件,从得到回复的邮件中,抽取Tor的网桥节点,按照预定格式存储到节点资源数据库中。

(3)TorBridgeDB会在Tor的官方网站(https://bridges. torproject.org)定时更新桥节点、Obfs系列节点信息,通常会在固定时间间隔内部分或全部更新,Web方式则可通过模拟用户请求页面、识别验证码的过程以此收集Tor的非公开节点。同时,可通过Tor网络的匿名代理机制访问桥节点发布网站,利用定时刷新策略自动更换Tor网络连接链路来实现代理IP的改变,以此提高枚举请求的频率,达到固定时间段内提升资源节点收集数量的目的。

(4)在互联网上扫描使用各类暗网匿名通信协议的服务,观察分析防火墙和DPI的匿名通信流量。通过中继节点,尝试重新连接到与中继连接的每个客户端上的可能端口。許多网桥在端口443或9001上侦听传入的客户端连接。可以从一组已知的网桥地址开始,探测防火墙,观察连接到这些网桥的用户,之后探测接入的用户是否连接到其他地址,实现网桥节点的获取。

3.4.2暗网网站域名获取

暗网网站是通过匿名服务或隐藏服务提供的,其网站域名也称为匿名服务域名或隐藏服务域名(Hidden Service Domain)。它的搜集方式采用以下几种方式结合,尽可能搜集全面的暗网网站域名地址。

(1)通过部署隐藏目录服务器或者建立客户端进行域名搜集。Tor在建立整个匿名服务时,会建立官方目录服务器与隐藏目录服务器(Hidden Service Directory),目前官方目录服务器一共有9台,会定期互相同步数据,而1个隐藏服务目录服务器是1个Tor中继,它具有由Tor权限分配的HSDirflag。部署隐藏目录服务器是一种重要的暗网域名收集方式,通过这种方式可以发现许多孤立节点以及未公布节点。

(2)通过明网检索搜集,明网中直接搜集Tor匿名服务域名地址比较困难,通过“.onion”关键词一般只能匹配到少量地址,因此直接检索并不是一种高效的方式。明网中Tor匿名服务地址搜集技术主要有以下几种方式:

①在搜索引擎中通过优化方法进行关键字检索,具体操作是将Tor匿名服务后缀“.onion”更换为“.tor2web.io”或者“.onion.to”等,不同的后缀代表了不同的Tor2Web节点,然后就可以通过普通浏览器访问,如图2和图3所示。

同时,在搜索引擎中通过检索这些后缀,可以获取到大量的Tor匿名服务域名地址。从Tor2Web项目中汇总出能用于在搜索引擎中检索onion域名的关键词如表1所示。

②在明网中公开的暗网搜索引擎中检索。一些组织和机构为了促进匿名网络的发展,建立了一些明网中的匿名服务搜索引擎(ahmia,Ichidan,hiddenwiki等)。如,Ahmia.fi中存在页面https://ahmia.fi/onions/列出了该站点收录的Tor域名,也可以通过在搜索引擎中传入频率较高的停用词如“the”“on”“is”“at”等作为关键词,获取到搜索内容后通过爬虫等技术进行整理去重。

③在明网中寻找匿名发布内容的站点,并利用爬虫与正则方法等搜集匿名服务域名地址。常见匿名服务发布站点有Reddit,Twitter以及各类灰色论坛等,通过针对Tor,I2P,FreeNet以及ZeroNet匿名服务域名的正则表达式(如Tor地址:^((https|http)?:\/\/)[^\s]+(.onion))进行匹配即可。

(3)通过暗网链接深度遍历

3.2.3暗网主动爬虫

针对暗网,可采用基于Nutch的分布式爬虫的技术路线,适用于针对大批量数据的操作,其可编写插件的机制利于爬虫的模块化和可扩展化,架构如图4所示。

Nutch提供了可扩展接口,用于扩展爬虫功能,编写不同的插件可实现不同的操作,根据不同的需求可实现自定义功能。开源的全文搜索框架Solr直接搜索Nutch获取的页面信息,为爬取下来的页面维护一个索引,也可对抓取结果进行复杂条件查询———模糊查询。在爬取时,可以指定数据源获取信息,使抓取更有针对性、目的性。同时,针对不同暗网网站,可生成定制抽取模板,对有效信息进行抽取。在此基础上采用动态设置User-Agent(随机切换User-Agent,模拟不同用户的浏览器信息),禁用Cookies(也就是不启用Cookies middleware,不向Server发送Cookies,有些网站通过Cookie的使用发现爬虫行为),设置延迟下载(防止访问过于频繁,设置为2 s或更高),使用IP地址池(VPN和代理IP)等方式来克服反爬虫技术。

通过爬虫在暗网网站获取数据和在明网上基本步骤相同,但略有差异。例如Tor在本地使用socks5代理,让爬虫爬取Tor和设置程序使用任何socks5代理的方法基本相同。考虑到大部分场景中需要HTTP代理,无法使用Tor提供的socks5,可以先用polipo或者privoxy设置转发。Scrapy爬虫框架支持设置第三方代理访问Tor等匿名网络,同时也可以采用proxychains等软件设置全局代理。通过基于Nutch的分布式爬虫,结合反爬虫技术,形成大规模分布式暗网爬虫平台,对暗网进行实时爬取更新存储,可以实现大规模暗网网站内容搜集。

3.5暗网空间威胁信息建模与分析

暗网空间威胁信息建模与分析主要包括两部分内容:(1)将爬取的暗网数据进行自然语言处理(Natural Language Processing,NLP),实现将自然语言转换为计算机语言;(2)将获取的信息进行聚合分析,提取出攻击特征和攻击行为等。

利用NLP技术,可以将暗网中的网页文本信息以及搜索引擎返回信息进行处理加工。将复杂且上下文相关的文本信息,转换为数字向量。即可利用后续机器学习算法将其进行分类。以处理网页爬取为例,鉴定引擎首先会爬取待鉴定域名的主站网页。返回格式如下:

获取到页面信息后,处理网页,提取文本信息。如下:

预处理步骤将网页文本全部转化为语义文字,这些文字具有上下文时序相关性。将众多带有标签的语料文本输入后,NLP模型将语义文字处理为数字向量,然后利用机器学习算法进行分类,即可完成对网页文本的分析。利用NLP技术将文本特征进行转义为向量,同时保留原有文本的上下文时序相关性。该技术对情报生产发挥着重要作用。使得IOCs分类不仅仅局限于黑白属性。利用文本信息,可识别如矿池类、数据交易类、漏洞买卖类、黑客工具等类别的识别,实现对暗网爬取信息的威胁建模。

暗网威胁分析采用聚合分析算法对暗网数据某项特征的所有取值聚合,进行分析。如:针对一个暗网域名在一天内的访问数量与每小时频率,每日解析IP数量等,诸如此类。将 IOCs的单项特征的取值进行聚合,可分析并生产情报。

4结束语

主動收集暗网上的重要军事、政治情报,对协助军方准确打击网络犯罪、恐怖主义行为至关重要。本文针对暗网空间环境特点,提出暗网空间威胁信息获取技术,能够对暗网空间威胁进行探测并对暗网中的隐匿资源要素进行监测。当前,暗网采用的技术复杂度越来越高,影响的范围也越来越广,其战略意义也越发重要。研究暗网空间威胁信息获取技术对我军建设保密指挥、办公网络、开展网络攻击、获取重要情报具有很强的应用价值。

参考文献

[1]范江波.暗网法律治理问题探究[J].信息安全研究,2018,4(7):593-601.

[2]罗军舟,杨明,凌振,等.匿名通信与暗网研究综述[J].计算机研究与发展,2019,56(1):103-130.

[3]张永超.暗网资源挖掘的关键技术研究[D].西安:西安电子科技大学,2013.

[4] CAFARELLA M J, MADHAVAN J, HALEVY A. Web-scale Extraction of Structured Data[J].ACM SIGMOD Record, 2009,37(4):55-61.

[5]宋鸣.基于流量分析的信息溯源关键技术研究[D].北京:北京邮电大学,2014.

[6] NUNES E, SHAKARIAN P, SIMARI G I. At-risk System Identification via Analysis of Discussions on the Darkweb[C]// 2018 APWG Symposium on Electronic Crime Research(eCrime).San Diego:IEEE,2018:1-12.

[7]杨溢.基于Tor的暗网空间资源探测技术研究[D].上海:上海交通大学,2018.

[8]向麟.暗网数据高效获取技术研究与应用[D].成都:电子科技大学,2021.

[9]宋胜男.暗网域名收集与内容分析方法研究[D].北京:北京交通大学,2019.

[10]曹旭.基于I2P的暗网空间资源探测技术研究[D].上海:上海交通大学,2018.

[11]黄莉峥,刘嘉勇,郑荣锋,等.一种基于暗网的威胁情报主动获取框架[J].信息安全研究,2020,6(2):131-138.

[12]崔腾腾.检索词优化的深网POI数据自适应剖分获取方法研究[D].北京:中国测绘科学研究院,2019.

[13]李明哲.基于Tor网站文本内容和特征的分类方法[J].网络安全技术与应用,2021(8):36-39.

猜你喜欢

暗网
暗网环境下恐怖主义犯罪活动综合治理模式研究
我国暗网犯罪现状、治理困境及应对策略
东南亚暗网犯罪态势及国际执法合作
暗网犯罪的现状及趋势研究
基于暗网的监控平台设计与实现
嗅出“暗网”中隐匿的犯罪信息
暗网
被“暗网”盯上的年轻人
暗网
——隐匿在互联网下的幽灵
暗网犯罪的趋势分析与治理对策