APP下载

匿名通信与暗网综合治理

2022-11-15兰浩良李馥娟薛益时夏明辉

计算机与生活 2022年11期
关键词:暗网路由消息

兰浩良,李馥娟,王 群,印 杰,徐 杰,洪 磊,薛益时,夏明辉+

1.江苏警官学院 计算机信息与网络安全系,南京210031

2.计算机软件新技术国家重点实验室(南京大学),南京210031

在现实社会中,人们对隐私问题已经有了很好的定义与理解,也存在各种法律和技术手段来保护个人隐私。然而,互联网在设计之初却并未考虑用户的隐私保护需求,这种缺乏隐私保护的现状也一直延续至今。随着互联网应用的日益深入,用户因担心其隐私被泄露而进行涉密通信已经成为其在互联网平台上获取信息时的一种基本需求。当前,尽管基于信息加密的密码技术可以隐藏通信流中的内容信息,却无法实现对通信双方位置信息以及通信关系的隐藏。在这种背景下,旨在保护网络用户通信隐私的匿名通信技术应运而生。所谓匿名通信是指通过分层加密、流量混淆、多跳代理等将业务流中通信实体的网络地址、实体间的通信关系以及通信内容等加以隐藏,从而使攻击者无法直接获悉或推知的隐私保护技术[1]。匿名通信服务通常是借助部署在一定范围内可抵御敌手攻击或破坏的分布式/集中式的匿名通信系统来满足用户的匿名通信需求的。基于重路由或非重路由机制,匿名通信系统可向用户提供匿名化的网络访问,而服务提供商也可对外实现匿名化的隐藏服务。

匿名通信系统在保障用户隐私的同时,其所具有的隐匿、便捷、难以查证等特点也为违法犯罪的滋生提供了土壤。当前,在架构于匿名通信之上的暗网空间里,不法分子借助匿名滥用来从事违法犯罪的活动层出不穷[2]。著名恐怖组织ISIS 的网站几乎全部建立在暗网之上以躲避打击,而早年间隐匿于暗网中的“海盗湾”也是迄今为止世界上最大的BT种子服务器,内含的非法资源不计其数。此外,从2017年以来陆续被捣毁的丝绸之路(SilkRoad)、阿尔法湾(AlphaBay)、汉萨(Hansa)等均是全球领先的暗网交易平台。近年来,涉及数据泄露、恐怖袭击、敲诈勒索、人口贩卖等的案件也在暗网频发。与此同时,利用数字货币的匿名性进行非法交易以规避银行及政府监管的违法活动也在暗网中日益增多,近年来的数字资产反洗钱报告指出平均每年约有数十万枚比特币流入暗网,安全损失近百亿美元。这些暗网犯罪活动给世界范围内的经济和社会安全带来了严峻风险与挑战。为此,国内外针对匿名通信与暗网开展了系列研究。目前,该领域研究主要是围绕匿名通信本身展开的,在此基础上聚焦暗网综合治理,通过技术和法制手段来约束和限制匿名通信的消极影响[3]。具体而言,匿名通信研究主要是通过安全性分析、性能分析、协议分析等来发现并改进匿名通信系统存在的不足,其研究内容涉及匿名性度量、匿名攻击与增强、匿名通信的性能评估与改善等;暗网综合治理的主要目的是借助流量分析、系统漏洞分析等去匿名化技术来了解并掌握暗网空间资源、服务、内容以及用户行为等,在此基础上结合法制层面的策略与制度研究,最终实现对暗网空间的有效监管,其研究内容包括暗网用户行为分析、暗网流量追踪、隐藏服务定位、通信关系确认以及暗网空间安全立法等。

综上,匿名通信以及架构其上的各类暗网服务现已引起人们的广泛关注。当前,国内外存在诸多关于匿名通信与暗网的研究综述,例如:Fachkha 等人[4]从暗网部署与设置、暗网流量测量与分析、暗网流量可视化等角度对暗网相关研究进行了分类和总结;Bian等人[5]对近年来的隐藏服务发现与分析技术进行了梳理与比较;Shirazi等人[6]回顾了以往针对匿名通信系统设计、开发和部署的相关研究。然而,作为一项涉及网络安全与立法、数据加密、分布式系统以及网络测量与行为学分析等众多技术领域的综合性研究,国内外针对匿名通信与暗网研究方面的介绍尚不够全面具体。为此,本文从发展历史、基本理论、研究现状、前沿技术、未来趋势等多角度出发对匿名通信与暗网综合治理展开综述,有效补充现有研究的同时,为该领域未来研究提供借鉴和思路。具体而言,首先回顾了匿名通信的发展历史,并对匿名通信的实现机理及典型系统进行了介绍;其次系统梳理了当前匿名通信所涉及的匿名度量、匿名攻击、匿名增强、关键技术以及性能评估与分析等方面的研究,进而从技术和法制层面对暗网综合治理的相关研究进行归纳总结;最后对匿名通信与暗网综合治理的未来研究和发展趋势进行展望,以期为新形势下的网络空间安全治理提供有价值的参考。

1 匿名通信

本章在回顾匿名通信发展历程的基础上,重点对匿名通信的实现机理与典型系统进行汇总分析。

1.1 发展历史

1981年,Chaum[7]提出了MIX(消息混合)思想并将其应用到不可追踪的电子邮件系统而成为匿名通信领域的开创性工作。在此后的一段时间里,由于Internet 尚未普及,针对匿名通信的研究并不多见。进入20世纪90年代,伴随着Internet的飞速发展以及新的网络应用的不断出现,匿名通信及其相关技术获得了长足的发展。如图1所示,匿名通信的发展大体经历了四个阶段:匿名邮件系统、匿名Web 浏览、匿名隐藏、匿名提升。

图1 匿名通信发展史Fig.1 Development history of anonymous communication

1.1.1 匿名邮件系统

匿名邮件系统作为匿名通信技术最原始的应用,起源于1992年芬兰人Helsingius创建的0型系统Anon.penet.fi[8],该系统相关服务已经于1996年关闭。在此后二十余年的时间里,0型系统又先后经历了Ⅰ型系统Cypherpunks nym[9]和Ⅱ型系统MixMaster[10],现已更迭到Ⅲ型系统MixMinion[11]。新系统在承袭原有系统优点的基础上,致力于新特性与高安全性的实现。

1.1.2 匿名Web浏览

从1996年开始,伴随着互联网的发展与普及,大量以匿名连接为目标的系统得到推广和应用。身处这一阶段的匿名通信主要关注的是匿名Web浏览[12],其中最广泛且最具代表性的实现方式便是代理。目前,存在诸多可提供匿名代理服务的机构,如Anonymizer、SafeWeb、Proxydom 等。其中,三角男孩(triangle boy,TB)便是SafeWeb开发的一种分布式加密代理技术,其通过数据折射、地址伪装等手段来隐匿数据请求者与数据回送者的地址信息。基于代理的匿名通信虽然一定层面可以隐藏用户的身份信息,但其匿名性完全系于知晓用户真实身份的中间代理服务器。为此,更为安全且隐蔽的匿名通信系统就受到了人们的青睐,例如,基于MIX 思想的WebMix 系统以及美国海军实验室的Onion-Routing系统[13]。与基于消息方式构建匿名路径的匿名邮件系统不同,Onion-Routing采用虚电路的方式先于消息传递之前即构建匿名路径,待消息传递结束后再将虚电路拆除。目前,作为应用最广泛的新一代Onion-Routing 系统,洋葱路由(the onion router,Tor)系统可提供更好的匿名性。此外,伴随着点对点技术的兴起,大量基于P2P 的匿名通信系统被提出,如Crowds、I2P、Freenet等。

1.1.3 匿名隐藏

这一阶段主要关注匿名通信的不可观察性,不可观察性与匿名性的关系如下:

不可观察性→匿名性

匿名性+隐藏/掩护/扩频→不可观察性

据此,不可观察性是匿名性的充分条件,但并非必要条件。相应地,该阶段主要关注如何利用信息隐藏、掩护消息、扩频等技术来实现信息的隐蔽传输。Simmons[14]将该问题形式化为“囚徒问题”,并将承载隐蔽消息的载体称为“阈下信道”。此后,大量研究工作专注于如何构建能够抵御各种检测和攻击的“阈下信道”。例如,Shen等人[15]基于组合算法构建了应用层阈下信道LiHB(lost in HTTP behaviors)与HBCC(HTTP behavior-based covert channel)。此外,Feamster等人[16]基于不对称通信理论构建了不可观察通信系统Infranet。相应地,除了“阈下信道”的构建之外,匿名隐藏阶段还主要关注实际部署的不可观察通信系统中的阈下信道的优化、检测与容量提升[17]。

1.1.4 匿名提升

当前,基于MIX 思想与洋葱路由理论的匿名通信系统已经基本成熟,新的匿名通信技术尚难有重大突破。因此,这一时期主要关注匿名通信的安全性、关键技术以及性能评估与改善等。

匿名通信的安全性主要涉及匿名攻击[18]、匿名增强[19]以及匿名度量[20]等。其中,匿名攻击多基于网络层、传输层以及应用层的流量分析发起,常见的攻击有计时攻击、编码攻击、整形攻击、交集攻击、重放攻击、前驱攻击、n-1 攻击、拒绝服务攻击以及女巫攻击等,这些去匿名化的攻击技术为暗网的有效治理提供了重要的技术支撑。相应地,如何在匿名通信的过程中移除相关流量特征(如流量分布、流速率、流持续时间等)对于缓解各种攻击带来的威胁,增强匿名通信的安全性十分关键。此外,匿名度量对于准确评估匿名攻击与增强的效果至关重要。随着匿名攻击与增强技术的不断发展,如何组合和扩展匿名度量的测度、标准和方法以适应这种发展就成为匿名度量亟待解决的问题。

匿名通信普遍采用源重写技术、多重非对称加密技术、重路由技术等来保证其匿名性,这些技术在保证匿名性的同时,无疑也会增大匿名通信的开销。此外,节点所固有的拥塞属性也会不可避免地导致基于多跳链路的匿名通信系统性能的下降。因此,如何在提升匿名性与降低系统资源开销之间取得平衡也是当前匿名通信关注的重点。为此,分别从节点属性、链路属性、流量属性等不同层面构建的路径选择策略常被用于优化匿名通信系统的性能[21]。此外,为了从根本上减少拥塞的发生,针对匿名通信的拥塞控制机制也开展了系列研究。以Tor为例,数据流级拥塞控制主要用于信道中某个数据流的流量控制,而信道级拥塞控制则可用于数据流复用后整个信道的流量控制。

匿名通信的重点在于保证可访问性的前提下实现通信实体与通信关系的隐藏,而这有赖于可访问性技术[22]、匿名路由技术[6]、隐藏服务技术[23]等匿名通信关键技术的加持。其中,可访问性技术是为了规避网络监管与审查而为客户端提供的隐蔽接入技术,其主要包括Bridge、Obfs、FTE(format-transforming encryption)等;匿名路由技术则是在保证匿名通信的性能及安全性的前提下为信息的匿名传输提供支持,其主要涉及洋葱路由、大蒜路由以及基于分布式哈希表(distributed Hash table,DHT)的路由等;隐藏服务技术则用来保障匿名通信服务必须经过授权或借助特殊的软件与配置才能访问,从而避免其被普通的搜索引擎所检索,颇具代表性的隐藏服务技术有Tor、I2P、Freenet等。

1.2 匿名机制

在匿名通信提出的最初十余年里,互联网的普及程度限制了其发展。但是,在此阶段提出并在日后不断完善的一些基本匿名机制却为日后匿名通信的研究与发展奠定了坚实的基础。

1.2.1 MIX机制

Chaum于1981年提出的MIX是当前应用最广泛的一种匿名机制,其主要采用源重写技术对消息进行重写以隐藏消息的地址、时间、顺序等信息,进而实现消息的匿名传输。事实上,MIX 机制的工作原理非常简单。具体而言,作为接收和转发组件,MIX节点会首先利用加密、填充、延迟、重排序等源重写手段对所接收消息的外观和顺序进行修改,从而以一种隐藏输入输出消息之间对应关系的方式输出加工处理后的消息,并以此达到或实现通信关系匿名的目的。MIX 节点对消息的处理过程如图2 所示。对于一次公钥有效期内到达节点的加密消息,MIX节点在依据特定策略对满足条件的消息进行源重写后批量输出。由于消息输出前执行了源重写操作,攻击者无法通过消息的顺序、时间、外观、内容等来推断输入输出消息之间的对应关系,以此保证了通信的匿名性。此外,MIX 节点日常会维护一个公私密钥对<Keypub,Keypriv>,而公钥Keypub会同步发布到可信的密钥管理设备中。用户可以利用从密钥管理设备获取的Keypub加密消息,然后将其发送给MIX节点。相应地,MIX节点对接收消息储存一段时间后,会依据一定的刷新策略将该加密消息转发给接收者或下一个MIX 节点。其中,刷新策略是指MIX 节点在存储转发过程中为改变消息的顺序而采取的系列措施的总称。这一过程可定义为如下形式:

图2 MIX节点工作过程Fig.2 MIX node working process

其中,箭头左右两边分别表述消息的输入和输出,RMIX表示对消息外观的修改,Adr表示目的地址,MIX表示对输入消息M的刷新策略,M′表示输出消息。值得指出的是作为MIX 设计的重点,MIX 刷新策略可以通过改变消息的顺序结构来增加攻击者进行匿名推断的难度。由此,在MIX的设计过程中,不同MIX刷新策略的选取实际反映的是在不同流量模式下对时效性与匿名性的不同权衡。当前,常见的MIX刷新策略有定时策略、阈值策略、定时与阈值策略、定时或阈值策略、定时二项式策略、阈值二项式策略、定时静态池策略、阈值静态池策略、定时动态池策略以及等待出发策略等。其中,阈值策略是指当缓冲区中的消息数量达到阈值n时即将消息全部发出,此种策略无法保证消息的时效性;定时策略是指每隔固定的单位时间t即将缓冲区中的消息全部发出,在保证时效性的情况下,并未兼顾匿名性;定时与阈值策略是指每隔固定单位时间t即检查一下缓冲区的消息是否达到阈值n,达到则将缓冲区中的消息全部发出,该策略的时效性与阈值策略大致相当,但匿名性强于阈值策略;定时或阈值策略是指每隔固定单位时间t或缓冲区的消息达到阈值n,即将缓冲区中的消息全部发出,该策略在低流量状况下的时效性等同于定时策略,而高流量状况下的时效性优于定时策略;定时二项式策略是指每隔固定单位时间t即对缓冲区中的每一条消息以概率p决定是否发送该消息,而以概率1-p决定是否保留该消息,这样在缓冲区有n条消息的状况下,发送m条消息的概率pm如下:

实际上,这些不同的消息刷新策略主要回答了以下三个问题:

(1)何时发送,即发送消息的条件是什么?

(2)发送哪些消息?

(3)每次发送消息的数量是多少?

依据各刷新策略的特点并结合上述问题,表1对当前的MIX刷新策略进行了对比。通过比较可以看出这些刷新策略的出发点主要是不断在MIX消息的存储转发过程中引入不确定性,而这也是推动刷新策略不断发展的主要动力,其目的就是提升MIX 消息存储转发的不确定性,并以此增大敌手推断消息相关性的难度,保证匿名通信系统的强匿名性。相应地,由于MIX刷新策略会直接影响MIX的匿名性,近年来研究人员围绕MIX刷新策略开展了有针对性的研究,在兼顾时效性的前提下,旨在提高MIX的隐私保护水平[24]。

表1 MIX刷新策略Table 1 MIX flushing strategies

除此之外,为避免MIX的单点失效问题,匿名通信链路通常采用基于自由路由的MIX 节点连接方式。具体而言,在自由路由结构的MIX网络中,消息的传输路径是由可变数量的MIX 节点组成的。例如,在图3中,发送者S匿名地传输一组消息给接收者R。在此过程中,可以选择不同MIX 节点构成的传输路径来投递消息。当所选路径为S→Z→W→R时,该传输过程可定义为如下形式:

图3 自由路由MIX网络Fig.3 Free routing MIXNet

(1)S→Z:PK,Z[SW,PK,W(SB,M,DB),DW]

(2)Z→W:PK,W(SB,M,DB)

(3)W→R:M

其中,PK,Z与PK,W为MIX节点的公钥,SW与SB为随机填充字段,M为消息本体,DW与DB为消息的目的地址。

在上述消息的投递转发过程中,每个MIX 节点仅仅知道自己的上下级节点。因此,当消息穿过一组MIX 节点构成的MIX 网络时,即使存在个别MIX节点失效的情况,但只要有一个节点工作正常,则系统的匿名性就可以保证。

1.2.2 DC-Net机制

DC-Net(dining cryptographers network)是基于不可破解的“密码学家晚餐”问题构建的一种匿名通信机制[25]。依托可靠的广播信道,DC-Net在提供发送者匿名服务的同时,可保证接受者匿名。“密码学家晚餐”问题又称DC(dining cryptographer)问题,其描述了一个这样的场景,如图4 所示:三位聚餐的密码学家被告知账单已经被其中的一位就餐者匿名支付了,此时,三位密码学家想通过抛硬币的方式来弄清是谁匿名支付了该账单。抛掷规则是相邻就坐的两位密码学家抛掷同一枚硬币(正面朝上为1,反面朝上为0),之后每个人计算左右两边抛掷结果的异或值作为结果值来提供。特别地,支付账单的人还需要将异或值进行求反后再提供。最后,计算所有密码学家所提供值的异或值作为最终结果。这样,若最终结果为0表示没有人支付账单,反之则表示有人支付了账单。此外,这种方式可在获悉有人支付账单的情况下,有效隐藏支付者的身份信息。

图4 DC问题Fig.4 DC problem

DC-Net 主要通过对DC 问题进行泛化来支持匿名通信:若定义用户Pi发送的消息为Mi,且Pi与其他用户Pj之间商定的共享密钥为Kij,那么DC-Net的通信过程为:

(1)Pi广播消息mi:

(2)其他用户Pj广播噪声Sj;

(3)用户通过计算S来获取消息Mi:

通过上述过程,可以保证消息Mi的匿名性。与此同时,若共享密钥能够做到绝对安全,则Mi的发送者具有绝对的匿名性。此外,发送者不仅可以将消息Mi广播发送给所有的潜在接收者,而且可以发送给特定的接收者。此时,发送者只需将广播消息Mi以特定接收者的私钥进行加密即可,当其他接收者接收到该消息时,获取的内容将是无意义的,而只有真正的接收者才可以解析出正确的内容。DC-Net协议虽然简单且安全,但其也存在以下不足:

(1)需要安全可靠的广播信道支持;

(2)需要数量庞大的共享秘钥,可扩展性较差;

(3)若一轮传输中有两个以上的用户发送消息,则会产生信道冲突,发送效率低下;

(4)用户Pi每广播一条消息,其他用户需要广播一条噪声消息,位复杂度高,现实可用性较差。

针对上述问题,研究人员也对DC-Net 提出了一些有针对性的改进。例如,Sirer等人[26]基于分治思想提出了Cliquenet,该协议在提供强大匿名性的同时,具有良好的可扩展性。Sardroud 等人[27]提出了一种DC-Net 的改进型协议,在保证匿名性的同时将DCNet 的位复杂度降低了O(n)。对于DC-Net 信道冲突的问题,Ren 等人[28]构建了一种新的协议SAMAC(source anonymous message authentication code),该协议在保证匿名性与安全性的前提下,兼具有效性与实用性。

1.3 典型系统

自匿名通信相关技术提出至今,产生了大量的匿名通信系统,较为典型的有Tor[29]、I2P[30]、Freenet[31]、NetCamo[32]、Tarzan[33]、Crowds[34]等。其中,Tor 正式版自2003年发布以来,依托于核心技术“洋葱路由”,现已成为使用范围最广、用户保有量最大的低延时匿名通信系统;I2P 作为分布式匿名通信系统,其主要借助“洋葱路由”的扩展技术“大蒜路由”来实现匿名通信;Freenet作为分布式匿名信息存储与检索系统,其借助多跳文件传输与检索机制来实现匿名性的同时,旨在追求设计层面完全的去中心化、文件的高可访问性、存储的可否任性以及高效的分布式存储与路由等;NetCamo 作为一种事实上的网络伪装系统,其主要借助流量填充和重路由机制来避免流量分析,从而在保证匿名性的同时,提供高安全性。Tarzan作为基于MIX 混合思想的P2P 匿名通信系统,其主要为即时消息与Web 应用提供低延迟的匿名通信服务。Crowds 作为面向Web 用户的匿名通信系统,其系统成员在享受匿名保护的同时,也作为代理参与并提供匿名服务。当前,匿名通信系统从体系结构的角度可分为基于P2P 架构的匿名通信系统和基于C/S架构的匿名通信系统,但当前典型匿名通信系统多数是基于P2P 架构的,从面向应用的角度,匿名通信系统又可进一步分为面向实时应用的低延迟匿名通信系统以及面向非实时应用的高延迟匿名通信系统。相应地,这些特点加之系统本身的设计也在一定程度上决定了这些匿名通信系统各自的优缺点。例如,NetCamo虽可以通过流量填充与重路由来改变消息外观及流量模式,从而避免流量分析攻击,但其设计并不是去中心化的,因此针对中心节点的攻击会使整个系统陷入瘫痪。再比如,作为基于洋葱路由来构建电路并中继消息的低延迟匿名通信系统,Tor虽然可以很好地支持Web应用,但其基于TCP的Socket 通信模式需要借助具有过滤功能的应用程序级代理来规避可能发生的发送者匿名攻击,并且这种模式在应用支持以及性能上也有其局限性。相应地,表2给出了这些典型系统之间的相互比较以及它们各自的优缺点。此外,这些早期产生的匿名通信系统经过若干年的发展和版本升级,现已成为应用最为广泛的匿名通信系统。其中,Tor、I2P、Freenet三者约占整个市场份额的90%。除了上述典型匿名通信系统之外,近年来也产生了一些新的匿名通信系统。例如,Riffle[35]是一种基于混合可验证洗牌技术和私有信息检索来实现高带宽和低延迟的强匿名通信系统,其主要由一小部分匿名服务器和大量用户组成,并且只要存在一个可靠服务器,则所有客户端之间的匿名性即可得到保证。MIC[36]是一种高效且易于部署的基于软件定义网络(software defined network,SDN)的数据中心匿名通信系统。其主要思想是通过修改交换机节点的源/目的地址(如MAC、IP和端口)来隐藏通信参与者。因此,与传统的基于层次覆盖的方法相比,MIC 具有更短的传输路径和更少的中间操作,从而可以更少的开销获得更高的性能。Foggy[37]作为一个基于微服务代理来为用户提供匿名Web浏览的匿名通信系统,其所采用的信息管理分散和服务选择可配置的设计在保证匿名性的同时,在低延迟、易部署和便管理等方面具备一定优势。

表2 典型匿名通信系统Table 2 Typical anonymous communication systems

1.4 匿名通信关键技术

匿名通信关键技术主要包括可访问性技术、匿名路由技术以及隐藏服务技术,本节主要从这三方面对匿名通信关键技术的研究进展进行介绍。

1.4.1 可访问性技术

可访问性技术主要涉及保障匿名通信网络可访问性以及匿名用户隐私的抗审查技术与架构[38]。对于匿名通信而言,抗审查技术是指对抗互联网审查以绕过其封锁,从而匿名访问受审查网络内容的技术的总称,特殊情形下这种访问甚至是可抵赖的,图5所示为一种典型的抗审查通信架构。

图5 抗审查系统架构Fig.5 Anti-censorship system architecture

当前,匿名通信主要有端到端、端到中以及端到云三种抗审查架构。其中,端到端架构[39]是最流行的匿名通信抗审查技术,其原理非常简单,即首先利用部署在代理服务器上的代理程序从被审查的服务器上获取所需的资源,然后代理服务器将这些资源返回给客户端。对于基于端到端架构的抗审查技术而言,其相关研究主要涉及代理资源隐藏和协议混淆两方面。自美国“棱镜”计划曝光以来,世界各国纷纷加大了对本国网络流量的审查力度,这使得审查者具备了较强的监视和过滤自身管辖范围内网络流量的能力。在这种背景下,旨在降低攻守双方内耗的端到中架构开始受到关注。端到中通信架构[40]是基于现有互联网协议的数据报文仅基于目的地址路由,且其路由路径主要依赖于数据报头和路由协议而产生的。端到中架构由Wustrow 等人[41]在第二十届Usenix 安全会议上首次提出,其通信过程大致可分为如下三个阶段:

(1)Telex 客户端向掩体服务器发起传输层安全(transport layer security,TLS)握手协议,同时利用Diffie-Hellman 算法生成一个带隐写标记的tag,而Telex 工作站利用该tag 并结合自身私钥可计算出该TLS 会话的主键,进而成为Telex 客户端与掩体服务器之间的中间人。

(2)一旦Telex 客户端与掩体服务器均收到TLS握手完成消息,则部署在骨干网上的路由器会解密并计算出通信双方TLS 会话的主键,进而完成TLS握手完成消息的验证。

(3)Telex 工作站作为中间人分别与客户端和掩体服务器进行通信。

相比之下,端到云架构[42]则是将代理部署在云端服务器上的内容分发网络(content delivery network,CDN),从而采用域名前置技术将客户端的流量伪装成访问外层Web服务的流量,以此达到对抗审查的目的。

现阶段,匿名通信的抗审查技术主要有接入点区分发布技术以及协议拟态技术。具体而言,接入点区分发布技术主要是在保障正常用户可以顺利连接到接入点的前提下,防止内部恶意敌手发现并破坏这些接入点,其包含两个层面的内容:

(1)尽力保证正常用户能够知悉并轻松地接入匿名通信系统的代理节点。

(2)抵御恶意敌手发起的内部攻击,维护好代理节点的隐蔽性。

类似地,协议拟态技术主要是借助流量随机化、协议伪装、协议形变、隧道传输等方式来实现隐蔽通信。具体而言,流量随机化主要是指借助流量混淆、数据加密等来混淆流量模式以消除消息外观并躲避流量分析的技术;协议伪装是指通过伪装掩体协议以躲避网络审查和深度流分析的技术,然而掩体协议本身的复杂性使得协议伪装往往是困难的,其并不能达到协议层面的不可观察性;协议形变是指借助自定义规则来生成主流的伪装协议格式的同时,通过构造能够绕过深度流量分析监测规则的明文字串来躲避网络审查的技术;隧道传输技术与流量随机化、协议伪装、协议形变等的伪装和模仿不同,其主要通过将真实运行的目标协议承载到合适的掩体协议之上以达到协议层面不可观察性。相应地,作为当前匿名通信系统实现网络服务可访问性的主要方法,接入点区分发布技术[43]主要研究如何在敌手不发现接入点的情况下使合法匿名用户连接到接入点,其依据具体的研究内容又可进一步细分为基于资源消耗的发布策略、基于社交网络的发布策略以及基于恶意用户识别的发布策略。当前,基于资源消耗的发布策略在工程实践中的应用仍然较为普遍(如Bridge、FTE、Obfs)。相比之下,基于社交网络用户信誉的资源发布策略则更多地停留在理论研究层面。与接入点区分发布技术不同,协议拟态技术[44]主要关注如何利用流量随机化、协议伪装、协议形变等来构建隐蔽的匿名通信信道,以此增强匿名通信的抗审查能力,这方面的典型工作有StegoTorus[45]、LibFTE[46]以及CensorsPoofer[47]等。

1.4.2 匿名路由技术

现有的匿名通信系统均是借助匿名路由协议来隐藏通信过程中通信主体的身份信息、位置信息以及通信关系的。不同匿名路由协议在保证匿名性的同时,其相关特性与性能也直接反映了消息是如何以不同的方式被安全可靠地路由到目的地的。相应地,匿名路由技术主要关注匿名路由协议的路由特性及其性能。

(1)基于洋葱路由的协议

洋葱路由协议比较适用于像网页浏览这类低延迟的应用,其是目前应用最广泛的Tor暗网所采用的匿名路由协议。洋葱路由主要采用分层加密与多跳代理机制来存储转发消息,每个中继节点只知道消息的前一跳和下一跳地址。基于此,客户端IP地址、目的服务器IP地址以及数据内容均得到了有效的保护,从而在实现匿名通信的同时保障了用户隐私。Tor 中的每个数据单元均是通过链路进行传输的。客户端是链路的发起方,其通过洋葱代理(onion proxy)周期性地从目录服务器(directory server)下载整个网络中的路由节点信息(如IP地址、公钥等),用来选择节点建立通信链路。

如图6所示,在连接建立之前,客户端从Tor网络中选择三个路由节点分别作为链路的入口节点(Entry)、中间节点(Middle)与出口节点(Exit);在链路建立过程中,客户端分别与Entry、Middle和Exit通过DH密钥协商生成共享密钥K1、K2、K3 用于数据加密;在通信过程中,客户端依次使用K3、K2、K1对即将发出的数据进行AES 加密。相应地,Entry、Middle 和Exit 分别使用K1、K2、K3 对到达的数据进行解密,还原出原始数据发送给服务器。类似地,在收到服务器的回复后,Exit、Middle、Entry会依次使用K3、K2、K1 对其进行加密,而客户端会针对每条来自Entry 的数据依次使用K1、K2、K3 进行解密。由此可见,AES加密保证了Tor通信过程中数据的安全性。此外,对于每一条链路,入口节点可以得到客户端的IP地址,却不知道服务器的IP地址,出口节点只知道服务器的IP 地址,却不知道客户端的IP 地址。因此,客户端与服务器之间的通信关系只有客户端知道,由此保证了Tor客户端的匿名性。

图6 洋葱路由Fig.6 Onion routing

在洋葱路由设计的初期,相关标准建议采用等概率的方式随机地进行节点的选择[48]。然而,出于性能考量,Tor 在实际应用中并未采用此种方式,而是优先选择高带宽节点。除此之外,Tor还使用带宽权重来平衡节点选择,路由策略上则禁止通信路径穿过同一C/16 子网内的两个节点。相应地,Backes 等人[49]探讨了这些变化对路由性能所带来的影响。实际上,自Tor诞生以来,为了提升其匿名性、安全性以及性能,大量研究集中在了Tor 路由策略的扩展上。Ramos[50]提出了一套在传输层和链路层的多路径路由技术,以提高用户的隐私性和性能。Wan[51]提出了一种拓扑隐藏路由协议来提升Tor 路由的安全性和匿名性。Xia 等人[52]提出了一种混合路由方法,将洋葱混合网与逐跳路由相结合,以提高路由弹性。Mitseva等人[53]揭示了路径选择方法对用户匿名性的影响以及进一步研究的必要性。Chauhan 等人[54]从洋葱路由的实现、特点、安全性及弱点等方面详细分析了洋葱路由策略及其演进。

(2)基于DHT的协议

分布式哈希表(DHT)是一种结构化的数据管理模型,如图7 所示,其主要是基于键查找来定位相应存储值,该值一般为分布式网络内中继节点的路由信息。当前研究主要关注点是基于DHT结构的查找策略优化,目的是提高查找效率,当前较为经典的查找策略有Kademlia[55]、Chord[56]和Pastry[57]。这三种查找策略的综合全面比较如表3所示,通过比较可以看出Kademlia 整体上相对较好,因此其也是目前应用最为广泛的DHT 算法。除了经典的查找策略外,一些匿名通信协议在路由策略中还引入了随机性,以此来保证通信的匿名性。例如,AP3作为一种随机漫游协议,其节点选择首先是通过一个随机键来执行,然后借助经典的查找策略Pastry来定位该键,这样可在大部分节点受到攻击时保证通信的匿名性。此外,Tor也通过DHT来发布用于关联隐藏服务的信息[58],其主要以递归方式执行查找查询。而为了向Tor 提供更好的可伸缩性,McLachlan 等人[59]提出了对等AC协议Torsk,以DHT设计取代了Tor的节点选择和目录服务。类似地,作为使用DHT 路由文件请求及响应的文件共享协议Freenet,其在匿名通信领域也得到了持续的关注和研究[60]。

图7 分布式哈希表Fig.7 Distributed Hash table

表3 典型DHT查找策略Table 3 Typical DHT lookup strategies

(3)基于DC-Net的协议

DC-Net 是建立在安全可靠的广播信道之上的,广播消息是否被修改、消息数量以及共享密钥的数量均对DC-Net 协议的效率、可扩展性以及安全性提出了挑战。为此,Goel 等人[61]采用分治思想对DCNet进行了改进,提升了协议效率和可扩展性。类似地,Dissent 协议[62]提升了DC-Net 抵御DDOS 攻击的能力,在保留消息完整性以及成员与消息之间对应关系的基础上,可追溯拒绝服务攻击的源头。此外,Abraham等人[63]基于DC-Net设计了第一个为匿名广播提供解决方案的可扩展系统Blinder,而Nosouhi等人[64]则基于DC-Net设计了一种用于匿名通信的自组织协议HSDC-net,在保证效率与可扩展性的同时,提升了协议输出的稳定性。

(4)基于大蒜路由的协议

大蒜路由作为洋葱路由的变种,其与洋葱路由的不同之处在于大蒜消息可以包含若干个消息且这些消息可以有不同的目的地。大蒜路由的典型代表为I2P,因此其相关研究主要也是围绕I2P 展开的。尽管基于洋葱路由的Tor与基于大蒜路由的I2P是目前两个应用最为广泛的匿名通信系统,但近年来的多数研究主要还是集中在洋葱路由协议以及Tor上。为此,Grigg[65]针对可能使I2P用户群体受益的研究方向进行了阐述。在I2P匿名性、安全性以及性能研究方面,Timpanaro 等人[66]基于netDB 对可能影响I2P匿名性和性能的设计缺陷进行了分析,同时给出了相应的解决方案,而Liu 等人[67]则在I2P 路由发现的基础上分析了I2P 网络的整体状况,探讨了提升I2P 协议安全性的对策。鉴于I2P EepSites 的大规模发现有利于掌握匿名Web 服务的大小、内容和受欢迎程度,Gao 等人[68]分别基于Floodfill 路由器、hosts.txt 文件以及流行的门户网站构造了三种EepSites 发现方法。此外,鉴于I2P 在匿名性方面的稳定表现,Diab 等人[69]基于I2P 协议对车载自组网(VANets)的匿名通信开展了相关研究。

1.4.3 隐藏服务技术

隐藏服务技术是相对暗网而言的,所谓暗网是指无法利用超链接通过公共网络访问,必须使用特殊软件、配置或授权,并借助专用工具才能进入的网络。反过来,暗网服务须经授权或借助特殊的软件与配置才能访问的特性使其避免了被普通搜索引擎所检索的可能。相应地,隐藏服务技术主要是确保暗网服务器的位置信息能够被有效隐藏,进而保证暗网服务的匿名性。此外,隐藏服务技术在为服务提供者提供匿名性的同时,某种程度上也为暗网的产生提供了技术支持[23]。因此,从隐私保护的角度,隐藏服务技术需要不断得到加强和提升。反之,不法分子常利用隐藏服务机制在暗网中从事各种非法活动。为防止隐藏服务被大规模的滥用,隐藏服务发现与分析就显得尤为重要。目前,常见的隐藏服务技术有Tor 隐藏服务技术、I2P 隐藏服务技术以及Freenet 隐藏服务技术等。鉴于Tor 在匿名通信领域的地位与代表性,接下来主要对Tor隐藏服务进行介绍。在此基础上,给出当前针对隐藏服务所开展的研究。

Tor所采用的AES分层加密、多跳代理以及隐藏服务机制充分保障了客户端、服务器端以及通信关系的匿名性。特别地,基于<.onion>域名的隐藏服务机制更是推动了Tor暗网发展与普及。Tor隐藏服务组件主要有客户端(onion proxy,OP)、洋葱路由器(onion router,OR)、目录服务器(directory server,DS)、隐藏服务目录服务器(hidden server directory,HSDir)、隐藏服务器(hidden server,HS)。如图8 所示,Tor隐藏服务器在启动时会生成自己的公私密钥对,同时随机选择若干中继节点作为自己的引入节点(introduction point,IPO)。随后,Tor客户端将该约会节点的信息通过引入节点告知想要访问的隐藏服务器。Tor隐藏服务器在得知约会节点的信息后,也会建立到该约会节点的链路。至此,Tor 客户端与Tor隐藏服务器之间通过Diffie-Hellman握手完成Tor隐藏服务的搭建。此后,Tor客户端便可通过多跳链路来匿名访问隐藏服务器,从而实现客户端与服务器的双向匿名。

图8 Tor隐藏服务拓扑结构Fig.8 Topology of Tor hidden service

近年来,学术界围绕暗网隐藏服务的发现、分析与提升开展了系列研究。Bian 等人[5]对隐藏服务发现和分析的诸多方法进行了综述,介绍了它们之间的内在联系。Biryukov等人[70]分析了Tor隐藏服务的前景,其发现Tor隐藏服务的内容多种多样,但其中最受欢迎的隐藏服务与僵尸网络有关。此外,Biryukov等人[71]揭示了Tor 隐藏服务设计和实现中的缺陷,这些缺陷使得敌手能够测量任意隐藏服务的流行度、删除隐藏服务及对隐藏服务进行去匿名化。进一步地,Kwon等人[72]结合指纹攻击对隐藏服务的防御能力进行了定量的分析,而Loesing 等人[73]结合QoS 属性对Tor隐藏服务的性能进行了刻画。针对隐藏服务存在的缺陷,Nair等人[74]设计了一个从暗网隐藏服务中提取隐藏服务描述符并可识别非法活动的工具,而Jawaheri等人[75]介绍并分析了一种透过比特币支付对Tor隐藏服务进行去匿名化的技术。相应地,为提升隐藏服务,Øverlier等人[76]给出了现有隐藏服务设计中应采用的改进建议。这些建议既可以降低隐藏服务在面对DoS攻击时的脆弱性,又可以将QoS作为服务选项添加,而Liang等人[77]结合短链路和多路径,改进了隐藏服务链路的构建方法,在提升隐藏服务传输效率的同时,降低了遭受流量分析攻击的概率。

综上所述,当前匿名通信关键技术研究主要是围绕可访问性、匿名路由以及隐藏服务展开的。其中,可访问性技术研究主要涉及保障匿名通信网络可访问性及匿名用户隐私的抗审查技术与架构,匿名路由技术研究主要围绕路由策略扩展、查找策略优化、协议效率、可扩展性、安全性以及性能等方面展开,而隐藏服务技术研究则主要关注大规模隐藏服务的发现、分析与提升。最后,关于匿名通信关键技术的总结和对比分析如表4所示。

表4 匿名通信关键技术Table 4 Anonymous communication key technologies

2 匿名相关研究

匿名通信在设计之初即是以用户隐私保护为目标的。相应地,匿名相关研究主要是围绕隐私窃取(匿名攻击)、隐私保护(匿名增强)以及隐私保护效果的度量(匿名度量)展开的。此外,匿名通信的多跳链路在保证匿名性的同时,必然会导致性能的下降。为此,对不同匿名通信系统的性能进行分析比较,在此基础上改进设计以提升匿名通信系统的性能也是当前匿名相关研究的热点。

2.1 匿名度量

对于匿名通信中匿名度量涉及的相关术语,不同的组织和学者有着不同的定义和理解。目前,领域普遍认可的经典定义是由Pfitzmann 等人[78]于2001 年在PET 国际会议上提出的。根据定义,匿名性(anonymity)指的是一个通信实体在一组具有相同特性的对象构成的匿名集合中的不可识别状态。进一步地,Dingledine等人[79]在研究匿名文件存储系统Free Haven的过程中,将系统参与者及其动作进一步细化区分为发送者匿名、接收者匿名以及通信关系匿名。

近年来,匿名度量研究主要是围绕匿名通信的匿名性、不可关联性以及不可观察性展开的。在匿名度量研究的初期,Reiter 等人[8]首先提出了匿名度的概念,其将匿名度划分为如图9所示的六个等级区间以定性描述和衡量匿名性能。其中,Absolute privacy 代表匿名性最好,Provably exposed 代表匿名性最差,而Probable innocence 是对系统所满足匿名性的最低要求。类似地,Chaum[25]提出可以依据匿名集合的大小来衡量系统所提供的匿名性,而受此启发,Berthold等人[80]将匿名度定义为:

图9 匿名度划分Fig.9 Division of anonymity

其中,N表示匿名对象的个数。基于匿名集合的匿名性度量是建立在匿名集合中的对象元素呈均匀概率分布的假设之上的,其并未考虑攻击者掌握的关于被攻击目标的先验知识所导致的非均匀概率分布。为了克服这一不足,Shields等人[81]提出了基于概率的匿名度定义,即将图7所示的六级匿名度量标准以概率的形式加以定量描述:

其中,Pi表示攻击者判断的目标对象为真的概率,而Pi≠0,且其满足:

其中,AS表示匿名集合。尽管基于概率评估匿名度的方式解决了匿名对象非均匀分布的问题,但其并未考虑匿名集合大小对匿名性的影响。因此,单独基于匿名集合或者概率来对匿名性进行度量均存在着不足。为此,Serjantov 等人[82]提出了基于信息熵(香农熵)的匿名性度量方法。信息论匿名度量综合考虑了匿名集合大小以及概率分布的影响,其一经提出即得到了广泛的关注和研究。例如,Shmatikov等人[83]基于最小熵讨论了MIX 匿名网络中不可关联性的匿名度定义和计算方法,其将匿名度定义为:

其中,RAmsgx[i]表示给定消息x的潜在目的地的概率分布。除了香农熵、最小熵之外,雷尼熵、相对熵、条件熵、猜测熵等也被用于匿名性、不可关联性以及不可观察性的度量。

近年来,随着匿名度量研究的进一步发展,表达匿名度的指标也越来越多样。相应地,出现了一些新的度量方法和度量标准。例如,Wails等人[84]提出了基于时间的Tempes匿名度量方法,揭示了系统匿名性可能会随着时间的推移而发生显著的退化;Kuhn等人[85]基于差分隐私的严格形式化方法来量化系统所能提供的匿名性;Tyagi等人[86]则通过均方误差来描述攻击观测值与真实结果之间的误差,并以此度量了匿名系统在面临网络指纹攻击时的隐私安全防御效果。

综上,匿名度量除了有助于帮助用户了解匿名通信系统所提供的匿名保护级别之外,还可用于定量地评估匿名攻击与匿名增强的效果。目前,并没有一种既通用又准确的匿名性度量方法。因此,随着匿名通信系统以及新的匿名相关技术的不断发展,如何组合和扩展匿名度量的测度、标准和方法以适应这种发展是未来颇具应用前景的研究的方向。

2.2 匿名攻击与增强

当前,匿名通信面临着诸如法律、技术、道德等多方面的攻击,本节主要从技术层面探讨匿名通信所面临的攻击及相应的防御策略。在匿名通信领域,根据敌手所具备的能力可将匿名攻击分为主动攻击和被动攻击,后者只能通过收集、观察、记录等方式来被动监听目标节点或流量数据,而前者在此之上还具备操纵目标节点或流量数据的能力。除了可依据敌手所具备的能力对匿名攻击进行分类之外,还可依据敌手的其他属性(视野、参与性、灵活性、先验知识等)对其进行分类。具体而言,依据敌手所具备的视野可将匿名攻击分为局部攻击和全局攻击,前者可对匿名通信网络的某个子集展开攻击,而后者可针对整个匿名通信网络展开攻击;依据敌手参与攻击的程度可将匿名攻击分为内部攻击和外部攻击,前者参与匿名通信的相关协议,可操纵一个或多个匿名通信的网络节点,而后者既不参与相关协议,也不控制匿名通信的网络节点;依据敌手攻击的灵活性可将匿名攻击分为静态攻击和动态攻击,后者与前者的不同之处在于其可以利用获得的信息来动态变换所控制的目标范围。对于一个敌手而言,其可能同时具备多个属性,如既是被动攻击者,又是外部攻击者。为此,本节不对匿名攻击与防御进行具体的分类,而是从典型的匿名攻击与防御技术的角度展开介绍。

时序分析攻击是指敌手基于路由时间来关联出入消息,进而推断传入和传出消息之间对应关系的技术。鉴于时序分析攻击对低延迟MIX系统所构成的威胁,Levine等人[87]对此类攻击的攻击效力进行了分析,并在此基础上提出了一种阻断此类攻击的防御性丢弃策略。Murdoch 等人[88]分析了时序分析攻击的变体可用于攻击Tor 等低延迟匿名通信网络的可能,而Wiangsripanawan 等人[89]则给出了抵御此类攻击的低延迟匿名通信网络的设计原则。当前,匿名通信多从数据包缓冲、延迟和改组等方面出发来设计抵御此类攻击的方法或框架[90]。例如,Backes等人[91]结合了时间概念,建立了一个在时序分析攻击下为匿名通信提供强匿名性保证的框架TUC。

对时序分析攻击而言,可用流量可能会在特定时间段内中断。与之不同,整形攻击会主动改变流量形状以促进消息关联。通过分析和比较形状,整形攻击可以识别出期望值的变化,进而可对不同的网络流进行比较,并以更高的置信度进行流量关联。在匿名通信中,整形攻击常对通信模式、报文数量、报文频率等进行分析[92]。相应地,抵御整形攻击的主要方式有报文分割、报文填充、掩护消息等。

标记攻击是指敌手通过对消息进行标记来关联消息的技术。因此,此种攻击在敌手控制匿名路径上的任意两个节点的情况下即可开展。与标记攻击类似的一种攻击是重放攻击,不同之处在于其只记录而不篡改消息。当前,无论是MIX 系统,还是以Tor为代表的匿名通信系统,其针对标记攻击与重放攻击均提供了较为可靠的防御[93]。抵御标记攻击的出发点是引入某种机制来防止消息被篡改,通常的处理方式有完整性检查、AES加密等,而重放攻击的防御一般可借助时间戳来实现[94]。

指纹攻击是指敌手通过观察和分析被攻击对象与匿名网站之间的加密流量模式来分析或推断用户的网站访问行为的技术,是当前基于匿名通信的暗网监管的重要手段[95]。现有的基于机器学习的网站指纹攻击(website fingerprinting attack,WF)具有较高的准确性[96]。然而,评估这些攻击的环境及条件却引发了对其在现实世界中有效性的质疑。为此,Cherubin等人[97]使用真正的Tor流量作为基本事实对WF攻击进行了首次评估,结果显示攻击者在监控一小部分流行网站(5 个)时可以达到95%以上的分类准确率,但在监控超过25 个网站时准确率会迅速下降到80%以下。因此,在现实世界中实施WF攻击并同时监控超过特定数量的网站可能是不可行的。此外,Cui 等人[98]对网站指纹攻击的诸多假设(连续访问、重叠访问、开放世界模型等)也进行了重新的审视。近年来,随着研究的深入,出现了一些新的WF攻击技术。例如,Sirinam 等人[99]基于卷积神经网络(convolutional neural network,CNN)的深度学习和复杂的架构设计提出了一种针对Tor 网站的深度指纹(DF)攻击技术,其准确率在98%以上。Zhuo等人[100]提出了一种基于剖面隐马尔可夫模型(parallel hidden Markov model,PHMM)的网站指纹攻击方法。该方法通过将生物信息学中的序列分析技术应用于网站指纹攻击,提升了攻击的准确性和可靠性。为避免流量分析中静态指纹攻击的概念漂移,Attarian等人[96]提出了一种基于自适应流挖掘算法的自适应在线网站指纹攻击方法AdaWFPA,该方法通过随时间的推移动态更新攻击模型来避免概念漂移发生,从而提高攻击的准确性。相应地,如何有效抵御WF攻击也成为当前该领域的一个研究热点。Cadena等人[101]分别从网络层和应用层入手构建了一个轻量级的WF防御工具TrafficSliver,该工具通过入口节点上的流量拆分所实现的网络层防御将WF攻击的准确性从98%以上降低到16%以下,而应用层防御也降低了近50%。

前驱攻击源自Reiter 等人对crowds 系统的安全性分析[8],其主要通过多节点共享路径信息来关联消息。Wright等人[102]对Crowds、Onion Routing、Hordes、Web Mixes 等协议在前驱攻击下的匿名性保持进行了调查,结果表明在遭受前驱攻击时,这些协议的匿名性会随着时间推移而逐渐降低。与采用被动方式的前驱攻击类似,女巫攻击[103]作为一种主动攻击,其主要通过向匿名网络中植入或控制相关恶意节点来获取相关系统信息,进而推断匿名关系。面对此类攻击,匿名通信系统多采用静态路径来抵御前驱攻击[104],而共谋检测机制则可用于规避女巫攻击[105]。

传统的DDOS攻击就不容易溯源,而匿名通信系统的身份隐匿特性更为DDOS 攻击提供了便利。因此,针对匿名通信系统所展开的DDOS 攻击尤为严重。Jansen 等人于2014 年提出了一种针对Tor 中继节点的DDOS 攻击,亦称为Sniper 攻击[106],其攻击成本极低,但破坏性极强。具体而言,DDOS 攻击会导致匿名通信链路的拥塞或带宽耗尽,并造成传输延迟或服务的阻断。为此,匿名通信领域针对DDOS攻击开展了一系列有针对性的研究。Jansen 等人[107]通过实时网络实验和高保真度仿真演示了几种带宽DoS攻击的可行性,同时量化了每种攻击的成本及其对匿名通信性能的影响。Mane等人[108]提出了一种可以检测和停用匿名通信网络中慢速DDoS 攻击的方法Tor's Hammer,其有效性在专用Tor网络PTN中得到了验证。Xia等人[109]提出了一种混合路由策略,其可以增加匿名通信网络中的路由弹性,从而有效减轻DoS攻击所带来的影响。

对于匿名网络用户而言,其某段时间的网络行为通常具有一定的规律性,而交叉攻击就是通过对匿名网络用户的行为进行交集分析来确定匿名关系的技术。对于交叉攻击而言,其攻击代价会随着网络规模的增大而增大。因此,抵御此类攻击的一般方法是借助冗余消息来增加可能的收发方。Goel等人[61]提出了一种可扩展且高效的匿名通信协议Herbivore,同时在该协议中引入退出阶段来最小化交叉攻击对节点匿名性的影响。近年来,交叉攻击还衍生出了其他攻击,如HS 攻击、暴露攻击等。相应地,如何有效抵御交叉攻击及其衍生攻击仍是当前匿名通信领域的开放型问题。

n-1 攻击是一种借助消息延迟或虚假消息来孤立待追踪消息,并以此来推断匿名通信关系的技术,其衍生攻击也被称为刷新攻击、泛洪攻击、涓流攻击等[110]。在当前的匿名网络环境下,抵御n-1 攻击的方法主要有绕路传递、时间戳、掩护消息等。Danezis等人[111]提出了一种虚拟流量策略,可以由匿名通信网络中的混合节点实施,以检测和对抗n-1 攻击及其变体。此外,Piotrowska等人[112]设计了一种可提供双向“第三方”发送者和接收者匿名性和不可观察性的低延迟匿名通信系统Loopix,并且其形式化地给出了Loopix是如何保证匿名用户免受n-1攻击的。

总体而言,匿名攻击与增强作为当前匿名通信领域的一个研究热点,其研究一方面聚焦低成本、可行且易于部署的匿名攻击技术来进行有效的去匿名化,从而为暗网的有效治理提供技术支撑;另一方面,其注重从网络层、传输层以及应用层出发来构建新的或改进现有的匿名增强技术或框架,以此来提升现有匿名通信系统的隐私保护效果。

2.3 匿名通信性能评估与改善

匿名通信的多跳链路在保证其匿名性的同时,必然会导致其性能的下降。为此,研究人员对不同匿名通信系统的性能进行了分析比较,在此基础上设计相应的改进方案来提升匿名通信的性能。

匿名通信的性能评估主要关注和分析不同匿名通信系统的性能及差异。Conrad等人[113]对比分析了Tor 与I2P 的性能,结果表明两个系统在特定领域均有其优缺点,而用户最终选择使用哪个系统在很大程度上取决于应用领域。Ries等人[114]依据吞吐量、往返时间、包间隔时间、可靠性、开销等对Tor、I2P、Free-Proxies、JonDonym、Perfect Privacy 等匿名通信系统的性能进行了评价。Hoang等人[115]研究分析了地址阻断技术对I2P性能的影响,结果显示操作10个路由器便可阻断一个I2P客户端对应的95%的对端IP,超过70%的阻断率足以在Web 浏览活动中引起显著的延迟,而90%的阻断率会使网络陷入瘫痪。Kiran等人[116]分析并验证了Shadow和Tor路径模拟器(TorPS)中流隔离对网络性能的影响。Custura等人[117]对性能度量工具OninPerf进行了修改,进而从移动终端用户的角度对Tor的性能进行了度量。Kuhn等人[118]对当前匿名通信系统的性能界限进行了调查和分析。

匿名通信的性能提升主要是从节点属性、链路属性以及流属性等不同层面设计改进方案,以减少匿名网络拥塞,提升链路及相关节点的利用率。Panchenko等人[119]提出了一种新的路径选择方法,该方法可以利用异构网络中的可用容量来提升路由性能。Sangeetha等人[120]基于链路吞吐量、拥塞水平、延迟和可用带宽提出了一种新的流量分配调度(novel traffic dividing and scheduling,NTDS)机制,通过对通信量进行有效的分割和调度来提升Tor 匿名通信网络的性能。Barton 等人[121]提出了一种路径选择技术PredicTor,其使用Tor 的最新测量值训练的随机森林分类器来进行路径选择,从而在高拥塞时动态地避开高拥塞节点,在低拥塞时避开长距离路径。重量级用户和轻量级用户的链路流量分配不均是造成匿名通信网络瓶颈的主要原因。为此,Girry 等人[122]采用链路交换的方法使链路容量得到了较好的利用,进而解决了网络容量有限的问题。类似地,繁忙流量链路排挤突发流量链路是造成匿名通信网络瓶颈的又一原因。为此,Tang等人[123]实现了一个更为先进的链路调度算法,该算法根据链路最近的活动对其进行不同的处理。Hoang[115]分析了基于地址的阻塞技术对I2P性能的影响,并相应地给出了抵抗阻塞的潜在方法和方向。Basyoni[21]使用Google的QUIC协议代替TCP协议,通过消除由握手延迟和链路阻塞问题而导致的TCP延迟来改善Tor网络的性能。

3 暗网综合治理

暗网不同于“表层网”,其属于“深网”中被限制访问站点的一种,另一种被限制访问的站点为不可见网。与其他类型的网络相比,暗网不仅所含数据量巨大(约占总数据量的96%),而且其基于匿名通信所形成的高度隐匿性、交易便捷性、生态混乱性以及接入简便性也为网络犯罪提供了便利。如图10 所示,随着匿名通信的不断发展,匿名滥用导致的违法犯罪在暗网中愈演愈烈。为此,当前迫切需要对暗网治理进行深入研究以有效预防、遏制和打击日益猖獗的暗网犯罪活动。当前,暗网作为一个相对新兴的领域,其治理体系还尚待完善。相应地,暗网治理主要面临着网络技术和法制适用的双重挑战。

图10 匿名滥用Fig.10 Anonymity abuse

3.1 技术层面

为尽快形成适应暗网空间治理需求的技术管控能力,研究人员针对暗网治理开展了大量专项研究,这些研究主要涵盖暗网用户识别与定位、隐藏服务发现、暗网内容及拓扑结构分析、暗网节点发现、暗网流量识别与检测、暗网电子数据取证以及暗网空间资源测绘等。

暗网服务监管面临的首要问题是如何进行大规模的隐藏服务发现,进而对服务类型进行识别与溯源。为此,Crenshaw[124]通过植入定制节点的方式来发现I2P 隐藏服务的真实地址,同时利用该方式对I2P 是否可为托管EepSites 提供的匿名性进行了测试。Matic 等人[125]构建了一种可自动识别隐藏服务地址的工具Caronte,该工具在不依赖隐藏服务协议的缺陷且不需要预先知悉候选服务器列表的情况下,仅仅通过隐藏服务信息流中的敏感信息或配置信息即可实现对隐藏服务IP 地址的识别。Biryukov等人[71]则基于影子技术提出了一种高效的Tor 隐藏服务地址收割方法,后来其借助HSDir节点收割到的39 824个不同的隐藏服务描述符对Tor隐藏服务进行了分析和分类研究。针对受控HSDir恶意收割Tor隐藏服务这一问题,Sanatinia 等人[126]基于Honey onion概念提出了一种HSDir恶意节点的Honion蜜罐识别技术,该技术不仅可以识别HSDir,还可以估计恶意HSDir 的数量。此外,Eepsites 资源的获取与分析也是当前暗网隐藏服务发现关注的重点,通过EepSites的大规模发现可以帮助人们更好地了解和掌握其规模、内容和受欢迎程度。Gao等人[68]提出了三种发现Eepsites 的方式,即运行泛洪填充路由器、收集hosts.txt 文件以及爬取热门门户网站,其中运行泛洪填充路由器的EepSites发现方法不仅简单,而且效率高且成本低。此外利用所提的Eepsites 资源获取方法对I2P 暗网中Eepsites 服务的规模、普及率和可用性进行了分析与评估,结果共发现1 861个在线EepSites,覆盖了I2P网络中80%以上的EepSites。

暗网内容监管主要涉及暗网内容分析与拓扑结构分析,而内容分析又包含语义分析、关键词提取、站点分类等。暗网内容层构建在暗网服务层之上,为暗网用户层提供平台支撑。因此,暗网内容及拓扑结构分析也为暗网用户监管提供支持,基于暗网拓扑结构、信息内容等的测量可以对暗网的构成、用途及用户行为等进行研究。Sanchez-Rola 等人[127]开发了一个专用分析平台,对7 257个洋葱域中托管的150 万个URL 进行了爬网和分析,发现:(1)Tor 隐藏服务组织在一个稀疏但高度关联的连接图结构中;(2)尽管暗网是高度连接的,但其并未展现出表层网的无标度网络和领结结构,从洋葱域到表层网的连接不仅存在,而且极为常见,甚至比到其他洋葱域的连接还要多。Soska 等人[128]对包括“丝绸之路”在内的16 个匿名在线市场进行了长期的测量分析,以便帮助人们了解传统的实体世界犯罪是如何借助匿名在线市场发展在线业务的。Christin[129]也开展了类似的工作,分析结果表明匿名在线市场所售商品多为管制物品,且多数物品的有效期不到三周。此外,尽管商家生存期普遍低于三个月,但市场一直在稳定运行,每日销售额和卖家数量总体都在增长。与此同时,为探索Tor隐藏服务的生态系统构成,Ghosh等人[130]设计了一个自动标记洋葱工具(automated tool for onion labeling,ATOL)来对暗网站点主题进行标记、发现与分类。该工具共有3个核心组件:ATOLKeyword、ATOLClassify 和ATOLCluster。并且在LIGHTS数据库提供的onion数据集上的实验结果表明,ATOLClassify比基准性能提高了约0.12,而ATOLCluster比最先进的半监督聚类算法的分类精度提高了约0.07。此外,为了解Tor 暗网的用途及其所包含的信息,Bernaschi 等人[131]设计并实现了一种探索Tor Web 的方法,基于该方法可对Tor隐藏服务的拓扑与语义之间的关系进行关联分析。

针对暗网中普遍存在的匿名滥用的问题,提出了暗网节点发现方法。Ling 等人[22]对比分析了枚举以及恶意中间路由器两种典型的bridge 节点发现策略,发现基于恶意中间路由器的方法不仅简单、开销小、效率高,而且可以发现任意分布的bridge 节点。Wang 等人[132]借助三年的暗网实测数据分析了家族节点对整个暗网的贡献和影响,揭示了Tor家族节点的规模、带宽、地理分布等规律,结果表明家族节点是Tor节点的一个小而全的功能子集,而与其他非家族节点相比,这些小规模的家族节点可以为Tor用户提供相对稳定、高性能的服务。此外还发现家族节点很自然地会在Tor网络中形成一个热点区域,通过少量节点即可中继高密度流量,因此针对家族节点的选择性攻击可以较低的代价换取Tor 网络可用性的严重下降。Winter 等人[133]提出了一种基于节点外观和行为的女巫节点识别方法。该方法借助时间矩阵、指纹数量以及配置信息等属性可有效识别具有一定相似性的女巫节点。此外,为有效防止暗网恶意用户对匿名进行滥用,还提出了暗网流量识别与检测技术。He等人[134]依据HTTP数据包的延迟性来隔离包含不同Web 对象的响应流量,以此进行暗网流量识别,其还分析了Tor流量的时序特性。结果表明Tor的匿名性并没有预期的那么强,未来应继续提升其匿名性。Wang 等人[135]基于加权时序特征来识别暗网流量,后来其又通过将噪音加入训练集并对数据包进行分割来提升流量识别的效率与精度[136]。Herrmann等人[137]将文本挖掘技术引入识别模块中,利用相关属性特征的归一化频率分布实现了暗网流量的高精度识别,实验结果显示在775个站点和300 000多个真实世界流量样本中识别正确率高达97%。当前,暗网流量识别技术多源于实验环境,加之Meek、Obfs 等新插件的不断引入,相关技术在真实暗网环境下的适用性还有待进一步考量。

面对滥用暗网的用户,其身份和行为越来越受到金融、执法、安全等各方的关注。相应地,用户身份识别与行为分析也就成为当前暗网用户监管研究的重点。为此,Spitters等人[138]提出了一种用户识别技术,该技术在对账户别名进行分类的基础上可对用户身份进行识别。Timpanaro等人[139]设计部署了第一个I2P网络用户监测系统。其借助该系统不仅对使用匿名文件共享服务的用户活动区域进行了分析,同时还评估了这种监控对网络匿名性带来的影响。此外还发现I2P网络中的大多数活动都是面向文件共享和匿名Web 托管的。Demant 等人[140]借助DATACRYPTO工具对15个暗网交易市场的用户购买行为进行了分析,其发现尽管暗网交易市场为毒品分销提供了潜在的全球平台,但暗网交易市场的本地化趋势仍有所提高,这与用户在购买产品时会综合考虑安全性、风险和便利性有关。Bernard-Jones等人[141]通过配置Gmail蜜罐的方式对暗网中用户的非法行为进行了分析,发现相比英语、罗马尼亚语等,暗网犯罪分子更有可能在希腊语帐户中发现敏感信息(银行帐户信息)。此外,研究人员还提取了犯罪分子访问的电子邮件中的重要词汇作为其可能在蜜罐中搜索的关键词的近似值,发现财务术语是最为重要的关键词之一。

就暗网犯罪而言,搜集网络证据是确定侵害事实的第一步。然而,网络证据往往具有易失性,加之暗网犯罪的跨国性与匿名性,办案人员或受害人很难进行有效的举证。针对暗网取证困难的问题,Sikarwar[142]结合Tor暗网和比特币钱包提出了一种暗网取证技术,同时讨论了从Tor浏览器和比特币钱包中检索证据的不同技术;Alotaibi 等人[143]提出了一个暗网取证框架并展示了一些用于检测数字证据的工具,目的是探索暗网数据取证的理念以减少调查犯罪的工作量;汤艳君等人[144]利用Python 的Selenium自动化测试框架对暗网爬虫取证技术进行了研究,通过自定义的流程可自动爬取暗网网页数据,这不仅有助于进一步分析和研究暗网犯罪,同时也为暗网犯罪的有效取证提供了借鉴。当前,尽管国内外针对暗网取证开展了相关研究,但相比传统互联网取证,针对暗网取证的研究还尚在起步阶段。此外,不同于传统互联网取证工具的多样性[145],目前虽有MEMEX[146]及NIT[147]等暗网犯罪追踪技术,但专门针对暗网取证的有效工具仍相对匮乏。因此,如何开发良好的取证框架、技术和工具以提升打击暗网犯罪的能力仍是当前暗网治理领域未完全解决的问题。

作为暗网治理领域的重要内容,暗网空间测绘主要从资源、服务、内容、用户四个层次对暗网空间资源进行探测、定位与挖掘,最终将实体资源映射到地理空间,将虚拟资源映射到社会空间,从而形成对暗网空间资源要素及用户行为的体系认知。近年来,网络空间测绘基础设施与体系日趋完善[148]。其中,美国国家安全局(National Security Agency,NSA)与英国政府通讯总部(Government Communications Headquarters,GCHQ)共同发起的“Treasure Map”计划[149]、黑客大会DEFCON2009 上发布的Shodan[150]以及创宇公司的ZoomEye[151]等均是该领域颇具代表性的工作。然而,与传统网络空间不同,暗网空间价值密度高、资源要素隐匿、边界模糊且技术复杂多变。因此,如何利用网络探测、挖掘和绘制等技术将虚拟、动态、隐匿的暗网空间测绘成多维度、立体的暗网资源全息地图,并最终实现对暗网规模及其演化规律、暗网资源要素以及暗网威胁情报等的挖掘与分析仍是当前暗网空间测绘亟待解决的问题。最后,针对暗网综合治理技术的对比分析如表5所示。

表5 暗网综合治理技术Table 5 Darknet governance technologies

3.2 法治层面

暗网犯罪虽然隐匿性强,但对其进行治理本质上依然属于网络犯罪治理的范畴。一直以来,国际社会高度重视网络犯罪的治理,颁布了一系列有针对性的法律文件。依据制定主体的不同,当前适用于暗网治理的相关法律性文件主要包括国际性的公约与决议以及国家层面的相关法律条文等。

在全球性国际组织公约与决议方面,作为世界范围内的非国家联合体,联合国在2000 年联大通过了《打击跨国有组织犯罪公约》。暗网中的多数犯罪符合《打击跨国有组织犯罪公约》的相关规定,该公约在为暗网治理原则与定罪标准提供借鉴的同时,也为国家之间进行引渡、简化程序提供了法律基础。类似地,《制止恐怖主义行为国际公约》则为暗网环境下的恐怖主义治理提供了新思路,而联合国预防犯罪和刑事司法委员会CCPCJ框架下的《全球网络犯罪方案》结合网络犯罪知识库也在协助各国有效预防和起诉暗网犯罪方面发挥了积极作用[152-153]。此外,2017年联合国在理事会框架内通过了《关于加强国际合作打击网络犯罪的决议》,该决议为暗网治理的国际警务与刑事司法合作提供了借鉴。此后,国际刑警组织于2018年4月举行了首次暗网与加密货币工作组会议,而欧洲刑警组织也于2018 年5 月组建了首支全球性的“暗网打击团队”,致力于为全球性暗网问题提供创新及跨学科式的暗网治理方案。

在全球网络犯罪治理方面,我国也进行了积极参与。2015年5月中俄签署《国际信息安全领域合作协定》,同年7 月《上合组织至2025 年发展战略》出台,明确了成员国加强网络监管、健全网络恐怖主义打击、应对网络威胁的合作机制。此外,2018年我国和新加坡共同发表《联合声明》,进一步推进打击跨境网络犯罪的法律、司法合作。截至2020年11月,我国已与81 个国家缔结引渡条约、司法协助条约等共计169项[154]。

在国家法律条文方面,我国于2016年出台的《网络安全法》首次以国家基本法的形式明确了网络空间安全、网络信息安全以及网络运行安全等的相关法律规定。2017 年6 月中国首部全面规范网络空间安全管理的基础性法律《中华人民共和国网络安全法》正式实施。2019 年1 月公安部颁布《公安机关办理刑事案件电子数据取证规则》,其为国内暗网电子数据侦查与取证提供了详细的程序性参考。

除了上述明确的法律条文之外,国内外针对暗网的法制化治理也进行了相关研究。Chan等人[155]通过实证评估揭示了暗网犯罪活动对暗网治理行动的易感性,对立法者与执法机构进行暗网治理具有关键的政策和理论意义。Mihelič等人[156]探讨了暗网治理在法制层面所面临的诸多限制以及由此造成的影响。Henkel[157]就暗网犯罪侦查所面临的法律、技术困境进行了分析。焦康武[158]给出了总体国家安全观视角下暗网治理的系统化思路以及暗网犯罪的应对路径。

当前,尽管暗网治理的法制化建设取得了一定成效,但国际上还没有适用于暗网犯罪治理的专门性法律文书。暗网犯罪的特殊性主要源于其匿名性以及数字交易货币的虚拟性。随着暗网犯罪这一特殊性犯罪日益呈现出新颖性、多样性与复杂性,传统的网络犯罪治理法规以及国际合作机制已无法满足暗网治理的实际需求。面对此种局面,根据特别法优于一般法的原则,针对暗网犯罪研究并制定专门性的法律法规以便更全面地涵盖暗网犯罪的相关内容就显得尤为必要。

4 总结与展望

4.1 总结

暗网产生之初只是想为人们提供一个具有完全隐私保护功能的网络。然而,伴随着其发展,利用匿名通信隐藏真实身份来从事恶意甚至违法犯罪活动的匿名滥用现象却在暗网中不断滋长。为此,学术界针对匿名通信与暗网治理展开了大量有针对性的研究。为系统梳理这些研究,本文首先介绍了匿名通信发展史、匿名机制以及当前较为典型的匿名通信系统。在此基础上,分别从匿名通信关键技术、匿名性、匿名通信性能三方面阐述了匿名通信领域的研究热点。其中,匿名通信关键技术主要涉及匿名路由技术、可访问性技术以及隐藏服务技术,而匿名性研究主要涵盖匿名性度量、匿名攻击与匿名增强等。最后,针对暗网乱象,分别从技术和法律层面对其综合治理研究进行了探讨和分析。

4.2 展望

匿名通信技术诞生至今,其影响是深远的。尽管当前匿名滥用下的暗网空间仍然混淆着网络边界,但匿名通信技术也为隐私保护开启了一扇大门。因此,匿名通信研究整体上应聚焦匿名通信积极的一面,以有效提升匿名通信的安全性以及性能。另一方面,匿名通信技术的不断发展也给暗网治理带来了新挑战。为此,暗网空间综合治理应通过寻求技术和法制上的双重突破来着力提升治理的能力和效能,从而规避或约束匿名滥用下的暗网所带来的消极影响。综上,可从以下两大方面开展有针对性的研究:

(1)匿名通信相关研究

对于匿名通信而言,低成本、有效且易于部署的去匿名化技术既是当前匿名攻击追求的目标,也是暗网治理重要的技术支撑。为此,可基于网络层、传输层以及应用层的流量分析或系统漏洞分析来构建轻量级的去匿名化系统或工具。相应地,为有效应对匿名攻击,从网络层、传输层以及应用层出发来构建新的或改进现有的匿名增强技术或框架就成为当前匿名增强研究关注的焦点。与此同时,随着匿名攻防技术的不断发展,如何组合和扩展匿名度量的测度、标准和方法以适应这种发展是未来颇具应用前景的研究方向。例如,在度量标准方面,可综合各类输出度量以更全面地涵盖匿名相关技术,进而完成对整个隐私概念的完整性评估;而在度量的测度和方法方面,可先依据测度的重要程度赋予其不同的权值,再通过加权平均来完成对整个系统匿名性的综合评估。此外,针对匿名通信系统的性能瓶颈,如何从节点属性、链路属性以及流属性等不同层面设计改进方案来提升匿名链路及相关节点的利用率也是该领域亟待解决的问题。为此,可在构建或优化路径选择策略的基础上针对匿名通信的拥塞控制机制开展研究,以从根本上减少拥塞的发生,提升匿名链路及相关节点的利用率。

(2)暗网空间综合治理

匿名通信技术的日新月异以及其所赋予暗网的隐匿特性使得当前暗网治理的难度陡增。为此,暗网治理需要在技术和法制上寻求双重突破。首先,在技术上,一方面应研究构建低成本、可行且易于部署的去匿名化技术,同时设计良好的取证框架和工具来提升打击暗网犯罪的能力;另一方面应致力于综合利用网络探测、挖掘和绘制等手段将虚拟、动态、隐匿的暗网空间测绘成多维度、立体的暗网资源全息地图,在此基础上实现对暗网资源要素、暗网威胁情报以及暗网规模与演化规律等的挖掘与分析,最终形成对暗网空间资源要素及用户行为的体系化认知、管理和约束。其次,在法制层面,依据特别法优于一般法的原则,除了需要探索完善暗网空间专门立法之外,还应研究如何创新暗网宣传教育、社会公众意识以及暗网犯罪预警、侦查、打击等的手段机制,唯有多举措并举才能有效遏制暗网犯罪的高发势头。此外,暗网犯罪的全球化趋势使得国际合作的重要性日益凸显。因此,在结合总体国家安全观来推进暗网空间多元治理的前提下,还应进一步加强国际间的交流与合作,研究建立健全暗网空间安全合作与监督机制。

猜你喜欢

暗网路由消息
暗网犯罪的现状及趋势研究
嗅出“暗网”中隐匿的犯罪信息
暗网
数据通信中路由策略的匹配模式
被“暗网”盯上的年轻人
一张图看5G消息
OSPF外部路由引起的环路问题
路由重分发时需要考虑的问题
晚步见道旁花开