一种面向藏区Web站点的指纹信息提取方法
2017-02-14郭晓军郭沛精
◆郭晓军郭沛精
(1.西藏民族大学信息工程学院 陕西 712082; 2.西藏光信息处理与可视化技术重点实验室 陕西 712082)
一种面向藏区Web站点的指纹信息提取方法
◆郭晓军1,2郭沛精1,2
(1.西藏民族大学信息工程学院 陕西 712082; 2.西藏光信息处理与可视化技术重点实验室 陕西 712082)
Web站点指纹信息是网站安全防护重要技术之一。针对藏区内Web站点的重要性和特殊性,本文以访问藏区Web站点过程中的域名DNS解析记录、HTTP Response报头字段特殊标识、字段顺序及TCP流数量四个特征来构建Web站点指纹信息,并在常见藏区Web站点进行测试。结果表明本文方法能有效提取出区内Web站点指纹信息。
网络安全; Web站点指纹; 隐私保护; Web站点防护
0 前言
西藏自1999年实现宽带上网以来,互联网发展和普及已经成为西藏信息化建设中十分重要的组成部分。这些Web站点提供西藏文化、藏医藏药、藏学研究、教育旅游、在线交易、在线办公等各种信息服务,已经成为西藏人民享受最先进科技成果的第二条“青藏铁路”。然而,这些站点所面临的信息泄露、站点篡改等严重安全问题。一方面,黑客等利用某些不正当技术手段窃取保存于这些网站上的个人情况、网购资料、银行账号等个人私密信息,造成严重个人隐私信息泄露; 另一方面,作为国家政治敏感的区域,西藏在各方面一直遭受藏独分子、达赖集团、反华势力的觊觎和干扰。因此不排除这些非法势力雇佣技术人员专门针对重要Web站点信息进行收集与窃取,并利用这些信息制造恶劣事端,以达到破坏西藏经济社会和谐稳定的目的。
在众多Web安全防护技术中,Web站点指纹技术可以快速从Web站点中获取相关特征以形成Web站点指纹,并能方便地实现对Web站点是否被篡改情况的初步判断。因此研究藏区Web站点指纹信息提取,对预防藏区关键Web站点信息泄露事故发生,保证西藏和谐稳定的互联网环境具有重要的作用。本文提出藏区Web站点指纹信息定义,并从多个特征进行描述,最后对常见的藏区Web站点进行了测试。
1 Web站点指纹信息定义
1.1 特征选取
(1)Web站点域名DNS解析记录
图1 藏区Web站点DNS解析示例
访问Web站点过程的首要过程是对Web站点的域名进行DNS解析,从而得到所对应的IP地址,才能进行后续的通信过程,如图1所示。尽管现在很多Web站点采用了CDN、反向代理(如Nginx)等技术,但其域名所得到的IP地址较为固定。因此本文中采用域名与其解析出的IP地址构成的信息对儿作为藏区内Web站点指纹信息的组成之一,记为Pair。
(2)HTTP Response报头字段特殊标识
在客户端浏览器向Web站点发送HTTP GET请求之后,正常情况下,Web站点服务器会返回HTTP Response Code 为“200”的响应报头[1],且该报头由若干个字段组成,如图2所示。该报头中的有些字段值具有唯一性和独特性,能较好地作为Web站点服务器的标识,如图2中的“ETag”字段及其值,因此可作为藏区内Web站点指纹信息的重要特征,记为Lable。
图2 典型的HTTP Response报头
(3)HTTP Response报头字段顺序
鉴于不同Web服务器软件在实现HTTP协议上存在差别,因此对于HTTP Response报头内的字段顺序安排也存在差异[2]。例如图3所示,IIS、Apache和Nginx都含有“Server”、“Date”和“Content-Type”三个字段,且此三字段的顺序完全不同,差别较大。因此可将这一显著特征作为藏区内Web站点指纹信息的组成部分,记为Order。
图3 典型Web站点HTTP Response报头字段顺序的示例
(4)TCP流的数量
藏区内Web站点的主页一般包含文字、图片、音视频、Javascript库等大量元素。为提高传输这些主页元素的效率,Web站点会使用多个TCP流来传输不同的元素。此处TCP流的定义采用传统的五元组定义方法,即源IP、目的IP、协议、源端口和目的端口。图4给出了访问某个藏区Web站点产生多个TCP 流的示例。从图中蓝色框内的源端口号可以看出,该Web站点的服务器分别向客户端的TCP端口57642~57647传输数据,也就是说启用了6条TCP流。
由于各Web站点服务器系统实现的软硬件差异,访问不同站点主页过程所生产的TCP流数目也不同。因此,TCP流数目也可作为标识Web站点指纹信息的重要依据,记为Num。