基于DHCP服务的校园网用户特征分析
2017-12-13刘波宋金宝
刘波,宋金宝
(1.中国传媒大学 计算机与网络中心,北京 100024;2.中国传媒大学 信息工程学院,北京100024)
基于DHCP服务的校园网用户特征分析
刘波1,宋金宝2
(1.中国传媒大学 计算机与网络中心,北京 100024;2.中国传媒大学 信息工程学院,北京100024)
随着信息技术的发展,计算机网络已经遍布社会的各个方面,手机等移动设备更是成为人们日常生活的重要部分,因此相关用户特征及网络使用的研究越来越成为当下的热点。目前研究用户特征和网络使用情况的方法都是基于TCP流量进行的,但是当用户大量增加时,原始包的捕获和存储将变得非常困难。还有很多研究有线网络和无线网络的方法,但是使用DHCP将两者进行比较研究的情况却很少见。通过大规模测量和解析校园网中有线和无线网络的DHCP数据,可以获得网络用户登录情况、网络使用情况、用户终端操作系统、终端设备供应商等。研究发现了一些有趣的信息,这些信息反映了移动网络的发展趋势以及一些将要面临的挑战。
DHCP;用户特征;有线网络;无线网络 ;DHCP指纹
1 绪论
对网络工作者来说研究和表征用户行为是非常重要的一项工作。作为网络管理者,研究网络使用细节及用户使用网络的偏爱有助于制定网络策略及保护网络安全。用户和设备是网络的基本组成单元,因此关于网络使用的信息将有助于网络模拟、流量分析或者别的方面的网络研究。对于IT产品开发者来说研究用户的行为模式也是非常必要的一项工作。最近几年无线网络变得非常流行,几乎所有的公共场所或者特殊区域都开始提供无线网络接入服务,如餐馆、商场、大学和公司等。无线网络的增加带来了新的变化和问题,因此研究无线用户的特征再次成为研究的热门话题。
很多研究者尝试着从多个方面对用户行为或网络使用情况进行了研究。Fraleigh C[1]等人 在普林斯顿公司的IP骨干网上设计部署了一套被动测量TCP流量的系统。UDP作为除TCP协议外的一个主要传输层协议,在很多研究中也被广泛关注。 C Lee[2]研究发现,UDP流量在显著增加。文献[3]介绍了一种通过网页访问日志识别用户行为的方法。还有很多关于无线网络的研究。Balachandran.A[4]基于TCPDUMP[5]和SNMP[6]数据研究了无线网络中的用户特征。Tang D和Baker[7]研究了一所建筑范围内的无线网络使用情况。David Kota和Kobby Essien[8]在校园网中进行了类似的研究。
目前有很多关于有线网络和无线网络的研究,很多研究中都提到了无线网络和移动设备增加所带来的改变,但是两者的比较研究很少见。几乎所有的此类研究都是基于TCP流量或者SNMP数据,但是在大规模运行的网络中因受外部条件制约TCP原始数据包的捕获和解析实现比较困难,同时,SNMP数据包因携带信息有限,不能很好地满足研究需求。
本文中对有线和无线的用户特征及网络使用情况都进行了测量,通过比较,将更加清晰地揭示两者的特性。此外,我们的数据解析基于DHCP服务的日志文件,日志文件携带了足够的信息并且大小合适,这个特点帮助我们实现了对校园网中大约16000台设备数据的测量和分析。我们希望大量的设备测量可以带来更加准确的结果。我们还通过DHCP指纹对网络用户的操作系统进行了判断,使用MAC地址获取用户设备厂商信息。这种将网络使用情况与用户使用的操作系统和设备类型结合研究的方法在以往的研究中很少出现。
本文第二部分介绍了我们的数据获取方法和分析方法,第三部分将给出有线网络和无线网络的分析结果及两者的比较,第四部分得出结论。
2 研究方法
本节首先介绍了数据集的来源和获取方法,然后介绍了通过DHCP指纹特征获取用户操作系统的方法,最后介绍了解析DHCP数据探测用户登陆情况的方法。
2.1 基础数据集
研究数据采集于中国传媒大学的DHCP服务器,这是一台Linux操作系统的服务器,使用ISC DHCP软件提供地址分配服务,其中配置了260个C类地址池用于有线网络,191个C类地址池用于无线网络。数据采集时间是2016年3月16日0:00至24:00,大约有380000次IP地址分配成功,大约33000个IP地址被使用,大约有16000个终端设备参与地址申请。本文的研究是在分析以上数据的基础上进行的,其中终端、用户等都是指使用MAC地址作为唯一标识的计算机网络设备。
2.2 DHCP指纹技术
探测远程设备运行操作系统的技术被广泛研究,其中一种是基于DHCP数据包进行探测的技术。DHCP是一个用于用户自动获取IP地址、网关、子网掩码和其他网络参数的自动配置协议。使用DHCP协议的用户不需要配置静态的IP地址,连接网络后可自动上线。根据RFC2131[9],客户端需要向服务器发送DHCPREQUEST数据包请求IP地址和其他网络参数。在DHCPREQUEST数据包中有一个域叫做OPTION55,它列出了客户端想要获得的参数。对于不同的操作系统来说,这些参数的顺序和多少是各不相同的。比如一台安装了windows98系统的台式计算机的OPTION55为“53,61,50,54,12,55,43”,而一台IPONE手机的OPTION55为“1,121,3,6,15,119,252”。因此,通过检查通信中DHCP数据包的这个区域,我们可以实现对用户操作系统的推测。
2.3 基于DHCP的用户登录探测
当一个设备加入网路的时候,首先应该申请IP地址,并且在收到DHCP服务器发出的DHCPACK包之前不能使用网络,因此用户收到的第一个DHCPACK数据包的时间戳就是该用户的准确“加入时间”,把用户的RELEASE数据包的时间戳作为“离开时间”。在知道了用户加入/离开时间后,可以使用离开时间减去加入时间来估算用户的在线时间,但是这种估算方法并不完全准确,因为不是所有的客户端的离开行为被探测到。因此我们只分时段统计ACK数据包的数量,这对于研究用户登录状态已经足够了。基于相同的概念,我们可以探测不同区域用户的登陆情况。根据各区域使用的IP地址段不同,将ACK数据包分类,然后就可以得到各区域不同时段的用户情况。
3 校园网用户特征分析
这一部分中我们基于DHCP数据对校园网进行了测量和分析。首先研究了DHCP服务器和网络的基本使用情况,然后使用DHCP指纹技术和MAC地址,研究了校园网中用户的操作系统和硬件厂商信息,最后研究了校园网中一些与时间、空间相关的参数,用户登录峰值、不同区域用户情况等,并且对有线网络和无线网络的这些特征进行了比较研究。
3.1 网络基本使用特征
首先我们来看一下DHCP服务的基本使用情况。一天中,大约18000个设备的MAC地址使用了33000个IP地址。其中无线设备11094台,使用IP地址25947个,有线设备7251台,使用IP地址7146个(其中大约有1500台设备同时在有线网和无线网中出现)。本文对同一天内无线网和有线网的使用情况进行了对比,详细数据见表1。
尽管有很多用户没有使用校园网提供的DHCP服务,但仍然可以看出无线网络无论从IP地址使用数量还是设备数量都远远超过有线网络,无线网络显然已经成为校园网接入的主要方式。网络管理者注意到了移动设备的这种发展趋势,为无线网络提供了大约200个C类地址池,但是仍然不能满足无线网络的需求。有线网络分配了比无线网更多的地址池,但是无论是分配的IP地址数量还是设备数量都远远少于无线网络,IP地址使用率只有无线网络的1/5。有线网络的登录会话数量虽然少于无线网络,但是每个IP或者MAC的平均数却超过无线网络,这说明目前有线网中的有效用户比例超过无线网。即使如此,无线网络的增长趋势仍然非常明显,越来越成为用户使用校园网的主要手段。
表1 DHCP服务及网络使用情况(24小时)
3.2 操作系统与设备供应商
本节我们将根据DHCP指纹探索设备的操作系统情况,并利用MAC地址获取网络供应商的一些信息。通过检查有线和无线网络,我们发现有大约1500个设备信息同时出现在两个数据集中,这意味着这些设备在同一天中既使用有线网络也使用了无线网络,我们将这类设备信息组成第三个数据集。
图1 用户操作系统分布图
图1中显示了网络中的操作系统分布情况。每一行表示了在不同网络中几个主流的操作系统的分布对比,数字是对应的百分比,其中other表示4个主要操作系统之外的系统或者是使用DHCP指纹方法无法识别的系统。在上图中我们没有发现“Linux系统”,因为“Linux系统”用户非常少(在有线网络中少于0.5%,在其他两个数据集中也很少)。
很明显在无线网络中Android和IOS是非常流行的,至少71%的设备运行的是移动操作系统。反之,各种版本的windows操作系统在有线网络中占据主导地位。一些移动系统在有线网络中被检测到,这与常识相矛盾,但不难解释。这些检测到的移动设备都是接在了各种各样的NAT设备上。当一个打开无线功能的NAT设备工作在“交换模式”或者“桥接模式”时,连接它的移动设备需要向DHCP服务器申请IP地址才能使用网络,因此这些移动设备在有线网络中也会被检测到。这种NAT设备的使用扩展了有线网络的使用范围。
值得注意的是,我们结合DHCP option55、MAC地址以及其它信息探测到在有线网络中有大量的NAT设备(超过1000台)被使用。大部分“other”类型的设备都是NAT路由器。除了IP地址短缺的原因以外,我们认为选择使用NAT设备的主要原因是为了让手机或平板电脑在任何时间、任何地方保持在线。因为DHCP服务器不能与NAT后面的设备通信,所以我们统计的有线网络数据集中移动设备的数量是低于实际设备数量的。NAT设备通过修改网络设备之间的流量打破了网络端到端的原理,因此,在NAT网络中测量和开发是非常困难的。通过以上分析不难看出,移动设备的普及和对无线网络接入的渴望可能会导致越来越多的NAT设备的使用,这将给网络开发和管理带来新的挑战。在“有线/无线”数据集中的设备分布和无线网络很相似,这是因为它们主要是移动设备,它们通过无线网桥接入有线网络,从而这些设备同时出现在有线和无线网络中。
通过设备的MAC地址,我们可以推断设备厂家,至少可以推断网卡供应商。表2显示了网络中使用数量最多的设备供应商排名信息。设备供应商信息和操作系统在很多方面是一致的。比如在无线网络中拥有大量的TP-Link厂商产品,这进一步证实了NAT设备在网络中的广泛使用。
表2结果表明,大学里面高端手机品牌比普通品牌更受欢迎,其中苹果公司的系列产品在数量上遥遥领先,是目前最流行的选择。安卓产品中华为设备数量最多,OPPO、小米、VIVO也都超过了三星,可见国产品牌已经越来越被大家接受和认可。当然,如果开发一款应用产品,最好还是即支持IOS系统又支持安卓系统,因为两者都占有可观的用户规模。
表2 网络终端设备主要供应商
3.3 区域与时域分析
接下来我们分别从时间和空间角度对数据集进行了分析。图2显示了基于时间的网络使用情况,其中X轴表示时间,Y轴表示用户数量,蓝色的曲线代表有线网络,橙色曲线代表无线网络。
图2 基于时间的校园网用户分析
通过图2可以看到有线网络的曲线比较平滑,因为其中的设备主要是很少移动的台式计算机和笔记本电脑。有线用户数量在6点钟到7点钟出现第一次较大增幅,这是因为大学里面晚上会断掉本科生的电源,而在早上6点钟电源恢复时,很多设备会自动启动并申请分配IP地址。7点钟以后随着教工陆续开始上班,网络用户数量逐步增加,一直到11点到达第一个峰值。午休期间用户数量短暂减少之后开始增加,15点到达当日最高峰。23点之后,学生宿舍断电,有线用户减少并进入平稳期。
相比有线网络,无线网络用户曲线出现有趣的波动。用户数量整体上随学生上课时间发生变化。早上6点以后用户数量迅速增长,8点钟到达第一个高峰,此时,第一节课开始。然后用户数量继续增加,10点到达上午最高峰,此时,大约是上午三、四节课的时间。大家好像在中午饭时间对上网没什么兴趣,但是随着下午课程的开始,在线用户数量又开始增加,分别在13点、15点到达了下午用户数量的高峰。整体而言,有线网络曲线受教工办公时间影响较大,而无线网络曲线与学生上课时间相关更为密切,这一点在图3地域分析中进一步得到证实。
图3 基于空间的校园网用户分析
图3结果表明,有线网络用户主要分布在办公区和学生宿舍区,其中办公区以有线用户为主,无线为辅,学生宿舍区有线用户和无线用户比例相当。无线用户最集中的区域是教室和图书馆,这两个区域有线用户极少。
结合图2和图3,可以看到校园网用户最多分布在办公区,这主要是因为学生宿舍区存在多家网络运营商接口,有一部分学生使用了非校园网的网络接入方式。相比于图书馆,学生们在教室和宿舍上网更为频繁。图2时间曲线表明无线网相比有线网来说用户数量多,波动大,这些特征导致网络负载加大,给网络部署和管理带来了新的挑战。
4 结论
本文通过分析DHCP服务数据对有线和无线网络的使用情况和用户特征进行了评估。我们发现在现今的生活中无线网络和移动设备越来越流行,移动网络设备数量追上甚至超过了传统网络设备。进一步研究显示,移动设备的增加导致了有线网络中NAT设备的广泛使用。这可能会破坏网络的端到端原则,阻碍网络的开发和管理。此外,通过时域方面的研究可以看到无线网络可能必须面对经常变化和具有挑战性的情况,因为无线网络具有更多的可变负载并且无线用户更加频繁地加入和离开。将来仍然有很多工作需要进行,比如详细的用户在线时间分配等。结合其他技术和数据的研究结果,将有助于我们研究的进一步进行。
[1]Fraleigh C,Moon S,Lyles B.Packet-level traffic measurements from the Sprint IP backbone[C]. Network,IEEE,2003,17(6):6-16.
[2]Lee C,Lee D K,Moon S. Unmasking the growing UDP traffic in a campus net-work[M]. Passive and Active Measurement. Springer Berlin Heidelberg,2012:1-10.
[3]Kollmann E. Chatter on the Wire:A look at DHCP traffic[OL]. Online Avalia-ble:http://myweb.cableone.net/xnih/ download/chatter-dhcp.pdf,2007.
[4]Balachandran A,Voelker G M,Bahl P. Characterizing user SIGMETRICS Performance Evaluation Review[C]. ACM,2002,30(1):195-205.
[5]Jacobsen V,Leres C,McCanne S. Tcpdump/libpcap[DB]. 20110724[20120907].http://www.tcpdump.org,2005.
[6]Case J D,Fedor M,Schoffstall M L. Simple network management protocol(SNMP)[S]. 1990.
[7]Tang D,Baker M. Analysis of a local-area wireless network[C]. Proceedings of the 6th annual international confer-ence on Mobile computing and network-ing,ACM,2000:1-10.
[8]Kotz D,Essien K. Characterizing usage of a campus-wide wireless network[C]. Proc ACM MobiCom’02, 2002:107-118.
[9]Droms R. Rfc 2131-dynamic host confi-guration protocol,March 1997[S]. Obsol-etes RFC 1541,Status,DRAFT STANDARD,1997,3(1).
(责任编辑:宋金宝)
AStudyonUserCharacteristicsofNetworkBasedonDHCP
LIU Bo1,SONG Jin-bao2
(1.Computer and Network Center,Communication University of China,Beijing 100024,China2.Information Engineering School,Communication University of China,Beijing 100024,China)
Internet is playing a more and more important role in today’s society. Wireless network and mobile device are becoming part of our lives. So it’s significant to learn about the information of the us-ers or network usage. Both network methods of user characterizing and network usage are mostly bas-ed on TCP traffic study. But when facing to a large amount of users,raw packet capturing and storing would be difficult. There were previous methods researched the fixed network or wireless network,but a comparative study is hardly seen. So in this paper,we measured the large-scale fixed and wireless network of our campus,via DHCP analysis. We analyzed the user behaviors such as distribution of user join time,user count. We also studied about user’s operating system by introducing DHCP OS fingerprin-ting. We found some interesting results,which revealed the trend of mobile network and some challenges might be brought in.
DHCP;user characteristics;fixed network;wireless network;fingerprinting
TP393.1
A
1673-4793(2017)05-0001-06
2017-06-11
全国教育信息技术研究“十二五”规划2015年度青年课题(156242358)
刘波(1978 - ),男(汉族),山东德州人,中国传媒大学计算机与网络中心工程师. E-mail:lb2008@cuc.edu.cn