基于用户行为数据的网络带宽定制方法研究
2018-04-25王海
王海
摘 要:随着高校信息化发展的深入,网络带宽资源也不断的在扩容变丰富,用户带宽不断提升,但师生人均带宽仍然非常低,不断优化这种不平衡的矛盾,实现有所限制、有所提升差异化的网络服务是提升用户综合感知的一种有效途径。本文通过分析采集的用户特征,基于用户行为数据,给与用户不同的标签,进行人物画像的刻画,在保障/控制用户带宽以及出口稳定的前提下,精细化地对用户的带宽进行定向提速以及应用压制进行研究。
关键词:网络优化 数据分析 用户特征采集
中图分类号:TN929.5 文献标识码:A 文章编号:1672-3791(2018)11(a)-00-02
在网络带宽“提速降资费”的大环境下,国内运营商分别根据自身情况提出了相应的方案,来响应政策层面的要求,高校校园网执行“提速降资费”政策,势在必行。同时,高校信息化的发展对校园网的基础设施也提出了需求,网络带宽作为宝贵的资源,不仅仅需要承载应用系统的建设,更要服务与校园网用户的上网需求,在有限资源的前提下,真正让校园网用户感知到“提速降资费”的成果,需要考虑更多的因素。
1 问题描述
国内高校基本已经接入中国教育科研网,同时会购买运营商的带宽来实现进一步的网络需求,由于国内运营商线路质量、互联互通问题、高校用于购买带宽的预算情况等,目前高校的网络出口线路差异很大,很难存在一个通用的解决方法。
由于各个高校的出口带宽总量以及线路质量不同,高校网络用户享受的网络带宽从4M到100M不等,计费策略总体分为按时计费与按流量计费,无论何种计费,用户总希望带宽越高越好,但这种需求与校园网出口压力成正比关系。
在网络流量报表中,经常容易发现只有极少量的用户几乎顶着限速带宽在使用网络,也有常年在网流量很少的用户,也有每个统计周期流量飘忽不定和十分稳定的用户,分析种种可以采集到的用户数据,有助于网络管理者制定更加科学、符合实际的网络策略,特别是在大数据分析进入校园的背景下,能够有更加多的数据来帮助管理者来研究用户的行为,从而实现网络带宽的定制。
2 用户特征选择
校园网用户是一个个单独的个体,但放眼到整个校园时,这些个体必将表现出来群体的特征,在网络层面也不例外,本文将采集基于社会工程学的一些特征以及网络数据的特征来研究用户的行为分类。
2.1 基于社会工程学的特征选择
人是一种群体生物,群体的作用会影响到每个人的生活、交流、表现、沟通方式。具体到网络用户,用户所在学校、学院、专业、年级、宿舍、性别等都可作为特征进入到用户行为的分析中。
不同高校的网络带宽使用差异性受多种因素影响,如高校的性质、生源组成等,这些因素也从宏观层面决定了该高校的整体流量的特征,比如常见的文科院校视频流量会遥遥领先于其他流量,而理工科院校网络流量构成则不尽相同,常规下载、P2P应用,网盘、游戏等。
再者,互联网中主流的应用近些年变更非常迅速,而网络管理者在不接触到学生的背景下,很难得知当前的用户用网趋势,往往采用以往经验来实施网络的策略,不能得到很好的效果。那么抽样学生样本来得到可用的数据是一个最直接的方法。
以宿舍进行抽取是一个可行的方式,宿舍中成员习惯会有高度的相似性,提取出的共性特征有较高的参考价值,为了验证共性的确定性,可以调取无线轨迹以及校内消费地点等来进行验证,进而可以以宿舍组进行流量的分析,减少初始阶段分析样本的总量。
2.2 基于网络数据的特征选择
更加定量化的评价一个用户的用网特征,还需要网络层面的数据来支撑。目前大部分高校采用的是实名制上网策略,首先需要区分开是路由器用户还是普通用户,可用通过在线时长、流量趋势、并发数变化等特征进行学习区分,本文着重关注的是个人带宽的定制管理,故对此不展开叙述。
2.2.1 用户使用网络应用流量排名
统计周期内用户使用的流量越高,其用网时间则越长,单位流量带给使用者的价值则越低,在带宽紧缺或者高峰期时段,这些流量将于其他用户争夺带宽资源。这部分用户可以提取出来分析其流量趋势,在有设备支持的情况下,可以分析其流量构成,当对总体校园网带宽使用产生影响时,可以分时段、分应用的对单个用户的网络协议进行压制,但保证该用户其他应用运行与他人体验一致。
2.2.2 TCP数据流量与UDP流量
TCP流量和UDP流量是网络中的两大重要成员,不同的用户在用网过程中,产生的TCP流量和UDP流量是不一样的。在高校中,TCP流量具体组成又可以在细分为应用程序的TCP流量、网页的HTTP(s)流量,UPD流量组成可以分为P2P下载流量、P2P应用流量、恶意攻击流量等。对应这些流量的识别,可以更加明确地对用户进行标签。
2.2.3 User Agent区分
当前,用户拥有多个终端接入网络是普遍的事情,然上文可以对用户进行标签,来支撑给下发更加精细的网络策略,但通过User Agent的识别,可以分析用户经常使用的终端,对不同的终端进行更加细腻的控制,如发现用户的大量流量出现的台式机上面,而笔记本或者手机端应用则区域正常,则可以当探知到用户使用台式机时,进行部分应用/协议的压制,而其他终端则放开。并通过持续不断的机器学习,来动态调整这个模型。
3 策略制定
3.1 疏堵结合策略
虽然用户的用网习惯比较难变更,但通过外部的不断引导,仍可以达到一定的效果,对于高峰期的非关键流量的引导到低谷运行是减少高峰期拥堵的有效途径之一。受学生日常作息时间的限制,将这些用户的非关键流量引导到非高峰期去使用,使用时间段内提高部分应用的带宽,特征内应用流量减免的方式,疏通这一部分需求。
3.2 定向调度加速策略
由于各个运营商线路的性质,自然通过越优质的线路来访问网络带给用户的体验会越好,但都通过优质线路访问,会出现带宽的瓶颈,利用上文中形成的用户标签,可以借助DNS的解析策略,将部分标签用户的流量引导到优质线路中。
3.3 视频加速策略
近年来,随着新媒体的不断涌现以及版权意识的不断提高,国内公开的BT站点基本已经消声殆尽,大量的用户转向在线视频网站,对视频加速既要能给用户良好的体验也要能不影响整体的出口带宽使用情况,本地交付技术能很好的实现这一个需求,但随着越来越多的站点转向HTTPS加密协议,传统的缓存原理是不能处理HTTPS加密数据包的,较新的技术是通DNS的配合,将对视频的访问地址变更到本地的代理机器,通过代理机器统一对内服务,并统一从外部获取资源,由于视频存在熱度因素,即获取的一部资源可能会对多个用户同时提供服务。
4 结语
随着网络应用的多元化发展,给与网络用户在统一平台上的差异化服务,能够发掘出网络价值,特别是在大数据的支持下,科学的为用户定制网络策略,显得更有实施的可能性。同时利用这些数据,并结合其他层面的数据,可以更加形象地对用户进行描述,形成可以优化的正反馈。
参考文献
[1] 吴家顺,高静.多系统协同的网络负载均衡方法研究[J].中国教育信息化,2016(4):85-89.
[2] 黄琼珍.高校校园网教育资源利用现状调查与分析[J].中国电化教育,2010(4):75-80.
[3] 梁伟.校园网用户行为分析系统研究与实现[D].北京交通大学,2009.