CDN在社交网络时代中的变革
2015-11-30王慧斌张美庆
王慧斌,张美庆
CDN在社交网络时代中的变革
王慧斌1,张美庆2
(1.邢台学院 数学与信息技术学院,河北邢台 054001;2.清华大学 计算机科学与技术学院,北京 100084)
幂律表明在线社交网络受欢迎的一小部分内容占用了互联网的大多数流量。基于此种原因,内容分发网络(CDN)大大优化了用户的等待时间,改善了带宽成本,使原始服务器的缓存内容更接近最终用户。近年来,OSN的出现使这种情况发生了显著的变化。OSN的自由精神促使用户通过网络或共享媒体去传播信息,热门的内容和剩下的内容之间的流量差距就变得越来越小。同时,人们研究验证了OSN更多的基本性质。例如,内容的时空流行性,它提供了广阔的空间使CDN能够改善自己的表现,即更好的缓存、更强的预抓取性能以及更智能化的实施内容交付。另外,对涉及安全性和私密性的内容也进行了讨论,试图从多方面呈现CDN在社交网络时代的变革趋势。
内容分发网络(CDN);社交网络;在线社交网络(OSN)
内容分发网络(CDN)长期以来被认为是提高用户体验和服务质量(QoS)的强大手段,比原始服务器缓存内容更接近最终用户。通过这种方式,CDN大大优化了用户的等待时间,改善了带宽成本。CDN强大性能的基础是一小部分受欢迎的内容占据了大部分的互联网流量。近年来,蓬勃发展的在线社交网络(OSN)在不同年龄段的人群中变得越来越流行,给网络带来了重大的改变。世界上大量大规模的在线社交网络诸如Facebook、Twitter和新浪微博在不断的更新信息,成为了增加互联网流量的主要贡献者[1]。OSN的自由精神促进用户通过网络或共享媒体传播,这使得热门内容和剩下的内容之间的流量差距变得更小,其中内容共享的用户已经占据了越来越多的互联网流量[2]。因此,考虑如何利用OSN的内容扩散方法去优化CDN的内容缓存和分发策略,是非常必要而且有益的。这样做会出现更多的智能CDN,使用户得到更好的体验,平衡更多的互联网流量。在本文中,我们将首先概述CDN当前遇到的挑战和如何利用OSN的性质去应对这些挑战。其次,我们将仔细地讨论OSN的内容扩散的证明模式。基于这些模式,对一些改善CDN的现行方法进行介绍。接下来,将叙述其他的可能方面和未来的工作。最后,分析和挖掘OSN的内容,帮助CDN更好的了解和预测网络流量,使得内容传递更加智能和高效。
1 内容交付网络及挑战
自从几十年前第一次创建内容分发网络以来,CDN扮演着越来越重要的角色,它通过将用户重定向到合适的代理服务器来提供更好的内容缓冲性能、网络流量平衡和内容交付加速度[3]。在大数据的今天,越来越多的内容需要及时交付给众多的终端用户。但是,用户的数量和数据的规模呈几何倍数增长,良好的服务质量和用户体验会受到更多的关注。因此,CDN通过许多商业公司改善他们的服务并变得愈加繁荣。在用户为中心的时代,CDN的提供商在市场上将会有更多的机会。但是,这些新兴CDN也面临一些严峻的挑战。如图1所示, CDN传统的工作机制是基于观察的一小部分受欢迎的内容来占据大多数的互联网流量,这是著名的幂律。CDN可以在多个服务器分发热门内容并缓存很长一段时间。当用户请求内容时,他们会被重定向到最近的CDN节点服务器,以有效地得到想要的内容,这就是传统的缓存,类似于操作系统等其他缓存设备,它通常不是智能的。近年来,新兴的OSN使小部分内容占据了越来越多的网络流量。这使得本来基于CDN可以很好工作的论调受到了挑战。更重要的是,在线社交网络中尽管大多数的用户贡献较小的互联网流量,但是OSN公司依然需要为他们提供很好的服务,这就是用户对应的长尾理论。如果内容是冷门的,即只有一小部分用户关心,那么就会出现无法有效率访问的现象。这种现象将破坏用户体验,而OSN也会逐渐失去其用户。反过来,CDN提供商也会失去客户。
图1 OSN改变内容分布示意图
从以上讨论中我们不难看出,在社交网络和大数据的时代情况已经大大改变。我们必须优化传统的CDN工作机制,以适应新的网络环境。在这种情况下,给CDN[4]提供了很大的机会和挑战空间。为了完成这些挑战,更智能的基于流量(内容)的政策或机制会应运而生。
2 在线社交网络和数据性质
社交网络数据挖掘领域的最新研究已经证明,社交网络的内容分布遵循一定的模式,这些模式可以用于CDN,以改善其缓存和分配策略。在本节中,我们将主要介绍在线社交网络两类数据的属性,即内容的空间流行性和时间流行性。OSN上大多数用户的朋友地理上彼此接近,很多内容是在本地和短暂地扩散[5]。OSN的这种属性可以给CDN许多有用的建议。例如, 在本地提供内容的同时,可以全球性地跟踪内容[6],并利用距离信息改善内容分发和处理[7-8]。
2.1 内容的空间流行性
尽管在线社交网络使得信息指数传播成为可能。但是最近研究表明,大多数在线社交网络传播内容的流行受到空间限制[9]。OSN上的地理信息可以对CDN的缓存和分配政策造成非常大的影响[10-11]。
对“腾讯微博”的跟踪[12]揭示了社会视频的传播特性。图2展示了在五类视频中传播深度与每个样本所代表的传播树数量之间的关系。可以观察到,大多数的传播树深度不超过10个,平均传播长度小于2个链接。这个观察可以推断,社会拓扑在线内容是受空间限制的,它可以帮助设计新的预取和缓存策略。
图2 传播树和传播深度数量的比较[13]
如图3中所示,可以看出有一个关联性的数量涉及了传播的区域与大小,可以预测有多少实际的区域将参与一个视频的传播过程。因此,利用传播的大小及其动力学,我们有能力预测CDN所需要副本的正确数量。
图3 传播范围与传播大小的对比[13]
2.2 内容的时间流行性
在社交网络上,内容分布除了空间的流行性,也可以根据其时间流行的模式进行分类。有些话题从时间的频率是可以明显区别于其他。内容的预期寿命实际上是CDN最重要的基础,其决定了应当缓存哪些内容以及缓存多长时间。因此,在线社交网络采用临时流行模式来实施更合理和智能的缓存策略,显然这对CDN是有利的。在本节中,我们将介绍时间流行模式的三个类别以及每个类别对应的CDN缓存策略的一些应用。
2.2.1 周期性和非周期性
在线社交网络主题中,最重要的时间流行模式之一是周期性或非周期性的。定期主题可能受到欢迎,经常在特定的时间间隔反复。典型的例子是人为策划的一些著名事件。例如,关于每年中央电视台举办春节联欢晚会、我国假期安排等主题,这些主题会定期成为流行事件。值得一提的是,一些周期性的主题只在特定的地理区域内呈现周期性。例如,推特上的“followfriday”,如图4(a)所示,在全球范围内每周末重复而且并不局限于一个特定的地理范围,而图4(b)中的主题与主题对应的“独立日”随着时间的推移重复,但只局限于两个不同地域(美国和印度)。对于CDN缓存策略,一旦话题已经被确认具有周期性,内容布局策略可以在适当的时候做出相应的反应和复制。
图4 周期性的主题
2.2.2 短暂性和稳定性
根据存在的时间可以将主题分为短暂的或稳定的。短暂的话题只在几个短时间间隔内很受欢迎,可能仅仅延续几天的峰值。相比之下,稳定的主题在几周和几个月依然受到欢迎。比如,一个短暂的主题事件的例子是“比尔·克林顿去朝鲜寻求释放美国记者”,这个主题只流行了几天;而稳定主题的例子是“伊朗选举”,其流行时间超过了2个月。通过这些对比可以帮助决策者制定更优化的缓存策略。例如,内容布局策略可以通过主题的稳定性来决定哪些内容在缓存中保留和哪些内容需要删除。
图5 短暂的与稳定的主题
2.2.3 慢增长/衰变与急剧增长/衰变
在OSN中,一些主题是逐渐获得普及的,而有的迅速得到普及。缓慢的典型例子包括那些是众所周知的及其日期也是可以预测的事件。比如,关于“2012世界末日”的主题接近2012年12月21日时可能会逐渐成为流行的。相比之下,一些主题在一个晚上可能就会得到瞩目。许多用户使用的网络词汇和各种风格在短时间内可能会变得非常流行,我们见证了许多社交网络时代急剧增长的主题。同样,主题的衰退模式也可以归类为缓慢或急剧变化,增长与衰落的模式是相似的。主题的增长率和事件的日期(如果已知),可以协助决定内容的放置策略,可以预测对内容有最大需求的时间,从而在复制内容时进行成本效益的评估。
图6 慢增长/衰退与急剧增长/衰退话题的比较
3 其它方面
除了上述利用CDN优化OSN的方法之外,最近研究表明,还可以通过其他方式实现对CDN的改进。
3.1 P2P和CDN的结合
尽管在大多数情况下CDN的性能令人满意,但它有一个缺点是价格昂贵。CDN提供商必须在世界各地不同的位置部署许多服务器,并配备宽带上网业务,还需要进行大量的、必需的日常维护,这些都增加了CDN的基础设施成本。Facebook本来是通过支付第三方CDN来加速其内容的提供,然而随着这些年其规模变得越来越大,费用支出也相应增加。因此,Facebook正在创建自己的优势网络,在某种程度上来代替一些CDN服务。至于谷歌,它有自己的CDN来加速其YouTube视频服务。CDN最初是在为拥有大规模用户的公司提供加速服务。但是一旦这些公司的用户规模达到了某种程度,以至于费用高到他们负担不起,那么他们就会寻找更便宜的解决方案。比如创建自己的CDN或者一些类似CDN的产品(例如Facebook的网络)。从供需来讲,这似乎是一对矛盾,但这确实是这些大公司正在做的事情。
一些研究者提出,可以将P2P集成到当前的CDN架构中以降低成本[14-16],从而缓解高费用的问题。P2P以低成本著称,不需要昂贵的服务器。然而,P2P并不稳定,连接有时可能会被不合时宜的打破,而CDN在大多数情况下是非常稳定的。因此,P2P和CDN的结合有时可以达到较好的结果。当前主要有两个方面可以将P2P集成到CDN的架构中。首先是在服务器端,CDN可以在服务器节点之间使用P2P,因为这些P2P节点服务器是稳定的。其次是在终端客户机端,不同的客户端可以作为P2P节点。但是,终端客户机和机器的连接是不可控、不稳定的,所以这里仍然有很多问题需要解决。其潜在的应用前景比较乐观。因为通过社交网络传播的内容大多数是空间性流行的,这意味着在大多数情况下,如果一类人对用户发布的内容感兴趣,那么他们的同行可能几乎都是用户的朋友。在这种情况下,我们相信这些用户都愿意在他们的电脑上分享P2P服务。
3.2 安全和隐私的考虑
尽管CDN的缓存策略是可以减少交付延迟的,但这也有可能导致用户的历史信息和其他隐私的泄漏。对于一个成功的CDN,使用身份验证和保护用户的缓存信息是非常重要的。在大多数的在线社交网络中,总是有一个严格的内容访问认证系统,规定在OSN中用户能否以及何时进行访问。内容认证系统代表隐私、保密和在线社交网络的个人主义精神。然而,在当前CDN架构中大部分的资源访问是通过一个独特的资源位置(URL)来进行的,这就会存在信息泄漏和其他的不安全隐患的风险。首先,对于CDN提供商存档帐户和众多OSN用户的身份验证信息通常是不容易甚至不可能的,所以在CDN中实行内容认证系统也变得非常困难。其次,内容认证也不是CDN的主要责任。内容认证系统的引入可能会导致CDN成本的增加,使CDN系统越来越复杂并且性能下降。因此,在OSN中设计合适的内容认证系统接口以及在CDN中的扩展,对于解决CDN目前面临的安全和隐私问题是非常有意义的。
3.3 商业视角
如上所述,许多问题比如安全和隐私问题的解决,需要OSN公司和CDN提供商进行深入合作。此外,将OSN内容的传播模式应用到CDN,OSN公司也应该为CDN提供商提供足够的数据。在这些情况下,将会有许多商业障碍需要克服。创新体系结构可能会为OSN公司和CDN提供商提供解决方案,它们合作并和谐地共享数据而不会导致太多商业竞争。这是一种理想的情况,也是研究团体的一个目标。然而,在大多数情况下,商业障碍很难克服。目前,许多OSN公司开始建立自己的CDN(例如Google的CDN)或类似的产品(例如Facebook的边缘网络)。在这种情况下,OSN和CDN服务提供者都是相同的, 两者的无缝集成变得越来越容易。OSN内容的传播模式可以充分被挖掘和利用,用来帮助改善CDN。因此,这样的模式带来了将OSN完全整合到CDN的新的机会。
图7 CDN架构中OSN的整合
4 结论
在这篇文章中,我们概括了在线社交网络内容传播的几个模式,并说明了改善CDN的方法。在CDN中集成OSN的架构如图7所示。最后,我们还讨论改善CDN性能的其他方面。
繁荣的在线社交网络正在改变整个互联网环境,大多数的用户正在用传播的内容占据着越来越多的互联网流量,这使CDN必须进行改变,以求能够服务大量OSN用户和更好地平衡整个互联网流量。最近的研究证实了OSN的本质,即能够为CDN提供更优的缓存、更强的预抓取性能以及更智能化的内容交付功能。在不久的将来,与OSN更深层次的整合可能会是CDN在社交网络时代最重要的一个变革。
[1]Salvatore Scellato, Cecilia Mascolo. 2011. Track globally, deliver locally: improving content delivery networks by tracking geographic social cascades. WWW '11, 457-466.
[2]Poese, I., Frank, B., Ager, B., Smaragdakis, G., Uhlig, S., & Feldmann, A. (2012). Improving Content Delivery with PaDIS. IEEE Internet Computing, 16(3), 46-52. doi:10.1109/MIC.2011.105
[3]George Pallis and Athena Vakali. 2006. Insight and perspectives for content delivery networks. Commun. ACM 49, 1 (January 2006), 101-106.
[4]Sastry, Nishanth Ramakrishna. "Social network support for data delivery infrastructures." (2011).
[5]Ingmar Poese, Benjamin Frank. 2010. Improving content delivery using provider-aided distance information. In Proceedings of the 10th ACM SIGCOMM conference on Internet measurement (IMC '10). ACM, New York, NY, USA, 22-34.
[6]Anders Brodersen, Salvatore Scellato. 2012. YouTube around the world: geographic popularity of videos. WWW '12, 241-250.
[7]Stefano Traverso, Kévin Huguenin.2012. TailGate: handling long-tail content with a little help from friends. WWW '12, 151-160.
[8]Ruhela A., Tripathy R.M.. Towards the use of online social networks for efficient Internet content distribution. Advanced Networks and Telecommunication Systems (ANTS), 2011 IEEE 5th International Conference on. pp. 1-6. Dec, 2011.
[9]Anders Brodersen, Salvatore Scellato, and Mirjam Wattenhofer. 2012. YouTube around the world: geographic popularity of videos. In Proceedings of the 21st international conference on World Wide Web (WWW '12). ACM, New York, NY, USA, 241-250.
[10]Poese, Ingmar, et al. "Improving content delivery using provider-aided distance information." Proceedings of the 10th annual conference on Internet measurement. ACM, 2010.
[11]Wittie, Mike P., et al. "Exploiting locality of interest in online social networks." Proceedings of the 6th International Conference. ACM, 2010.
[12]http://t.qq.com.
[13]Zhi Wang, Lifeng Sun, Xiangwen Chen, Wenwu Zhu, Jiangchuan Liu, Minghua Chen, and Shiqiang Yang. 2012. Propagation-based social-aware replication for social video contents. In Proceedings of the 20th ACM international conference on Multimedia (MM '12). ACM, New York, NY, USA, 29-38.
[14]Gerhard Haílinger and Franz Hartleb. 2011. Content delivery and caching from a network provider's perspective. Comput. Netw. 55, 1 8 (December 2011), 3991-4006.
[15]Jiang, H., Li, J., Li, Z., & Bai, X. (2009). Efficient Large-scale Content Distribution with Combination of CDN and P2P Networks, 2(2), 13-24.
[16]Fortino, G., & Russo, W. (2008). Using P2P, GRID and Agent technologies for the development of content distribution networks. Future Generation Computer Systems, 24(3), 180-190. doi:10.1016/j.future.2007.06.007
[17]SCELLATO, Salvatore, and Cecilia MASCOLO. "Understanding the geography of Online Social Networks." Cambridge University. PhD thesis. (2010).
[18]Lauinger, Tobias, et al. "Privacy risks in named data networking: what is the cost of performance?." ACM SIGCOMM Computer Communication Review 42.5 (2012): 54-57.
[19]Christodoulou, G., Georgiou, C., & Pallis. The Role of Twitter in YouTube Videos Diffusion. 2012.
[20]Haewoon Kwak, Changhyun Lee, Hosung Park, and Sue Moon. 2010. What is Twitter, a social network or a news media?. In Proceedings of the 19th international conference on World wide web (WWW '10). ACM, New York, NY, USA, 591-600.
2015-02-01
王慧斌(1981-),男,河北邢台人,毕业于河北科技大学,硕士,研究方向:计算机网络、网络安全.
TP393.4
A
1672-4658(2015)02-0176-04