绿色大数据研究进展*
2016-11-30宋欢欢章露萍陈松林廖润发
宋欢欢,章露萍,文 红,陈松林,廖润发
(电子科技大学 通信抗干扰技术国家级重点实验室,四川 成都 611731)
绿色大数据研究进展*
宋欢欢,章露萍,文 红,陈松林,廖润发
(电子科技大学 通信抗干扰技术国家级重点实验室,四川 成都 611731)
无所不在的移动设备、无线传感器、智能设备和科学仪器时刻都在产生数据,大数据的绿化问题已经成为通信发展的巨大挑战。主要介绍几种比较典型的节能措施,包括基本原理和方法,并对绿色大数据技术的挑战和开放性问题进行探讨,最后展望发展方向,认为如何降低大数据垃圾带来的功耗,如何在压缩数据时不引起数据分析的副作用以及如何利用软件定义网络和网络功能虚拟化以实现有效的网络管理,是绿色大数据发展面临的挑战。
绿色大数据;绿色数据中心;功率分配;能量收集
0 引 言
当前,通信信息技术(Information and Communication Technology,ICT)开启了人类步入智能社会的大门,同时带动了现代物流、物联网、互联网、电子商务、网络金融等现代服务业的发展,催生了车联网、新能源、智慧城市、智能电网等产业的兴起。各种业务数据正以几何级数形式爆发[1],给人类实现数字社会、网络社会和智能社会造成了极大障碍。如今,TB、 PB、EB时代已成为过去,全球将正式进入数据存储的“泽它(Zetta)”时代。
大数据是一个大型或复杂的数据集,传统的数据处理应用程序已经不能够处理如此巨大的数据量[2]。大数据蕴含着巨大的社会、经济和商业价值。大规模数据集和分析越来越多地被政府机构、非政府组织和私营企业所应用。大数据技术是新一代的科学技术,在保证服务质量的前提下,用来处理海量的多种类型数据[3]。这种新技术基于无线资源虚拟化实现[4],以用户租借、支付资源为模型。无线资源虚拟化指的是使用一组给定的网络物理基础设施来创建一套逻辑体系结构。
大数据在抓取、管理和处理的各个环节都在消耗大量的能量,如何处理大量的数据以及如何实现环境可持续发展非常关键。大数据需要一个消耗大量计算功率和资源的规模庞大的数据中心,而能源消耗和其他资源的增加会导致温室气体排放增多,从而严重影响环境。ICT产业占全球能耗的2%~4%,是全球第五大能耗产业[5]。Gartner指出,IT基础设施需要为全球2%的二氧化碳排放量负责[6]。2007年,ICT产业碳排放量已经达到了8.5亿吨。按照此速度增长,预计到2020年,将会增长至14亿吨。因此,有必要采取节能措施,在大数据生存周期内减少资源消耗,降低有害气体排放,实现自然环境的持续性发展。
绿色大数据是绿色ICT重要的一部分,主要包括绿色计算[7]和绿色通信[8],且这两个概念高度重叠。Wu[9]详细阐述了大数据生存周期内三个阶段的绿色通信问题:(1)数据产生、数据获取、数据通信;(2)数据存储;(3)数据分析和处理。通过分析大数据绿化措施的相关性,提出了有效能效(Effective Energy Efficiency,EEE)和有效资源效率(Effective Resource Efficiency,ERE)两个概念,为未来大数据的发展提供了新的观点和潜在的绿色度量方法。文献[10]提出一种基于压缩感知技术的低复杂度传感器框架。压缩感知框架是基于随机取样和当传感器数据在空域及时域具有稀疏特性时的一种新的多维随机取样。新的空时压缩机制满足资源受限传感器要求,相比其他只在一个维度上进行压缩感知的方案,明显提高了编码效率,节省了每个传感器的能耗。
1 绿色数据中心研究进展
目前,数据中心(Data Center)是处理IT(信息技术)大数据主要的基础设施。文献[11-12]指出,在数据中心服务器处理数据时将消耗45%的能量,加热、通风和空调大约消耗30%的能量。随着大数据服务与应用的快速发展,数据中心将消耗越来越多的能量,将成为一个重要和具有挑战性的问题。
近年来,云计算已成为计算机网络和web供应的重大革命技术。由于巨大的应用前景,许多厂商如亚马逊、IBM、华为已经开始设计、开发和部署云解决方案来优化自己的数据中心。数据中心功率预算非常重要。为了更好地管理云计算中动态用户位置和行为的web服务功耗,Wu Z[13]利用分布树结构,提出了一种基于逻辑层的功率预算设计方案。通过引入不同服务的分类功率上限(Classified Power Capping),在混合工作负载时作为控制参考,从而最大限度地节省功率。
云计算架构满足服务水平协议(Service Level Agreements,SLAs)的虚拟机整合,可以提高云功效。Corradi[14]提出一种有助于及时收集物理服务器功耗信息的云监控基础设施。所提方案不同于已有工作侧重于解析建模和优化技术,而是使用一个更实际的观点了解服务器整合(Server Consolidation)在多大程度上有效降低功耗。通过收集IBM在都柏林创新中心的云部署信息,验证了虚拟机整合可以大幅降低功耗,虚拟机迁移是提高最终云功效的一个非常可行的解,通过整合虚拟机可以驱动实现功耗和性能之间的均衡。
云计算技术非常适合降低维护IT基础设施和投入资本的代价,云计算环境下并不能充分预测能量消耗。Park[15]提出一种基于CPU、内存和硬盘利用率来预测能耗的方案。该方案并不需要利用设备测量实际能量消耗。为了验证方案的正确性,作者在主机上安装了虚拟机,并利用HPM-100A来测量主机实际能量消耗。每个资源每秒获得资源信息,通过云监控保存在各自的Mysql(数据库系统)中。通过CPU测试比较和分析预测功率消耗和实际能量消耗,结果显示二者平均错误率大约为4.22%。
文献[16]则构建了一个性能评价模拟器(称为绿色数据分析仪),用来模拟成千上万台服务器组成的数据中心网络。对于研究者来说,该模拟器将是验证数据中心节能措施(功率调节和闲置逻辑)性能非常有用的工具。Alhaddadin[17]提出了一个用户文件感知策略切换管理框架,用来开发和区分用户配置文件,从而达到更好的功效和资源优化管理,同时还保障了其云服务的服务质量。Asad[18]提供一种工作于数据中心网络下的编码方案,可以动态控制降低通信数据体量和功耗,并且分析了分布式数据中心在不降低信息交换率的情况下最小化通信数据量的计算复杂度。
2 基于能量收集通信网络研究
现代通信系统关注信息传输容量而忽略能量传输问题。文献[19]引入一种新的通信网络叫做数据和能量综合通信网络(Data and Energy Integrated Network,DEIN)。这种网络合并了两个传统分离过程,即无线信息传输(Wireless Information Transfer,WIT)和无线能量传输(Wireless Energy Transfer,WET),实现了数据和能量的联合传输。能量传输利用射频技术实现能量收集(Energy Harvesting,EH),而不是信息解码。无线传感器产生大量小块数据构成的无线大数据,成为DEIN网络出现的驱动力之一。这些传感器通常由电池供电,迟早会耗尽电量而不得不被取出更换或充电。EH已经成为非接触式电池无线充电技术,并广泛应用于无线传感器网络。DEIN通信网络考虑WIT和WET在全系统的聚合不仅是物理层也包括更高层,如媒体访问控制和信息/能量路由。信息和能量之间的权衡,二者的有效互动需要各层设计新颖的网络协议栈,如图1所示。
图1 DEIN总体协议栈(用户侧)
下面介绍一个DEIN底层资源公平分配案例。如图2所示DEIN通信模型中,假设基站配置M根天线,K个单天线用户配置有限电池容量(M≥K),第i个用户表示为Ui(i=1,…,K),每个用户的电池总容量为Qmax。每个用户使用下行WET收集能量,并通过下行基站预编码来激励上行信息传输。固定时隙T=1s分成两个阶段——下行WET和上行WIT,持续时间分别为τT和(1-τ)T。通过能量预编码,基站发送能量给用户Ui。
图2 一个DEIN通信模型:上行WIT下行WET
用户Ui在时隙l(l=1,…,N)的上行信道表示为利用信道互异性,接收到的信号、功率和收集的能量分别表示为yl,i、Pl,i和El,i:
用户利用收集到的能量激励上行信息传输。假设用户不消耗电路能量,基站在时隙l接收到信号:
i的信号xl,i满足
基站采用线性接收机译码信号xl,i,其中译码向量表示为定义:
H-l,i奇异值分解得到:
利用迫零译码算法简化系统复杂度:
下行能量广播阶段用户Ui在时隙l的电池获得的能量为Ql,i,其更新函数为:
为了保证公平,需要最大化最小平均上行WIT吞吐量。可以通过最优化下行能量预编码实现,最优化问题表示为:
该方案可以有效实现信息和能量的均衡。
3 基于博弈论的无线网络资源分配
无线网络环境中的大数据传输在保证一定的容量下,关注于分享海量信息数据。无线网络虚拟化提供了一个有效实现大数据传输的技术,其通过授权多个虚拟无线网络映射到一个物理底层无线网络(Substrate Wireless Network,SWN),从SWN中下载信息数据。如何有效分配物理无线网络的无线资源到多个虚拟无线网络用户,同时保证服务质量,是一个非常重要的问题。文献[20]提出一种新颖的拍卖博弈方案,用来解决无线资源分配问题,包括发射功率和无线频谱。规划无线资源分配问题为一个拍卖过程,每个移动用户与其他虚拟用户相互竞争,投标物理无线网络有限的资源。
虚拟无线用户根据自身的数据质量发送不同的服务资源请求到一个物理底层无线网络SWN,系统模型如图3所示。首先,底层网络控制器根据请求提取和划分底层资源,然后分配这些资源到虚拟无线网络。但是,在共享物理SWN时,由于有限的资源和干扰,容易导致用户资源用户请求发生冲突。
图3 无线网络虚拟化框架
在每个调度间隔中,虚拟用户仅知道自己动态请求发射功率和子信道情况。假设有K个终端用户k∈{1,…,K},则无线资源分配问题可以规划为一个4元组博弈结构(θk,mk,Ak,Uk)。统计服务质量指数θk,代表服务质量违反概率的指数衰减率。θk越大,表示更快的衰减率,隐含系统可以提供更加严格的QoS要求。mk为第k个虚拟用户的请求策略:
式中,xk,p和xk分别代表第k个用户愿意为单位发射功率和每个子信道的付价。
Ak为在一定限制条件下分配给第k个虚拟用户的资源方案,为:
式中,Pk表示在所有子信道上SWN可以分配给第k个虚拟用户的最大平均发射功率,且而代表SWN可以给第k个虚拟用户提供的子信道最大数量。收益函数Uk,利用有效容量作为发射功率博弈增益。
第k个虚拟用户的总体收益为:
式中,Ek(Ak,θk)为第k个虚拟用户总体有效容量,ρ1、ρ2分别代表有效容量和代价的权重,cp(·)、cn(·)则分别表示分配发射功率和子信道的代价。
虚拟用户最佳请求策略为:
这个问题可以分步进行。首先,移动用户请求发射功率,旨在最大化每个子信道收益。其次,根据每个子信道上可用的发射功率,用户开始出价子信道数量,目的是最大化他们的总体收益。最后,随着用户不断迭代竞价过程,博弈结果最终收敛到Nash均衡点,同时最优化SWN和移动用户的收益,进而最大化虚拟资源大数据传输网络的总体性能。
4 结 语
大数据在给现代通信设备带来压力的同时,发展大数据已成为经济增长的重要途径。本文主要讲述一些比较经典的大数据节能措施,并且已经在实际中取得了很好的效果。但是,绿色大数据许多问题仍没有得到充分的研究,新设计的通信机制和方法依旧比较受限。比如,并不是所有数据需要存储在昂贵的存储器中。因此,如何降低大数据垃圾带来的功耗,以及如何压缩数据而不引起数据分析的副作用,以及怎样利用软件定义网络和网络功能虚拟化实现有效的网络管理同时降低网络能量和资源的消耗,异构网络数据存储等问题,仍是一项艰巨的挑战。
[1] Bell G,Hey T,Szalay A.Beyond the Data Deluge[J].Scien ce,2009,323(5919):1297-1298.
[2] Wikipedia.Big Data[EB/OL].[2016-05-05].https:// en.wikipedia.org/wiki/Big_data.
[3] Gantz J,Reinsel D.Extracting Value from Chaos[J].IDC iview,2011,(1142):9-10.
[4] Hu h,Wen Y,Chua T S,et al.Toward Scalable Systems for Big Data Analytics: A Technology Tutorial[J].IEEEAccess,2014(02):652-687.
[5] 新华网.实现低碳经济ICT减排蕴藏巨大经济效益[EB/OL].(2013-08-12)[2016-04-26].http://news. xinhuanet.com/tech/2008-10/13/content_10187936.htm.
[6] Gartner.Gartner Estimates ICT Industry Accounts for 2 Percent of Global CO2 Emissions[EB/OL].(2015-03-01)[2016-04-29].http://www.gartner.com/newsroom/ id/503867.
[7] Murugesan S.Harnessing Green It:Principles and Practices[J].IEEE IT Professional,2008,10(01):24-33.
[8] Wu J,Rangan S,Zhang H.Green Communications:Theoretical Fundamentals,Algorithms,and Applications[M].Boca Raton,FL,USA:CRC Press,2012.
[9] Wu J,Guo S,Li J,et al.Big Data Meet Green Challenges: Greening Big Data[J].IEEE Systems Journal,2016, (99):1-13.
[10] Lee D,Choi J.Low Complexity Sensing for Big Spatiotemporal Data[C].Washington:Proceedings of 2014 IEEE International Conference on Big Data,2014:323-328.
[11] Lyengar M,Schmidt R.Energy Consumption of Information Technology Data Centers[EB/OL].(2010-10-01)[2016-04-25].http://www.electronics-cooling.com/2010/12/energyconsumption-ofinformation-technology-data-centers/.
[12] DeWitt K.Tech Companies Get Creative in Keeping Data Center Cool[EB/OL].(2015-08-01)[2016-04-26].https:// blog.opower.com/tag/data-centers/.
[13] Wu Z,Wang J.Power Control by Distribution Tree with Classified Power Capping in Cloud Computing[C]. Hangzhou:Proceedings of 2010 IEEE/ ACM Int'1 Conference on & Int'1 Conference on Cyber, Physical and Social Computing(CPSCom),2010:319-324.
[14] Corradi A,Franelli M,Foschini L.Increasing Cloud Power Efficiency Through Consolidation Techniques[C]. Kerkyra:Proceedings of 2011 IEEE Symposium on Computers and Communications (ISCC),2011:129-134.
[15] Park S,Mun Y.Prediction Method about Power Consumption by Using Utilization Rate of Resource in Cloud Computing Environment[C].Hong Kong:Proceedings of 2016 International Conference on Big Data and Smart Computing (BigComp),2016:265-268.
[16] Nam T M,Huong T T,Thanh N H,et al.A Reliable Analyzer for Energy-saving Approaches in Large Data Center Networks[C].Danang:Proceedings of 2014 IEEE Fifth International Conference on Communication and Electronics (ICCE),2014:200-205.
[17] Alhaddadin F,Liu W.A User Profile-Aware Policy-based Management Framework for Greening the Cloud[C]. Sydney:Proceedings of 2014 IEEE Fourth International Conference on Big Data and Cloud Computing(BdClo ud),2014:682-687.
[18] Asad Z,Chaudhry M A R,Malone D.Greener Data Exchange in the Cloud A Coding-based Optimization for Big Data Processing[J].IEEE Journal on Selected Areas in Communications,2016,34(05):1360-1377.
[19] Yang K,Yu Q,Leng S,et al.Data and Energy Integrated Communication Networks for Wireless Big Data[J].IEEE Access,2016(04):713-723.
[20] Zhu Q,Zhang X.Effective-Capacity based Gaming for Optimal Power and Spectrum Allocations over Big-Data Virtual Wireless Networks[C].San Diego:Proceedings of 2015 IEEE Global Communications Conference(GLOBECOM),2015:1-6.
宋欢欢(1987—),女,博士研究生,主要研究方向为大数据功率优化;
文 红(1969—),女,博士,教授,博士生导师,主要研究方向为无线通信与通信安全;
章露萍(1992—),女,硕士研究生,主要研究方向为物理层安全优化技术;
陈松林(1989—),男,博士研究生,主要研究方向为5G通信系统物理层安全技术研究;
廖润发(1989—),男,博士研究生,主要研究方向为通信安全与保密。
Research Progress of Green Big Data
SONG Huan-huan, ZHANG Lu-ping, WEN Hong, CHEN Song-lin, LIAO Run-fa
(State Key Laboratory of Science and Technology on Communications, UESTC, Chengdu Sichuan 611731, China)
Due to Ubiquitous mobile devices, wireless sensors, smart devices and scientific instruments would constantly produce large quantity of data, and the greening of big data becomes a huge challenge to the development of communications. Several typical energy-saving measures are described, including their basic principles and methods, then the challenges and open issues of green big data technology explored, and finally the development trend of this technology forecasted. How to reduce power consumption caused by big data garbage, how to compress data without causing side effects of data analysis, and how to use softwaredefined networking and network function virtualization to achieve efficient network management while decreasing the network energy and resource consumption, are still regarded as the huge challenges to the development of green big data.
green big data; green data centre; power allocation; energy harvesting
Nationl Natural Science Foundation of China Project (No. 61271172;No. 61572114);Specialized Research Foundation for the Doctoral Program of Higher Education(No. 20130185130002)
中文分类号:TN929.5A
1002-0802(2016)-08-0955-05
10.3969/j.issn.1002-0802.2016.08.001
2016-04-20;
2016-07-23
date:2016-04-20;Revised date:2016-07-23
国家自然科学基金项目(No.61271172;No.61572114);高等学校博士学科点专项科研基金(No.20130185130002)