基于自适应编码的数据中心加速传输∗
2017-06-05
基于自适应编码的数据中心加速传输∗
谢群李静力
(云南电网有限责任公司昆明供电局昆明650200)
面对网络带宽难以满足日益增长的云数据跨区域传输的问题,论文以多数据中心统一资源管理和调度的运营系统为数据中心,为了降低噪声对网络数据传输的影响并提升数据中心加速传输的目地,设计了私密信息校验包编码、译码和解码完成自适应编码方案。在分布式数据中心的发散式数据传输过程中,建立数据传输衰败模型完成数据中心服务器从信息包到校验包自动解码的流程。通过对数据中心网络传输自适应编码矩阵信息包解码来验证数据加速传输的可靠性与实用性。
数据中心;自适应编码;传输速度;服务器
Class NumberTP872
1 引言
伴随着计算机云服务的不断发展,云端数据的规模从TB级增长到了PB级[1]。数据中心的集中与分发不仅满足全球各地数据中心之间的传输,更为分布式云数据平台分担存储压力[2]。面对数据中心的数据量大和分布范围广的特点[3],大规模的云数据跨区域传输占用了大量的网络带宽资源,增加了网络传输成本[4]。在云数据环境下,通过改变网络带宽[5]、网络拓扑结构[6]和调整数据传输方式[7]等技术可加速数据中心的传播速度。本文在分布式云数据系统中构建了多数据中心传输模型,通过建立网络传输路径损耗和传输带宽的衰落函数来对数据编码的发散式传输进行建模。在面对窃取数据信息的攻击和白噪声干扰网络传输时,利用数据中心服务器引入编码的方式,设计了私密信息校验包编码、译码和解码的自适应编码方案,提高了数据中心加速传输的实用性。
2 系统模型
2.1数据中心
在分布式云数据中心资源调度系统中,假设多数据中心统一资源管理和调度的运营系统为本研究的数据中心。利用数据管理者i(1≤i≤M)与数据中心服务器的带宽为di,与数据中心的传输数据量θi来共同确定M个终端随机分布在数据中心连接口的不同位置。数据中心向多个位于不同位置的终端校验包信息[8]。一般情况下在数据中心周围存在非法的网络数据窃取者,在数据中心发送终端校验信息的同时尝试窃取数据中心的校验包信息[9],其详细的数据中心发散式网络模型,如图1所示。
图1 多数据中心传输模型图
2.2数据传输
为了体现带宽用户的区域分布以及不同路径噪声扰动所带来的影响[10],假设任意两个传输点之间的有线传输链路中包含不同尺度衰落以及高斯白噪声。本文主要将数据传输的路径损耗所导致的大尺度衰落纳入考虑之中,一般来说,路径损耗的主要影响因素包括传输环境以及传输点之间的距离,故可以将传输点i和j之间的路径损耗建模如下其中,di,j表示传输点i与j之间的距离;η表示数据传输过程中的路径损耗系数。假定尺度较小的衰落与尺度较大的衰落相互独立互不干扰,且主要是由一个传输信号的带宽在不同延时路径传输后并在接收端叠加的衰落[11],传输带宽的衰落可建模为
其中,hi,j表示服务器和第i个传输点之间的网络信道衰败系数,CN(0,1)表示第i个传输点的均值为0,方差为N0的高斯白噪声。加性高斯白噪声下的衰败信道丢包率Pn(γ)与接收数据信号的关系可以近似表示为
2.3数据建模
通过在数据中心服务器引入编码,基于数据编码的发散式数据传输模型,如图2所示。
图2 数据编码的发散式传输
由数据中心服务器完成从信息包到校验包自动解码的流程,同时将其传输给共享同一带宽的带宽用户,此时位于有线传输环境中的可窃取到截获的校验包的字符信号[12]。在进行有线数据传输之前,数据中心首先将等待传输的私密信息压缩包划分为k个彼此相互联系的信息包,然后数据中心通过使用启发式自适应编码方法对k个信息包进行编码重组,并通过源发射传输节点想合法接收信号点进行传送。无论是合法的接收信号点用户还是窃取端都需要获得足够的校验包完成整个原始数据的解码过程,当合法接收信号点完成了整个原始数据的解码过程时,则需向数据中心服务器发送信息反馈,源发射传输节点根据反馈信息将终止编码的发送此时若窃取用户未完成整个原始数据的解码过程,则窃取用户将无法获得私密数据文件信息,数据安全得以保障。
3 自适应编码方案
3.1编码设计
自适应编码方案的设计是本文的核心方案,采取自适应启发式算法来阻断窃取数据信息的攻击,其具体的编码原理主要从以下三个层次展开:
1)按照启发式算法的编码原则将所有私密信息的k个信息包分别传输一遍,将“个别未进行传输的信息包”与“所有带宽用户均成功解码的信息包集合”(记为D*=D1∩D2∩···∩DN)作为当前时刻校验包字符信号进行输出。
2)完成数据的编码准则之后,由于有线传输信道存在差异性以及衰落信道存在干扰,带宽用户普遍出现丢包现象,判别标准为所有带宽用户均成功译码的信息包集合D*小于阈值K 4[13],此时首先筛选出被最少的带宽用户成功译码的信息包,并将其作为当前时刻校验包字符信号进行输出。
一方面,农村土地的分散经营,制约了农业机械化、产业化进程,降低了土地的有效利用率,影响了农村劳动生产率的提高;另一方面,静态的承包地无法根据市场需求进行流转,难以集中到种粮大户手中,从而影响了农业集约化经营,造成农业产业规模小,效益得不到提高。
3)经过筛选,解码进程加快,带宽用户普遍出现丢包现象得到缓解,这是应当筛选出被最多的带宽用户成功译码信息包,并将其作为当前时刻校验包字符信号进行输出。
以某一时刻私密数据校验包的传输为例,数据中心编码操作流程图如图3所示。
图3 数据传输流程图
3.2算法实现
本文将私密信息校验包编码来对自适应编码方案的算法实现进行描述。首先由记录下所有带宽用户对于接收的信息报的具体的解码情况,同时将其定义为编码矩阵M。矩阵M为I行J列矩阵,K代表划分的源信息包的个数,N代表带宽用户的个数,此外矩阵M中的元素为mij且mij∈(0,1),mij=0的含义是第i个信息包成功由第j个用户解码,mij=1则表明第i个信息包未被第j个用户解码。默认初始时矩阵M为I×J的全1矩阵。通过对编码矩阵M进行解码是否成功的判断,得到与自适应编码方案的算法编码原理对应的算法实现,其具体实现步骤如下:
Step1:由服务器端口记录下矩阵M中的全为0的行和全为1的行的行标,同时分别存于j0和j1中;
Step2:对j1进行进一步判断看是否为空:若j1非空,则将j0的全部元素与j1中某一个元素编号相对应的私密文件信息包作为当前时刻校验包字符信号进行输出;若j1为空,则算法继续;
Step3:对j0中的元素个数进行判断:若j0中元素的个数小于阈值k 4,则筛选出与矩阵M中行的数量之和最大相对应的行标存于jmax,并将该行标对应编号的私密文件信息包与j0中全部元素编号相对应的私密文件信息包作为当前时刻校验包字符信号进行输出;若j0中元素个数小于阈值k 4,则算法继续;
Step4:矩阵M去掉全为0的行之后得到矩阵记为M0,并筛选出M0中行的数量之和最小对应的行标存于jmin中,从jmin中筛选出由若干行组成的矩阵并且其列和均小于2,再将选出行标的全部元素编号相对应的私密文件信息包作为当前时刻校验包字符信号进行输出。
4 实验仿真
4.1参数设置
自适应编码的数据中心加速传输方案的模拟仿真环境是由信息包源发送端以及N个合法的带宽用户均匀分布。模拟实验仿真中,有线传输信号通道的路径损耗系数为α=2.75。同时由于窃取用户的位置存在不稳定性,假设窃取用户位于半径为1的圆上。仿真中发送端源信息包的个数设为K=130。根据式(3)中接收信号的信道丢包率的映射关系,自适应编码的校验包在经过衰落信道之前需要经过调制解调器,且码率近似为0.56,映射关系中的拟合参数取值如表1所示。
表1 实验参数
为了验证本研究提出的关于数据中心自适应编码下的加速传输,利用LT编码和最优度编码对自适应编码网络数据传输进行对比。其中,LT编码针对大规模数据分发使用数字喷泉码进行设计[14];而最优度编码利用信息包编码分组度的随机概率进行选择,具体的公式如下[15]:
其中,K和θ分别代表网络数据源信息包总数和待解码数据个数。
4.2实验结果
通过Matlab数值仿真模拟,系统带宽信道设为30dB,带宽用户个数设定为100个,仿真中统计105次实现,考查网络数据中心信息包在不同的编码方案下,截获率和传输效率随带宽用户个数和信道变化。如图4和图5所示。
由图4可得,从编码方案的模拟仿真结果中不难看出,伴随着带宽用户的不断增多,通过使用本文所提出的自适应编码方案能够有效地降低窃取用户端截获私密文件信息包的概率。当带宽用户的数量小于等于10时,本文所提出的编码方案下窃取用户端截获私密文件信息包的概率几乎为0,当带宽用户的数量大于10时,随着带宽用户数的增多,窃取用户端截获私密文件信息包的概率在上升,同时另外两条曲线也存在递增的情况。这主要是由于带宽用户数量的增多使得仿真系统所面临的信息包丢失的情况更加多变和复杂,为了对较多带宽用户信息包丢失的情况进行维护,信息包源发送端需要发送更多的校验包,而此时窃取用户端更加有机会截获更多的校验包从而完成对原始数据的解码和破译。
图4 不同编码方案下的截获率
图5不同编码方案下的传输效率
图5 (a)描绘了数据源发端私密文件信息的传输效率在不同编码方案下随系统带宽信道的变化而变化的曲线。仿真中带宽用户的个数N=100。从编码方案的模拟仿真结果中不难看出,伴随着系统带宽信道的不断增多,无论是LT编码和最优分布编码两种基准方案还是本文提出的自适应编码方案,数据源发端的私密文件信息的传输效率曲线都在攀升。出现这样现象的原因可能在于带宽用户端的接收带宽信道随着系统带宽信道的增加而增加。再参考接收端带宽信道与带宽用户信道的丢包率之间的存在的关联情况,带宽用户信道丢包率随着接收端带宽信道的增加而减小,因此会出现带宽用户丢包率降低的情况。此时接收端依照自适应编码方案的原则所传输的的校验包信息也因此减少,本文提出的自适应编码方案传输效率较高。
图5(b)描绘了数据源发端私密文件信息的传输效率在不同编码方案下随系统带宽用户个数的变化而变化的曲线。随着系统带宽用户个数的不断增多,本文提出的自适应编码方案在私密文件信息包的传输性能方面远高于LT编码和最优分布编码两种基准方案。当带宽用户数量小于等于20时,随着带宽用户数量的增多,三种方案的数据源发端的私密信息传输效率曲线下降较为明显。当带宽用户数量大于20时,随着带宽用户数量的增多,三条曲线的下降速度趋于平缓。出现这种情况的原因在于带宽用户数量的增多使得仿真系统所面临的信息包丢失的情况更加多变和复杂,为了对较多带宽用户信息包丢失的情况进行维护,信息包源发送端需要发送更多的校验包,此时的数据源发端的传输效率也将越大。
综上所述,本文提出的自适应编码数据传输加速方案在窃取端截获私密文件信息包的概率性能方面远低于LT编码和最优度编码两种基准方案,同时,该编码设计随着带宽信道和用户个数的增加,传输效率明显优于LT编码和最优度编码。因而可以应用于数据中心加速分发传输,且具有较高的安全性。
5 结语
运用网络传输路径损耗和传输带宽的衰落函数来模拟数据中心发散式传输,将传输路径的白噪声干扰和窃取数据信息的攻击考虑到数据传输过程中,利用数据编码的方式对数据中心传输信息包进行编码,设计了私密信息校验包编码、译码和解码完成自适应编码方案。通过将本研究提出的自适应编码网络数据加速方案与LT编码和最优度编码方案进行对比分析,结果显示:在数据传输通讯噪声环境下,自适应编码方案通过将信息包源进行编码,确保了数据加速传输的安全性;在不同的带宽信道与带宽用户个数条件下,自适应编码可以更好地提升网络数据分发的传输效率,为数据中心安全可靠的加速传输提供了理论依据。
[1]张婧,陈克非,吕林,等.云存储中的用户数据安全[J].计算机科学与探索,2012,7(12):1093-1103.
ZHANG Qiang,CHEN Kefei,LV Lin,et al.User Data Se⁃curity Cloud Storage[J].Computer Science and Explora⁃tion,2012,7(12):1093-1103.
[2]张鹏,王桂玲,徐学辉.云计算环境下适于工作流的数据布局方法[J].计算机研究与发展,2013,50(3):636-647.
ZHANG Peng,WANG Guilin,XU Xuehui.The Method is Suitable for Data Layout Workflow Cloud Computing Envi⁃ronment[J].Computer Research and Development,2013,50(3):636-647.
[3]罗亮,吴文峻,张飞.面向云计算数据中心的能耗建模方法[J].软件学报,2014(7):1371-1387.
LUO Liang,WU Wenjun,ZHANG Fei.Cloud Computing for Data Center Energy Modeling[J].Journal of Software. 2014(7):1371-1387.
[4]刘诗海,孙宇清,刘古月.面向业务特征的自适应虚拟机迁移带宽分配算法[J].计算机学报,2013,36(09):1816-1825.
LIU Shihai,SUN Yuqing,LIU Guyue.Adaptive Band⁃width Allocation Algorithm for Virtual Machine Migration of Business-Oriented Features[J].The Computer Journal. 2013,36(9):1816-1825.
[5]孟飞,兰巨龙,胡宇翔.基于Richards模型的数据中心骨干网络带宽分配策略[J].计算机科学,2016,43(1):133-136.
MENG Fei,LAN Julong,HU Yuxiang.Richards Model Based on the Data Center Backbone Network Bandwidth Allocation Strategy[J].Computer Science,2016,43(1):133-136.
[6]牛新征,梁帆,周明天.基于无线传感器的物联网网络拓扑发现算法研究[J].计算机科学,2012,39(4):118-122.
NIU Xinzheng,LIANG Fan,ZHOU Mingtian.Things Dis⁃covery Algorithm Based on Network Topology Wireless Sensor[J].Computer Science,2012,39(4):118-122.
[7]徐倩,杨志,刘大永,等.基于分布式传感器的GIS局部放电在线监测实时数据传输方式的研究[J].电测与仪表,2016,53(1):79-83.
XU Qian,YANG Zhi,LIU Dayong,et al.GIS Partial Dis⁃charge On-Line Monitoring of Real-Time Data Transmis⁃sion Based on a Distributed Sensor[J].Electrical Measure⁃ment&Instrumentation,2016,53(1):79-83.
[8]邱亮.关于分布式云数据中心架构及管理关键技术研究[J].电子技术与软件工程,2016(9):197-197.
QIU Liang.About Distributed Cloud Data Center Manage⁃ment Architecture and Key Technologies[J].Electronic Technology and Software Engineering,2016(9):197-197.
[9]黄峰.分布式云数据中心架构及管理关键技术[J].自动化仪表,2014(8):1-4.
HUANG Feng.Distributed Cloud Data Center Manage⁃ment Architecture and Key Technologies[J].Automation Instrumentation,2014(8):1-4.
[10]管冰蕾,汤显峰,徐小良.噪声相关的带宽约束传感器网络融合算法[J].河南大学学报(自然科学版). 2013,43(2):200-203.
GUAN Binglei,TANG Xianfeng,XU Xiaoliang.Noise Bandwidth Constraints Associated Sensor Fusion Algo⁃rithm Network[J].Journal of Natural Science of Henan University,2013,43(2):200-203.
[11]董彬虹,唐鹏,杜洋,等.压缩频谱的差分跳频信号在莱斯衰落信道下的性能分析[J].电子与信息学报. 2015(4):836-840.
DONG Binhong,TANG Peng,DU Yang,et al.DFH Com⁃pression Spectrum Signal Fading Channel Under Analy⁃sis in Les[J].Electronics&Information Technology,2015(4):836-840.
[12]任海科,胡银丰.基于柯西RS编码的网络丢包恢复算法研究[J].计算机工程,2013(12):260-263.
REN Haike,HU Yinfeng.Cauchy RS Coding Based on Network Packet Loss Recovery Algorithm[J].Computer Engineering,2013(12):260-263.
[13]唐懿芳,钟达夫.基于数据冗余的BDS长报文传输机制改进算法[J].指挥控制与仿真,2016(1):28-36.
TANG Ruifang,ZHONG Dafu.Improved Algorithm Based on Data Redundancy BDS Long Message Trans⁃mission Mechanism[J].Command Control&Simulation. 2016(1):28-36.
[14]焦健,杨志华,顾术实,等.基于随机置换展开与停止集的LT码联合编译码算法[J].通信学报,2013(2):31-39.
JIAO Jian,YANG Zhihua,GU Shushi,et al.LT Codes Encoding and Decoding Algorithm Based on Random Permutation and Expansion Joint Stopping Sets[J].Jour⁃nal of Communications,2013(2):31-39.
[15]邓世洋,王安红.残差分布式视频压缩感知[J].计算机应用研究,2012,29(4):1553-1556.
DENG Shiyang,WANG Anhong.Distributed Video Re⁃sidual Compressive Sensing[J].Computer Application Research,2012,29(4):1553-1556.
Data Center Accelerated Transmission Based on Adaptive Coding
XIE QunLI Jingli
(Yunnan Power Grid Co.,Ltd.Kunming Power Supply Bureau,Kunming650200)
Faced with the problem that network bandwidth is difficult to meet the growing cloud data inter-regional transmis⁃sion,this study is to unify multiple data center resource management and scheduling of operating system for the data center.In order to reduce the effect of noise on the network data transmission and improve data center acceleration the purpose,the design of the pri⁃vate information encoded parity packet decoding and decoded adaptive coding scheme is designed.In the divergent data transmis⁃sion process distributed data centers,the establishment of the data transfer is completed decay model data center servers from pack⁃et to packet checksum automatically decode process.Through the data center network transmission adaptive coding matrix informa⁃tion,the data packet decoding accelerated reliability and practicality transmission are validated.
data center,adaptive coding,transmission speed,server
TP872
10.3969/j.issn.1672-9722.2017.05.032
2016年11月20日,
2016年12月31日
国家自然科学基金资助项目(编号:51277085)资助。
谢群,男,工程师,研究方向:云计算与信息技术。李静力,女,硕士研究生,高级工程师,研究方向:大数据与信息安全。