一种自适应的混合型无线NoC拓扑结构
2016-08-12黎建华胡永良张肖强
黎建华,吴 宁,胡永良,张肖强
(1.南京航空航天大学电子信息工程学院,江苏南京 210016; 2.台州学院计算机应用研究所,浙江临海 317000)
一种自适应的混合型无线NoC拓扑结构
黎建华1,2,吴宁1,胡永良2,张肖强1
(1.南京航空航天大学电子信息工程学院,江苏南京 210016; 2.台州学院计算机应用研究所,浙江临海 317000)
针对传统大规模片上网络(Network-on-Chip,NoC)远距离核间多跳通信所带来的高能耗与延时问题,提出了一种基于虚Torus的自适应的混合型无线NoC拓扑结构(VT-AWiNoC).该结构通过引入链路拥塞测度作为感知参数,基于此采用热点无线链路自动探测与带宽动态分配机制,并设计实现发送器动态分配的控制电路模块,以达到根据不同的通信流量模型,于片内自适应地调整拓扑结构及链路带宽的目的.通过建立混合型无线NoC的延时与功耗评估模型,对该结构的无线NoC进行性能评估.实验结果表明,该自适应拓扑与其它混合型无线NoC相比,在随机流量模型下,网络平均延时降低了16.52~23.27%;在20%的热点流量模型下,包平均能耗节省了39.19%;以真实应用FFT作为基准测试,平均延时降低了17.20%~21.68%,并节省了23.49%的包平均能耗.该结构以较小的面积开销获得了更优的性能.
无线片上网络;自适应拓扑;拥塞测度
1 引言
片上网络(Network-on-Chip,NoC)作为复杂SoC的一种新的互连与通信架构[1],当向更大规模和更复杂化方向发展时,其本身存在的延时与能耗问题严重限制了SoC性能的进一步提升[2].为从根本上解决传统大规模有线NoC的金属导线的布线限制及多跳通信引起的延时与功耗问题,近年来,应用片上微型天线实现片内无线通信,将NoC中多跳有线金属链路替换成长无线链路,一种无线NoC(Wireless NoC,WiNoC)应运而生[2~5].
自D.Zhao等人基于UWB技术提出无线NoC架构以来[6],涌现出了大量相关的研究成果[7~10].文献[7]针对专用无线NoC拓扑的设计方法,给出了一种基于启发式的无线链路静态分配算法.文献[8]以网络架构的处理器阵列NePA为基础,构建了一个有线/无线混合的混合型无线NoC(NePA-WiNoC).文献[9]充分利用小世界(Small-World)网络具有较短的平均路径长度的特点,构建了一个具有Small-World结构的混合网络(SW-WiNoC).文献[10]综合考虑无线节点、无线链路数及其分布等因素,提出了一个基于无线多跳的混合无线NoC拓扑2-Level Hybrid Mesh(2LHM-WiNoC).上述各种拓扑的无线NoC,虽在性能方面得到了明显提升,但其无线链路均采用静态的信道分配机制,即不管链路上有无数据传输及实际传输的数据量大小,始终为其分配固定的链路带宽,造成信道带宽的浪费.特别是在无线NoC中无线信道数及总带宽受限的条件下,如何根据通信流量模型于片内自适应地调整拓扑结构与链路带宽,对提高无线NoC的性能是至关重要的.
本文综合考虑无线链路具有低能耗和互连可变的内在特性[9,11],以及链路拥塞等因素,提出了一种基于虚Torus的、低延时低能耗的自适应混合型无线NoC拓扑结构(Virtual Torus-Based Adaptive Wireless NoC,VT-AWiNoC).该结构采用基于改进拥塞测度参数的发送器动态分配控制电路模块(Dynamic Allocation Control Circuit Module,DACCM),将发送器与信道动态分配到最拥塞的热点无线链路上,于片内完成无线NoC拓扑及链路带宽的自适应调整,实现面向不同流量模型的带宽按需分配.实验表明,该结构在可接受的面积成本开销下,在吞吐量、延时和功耗等方面获得了更优的通信性能.
2 自适应的混合型无线NoC拓扑结构
无线NoC的拓扑中除了有线节点、链路的布局和互连方式外,其无线节点、链路的数目及其位置分布对无线NoC的性能影响也至关重要.综合考虑以上因素,本文所提出的自适应拓扑VT-AWiNoC如图1所示.
现假定有一规模为n*n的2D Mesh结构的纯有线NoC网络,因无线NoC主要解决大规模纯有线NoC的多跳通信与布线问题,故假设n为大于6的整数(图1中n等于18),则该自适应拓扑结构的构建规则如下:
(1)簇与块的划分:考虑可用信道数、网络扩展性与规则性等因素,以降低网络拥塞、减小硬件开销为原则,基于对现有子网划分方法的理论分析[2,10,11],先将整个网络划分成若干个6*6的簇(cluster),之后将每个簇划分成若干个3*3的块(block),当网络规模不满足此划分条件时,在后续讨论;如图1中共有9个6*6的簇(Cluster0~Cluster8),每个簇内包含4个3*3的块(Block0~Block3);路由器用R(cn,bn,zn)标记,其中变量cn表示该路由器所在的簇号,bn表示该路由器在簇cn中的块的序号(bn∈[0,3]),zn表示该路由器在块bn中的路由器编号.
(2)路由器编号:将每个块中心的有线路由器R替换成无线路由器WR,并在水平或垂直方向上的任意相邻块的两个WR间插入一条静态无线链路;则每个无线路由器WR的编号为WR(cn,bn,4),为简化在图中的描述,WR(cn,bn,4)视为对(cn,bn)四进制编号,记为WRn,这里n=(cn,bn)4,如WR(1,2,4) 记为WR6,以此类推.
(3)对面簇与对面WR(或块):现将物理上分布在一个维度两端的两个簇,互称为对面簇;同理,物理上分布在一个维度两端的两个WR(或块),互称为对面WR(或对面块);如图1,Cluster0的对面簇为其水平方向上的簇Cluster2、垂直方向上的簇Cluster6;WR0的对面WR为其水平方向上的WR9、垂直方向上的WR26;而WR1只在垂直方向上存在对面WR(WR27),在水平方向上不存在对面WR.
(4)无线链路插入:在每个簇中均另设置了一个自适应簇发送器(Cluster Transmitter,CT),CT采用有线链路与簇内的Max(bn)+1个WR直接相连(这里Max(bn)表示某簇内变量bn的最大值,图1中的Max(bn)=3),簇内的Max(bn)+1个WR共享使用该CT,并在水平或垂直方向上的相邻CT间或对面CT间插入一条自适应无线链路,这里将对面CT间所插入的跨越整个拓扑的自适应无线链路简记为长链路;若某簇内的块Block数目等于1,则该簇内仅有1个WR独占该簇的CT.
(5)CT分配规则:为减少远距离IP核间通信跳数,降低相邻簇间的相邻WR间的拥塞程度,在提高簇发送器CT利用率,又避免CT的流量负载过重而出现局部拥塞的同时,限制共享CT及其信道只能用于相邻簇间的相邻WR间或对面WR间的通信,而不能将其用于簇内的WR间通信;因此图1中的CT0根据不同的通信流量模型,被自适应地动态分配给WR0-WR9(长链路)、WR0-WR26(长链路)、WR1-WR4、WR1-WR27(长链路)、WR2-WR12、WR2-WR11(长链路)、WR3-WR6或WR3-WR13共8条链路动态复用,CT的动态分配机制由后续所讨论的链路拥塞测度参数决定.
按照上述构建规则,当所有的CT均未分配给对面WR间通信时,上层无线链路构成了Mesh网络;而当边缘CT均用于与其对面WR通信时,上层静态无线链路和自适应无线链路一起构成类似于Torus结构的虚拟环网.正是通过自适应簇发送器CT的动态分配,于片内实现上层无线拓扑及链路带宽随不同流量模型的自适应变化,故称之为基于虚Torus的自适应的混合型无线NoC(VT-AWiNoC).
对于n*n的2D Mesh纯有线NoC,若无法满足上述划分条件,即当某个簇的规模不足6*6(n不为6的整数倍)或某个块的规模不足3*3,这里不采取添加冗余路由节点的方法,而是将其视为一个完整的簇或块.此规则既不影响自适应拓扑的构建,又可避免因添加冗余路由节点而带来的面积与功耗开销.
网络直径是影响NoC性能的一个重要指标,本文VT-AWiNoC结构的上层无线网络的直径同Torus结构,网络直径为 4+2⎣n/6」,其中⎣·」表示向下取整.网络直径随网络规模变化关系如图2所示,本文提出的拓扑结构的网络直径随节点数的变化比较平缓,当节点数目超过392时,VT-WiNoC的网络直径明显小于其它三种结构.这从理论上证明了当网络规模较大时,该结构具有更小的网络直径,以此减小路由平均跳数与网络延时.
无线路由器WR及其与发送器CT互连结构如图3所示,包含5个有线输入/输出端口(E、S、W、N和L)和4个无线输入/输出端口(BW-E、BW-S、BW-W、BS-N,分别面向东南西北的WR).虽然端口BW-E、BW-S、BW-W或BS-N与CT间本质上是采用有线链路相连,但这些端口的数据是利用所连接的发送器,以无线方式与下一个路由器间传输的,故从功能上将这些端口称为无线输入/输出端口.路由器WR内部包括路由仲裁器(Routing Arbitrator,RA)、基于仲裁计数器和流量计数器的本地拥塞测度单元(Local Congestion Measure Unit,LCMU).LCMU用于统计该WR的每条无线输出链路的拥塞情况,并将拥塞测度数据送给带有比较器的全局拥塞测度单元GCMU(Global Congestion Measure Unit),GCMU通过1~ Max(bn)号端口分别获取簇内其它WR的LCMU输出数据.
WR的每个无线输出端口均各自连接1个静态发送器Tx,边缘WR的边缘端口除外.如图3中的WR0只有非边缘端口BW-S-out和BW-E-out各自连接了1个Tx,而WR3的四个输出端口均各自连接了1个Tx.采用文献[9]的FDMA技术进行子信道划分,让每个发送器Tx工作在不同的载波频率上(f1~f4),负责实现垂直或水平方向上与其相邻WR间的静态无线互连.按照前述的自适应拓扑构建规则,对于每个WR,只有其中2个方向的无线输出端口采用有线链路同时与1个发送器CT相连,具体由WR在网络中的位置所决定.如图3中的WR0,只有BW-N-out和BW-W-out同时与CT0连接,其中BW-N-out与CT0连接,与其对面簇中的WR26实现远距离通信;BW-W-out与CT0连接,与其对面簇中的WR9实现远距离通信.同理,对于WR3,只有其BW-S-out和BW-E-out同时与CT0连接.若将CT动态分配给不同的WR使用,其上层无线拓扑也在根据不同的通信流量模型于片内自适应调整.
3 拥塞测度与链路带宽动态分配机制
如何根据链路带宽需求,把空闲信道动态分配给高流量的链路上以解决拥塞问题,将对无线NoC的总体性能提升产生重要影响.为便以描述拥塞测度与链路带宽动态分配机制,现给出若干相关定义.
定义1无线NoC体系结构图(WiNoC Architecture Graph,WAG)WAG(A,E,L)是由多个无线路由节点a(∀a∈A)互连构成的有向图,A表示具有m*m个无线路由节点构成的集合,|A|=m*m,其中m=(n+5)/6;边e(∀e∈E)表示两个无线路由节点间的有线链路;边lab(∀lab∈L,∀b∈A,b=(a±1)mod(m))表示两个相邻的无线路由节点a与b之间互连的无线链路.
定义2无线路由节点端口(Wireless Router Port,WRP)集合P(U,V,I,J),端口u(∀u∈U)和v(∀v∈V)分别表示无线路由节点的有线输入端口和有线输出端口,端口i(∀i∈I)和j(∀j∈J)分别表示无线路由节点的无线输入端口和无线输出端口;其中|U|=|V|,|I|=|J|,用a(j)表示无线路由节点a的无线输出端口j.
定义3时间观察窗口(Window,W)W(t)是一段连续观察时刻点的集合,|W|为观察窗口的时间大小(一般用时钟周期数表示),其中t∈[0,|W|-1].
通常用链路的带宽利用率来预测网络中链路在下一时刻的拥塞程度.在NoC中,从路由器a到其邻居路由器b之间的链路la(j)b(i)的带宽利用率记为ra(j)b(i),它与统计窗口W内已通过的流量C成正比,与带宽B成反比:
(1)
但在NoC中,存在多个输入端口争用同一输出端口的情况,此信息更能体现出下一时刻的链路拥塞情况.仿真分析发现,单纯的链路带宽利用率只反映了在观察时间窗W内,该输出端口上过去已通过的流量状况,无法反映正等待通过该输出端口的流量情况.而正在等待通过的流量更能反映出下一时刻链路的带宽需求与拥塞状况.根据无线NoC网络的通信特点,为更准确地度量某链路在下一时间段的拥塞程度,将两相邻无线路由节点间无线链路的拥塞测度CM定义为:
(2)
gt,a(j)表示路由器a中,在时刻t有流量等待通过该路由器输出端口j的输入端口总个数.Qt,a(j)表示在观察窗口W内的某时刻t,路由器a中等待通过该路由器的输出端口j的所有输入端口(输入端口j除外)的流量之和,体现了下一时间窗口W内链路上的流量信息,其定义如下:
(3)
为简化电路复杂度,在无线链路la(j)b(i)的理论带宽B及观察时间窗口W大小一定时,可直接使用硬件流量计数器统计路由器a的输出端口j所输出的比特流来作为Ca(j)b(i)的值.此外,输入端口k的流量qt,a(k)a(j)在与其成正比的数据平均包长及微片宽度一定时,Qt,a(j)可看成是路由仲裁(RA)阶段等待使用输出端口j的输入端口个数,因此简化为使用硬件仲裁计数器统计等待输出的输入端口个数,此统计在路由仲裁阶段同步完成.可见,对无线路由器中用于求解拥塞测度CM值的电路原理简化后,只需额外增加如图3所表示的仲裁计数器和流量计数器,这些硬件部分相对于整个无线路由器的电路开销十分微小.
由于只允许CTx用于相邻簇间的相邻WR间或对面WR间的通信,故CTx的自适应信道Acx可供簇内的4个WR的8条无线链路动态复用.对CT进行动态分配的控制电路DACCM是实现片内自适应拓扑及链路带宽动态调整的关键模块,按照自适应拓扑的构建规则,其电路结构如图4所示,具体工作流程如下:
(1)设定观察时间窗口W,各LCMU在时间窗口W内开始统计流量及链路利用率情况.
(2)GCMU发送链路拥塞测度数据请求信息给簇内的每个LCMU.
(3)在时间窗口W结束时,每个LCMU根据式(2)计算本地WR在其中2个方向上的无线输出链路的拥塞测度CM值,并将CM值以数据包的形式返还给GCMU,返还成功的同时复位链路拥塞测度的数据域.
(4)GCMU对接收到的4个WR的链路拥塞测度数据包分别进行解析,经由比较器比较分析,以构建Torus环网的跳数最小化为原则,无论CM值大小,将自适应信道优先分配给长链路;当有多条长链路时,则将其分配给具有最大CM值的长链路;如果没有长链路,则将自适应信道分配给具有最大CM值的无线链路,通过链路聚合,将具有静态信道的链路与动态信道的链路合并成一条逻辑链路,在提高链路带宽的同时,实现片内上层无线拓扑的自适应调整;由数据选择器完成CT在簇内WR间的动态切换.
(5)若在一个时间窗口W内,某长链路已完成了数据流通信,则该长链路将主动放弃该自适应信道,并将该自适应信道重新分配给该WR内的另一无线链路,直至时间窗口W结束.
4 混合型VT-AWiNoC通信机制
所提出的混合型VT-AWiNoC架构,是由下层有线2D Mesh及上层无线2D Torus所构成的分层网络.在下层有线2D Mesh拓扑内部,采用无死锁的确定性XY维序路由算法[2].对于上层静态无线链路和自适应无线链路构成的虚Torus结构的环网,其内部采用添加有向虚通道的TXY路由算法以解决死锁[12].尽管XY和TXY路由均具有避免死锁的能力,但对于分层网络,所存在的间接依赖关系会导致更复杂的路由死锁[2,13].对于这种情况,采用通常打破环路的方法以避免死锁是非常困难的,路由算法的逻辑将变得复杂,使得网络性能下降,因此虚通道成为解决死锁的一种通用方法[2,10].这里直接使用文献[2]的方法以解决此问题,即在每个有线输入端口设置两个虚通道供不同方向的数据使用.
当VT-AWiNoC中的某两个PE间需要传递数据时,包可能会通过有线链路,无线链路或二者的混合.为避免源节点所在块的多个PE因通过同一个无线路由器WR而导致拥塞,这里通过设置拥塞控制因子,避免过度使用无线链路导致WR出现热区,以缓和WR的拥塞问题.同文献[8]的NePA-WiNoC拓扑所采用的路由算法,本文仿真时将拥塞控制因子值固定为4,即以静态方式调节上层无线网络和下层有线网络的流量分布.
5 性能分析模型
文献[14]针对基于射频传输线互连(RF-I)的无线NoC架构,建立了精确的功耗与延时模型,显然不适用于本文采用片上天线互连的无线NoC架构.为对本文所提出的VT-AWiNoC拓扑的性能进行准确评估,需在仔细研究片上天线互连的信道传播模型基础上,建立完整的基于片上天线互连的无线NoC架构的功耗与延时模型.
5.1延时分析模型
延时通常定义为源节点的头微片注入时间与目的节点接收到尾微片的时钟周期长度.一般来说,数据包从源节点至目的节点的延时可用节点平均距离Ψ,也即为全局的包平均延时来表示:
(4)
(5)
这里HR、HWR分别表示包到达目的节点所经过的有线和无线路由器的平均跳数,其值主要由拓扑结构和路由算法所决定,tR、tWR分别表示有线和无线路由器的延时,tL、tWL分别为导线连线的有线链路延时和天线对之间的无线链路延时,LR表示以比特为单位的数据包长度,BWR、BWWL分别为有线链路和无线链路带宽.
5.2功耗分析模型
对无线NoC而言,功耗可从系统级和电路级两个层面考虑.系统级功耗是针对某一特定拓扑结构,经过最短路径收发所有数据包所消耗的功耗单元数目,通常使用单一性连接矩阵δ来表示一个包所经过的跳数[15].
链路的导线功耗在深亚微米电路中占据主要成分,而来自开关的动态功耗又是电路级功耗的主要部分.与纯有线NoC相比,对于混合型无线NoC,电路级功耗分为有线链路和无线链路功耗两部分.其中电路级有线链路功耗Pr-link又包括导线连线的链路功耗Pw-link和有线路由器PR的功耗,而有线链路的开关功耗Pw-link与数据链路翻转因子α、端口数据宽度Nwire、负载电容c、供电电压Vdd和时钟频率f直接相关[1],故可表示为:
(6)
电路级无线链路功耗Pwi-link主要包含天线对之间无线链路损耗PL和收发器功耗Ptransceiver,可表示为:
(7)
这里M表示无线链路分配的频率信道数,PLi和Ptransceiver,i是无线链路中第i个频率信道的片上天线和收发器电路的功耗.对于实现片内无线互连的片上天线,采用基于三维笛卡尔坐标及射线跟踪原理所建立的WiNoC片内无线信道传播损耗模型[16].与文献[17]的信道模型相比,该模型综合考虑了无线NoC所处物理环境的电导率σ、介电常数ε和磁导率μ等物理参数,本文的VT-AWiNoC结构中天线对的损耗PLG表示为[16]:
PLG=
(8)
假设无线NoC拓扑结构中针对有线链路的单一性连接矩阵为δr-link,无线链路的单一性连接矩阵为δwi-link.采用包平均能耗,即平均每个包从源节点路由至目的节点产生的功耗来衡量特定拓扑下功耗性能[9],则混合型无线NoC的包平均能耗Ppkt可表示为:
(9)
式(9)中Nij表示数据包从源节点i至目的节点j的以包为单位的通信量,δr-link,ij和δwi-link,ij分别表示单个数据包从源节点i至目的节点j所经过的有线链路跳数和无线链路跳数.值得注意的是,若混合WiNoC拓扑结构中任何数据包从i至j都未经过无线链路,即所有的δwi-link,ij取零时,式(9)则等价于纯有线NoC的包平均能耗.
6 性能评估
为进行准确的功耗性能评估,混合型WiNoC的有线链路功耗Pr-link,包括5*5路由器、有线金属导线的动态功耗、泄露功耗均通过配置Orion2.0功耗模型来获取[18].对于20mm*20mm的晶圆片,假设采用高阻抗硅基底(ρ=5kΩ-cm)以及633μm厚的氮化铝(AIN)作为绝缘层,根据式(8),天线对间距取最大20mm时的传播路径损耗PLG约为32dB(天线对间距1mm时约为9dB).无线NoC中支持16Gbps数据速率的收发器功耗约为36.7mW[19],对应能耗约为2.3pJ/bit.若采用THz的光频率天线,在最长的通信距离23mm下,无线链路(包括天线对和收发器)的能耗为0.33pJ/bit[9].采用SMIC 90nm工艺库在Synopsys Design Compiler中对图4中的发送器动态分配控制电路模块DACCM进行综合,以评估实现自适应拓扑所产生的额外能耗与面积开销,同时,各路由器的面积与功耗在45nm下通过Orion 2.0获取.DACCM及其它部件的能耗与面积如表1所示.
基于上述功耗参数,对基于SystemC的时钟级片上网络仿真器Noxim进行修改,分别搭建SW-WiNoC、NePA-WiNoC、2LHM-WiNoC以及VT-AWiNoC四种拓扑结构的交易级模型,并嵌入所建立的延时与功耗分析模型.为保证性能评估的公平性,实验中网络规模和通信流图均采用完全相同的应用,分别映射到不同的拓扑结构中.资源节点数分别为144、324和576.有线链路用1GHz的时钟驱动,设置无线链路带宽为16Gbps,为保证两节点间无线与有线链路带宽相等的公平性,设置微片宽度为16比特,数据包长度在3~7个微片间随机选择.每个无线/有线输入端口的虚通道数设置为3,每个虚通道缓存深度为4个微片大小,仿真时间设置为10000个有线时钟周期.图5显示了四种混合型无线NoC拓扑和纯有线2DMesh NoC在随机流量、20%的热点流量及FFT(Fast Fourier Transform)真实应用下的吞吐率与注入率的关系.
表1 DACCM及相关部件的能耗与面积
文献[10]的2LHM-WiNoC实际上等价于本文提出的未使用自适应信道的拓扑结构,仿真表明,当网络规模为144时,在均匀随机流量模型下(如图5(a)),VT-AWiNoC在注入率在0.4时接近饱和,纯有线2D Mesh拓扑在注入率为0.2时网络就达到了饱和.在20%的热点模型流量下(如图5(b)),VT-AWiNoC在注入率为0.25时才接近饱和,而纯有线2D Mesh拓扑在注入率为0.1时就接近饱和.采用FFT真实应用作为基准测试,将1024点FFT变换的真实应用分解到其中的128个处理器节点PE上,每个PE分别执行一个8点的基-2FFT运算,FFT真实应用的评估发现(如图5(c)),VT-AWiNoC的吞吐率比2LHM-WiNoC平均高出15.60%.
图6显示了在不同网络规模下,注入率为0.2时五种拓扑的平均延时和包平均能耗对比.随机流量模型下(如图6(a)),当网络规模为144和324时,VT-AWiNoC的平均延时低于2D Mesh拓扑,但略高于SW-WiNoC拓扑的延时,原因在于当网络规模较小时,SW-WiNoC得益于更小的网路直径与平均跳数,但当网络规模达到576或更大时,VT-AWiNoC表现出了更优的性能,其平均延时比SW-WiNoC和2LHM-WiNoC分别低16.52%和23.27%.将1024点FFT变换分解到不同网络规模的128~512个处理器节点PE上,每个PE分别执行一个2~8点的基-2FFT运算,FFT应用的评估发现(如图6(b)),当网络规模达到576或更大时,VT-AWiNoC的性能增益更明显,其平均延时比SW-WiNoC和2LHM-WiNoC分别低17.20%和21.68%.
不同流量模型与真实应用下的包平均能耗如图6(c)所示,实验表明VT-AWiNoC在能耗方面均优于其它拓扑结构.特别是在热点流量模型下,VT-AWiNoC比2LHM-WiNoC节省39.19%的能耗,这是因为热点模型中存在更多的远距离通信节点,VT-AWiNoC构成了具有更少跳数的Torus环网,节省了更多的能耗.此外,采用FFT真实应用作为基准测试,针对网络节点为576的无线NoC拓扑,将1024点FFT变换的真实应用分解到其中的512个处理器节点PE上,每个PE分别执行一个2点的基-2FFT运算.通过FFT真实应用评估发现VT-AWiNoC的能耗比2LHM-WiNoC拓扑节省23.49%.
自适应无线NoC拓扑与其它无线NoC拓扑相比,主要增加了CT及实现发送器动态分配的控制电路模块DACCM.以节点数目为324的网络规模为例,自适应拓扑中各模块的面积成本开销比重如表2所示.相对于其它无线NoC而言,CT与DACCM的面积开销之和所占用的面积成本开销比重为3.41%~7.49%,若将处理单元PE和Cache考虑在内,其增加的面积开销是可忽略的.实验表明,一方面以较小的面积成本开销为代价,换来了NoC性能方面的高增益;另一方面也避免了Torus中长金属连线的面积开销与布线限制.
表2 自适应拓扑中各模块的面积成本开销比重(节点数=324)
实验分析证明,所提出的自适应的混合型无线NoC拓扑结构,在性能方面远优于传统的有线2D Mesh片上网络.与其它混合型无线NoC拓扑相比,是一种能获得更高增益的架构.这是由于VT-AWiNoC采用基于拥塞测度与热点无线链路感知的链路带宽动态分配机制.与纯有线2D Mesh结构相比,通过引入具有更低能耗的长无线链路,使包传输避开了大量中间有线路由节点和金属导线;与纯有线Torus结构相比,无需使用较多的跨越整个拓扑的金属长连线,既兼顾了Torus环网的优点又极大地降低了布线难度;与2LHM-WiNoC相比,其上层无线网络可根据网络流量模型自适应地调整发送器的分配,构建虚Torus环网进一步减少了跳数.且当网络规模越大时,性能提升愈明显.
7 结论
本文提出了一种基于虚Torus的自适应的混合型无线NoC拓扑结构,该结构利用基于拥塞测度的热点无线链路自动探测及带宽动态分配机制,达到了根据不同的通信流量模型自适应地调整链路带宽与拓扑结构的目的.实验结果表明,该结构与纯有线2DMesh NoC相比,以较低的面积开销获得了近似成倍的性能提升,同时避免了长金属连线的面积开销与布线限制;以其它混合型无线NoC相比,也获得了明显的性能增益.
[1]杨盛光,李丽,高明伦,等.面向能耗和延时的NoC映射方法[J].电子学报,2008,36(5):937-942.
Yang Sheng-guang,Li Li,Gao Ming-lun,et al.An energy and delay-aware mapping method of NoC[J].Acta Electronica Sinica,2008,36(5):937-942.(in Chinese)
[2]Wen-Hsiang Hu,Chifeng Wang,Nader Bagherzadeh.Design and analysis of a mesh-based wireless network-on-chip[A].International Conference on PDP[C].Garching,Germany:IEEE,2012.483-490.
[3]Deb S,Ganguly A,Pande P P,et al.Wireless NoC as interconnection backbone for multicore chips:promises and challenges[J].IEEE Journal on Emerging & Selected Topics in Circuits & Systems,2012,2(2):228-239.
[4]Bialkowski M,Abbosh A.Wireless intrachip-interchip interconnections utilising tapered slot antennas for ultra-large-scale integration technology[J].IET Microw,Antennas Propagation,2010,4(10):1665-1671.
[5]Mahmoud S F,Alajmi A R.Characteristics of a new carbon nanotube antenna structure with enhanced radiation in the sub-terahertz range[J].IEEE Transactions on Nanotechnology,2012,11(3):640-646.
[6]Zhao D,Wang Y.SD-MAC:Design and synthesis of a hardwareefficient collision-free qos-aware MAC protocol for wireless network-onchip[J].IEEE Transactions on Computers,2008,57(9):1230-1245.
[7]Shouyi Yin,Yang Hu,Zhen Zhang,et al.Hybrid wired/wireless on-chip network design for application-specific SoC[J].IEICE Transactions on Electronics,2012,95(4):495-505.
[8]Chifeng W,Wen-hsiang H,Bagherzadeh N.A wireless network-on-chip design for multicore platforms[A].Proceedings of the 19th Euromicro International Conference on PDP[C].Ayia Napa,Cyprus:IEEE,2011.409-416.
[9]Ganguly A,Chang K,Deb S,et al.Scalable hybrid wireless network-on-chip architectures for multicore systems[J].IEEE Transactions on Computers,2011,60(10):1485-1502.
[10]Ling Wang,Zhihai Guo,Peng Lv,et al.On an overlaid hybrid wire/wireless interconnection architecture for network-on-chip[J].International Journal of Advanced Computer Science and Applications,2014,5(4):168-174.
[11]Suk-Bok Lee,Saiwang Tam,Loannis Pefkianakis,et al.A scalable micro wireless interconnect structure for CMPs[A].Proceedings of the 15th Annual International Conference on Mobile Computing and Networking[C].New York,USA:ACM,2009.217-228.
[12]Lu Z,Jantsch A.Flit admission in on-chip wormhole-switched networks with virtual channels[A].International Symposium on System-on-chip[C].Tampere,Finland:IEEE,2004.21-24.
[13]Fu B,Xu S,Bao W,et al.Dandelion:A locally-high-performance and globally-high-scalability hierarchical data center network[A].International Conference on Computer Communications and Networks[C].Shanghai,China:IEEE,2014.1-8.
[14]Yiou Chen,Jianhao Hu,Xiang Ling.Topology and mapping co-design for complex communication systems on wireless noc platforms[A].Conference on Industrial Electronics and Applications[C].Melbourne,VIC:IEEE,2013.1442-1447.
[15]Elmiligi H,Morgan A A,El-Kharashi M W,et al.Power-aware topology optimization for networks-on-chips[A].International Symposium on Circuits and Systems[C].Seattle,WA:IEEE,2008.360-363.
[16]Jianhua Li,Ning Wu,Yongliang Hu.Modeling and simulation of intra-chip wireless propagation channels for hybrid WiNoC[J].Sensors & Transducers Journal,2013,155(8):86-97.
[17]Matolak D W,Kaya S,Kodi A.Channel modeling for wireless networks-on-chips[J].IEEE Communications Magazine,2013,51(6):180-186.
[18]Kahng A B,Li B,Peh L S,et al.ORION 2.0:A power-area simulator for interconnection networks[J].IEEE Transactions on VLSI Systems,2012,20(1):191-196.
[19]Sujay Deb,Kevin Chang,Xinmin Yu,et al.Design of an energy efficient CMOS compatible noc architecture with millimeter-wave wireless interconnects[J].IEEE Transactions on Computers,2013,62(12):2382-2396.
黎建华(通信作者)男,1980年生于湖北宜昌.现为南京航空航天大学博士研究生.主要研究方向为无线片上网络、SoC系统与专用集成电路设计.
E-mail:ljh2007@tzc.edu.cn
吴宁女,1956年生于安徽淮南,硕士,南京航空航天大学教授,博士生导师.主要研究方向数字系统理论与技术、电子系统集成与专用集成电路设计.
E-mail:wunee@nuaa.edu.cn
An Adaptive Hybrid Wireless NoC Topology Structure
LI Jian-hua1,2,WU Ning1,HU Yong-liang2,ZHANG Xiao-qiang1
(1.CollegeofElectronicandInformationEngineering,NanjingUniversityofAeronauticsandAstronautics,Nanjing,Jiangsu210016,China;2.InstituteofComputerApplication,TaizhouUniversity,Linhai,Zhejiang317000,China)
Aimed at the high energy consumption and communication delay due to multi-hop wired links between distant cores of traditional and large-scale network-on-chip(NoC),a virtual Torus-based adaptive wireless NoC(VT-AWiNoC) structure is proposed.The automatic detection and dynamic bandwidth allocation mechanism to hot wireless link based on the sensing parameter for link congestion measurement is adopted.Moreover,the dynamic allocation circuit for transmitter is designed to realize adaptive adjustment of the intra-chip topology and link bandwidth as different traffic patterns.We compare the performance of our proposed VT-AWiNoC to other hybrid wireless NoC topologies by setting up the energy consumption and delay estimate models.Experimental results show that the proposed topology obtains a delay improvement of 16.52% to 23.27% under random traffic pattern,an energy saving per packet of 39.19% under hotspot traffic pattern,a delay improvement of 17.20% to 21.68% and energy saving per packet of 23.49% on real application such benchmark as FFT(Fast Fourier Transform).The proposed topology achieves higher performance gains with small additional area cost.
wireless network-on-chip(WiNoC);adaptive topology;congestion measurement
2014-12-29;修回日期:2015-06-24;责任编辑:覃怀银
国家自然科学基金(No.61376025);江苏省产学研前瞻性联合研究项目(No.BY2013003-11);浙江省自然科学基金(No.LY13F020012)
TN47
A
0372-2112 (2016)06-1420-09