利用PCI局部总线实现Blade Server的数据交换

2012-06-09沈淑渭

电子设计工程 2012年1期

关键词：刀片时钟总线

沈淑渭，卢虎，李彦

（空军工程大学理学院，陕西西安 710051）

新一代机架式服务器Blade Server（刀片服务器），应用iSCSI协议，通过 TCP/IP实现网络存储，利用 Internet，可将SCSI数据包传到地球上的任何地方。

笔者着眼于刀片服务器的内部构架和整体方案的介绍，主要论述了基于FPGA的刀片与主板之间PCI数据交换的具体实现方法。

1 刀片服务器系统构架

刀片服务器是一种HAHD （High Availability High Density，高可用高密度）的低成本服务器平台，是专门为特殊应用行业和高密度计算机环境设计的。每一块刀片均由“系统服务器主板＋控制板”组成，可以远程启动Windows NT/2000、Linux、Solaris等操作系统。类似于独立的服务器，每块刀片可以没有独立硬盘来存储数据，而是多个刀片共享一个Raid磁盘阵列。在该模式下，每个刀片运行自己的系统，服务于用户指定的不同用户群，相互之间没有关联，不过也可以通过系统软件将这些刀片集合成一个服务器集群，在集群模式下，所有的刀片连接起来提供高速网络环境，实现资源共享，为相同的用户群服务。用户若需提高整体性能，只需在集群中插入新的刀片即可。刀片可热插拔，替换便捷，且维护时间减到最小。

机架中的服务器（刀片）可以通过智能KVM转换板共享一套键盘、显示器和鼠标，以访问多台服务器（刀片），从而便于进行升级、维护和访问服务器上的文件。单个刀片通过PCI总线连接至主板，刀片中据的传输和交换，均通过该通道进行，刀片的实际组成如图1所示。

图1 刀片组成示意图Fig.1 Schematic diagram of blade server

刀片在单机架系统中的位置如图2所示。

图2 刀片系统结构Fig.2 Blade system architecture

在单机架系统中，用户交换机与Blade通过RJ45的千兆网接口进行连接，用户经用户交换机接入Blade服务器进行数据交换，可以在全球任何地方，由Internet接入到用户交换机。集中控制单元具有网络端口等PC常用输出端口；分散控制单元（DMU）通过CompactPCI与Blade进行通信；通过 232串口与集中控制中心（SMU）进行通信。DMU和SMU共同完成KVM的切换和采集Blade状态功能。

由于每个Blade没有单独的硬盘，所有Blade的启动都是通过目标服务器远程启动，并完成配置以及启动Raid中预装的操作系统，同时通过DHCPD（动态分配IP地址）、ADSS、iSCSI为每个Blade分配使用Raid磁盘阵列空间。也即每个Blade都是通过网络接口启动系统，所以网络配置要先于操作系统引导前完成初始化和驱动装载。

2 PCI局部总线概述

PCI总线是一种不依附于某个具体处理器的局部总线[1-2]。从结构上看，PCI是在CPU和原来的系统总线之间插入的一级总线，具体由一个桥接电路实现对这一层的管理，并实现上下之间的接口以协调数据的传送。管理器提供了信号缓冲，使之能支持10种外设，并能在高时钟频率下保持高性能。PCI总线也支持总线主控技术，允许智能设备在需要时取得总线控制权，以加速数据传送。

通用PCI2.2接口信号如图3所示。在图3左半部分为必要信号，任选信号列于右边。其中信号名称右边加一个“＃”符号表示是低电平有效，未加“＃”符号的是高电平有效。根据信号的功能划分，可分为系统信号组、地址数据组、接口控制组、仲裁管理组、错误测试组、中断功能组、Cache支持组以及其他功能组。

图3 PCI局部总线引脚图Fig.3 PCI Local Bus pin diagram

3 基于FPGA的PCI数据交换实现

通常PC都是采用本地硬盘来引导操作系统，完成设备的驱动，Blade则通过网络启动系统，所以网络配置要先于操作系统引导，并完成初始化和驱动装载。为了解决这个难点，我们采用“PCI＋FPGA+Flash”结构，在Flash中烧录双端口千兆网卡PCI设备的初始化和驱动装载程序，由CPU在系统上电时加载Flash中的程序到系统内存。由于数据传输是PCI总线，而Flash是标准的数据总线，这就存在数据总线转换的问题，问题解决的方案是通过FPGA完成PCI设备与Flash之间的通信，下面将详细介绍如何利用FPGA来完成PCI接口和Flash之间的通信。

3.1 FPGA系统逻辑与实现

整个FPGA系统设计基于PCI2.2从设备设计思想[3]，PCI主设备为PCI桥芯片，用FPGA来完成PCI从设备功能，终端为Flash芯片。在FPGA系统中，PCI总线接口部分的设计参数为：PCI时钟为 33 MHz（CLK），32 位 I/O 接口（AD[31..0]），终端接口可以提供20位或32位数据线。PCI主设备与终端Flash间的通信采用PCI从设备（FPGA）来实现的。在FPGA的逻辑设计中，终端是兼有Memory空间和I/O空间的抽象设备，在实际的设计中终端Flash，只有对应的Memory空间。

根据FPGA的模块设计思想[4-5]，采用Verilog语言将整个系统按功能进行分块设计，每个模块的输出可以为其他功能模块提供输入，各模块功能和设计思想如下：

“PCI顶层模块”是系统顶层模块，完成系统端口各使能开关的定义和调用其他5个功能模块。

“配置模块”完成PCI从设备配置寄存器的设置。

“基址模块”实现两个功能：1）配置I/O空间和存储空间（memory空间）的基地址；2）告知PCI从设备状态机（The State Machine）。

“状态机模块”是整个设计的核心，控制PCI主设备到终端的所有数据传输。在PCI地址传送阶段，通过采样C/BE[3..0]和IDSEL来决定是配置读写、存储空间读写还是I/O空间读写。

“校验模块”对AD[31..0]和C/BE[3..0]#信号作奇偶校验，以保证数据的有效性。

“重入模块”若PCI从设备进行一个读写操作，则必须在6个时钟周期内（定义PCI从设备为slow=10 b，慢速设备）使能DEVSEL。若PCI从设备进行数据传送（已经使能DEVSEL），终端在9个时钟周期内没有使能READY＃，则将告知：“The State Machine模块”，终端暂时中止当前的数据传送，直到传送条件满足后，才重新启动数据传送。

3.2 FPGA系统逻辑功能仿真与结论

完成了各功能模块程序的编辑和编译过程，即可采用xilinx ISE11.2自带的HDL Bencher来生成测试激励文件，而后就可以调用ModelSim进行仿真了，该仿真也叫前仿真（逻辑功能仿真），布线后的仿真称为后仿真，也叫延时仿真，布线后的仿真包含门延时和线延时[6]。

下面给出memory写操作功能仿真的详细步骤，并对结果进行分析。

图4 memory写操作功能仿真Fig.4 Simulation of memory write operation

I/O、memory空间读写过程非常相似，现对memory空间猝发方式写操作进行详细的说明。在图4中，通过测试文件生成 pci_rst＃＝1，不产生复位动作，地址节拍 pci_ad＝0x2000_0000，表示PCI主设备从系统地址0x2000_0000地址开始写到终端0x00000地址开始的数据空间，可在“PCI顶层模块”定义（bkend_ad[19..0]＝pci_ad[19..0]），终端只取系统地址的低 20位地址。 pci_cbe＃[3..0]＝0111，表示是 memory空间写操作，在 idle 状态 pci_frame＃使能，irdy＃、devsel＃、stop＃先不使能，PCI主设备将地址送到终端地址线上，data_stop＃＝1，表示终端支持猝发方式数据写操作。在下个时钟周期，进入到 rw_wait状态，base_region1＃（memory 片选）使能，告诉终端准备执行memory写操作，同时打开I/O、memory空间写操作使能。在下个时钟周期，进入到rw_wait2状态，如果终端使能ready＃，表示终端准备好接收数据，使能 devsel＃、trdy＃、date_write＃，其中date_write＃使能，是让终端产生写使能信号。irdy＃、trdy＃使能，表示PCI主设备和终端数据可以有效传输，通过测试文件在PCI主设备的对应地址（0x2000_0000）下产生数据cdef0000，在该状态，写入终端第一个数据cdef0000。在下个时钟周期，进入到rw状态，如果在该状态下pci_frame＃＝0还使能，表示PCI主设备想支持猝发写，继续使能 devsel＃、trdy＃信号，stop＃不能使能，因为 PCI主设备准备猝发写操作，在该状态下，只要 pci_frame＃＝0（使能），循环写入数据 cdef0001、cdef0002、cdef0003、cdef0004，上文已经介绍，下一个数据对应的地址自动加一，地址都是线性增加的。图 4中，PCI主设备准备发送 cdef0005数据时，irdy＃＝1（不使能），表示PCI主设备正在取数据，data_write＃（终端写使能）不使能，告诉终端等待PCI主设备取数据，插入等待周期。在下个时钟周期，irdy＃重新使能，date_write＃也重新使能，继续写数据 cdef0005，这样可以一直写数据。pci_frame＃＝1，表示进入最后一个周期的写数据操作，关闭 irdy＃、devsel＃、base_region1＃使能。在下个时钟周期，进入到backoff状态，在下个时钟周期进入到idel状态，一个完整的memory猝发写就完成了。

完成功能仿真（前仿真）后和后仿真（布线后仿真）后，可使用ISE11.2自带的下载配置工具进行下载，至此FPGA系统设计全部完成，接着可对整个FPGA芯片进行硬件部分的测试工作。

可采用Xilinx的ISE自带的ChipScope Pro（在线逻辑分析仪），添加测试激励，可以看到数据的读写都是满足要求，具体跟上面的仿真波形相似，只是包含延时信息，门延时和线延时控制在0.5个时钟单元（15ns），符合设计要求。