欧洲宇航ASIC与FPGA产品保证标准分析
2018-07-17付予朱旭斌熊园园
付予 朱旭斌 熊园园
(航天标准化与产品保证研究院,北京,100071)
欧洲空间标准化合作组织 (ECSS)为确保空间项目在欧空局、其他国家空间局和欧洲工业协会等机构的共同合作下顺利完成,制定了体系完备的、针对空间项目特点的一套标准。ECSS标准化活动涉及空间项目管理、空间产品保证和空间工程等3个分支,3条主线清晰,项目管理、产品保证和工程技术并重[1]。其中,产品保证标准规定了空间产品保证活动的管理和实施方面的要求,包括产品保证管理 (Q-10),质量保证 (Q-20),可信性 (Q-30),安全性 (Q-40),EEE元器件(Q-60),零件、材料和工艺 (Q-70),软件产品保证 (Q-80)等7个系列标准。而Q-60系列又包括6类标准:①ASIC(专用集成电路)和FPGA(现场可编程门阵列)集成电路研发 (Q-ST-60-02);②混合集成电路采购要求(Q-ST-60-05);③MMIC芯片设计、选择、采购和应用 (Q-ST-60-12);④COTS(商用货架产品)器件保证(Q-ST-60-13);⑤超期再用程序 (Q-ST-60-14);⑥辐射加固保证 (Q-ST-60-15)。以 ASIC和FPGA为代表的集成电路,在空间产品中得到了大量应用,相应的产品保证标准为欧洲空间产品用ASIC与FPGA产品保证工作提供了重要依据[2]。
1 ASIC与FPGA研发主要内容
1.1 总体构成
ECSS将宇航用ASIC与FPGA研发作为空间产品保证分支的重要组成部分,包括两项标准化文件:①Q-ST-60-02ASIC与FPGA研发标准;②Q-HB-60-02ASIC与FPGA辐射减缓技术手册。标准作为产品保证工作的指导框架,而手册作为标准的补充,从用户的角度详细介绍了具体技术,两者相互依赖、相互补充,共同完成ASIC与FPGA研发的产品保证工作。
1.2 ASIC与FPGA研发标准架构
Q-ST-60-02ASIC与FPGA研发产品保证标准主要侧重于3大方面:项目管理 (M)、工程实施 (E)和质量保证 (Q)。“项目管理”的主要侧重点在于计划的管理,包括控制计划、研发计划、核实计划以及设计验证计划等,除此之外,对经验总结报告也进行了要求;“工程实施”主要通过示例对一般开发流程进行描述,并对开发过程中,各个流程的要求进行明确;“质量保证”主要内容参照Q-20质量保证方法进行,在此基础上增加工作总结会议相关内容。
ECSS作为一个完整标准架构,存在大量引用情况。以Q-ST-60-02为例,在项目管理章节中大量引用项目管理 (M)中的M-ST-10项目计划和执行的内容;在质量保证章节中大量引用Q-ST-20内容。而Q-ST-60-02标准本身更加侧重于整个保证工作架构的建立,具体保证工作涉及的技术通过技术手册 (Q-HB-60-02)进行描述。
2 ASIC与FPGA辐射减缓技术手册
减缓技术是指针对辐射影响采取的减轻辐射影响的措施。ASIC与FPGA辐射减缓技术手册,是用来指导用户在复杂环境下 (辐射)合理设计ASIC与FPGA的指导手册,是ASIC与FPGA产品保证标准的重要补充,为产品保证工作的开展提供技术指导。从工艺选择到布局布线,从电路级设计到系统架构及设计,包含了数字电路、模拟电路以及混合信号电路,覆盖面十分广泛。具体来讲,可以划分为3个模块:总体概要、减缓技术和验证方法。
“总体概要”主要介绍了空间产品的辐射环境情况和可能出现的辐射效应,如TID(电离总剂量)、SEU(单粒子翻转)、SET(单粒子锁定)、SEL(单粒子闩锁)、MBU(单粒子多位翻转)等失效机理,并针对不同辐射效应介绍了基本的加固策略,对辐射的基本概念及抗辐射加固的基本知识进行了简单描述。
“减缓技术”按照设计开发流程的不同阶段进行介绍,从辐照环境及其影响、设备加固策略、技术选择及工艺水平、布局、模拟电路设计、嵌入式存储器、抗辐射ASIC库、数字电路设计、SoC(片上系统)设计、FPGA设计、软件实现容错技术、系统架构设计和验证方法等方面介绍相关内容及可采取的减缓技术。每项减缓技术均从4个方面进行介绍:概念、可获得数据(包括仿真数据、辐射试验数据、飞行过程数据)、效益和已知问题,为工程师开展ASIC与FPGA产品保证工作提供指导。
“验证方法”主要介绍辐射仿真试验,通过仿真试验对减缓技术的容错能力进行检验。通过对辐射环境的仿真模拟和加速试验,进一步验证。
手册一共设置了13个章节对具体减缓技术进行介绍,归纳之后可以划分为4个层级:①制造工艺级;②物理布局级;③电路结构级;④系统架构级。并在每个层级介绍减缓技术对哪些具体的辐射影响进行改善,如图1所示。
2.1 制造工艺级
制造工艺级的减缓技术一般称为辐射加固工艺 (RHBP),这些技术处理受2个主要因素的影响:TID(总剂量效应)和SEE(单粒子效应)。手册讨论了TID和SEE技术缩放的影响。致力于减少TID影响的解决方案,专注于修改绝缘体的性能和在有源区域附近界面的掺杂水平。同时,给出了减缓技术和辐射效应的总结。
图1 减缓技术等级划分
制造工艺级的减缓技术主要包括:外延层、绝缘衬底上的硅 (SOI)、三阱、掩埋层、干热氧化和注入氧化物等。手册对每一种技术的概念、可用的测试数据、附加价值、已知问题和主要特性进行了总结和分析,并给出大量数据和实际案例。“外延层”通过重掺杂P+衬底和N阱之间的较高电阻率阻挡层,从而降低闩锁的风险。“SOI”衬底架构可以提高器件密度并消除寄生器件的电流路径,一般按照绝缘层和衬底之间的距离可以分为完全耗尽SOI和部分耗尽SOI,两种性质略有不同。在SRAM (静态存储器)中,“三阱”工艺已被用来降低SEU和SEL的灵敏度。“掩埋层”对辐射的影响比较大。“干热氧化”主要是解决TID引发的净正电荷。 “注入氧化物”可以增强TID硬度,一般使用注入氟的方式来加固氧化层。表1是制造工艺级减缓技术及其处理的辐射效应,“√”表示该减缓技术对该辐照效应有效果。
表1 制造工艺级减缓技术总结
2.2 物理布局级
这里介绍应用于集成电路布局方面的相关技术来减缓辐射影响。通过修改晶体管的形状或者插入保护材料,来减少TID和闩锁现象。同时,SET和SEU效应也相对减轻。对于TID效应,减小氧化层厚度是一个最有效的方法,通常采用的方法是封闭布局晶体管 (ELT)。对于SEL强化,普遍做法是通过在MOS晶体管周围插入触点和保护环,从而降低闩锁的风险。表2是物理布局级减缓技术及其处理的辐射效应,“√”表示该减缓技术对该辐照效应有效果。
表2 物理布局级减缓技术总结
物理布局级的减缓技术主要包括:环形/封闭形栅晶体管、触点和保护环、虚拟晶体管以及改善晶体管栅极W/L比例尺寸。“环形或封闭布局晶体管”通过减小漏极的面积可以减小器件的横截面,从而降低SET和SEU的辐照影响。“触点和保护环”通过降低两个寄生晶体管的增益并减小寄生阱和衬底电阻,可以防止发生闩锁,同时,NMOS器件周围的保护环通常有助于减缓TID,保护环也减轻SET效应。“虚拟晶体管”可以使用三晶体管 (3T)逆变器来减小大的SET效应,并提出一种新的RHBD技术来产生额外的SET减缓。 “改善晶体管栅极W/L比例尺寸”用于降低组合逻辑电路中软错误失效率的成本效益。
2.3 电路结构级
2.3.1嵌入式存储器
存储单元 (例如SRAM单元、锁存器、触发器)对辐射的影响比较敏感,主要是SEU。因为大多数数字设计都包含大量以阵列形式组织的存储器单元 “内存块”,基于空间冗余的减缓策略通常是不够的,不能适应IC(集成电路)面积和功率要求。现有技术中的替代解决方案可以分为2类:①追求加固位存储单元;②旨在恢复出现在存储单元阵列数据组中的位错误。所有这些技术都有其优点和缺点,因此并没有十全十美的解决方案。根据所需的鲁棒性水平和任务的限制,设计者可以找到最佳的解决方案。
“加固位存储单元”主要方法有:电阻、电容加固、IBM加固、HIT加固、DICE加固、NASA-Whitaker加固和 NASA-Liu加固等。“恢复出现在存储单元阵列数据组中的位错误”主要涉及到存储阵列中的比特交织和数据清理的技术。表3是嵌入式存储器辐射效应减缓,“√”表示该减缓技术对该辐照效应有效果。
2.3.2模拟电路
手册在本节介绍了模拟电路抗辐照所采取的基本方法,在混合信号系统中,单粒子撞击会产生与正常信号产生竞争的瞬态信号 (SET),干扰电路的正常功能。然而,在模拟和混合信号电路中不存在对于软错误的标准度量,因为单个粒子碰撞的影响取决于电路拓扑、电路类型和工作模式。通常选择牺牲面积和功率的方式,而增加电容、器件尺寸和电流驱动能力,以增加SET所需的关键电荷的数量,有时也称为模拟电路的单粒子瞬时效应 (ASET)。表4是模拟电路辐射效应减缓,“√”表示该减缓技术对该辐照效应有效果。
表3 嵌入式存储器辐射效应减缓
表4 模拟电路辐射效应减缓
手册从9个方面进行阐述:①节点分离(NodeSeparation)与交错布局(Inter-digitation); ②模拟冗余 (Analogue redundancy);③电阻去耦(resistive decoupling);④滤波;⑤带宽、增益、运行速度和性能的修改;⑥减少薄弱环节 (window of vulnerability,WOV);⑦减少高阻抗节点 (high impedance nodes);⑧差分设计;⑨双路径加固。
无论采用何种技术,减缓措施都涉及以下一种或两种情况:①增加产生模拟电路的单粒子瞬时效应所需的临界电荷 (Qcrit);②减少合金结合处收集的电荷量 (Qcol)。
增加临界电荷一般需要通过布局来实现设计级减缓技术。增加临界电荷 (Qcrit)的主要方法有:①增加晶体管尺寸;②增加驱动电流;③增加电源电压;④增加电容器。
减少设备连接处收集的电荷量可能涉及修改布局,例如:①使用诸如保护环之类的布局方案,在MOS周围使用n型环、衬底分接环和嵌套少数载体保护环用于双极结构,如SiGeHBT技术;②基板工程;③在绝缘体上硅 (SOI)上使用非常薄的硅层;④在HBT器件中添加虚拟集电极以收集电荷;⑤使用增加的衬底和良好的接触 (降低衬底和阱阻抗)。
2.3.3数字电路
手册在本节介绍了针对数字设计的容错技术,主要应用于电路架构层,即硬件描述语言(HDL)中,模块层级的容错设计。模块内部减缓和更复杂的电路级减缓技术在本文2.4.1“SoC”节中介绍。保护数字电路免受辐射影响的最佳解决方案通常有几种减缓技术的组合。表5为数字电路减缓技术总结,“√”表示该减缓技术对该辐照效应有效果。
表5 数字电路减缓技术总结
基于数字电路的容错技术要么基于空间冗余,要么时间冗余,要么基于两者。这些技术侧重于非损伤性 SEE(non-destructive SEE),包括:SET、SEU和其他。由TID导致的错误不能用这些技术来减缓。之后介绍了三种针对独立存储器单元(individual memory cells)的减缓技术,存储器单元阵列 (array of memory cells)和信息冗余对于数字电路设计者也是重要的。
“空间冗余”——资源被复制,以并行处理同一任务,下游设置比较电路负责错误检测和最终错误校正,如SEU产生的错误。
“时间冗余”——信号在不同时刻采样(或执行完整功能),通过比较电信号甄别辐射产生的瞬变和干扰。
“加固存储器单元”——存储单元通常占数字电路总硅面积的很大一部分。因此,设计人员必须特别小心,以确保其辐射鲁棒性符合任务标准。一种合适的解决方案是通过抗辐射加固的存储器来替换存储单元 (例如触发器、寄存器或锁存器)。
“内存模块强化”——为了防止辐射导致存储器单元阵列中的 “数据块”中不只一位发生的错误,可以在存储器块级别实施减缓技术,试图避免 “数据块”的位太靠近,导致彼此之间,被相同的辐射事件改变。
“信息冗余”——通过检错码和纠错码能够保护存储单元阵列中的数据块免受辐射效应的影响。
2.3.4ASIC抗辐射库
大多数提出专门的抗辐照工艺的代工厂由于军事和航空航天客户的需求减少、缺乏商业上的订单,逐渐呈萎缩态势。然而,目前有另一种解决办法,即:加固基本的功能单元,可以纳入商用ASIC加工制造流程中。此举有诸多优点如:①独立的代工厂;②先进的深亚微米技术;③高性能;④低功耗;⑤低成本;⑥体积、质量小。
“加固基本功能单元”被封装打包后为ASIC设计者使用,也就是各种的 “ASIC库”,是通过结合布局部分、模拟电路部分、嵌入式存储器部分所列出的几种技术来实现的。手册介绍了一些众所周知的被用来开发空间ASIC的抗辐照库,并作为例子进行阐述。主要包括:①IMEC抗辐射效应库;②CERN0.25μm抗辐射效应库;③BAE0.15μm抗辐射效应库;④RamonChips 0.18μm和 0.13μm抗辐射效应库;⑤Cobham 600nm、250nm、130nm和90nm抗辐射效应库;⑥Atmel公司相关抗辐射效应库,等。
2.4 系统架构级
2.4.1SoC
随着用于制造集成芯片技术的发展,单个芯片变得越来越复杂。这是由混合信号的应用和RF工艺技术的发展而造成的,SoC设计过程中可以将数字、模拟模块和混合信号结合起来。因此,当开发芯片上的辐射加固系统时,也需要过去由PCB或系统设计者负责的设计专业知识。针对SoC还需要特殊的预防措施,以达到指定的抗辐射要求。具体的减缓技术主要包括:①纠错码、存储模块的加固;②数据传输路径中过滤SET脉冲;③设置看门狗定时器;④混合信号电路中的三模冗余,等。表6是SoC减缓技术总结,“√”表示该减缓技术对该辐照效应有效果。
2.4.2FPGA
现场可编程门阵列 (FPGA)是一种集成电路,FPGA中最基本的模块为逻辑单元,逻辑单元可以被配置为执行复杂的组合逻辑和时序逻辑。最先进的FPGA芯片还整合了嵌入处理器、DSP(数字信号处理器)和高速通信接口。
表6 SoC减缓技术总结
目前主流FPGA主要有反熔丝型FPGA和基于SRAM或Flash的存储单元。
a)反熔丝型FPGA,尽管熔断器的初始条件是低电阻路径,并且被设计为永久断开导电路径,但反熔断开始于高电阻,并且当通过反熔丝的电流超过一定水平时,就会产生设计的电路。这种技术的缺点是配置不可逆。然而,就辐射耐受而言,这是一个优点,因为配置层不受辐射的影响。
b)基于SRAM或Flash的存储单元具有可重新配置的优点,可以实现FPGA的配置。它可能对辐射有更多的敏感性。事实上,在使用扰动位的情况下,配置存储器中发生的位翻转会对应用产生影响。这样的永久性突变可能因此产生严重的后果,所以对FPGA重新配置是恢复标称配置是必需的。
由于FPGA旨在承载用户的数字设计,因此数字电路部分和SoC部分中描述的大部分减缓技术也适用于FPGA。本节包含一系列专门针对FPGA的减缓技术,主要是基于三模冗余技术及其不同配置,以及基于可靠性布局布线算法(RoRA),嵌入式处理器的保护和对配置存储器的重置等。表7是FPGA减缓技术总结,“√”表示该减缓技术对该辐照效应有效果。
表7 FPGA减缓技术总结
2.4.3软件实现容错技术
软件实现容错技术 (SIFT)是允许软件检测并纠正可能影响软件运行的硬件的故障。SIFT主要包含3个部分:指令级冗余、任务级冗余和应用级冗余。
对于基于处理器的体系结构,硬件资源通常十分有限,采用空间冗余的方法通常会有限制,而时间冗余可以是处理非破坏性SEE的可行的解决方案。一般的想法是在比较结果之前,在同一个处理单元上多次执行应用软件的检测程序,这样可以通过有限的硬件开销,在增加时间开销的基础上,实现纠错、检错。这一减缓技术意味着电子系统所使用的软件需要重新设计,尽管这些修改并不总是适用于所有类型的软件。
SIFT可以应用于COTS处理器件,或IP嵌入空间的ASIC或FPGA处理器。通过增加时间冗余的方法实现容错:①软件对硬件故障的检测,例如,看门狗定时器实现专用芯片并行工作的处理器上运行软件的筛选功能;②从硬件中删除故障产生的因素,并将系统恢复到健康状态。例如,通过将系统状态重置到先前保存的良好运行状态。
3 系统架构
片外减缓技术指的是减少辐射对电子设备的影响而产生解决方案,由片外的硬件、软件共同实现。对于软件层面上实现的减缓,软件实现容错部分有详细描述。本节介绍了几种针对硬件的解决方案,以减轻各种辐射效应。主要包括屏蔽、看门狗定时器、限流开关、空间冗余以及重新启动等方案。
“屏蔽”的目的是减少粒子能量撞击集成电路的敏感区域。通常,空间应用都使用集成电路的屏蔽包和系统的屏蔽盖。这样的解决方案是解决许多类型的危害可能 (例如:TID、SET、SEL或SEFI),但对于来自太阳离子和质子的危害并不十分有效。
“外部硬件保护和恢复技术”是有针对性地添加一些硬件监控系统。如:限流开关监测系统的电流消耗检测潜在的SEL,看门狗定时器能够恢复SEFI(单粒子功能中断)。
“空间冗余”根据可用性和可用硬件资源的任务要求,设计人员可以在双工拓扑或三模冗余(TMR)这两种体系结构之间进行选择。双工器使用硬件资源增加一倍,仅限于故障检测。在这种情况下,故障纠正通常是通过再次处理数据来实现的,这意味着时间开销。TMR架构是使用初始硬件资源的三倍,并提供无需时间开销的故障检测和校正。
4 验证方法
本节主要介绍了故障注入方法及辐射仿真试验。“故障注入”是从晶体管、门电路、设备和系统等4个层级进行试验,考验容错能力;对实际工作环境进行仿真,不同的辐射源和试验可以用来验证产品的水平,了解在恶劣环境 (辐射)下如何执行程序是很有必要的;并介绍了各航天机构发布的标准,如ESCC25100《单粒子效应试验标准》、ESCC22900《稳态总剂量辐射试验方法》、MIL-STD-883/1019.4《微电子器件试验方法和程序》等。现实生活中需要长时间的接近真实环境的试验研究。
可以将辐射仿真试验概括为:①实际工作环境试验(在空中或地面)——混合种类广泛的能谱,联合效应 (TID,DD及SEE),全方位的环境,实际的粒子通量率;②地面加速试验——单粒子种类,单能谱,单效应,单向环境,加速粒子速率/通量。
5 ASIC与FPGA产品保证标准的发展与建议
以ASIC与FPGA为代表的集成电路在航天产品中应用广泛。近几年,FPGA更是大规模的应用于航天型号,为了满足性能上的要求,最先进的FPGA芯片整合了嵌入处理器、DSP和高速通信接口等资源,进一步对产品保证工作提出了新要求。各国宇航机构出台了相关产品保证标准作为配套,而具体形式也逐渐多样化,从最早的标准只搭建架构并设计一些管理方法,发展到在标准的基础上通过发布技术手册,对具体的关键技术进行阐述。仅在2017年ECSS就发布了3份不同领域的技术手册,与发布的标准数量基本持平。手册将用户关心的技术问题进行深入讲解,开展横向比较,为用户明确“关注什么问题”,“问题可以怎么解决”和 “怎么解决最适合”这三个问题。一方面填补了标准的技术空白,深化了标准的深度;另一方面手册的编制以用户需求为导向,增加了可行性与实用性[3]。
本文从ECSS保证标准入手,重点介绍了欧洲宇航ASIC与FPGA辐射减缓技术手册,技术手册从用户的角度出发,详细介绍了辐射减缓技术,作为标准的技术补充,技术手册越来越多的应用于ECSS标准体系中。就ASIC与FPGA产品保证工作而言,各国宇航机构对辐射减缓技术均十分重视,在研究具体辐射减缓技术的同时,也通过发布标准、技术手册的方式指导产品保证工作的开展,如ESCC22900、MIL-STD-883/1019.4、JEDECJESD57等。2012年,航天科技集团发布了Q/QJA20003-2012《宇航用FPGA抗电离总剂量辐照试验指南》与Q/QJA20006-2012《宇航用SRAM型FPGA单粒子效应试验方法》,对宇航用FPGA辐照试验进行了规定,但只是针对SRAM型FPGA,其他类型如反熔丝型、FLASH型则没有涉及,并且对FPGA产品保证工作还未发布宇航标准。
为此,笔者对我国的ASIC与FPGA产品保证工作提出几点建议:①编制并发布针对ASIC与FPGA保证工作的标准化文件;②以军民融合为契机,引导商业资源投入到抗辐照技术研发,如ASIC抗辐射加固库;③加强相关理论研究,将理论转化为实际应用,如RoRA算法的应用。从标准发布、技术研发、理论研究和政策环境等多维度发力,促进我国宇航用ASIC与FPGA保证工作。
附表 文中符号缩写对照表