基于FMECA和CARMES的飞腾通用模块失效模式分析
2022-02-17王宇峰史晓
王宇峰,史晓
(中国电子科技集团公司第五十二研究所,浙江杭州 310012)
受美国贸易战影响,进口处理器的供应已受到严重制约,迫使国家加速对国产处理器的自主研究。目前,国内已经形成了飞腾、龙芯、申威、兆芯等具有代表性的自主研制处理器[1-3]。
以国产处理器为基础的产品,例如工控防火墙[4]、无线气象采集系统[5]、计算机图形显示系统[6]等,已逐步应用于国防、军事、工业、航天等重要领域,但是对其可靠性问题的研究相对较少。文献[1]对某型国产处理器的可靠性环境试验方法与试验分析开展了研究,文献[7]针对龙芯计算机内存出错等常见故障,提出了故障诊断和可靠性增强方法。文中采用FMECA 方法,对飞腾最小系统通用模块开展分析,并结合实际故障统计数据,归纳总结出飞腾通用模块中危害性较高的元器件,并提出相应的设计改进措施,为模块可靠性设计工作提供指导意见。
1 飞腾通用模块设计
FT1500A/16处理器具备高性能、低功耗特点[8-9]。文中基于FT1500A/16 处理器,从飞腾最小系统出发,设计一款飞腾通用模块,可作为通用产品与其他板卡搭配使用,实现数据处理控制功能,具备模块化、通用化特点,灵活度高,结构独立、装拆方便,维修简易。飞腾通用模块实物如图1 所示。
图1 飞腾通用模块实物图
飞腾通用模块硬件设计说明如下。
1)内 存:FT1500A/16 处理器集成4 个DDR3 存储控制器。模块设计时单个存储通道扩展为9 片内存芯片(8+1 片,其中1 片作为ECC 使用)。
2)电源:模块采用典型12 V 电源输入,在板内实现电源转换。3)时钟:FT1500A/16处理器的参考时钟为50 MHz。4)复位:分为上电复位和热复位,两种复位信号上拉后,与外部控制器互连,低电平有效。
5)外设:FT1500A/16 包含丰富的外设,该模块设计对扣插座,实现与其他板卡的信号输出和互联,设计各接口用途功能如下。
①2 路UART:一路为应用串口,一路默认调试串口;
②2路I2C:根据需要设计,该模块目前设计使用1路,用作RTC 时钟数据通信;
③PCIE:分为PCIE0 与PCIE1,使用时均按照X8使用,其中PCIE1[0:7]接口通过PCIE 转SATA 接口芯片挂接系统盘;
④LPC:挂接LPC 设备;
⑤GPIO:使用FT1500A/16 处理器中B5、B6 引脚,用于系统关机/重启指示;
⑥SPI:用于启动加载片外固件。
2 飞腾通用模块FMECA
2.1 FMECA方法介绍
FMECA 方法是一种经典通用的可靠性分析方法,已广泛应用于各行各业各类型产品上[10-12]。通过梳理产品故障模式,分析其故障原因及可能的影响,采用定性或定量的方法,识别产品薄弱环节,并进行针对性改进,从而保证或提高产品可靠性,同时可对测试性、维修性、保障性、安全性等通用质量特性分析提供必要的输入,为产品研制与维修决策提供有效信息[13-15]。
文中针对飞腾通用模块,利用工业和信息化部电子第五研究所(广五所)研发的CARMES 软件对其开展硬件FMECA 工作,具体步骤如下所示。
1)系统定义,建立基本规则与假设;
2)按照约定层级建立模块系统树结构;
3)自下而上开展FMECA 定性分析,填写故障模式、故障原因、影响等;
4)开展可靠性预计工作,对元器件级进行预计,并向上推导模块级可靠性值;
5)关联FMFCA 与可靠性预计值,进行FMECA中的CA 工作;
6)分析FMECA 结果,识别薄弱环节,提出设计改进建议。
2.2 基于CARMES的飞腾通用模块FMECA分析
2.2.1 系统定义
依据原理图、最小系统组成,将飞腾通用模块功能电路划分为电源管理电路、信号互联电路、飞腾核心处理电路、DDR 存储电路。其中电源管理电路实现模块供电功能;信号互联电路主要由接插件组成,负责通用模块与外部板卡信号的互联;以FT1500A/16 处理器为核心的飞腾核心处理电路能够进行外部数据的接收以及实现核心控制功能;DDR 存储电路由板上的36 颗DDR 内存颗粒及其外围电路构成,负责实现与CPU 之间的数据交换处理。依据以上描述,绘制其功能框图,如图2 所示,其基本可靠性模型为串联模型。
图2 飞腾通用模块功能框图
2.2.2 基本假设与约定
1)约定层次
该方案划分其初始约定层次为飞腾通用模块,最低约定层次为元器件级。
2)严酷度类别及定义
分析中采用的严酷度分级定义如表1 所示。
表1 严酷度类别表
2.2.3 分析结果
通过CARMES 软件完成模块的FMEA 分析与CA 分析,得到危害性矩阵图与产品危害性较高的元器件,分别如下所示。
1)危害性矩阵图
飞腾通用模块危害性矩阵图如图3所示,图中编号对应的故障模式名称如表2 所示。在危害性矩阵图中,越靠近右上角的故障模式,表示其危害性越大,因此危害性最高的故障模式为全部功能失效,需重点关注。
表2 故障模式编号名称
图3 模块危害性矩阵图
2)元器件级产品危害性排序
对元器件级产品危害性排序,危害性较大的排名前10的元器件如表3 所示。
表3 元器件级产品危害性排序
2.2.4 设计改进措施
针对飞腾通用模块全部功能失效这一关键故障模式,分析其故障原因后,发现该故障模式主要由复位、电源、上电时序、DDR 数据、时钟等故障导致,与此相关的元器件为DDR 芯片、飞腾处理器、接插件、电源芯片以及关键阻容,与危害性较高的元器件高度重合。综上对于飞腾通用模块,提出设计改进措施建议,具体措施如下:
1)软硬件设计方面
电源部分设计充分考虑了输入和输出保护,包括防浪涌设计、尖峰抑制、防反接保护、防倒灌设计等设计措施,同时对电路中的关键阻容感采取冗余设计;在信号互联电路中,对于复位信号、电源使能信号与电源反馈信号等关键信号,接插件设计多点多线方式;对于飞腾核心电路中的关键阻容感,例如飞腾复位信号上拉电阻、PCIE1 与系统盘连接链路中的耦合电容、晶振供电滤波磁珠等,选用高等级器件,并采取冗余设计、降额设计等设计措施,提高其可靠性水平。
飞腾通用模块软件上增加ECC 校验,减少数据传输错误,并增加心跳包信号,利用监控电路检查处理器是否正常工作。
另外,基于飞腾处理器平台,可以采用板级管理控制器(Baseboard Management Controller,BMC)[16]来实现电源控制、外挂设备等的管理,能够对模块内电压、温度进行监控,同时通过BIOS 固件,对模块进行初步故障诊断。若内存出现故障,通过BIOS 诊断程序可定位到哪颗内存颗粒出现故障。
2)PCB 设计方面
在PCB 布局方面,飞腾等大功耗高热流密度器件单独放置于印制板的特定区域,且尽可能靠近模块与机箱的导热面;DDR 等普通功耗器件均布置在印制板正反面,有效利用印制板面积;电源模块等热敏感器件尽可能避让大功耗器件布置。
PCB布线方面,对于DDR芯片,DDR数据线、DQS、DM做到同组同层,且组内做等长;DDR 地址及控制线、clk 走线遵循Fly-by 拓扑,组内做等长;DDR所有走线都参考完整地平面,不跨分割走线。
将以上设计措施应用于飞腾通用模块,在设计阶段对模块较高风险的故障模式加以控制以降低其影响,对以飞腾通用模块为基础的产品使用反馈,产品在外场使用因飞腾通用模块导致的故障情况比较少。
3 结论
文中针对以FT1500A/16 处理器为核心的飞腾通用模块,基于CARMES 软件,开展了FMECA 工作,通过定性定量分析,得到模块危害性较大的故障模式,并统计出危害性较高的元器件清单。同时针对其故障原因,在软硬件设计、PCB 设计等方面给出设计改进措施,作为飞腾通用模块电路优化和元器件选择的理论基础,为其质量和可靠性的提高提供宝贵经验,在一定程度上提高了飞腾通用模块的可靠性、测试性水平。
在国产处理器可靠性研究方面,例如测试性建模、热振仿真、故障物理等方面,仍有很多工作有待于开展,通过对国产处理器的可靠性研究,可为提升国产处理器性能的可靠性水平提供依据。