基于GPU的大规模配电网电磁暂态并行仿真技术
2017-11-11宋炎侃黄少伟于智同
陈 颖, 宋炎侃, 黄少伟, 于智同, 魏 巍
(1. 清华大学电机工程与应用电子技术系, 北京市 100084; 2. 国网四川省电力公司电力科学研究院, 四川省成都市 610072)
基于GPU的大规模配电网电磁暂态并行仿真技术
陈 颖1, 宋炎侃1, 黄少伟1, 于智同1, 魏 巍2
(1. 清华大学电机工程与应用电子技术系, 北京市 100084; 2. 国网四川省电力公司电力科学研究院, 四川省成都市 610072)
随着分布式电源等复杂设备的接入,针对配电网暂态过程的分析逐步依赖详细建模和电磁暂态仿真。图形处理器(GPU)等细粒度并行计算设备可显著提升配电网的电磁暂态仿真效率。提出了一种基于GPU的并行仿真技术,在GPU中加速了对大规模配电网系统的电磁暂态仿真。首先,将配电网电磁暂态仿真的计算过程分为异构计算、同构计算和网络求解三部分,并分别建立了细粒度并行计算模型。其次,针对上述三种计算模型,分别设计了基于分层有向图的异构计算核函数,基于积和熔加计算的同构计算核函数以及基于矩阵运算的网络求解核函数,最终实现了完全基于GPU的配电网电磁暂态仿真。对大规模配电网算例的仿真结果表明,所提出的细粒度计算模型和仿真算法可在保证仿真精度的前提下,提升在GPU中进行大规模配电网仿真的效率。
配电网; 电磁暂态仿真; 细粒度并行; 图形处理器
0 引言
随着分布式电源、电动汽车、柔性负荷等设备的大量接入,配电网从传统的无源网络逐步变为有源的主动配电网[1-2],而其中双向潮流、三相不平衡、谐波污染和电压越限等暂态问题日益突出。此类复杂暂态过程直接影响负荷的供电可靠性和电能质量,因此有必要对配电网详细建模,并对其复杂动态过程进行电磁暂态仿真分析。然而,配电网结构复杂,规模庞大,设备种类众多,非线性强。其电磁暂态仿真过程计算量庞大。故采用传统商业软件(如PSCAD,PowerFactory等)进行分析时,仿真耗时巨大,不仅分析效率低,且难以提供实时在环测试环境。
针对大规模复杂配电网电磁暂态仿真效率低下的问题,相关研究主要集中在简化配电网建模[3]和并行加速[4-7]两方面。本文着重讨论并行加速方面的工作。其中,文献[4-5]分别利用延时解耦和长导线解耦的方式实现了复杂配电网的并行仿真加速。为进一步提升计算效率,文献[6-7]选用现场可编程门阵列(FPGA)作为加速计算设备,实现了配电网暂态的实时仿真。然而,考虑成本因素,FPGA目前主要面向实时仿真需求。其仍无法满足日益增长的配电网仿真规模及快速离线仿真需求。
近年来,基于众核架构的图形处理器(graphics processing unit, GPU)逐渐发展,并成为加速计算的研究热点。由于兼具高计算效率和低设备成本的优点,GPU已被广泛应用于众多科学计算领域。
在电力系统研究领域,GPU在潮流计算[8]、稳定计算[9]、电磁暂态仿真[10-15]等多场合均取得了显著加速效果。在电磁暂态仿真加速方面,大部分工作主要集中在对传统电力系统的加速仿真。其中,文献[12]在GPU中设计了传输线、电机等输电网关键设备的仿真计算模块,在GPU中实现了传统输电网的电磁暂态仿真。文献[13-14]设计了完全基于GPU的电磁暂态仿真算法,并可对含变流器的网络进行加速仿真。文献[15]则主要面向复杂控制系统,设计了基于GPU的并行仿真算法。然而,配电网中除了含有传统电气设备外,还含有分布式电源、可控负荷等各类设备。其设备种类多,模型差异性强,故无法为每一配电网设备模型设计单独的加速计算模块。因此,上述工作仍无法完全兼容配电网的电磁暂态仿真。
针对配电网的上述特性,结合GPU的细粒度并行特点,本文从重构电磁暂态细粒度并行计算模型的角度入手,将配电网电磁暂态计算分为异构计算、同构计算和网络方程求解三部分,并分别在GPU中设计了基于分层有向图(layered directed acyclic graph,LDAG)的异构计算核函数、基于积和熔加(fused-multiply-add,FMA)运算的同构计算核函数以及基于矩阵运算的网络方程求解核函数,构建一套完全基于GPU的配电网电磁暂态仿真平台。测试结果显示,本文算法在保证仿真精度的前提下,对大规模配电网电磁暂态仿真具有良好的加速效果。
1 配电网电磁暂态细粒度并行计算模型
1.1 GPU细粒度并行计算模型
GPU是一类由大量计算核心、少量逻辑处理单元构成的众核(Many-Core)架构处理器。其适合处理数据密集型、细粒度并行的计算任务[16]。
统一计算设备架构(compute unified device architecture,CUDA)是NVIDIA推出的通用并行计算架构,它利用GPU的强大计算能力解决复杂计算问题,显著提高计算性能。图1给出了NVIDIA CUDA下的GPU细粒度并行计算模型。其中,GPU程序被组织为一系列核函数(Kernels)。每一个核函数包含大量计算线程,并由CPU程序调用执行。大量线程在GPU中被组织为层状结构,并有序地映射到GPU中的每个计算核心。其中,连续排列的32个线程构成一个线程束(Warp)。其中计算指令相同的线程通过单指令多线程(single-instruction-multi-threads,SIMT)并行机制实现计算任务的细粒度并行。通常情况下,为提升算法的并行程度,有必要根据计算特点设计线程结构,以保证每个线程束中的线程可完全实现SIMT并行,达到最高计算效率[17]。
图1 CUDA架构下的GPU计算模型Fig.1 Computational model of CUDA-based GPU
1.2 配电网电磁暂态仿真的细粒度并行计算模型
在节点分析法电磁暂态仿真框架下,配电网电气元件的暂态过程通常被建模为诺顿等值方程[18]的形式。因此,一个m端口的电气元件计算公式如下:
I(t)=GU(t)+Ine(t)
(1)
Ine(t)=PI(t-Δt)+QU(t-Δt)+Ic(t)
(2)
式中:t为时间;I和U分别为元件端口电流和电压向量;G为元件的诺顿等值电导矩阵;Ine为诺顿等值电流向量;P和Q为系数矩阵;Ic为额外注入电流向量。
需要注意的是,式(1)和式(2)对包含非线性特性或复杂控制器的任意电气元件均适用。对诸如电机、可再生能源电源以及饱和变压器等设备,其非线性特性可通过分段线性化或等效电流源注入的方法引入。此外,控制系统对电气系统的影响也可通过系统拓扑和参数的变化来体现。因此,配电网电磁暂态仿真中所涉及的非线性特性和复杂控制器均可建模为式(1)和式(2)中G,P,Q和Ic的变化。
综上,仿真过程每一时步主要包含3个计算任务:①根据非线性特性和控制系统指令,更新每个电气元件的G,P,Q和Ic;②更新电气元件诺顿等值电路(历史电流项和诺顿等值电导)并形成节点注入电流;③计算节点电压方程GnUn=In。根据计算特点,上述步骤在GPU上相应地被分为3类计算,分别为异构计算、同构计算和网络方程求解。其中,网络方程求解部分为基本的矩阵计算,相关研究较多,在此仅介绍异构计算和同构计算部分。
1.2.1 基于LDAG模型的异构计算
针对控制系统、电气元件中的非线性特性的求解,由于不同电气元件或控制器计算指令各不相同,本文将该类计算归结为细粒度电磁暂态仿真中的异构计算。为利用大量线程在GPU中完成此类计算,可将计算流程进一步转化为由一系列基础运算指令构成的有向图形式。基础运算指令为被单个线程执行的一组不宜再分的计算指令。在本文测试算例中,基础运算指令包含加法器、乘法器、比较器、比例—积分—微分控制器、限幅器、选择器以及基础数学函数等。
一般地,任何异构计算均可转化为由基础运算组成的有向图G=(V,E)形式。其中,顶点集V代表基础运算,边集E代表数据流方向。以光伏电池光生电流的部分计算为例,计算公式可首先拆分为乘法、指数运算、加法、除法等简单计算,进一步,根据计算过程中的数据依赖关系可将上述运算连接成有向图(详见附录A图A1)。
然而,针对部分含有非线性反馈环节的控制系统,有向图中存在代数环见图2(a)。此时需在反馈回路中添加一个步长的延时以解开代数环,形成如图2(b)所示的有向无环图(directed acyclic graph,DAG)。相比电磁暂态过程,控制系统动态通常较慢,延时误差对暂态仿真的数值稳定性和精度影响较小。且配电网中所涉及的控制器大多为数字控制器,反馈的实现通常依赖采样,因此反馈环上的延时天然存在[18]。若需进一步提升仿真精度,可通过减小补偿、线性外插补偿或原地迭代的方式消除[19]。
图2 异构计算LDAG的形成Fig.2 Formation of LDAG for heterogeneous computations
可见,在DAG中,无因果关系的运算之间具备完全并行的特性,可通过并发大量线程完成,而具备因果关系的运算则必须串行完成。因此,为最大化DAG计算的并行程度,本文通过顶点分层算法构造LDAG,使分层后位于同一层中的顶点(运算)可以并行计算。分层算法步骤如下[15,20-21]。
步骤4:重复步骤3,直到∀L(v) 通过上述算法可产生分层L={L1,L2,…,Lh),其总层数h为异构计算有向图的最长路径,即计算过程中,需要h次层间同步以保证计算过程中的数据流正确。 1.2.2 基于FMA运算的同构计算 在基于LDAG异构计算更新好G,P,Q和Ic后,针对电气元件诺顿等值电流的更新计算仅为小规模矩阵向量的乘法,如式(1)和式(2)所示。因此,该部分计算同构性程度高,并行程度高。 针对m端口的电气元件,通常可分配m个线程进行计算,其中每个线程计算公式如下: (3) qlrur(t-Δt)+ic,l(t) (4) 式中:il(t)和ine,l(t)分别为I和Ine中的第l个元素;glr,plr,qlr分别为G,P,Q的第l行、第r列元素;il,ine,l,ic,l分别为电流向量I,Ine,Ic的第l个元素;ur为端口电压向量U的第r个元素。 可以看出,每个线程的计算均为简单的FMA运算。该类计算为图像处理过程中的常用计算形式,在GPU中具备最高的计算效率。 为尽可能减少计算过程中CPU与GPU的通信时间,本文通过设计3个核函数,分别完成上述3类计算。 2.1 基于LDAG的异构计算核函数 该核函数面向控制系统和非线性电气元件的处理,其作用是更新电气元件计算所需的参数矩阵G,P,Q和Ic。在完成对该部分异构计算DAG分层后,通过并发大量线程,对同层中同类计算采用SIMT的细粒度并行计算形式在GPU上求解。每层的不同类别元件可分至不同的组,实现分组SIMT并行。每一层元件计算完毕后,进行一次层间同步,保证下一层所需的数据已准备完毕。相关计算流程详见附录A图A2。 取计算过程中的第Li层为例进行说明。对于第Li层的全部ni个运算,首先根据运算种类的不同分为gi个组。其中,第j组包含mij个相同元件。通过并发ni个线程完成计算。每个线程计算结束后,将结果写入缓存区,供下一层(Li+1层)计算调用。最后,通过一次线程同步过程,可保证同层计算全部计算结束,并开始第Li+1层的运算。 2.2 基于FMA的同构计算核函数 该核函数面向电气元件诺顿等值电流的更新和节点注入电流的形成。该核函数在每时步LDAG核函数计算完成后触发。计算流程与LDAG核函数相比,仅含有FMA一种类型的计算。但由于不同元件端口数目不同,故每个线程计算过程中FMA计算的数目不同。因此,可根据元件端口数目进行分组,同样实现不同电气元件的分组SIMT计算。计算流程详见附录A图A3。 计算过程分为两部分。第1部分是不同电气元件诺顿等值电流的计算。该部分计算根据端口数的不同分为m个组,每组每个线程顺序完成式(3)和式(4)的计算。该部分计算结束得到元件端口诺顿等值电流。第2部分为节点注入电流形成部分。每条线程得到诺顿等值电流后,通过GPU提供的原子操作函数将其累加到相应的节点上。该累加过程由原子操作自带的加锁特性保证最终节点注入电流计算的正确性。在全部计算完成后,进行一次同步操作,以保证全部节点注入电流计算完毕。 2.3 网络方程求解核函数 在FMA核函数计算完成后,网络方程求解核函数启动。该核函数可采用任意GPU加速的线性代数库求解节点电压方程GnUn=In。 对大规模系统级电磁暂态仿真,通过选取合适的模型可以避免系统矩阵的频繁更新。因此,在求解前,通过对系统节点电导矩阵Gn求逆,得到系统的节点电阻矩阵,并将其预存在GPU全局内存中。在仿真过程中,若Gn不变,则节点电压方程的求解可简化为矩阵向量乘法。以本文算例测试所用程序为例,其网络方程求解核函数为CUBLAS稠密矩阵求解器。 最终,基于GPU的配电网电磁暂态仿真计算流程如图3所示,即每一时步顺序处理LDAG和FMA及网络方程求解核函数。 图3 基于GPU的电磁暂态计算流程Fig.3 Flow chart of electromagnetic transient simulation on GPU 3.1 测试环境 为对比所设计的计算模型和细粒度并行算法的有效性,选取一台异构并行计算机作为测试平台。主要参数如下:操纵系统为Windows Server 2008;CPU为Intel Xeon E5-2620;内存为32 GB,内存频率为1.6 GHz;GPU型号为NVIDIA Kepler K20x。 3.2 测试算例 选取IEEE 123节点配电网系统[22]作为基本测试算例,见附录A图A4。其中,分布式电源接入配电网中部分节点。在正确性和效率测试中,分布式电源采用光伏并网模型。其中,光伏电池模型选用受控电源模型[23],光伏逆变器采用平均模型[24],逆变器控制为双闭环V-Q控制,直流侧电压参考信号由光伏电源最大功率跟踪控制给定。其中,光伏电源非线性光伏电流的计算、逆变器控制系统、最大功率跟踪控制系统均为异构计算部分;电气元件诺顿等值电流的更新为同构计算部分。 3.3 测试结果 3.3.1 正确性测试 在基本测试算例的节点47设置三相短路故障,持续时间为0.05 s。采用相同初始断面,在以下3个平台上进行仿真:平台1采用PSCAD进行仿真;平台2采用Intel MKL加速的CPU仿真程序;平台3采用本文算法在GPU上进行细粒度并行仿真。仿真过程中节点48电压、电流波形如图4所示,最大相对误差对比如表1所示。 图4 正确性测试Fig.4 Accuracy tests 表1 误差对比Table 1 Comparison of numerical error 由图4和表1可以看出,暂态过程中3个平台的仿真结果高度吻合。其中,CPU与GPU之间的误差主要是数值误差。而与PSCAD相比,在采用完全相同模型时,本文所提的细粒度并行算法误差亦在可接受范围内。 3.3.2 不同分布式电源测试 针对不同分布式电源的仿真,其计算模型差异性主要体现在异构计算Kernel上。根据LDAG核函数的求解流程,不同分布式电源的计算耗时与所形成的DAG结构及层数密切相关。表2列出了完成直驱风机、储能等不同分布式电源仿真所需的DAG数量、层数,以及采用单个和50个block时的计算耗时。表中MPPT表示最大功率点跟踪。 表2 不同分布式电源测试结果Table 2 Test results of different DGs 由表2可见,不同分布式电源仿真所需的独立DAG数量不同。影响计算耗时的因素主要有DAG层数和DAG中基本指令类型两方面。单个DAG的计算耗时可以由式(5)来评估。 (5) 式中:h为DAG的层数;ti,max为DAG第i层计算指令的最大耗时;tsync为层间同步耗时。 表2中,不同分布式电源网侧变流器控制的计算DAG结构大致相同,因此计算耗时相近。而对于直驱风机这类复杂的分布式电源,由于电机参数的更新涉及大量三角函数操作,因此,该部分计算的DAG层数虽少于变流器控制计算的DAG,但其单层计算耗时ti,max较高,故整体计算耗时远高于变流器控制部分。 由于本文采用GPU为K20x,其中含有14个流式多处理器。由于共享内存的使用,每个block只能在单个流式多处理器中执行。因此,最多可有14个block同时执行。从表2可以看出,当block数目从1增加到50时,耗时大致为原来的3~4倍,其原因是GPU计算资源已经饱和,这与硬件资源的分配模式相吻合。 3.3.3 整体效率测试 为测试更大规模系统仿真下细粒度并行算法的计算效率,本文通过复制多个基本配电网算例,并在节点150处通过π形传输线连接至同一电压源,以构造不同规模的辐射状配电网。分别利用平台2和平台3仿真不同规模的配电网,利用NVIDIA Profiler测得单步长计算耗时如表3所示。表3中三类计算利用GPU进行细粒度并行的加速比曲线如图5所示。 表3 耗时测试结果Table 3 Time-cost results 图5 加速比曲线Fig.5 Speedup curves 由表3和图5可以看出,随着系统规模的扩大,加速比逐步提高。其中,同构计算部分由于仅执行FMA运算,其加速比在大规模系统下超过50,效果明显优于其他两类计算。而异构计算部分和网络求解部分的最大加速比均在10左右。 从上述结果中可看出,一方面,针对大规模配电网系统,通过所设计的细粒度并行算法在GPU上可取得10倍的加速比(相对CPU)。然而,由于本文仅采用单块GPU进行测试,其计算资源有限,系统规模达到一定程度后,并行计算核心数已无法满足完全的细粒度并行,故加速比呈现饱和特性,不再增长。另一方面,从绝对耗时的结果来看,针对大规模系统,网络方程求解的耗时占据总耗时的绝大部分比例。 本文所设计的网络方程求解模块仅采用GPU上成熟的BLAS库,并未根据配电网特殊网架进行优化,也未考虑网络分块等粗粒度并行策略,仅依赖细粒度并行特性加速网络方程求解。若采用多块GPU进行仿真,并结合网络分块,设计针对配电网特殊网架结构的网络方程求解算法,针对大规模系统的仿真耗时还可进一步下降。 本文针对配电网电磁暂态仿真特点,结合GPU的细粒度并行计算特性,建立了面向GPU的配电网电磁暂态细粒度并行计算模型,并根据电气、控制系统不同计算特点,设计了相应的细粒度并行仿真算法。本文提供的算例测试表明,本文所设计的计算模型和算法可在保证仿真精度的前提下,有效加速大规模配电网控制系统、电气元件的计算。在网络方程求解部分,所提算法由于仅采用单块GPU的细粒度并行特性,加速效果有限。后续工作中,有必要针对配电网特殊网架结构进行优化,结合多GPU和网络分块,进一步提升网络方程计算效率。 附录见本刊网络版(http://www.aeps-info.com/aeps/ch/index.aspx)。 [1] 范明天,张祖平,苏傲雪,等.主动配电系统可行技术的研究[J].中国电机工程学报,2013,33(22):12-18. FAN Mingtian, ZHANG Zuping, SU Aoxue, et al. Enabling technologies for active distribution systems[J]. Proceedings of the CSEE, 2013, 33(22): 12-18. [2] 赵波,王财胜,周金辉,等.主动配电网现状与未来发展[J].电力系统自动化,2014,38(18):125-135.DOI:10.7500/AEPS20131218007. ZHAO Bo, WANG Caisheng, ZHOU Jinhui, et al. Present and future development trend of active distribution network[J]. Automation of Electric Power Systems, 2014, 38(18): 125-135. DOI: 10.7500/AEPS20131218007. [3] 于浩.有源配电网电磁暂态仿真模型降维化简方法研究[D].天津:天津大学,2015. [4] 张达.直流配电网电磁暂态仿真算法研究[D].杭州:浙江大学,2014. [5] 罗学礼,穆世霞,周年荣,等.一种区域配电网电磁暂态实时仿真方法的研究[J].陕西电力,2014,42(11):99-102. LUO Xueli, MU Shixia, ZHOU Nianrong, et al. Study on electromagnetic transient real time simulation of regional distribution network[J]. Shaanxi Electric Power, 2014, 42(11): 99-102. [6] 王成山,丁承第,李鹏,等.基于FPGA的配电网暂态实时仿真研究(一):功能模块实现[J].中国电机工程学报,2014,34(1):161-167. WANG Chengshan, DING Chengdi, LI Peng, et al. Real-time transient simulation for distribution systems based on FPGA: Part Ⅰ module realization[J]. Proceedings of the CSEE, 2014, 34(1): 161-167. [7] 王成山,丁承第,李鹏,等.基于FPGA的配电网暂态实时仿真研究(二):系统架构与算例验证[J].中国电机工程学报,2014,34(4):628-634. WANG Chengshan, DING Chengdi, LI Peng, et al. Real-time transient simulation for distribution systems based on FPGA: Part Ⅱ system architecture and algorithm verification[J]. Proceedings of the CSEE, 2014, 34(4): 628-634. [8] 陈德扬,李亚楼,江涵,等.基于道路树分层的大电网潮流并行算法及其GPU优化实现[J].电力系统自动化,2014,38(22):63-69.DOI:10.7500/AEPS20131014009. CHEN Deyang, LI Yalou, JIANG Han, et al. A parallel power flow algorithm for large-scale grid based on stratified path trees and its implementation on GPU[J]. Automation of Electric Power Systems, 2014, 38(22): 63-69. DOI: 10.7500/AEPS20131014009. [9] JALILI-MARANDI V, DINAVAHI V. SIMD-based large-scale transient stability simulation on the graphics processing unit[J]. IEEE Trans on Power Systems, 2010, 25(3): 1589-1599. [10] DEBNATH J K, FUNG W-K, GOLE A M, et al. Simulation of large-scale electrical power networks on graphics processing units[C]// 2011 IEEE Electrical Power and Energy Conference (EPEC), October 3-5, 2011, Winnipeg, MB, Canada: 199-204. [11] 陈来军,陈颖,许寅,等.基于GPU的电磁暂态仿真可行性研究[J].电力系统保护与控制,2013,41(2):107-112. CHEN Laijun, CHEN Ying, XU Yin, et al. Feasibility study of GPU based electromagnetic transient simulation[J]. Power System Protection and Control, 2013, 41(2): 107-112. [12] ZHOU Z, DINAVAHI V. Parallel massive-thread electromagnetic transient simulation on GPU[J]. IEEE Trans on Power Delivery, 2014, 29(3): 1045-1053. [13] 高海翔,陈颖,于智同,等.基于平均化理论的PWM变流器电磁暂态快速仿真方法:(三)适用于图像处理器的改进EMTP并行仿真算法[J].电力系统自动化,2014,38(6):43-48.DOI:10.7500/AEPS20130724001. GAO Haixiang, CHEN Ying, YU Zhitong, et al. Fast electromagnetic transient simulation method for PWM converters based on averaging theory: Part three improved EMTP parallel algorithm for graphic processing unit[J]. Automation of Electric Power Systems, 2014, 38(6): 43-48. DOI: 10.7500/AEPS20130724001. [14] SONG Y, CHEN Y, YU Z, et al. A fine-grained parallel EMTP algorithm compatible to graphic processing units[C]// 2014 IEEE PES General Meeting | Conference Exposition, July 27-31, 2014, National Harbor, MD, USA: 1-6. [15] 宋炎侃,黄少伟,陈颖,等.应用有向图分层的控制系统暂态仿真并行算法及其GPU实现[J].电力系统自动化,2016,40(12):137-143.DOI:10.7500/AEPS20151127002. SONG Yankan, HUANG Shaowei, CHEN Ying, et al. Layered directed acyclic graph based parallel algorithm for control system transient simulation and its GPU realization[J]. Automation of Electric Power Systems, 2016, 40(12): 137-143. DOI: 10.7500/AEPS20151127002. [16] NVIDIA. CUDA Toolkit Documentation v5.5[EB/OL]. [2017-03-20]. http://docs.nvidia.com/cuda/index.html. [17] CHENG J, GROSSMAN M, MCKERCHER T. Professional CUDA C programming[M]. USA: John Wiley & Sons, 2014. [18] WATSON N, ARRILLAGA J. Power systems electromagnetic transients simulation[M]. UK: IET, 2003. [19] YU Zhitong, CHEN Ying, SONG Yankan, et al. Comparison of parallel implementations of controls on GPU for transient simulation of power system[C]// IEEE Chinese Control Conference (CCC), July 27-29, 2016, Chengdu, China: 9996-10001. [20] EADES P, XUEMIN L. How to draw a directed graph[C]// IEEE Workshop on Visual Languages, October 4-6, 1989, Rome, Italy: 13-17. [21] WARSHALL S. A Theorem on Boolean matrices[J]. Journal of the ACM, 1962, 9(1): 11-12. [22] KERSTING W H. Radial distribution test feeders[J]. IEEE Trans on Power Systems, 1991, 6(3): 975-985. [23] 李鹏.分布式发电微网系统暂态仿真方法研究[D].天津:天津大学,2010. [24] CHINIFOROOSH S, JATSKEVICH J, YAZDANI A, et al. Definitions and applications of dynamic average models for analysis of power systems[J]. IEEE Trans on Power Delivery, 2010, 25(4): 2655-2669. GPU-based Techniques of Parallel Electromagnetic Transient Simulation for Large-scale Distribution Network CHENYing1,SONGYankan1,HUANGShaowei1,YUZhitong1,WEIWei2 (1. Department of Electrical Engineering, Tsinghua University, Beijing 100084, China; 2. Electric Power Research Institute of State Grid Sichuan Electric Power Company, Chengdu 610072, China) With the integration of distributed generators and other complex devices, analyses of the transient state process for distribution systems and electromagnetic simulation are gradually becoming dependent on detailed modeling and electromagnetic transient (EMT) simulation. As EMT simulation can be appreciably accelerated by fine-grained parallel devices, such as the graphics processing unit (GPU). GPU-based parallel electromagnetic transient simulation techniques for large-scale distribution system are proposed. First, the computational models are formulated by categorizing the overall computations during simulation into three parts, that is, heterogeneous, homogeneous and network solution part. Then, each part of computation is accelerated using fine-grained parallel strategy on the GPU. The heterogeneous part is processed in a layered-directed-acyclic-graph based kernel, the homogeneous part is handled in a fused multiply-add kernel, and the network solution part is done by linear algebraic solvers on the GPU. Finally, large-scale cases are provided for tests. Simulation results indicate that the proposed techniques can significantly accelerate EMT simulation for distribution networks. This work is supported by National Natural Science Foundation of China (No. 51477081). distribution network; electromagnetic transient simulation; fine-grained parallel; graphics processing units (GPUs) 2017-01-09; 2017-04-13。 上网日期: 2017-06-14。 国家自然科学基金资助项目(51477081)。 陈 颖(1979—),男,博士,副教授,主要研究方向:电力系统动态仿真、并行和分布式计算。E-mail: chen_ying@tsinghua.edu.cn 宋炎侃(1991—),男,博士研究生,主要研究方向:电力系统仿真与分析。E-mail: syfmlrc@163.com 黄少伟(1985—),男,通信作者,博士,助理研究员,主要研究方向:电力系统分布式计算。E-mail: huangsw@mail.tsinghua.edu.cn (编辑 孔丽蓓)2 面向配电网电磁暂态仿真的电磁暂态细粒度并行仿真算法
3 算例测试
4 结语