APP下载

基于马氏距离和密度聚类的电力现货报价模式分析

2021-07-07黄远明王宣定梁志远龚昭宇陈雨果

电力系统自动化 2021年13期
关键词:欧氏马氏现货

黄远明,郑 伟,王宣定,梁志远,龚昭宇,陈雨果

(1. 广东电力交易中心有限责任公司,广东省广州市510080;2. 北京清能互联科技有限公司,北京市100084)

0 引言

随着新一轮电力体制改革的推进,国内电力现货市场试点均已开展试运行工作,市场主体将根据自身机组特性,结合市场边界条件和其对博弈格局的预判申报多段报价[1-2]。因此,现货报价往往高度复杂,各机组现货报价不再高度差异化,而是呈现出局部差异化和默契报价的特点,这给报价行为分析和串谋识别带来了极大挑战。

根据市场主体之间是否进行商定,可将广义的串谋分为两大类:一类是在商谈和约定的条件下达成的串谋,其中根据申报价格是否相似,分为报价相似的串谋报价(共同抬高价格以获利)和报价不同的配合报价(一方通过减少自身收益的报价为另一方创造高收益,事后再分配利润以规避监管);另一类为默契串谋(tacit collusion),属于非合作性串谋,无需商谈和约定,仅以共同利益为基础来形成和维持,不存在事实证据[3]。串谋报价的行为通常有以下4 个特征:①报价相似;②交易结果呈现出串谋的预期效益,即中标集中度和申报集中度相关,且中标集中度大于申报集中度;③在疑似串谋行为后,集体利益(现货收益,包括中标量和价格)有较大提升;④具备事实证据,如串谋的邮件沟通、通信记录等能证明事前约定报价的证据。

单独一个串谋行为特征并不能说明市场主体串谋,如报价相似可能是串谋导致的报价相似,也可能是巧合。上述4 个串谋行为特征也仅为常见的特征,并不能代表所有的串谋情况。在一般性监管或弱监管环境下,是在前2 个串谋行为特征的基础上,确定嫌疑市场主体,再有针对性地获取利益提升的证据和事实性证据,才能认为嫌疑市场主体有较大可能串谋报价。可见,前2 个串谋行为特征是串谋报价判定的基础,而其中对报价相似的判定,则需要多角度分析现货市场报价模式,提取现货申报数据中容量和价格的多段特征,对报价展开分类识别。

在市场风险监管方面,文献[4]指出了电力市场监管包括数据收集、数据分析和市场控制等;文献[5]根据上一轮电力体制改革时浙江电力市场试运行期间的市场供给和竞价数据展开了分析,得出关于当时浙江电力市场竞争格局的结论。目前,针对现货报价分析的研究多数是研究发电商的串谋行为或在市场监管设计中有多方面的考虑,文献[6]直接计算报价数据间的关联度矩阵,但未考虑报价数据在容量和价格上的双重特征;文献[7]则针对市场主体报价提出了多个分析指标和判定标准;文献[8]利用排序多元Logit 模型进行串谋竞价识别,但仅对市场份额高的卡特尔类机组进行识别,忽略了电网位置对机组串谋的优势;文献[9]利用欧氏距离作为聚类特征,但多段报价的欧氏距离并不能体现各报价段容量的分布,从而无法真实描述报价曲线的相似性;文献[10-11]通过电价差值积分表征报价曲线特性,采用离差平方和对机组报价分类,取得了较好的效果。本文采用的马氏距离(Mahalanobis distance)在电力行业中则多用于电气物理量的特征分析等,文献[12]采用马氏距离对短时电能质量符合的扰动特征进行分类,能够突出不同样本的差异性。文献[13-14]则将马氏距离应用于识别电压暂降特征的分类中。

当前研究未探索如何同时表征报价的容量和价格特征,也未深入挖掘报价模式分类在市场监管中的应用。本文将基于马氏距离和密度聚类,提出同时表征报价容量和价格特性的报价模式分类方法。

1 马氏距离概述

1.1 现货报价模式分析

国内外绝大多数电力现货市场均采取多段阶梯式上升报价曲线,机组从最小技术出力到可用容量被分为N段,则构建的现货报价模式特征向量的维数最小也是N维。其次,申报数据包括N段容量和对应的该段价格,因此在判断其报价相似性并进行分类时,必须在量化价格的同时保留段容量的特征。文献[11]直接采用欧氏距离进行报价的聚类分析,但难以完全揭示不同序列之间的相关性。而马氏距离在计算时以数据间的协方差作为系数,可以更灵敏地发掘报价相似性。文献[10-11]采用电价差值积分来构建报价曲线的特征向量并开展聚类分析,但需要把N段报价分割成颗粒度更小的报价段,对计算能力要求较高。本文在马氏距离的基础上提出3 维现货报价对比向量,其能从价格申报、容量申报和量价申报3 个角度进行报价模式的识别。

1.2 马氏距离

欧氏距离常用来衡量欧几里得空间中两点间的直线距离,多维变量的欧氏距离DO(X,Y)可表示为:

式中:X和Y为2 个多维变量;xk和yk分别为X和Y的第k维元素;W为多维变量的维数。

欧氏距离的缺陷在于无法区分样品不同属性的差别。若用于分析报价,欧氏距离表示的是各段价格相似性之和,其未考虑各段容量分配的影响,难以有效反映报价序列的整体相似性。

马氏距离是一种有效计算2 个未知样本集相似度的方法,其考虑特性间的联系(如相似性),并且独立于测量尺度,可消除量纲的影响,其计算如下。

单个多维变量X的马氏距离DM(X)为:

式中:Cov(·)为协方差函数;xˉ为变量xk的均值;yˉ为变量yk的均值。

结合式(3)和式(4)可知,如果协方差矩阵为单位矩阵,即各维度独立同分布,则马氏距离成为欧氏距离,但并不能认为所有机组每段报价的分布均相同,这也变相证明采用欧氏距离分析串谋报价不够合理。而马氏距离不仅考虑多维向量间的直接距离,还借助协方差表明二者的相似性[15],更符合现货报价分析要求。此外,对单段报价而言,马氏距离与欧氏距离并无区别,但目前国内外电力现货市场通常采取多段报价的形式[16],马氏距离比欧氏距离更具有实用意义。

2 基于马氏距离的3 维现货报价对比向量

2.1 现货报价标幺化处理

对现货报价模式展开分析应先将数据标幺化处理。将市场主体在统计期内的现货报价按段容量百分比进行加权得到平均报价Pweight为:

式中:i为机组编号;j为报价段编号;T为报价时段总 数;n为 报 价 总 段 数;m为 机 组 总 数;pi,j,t为t时 段机 组i的 第j段 报 价;qi,j,t为t时 段 机 组i的 第j段 申 报容 量;Qi,t为t时 段 机 组i的 可 用 容 量。

价格的标幺值为:

式 中:Pi,j,t为 机 组i的 第j段 报 价 的 标 幺 值;Pbench为 报价标幺化的基准值,可以取Pweight。

定义t时段机组i的现货价格申报向量P′i,t为:

根据现货报价段容量百分比,定义t时段机组i的现货容量申报向量Q′i,t为:

采用容量百分比是因为容量的申报策略通常是把机组装机容量按比例地在各段报价中进行分配[11],各段申报容量的占比与容量的绝对值相比,更能体现市场主体的申报策略,可消除不同装机容量的影响。

定义t时段机组i的现货量价申报向量Si,t为:

现 货 量 价 申 报 向 量Si,t包 括2n个 元 素,前n个 为各段价格标幺值,后n个为各段容量占总申报容量的百分比。

2.2 基于马氏距离构建3 维现货报价对比向量

式中:Xi,t为机组i在t时段 的 现 货价格申报向量P′i,t、现 货 容 量 申 报 向 量Q′i,t或 现 货 量 价 申 报 向 量Si,t;Xbench为对应的基准向量。

2.3 3 维现货报价对比向量在报价分析中的运用

马氏距离的大小直接反映了机组与其基准报价的差距,3 维现货报价对比向量D的第1、第2、第3 维分别表示了机组报价与其基准报价中价格、容量与量价的相似性,值越小,相似度越高。

在实际分析中,通过3 维现货报价对比向量D可以横向对比机组报价差异,如机组之间报价的差异具体是由价格、容量还是量价申报造成的。

其次,可统计机组现货报价的3 维现货报价对比向量D并进行纵向对比,根据其在时间上的波动性设计市场主体异常报价行为筛选指标,3 维现货报价对比向量D的模大于一定值时,则筛选为异常报价,意味着报价和历史报价习惯相差较多,其市场行为可重点关注。

3 基于密度聚类的相似报价行为分析

3.1 报价聚类分析中马氏距离的应用

直接对比3 维现货报价对比向量D可反映多个主体间的相似程度,但其主要是以基准报价作为标杆。在分析市场主体的报价模式时,这种间接的数据处理方式会损失部分有效信息,直接计算对比目标机组间的马氏距离更适用于报价模式的识别。

马氏距离可消除量纲的影响,有效挖掘数据相似性,因此,分析现货报价向量相似性时可将价格和容量均纳入同一组数据,对比结果也反映机组在各段价格水平和容量分配上的相似程度。本文采用现货量价申报向量Si,t进行聚类。

3.2 基于马氏距离进行密度聚类分析

最常见的聚类分析方法有K-means 聚类、层次聚类和密度聚类。K-means 聚类简单快速,但其对孤立数据点和初值过于敏感,并且必须提前给定K值(生成簇数目),因此其不适合应用于分析报价模式。而层次聚类计算复杂,孤立点也可能会对其产生较大影响[17-18]。另外,层级聚类结果可能呈链状,对串谋分析的适用性一般。密度聚类的本质是根据一定邻域内的样本密度来划分簇类,不需要事先设定簇类个数,并且其可发现任意形状的簇类,对噪点不会过度敏感[19-20]。密度聚类适用于发现报价联盟、精准区分异常报价和仍具备部分相似性的报价。

结合马氏距离进行密度聚类分析的步骤如下。

步骤1:按3.1 节所述构建用于聚类的高维现货报价向量空间,维度为2N(N为现货报价段数)。由于现货中价格博弈主要集中在后几段报价,前几段报价主要用于保障基本发电量,因此可只分析后几段报价以排除不必要的干扰。

步骤2:密度聚类方法设置。

1)设置邻域ε的半径。定义核心报价点:当某报价点的ε邻域内至少包括Min个报价点时,则该报价点为核心点。

2)定义直接密度可达。若报价点X在某核心点Y的ε邻域内(也包括边界点),则认为X和Y是直接密度可达。

3)定义密度可达。若有报价点X、Y、Z,其中X和Y直接密度可达,Y和Z直接密度可达,但Z并不在X的ε邻域内。这种情况下,X与Z不能直接密度可达,但通过其ε邻域内的点Y可对点Z直接密度可达,则定义X和Z为密度可达。

4)定义密度相连。若有报价点W,其不能通过核心点X直接密度可达和密度可达,但在其密度可达的报价点的ε邻域内,定义X和W密度相连。

5)定义非分类点。非分类点是无法通过任何核心点直接密度可达、密度可达和密度相连的报价点,未分类点即为异常报价点。

密度聚类分析流程见图1。

图1 密度聚类分析流程图Fig.1 Flow chart of density clustering analysis

从报价集中任取一点,根据其邻域内的报价点数目判断是否为核心点,若属于核心点,则找出从该点出发的所有密度相关联的点(包括上述的直接密度可达、密度可达、密度相连3 类),形成一个簇,簇内的所有点均视为已处理;若不属于核心点,则跳出本次循环,寻找下一点,最后不属于任何簇类的点则为非分类点。待所有点均被处理,则输出结果。

密度聚类在分类过程中,通过密度连接的方式尽可能寻到相似点并归为同一簇类,最后可得到各种形状的簇类,能避免将部分具备相似性但稍微离散的点排除在簇类外或增生出新簇类。按照上述方式筛选出的相似报价模式可认为具备串谋报价的嫌疑,但并不能完全排除巧合、默契串谋等情况。要判断是否真正串谋报价,还应分析上述主体的历史合作情况、企业的对称性、串谋动机、局部供需关系、阻塞情况等,只有在确定对方具备串谋的动机和条件时,才可根据聚类结果判定其为串谋报价。

3.3 基于密度聚类分析结果设计串谋行为特征指标

借助马氏距离和密度聚类对现货报价展开串谋报价分析,根据3.2 节内容可筛选出现货报价高度相似的机组集群,在此基础上,设计串谋行为特征甄别指标如下。

计算串谋嫌疑机组集群S在现货时段t的申报集中度hS,t如式(15)所示。

式 中:Ci,t为t时 段 机 组i的 申 报 容 量;Ct为t时 段 市场中所有机组申报容量。

根据式(15)可得机组集群S在现货各时段的申报集中度序列HS=[hS,1,hS,2,…,hS,24]。

计算机组集群S在现货时段t的中标容量集中度gS,t为:

式 中:Ri,t为t时 段 机 组i的 中 标 出 力;Rt为t时 段 市场中的总中标出力。

同理可得机组集群S在现货各时段的中标集中度序列GS=[gS,1,gS,2,…,gS,24]。

对上述申报集中度和中标集中度进行关联分析,可采用相关系数r(HS,GS)衡量其相关性,计算方法如式(17)所示。

式中:Var(·)为方差函数。

若二者强相关,且中标集中度大于申报集中度,则认为该嫌疑机组群达成潜在联盟的预期效果,满足串谋行为特征中的交易结果,呈现出串谋的预期效益(但仍不代表具备串谋事实),认为其相似的报价方式影响市场的结果。此时,r(HS,GS)可视为串谋行为特征的判定指标之一。

在确定申报集中度和中标集中度强相关后,还可结合现货模拟出清分析机组集群中的个体对整体中标情况的影响。依次替换串谋嫌疑机组的报价,重复上述关联分析步骤,通过模拟现货出清确定中标容量集中度。若某机组被剔除后,存在相关系数或中标集中度显著变小的情况,则说明该机组对发电联盟的市场效益影响最大,应重点关注。

4 基于密度聚类分析相似报价行为的算例

本文按照5 段报价形成50 组现货报价数据,价格上限设为720元/(MW·h),分别采用马氏距离和欧氏距离,基于密度聚类方法对这50 组现货数据展开对比分析。如3.1 节所示,每组数据前5 个依次为机组5 段报价的各段价格,后5 个依次为各段报价的段容量占总申报容量的百分比。

前8 台机组报价数据见表1,全部机组报价数据见附录A 表A1。

表1 前8 台机组现货报价数据Table 1 Spot quotation data of the first eight units

密度聚类参数设置,将核心簇类中最少类似报价点数目Min设置为4,邻域筛选半径为d,即在报价点半径为d的邻域内若有4 个及以上的相似报价,则可视为核心点并形成一个簇类。在不同邻域半径d的场景下对比欧氏距离和马氏距离的应用表现。

4.1 根据50 组报价间相互距离的平均值设置邻域半径

1)采用欧氏距离分析

所有机组间欧氏距离的平均值为14 661.8,取平均值的5%即733 作为邻域筛选半径d。通过密度聚类分析可知,机组1 为核心点,机组2 至机组8均为该簇类所包含的机组。

由上述结果的报价数据可知,欧氏距离在同时评估段价格和段容量2 个不同量纲的数据时存在较大偏差。比如机组5 和机组6 的报价,虽然二者在各段报价上具备一定相似性,尤其最后一段均顶上限报价,但二者在容量分配上截然相反。机组5 前2段报价容量占了接近可用容量的70%,而最后一段以上限价申报了21%的容量。机组6 前2 段报价仅占28%的容量,最后一段仅以上限价申报了容量的6%。二者现货报价实质差异较大,机组5 抬高了自身尾部报价,存在典型的经济持留特征;而机组6 报价集中在第3 和第4 段,顶上限报价的容量较少,相对合理。

其次,机组1 和机组3 的报价也存在价格水平接近,但容量分配策略相差较大的问题,这也和容量部分的数值小而对总体结果影响较小有关。为减小数值量级带来的影响,将所有机组标幺值向量的后5 个数值(容量部分)均乘以10 再展开聚类分析,发现聚类结果仍和机组1 为核心点的结果一致,仍存在不能同时反映机组在价格和容量上申报特征的问题。然后,又进一步放大容量向量对应的数值。结果表明,聚类分析结果又向容量特征靠拢,价格间的相似性难以准确描述。

2)采用马氏距离分析

采取同样的方式,以所有机组间马氏距离的平均值的5%作为邻域筛选半径d,根据计算取d为5 053。通过密度聚类分析所得结果见表2。

表2 基于马氏距离的密度聚类结果(d=5 053)Table 2 Density clustering results based on Mahalanobis distance(d=5 053)

以上结果说明以机组12 和机组20 为核心点可形成2 个报价簇类,其各自包含了不同的报价点。对应机组报价数据如表3 所示。

表3 对应机组的现货报价数据Table 3 Spot quotation data of corresponding units

以上结果说明以机组12 和机组20 为核心点可形成2 个报价簇类,其各自包含了不同的报价点。对比机组12 和机组22,其各段价格水平接近,容量分配策略也集中在中间的几段,更符合对相似报价的判断标准。对比机组48 和机组50,虽然第1 段价格申报二者相差较大,但中间段价格水平接近且容量分配策略均集中在前几段,因此也被归为同一簇类。

经过以上对比可知,马氏距离和欧氏距离在报价的聚类分析中,前者能同时表征价格和容量特征,而后者易受数值大小影响,且前者可发现更多潜在的数据联系,具备更好的整体性。

4.2 选取50 组报价间相互距离排序中同一位置对应的距离设置邻域半径

1)采用欧氏距离分析

共有50 台机组,相互之间的距离共有1 255 个。排除和自身报价点的距离数据后共有1 205 个。选取从低到高的第101 位的距离作为邻域筛选半径,即d=2 448。结果发现以机组1 为核心点时,其余所有机组和机组1 的欧氏距离均小于筛选距离,即均被划为同一簇类。这说明排除机组1 之外的其他机组间的欧氏距离都较大,这种情况说明机组1 的报价相对均衡,和其余49 台机组间的距离较近,但无法进一步分类,即均值点很容易成为核心点并严重影响聚类效果。对比上一种设置d的场景,d由733 变为2 448时,聚类结果有巨大差异,说明欧氏距离下邻域筛选半径参数的灵敏度过高。

2)采用马氏距离分析

选取由低到高排序在第101 位的马氏距离作为邻域半径,即d=6 133,密度聚类分析结果见表4。

对比表4 和表2,可知在增大d的取值后,聚类分析结果呈现出较好的一致性,相较于表2,以机组12 为核心的簇类多出一台报价相似机组38。其次,由于邻域半径被放大,机组33 被选取为新的核心点,并形成新的簇类。进一步增大d为10 000,筛选得到5 个簇类,如表5 所示。相较于d取值为6 133时,核心点虽然发生变化,但簇类内的大部分报价点仍和之前一致。

表4 基于马氏距离的密度聚类结果(d=6 133)Table 4 Density clustering results based on Mahalanobis distance (d=6 133)

表5 基于马氏距离的密度聚类结果(d=10 000)Table 5 Density clustering results based on Mahalanobis distance (d=10 000)

对比表5 和表6 可知,相较于欧氏距离,马氏距离在d增大时虽然也有核心点变动,但无较大结果畸变,如机组12、15、22、37 仍在同一簇类,在d增大时仍有一定的簇类一致性,说明此方法鲁棒性较强。不过由于d过大,此结果更适用于报价模式分类,不宜作为串谋报价的判定依据。

5 结语

本文分析了采用马氏距离和密度聚类分析报价模式分类和串谋报价的优点,并针对串谋行为特征中价格相似和交易结果呈现串谋的预期效益设计了分析方法,包括构建3 维现货报价对比向量,运用密度聚类发现相似报价集群,得出以下结论。

1)聚类分析仍是分析电力现货市场中报价模式分析的有效量化方法,而马氏距离对同时表征申报数据在价格和容量上的相似性有较好的效果。同时,密度聚类能够降低对部分离散点的过度分类,且无须事先设置簇类数目。结合二者可在报价模式分析中有效发现机组报价的相似性。

2)在3 维现货报价对比向量的设计中,马氏距离能直观反映市场主体报价策略在价格申报、容量申报、量价申报3 个维度的相似性,但由于基准向量的引入,直接用于聚类会导致信息的损失。

3)在基于密度聚类的串谋竞价行为分析中,欧氏距离相较于马氏距离存在明显的缺陷。一是无法消除量纲的影响,不能同时反映价格和容量的特征;二是将其运用于密度聚类时,采用欧氏距离计算的结果会向均值报价靠近,未必能有效发现相似报价,而马氏距离具备更好的鲁棒性和分类一致性。

本文的主要工作为提出对电力现货报价模式的识别方法,并对串谋行为特征的价格相似和交易结果呈现串谋的预期效益进行识别,但在一般性的监管环境下还需结合其他的串谋行为特征才能判定市场主体的串谋报价行为,而配合报价和默契串谋的串谋行为更加隐蔽,本文并未进行深入探讨。另外,本文提出的方法还需结合未来现货市场中的真实运营数据进行实证,进一步完善报价向量的设计方法,分析参数设置对聚类结果的影响,以期能真正落地支撑现货报价行为分析。

本文受到广东电力交易中心科技项目(电力市场风险监测预警与防控机制研究及功能开发,034500KK52180002/GDKJXM2 0185365)资助,特此感谢!

附录见本刊网络版(http://www.aeps-info.com/aeps/ch/index.aspx),扫英文摘要后二维码可以阅读网络全文。

猜你喜欢

欧氏马氏现货
本刊2022年第62卷第2期勘误表
美国大豆现货价格上涨
一类时间变换的强马氏过程
豆粕:美豆新高后回落振荡,现货临近春节成交转淡
有环的可逆马氏链的统计确认
关于树指标非齐次马氏链的广义熵遍历定理
一致可数可加马氏链不变测度的存在性
浙江电力现货启幕
备战电力现货
基于多维欧氏空间相似度的激光点云分割方法