APP下载

基于半监督支持向量机的电力现货市场串谋识别

2022-06-09谢敬东鲁思薇黄溪滢孙波孙欣陆池鑫

南方电网技术 2022年5期
关键词:现货报价标签

谢敬东,鲁思薇,黄溪滢,孙波,孙欣,陆池鑫

(1. 上海电力大学,上海200082;2 国网上海市电力公司市南供电公司,上海200030)

0 引言

中发〔2015〕9号文及其配套相关文件颁布以来,中国电力市场开始了新一轮的改革,提出要以现货市场发现价格,建立交易品种齐全、功能完善的电力市场[1]。2020年7月,国家发展改革委、国家能源局联合印发了《关于做好电力现货市场试点连续试结算相关工作的通知》(发改办能源规〔2020〕245号)[2],进一步推进电力现货市场建设。随着市场改革的不断深入,社会各界也更加重视市场风险防范问题。在市场交易的过程中,市场主体为了获取高额利润,利用市场规则漏洞滥用市场力,严重损害现货市场发现价格的能力[3 - 5]。其中,串谋是滥用市场力的主要方式之一,严重危害了市场的有效性,因此,建立一套现货市场发电企业串谋识别的办法,对于维护电力市场的安全、稳定、可靠运行,具有积极意义。

目前,国内外关于电力市场串谋行为已经进行了大量的研究,文献[6]对发电侧电力市场二级委托代理机制下发电商的串谋行为和我国电力市场规制串谋行为的法律依据进行了研究,提出了一种负激励机制来有效抑制串谋行为的方法。文献[7]应用委托代理理论,构建博弈论模型,分析了发电商采用串谋行为的动机。文献[8]对市场主体对于风险的厌恶特性进行分析,设计了一套针对中长期电量集中竞价市场通过二次分配出清量来抑制市场主体串谋的方法。这些文献主要采用定性分析的方法,考虑了串谋形成的因素、抑制串谋的方法,但未对串谋行为进行识别。文献[9]提出了一种基于物理潮流分析的市场力分层评价指标体系。文献[10]提出了基于模糊集理论和层次分析法的电力市场综合评价方法。文献[11]设计了一种发电商报高价的不正当合谋竞标行为识别的综合评判算法。这些文献通过构建评价指标,利用综合评价评估市场中的串谋行为,但该方法不能随着市场的发展进行自我学习。文献[12]提出基于AdaBoost-DT算法的串谋行为智能识别方法,将AdaBoost-DT集成分类算法用于串谋识别中,解决了串谋行为难以量化识别的问题;文献[13]构建基于排序多元 Logit模型的卡特尔类机组串谋识别。文献[14]利用模式识别的办法,提出基于云模型与模糊Petri网的电力市场滥用市场力识别方法。上述文献利用有监督的智能算法实现了串谋行为的自我识别和自我适应,但目前我国电力市场正处于起步阶段,市场中没有明确的串谋机组样本,而有监督的算法需要较多的训练样本,利用少量有标签数据训练出的模型,泛化能力差,难以适用新鲜样本。而无监督的方法利用无标签数据,根据建立的模型评估未知数据,一旦模型建立错误,就会造成很大的偏差。

针对以上问题,本文考虑我国电力现货市场运营时间短、运营模式仍处于探索时期的现状,结合专家经验知识,提出采用半监督支持向量机算法,同时利用有标签样本和无标签样本进行训练,根据样本间的内在联系,训练出更为可靠的分类器。

半监督支持向量机作为一种半监督方法,已经应用于多个领域。在电力领域,文献[15]提出了一种基于半监督支持向量机的电压暂降源定位方法,并表明在少量标签数据下,该方法定位准确率高,能可靠定位出各类电压暂降源位置。文献[16]提出了一种基于半监督支持向量机的电压暂降源识别方法,在少量标签数据下半监督支持向量机比传统支持向量机具有更高的识别精度。文献[17]提出了一种基于模糊C均值和支持向量机的半监督支持向量机分类算法,评估供电企业的安全性。在图像分类领域,文献[18]提出了一种基于均值漂移的meanS3VM图像分类方法。文献[19]提出了一种新的图像分类方法,将基于最优标号和次优标号的主动学习和带约束条件的自学习引入到基于支持向量机分类器的图像分类算法中,获得较高的准确率和较好的鲁棒性。文献[20]提出了一种协同主动学习和半监督学习方法用于海冰遥感图像分类,获得较高的分类精度。文献[21]提出了基于半监督径向基函数神经网络的电网自组织临界态辨识方法,用时少、正确率高,满足在线辨识电力系统自组织临界态的要求。

综上所述,本文提出了一种基于半监督支持向量机的电力现货市场发电企业串谋识别方法。首先,分析现货市场发电企业串谋的特点,建立串谋识别指标体系;其次,利用Delphi法修正后的Topsis模型,对机组进行初步判定,将机组串谋的可能性分为“高”、“中等”和“低”3种可能,构成机组串谋识别模型的训练集;然后,利用训练集训练基于半监督支持向量机的串谋识别模型,并利用训练好的模型对现货市场中大量未知数据进行识别;最后,将该方法应用于某地区现货市场,对方法进行验证。

1 串谋识别指标体系构建

串谋是指参与市场的主体通过主体间的协商、签订合同等方式,缔结为一个“联盟”,以获得更高的利润[22]。在电力市场中,串谋的途径大致分为两类,一类是通过私下签订合同的方式,将双方绑定为一个利益整体。另一类是通过默契串谋,联盟内成员通过对市场规则以及市场成员报价行为的掌握,经过一段时间后,形成有利于提高联盟整体利润的报价方式[23]。在现阶段,现货市场正处于起步,市场成员对市场规则不够熟悉,对市场成员的报价方式也不够了解,因此参与串谋的成员往往以等报价或者等报价变化的简单方式进行串谋[24]。

在现货市场中,发电企业的串谋是通过其控制的发电机组进行的,并且串谋往往是发生在两台或两台以上的机组之间的。因此,本文将两台机组作为一个机组对,构建基于机组对的指标体系,旨在通过观察机组对的关联性,识别机组潜在的串谋行为。同时,本文认为当机组a和机组b发生串谋,机组a和机组c发生串谋,则认为机组a、机组b和机组c之间属于同一个串谋联盟。

串谋识别指标体系基于系统性、科学性和可操作性原则,将所有指标分为判断报价相似性的报价相似情况指标类、判断报价变化同步性的报价变化同步情况指标类,以及判断机组参与市场结果的中标情况指标3大类。报价相似指标和报价改变同步性指标主要是考察发电机组在市场中的行为,可以反映机组是否采用相同的报价策略,即反映机组是否串通报价;中标情况指标用来衡量机组报价策略的成功度,通过中标情况指标判定机组是否串谋成功。

下面给出指标的具体定义及其计算方式。

1.1 报价相似性情况

1.1.1 报价一致性

报价一致性指标表示机组i和机组j的报价一致性情况,其计算方式如式(1)所示。

(1)

1.1.2 报量一致性

报量一致性指标表示机组i和机组j的报量一致性情况,其计算方式如式(2)所示。

(2)

1.1.3 报价曲线差异度[12]

机组报价曲线差异度定义为机组i的报价曲线及机组j的报价曲线之间的阴影面积,如图1所示。

图1 报价曲线差异度Fig.1 Difference degree of quotation curve

机组报价曲线差异度的计算公式为:

(3)

(4)

1.2 报价变化同步性情况

1.2.1 报价变化一致性

机组对报价变化一致性定义为机组i和机组j报价变化的一致性,机组i的报价变化是指机组i本次申报的价格与其前一次申报的价格的差值,机组j的报价变化是指机组j本次申报的价格与其前一次申报的价格的差值,其计算公式如下。

Pc,i=[(pi,1,t-pi,1,t-1),…,(pi,h,t-pi,h,t-1),

…,(pi,H,t-pi,H,t-1)]

(5)

(6)

1.2.2 报量变化一致性

机组对报量变化一致性定义为机组i和机组j申报容量变化的一致性,机组i的报量变化是指机组i本次申报的申报容量与其前一次申报的申报容量的差值,机组j的报量变化是指机组j本次申报的申报容量与其前一次申报的申报容量的差值,其计算公式如下。

Qc,i=[(qi,1,t-qi,1,t-1),…,(qi,h,t-qi,h,t-1),
…,(qi,H,t-qi,H,t-1)]

(7)

(8)

1.2.3 报价变化曲线差异度

机组报价变化曲线差异度定义为机组i的报价变化曲线及机组j的报价变化曲线之间的阴影面积,机组报价变化曲线差异度的计算公式为:

(9)

在现实生活中,发电机组的发电成本是发电企业私有的,机组参与市场所获得的利润是不可知的,因此,本文用机组中标率来判断机组间串谋的可能性。

1.3 机组中标情况

1.3.1 中标率

机组对中标率定义为机组i的总中标量与总申报量的比值,其计算方式如下:

(10)

1.3.2 高价中标率

机组高价中标率定义为机组报高价且中标电量占报高价的有效申报电量的比例。高价中标率通过发电商成交情况与申报情况的比较反映发电商的竞标策略与自身实力的配合情况,用于评价发电商策略的成功率与所具有的市场力。其计算公式为:

(11)

1.4 动态市场份额

机组动态市场份额定义为机组的中标量占市场总中标量的比例,其计算公式为:

(12)

通过计算机组市场份额,可以评估该机组的市场力,若该机组的市场份额过高,说明机组报价策略较为成功。

2 现货市场串谋机组初步判定

2.1 串谋机组初步判定步骤

智能识别算法可以实现对大规模数据的快速判断,但需要一定量的训练样本。对于现阶段的电力市场而言,并没有足够的串谋机组样本来进行模型的训练。因此,本文先对机组进行初步判定,借助专家的经验知识,结合数据本身特点,利用上文建立的指标体系,利用Delphi法修正后的Topsis模型,对现货市场的串谋行为进行初步判定,为下一阶段模型的训练提供数据。文献[25]使用不同的方法研究发电商串谋,但都考虑了机组通过串谋获得超额利润的特性,因此,参考以上文献,本文采用“漏斗式”分析方法,如图2所示。首先,重点考察机组的中标情况,并将其作为判断机组是否串谋的重要因素,通过判断中标情况,对机组进行初步划分,当机组中标情况评估分值S1低于阈值W1时,认定机组为“低串谋可能性”。然后判断机组是否有串谋的行为动作,即考察机组报价相似情况和报价变化同步情况,对机组划分结果进行修正,对修正后的机组进行再一次的划分。

图2 机组串谋判定整体流程Fig.2 Process of unit collusion judgment

步骤1:利用现货市场数据,计算相应指标,对指标进行标准化处理;

步骤2:随机选取机组对如机组i和机组j;

步骤3:判断机组i和机组j的中标情况,若机组i和机组j的中标情况综合评价结果S1低于阈值W1, 则认为机组间有“低串谋可能性”;否则转向步骤2;

步骤4:判断机组i和机组j的报价相似情况和报价改变情况,利用报价相似情况和报价改变同步情况,对中标情况的综合评价结果进行修正,若机组i和机组j报价相似或报价改变同步,则认为机组i和机组j更有可能进行串谋,应对评价结果进行放大,当修正后的评价结果超过阈值W3时,则认为机组i和机组j之间有“高串谋可能性”;当修正后的评价结果在阈值W2之间时,则认为机组i和机组j之间有“中等串谋可能性”;当修正后的评价结果低于阈值W2时,则认为机组i和机组j之间有“低串谋可能性”;

步骤5:重复步骤1至步骤4,直至所有机组对判断完毕。

2.2 Delphi法修正后的Topsis模型

Delphi法作为一种主观赋权方法,能够较好适应现货市场的发展阶段,其本质上是一种反馈匿名函询法。其大致流程为:在对所要预测的问题征得专家的意见之后,进行整理、归纳、统计,再匿名反馈给各专家,再次征求意见,再集中,再反馈,直至得到一致的意见。

Topsis(优劣距离法)是常用的综合评价方法,能充分利用原始数据的信息,精确反映各个评价方案之间的优劣。其基本思路是,在一个评价方案的集合中,分别找出一个最优解(每个属性值都是该属性的最优值)和最劣解(每个属性值都是该属性的最差值),并将评价方案集合中的每一个方案与最优解、最劣解的距离进行比较,既靠近最优解又远离最劣解的方案,就是方案集中的最优方案。

在利用Topsis模型进行评价的过程中,引入Delphi法确定的主观权重,具体步骤如下。

经过正规手术及合理的治疗后,儿童及青少年甲状腺癌预后良好,治疗后长期生存率很高,分化型甲状腺癌长期生存率超过90%;甲状腺髓样癌的5年和15年生存率均超过85%。但与成人相比,其复发比例仍较高,可达10%~35%[28-29],故定期的随访很重要,包括超声以及检测血清Tg水平,超声随访方案为初次手术后至少6个月内需进行颈部超声检查,之后每6~12个月复查1次[5]。

步骤1:对于归一化后的指标进行正向化处理。

步骤2:利用专家打分法确定指标权重,m个指标的权重分别为{α1,…,αm}。

步骤3:构造加权矩阵如下。

(13)

式中znm为第n个机组对的第m个指标。

步骤4:寻找最优解z+和最劣解z-如下。

(14)

步骤5:求解每个方案到最优解解z+和最劣解z-的距离。

(15)

步骤6: 求解每个方案与最优解相对接近程度。

(16)

式中:Ci为第i个评价方案与最优解的相对接近程度,Ci越大,表明评价对象越接近最优值。

2.3 综合评估

根据2.1节内容,先利用2.2节的Topsis模型求得中标情况的综合评价结果S1, 对于S1大于W1的机组进行下一步判断。在S1的基础上,结合报价相似情况和报价变化同步情况的综合评价结果得到S2, 计算公式如式(17)所示。

S2=S1×eγ+θ-1

(17)

式中:γ为报价相似和报价变化同步情况综合评价结果的归一化值;θ为缩放因子,可以根据电力市场实际运行情况取值,当缩放因子取值较大时,对S1的放大程度越大,反之越小。

表1 某地区现货市场报价数据Tab.1 Quotation data of spot market in a region

3 机组串谋识别模型

由第2节可以得到初步判定的串谋机组,利用初步判定的串谋机组进行模型的训练。

3.1 支持向量机

支持向量机是一种二分类模型,它的目的是寻找一个平面对样本进行分割。设有标记的样本数据为{(xi,yi)},i=1,2,…,N, 其中xi∈RP为特征数据集,yi∈{-1,1}为类别标签。SVM的判别模型为:

f(X)=sign(ωTX+b)

(18)

式中:ω和b为系数向量。

设最优分界面为ωTx+b=0, SVM的目标是求解其最优解,求解问题最终可以转化为式(19)的带约束的凸二次规划问题。

(19)

式中:ξi=1-yi(ωTxi+b)为损失函数;C为惩罚参数,C越大表示对错误分类的惩罚越大,C越小表示对错误分类的惩罚越小。根据凸优化理论,借助拉格朗日乘子将约束问题转换为无约束问题。

βi≥0,μi≥0

(20)

式中β、μ为拉格朗日乘子。

根据拉格朗日对偶原理,将式(20)化为其对偶问题。

(21)

解式(21)求优化函数对ω,b,ξ的极小值,令:

(22)

代入拉格朗日函数中,可以得到:

(23)

则问题最终转化为:

(24)

3.2 半监督支持向量机的串谋识别模型

基于半监督支持向量机的串谋识别模型训练集由有标签机组样本和无标签机组样本组成,两者符合独立同分布的假设,有标签机组样本集为:

(25)

无标签机组样本集为:

Unlab={xN+1,xN+2,…,xN+M},xi∈RP

(26)

则基于半监督支持向量机串谋识别模型的求解问题为:

s.t.yi(ωTxi+b)≥1-ξi,i=1,2,…,N

(27)

半监督支持向量机的求解是从无标记机组样本中,找到使分类超平面的分类间隔最大的标记,作为无标记机组样本的最终标记。该方法可以得到全局最优解,具有较好的性能。

4 算例分析

4.1 数据

本文采用某地区现货市场报价数据,选取其中166台发电机组,共计13 695条样本。在该地区现货市场中,采用十段报价形式,参与市场的机组在日前市场中申报一组价格,同时用于日前市场出清和实时各时段的出清,部分机组报价数据表1所示。串谋机组的初步判定针对指标权重问题,询问3位专家,对专家的反馈意见进行整理、归纳、统计;然后匿名反馈给专家,再次征求意见,直至意见统一,确定的最终权重如表2和表3所示。

表2 中标情况指标权重Tab.2 Index weights of bidding situation

表3 报价相似和报价变化同步情况指标权重Tab.3 Index weights of similar quotation and synchronous quotation change

表4 中标情况评估的最优最劣方案Tab.4 The best and worst cases of bid winning

图3 不同θ下,修正前后结果对比Fig.3 Comparison of results before and after correction under different θ

由计算得到的串谋识别指标体系,分别对各项指标进行同向化处理,将所有指标转化为极大型指标,然后进行标准化处理,可以得到如表4所示的最优最劣方案。

根据最优和最劣方案计算相对接近度,得到最终的评估结果S1, 同理,可以得到报价相似和报价变化同步情况的综合评价结果S′2, 利用式(17)对S1的值进行修正,即利用报价相似和报价变化同步情况对S1值进行缩放,对于报价相似性高和报价变化同步性也高的,通过修正,放大S1的值;对于报价相似性低和报价变化同步性也低的机组,缩小S1的值,最终得到S2的值,再次对机组进行划分。10台机组对在不同的缩放因子θ下,修正前后的对比如图3所示。

由图3中,机组对1和机组对2可以看出,当S1的值较小,S′2值较大时,通过修正,最终的S2值变大,即当机组中标情况评价结果较低,报价相似和报价变化同步情况评价较高时,最终的评价分值也会变高,此时修正前的分值小于修正后的分值,且θ值越大修正后的评价分值越高;由机组对7和机组对8可以看出,当S1的值较大,S′2值较小时,通过修正(θ取值合适,例如上图中的θ=0.5),最终的S2值变小,即当机组中标情况评价结果较高,报价相似和报价变化同步情况评价较低,且θ取值合适时,最终的评价分值也会变低。

最后,通过对串谋机组的初步判定,“高串谋可能性”的机组样本共有1 068条样本,“中等串谋可能性”的机组样本共有1 515条样本,“低串谋可能性”的样本共有11 112条样本,如图4所示。

图4 样本分类Fig.4 Sample classification

4.2 半监督支持向量机识别模型的有效性验证

为了验证半监督支持向量机在串谋识别中的有效性。本文将所有样本分为两类,强串谋机组样本作为正样本,较强串谋机组样本和无串谋机组样本作为负样本,由于正负样本数相差巨大,严重影响识别的精度,且本文的目的是正确识别强串谋机组样本即正确识别正样本,因此对负样本进行随机分组,分为10组,每组有负样本1 263条,将正样本分别和10组负样本进行组合,构成10个包含正负样本的样本集。

本文采用准确率、召回率及F-Measure对串谋识别模型进行评价,准确率表示所有被识别为正样本的样本中,真正的正样本的比率;召回率是指所有正样本中被识别为正样本的比率;F-Measure是对准确率与召回率的一个综合指标,3个评价指标的计算公式如下。

(28)

(29)

(30)

式中:Rpre为识别模型的准确率,准确率越大,被评价模型越好;Rrec为识别模型的召回率,召回率越大,被评价模型越好;F为识别模型的F-Measure,越接近于1越好;QTP为被正确识别的正样本数量;QFP表示被识别成正样本的负样本数量;QFN为被识别为负样本的正样本数量。

不断改变有标签样本数据的占比,用综合指标F评价来评价模型,对10个样本集分别进行测试,10组数据分别训练模型得出的机组串谋识别结果统计如表5所示。

表5 机组串谋识别结果统计Tab.5 Statistics of unit collusion identification results

由表5可以看出,在10组样本集进行模型训练中,基于半监督支持向量机的串谋识别模型的识别效果明显优于基于支持向量机的串谋识别模型。

表6 半监督支持向量机模型的识别结果Tab.6 Recognition results of semi supervised SVM model

图5为有标签数据占比不同的模型结果。由图5可以看出,随着有标签数据样本的增多,模型的F值越近于1,模型越好。但当有标签数据占比超过30%,模型的F值增加速度变慢,并趋于稳定。因此,本文采用30%的数据为有标签数据来进行模型训练。

图5 有标签数据占比不同的模型结果Fig.5 Model results with different proportion of labeled data

对于每一个包含正负样本的样本集,其中30%为测试集,30%为有标签的样本,40%为无标签的样本,进行模型的训练。并且将本文的半监督支持向量机方法和传统支持向量机方法进行对比,其中第1组样本集的结果展示如图6所示。所有10组样本集训练的模型效果统计如表6所示。

表6对于市场中大量的未知数据,利用训练完成的模型进行识别,识别出“高串谋可能性”机组。由表6可以看出,机组对1的中标率为1,说明其百分百中标,且其报价和报价变化均较为相似;机组对2中标率较大,且高价中标率指标大,报价和报价变化均较为相似;机组对5虽然其中标率和高价中标率指标较低,但其报价和报价变化非常相似,通过评估分值修正后,依然能够达到较高的分值,以上机组被识别出,验证了半监督支持向量机模型的正确性。

5 结论

本文在分析现货市场机组串谋特点的基础上,构建了新的机组对串谋识别指标体系。并根据机组串谋特征,将机组串谋状态进行分类。在电力现货市场无串谋机组样本的情况下,利用Delphi法修正后的Topsis模型,对机组进行初步判别,形成模型的训练集,然后提出了基于半监督支持向量机的串谋识别模型,经实例计算证明,该方法对现货市场串谋机组的识别有较高的准确性。得到如下结论。

1)本文对现货市场串谋机组的初步判定,是出于构建训练集的目的。在判定的过程中,考虑了专家经验,只适用于现货市场建设初期,串谋机组样本缺少的情况。当市场运营发展过程中发现了明确的串谋机组,就可利用市场中明确发现的机组作为训练集。

2)综合考虑现货市场机组串谋特征以及串谋识别指标体系,将机组串谋状态分为“强串谋”状态、“较强串谋”状态和“无串谋”状态,有助于串谋机组的快速识别。

3)基于半监督支持向量机的串谋识别模型同时利用市场中的有标签数据和无标签数据进行训练,提高了串谋识别的准确率,有助于防范现货市场机组间的串谋行为。

猜你喜欢

现货报价标签
美国大豆现货价格上涨
豆粕:美豆新高后回落振荡,现货临近春节成交转淡
无惧标签 Alfa Romeo Giulia 200HP
不害怕撕掉标签的人,都活出了真正的漂亮
浙江电力现货启幕
备战电力现货
标签化伤害了谁
基于多进制查询树的多标签识别方法
报价
报价