相关论文:
-
-
全球能源互联网
第8卷 第1期 2025年01月;页码:110-123
面向混合增强智能的省级现货市场报价样本集增强及市场力识别技术
Provincial Spot Market Quote Sample Set Enhancement for Hybrid Augmented Intelligence and Market Force Recognition
- 1.东南大学电气工程学院,江苏省 南京市 210018
- 2.中国电力科学研究院有限公司,江苏省 南京市 210037
- NING Longfei1, LIU Feiyu1, WANG Beibei1*, ZHENG Yaxian2 (1.College of Electrical Engineering, Southeast University, Nanjing 210018, Jiangsu Province, China
- 2.China Electric Power Research Institute, Nanjing 210037, Jiangsu Province, China
关键词
Keywords
摘 要
Abstract
随着电力现货市场改革的推进,亟须对省级现货市场参与主体报价行为进行市场力识别以鼓励良性竞争。考虑到市场初期阶段,来源于现货市场实践的市场成员行使市场力而获取超额利润的样本数目相较于正常交易行为的样本较少,存在样本不平衡问题。首先基于现货市场实践的样本和专家经验进行市场力标签标记,并以此训练用于市场力识别的随机森林算法。然后利用样本抽样方法进行样本不平衡增强以提高市场力识别精度。此外考虑到随着市场成熟度的推进,评判市场力的标准不是一成不变,为了应对市场力评判标准的变化,将“人类智能”与“机器智能”结合构成混合增强智能算法。算例结果表明通过“人类智能”将市场力标签进行改变后,“机器智能”仍可以对市场力样本进行有效识别,体现了提出的混合增强智能的优势。
With the advancement of electric power spot market reform, there is an urgent need to conduct market power identification on the quotation behavior of provincial spot market participants to encourage healthy competition.Considering that in the initial stage of the market, the number of samples derived from the spot market practice in which market members exercise market power to obtain excess profits is relatively small compared to the samples from the normal trading behavior, there is a sample imbalance problem.In this paper, first of all, the market power label tagging was labeled based on experts’ experience.In this paper, the samples of spot market practice with market power labels based on experts’experience were labeled and used to train the Random Forest algorithm for market power identification, and then enhance the sample imbalance to improve the accuracy of market power identification by using the sample sampling method.In addition,it is considered that as the market matures, the criteria for judging market power are not static, and in order to cope with the changing criteria for market power, the “human intelligence”and the “machine intelligence” were combined in this paper.The results of the algorithm show that after the market power label is changed by “human intelligence”, and “machine intelligence”can still recognize the market power samples effectively, which reflects the advantages of the hybrid augmented intelligence proposed in this paper.
0 引言
随着电力体制改革的稳步推进,现货市场成为改革的焦点,而电力工业技术资金密集性决定了其寡头竞争的特点,市场占有率较高的发电企业可能通过策略性报价行为[1-3]或者物理持留部分可用发电容量[4]获得高额利润[5],影响市场健康稳定运行[6-8]。为了保证电力市场改革的顺利推进,亟须开展对市场力的识别问题研究。
目前国内外学者对市场力的识别和判定方法已有了较为丰富的成果[9-12]。电力市场中的市场力一般指发电商通过容量持留或者经济持留的方式影响市场电价的能力。电力市场中市场力的识别实质是一个二分类问题,即通过市场成员的报价数据将其中正常报价和行使市场力报价2种模式标签出来。而机器学习可以有效发掘样本数据集内部潜在的联系,在实时性和效率方面有较好表现,因此被广泛应用于市场力的识别中。表1梳理了采用机器学习识别市场力的方法。
表1 基于机器学习的市场力识别算法
Table1 Machine learning based algorithms for market force identification

机器学习算法有/无监督学习特征的特殊处理方法算法特点AdaBoost-DT[13]有监督学习提出了改进的串谋检测指标体系准确率高、实时性好SVM[14]有监督学习性能高、有良好的泛化能力,但训练时间长TSVM[15]半监督学习能解决有标签样本少带来的泛化能力差的问题算法效率极大地提高,可以做到动态识别CSSVMICCDPRP[17]SVM-ICCDPRP[16]有监督学习采用Lasso回归解决特征之间的多重共线性问题半监督学习速度快,收敛性好朴素贝叶斯[18]有监督学习采用卡方检验和基尼不纯度剔除关联性较强的特征参数少,对缺失数据不敏感,算法简单孤立森林[19]无监督学习不需要标签,算法效率高,精确度强
在市场力的识别过程中,除了人工智能在发挥重要的作用外,人的作用也不可忽视,尤其是市场力识别本身是个主观过程,没有严格客观标准,需要结合市场发展的不同阶段进行有效引导,从而实现市场力识别在公平、促进竞争和效率等多方面实现均衡[20-23]。市场力的识别过程是“人类智能”和“机器智能”共同作用的结果。在电力市场运营初期,市场力的数据较少,此时需要组织专家分析市场的具体运营数据以判别市场主体是否行使了市场力,通过经验丰富的专家为市场力数据贴上标签,进而干预人工智能的学习结果。而当市场由试运行转为长期运行时,将会产生大量市场运行数据,通过人力的方法对数据进行分析判别不同主体是否行使市场力将耗费大量时间。此时将市场力识别从基于专家的识别过渡到基于智能算法的智能识别有助于在市场出清前对市场力行为进行快速筛查。同时,人工智能算法可以从高维角度对未知领域进行探索,也能对大批量数据进行处理,进而找到专家仅凭经验难以发觉的市场力行为,丰富专家的知识。
综上所述,基于“人类智能(专家)”及“机器智能(人工智能算法)”相结合的混合增强智能判定方法贯穿了省级现货市场报价的样本集增强以及市场力识别过程。混合增强智能根据“人类智能”与“机器智能”之间的互补关系,使“人类智能”指导“机器智能”进行市场力识别,“机器智能”反过来作用于“人类智能”,增长专家的知识。另一方面市场力的评判标准是一个随市场运营成熟度而标准在不断变化的主观过程。因此在市场力识别中需要基于实际的场景出发,善于运用“人机结合”的思想。基于以上理论,本文首先构建基于混合增强智能的多维度市场力智能判定样本集,组织专家对电力市场运营初期的数据进行分析,判别不同主体是否行使了市场力得到原始的样本数据。其次使用随机森林算法对样本初集进行监督学习,并在测试集上验证智能算法的识别效果。为了体现本文提出的混合增强智能算法的思路,新增加了一个市场力标准发生变化的算例。即在上述的算例中假设市场力的评判标准发生变化,有部分无市场力样本在新的标准下被判定为有市场力,其余训练思路保持一致,最后观察算法的识别效果。本文的整体思路如图1所示。

图1 本文整体思路图
Fig.1 Overall idea map of this paper
1 基于混合增强的多维度市场力样本构建技术
1.1 多维度市场力判定样本构建总流程
市场力样本初集构建的重点为基于市场运营的大量原始数据形成样本的各种特征,其核心为样本特征的选择与计算,涉及数据计算和处理。而每个样本的市场力标记结果是由专家分析后给出的,作为外部输入。在本文中市场力被定义为发电商操纵市场价格从而获得超额收益的能力。因此最直观的判断有无行使市场力的标准是判断发电商有无获得超额收益。本文中专家标记市场力的依据便是发电商通过策略报价得到的收益是否超过了按边际成本进行报价所得收益的2倍。如果没有超过则未行使市场力;如果超过则认为发电商行使了市场力。
要构建市场力样本初集,首先需要读取包含市场运营结果和专家给出的市场力判别结果的原始样本数据;其次,对原始样本数据进行预处理,对数据中可能出现的缺失和错误数据进行处理;然后,为了提高基于人工智能算法识别的通用性,不能直接使用原始市场运营结果作为特征,需要对原始数据进行基于市场力评价指标计算的特征提取工作;最后,将提取获得的样本特征与专家给出的市场力标价结果组合形成1条样本数据。
1.2 基于多维度市场力评价指标的数据特征提取体系
相关的市场力评价指标主要包括出清前和出清后的识别指标,这2种指标分类分别对不同市场主体的潜在市场力,是否在报价报量中行使了市场力以及对市场出清结果的影响这3个方面进行多维度的评价。每种类型的市场力识别指标对原始市场数据的需求如图2所示,其中出清前指标需要的数据类型主要为市场成员的基本信息,以及每个市场主体实际提交的分段报价、报量数据。计算出清前指标所需要的数据在市场出清前可以获得,而出清后的指标主要对市场出清后的市场状态进行评价,其所需要的数据主要为市场出清的结果,即出清电价以及每个主体所获得的出清电量。

图2 基于市场力评价指标的多维度数据特征提取体系
Fig.2 Multidimensional data feature extraction system based on market power evaluation indicators
1.2.1 市场结构类评价指标1) Top-m。
Top-m指标是指市场中最大的m个供应商所占的市场份额。市场中最大的m个发电公司所占的市场份额,应按式 (1) 计算:

式中:ITop-m为市场中Top-m份额指标;m为所要截取的较大份额市场供应者的数量,m<N;Smax,i为市场份额排在前面的第i个市场供应者的市场份额;N为市场供应者个数;Si为第i个市场供应者的市场份额。
2) HHI。
赫芬达尔—赫希曼指数 (Herfindahl-Hirschman Index,HHI)指标用市场的各供应者所占的市场份额的平方和来度量,其计算公式如下式所示:

式中:Si表示市场中第i个供应者所占的市场份额。市场成员越少、市场分配越集中,IHHI越大,表明市场中存在垄断力的可能性越大;反之则越小,市场竞争情况越好。HHI指标用来确定市场的集中程度,它主要分析发电商在市场中占用的份额,通常情况下不考虑需求的影响。HHI指标在对市场力进行衡量时,市场份额占比较高的供应商所占的权重也比较大,这是HHI指标最大的优势。相对于Top-m指标而言,HHI指标考虑了市场中所有供应商所占的市场份额,但是其需要的数据和计算过程较Top-m指标更为复杂。
3) RSI。
剩余供给能力(residual supply index,RSI)指标是指在某一段时间内,除了某一供应者的供给容量外,其余供应者的总供给容量市场份额之和。该指标表征的是发电商在为负荷提供电能时的必要性。在特定的时间内,RSI指标对每一位市场供应商进行衡量。RSI 指标的计算公式如下所示:

式中:IRSI,i表示供应商i的剩余供给能力;Pk表示供应商k的可供给容量;D表示市场中的总容量需求。
从市场总体角度看,RSI指标应取所有供应商中剩余供给能力最小的值,即发电能力最大的供应商的剩余供给能力指标。
1.2.2 市场主体行为的评价指标
1) 报价相对比。
报价相对比是一种对市场成员所提交的竞价曲线整体报价高低的评价指标,在市场采取分段竞价曲线的情况下,其计算公式需要进行一定修改:

式中:kλ,g为机组g的报价相对比;λg,avg为按量加权后机组g的平均报价;λavg为按量加权后计算得到的市场平均报价。如果一个机组的报价相对比大于1,则说明该机组的按量加权报价高于市场平均值;如果报价相对比小于1,则说明机组的按量加权报价低于市场平均值。对于没有行使市场力的机组,报价相对比应该在1附近,如果该值有明显偏离,则表面对应的机组有行使市场力的可能。
2) 报高价比例。
在市场采取分段竞价曲线的情况下,部分机组可能会采取一部分分段正常报价,剩余分段采取特殊的竞价策略。为了对这种情况的竞价曲线特征进行提取,构建了报高价比例这一评价指标:

式中:kλh,g为机组g的报高价比例;pg,all为机组g提交竞价曲线中的分段电量之和;为机组g的第h段报量;H'为分段报价超过设定阈值的分段。
如果机组提交的分段竞价曲线中,部分分段的报价超过市场按量加权平均报价的倍,就认为该分段的报价为高价,将其纳入到集合H'中,并通过报高价比例这一指标来对该情况进行统计和特征提取。
1.2.3 市场运行状态评价指标
1) 按量加权市场平均报价。
按量加权市场平均报价是一种在市场中采取分段竞价曲线的情况下,对市场平均发电成本进行估计的方式。该指标指将市场中所有发电机提交的分段竞价曲线的分段报价按分段报量加权得到按量加权的市场平均报价,具体计算表达式如下所示:

式中:pg,all为机组g提交竞价曲线中的分段电量之和;λg,avg为按量加权后机组g的平均报价;λavg为按量加权后计算得到的市场平均报价;pgh为机组g的第h段报量;λgh为机组g的第h段报价;G为所有参与市场竞价的机组集合;H为市场竞价曲线的分段数。
2) 市场负荷总量。
市场负荷总量是一个对市场中负荷大小进行评价的指标,可以从侧面反映市场的运行状态。
1.3 数据预处理
1.3.1 数据缺失
如果是机组的竞价数据,直接使用历史上该机组的竞价曲线中报量报价的均值代替;如果是市场负荷等数据,则取相邻时段系统负荷、外来点和网损的均值进行代替。如果缺失的数据量较大,优先考虑将该天的数据从样本初集的生成中排除。因为直接对大量缺失的数据进行代替,可能会使得最终样本的生成结果偏离实际情况,对后续的训练造成影响。
1.3.2 特征一致性检验
样本特征的一致性分析是分析所生成的样本特征,2个不同特征间是否会存在一定的相关性,如果两者呈现强相关,则表明2个特征可以相互替代,可以减少其中的1个特征以减少计算量。通常是通过分析特征间的相关系数来确定特征之间是否为强相关。
1.3.3 样本特征归一化处理
在机器学习领域中,不同评价指标往往具有不同的量纲和单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,需要进行数据标准化处理,以解决数据指标之间的可比性。
数据归一化的方式有很多种,比较常见的方式有最大最小值归一化和零均值归一化。其中,最大最小值归一化会将特征缩放到[0,1]之间,而零均值归一化会将特征的均值缩放到零。本文中,对样本特征的归一化采用零均值归一化的方式。该归一化方法的表达式如下式:

式中:x*为处理后的样本特征;x为处理前的样本特征;μ为该特征的均值;σ为该特征的方差。
2 基于随机森林的市场力识别技术
随机森林是一种监督学习算法,它创造了一个“森林”,并使它在某种程度上是随机的。它构建的“森林”是决策树的集合,大部分时间都是用装袋方法训练的。装袋方法的一般思想是学习模型的组合增加了整体结果。作为一种集成学习方法,随机森林算法通过建立多个决策树分类器,让每个决策树分别从m个特征中挑选k个特征(k<m)并使用不同的训练集数据进行学习。在给出最终结果时,每个决策树仅依据自己挑选的k个特征判断是否有市场力,随机森林最终给出判断结果会综合所有决策树的意见。因此,在随机森林中,用于分割节点的算法仅考虑特征的随机子集。甚至可以通过为每个特征使用随机阈值而不是搜索最佳可能阈值(如正常决策树)来使决策树更随机。总体算法的流程如图3所示。

图3 随机森林与决策树代码流程图
Fig.3 Random forest and decision tree code flowchart
2.1 样本不平衡下样本子集的生成方法
在随机森林算法中,为了增加不同决策树间的差异性,不同决策树训练所使用的样本子集会从总样本初集中进行抽取。在样本集中不同类别样本数量比较均匀的情况下,可以直接按照一定概率进行抽取生成样本子集。然而在实际的运行数据中,样本初集中可以被判定为有市场力的样本数量远远少于无市场力样本的数量。在理想情况下,样本集中不同类型的样本数量应该保持一致以保证判别算法不会出现偏向性。为了解决这一问题,在形成训练集以及训练样本子集时进行了特殊处理。
训练样本集是从样本初集中剥离出的一部分,其与测试样本集组合就可以构成完整的样本初集。在本次处理中,训练集按照样本初集的80%进行抽取,测试集按照20%进行抽取。考虑到样本初集中不同类型样本数量差距过大,对于无市场力的样本按照一定概率舍去,对于有市场力的样本完全保留。通过有概率的舍弃无市场力样本,可以在一定程度上降低不同类型样本间的不平衡现象。具体流程如图4所示,图中Xrand和Xrand2均为0~1的随机数。

图4 训练样本集处理方法
Fig.4 Flow of generating training samples
训练样本子集是每棵决策树在训练时按照一定概率从训练样本集中抽取的,由于训练样本集在特殊处理后,不同类型样本的数量仍然不平衡,因此在训练样本子集构建时需要再进行一次处理。只是本次处理直接基于有市场力样本的数量对无市场力样本数量进行削减,在实际使用时,设定无市场力样本的数量不可超过有市场力样本数量的k倍。上述的训练样本集以及样本子集生成的具体流程如图5,图中nneg是指无市场力的样本,npos是指有市场力的样本。

图5 训练样本子集生成流程
Fig.5 Flow of generating subsets of training samples
2.2 市场力智能判定结果评估方法
在本节中将从判别准确性和执行速度这2个角度提出针对结构性市场力智能判定的结果评估方法。
2.2.1 判别准确性
1) 总体正确率。
总体正确率是指市场力智能判别算法给出的结果对比样本真实结果的准确性,其计算公式如下式所示:

式中:ntrue为判别结果与样本一致的样本数量;ntotal为样本总数量。总体正确率在不区分样本本身类别的情况下对算法给出的判别结果进行有效性评价,适合对不同类型样本给予相同关注度情况。总体正确率可以同时在训练集与测试集上进行计算分别得到训练集正确率和测试集正确率。如果训练集正确率较高,但是测试集正确率明显较低则表明算法出现了过拟合现象。
2) 混淆矩阵。
混淆矩阵也称误差矩阵,是表示精度评价的一种标准格式,用n行n列的矩阵形式来表示。混淆矩阵的形式如图6所示。

图6 混淆矩阵一般形式
Fig.6 General form of confusion matrix
混淆矩阵一般为一个表格形式,其中的元素分别为TP(真阳),FN(假阴),FP(假阳),TN(真阴)。一般来说混淆矩阵中的元素可以是4种不同情况的样本数量,也可以是4种不同情况的比率,针对市场力样本判定来说:真阳是指人工智能算法判断出的有市场力的样本与实际有市场力的样本相符合的情况;假阴是指人工智能算法判断出有市场力的样本与实际有市场力的样本不符合的情况;假阳是指人工智能算法判断出无市场力的样本与实际无市场力样本不符合的情况;真阴是指人工智能算法判断出无市场力的样本与实际无市场力样本相符合的情况。
3)精确率(positive predictive value,PPV)、召回率(true positive rate,TPR)。
针对有市场力样本的判别结果使用精确率和召回率进行评价,其中精确率是指实际有市场力的样本在人工智能算法判断为有市场力样本中的比例,而召回率是指人工智能算法判断为有市场力的样本在实际有市场力样本中的比例。二者的计算表达式如式(11)—(12)。
精确率计算:

式中:VPPV为精确率;ηTP为真阳样本的数量;ηFP为假阳样本的数量。
召回率计算:

式中:RTPR为召回率;ηFN为假阴样本的数量。
4)特异度(true negative rate,TNR)。
在市场力判别中,对无市场力样本评价的准确性采用特异度进行评价,其计算表达式如下式:

式中:RTNR为特异度;ηTN为真阴样本的数量。
2.2.2 执行速度
1)训练速度。
训练速度指的是针对同一批训练样本集进行训练所需要的时间。训练可以在线下进行,因此训练速度对于系统实际运行的影响程度不大。
2)判别速度。
判别速度是在随机森林算法训练完成后,基于已经训练好的算法参数对同一批测试样本集进行判别所需要的时间。由于判别一般是集成在系统中,因此判别速度会对系统的实际运行产生一定影响。
3 算例分析
本章采用浙江省省级日前电能市场在2021年3—5月的运营数据,具体包括脱敏后的机组分段报价以及市场出清结果等。按照第2章介绍的流程进行数据预处理。
3.1 特征筛选
3.1.1 总体分析
样本特征筛选是对样本集中已有的样本特征进行分析,研究不同特征之间是否存在可替代性。在第2章所构建的市场力智能判定样本集中,样本的特征共有7个,为了方便处理,将其按照顺序进行编号。接下来进行样本特征的分析与筛选。表2展示了样本初集中样本特征的分布。其中,由于部分机组的分段报价为负值,在报价相对比中出现了小于0的情况,但该情况较少,总体上对样本特征影响不大。
表2 特征与其对应的编号
Table 2 Feature with its corresponding number

特征编号样本特征名称范围1市场份额0.0%~100.0%2动态HHI85~87 3动态RSI0.0~3.5 4报价相对比0.0~6.0 5高报价比率0.0~1.0 6系统负荷15 000~55 000 7系统按量加权平均报价200~300
从图7中可以看出,有无市场力的样本在不同特征下区分程度不同,对于表2中特征3和特征6,有市场力样本的分布集中在一定范围内,如在特征3上,有市场力的机组明显聚集在该特征较低范围内,而该特征较高时,有市场力的机组较少。而对于特征1和4,有无市场力样本的分布的区别则不是那么明显。对于特征2、5和7,有市场力样本的分布呈现多个范围内的集中。上述分析说明,当RSI剩余供给能力保持在低值以及系统负荷比较高的时候,发电商往往行使市场力。市场份额和报价相对比的大小与是否行使市场力联系不很紧密。动态HHI、高报价比率和系统按量加权平均报价这3个指标在有市场力样本的分布比较分散,这意味着其与发电商是否行使市场力的关系并不明确,需要通过识别算法进一步分析。

图7 样本特征与分类结果之间关系
Fig.7 Relationship between sample characteristics and classification results
3.1.2 样本特征间的一致性分析
图8展示了样本集中7个特征之间的相关性分析结果,从图中可以看出除了特征3和特征6,其他特征之间的相关性均不明显。这表明样本集中所选取的特征从多个维度提取了信息,能较为全面地描述样本的特性。

图8 样本特征间一致性分析
Fig.8 Consistency analysis between sample features
具体分析特征3和特征6:两者的相关性曲线均为一条接近副对角线的曲线,这表明2个特征存在一定的负相关性。其中特征3是修正后的动态RSI,该指数描述的是排除某一机组后剩余机组对系统负荷的供应能力,其中使用到了系统负荷,即特征6,因此两者之间存在相关性。但是考虑到系统负荷能够从侧面反映系统的运行状态,剩余供给能力指标还与其余机组的供给容量有较强的关联,所以从图8中发现曲线对比对角线还是有一定差距的,即两者并非线性相关,因此后续训练中仍然保留这2个特征,不进行替换。
3.1.3 样本归一化处理
通过计算得到7个样本特征的均值和方差如表3。由各个特征的均值和方差可以计算出归一化后的样本特征。通过归一化处理,7个样本特征的分布范围更加集中,方便后续随机森林算法的训练。
表3 原始样本特征的均值及方差
Table 3 Mean and variance of raw sample characteristics

特征编号均值方差特征10.419 20.436 2特征286.853 70.018 0特征31.003 50.408 7特征41.009 01.666 1特征50.240 20.406 8特征637 098.657 76 522.446 9特征7254.757 09.073 7
3.2 算法有效性验证
3.2.1 样本不平衡下样本子集的生成方法
基于原始省级电能市场运营数据构建的样本初集中有无市场力样本的数量,经统计如表4。
表4 各类样本集中不同类型数据占比
Table 4 Percentage of different types of data in each type of sample set

样本类型数量占比样本初集无市场力样本1 971 86499.86%有市场力样本28560.14%训练样本集无市场力样本78 53897.14%有市场力样本23122.86%训练样本子集无市场力样本925083.33%有市场力样本185016.67%测试样本集无市场力样本19 62197.30%有市场力样本5442.70%
从表4中可以看出,在总样本初集中,无市场力样本数量远远多于有市场力样本的数量,其占比达到了99.86%。为了解决极端样本不平衡的问题,在形成训练集以及训练样本子集时进行了特殊处理,经过处理后无市场力样本的占比从99.86%降低至97.14%。在训练样本子集的处理中,设定无市场力样本的数量不可超过有市场力样本数量的5倍。在训练样本子集处理后,判别结果如图9所示,有市场力样本数量与无市场力样本数量的占比分别为1∶5,基本达到了可以保证算法正常训练的水平。

图9 不同处理方式后有市场力样本占比变化
Fig.9 Changes in the percentage of samples with market power after different treatments
3.2.2 经过本文样本增强后的训练效果
使用随机森林算法基于样本初集进行训练,从样本初集中按照80%的概率形成训练集和测试集。算法参数设置如表5所示。其中部分参数给出了多个取值,表明在算例中将会使用多组参数进行测试。不同参数设置下,算法的判别有效性结果不同,经过调试,可以得到算法最佳时的参数以及判别结果的混淆矩阵,如表6所示。具体的调参过程详见附录A。
表5 算法参数设置
Table 5 Algorithm parameter settings

参数名称参数取值训练集比例0.8测试集比例0.2样本子集特征数2样本子集抽样比例0.8决策树数量11,21,51决策树最大深度5,20,30叶节点最大样本数量2
表6 算法最佳时判别结果的混淆矩阵
Table 6 Confusion matrix of discriminatory results when the algorithm is optimal

有无市场力算法判别结果有市场力无市场力有市场力(真实结果)2167(489)145(55)无市场力(真实结果)1116(286)77 422(19 335)
随机森林算法的总体正确率、PPV、TPR和TNR这4个指标同样是随着决策树数量和最大深度的增加而提高,但是在决策树数量达到21时,再提高决策树数量对4项指标的提升较小,这表明此时多个决策树带来的随机性已经足够,无需构建更多的决策树来提升算法性能。
针对算法的表现速度,当采用改进抽样方法后会将无市场力样本的数量进行削减以提高有市场力样本的占比,这在一定程度上减少了样本子集中样本的数量。因此算法在训练速度上出现了明显的提升。而测试时间与决策树的数量与最大深度有关,在参数不变的情况下,改进前后并没有出现较大的差异。在最佳参数的情况下,算法的训练时间为204 s,测试时间为30.1 s。抽样方法的有效性对比结果如图10、图11所示。

图10 有市场力样本的召回率变化
Fig.10 Changes in TPR for samples with market power

图11 有市场力样本的精确率变化
Fig.11 Change in PPV for samples with market power
与传统的抽样方法不同的是,采用改进的样本子集抽样方法进行样本增强,TPR指标出现了较为明显的提升。TPR指标是阳性样本识别率的衡量指标。该指标越大,表明算法可以识别出更多的市场力行为。在决策树数量为51,最大深度为30时,TPR指标从原始抽样方法的77.90%(64.89%)提高到了94.20%(90.62%),在测试集上出现了25.73%的提升。这表明在采用改进算法后,算法对有市场力样本的识别率出现了明显的提升。
同时,PPV指标出现了一定程度的下降。PPV指标是一种衡量假阳率的指标,该指标越大表明算法给出的阳性结果越可靠,越小表明结果可靠性越低。在采用改进抽样方法后,PPV由原来的94.24%(85.68%)下降到了66.32%(63.69%),在测试集上出现了21.99%的下降。这意味着算法给出样本有市场力的判别时,有33.68%(37.21%)的概率出现误判,即没有市场力的样本也被误认为有市场力。
在理想的情况下,一个完美的判别算法可以做到同时拥有极高TPR和PPV,这意味着算法可以将几乎所有市场力行为识别出来且很少出现误判的情况。但在实际中,这种情况很难达成。市场力行为的识别率与误判率存在着此消彼长的关系。PPV可以帮助判断是否对少数类(即具有市场力的样本)的预测是准确的,当误判的成本非常高时,就会追求高PPV;但如果目标是不惜代价识别少数类样本(即具有市场力样本)的时候,就不在意高PPV,而在意TPR。高PPV和高TPR是不可兼得,二者的平衡代表了捕捉少数类的需求(即正确识别出市场力样本)和尽量不要误判多数类的需求(即正确识别无市场力样本)的平衡。如果对市场力的识别率较高,那么必然会存在着一定的误判;如果想要降低误判率,那对市场力的识别率就会降低,只能根据实际的需要调整算法参数来平衡两者。
3.3 基于混合增强智能的市场力识别技术
3.2节中着重考虑的是基于人工智能的市场力识别技术,仅在最开始的贴标签过程中采用了专家的判断意见,进而训练随机森林算法进行市场力识别。由于人工智能技术能够挖掘“人类智能”所无法发现的规律,进一步增加专家的“人类智能”,所以专家的评判标准可能会发生变化,进而影响到最开始的贴标签过程。上述过程即为本文提出的基于混合增强智能的市场力识别技术。为了体现出“人类智能”与“机器智能”相结合的思想,特设置一个算例,算例将基于3.2节的内容进一步探索。假设在人的强制干预下,原先被评判为无市场力的样本中约有0.05%的样本判别结果发生了改变,其余样本的标签保持不变。采用与3.2节相同的训练思路以及参数的选择范围,则可以得到参数最佳时算法在训练集以及测试集中的表现。
在改变市场力的标准,并且将相应的标签也进行改变后,则识别算法的输入也调整为最新的样本集,从而影响算法的识别效果。对算法进行调参优化,表7显示了参数最佳时的TPR为69.64%(65.92%),PPV为68.93%(64.31%)。TPR和PPV达到了较为不错的水准,即算法能够识别出约2/3的阳性样本,但也有约1/3的概率出现误判。从对比角度来看,当市场力评判标准变严格后,算法的TPR会下降,PPV则变化不大。说明在给定的市场力判定标准下算法的识别效果有所下降,但是误判率基本没变化。
表7 参数最佳时算法的表现情况
Table 7 Performance of the algorithm when parameters are optimal%

总体正确率PPVTPRTNR训练集结果97.6768.9369.6498.77测试集结果97.5064.3165.9298.66
本算例表明在特殊的场景下或者在市场力评判标准发生变化的情况下,需要对之前的专家标签进行修改,并将之前的标签和新的标签一起组成样本用以训练算法。本文提出的随机森林算法以及解决样本不平衡问题的方法在各个算例中都有着较好的识别效果,体现了算法的有效性。
4 结论与展望
本文提出了基于混合增强智能的多维度市场力样本集构建及市场力识别技术。在样本的构建过程中从市场结构、竞价信息、市场状态3个维度出发选择了7个指标来反映潜在市场力、是否行使市场力以及对市场的影响,专家依据以上指标对市场数据进行标记。在市场力的识别技术中本文介绍了基于随机森林的市场力识别技术,并提出了缓解样本不平衡问题的方法。通过对浙江省日前电能市场运行数据进行仿真,可以得到如下结论。
1)本文提出的多维度市场力样本集构建中将专家的判别结果作为标签,从而形成训练集,进而训练随机森林算法,这体现了“人类智能”与“机器智能”相结合的混合增强智能的思想。
2)本文提出的随机森林算法对训练的样本集进行处理,从而缓解了样本不平衡问题。采用改进抽样的方法能够使算法在训练速度上得到明显的提升,同时算法对市场力样本的识别率出现了明显提升,但是出现误判的概率也相应提高。
3)市场力的判断是一个相对主观的问题,并且随着市场的变化而不断改变。在特定的场景下标准也会变化。因此本文考虑的基于混合增强智能的随机森林识别算法能够考虑到评判标准变化的情况下市场力识别的情况。但本文提出的方法是框架性质的内容,如何保证在评判标准在发生变化后,市场力的识别率也能稳步提高将是下一阶段的研究内容。
4)本文的主要贡献是将提出的识别算法应用在省级现货市场报价样本中。这个过程中涉及到的关键步骤有2个:市场力的标记;市场力识别。因此如果考虑到其他层级和类型的市场力数据则按照此思路也可以进行扩展,不过需要注意的是针对市场力的识别指标,不同层级和类型的市场可能会发生变化,需要根据实际的市场需求进行构造。事实上,跨省跨区的省间电力现货市场中市场运行评估也可以参考上述的指标[24]。
附录 A 算法调参过程
具体的参数敏感性分析如下:
表A1 原始样本子集抽样方式下训练集的有效性验证结果
Table A1 Validity validation results of the training set under the original sample subset sampling approach

决策树数量最大深度总体正确率/%精确率PPV/%召回率TPR/%特异度TNR/%11 597.8077.4632.7099.72 2098.3890.9848.4499.85 3099.1794.2775.4899.9 21 598.3989.3949.5799.83 2098.9593.5268.0499.86 3099.2194.4276.8299.87 51 598.4789.4652.8599.82 2098.9893.5269.2599.86 3099.2394.2477.9099.86
表A2 原始样本子集抽样方式下测试集的有效性验证结果
Table A2 Validity validation results for the test set under the original sample subset sampling approach

决策树数量最大深度总体正确率/%精确率PPV/%召回率TPR/%特异度TNR/%11 597.8875.3231.9999.71 2098.1882.1241.5499.75 3098.7284.4862.3299.73 21 598.1981.6242.4699.73 2098.5985.4857.3599.73 3098.7685.8564.7199.70 51 598.2582.0045.2299.72 2098.6485.6859.3899.72 3098.7685.6864.8999.70
表A3 改进样本子集抽样方式下训练集的有效性验证结果
Table A3 Validity validation results of the training set under the improved sample subset sampling approach

决策树数量最大深度总体正确率/%精确率PPV/%召回率TPR/%特异度TNR/%11 597.1149.7075.4797.75 2098.1462.7985.6098.51 3098.4666.4793.3098.61 21 597.8859.1184.0498.29 2098.2363.2190.9698.44 3098.4466.0193.7398.58 51 597.8858.9784.5298.27 2098.2663.8390.6198.49 3098.4766.3294.2098.59
表A4 改进样本子集抽样方式下测试集的有效性验证结果
Table A4 Validity validation results of the test set under the improved sample subset sampling approach

决策树数量最大深度总体正确率/%精确率PPV/%召回率TPR/%特异度TNR/%11 597.1748.4775.7497.77 2098.2262.4885.1198.58 3098.3864.3089.7198.62 21 597.8757.3182.9098.29 2098.1160.2887.3298.40 3098.3166.0193.7398.58 51 597.8557.0282.9098.27 2098.1861.5386.7698.50 3098.3563.6990.6298.57
表A5 原始样本子集抽样方式下的算法执行速度
Table A5 The algorithm execution speed under the original sample subset sampling approach

决策树数量最大深度训练时间/s测试时间/s 516.42.7 201 003.56.6 30974.410.8 5 11 870.513.6 201 730.522.3 301 725.331.1 5 21 2 092.939.1 203 966.162.3 304 026.390.4 5 51
表A6 改进样本子集抽样方式下的算法执行速度
Table A6 The algorithm execution speed under the improved sample subset sampling approach

决策树数量最大深度训练时间/s测试时间/s 55.52.8 20116.36.4 30120.410.3 5 11 102.113.3 20195.221.0 30204.030.1 5 21 251.139.5 20490.957.6 30442.780.3 5 51
参考文献
-
[1]
ACUÑA L G, RÍOS D R, ARBOLEDA C P, et al.Cooperation model in the electricity energy market using bi-level optimization and Shapley value[J].Operations Research Perspectives, 2018, 5: 161-168. [百度学术]
-
[2]
DOU C X, PAN X D, ZHANG Z Q, et al.Multi-agent-systembased bi-level bidding strategy of microgrid with game theory in the electricity market[J].Electric Power Components and Systems, 2019, 47(8): 703-719. [百度学术]
-
[3]
SUN G H, WANG X W, YANG L B, et al.A method for power suppliers’ optimal cooperative bidding strategies considering network losses[J].Global Energy Interconnection,2020, 3(4): 335-345. [百度学术]
-
[4]
刘德旭,王靖,马光文,等.电力市场中的市场力评估研究现状及趋势[J].电力需求侧管理,2021,23(6):47-51.LIU Dexu, WANG Jing, MA Guangwen, et al.Development status and trends of market power evaluation in electricity market[J].Power Demand Side Management, 2021, 23(6): 47-51 (in Chinese). [百度学术]
-
[5]
涂腾.电力市场环境下考虑发电机组灵活性的市场力评估分析[D].杭州:浙江大学,2021.TU Teng.Evaluation and analysis of market power considering the flexibility of generator sets in power market environment[D].Hangzhou: Zhejiang University, 2021 (in Chinese). [百度学术]
-
[6]
谢敬东,刘思旺,孙欣,等.考虑市场力风险防范的电力市场出清机制[J].电力建设,2023,44(4):18-28.XIE Jingdong, LIU Siwang, SUN Xin, et al.Electricity market clearing mechanism considering market power risk prevention[J].Electric Power Construction, 2023, 44(4): 18-28(in Chinese). [百度学术]
-
[7]
廖侃,丁肇豪,舒隽,等.欧美电力市场操纵行为监管原则分析及其对中国的启示[J].电力系统自动化,2020,44(14):1-8.LIAO Kan, DING Zhaohao, SHU Jun, et al.Analysis on regulatory principles of manipulative behavior for European and American electricity markets and enlightenment to China[J].Automation of Electric Power Systems, 2020, 44(14): 1-8 (in Chinese). [百度学术]
-
[8]
丁军威,沈瑜,康重庆,等.一种衡量发电商市场控制力的新指标[J].电力系统自动化,2003,27(13):24-29.DING Junwei, SHEN Yu, KANG Chongqing, et al.A new index for evaluating generator’s market power[J].Automation of Electric Power Systems, 2003, 27(13): 24-29 (in Chinese). [百度学术]
-
[9]
包铭磊,丁一,邵常政,等.北欧电力市场评述及对我国的经验借鉴[J].中国电机工程学报,2017,37(17):4881-4892.BAO Minglei, DING Yi, SHAO Changzheng, et al.Review of Nordic electricity market and its suggestions for China[J].Proceedings of the CSEE, 2017, 37(17): 4881-4892 (in Chinese). [百度学术]
-
[10]
李道强.浙江发电侧电力市场发电商的电价操纵行为分析[J].电力系统自动化,2005,29(6):29-34.LI Daoqiang.Electricity price manipulation behavior of power producers in power market at generation side in Zhejiang Province[J].Automation of Electric Power Systems, 2005,29(6): 29-34 (in Chinese). [百度学术]
-
[11]
刘敦楠,陈雪青,何光宇,等.电力市场供应者竞标行为的分析与对策[J].电力系统自动化,2005,29(6):24-28.LIU Dunnan, CHEN Xueqing, HE Guangyu, et al.Analysis and countermeasure for suppliers’ behaviors in electricity market[J].Automation of Electric Power Systems, 2005, 29(6):24-28 (in Chinese). [百度学术]
-
[12]
马新顺,文福拴,刘建新.电力市场中发电公司间默契合谋机理的研究[J].电力系统自动化,2005,29(17):1-7.MA Xinshun, WEN Fushuan, LIU Jianxin.An investigation on the mechanism of tacit collusions among generation companies in electricity markets[J].Automation of Electric Power Systems, 2005, 29(17): 1-7 (in Chinese). [百度学术]
-
[13]
张海生,曹喆,杨昌海,等.基于AdaBoost-DT算法的电力市场串谋行为识别研究[J].电力工程技术,2020,39(2):152-158.ZHANG Haisheng, CAO Zhe, YANG Changhai, et al.Collusive behavior recognition in electricity market based on AdaBoost-DT algorithm[J].Electric Power Engineering Technology, 2020, 39(2): 152-158 (in Chinese). [百度学术]
-
[14]
徐昊亮,程紫运,张海生,等.基于改进支持向量机的发电企业滥用市场力违规识别[J].华北电力大学学报(自然科学版),2020,47(4):86-95.XU Haoliang, CHENG Ziyun, ZHANG Haisheng, et al.Market power abuse identification of power generation enterprises based on improved support vector machine[J].Journal of North China Electric Power University (Natural Science Edition),2020, 47(4): 86-95 (in Chinese). [百度学术]
-
[15]
王文婷,安爱民,保承家,等.基于改进代价敏感直推式支持向量机的发电企业滥用市场力识别[J].电力系统保护与控制,2022,50(11):102-111.WANG Wenting, AN Aimin, BAO Chengjia, et al.Identification of abuse of market power by power generation companies based on an improved cost-sensitive transductive support vector machine[J].Power System Protection and Control, 2022, 50(11): 102-111 (in Chinese). [百度学术]
-
[16]
董礼,王胜华,华回春,等.中国现货电力市场中发电企业滥用市场力违规识别[J].中国电机工程学报,2021,41(24):8397-8408.DONG Li, WANG Shenghua, HUA Huichun, et al.Identification of market power abuse in spot market of Chinese electric market[J].Proceedings of the CSEE, 2021, 41(24):8397-8408 (in Chinese). [百度学术]
-
[17]
董礼.代价敏感支持向量机参数优化与求解方法的研究及其应用[D].北京:华北电力大学,2021.DONG Li.Research and application of parameter optimization and solution method of cost-sensitive support vector machine[D].Beijing: North China Electric Power University,2021 (in Chinese). [百度学术]
-
[18]
田琳,舒康安,黄远明,等.发电商滥用市场力行为识别方法研究:基于朴素贝叶斯方法的分析[J].价格理论与实践,2021(5):43-48.TIAN Lin, SHU Kang’an, HUANG Yuanming, et al.Research on the identification method of power generation abuse of market power: analysis based on naive Bayes method[J].Price(Theory & Practice), 2021(5): 43-48 (in Chinese). [百度学术]
-
[19]
罗锦庆,覃捷,黄远明,等.基于孤立森林算法对发电机组滥用市场力的判别[J].价格理论与实践,2021(8):159-163.LUO Jinqing, QIN Jie, HUANG Yuanming, et al.Discrimination of generator unit abusing market power based on isolation forest algorithm[J].Price (Theory & Practice),2021(8): 159-163 (in Chinese). [百度学术]
-
[20]
LIN X S, HUANG T, BOMPARD E, et al.Ex-ante market power evaluation and mitigation in day-ahead electricity market considering market maturity levels[J].Energy, 2023,278: 127777. [百度学术]
-
[21]
WANG Z Y, JIANG C, ZHU L L, et al.Research on comprehensive energy market maturity evaluation model and market deduction from the perspective of power grid company[C]//2021 International Conference on E-Commerce and E-Management (ICECEM).September 24-26, 2021.Dalian, China.IEEE, 2021: 279-283. [百度学术]
-
[22]
FATRAS N, MA Z, DUAN H B, et al.A systematic review of electricity market liberalisation and its alignment with industrial consumer participation: a comparison between the Nordics and China[J].Renewable and Sustainable Energy Reviews, 2022, 167: 112793. [百度学术]
-
[23]
JIN L S, LIU Q, YU J, et al.Research on the development of electricity market based on performance guarantee[J].Frontiers in Energy Research, 2022, 10: 900901. [百度学术]
-
[24]
孙大雁,关立,黄国栋,等.跨区域省间富余可再生能源电力现货交易的实践和思考[J].电力系统自动化,2022,46(5):1-11.SUN Dayan, GUAN Li, HUANG Guodong, et al.Practice and reflection on trans-regional and cross-provincial electricity spot trading for surplus renewable energy[J].Automation of Electric Power Systems, 2022, 46(5): 1-11 (in Chinese). [百度学术]
基金项目
国家电网有限公司科技项目(涵盖极端形态的省级日前电能市场推演场景智能构建技术研究,SGZJJH00DKJS2310199)。