logo全球能源互联网期刊信息服务平台

目录

图片(0

    表格(0

      全球能源互联网

      第4卷 第6期 2021年11月;页码:595-601
      EN

      基于KNN和RF结合的供热机组热负荷预测研究

      Research on Heat Load Forecasting of Heating Unit Based on Combination of KNN and RF

      刘培栋1* ,刘立巍2 ,李明1 ,赵光3 ,刘书元3 ,邵壮2 ,周建新2
      LIU Peidong1* , LIU Liwei 2 , LI Ming1 , ZHAO Guang3 , LIU Shuyuan3 , SHAO Zhuang2 , ZHOU Jianxin2
      • 1.润电能源科学技术有限公司,河南省 郑州市 450000
      • 2.东南大学能源与环境学院,江苏省 南京市 210096
      • 3.新乡中益发电有限公司,河南省 新乡市 453000
      • 1.Rundian Energy Science and Technology Co., Ltd., Zhengzhou 450000, Henan Province, China
      • 2.School of Energy and Environment, Southeast University, Nanjing, 210096, Jiangsu Province, China
      • 3.Xinxiang Zhongyi Power Generation Co., Ltd., Xinxiang 453000, Henan Province, China

      摘 要

      Abstract

      电负荷和热负荷具有较强的耦合性,热负荷需求的准确预测对于预测电负荷进而让供热机组更好地进行深度调峰辅助服务报价工作具有重要作用。经多种算法对比研究表明,基于最邻近结点和随机森林的集成预测算法(KNN-RFAverage)具有很好的回归性能和较低的计算复杂度。特别是在面对热负荷存在极端波动的情况下,采用该算法进行热负荷预测可以保持鲁棒性,为有效解决连续多点热负荷预测、机组供热面积及用热习惯发生变化的问题提供了新的思路和方法。

      Accurate prediction of the heat load demand plays an important role in improving the performance of a heating unit, to better perform the deep peak shaving auxiliary service quotation work.In this paper, we proposed an integrated prediction algorithm, named KNN-RF-Average, based on the nearest neighbor node and random forest.Comparative studies of multiple algorithms showed that the prediction algorithm possessed good regression performance, and low computational complexity, specifically in the face of heat.The robustness could be maintained in the case of extreme load fluctuations, which provided new ideas and methods for effectively solving the problems of continuous multi-point thermal load prediction, and changes in the heating area, and heating habits of the unit.

      0 引言

      在双碳目标下,中国新能源发电占比将会越来越高[1],越来越多的供热机组需要参与深度调峰。供热机组在参与调峰的同时,其供热量必须满足采暖用户的用热需求,而机组的供热与发电特性存在较强的耦合关系,如供热机组的发电负荷上下限与热负荷相关、不同热负荷下的机组调峰能力和发电成本存在差别等[2]。因此,在供热机组参与深度调峰的调节过程中对热用户的实际用热需求量进行预测具有十分重要的意义。

      目前国内外学者在热负荷预测方面已经开展了一些研究。在选取预测模型的输入方面,文献[3]从气象因素和人为用热习惯两个角度探究热负荷的影响因素,构建了太阳辐射对热负荷的时间序列预测模型。文献[4]将灰盒法应用于热负荷预测中,同时考虑了气象因素对热负荷的影响。文献[5]在上述研究的基础上,进一步考虑了消费者的社会行为对热负荷的影响。在预测模型的构建方面,随着计算机与人工智能的发展,部分学者提出使用机器学习与优化算法,建立数据驱动的热负荷预测模型。文献[6]建立了基于BP神经网络的热负荷预测模型,并采用粒子群寻优参数的方法根据适应度函数对BP神经网络的初始权值和阈值进行优化。文献[7]在负荷预测中提出了基于长短期记忆(LSTM)的网络,这种方法充分考虑了负荷在时间序列方面的相关性,但是面对提前1~2天的序列负荷预测需求时,由于无法在预测时获得之前连续时间段的负荷信息,所以在实际工程中可操作性不高。文献[8]采用遗传算法确定出神经网络的拓扑结构,优化了神经网络的全局搜索能力和灵活性,但是遗传算法的染色体一对一交叉交换信息的方式导致算法效率不高,一对多的交换方式又会导致单个染色体的后代过多而陷入局部最优。文献[9]提出使用支持向量机回归的算法来预测热负荷,通过内积核函数来代替向高维空间的非线性映射,最终模型仅与支持向量有关,大大提高了收敛的速度,但是支持向量机回归算法对大规模训练样本难以实施,且对参数和核函数的选择很敏感。

      目前已有研究成果的实际应用中仍存在一些问题:如与热用户用热习惯相关的数据在实际情况下难以获取;尚没有考虑供热机组采暖面积变化或社会公共事件等干扰;神经网络的预测结果不稳定,容易陷入局部最优;遗传算法和支持向量机的计算效率不高,且对参数的选取很敏感;现有预测周期通常为日或小时级,达不到调峰竞价要求的15 min级。

      针对上述问题,本文从气象因素和时间因素两个方面选取预测模型的输入参数,通过对比几种不同的算法模型的优劣,提出将最邻近节点算法和随机森林算法结合构建预测模型的思路,并且考虑到采暖面积和新冠疫情的影响,对热负荷预测进行调整,为工程预测未来逐15 min的热负荷提供参考。

      1 研究对象和数据来源

      本文以河南省某供热电厂为研究对象,该电厂2020年的采暖供热面积相比2019年的采暖供热面积增加了约70万m2。根据河南省能源监管办关于印发《河南电力调峰辅助服务交易规则(试行)》的通知,全网火电机组(包括供热机组)以15 min为一个计费周期,计算深度调峰服务费用。有意愿参与深调的电厂需要在每天早上10点前给出第二天96点的深度调峰报价。由于电负荷和热负荷具有较强的耦合性,热负荷影响电厂的最低运行负荷,所以本文以预测目标电厂第二日逐15 min的热负荷为目标开展研究。

      本文采集到该电厂2019年11月15日到2020年3月14日和2020年11月15日到11月30日的每15 min的历史供热数据,并从气象网站获取对应时间段逐小时的气象数据,本文假设单个小时内气象数据不发生变化。

      在历史供热数据和气象数据的采集中,由于受到机器故障和人为操作的影响,容易出现一些极端值和缺失值,会对预测模型的训练造成不良的影响,所以需要在训练前对这些数据进行修正。对于单个的数据点异常或者缺失,本文采用前后邻近数据点的均值代替;对于连续的数据点异常或者缺失(不超过3个),本文采用斜率拟合的方法对数据进行修正,如式(1)所示。

      式中:k为需要修改的连续数据个数;xi为需要修改的连续数据的前一个数据;xi+k+1为后一个数据;yn为修正后的数据;n为需要修正的第n个数据。

      对于超过3个的连续数据缺失或者异常,则直接去除当日的全部数据。

      2 热负荷影响因素研究

      热负荷受到多种因素的影响,预测模型输入变量的选取直接影响了预测结果的精确度,如果输入变量选择不当,还会导致模型训练时间偏长、模型输出不稳定等问题,因此输入变量需要根据实际要解决的问题和数据计算的复杂程度确定。本文采用灰色关联法来选取预测模型的输入参数。

      2.1 灰色关联法

      灰色关联法采用灰色关联度来衡量系统在动态发展过程中子序列与母序列之间的关系密切程度,并用于对系统在动态发展过程中的发展态势做出量化比较与分析。灰色关联度的求解过程包括数据的无量纲化处理、灰色关联系数计算及灰色关联度的计算等[10]

      对于热负荷预测模型的输入变量选取任务,使用灰色关联法选择母序列为逐15 min的热负荷,子序列可选择气象因素和时间因素,如瞬时温度、日照时间、时间点、日期类型等。通过计算所有待选输入变量的子序列与母序列的灰色关联度,可得到各类输入变量的相关度排序,去除相关度较低的输入变量,进而获得可最终用于建立预测模型的输入变量。

      本文以对象机组2019年11月15日到2019年11月30日共计16天的历史供热数据为研究对象,选取时间点、瞬时温度、当日最高气温、当日最低气温、当日平均风速、当日日照时间、日期类型共7个特征,利用灰色关联法研究各个影响因素和热负荷之间的相关度。

      需要注意的是,温度、日照时间与热负荷成负相关,即当其他条件一定的情况下,随着这些影响因素的增大,供暖热负荷值都会逐渐变小;反之亦然。所以温度和日照时间需要乘以倒数化算子。

      假设r1,r2,r3,r4,r5,r6,r7分别代表时间点、瞬时温度、当日最高气温、当日最低气温、当日平均风速、当日日照时间和日期类型的灰色关联度,以上述影响因素的时间序列数据作为子序列,以供暖热负荷的时间序列数据为母序列,可以得到各个影响因素与供暖热负荷的灰色关联度,如表1所示。

      表1 各类影响因素的灰色关联度
      Table 1 Grey correlation degree of various influencing factors

      代称 影响因素 灰色关联度r1 时间点 0.56 r2 瞬时温度 0.96 r3 当日最高气温 0.97 r4 当日最低气温 0.88 r5 当日平均风速 0.73 r6 当日日照时间 0.93 r7日期类型 0.61

      由表1可知,各个影响因素与供暖热负荷的灰色关联度的大小顺序是:

      从以上数据中分析,可以得出:

      1)当日的环境温度是对供暖热负荷影响最大的因素。

      2)在气象因素中,热负荷的影响因素不单单是温度,还有日照时间,其次是平均风速。

      3)时间点对热负荷的影响不大,但是由于本文的热负荷预测属于逐15分级,所以需要时间点来区别热负荷处于不同的时间段,否则数据会过于平稳,不能体现热负荷数据在超短时间内的波动情况,如图1所示。

      图1 扣除时间点输入的热负荷预测对比图
      Fig.1 Comparison chart of heat load forecasts deducted from time point input

      4)日期类型的相关度较低,所以本文将日期类型从输入参数中去除。

      2.2 特殊因素的影响

      采暖供热面积的改变和社会公共事件是影响热负荷预测的重要因素。采暖供热面积的增加会导致机组的热负荷上升,以对象机组2019年11月15日到11月19日和2020年11月15日到11月19日的热负荷曲线对比图为例,如图2所示。

      图2 2019年和2020年的部分热负荷对比图
      Fig.2 Comparison of partial heat loads in 2019 and 2020

      2020年与2019年相比,热负荷出现了整体性的增长。主要原因是采暖供热面积由284万m2增至350万m2,增长率约为30%。如果忽视这种整体性的特性漂移,直接使用历史供热数据进行预测,将由于训练样本和测试样本处于特征空间的不同区域,而造成额外的预测误差。如果考虑这一因素,可根据采暖供热面积的增长率对2019年热负荷进行修正,得到红色曲线作为训练样本,可以看出已基本与测试样处于同等数量等级,有助于提高预测精度。

      2019年修正曲线与2020年热负荷相比,可以发现两年的热负荷变化趋势也有明显变化。这是因为2019年底到2020年初正值疫情爆发阶段,居民用热习惯发生较大的改变。如果忽视这一公共事件,会造成预测热负荷的变化范围和变化时间节点不准确,如果考虑这一因素,可以在预测模型训练时多次随机抽取训练样本再将预测结果取算术平均,降低训练样本的用热习惯特征,从而改进训练样本的质量,进而提高预测精度。

      3 预测算法

      在上一章基于灰色关联度的特征选取的基础上,本章对4种算法(KNN、RF、GBDT、catboost)的建模效果进行实验分析。实验选取2019年11月15日到2020年3月14日的供热历史数据为训练数据(一个完整的供热季),2020年11月29日到2020年11月30日的供热历史数据为测试数据。考虑到2020年电厂的供热采暖面积增大,将模型预测值乘以变化系数K=1.3,对比不同算法模型的优劣。

      本实验采用平均误差作为评价模型的预测精度的性能指标,设实际数据预测数据则平均误差的计算公式如式(2)所示:

      除此以外,基于实际工程对模型计算速度的需要,本实验将模型的计算耗时也作为评价预测模型优劣的一项指标。

      3.1 算法对比

      最邻近节点(K-nearest neighbor,KNN)回归算法的核心思想是,如果一个样本在特征空间中与k个样本的距离最小,则该样本的标签值是k个样本的标签值的算术平均值(本文的标签值是热负荷)。该方法在确定回归决策上只依据最邻近的一个或者几个样本的标签值来决定待分样本的标签值。在KNN算法中,通过计算对象间距离来作为各个对象之间的非相似性指标,避免了对象之间的匹配问题,在这里距离一般使用欧氏距离或曼哈顿距离[11]

      KNN算法在给定训练集中数据的特征值和标签值的情况下,输入测试数据,将测试数据的特征值与训练集中对应的特征值进行相互比较,找到训练集中与之最为相近的前k个数据,则该测试数据对应的预测值就是前k个数据的标签值的算术平均值,其算法的基本流程如图3所示。

      图3 KNN回归算法流程图
      Fig.3 Flow chart of KNN regression algorithm

      随机森林(random forest,RF)算法的核心思想是从训练样本中有放回地随机抽取与训练样本个数相同的样本,然后利用cart树作为弱学习器进行训练,重复操作多次后将几个弱学习器相结合,将几个弱学习器的预测值取算术平均得到强学习器的预测结 果[12]。RF算法的基本流程如图4所示。

      图4 RF算法流程图
      Fig.4 RF algorithm flow chart

      如图4所示,RF采用了“有放回随机采样”:随机采集跟训练集个数m相同的样本,每次采集后将采集样本放回样本集,采集T次,得到采样集。RF的弱学习器采用的是cart回归树,在最后的结合策略使用简单平均法,对T个弱学习器(cart决策树)的回归结果进行算术平均得到最终的模型预测结果。

      RF相比于其他算法的优势在于其具有较高的泛化能力。对于一个样本,在m个样本的随机采样中,每次被采集到的概率是。在m次采样中没有采集到的概率如式(3)所示:

      m取极限得到式(4):

      即RF的每次随机采样中,训练集大约有36.8%的数据没有被采集。对于没被采样的数据,称为“袋外数据”,这些数据没有参与训练集模型的拟合。考虑到2019年供热季的疫情影响和2020年新增采暖面积中热用户的用热习惯,放弃“袋外数据”可以有效地提高预测模型的泛化能力。

      在上述两种算法的基础上,本文将梯度提升决策树算法(GBDT)[13]和梯度提升类别型特征算法(catboost)[14-15]加入到预测模型对比实验中,4种算法的预测值如图5所示。

      图5 4种算法的预测值与真实值对比
      Fig.5 Comparison of predicted and true values of the four algorithms

      4种算法的测算对比结果,如表2所示。

      表2 4种算法的测算结果对比图
      Table 2 Comparison chart of the calculation results of the four algorithms

      ?算法种类 平均误差 计算时间/s 趋势拟合RF 0.059 1.67 较好GBDT 0.059 2.18 一般catboost 0.057 133 较好KNN 0.043 1.48 较好

      从计算时间的角度来看,KNN算法的计算时间最短,catboost算法的计算时间过长,KNN算法的预测时间最短;从预测精度的角度来看,基于图5红框中的内容可以看出,KNN算法的预测精度明显高于其他3种算法,GBDT算法的预测值与真实值的偏差最大。综上所述,从预测精度和计算速度两个评价角度来说,KNN和RF算法模型的预测效果更好。

      3.2 基于KNN和RF的回归算法(KNN-RFAverage)

      KNN从历史数据中找寻与测试样本特征最相近的几个样本,一方面会使得平均误差更小,和真实值的拟合程度也较高,另一方面KNN受极端数据的影响也较大,因为疫情原因导致居民生活用热习惯的改变,局部时间段的热负荷变化趋势可能发生较大的改变,所以会出现和真实值变化趋势相差较大的情况;RF模型由于它有放回随机抽取训练样本的特点,所以预测结果的平均误差不如KNN,但是RF算法可以提高模型的泛化性,考虑到疫情原因导致居民用热习惯的改变,RF算法可以在一定程度上缓和居民用热习惯导致的热负荷极端变化的情况,使得预测曲线更加平滑稳定。

      为了进一步提高预测模型的性能,本文提出了同时保留KNN和RF各自优势的KNN-RF-Average算法,即将两种模型的预测结果取算术平均值,利用RF的平稳性来缓和KNN在局部出现的大幅度震荡。

      因为RF算法原理的随机抽样性使得每次训练时“袋外数据”包括不同的样本数据,这会导致每次预测结果不同,所以本方法将15次计算RF模型得到的预测值取算术平均作为RF的最终预测值,由于受到计算时间的限制,所以计算次数不宜过多。具体步骤如图6所示。

      图6 KNN-RF-Average算法流程图
      Fig.6 KNN-RF-Average algorithm flow chart

      4 算例分析

      本次实验基于KNN和RF算法得到两者的算术平均,使用2020年11月27日到30日的供热历史数据为测试数据,并将3种算法的预测结果进行对比,具体实施步骤如下:

      1) 数据预处理,为算法模型做好准备。

      2)本次实验的KNN预测模型选取k = 28,即找到与目标样本的特征值距离最近的28个样本,本次试验采用欧氏距离。

      3)本次实验的RF模型选取40棵cart回归树,即进行40次随机抽样。

      4)循环往复计算RF预测模型15次,并统计计算15次预测结果的算术平均值。

      5)计算KNN和RF算法的预测结果的算术平均。

      6)基于计算时间和计算精度两种评价指标对预测模型进行评价。

      KNN、RF和KNN-RF-Average三种方法的预测结果如图7和图8所示,其中KNN-RF-Average的平均误差为0.048。

      图7 KNN、RF及平均值的预测结果对比图
      Fig.7 Comparison of prediction results of KNN, RF and average

      图8 KNN、RF及平均值的预测结果对比图
      Fig.8 Comparison of prediction results of KNN, RF and average

      首先从预测精度的角度出发,从图7的圆形框中的内容可以看出,当时间在11月30日0点和23点左右时,KNN算法的预测值和真实值十分贴近,甚至连23点45分时的突然下降趋势也能预测到,相比于RF算法有更高的准确性,但是从图7的方框中的内容可以看出,在真实值有较大的上升趋势时,KNN却出现了较大的下降趋势,与真实值的误差非常大,而RF的预测曲线在这段时间内则要缓和很多。从图8的方框中的内容也可以发现,KNN的预测曲线与真实值的变化趋势正相反,差别较大,而RF的预测曲线则要相对缓和很多。

      由于KNN算法原理是选取特征值最相近的k个样本计算它们的的特征值均值,所以受到样本中极端数据的影响很大,一方面会使得KNN算法的预测值可以十分贴近突然增大或减少的真实值(如图7和图8中的圆形框所示);另一方面也会出现与真实值的变化趋势相反的情况(如图7和图8中的方框所示)。考虑到负荷预测问题中的一个重要考虑因素是可泛化性,KNN的预测曲线波动性较大,不能很好的满足可泛化性;而RF算法虽然不能很好地预测出热负荷的极端变化,但是它的预测曲线相比于KNN算法来说更加平稳,可以增大预测模型的可泛化性。所以将KNN和RF的算法模型相结合,既可以在一定程度上预测出热负荷的极端变化,又可以让预测曲线更加平稳,防止受训练数据的影响而出现的预测值变化趋势与真实值相反的问题,提高预测模型的可泛化性。

      5 总结

      本文开展了数据驱动的供热机组热负荷预测与建模研究,首先通过斜率拟合和均值代替的数据预处理方法为预测模型准备训练数据和测试数据,剔除其中的异常数据和连续多个缺失数据,然后基于灰色关联法分析了热负荷的各项影响因素与热负荷之间的相关度用于确定预测模型的输入参数,结果显示热负荷不仅与气象因素有关(其中室外温度和日照时间的影响最大),而且与日期类型和时间有很大的关联性,不同供热季的采暖面积不同或者社会因素的影响都会导致热负荷的大幅变化,需要根据实际情况对热负荷预测做出调整。实验对比了多种预测模型,结果显示KNN和RF在预测精度和计算速度上有着明显优势,其中KNN能够精确的反映出某些时刻热负荷的极端变化,而RF的预测结果更加平稳。最后,为了发挥KNN和RF各自的优势,本文提出将两种模型优化结合的KNN-RF-Average算法,将两种模型进行结合,既可以预测出热负荷的突变,又可以避免预测结果出现较大的波动所导致的误差。本文的成果适用于供热面积发生变化的供热机组参与深度调峰时需要预测第二日逐15分热负荷的问题,保障了供热机组的安全稳定运行,为供热机组参与深度调峰提供参考。

      基金项目

      作者简介

      • 刘培栋

        刘培栋(1990),男,汽轮机工程师,研究方向为汽轮机热力系统优化。通信作者,E-mail:liupeidong_seu@163.com。

      • 刘立巍

        刘立巍(1996),男,东南大学动力工程系硕士研究生,研究方向为智慧电厂,E-mail:2528426105@qq.com。

      出版信息

      文章编号:2096-5125 (2021) 06-0595-07

      中图分类号:TU995;TM73

      文献标志码:A

      DOI:10.19705/j.cnki.issn2096-5125.2021.06.009

      收稿日期:2021-04-16

      修回日期:2021-06-28

      出版日期:2021-11-25

      引用信息: 刘培栋,刘立巍,李明等.基于KNN和RF结合的供热机组热负荷预测研究[J].全球能源互联网,2021,4(6):595-601 .LIU Peidong, LIU Liwei , LI Ming,et al.Research on Heat Load Forecasting of Heating Unit Based on Combination of KNN and RF[J].Journal of Global Energy Interconnection,2021,4(6):595-601 (in Chinese).

      (责任编辑 张鹏)
      分享给微信好友或者朋友圈

      使用微信“扫一扫”功能
      将此文章分享给您的微信好友或者朋友圈