文章摘要:新能源其自身所固有的波动性、间歇性与随机性使电网的调度运行面临更加严峻的挑战。如何安排适应新能源出力不确定性的调度方案是调度部门亟待解决的问题。本文提出了基于生成对抗模仿学习的动态经济调度模型。首先构建生成器网络,使其通过观测系统状态生成调度策略。受强化学习近端策略优化算法目标函数的启发,创新地构造出生成器网络的损失函数,反向传递更新网络参数以优化调度策略。其次,本文借鉴美国电力市场的完美调度思想,可离线计算理想调度方案,并将其作为专家策略指导生成器网络的学习。进一步地,本文构建判别器网络,令其识别生成策略与完美调度策略,输出辨别结果,辅助生成器网络更新。在离线训练中,生成器与判别器在博弈对抗中达到纳什均衡状态;投入在线应用时,可根据新能源与负荷预测数据,安排兼顾经济性并考虑不确定性的火电机组出力计划。最后,利用算例分析验证了该模型的有效性。本文建立的模型无需对新能源出力不确定性建模,在完美调度策略的指导下,即可实现端到端的策略学习。本文算法离线训练时收敛迅速,在线应用时决策效率高,可为调度部门提供客观、有效的调度决策依据。
文章关键词:
论文DOI:10.13335/j.1000-3673.pst.2021.1998
论文分类号:TM73